热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

典型案例:Oracle数据库中超700TB的LOB存储

英国桑格研究院(WellcomeTrustSangerInstitute)是世界上最重要的生物技术研发中心之一,同时也是将基因研究转化为商业用途的重要基地,目前人类基因研究项

Oracle是否适合存储大量的非结构化数据?典型的成功案例是怎样的?


前一段就有朋友向我咨询这样的问题,就 Oracle存储大对象(LOB)的能力、性能和成功案例,我咨询了 Oracle ,提供了一个成功案例在此分享给大家。


英国桑格研究院(Wellcome Trust Sanger Institute)是世界上最重要的生物技术研发中心之一,同时也是将基因研究转化为商业用途的重要基地,目前人类基因研究项目正在该研究院进行。


桑格研究院使用 Oracle 数据库 LOB 形式存储生物基因信息,最新数据是存储容量超过了 700 TB。MPSA是桑格研究院其中的一个系统,数据库使用的是Oracle 11g,采用的SecureFiles存储方式,以下是几年前的公开数据说明,当时的数据容量是 512TB,每周增长4~5TB。


桑格研究院的数据库系统系统架构,采用的是Oracle标准的体系,RAC集群,ASM存储,生产中心是2套4节点的RAC集群,灾备中心是一套4节点RAC集群。


灾备和读写分离架构通过DataGuard实现,参考下图的体系,本地站点和灾备站点各部署了一套物理备库,目前的一个核心项目是:癌症基因组计划。


SecureFiles 是 Oracle Database 11g 的一个新特性,旨在为文件或非结构化数据提供与文件系统媲美的高性能,同时保留 Oracle 数据库 的优势。

可以说SecureFiles 集外部文件与数据库 LOB 方法的优点于一身,可以存储非结构化数据,允许加密、压缩、重复消除等。


下图是Oracle官方文档上给出的性能对比数据:


而且,在12c版本中,SecureFiles的压缩等功能获得大幅度的增强,大对象的存储,去重、压缩将更加节省用户的存储资源。



最后一点是科普,关于 Sanger ,值得我们所有人尊敬的科学家,我摘录了大段来自维基百科的文字,不节略。


弗雷德里克·桑格


弗雷德里克·桑格(Frederick Sanger,1918年8月13日-2013年11月19日,是一位英国生物化学家,曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。


早年

桑格于1918年8月13日出生于英国格洛斯特郡,父亲是一位医生。从布莱恩斯滕高中(Bryanston School)毕业后,桑格进入了剑桥大学圣约翰学院,并于1939年完成自然科学文学士学位。他原本打算研究医学,但后来转而对生物化学感兴趣,而剑桥在当时也正好有许多早期的生物化学先驱。桑格在1943年获得哲学博士学位。他在1940年时与玛格丽特·琼·豪(Margaret Joan Howe)结婚,他们育有两个儿子和一个女儿。


蛋白质与DNA序列研究

桑格在1955年将胰岛素的胺基酸序列完整地定序出来,同时证明蛋白质具有明确构造。他利用自己新发现的桑格试剂,也就是2,4-二硝基氟苯(2,4-dinitrofluorobenzene)将胰岛素降解成小片段,并与专门水解蛋白质的胰蛋白酶混合在一起。再将一部分混合物的样本置放于滤纸的一面,并利用一种色层分析方法来做进一步的实验,首先他将一种溶剂从单一方向通过滤纸,同时又让电流以相反向通过。


由于不同的蛋白质片段有不同的溶解度与电荷,因此在电泳后,这些片段最后会各自停留在不同的位置,产生特定的图案。桑格将此图案称为「指纹」;不同的蛋白质拥有不同的图案,成为可供辨识且可重现的特征。之后桑格又将小片段从新组合成胺基酸长链,进而推导出完整的胰岛素结构。因此得出结论,认为胰岛素具有特定的胺基酸序列。这项研究使他单独获得了1958年的诺贝尔化学奖。


1975年时,桑格发展出一种称为链终止法(chain termination method)的技术来测定DNA序列,这种方法也称做「双去氧终止法」(Dideoxy termination method)或是「桑格法」。两年之后,他利用此技术成功定序出Φ-X174噬菌体(Phage Φ-X174)的基因组序列。这也是首次完整的基因组定序工作。他所发明的技术比起当时其他方法使用了较不具毒性的材料。主要是先进行PCR,利用DNA引子和DNA聚合酶使DNA链得以展开复制,再利用双去氧核苷酸(dideoxynucleotides)来终止DNA链的合成。实验会使不同序列的DNA带有不同长度,使其得以经由电泳来做分析。


这项研究后来成为人类基因组计画等研究得以展开的关键之一,并使桑格于1980年再度获得诺贝尔化学奖,与桑格合作研究的沃特·吉尔伯特,以及另一团队的保罗·伯格(Paul Berg)也一同获奖。第二座诺贝尔奖使他成为继玛莉·居礼、莱纳斯·鲍林,以及约翰·巴丁之后的第四位两度获奖者。到了1979年,桑格又与吉尔伯特和伯格一同获得哥伦比亚大学的路易莎·格罗斯·霍维茨奖(Louisa Gross Horwitz Prize)。


近年影响

桑格于1982年退休,英国的维康信托基金会(Wellcome Trust)和医学研究理事会(Medical Research Council),于1993年成立了桑格中心(Sanger Centre),这座研究机构现在称为桑格研究院(Sanger Institute),地点位于英国剑桥,是世界上进行基因组研究的主要机构之一。 2007年,维康信托提供英国生物化学学会(British Biochemical Society)一项补助,使其为桑格从1989年以后的实验研究纪录进行建档及保存。

根据英国医学研究理事会2013年11月20日证实的消息,桑格于19日在剑桥一家医院熟睡中去世。


其他名誉及头衔

1954年成为皇家学会会员(FRS)。

1963年获得英帝国司令勋章(CBE)。

1981年获得名誉勋位(CH)。

1986年获得功绩勋章(OM)。


如何加入"云和恩墨大讲堂"微信群

搜索 盖国强(Eygle) :eeygle,或者扫描下面二维码,备注:云和恩墨大讲堂,即可入群。每周与千人共享免费技术分享,与讲师在线讨论。

近期文章

新年贺礼:云和恩墨大讲堂期刊发行

2015 Oracle 十大热门文章精选

Oracle 12c ASM 防火防盗新特性揭秘

DBA入门之路:学习与进阶之经验谈

DBA入门之路:关于日常工作的建议

三十八载,Oracle伴我同行—记我的成长之路

从Approx_Count_Distinct到M7的CPU集成

诊断工具与方法:从OS到数据库

Cloud时代DBA的DevOps最佳实践 - SQL 审核

Oracle Database 12.2新特性详解




推荐阅读
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • Windows7 64位系统安装PLSQL Developer的步骤和注意事项
    本文介绍了在Windows7 64位系统上安装PLSQL Developer的步骤和注意事项。首先下载并安装PLSQL Developer,注意不要安装在默认目录下。然后下载Windows 32位的oracle instant client,并解压到指定路径。最后,按照自己的喜好对解压后的文件进行命名和压缩。 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 本文讨论了如何在不使用SearchBar display controller的情况下,单独使用SearchBar并捕获其textChange事件。作者介绍了实际状况,即左侧SliderMenu中的SearchBar需要在主页TableView中显示搜索结果。然后,作者提供了解决方案和步骤,帮助读者实现这一功能。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文讨论了在openwrt-17.01版本中,mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下,而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等,生成后的mac地址会保存在/etc/config/network下。 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
author-avatar
mobiledu2502863015
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有