热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

20210719专著DataMiningTechniquesfortheLifeSciences(1)

目录专著DataMiningTechniquesfortheLifeSciences2009年第一版2016版第二版阅读笔记1.1核酸序列数据库1.2NCBI的基因组数据库和资源1

目录

    • 专著
      • Data Mining Techniques for the Life Sciences
        • 2009年第一版
        • 2016版第二版
      • 阅读笔记
        • 1.1 核酸序列数据库
        • 1.2 NCBI的基因组数据库和资源
          • 1. 简介
          • 2. 数据流
          • 3. Entrez: 文本搜索与数据获取系统
          • 4. 基因组数据库
          • 5. 原核基因组数据的分析工具
          • 6. 真核生物数据浏览
          • 7. 通过序列相似性进行搜索(BLAST)
          • 8. 基因组数据的FTP资源
          • 9. 总结
        • 1.3
      • 笔记

专著

Data Mining Techniques for the Life Sciences

Data Mining Techniques for the Life Sciences (DOI: 10.1007/978-1-60327-241-4)
Data Mining Techniques for the Life Sciences (DOI: 10.1007/978-1-4939-3572-7)
Cited as:
参见网页版各章节的 cite as

该图书属于 Methods in Molecular Biology 丛书。截至2021年7月,该丛书已出版2323本,涉及生物学与生物医学各类主题。

For over 35 years, biological scientists have come to rely on the research protocols and methodologies in the critically acclaimed Methods in Molecular Biology series. The series was the first to introduce the step-by-step protocols approach that has become the standard in all biomedical protocol publishing. Each protocol is provided in readily-reproducible step-by step fashion, opening with an introductory overview, a list of the materials and reagents needed to complete the experiment, and followed by a detailed procedure that is supported with a helpful notes section offering tips and tricks of the trade as well as troubleshooting advice. These hallmark features were introduced by series editor Dr. John Walker and constitute the key ingredient in each and every volume of the Methods in Molecular Biology series. Tested and trusted, comprehensive and reliable, all protocols from the series are indexed in PubMed.

Data Mining Techniques for the Life Sciences 目前有两版,分别出版于2009年12月和2016年4月,编辑是 Oliviero Carugo 和 Frank Eisenhaber 。

Oliviero Carugo 研究方向为大分子的结构化学,特别强调球状蛋白质三级和四级结构的分析、计算和生物信息学预测;
Frank Eisenhaber 的研究兴趣集中在从生物和医学数据中发现新的生物分子机制以及尚未表征的基因和通路的功能表征。 由于机理理解是生物技术、生物医学和临床应用的驱动力,这项工作促进了各种应用研究。 Frank Eisenhaber 是发现 SET 域甲基转移酶、ATGL、kleisins、许多新的蛋白质域功能(例如在 GPI 脂质锚生物合成途径中)的科学家之一,开发了用于翻译后修饰和亚细胞的准确预测工具定位和组学数据分析算法。

本书分为生命科学相关的数据库、数据技术与数据库应用三部分。

2009年第一版

第一部分 数据库

  • 核酸序列与结构数据库
  • NCBI的基因组数据库和资源
  • 蛋白序列数据库
  • 蛋白结构数据库
  • 蛋白结构域
  • 蛋白的热力学数据库
  • 酶数据库
  • 生物分子路径数据库
  • 蛋白相互作用与复合物数据库

第二部分 数据技术

  • 聚类分析的邻近度量
  • 聚类准则和算法
  • 神经网络
  • 支持向量机
  • 生物学中的隐马尔可夫模型

第三部分 数据库应用——打标及预测

  • ANNOTATOR 软件:基于序列进行功能预测
  • 基因从头搜索与比较搜索的计算方法
  • 非编码RNA的序列和结构分析
  • 构象无序性
  • 蛋白二级结构预测
  • 蛋白四级结构预测
  • 基于氨基酸序列的蛋白后翻译修饰的预测
  • 蛋白可结晶性(Protein Crystallizability)

2016版第二版

第一部分 数据库

  • NCBI的基因组数据库和资源——更新
  • 蛋白结构数据库
  • MIntAnt 项目于分子相互作用数据库
  • 蛋白热力学数据库应用于理解蛋白突变稳定性与设计稳定突变
  • 使用Kbdock分类与探索蛋白结构域相互作用
  • 大分子结构的数据挖掘
  • 为结构用户提取高质量PDB子集的准则
  • 基于同源性为大型蛋白数据集打标

第二部分 数据技术

  • 公开数据库中错误蛋白序列结构的辨识和修正
  • Improving the Accuracy of Fitted Atomic Models in Cryo-EM Density Maps of Protein Assemblies Using Evolutionary Information from Aligned Homologous Proteins
  • MIQS:一个有效的氨基酸替代矩阵的系统探索
  • 高通量生物表征的前景与不足
  • 使用STAR优化RNA-Seq映射(Mapping)

第三部分 数据库应用——打标及预测

  • 预测构象无序性
  • 利用底物结合残基的保守性对蛋白激酶进行分类
  • 利用广谱-统计的方法揭示DNA序列中的潜在调控结构
  • 蛋白可结晶性
  • 利用ngs.plot分析和可视化ChIP-Seq和RNA-Seq序列比对结果
  • 利用本体论进行数据挖掘
  • 宏基因组数据的功能分析
  • NGS时代的细菌基因组数据分析
  • 预测非同义变异体病理生理学效应的计算方法概述
  • 药物-靶标相互作用预测和药物重新定位的推荐技术
  • 蛋白质残基接触和预测方法
  • 基于蛋白序列的功能预测方法及其在 ANNOTATOR 软件环境中的实现

阅读笔记

1.1 核酸序列数据库

  • EMBL/GenBank/DDBJ 分别由欧洲、美国和日本维护的三个数据库,三个数据库保持信息同步。NCBI 提供了最著名的用于搜索数据库的网页界面。
  • 数据库的内容来自于全世界不同研究者提交的内容,因此数据质量无法保证。NCBI启动了RefSeq项目用于对基因组和转录组提供高质量的序列和标签。
  • 由于不了解分子生物学,因此忽略了对于其它类型的各种核酸数据库的介绍。

1.2 NCBI的基因组数据库和资源

1. 简介
  • NCBI 是基因组序列数据的主要公共存储库,收集和维护大量异质数据。 基因组、基因、基因表达、基因变异、基因家族、蛋白质和蛋白质域的数据在 NCBI 网站上与分析、搜索和检索资源集成在一起。 Entrez 是一种基于文本的搜索和检索系统,它提供了一种快速简便的方法来浏览不同的生物数据库。 Customized genomic BLAST 支持针对特定生物体序列数据的特殊集合进行序列相似性搜索,并使用 NCBI 的基因组浏览器 Map Viewer 在基因组环境中查看结果比对。比较基因组分析工具(Comparative genome analysis tools)有助于进一步了解进化过程。
  • 介绍了NCBI的数据组织方式,数据之间的关系的建立。实际上,网页上所体现的链接,与数据库中数据的组织样式是对应的。本文主要介绍了三种资源的文本搜索与获取方式:Entrez Genome, Entrez Gneome Project 和 Protein Clusters,并图示了两种其它的获取基因数据的方法。
2. 数据流
  • 序列数据分为初级和次级(curated or derived)。如GenBank中保存了原始的提交,而Reference Sequence Collection保存了次级数据。

TPA:experimental: Annotation of sequence data is supported by peer-reviewed wet-lab experimental evidence. (TPA: Third Party Annotation)
TPA:inferential: Annotation of sequence data by inference (where the source molecule or its product(s) have not been the subject of direct experimentation)
TPA:assembly: Assembly or reassembly of sequence data for which the generation, whether it is purely computational or informed by experimentation, has been subject to peer review. Feature annotation is not required to be part of the peer review for this TPA type. (Examples of such assemblies include complete viruses, mitochondria, or named biosynthetic gene clusters)
GenBank: An archival database of primary nucleotide sequences that were directly sequenced by the submitter.
RefSeq: A curated, non-redundant database that includes genomic DNA, transcript (RNA), and protein products, for major organisms. The sequence data are derived from GenBank primary data, and the annotation is computational, from published literature, or from domain experts.
(Retrived from https://www.ncbi.nlm.nih.gov/genbank/tpa/ at 2021.07.16.)

  • 数据管理系统包括了 ID 数据库和 IQ 数据库,来处理数据的提交、储存和获取。ID 数据库处理输入的序列,并且以数据子集提供给其它数据库来满足不同服务需求。IQ 数据库储存ID中的序列之间以及序列与其它资源的关系。

The data in ID system are stored in Abstract Syntax Notation (ASN.1) format, a standard descriptive language for describing structured information. NCBI has adopted ASN.1 language to describe the biological sequence and all related information (taxonomical, bibliographical) in a structured way. Many NCBI users think of the GenBank flatfile as the archetypal sequence data format. However, within NCBI and especially within the ID internal data flow system, ASN.1 is considered the original format from which reports such as the GenBank flatfile can be generated. As an object-oriented structured language, ASN.1 is easily transformed to other high-level programming languages such as XML, C, and C++. The NCBI Toolkit provides the converters between the data structures. Entrez display options allow to view the data in various text formats including ASN.1, XML, and GenBank flatfiles.
(For more information, please refer https://www.ncbi.nlm.nih.gov/Structure/asn1.html.)

3. Entrez: 文本搜索与数据获取系统
  • Entrez 是 NCBI 用于所有主要的数据库的基于文本的搜索和检索系统,它为生物医学信息提供了组织原则。(简单而言,它为异质数据提供了一个统一的搜索入口,同时将异质数据分类但有关联地组织起来。)

Entrez 节点指的是将数据分组和索引在一起的集合,每个节点包含一些常见常规和格式包括用于 Boolean 查询的术语列表和发布文件(即检索引擎),节点内和节点之间的链接,以及用于列出搜索结果的摘要格式,摘要格式中的每个记录称为 DocSum。在搜索时,每个 Entrez 节点中的搜索独立进行。

  • 在 https://www.ncbi.nlm.nih.gov/search/ 中搜索 mouse,查看结果。如下图(2021.07.16),提供了词在33个数据库中的搜索结果。数据库按照类别组织起来,并且包含了搜索结果的数量。

《2021-07-19 专著-Data Mining Techniques for the Life Sciences(1)》

  • 该系统的主要目标是可靠的信息存储以及高效的数据获取。同时该系统还在节点内和节点间提供链接,并且提供了外部链接。

节点间的链接包括,如基因组序列与基因组项目之间,序列与文献之间,核酸序列与蛋白序列之间。节点内的链接包括,如序列与序列依据相似性大小关联,文献与文献通过统计词项的频率关联,这种关联呈现在Related Articles上。

  • The Entrez Programming Utilities (eUtils) 使用固定的 URL 语法,将一组标准输入参数转换为各种 NCBI 软件组件搜索和检索数据所需的值,并代表了 Entrez 系统数据库的结构化接口。
    要访问这些数据,一个软件首先将 eUtils URL 发送到 NCBI,然后检索此访问的结果,然后根据需要处理数据。该软件可以使用任何编程语言,如 Perl、Python、Java 和C++,只要它可以发送 URL 到 eUtils 服务器,并解析 XML 响应。将 eUtil 组件组合到这些应用程序中形成自定义的数据管道是数据操作的强大方法。

学习 eUtils 请参考 https://www.ncbi.nlm.nih.gov/books/NBK25501/

4. 基因组数据库
  • 所有物种的初级基因组序列都存档在公共存储库中,这些存储库提供可靠、自由和稳定地访问序列信息。NCBI 提供多种基因组生物学工具和在线资源,包括包含许多相关网站和数据库链接的特定群体(group)和特定生物体(organism)页面。

  • Trace Repositories 指全基因组鸟枪测序(whole genome shotgun sequencing)的结果,相当于测序的原始数据。Trace指random short fragments。如 Trace Archive (Capillary-based sequencing technology);Short Read Archive (parallel sequencing techonology);GenBank,为初级序列库。

  • Entrez 数据库系列包含一个集成信息系统,将生物医学和书目数据的异类信息链接在一起。以下是三个 Entrez 数据库示例,其中包含有关基因组项目、基因组序列和由完整微生物基因组编码的蛋白质序列的信息。

  • Entrez Genome,包含了主要分类组的记录和格式,预先计算的数据和用来辅助搜索的在线工具,其内容包括病毒和有机体的基因组,细菌和真核生物的全基因组,Genome 中的一个条目代表一个复制子(replicon),如染色体、有机体或质粒;可用的工具包括:病毒的全基因组的多比对,GenePlot,TaxPlot,gMap等。

Microbial genome sequencing has come a long way since the first H. influenzae project. As of February 2008 public collection contains more than 600 complete genomes and close to 500 draft genome assemblies.

Query examples:Find all the chromosomes of Haemophilus influenzae
Haemophilus influenzae [organism] AND chromosome[replicon type]

  • Entrez Genome Project Database (GenomePrj) 是细胞生物完整和不完整(正在进行中)大规模测序、组装、注释和映射项目的集合。项目由有机体名称(或宏基因组项目名称)、测序中心和测序方法的组合定义。GenomePrj 是 Genome 数据库的伴生数据库(companion database)。

“A project is defined as a collection of INSDC database records originating from a single organization, or from a consortium of coordinated organizations. The collective database records from a project make up a complete genome or metagenome and may contain genomic sequence, EST libraries and any other sequences that contribute to the assembly and annotation of the genome or metagenome. Projects group records either from single organism studies or from metagenomic studies comprising communities of organisms.”

As of January 2008 Genome Project database contains 80 metagenomics project.

Query examples
Find all complete fungal genome projects.
fungi[ORGN] AND complete[SEQSTAT]
Find all projects that correspond to pathogens that can infect humans.
human[HOST]
Find all metagenomic projects
type_environmental[All Fields]

  • Entrez Protein Clusters,是从全原核和有机体的参考序列全基因组得到的相关蛋白的集合。所有来自微生物基因组、质粒和叶绿体的蛋白使用 all-against-all BLAST。基于序列比对和专家的考虑,可用做出聚类,并且进行信息标注:蛋白名称、基因名称、描述和文献链接。可以通过 Entrez 文本搜索或序列比对进行搜索。序列搜索使用 Concise Protein BLAST,与每个聚类中随机选择的蛋白进行BLAST比较。

As of January 2008, the database contains 1.4 million proteins that compose 6,043 curated clusters and more than 200,000 automatic clusters.

Query examples
Retrieve all clusters containing the protein beta galactosidase:
beta galactosidase [Protein Name]
Find all clusters associated with Escherichia coli:
Escherichia coli[Organism]

5. 原核基因组数据的分析工具
  • gMap, 通过基因组序列相似性比较基因组,用于 Genome 数据库,可视化及分析相关基因组的相似性区域。可以用于多种相似性层面,如跨域的或者仅有不同突变的。
  • Genome ProtMap,通过同源蛋白序列(orthologous protein sequence)来比较、展示基因组环境(genome neighborhoods)。展示同一个聚类中的、或具有相同 COG(Cluster of Orthologous Group)的蛋白附近 10kb 的基因环境。
  • Concise BLAST,使用 BLAST engine 在蛋白聚类数据集中进行蛋白或核酸搜索。在种(genus)水平上选择在每个聚类中选择一个代表性的序列。
6. 真核生物数据浏览
  • Map Viewer (目前已被 Genome Data Viewer 替代)。主要是不知道要用来干嘛。在基因组里找基因么?

https://www.ncbi.nlm.nih.gov/genome/gdv/
NCBI’s Genome Data Viewer – Getting Started (Oct 27, 2017)
https://www.youtube.com/watch?v=iPSq0VfU19c (介绍很简略,还是没懂)

7. 通过序列相似性进行搜索(BLAST)
  • 包括生物特异的基因组BLAST,多生物基因组BLAST等。
8. 基因组数据的FTP资源
  • 通过FTP可以获取 genbank,Genomes,RefSeq 和 Clusters。
9. 总结

1.3

完蛋,写的1.3没有保存。。。(2021-07-16)

笔记

  1. 感觉读这些资料类似于生信启蒙。
  2. 开发者的介绍文章,注重展现数据组织的内在逻辑;而作为应用者,在写文章介绍数据库时,需关注接口以及其内容是否可用满足特定的需求。(因为对于组织细节永远不可能比开发者知道的更详细。)
  3. 序列上的生物意义,也就是(重读)反映在序列本身的相似性和基因组环境的相似性上。
  4. 确实需要生信启蒙:
    (1) 获取序列及元数据:1. 数据库的访问 2. 序列数据的预处理,精炼
    (2) 获取结构及元数据
    (3) 利用序列或结构来获取特征及预测性质
    (4) 化学数据库的访问与化学信息学

推荐阅读
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
  • 本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取,用于解析LOCAL_LISTENER,并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例,并展示了listener.ora文件的内容。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 本文介绍了如何使用Express App提供静态文件,同时提到了一些不需要使用的文件,如package.json和/.ssh/known_hosts,并解释了为什么app.get('*')无法捕获所有请求以及为什么app.use(express.static(__dirname))可能会提供不需要的文件。 ... [详细]
  • 预备知识可参考我整理的博客Windows编程之线程:https:www.cnblogs.comZhuSenlinp16662075.htmlWindows编程之线程同步:https ... [详细]
  • 本文详细介绍了cisco路由器IOS损坏时的恢复方法,包括进入ROMMON模式、设置IP地址、子网掩码、默认网关以及使用TFTP服务器传输IOS文件的步骤。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了最长上升子序列问题的一个变种解法,通过记录拐点的位置,将问题拆分为左右两个LIS问题。详细讲解了算法的实现过程,并给出了相应的代码。 ... [详细]
  • Ihavethefollowingonhtml我在html上有以下内容<html><head><scriptsrc..3003_Tes ... [详细]
  • 本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量,或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频,只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量,只有使用JAVA编写Android客户端才能实现压缩。此外,作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因,并提供了解决方法。最后,作者还介绍了一个用于处理图片的类,可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • JDK源码学习之HashTable(附带面试题)的学习笔记
    本文介绍了JDK源码学习之HashTable(附带面试题)的学习笔记,包括HashTable的定义、数据类型、与HashMap的关系和区别。文章提供了干货,并附带了其他相关主题的学习笔记。 ... [详细]
author-avatar
小染雪_647
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有