热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

GAERF:predictinglncRNAdiseaseassociationsbygraphautoencoderandrandomforest(通过图自动编码器和随机森林)

GAERF:predictinglncRNA-diseaseassociationsbygraphauto-encoderandrandomforest(通过图自动编码器和随机森林



GAERF: predicting lncRNA-disease associations by graph auto-encoder and random forest(通过图自动编码器和随机森林预测lncRNA-疾病的关联)是2021年才接收的论文,由安徽大学郑老师组的发表在Briefings in Bioinformatics上


文章目录


  • 摘要
  • 一、Introduction
  • 二、Materials and methods
    • 1.Matrix representation
    • 2.Construction of LMD network
    • 3.GAERF

  • 三、Results
  • 四、个人总结




摘要

预测疾病相关的长链非编码RNA(lncRNAs)有利于发现新的生物标志物,用于预防、诊断和治疗复杂的人类疾病。在本文中,我们提出了一种基于机器学习技术的分类方法,通过图自动编码器(GAE)和随机森林(GAERF)来识别疾病相关的lncRNA。首先,我们将lncRNA、miRNA和疾病的关系构建成一个异构网络。然后,GAE从网络中学习节点的低维表示向量,降低了生物数据的维数和异质性。将这些特征向量作为输入,我们训练了一个随机森林分类器来预测新的lncRNA-疾病关联。相关实验结果表明,该方法能够准确地表示lncRNA-疾病特征。由于集成学习方法,GAERF获得了优异的性能,显著优于其他方法。此外,案例研究进一步证明了GAERF是一种有效的预测lncRNA-疾病关联的方法。


一、Introduction

长非编码RNA(lncRNAs)由200多个核苷酸组成,长度没有明显的蛋白质编码潜力[1,2]。根据基因编码数据库的最新估计,人类基因组包含16 000个编码28 000多个不同基因的基因。然而,只有少数lncRNAs具有指定的功能[4]。

随着lncRNA研究的发展,越来越多的证据表明失调的lncRNA与多种疾病有关[5,6]。例如,据报道,MALAT1在多种癌症类型中过度表达[7,8]。MEG3 rs3087918与乳腺癌风险降低相关[9]。CRNDE通过促进POU2F1的表达促进肝细胞癌的进展[10]。SNHG5在鼻咽癌中作为肿瘤启动子[11]。SNHG7促进了鼻咽癌的增殖和迁移[12]。WWC2-AS1在辐射诱导的肠纤维化中高度表达[13]。LncRNA表达模式与急性髓系白血病的发展和进展密切相关[14]。这些研究表明,异常表达的lncRNAs可作为疾病诊断和预后的生物标志物以及癌症治疗的潜在靶点。

重要的是,越来越多的实验验证的关联使我们能够通过计算方法预测潜在的lncRNA关联。陈等人[15]首先提出了相似疾病往往与功能相似的非编码区带相关的假设,并发展了一种半监督方法,称为LRLSLDA。到目前为止,已经有大量的研究是基于数据库[16–20],研究人员提出了多种模型来预测LDAs[21–24]。这些模型中的一些基于随机游走预测疾病相关的lncrNA[25]。例如,陈等人[26]提出了一种称为IRWRLDA的模型,该模型基于改进的带重启的随机游走。IRWRLDA使用lncRNA表达相似度和疾病语义相似度作为随机游走的初始概率向量。于等人[27]开发了一个在有向双关系图上执行双随机游动的模型来预测LDAs。顾等[28]建立了预测LDAs的全局网络随机游走模型。这些模型可以应用于没有任何已知相关基因的疾病。

有些模型基于矩阵运算。傅等[29]构造了一种基于矩阵分解的方法,称为MFLDA。MFLDA通过矩阵三因子分解将异构数据源的数据矩阵分解为低秩矩阵,以探索和利用它们内在的共享结构。陆等[30]通过整合基因-疾病、基因-疾病和基因-基因关联,建立了诱导矩阵完成模型。宣等[31]提出了一个新的方法叫PMFILDA根据概率矩阵分解推断潜在的LDA。PMFILDA通过整合三个新构建的关联网络,构建了一个lncRNA-疾病加权关联网络,并基于疾病的语义相似度和lnc RNA函数的相似度,采用k近邻算法进一步更新。

另外,有些模型是基于深度学习的。宣等人提出了两个经典的基于CNN的预测模型,GCNLDA [32]和CNNDLP [33]。GCNLDA认为,一些模型未能深入整合包含lncRNAs、疾病和微小核糖核酸的异构网络[34–37]的拓扑信息,然后开发了图形卷积网络和卷积神经网络来学习lnc RNA-疾病对的网络和局部表示。CNNDLP认为,以前的大多数方法未能深入集成异构多源数据并从这些数据中学习低维特征表示,因此集成了来自异构源的多种数据,包括与lncRNAs、疾病和微小核糖核酸相关的关联、相互作用和相似性。与几种最先进的方法相比,这两种方法具有优越的性能。

虽然上述方法取得了很好的效果,但也存在一些局限性。基于随机游走和矩阵运算的方法很难挖掘出疾病网络中节点的拓扑信息;GCNLDA和CNNDLP模型的结构过于复杂,需要建立两个框架并调整许多参数,它们的性能可能会受到噪声(无关或低质量)数据的影响。为了解决这些问题,我们开发了一个基于图形自动编码器(GAE)和随机森林(射频)的LDAs预测模型(简称GAERF)。使用四个经典分类器和两种嵌入方法的大量对比实验证明了该方法的优越性能。此外,我们还利用外部数据集和实验验证的LDAs数据库来验证我们的模型的有效性。

简而言之,本研究有以下贡献:(1)利用已知的关联和前k个相似信息,创建一个由lncRNA、miRNA和疾病组成的异质网络(LMD网络),可以提供生物分子之间更精确的结构关系;(二)提出了一个结构简单的计算模型(GAE和RF)。GAE主要为图中的节点寻找合适的嵌入向量,并通过嵌入向量实现图的重构。得到的节点嵌入可以代表原始数据的主要成分,用于RF分类器;(3)提高计算模型的预测精度。


二、Materials and methods

在这项研究中,预测疾病相关lncRNA的数据集是从以前的工作中获得的[29,38]。数据集中有240个lncRNA、412种疾病和495个miRNAs,其中2697个LDAs来自Lnc2Cancer [39]、LncRNADisease [40]和GeneRIF [41]数据库,1002个lncRNA-MiRNA相互作用来自starBase [42]数据库,13562个MiRNA-疾病关联(MDAs)来自HMDD[43]数据库。


1.Matrix representation

给定l lncRNA、m miRNA和d疾病,它们的成对关联/相互作用分别由l×d LDAs矩阵LD、l×m lncRNA-miRNA相互作用矩阵LM和m×d MDAs矩阵MD表示。如果两种不同类型的生物分子之间存在关联/相互作用,则矩阵对应位置的元素值为1,否则为0。例如,如果ith lncRNA与jth疾病相关,则LD (i,j)=1,否则LD (i,j)=0

另外,lncRNA的功能相似矩阵按陈等[44]方法计算,∈R1×l表示;miRNA与疾病的相似矩阵按王等[45]的方法计算,分别用SML∈Rm×和SMD ∈ Rd×d表示。由于部分lncRNAs、miRNAs和疾病的相似度都为0,我们构建了基于LM和MD的高斯核相似度[23],并用高斯核相似度代替了SML、SMM和SMD中相应的0。最后,共有240×240个lncRNA相似性,495×495个miRNA相似性,412×412个疾病相似性。


2.Construction of LMD network

LncRNA和疾病的更多异质特征对于提高模型的准确性具有重要意义,但是一个没有相似性的模型是噪声数据,这将影响模型的性能。为了减少噪声数据,我们使用部分相似性得分来构建更精确的相似性矩阵。对于非负矩阵,向量SML (i),即矩阵SML的第I行,表示I本身和每个非负矩阵的相似性。我们只考虑前k个最相似的lncRNAs (i1,i2,…,ik) i n S M L (i) a n d认为它们将与lncRNA i相联系.同时,S M L (i)中的相应值,如SML(i,ij),j=1,2,…k设置为1,SML (i)中的其他值为0。经过预处理,我们得到了一个新的相似矩阵,表示为SL ∈ Rl×l,同样,我们得到了新的相似矩阵SM∈Rm×和SD ∈ Rd×dmiRNA和疾病。

基于关联矩阵和相似矩阵,我们可以构造LMD网络。LMD网络可以看作是一个无向图,它包括一个节点集和一个边集。每个节点代表一个基因,每个边代表连接的生物分子之间的关系。LMD网络的邻接矩阵可以表示为
在这里插入图片描述
其中LMT、L、DTT和MDT分别表示矩阵LM、LD和MD的转置。


3.GAERF

在这里插入图片描述
基于LMD网络,建立了图形嵌入和集成学习预测模型。GAERF的预测过程分为两个部分(如图1所示):GAE学习LMD网络的节点表示,RF预测潜在的LDAs。

图嵌入方法旨在从图中学习节点的低维表示向量[46–48]。有了这些表示向量,其他经典的机器学习算法可以应用于图形数据。GAE [49]在基于神经网络的图嵌入模型中,它使用GCN编码器和内积解码器来学习节点嵌入(见图2)。由于其简单的编解码结构和高效的编码能力,GAE被广泛应用于生物医学任务,如MDA预测[50,51],lnc RNA-miRNA相互作用预测[52],蛋白质-蛋白质相互作用预测[53]等。

给定LMD网络G的一个邻接矩阵H及其度矩阵d . 我们让 Z∈N×F表示 G中节点的随机潜在特征,其中N为节点数,F为特征维数。根据前人的工作[48],将F设置为100,将节点的原始特征初始化为单位矩阵I。

编码器是一个简单的两层图形卷积网络,定义如下:
在这里插入图片描述
其中∨H = D 1/2HD-1/2,ReLU(x)=max (0,x)指模型的激活函数,Wiis为第ith层的参数矩阵。

解码器计算两个节点之间的边的概率来重建图形
在这里插入图片描述
其中sigmoid(x)= 1 1+e外部参照激活函数,Z=GCN (I,H)。

为了测量重建图和原始图之间的差异,损失函数L被定义为
在这里插入图片描述
其中y表示邻接矩阵H中元素的值(0或1),n d y表示重构邻接矩阵H中相应元素的值(在0和1之间)。

通过GAE,我们获得了LMD网络中节点的潜在特征表示,每个lncRNA疾病对由一个200维向量表示。然后,实施RF来预测潜在的lncRNA-疾病关联。RF对噪声和稀疏数据具有较高的分类精度和良好的鲁棒性。它已被广泛应用于计算生物学。例如,陈等人[54]开发了一个用RF预测miRNA-疾病关联的模型。Dezs˝等人[55]提出了一种基于RF的方法来对蛋白质进行评分,以生成新靶标的可药物性评分。张等[56]利用RF从大规模,噪声和稀疏数据预测药物-药物相互作用。

RF是通过使用训练集构建大量决策树并输出结果来操作的(见图3)。它有三个重要参数,最大特征数、树数和最小样本叶大小。这些参数对RF的性能影响很大。然而,我们将树的数量设置为500,并将其他参数设置为默认值,GAERF可以实现出色的性能。经过训练,我们得到了一个可以推断的预测模型
通过对lncRNA-疾病配对进行评分来评估潜在的LDA。lncRNA-疾病对的较高分数表明lncRNA更有可能与疾病相关。
在这里插入图片描述


三、Results

老套路


四、个人总结

值的学习的点:
1、作者在整合相似性的时候,选取了前k个最大相似性值来用,来减少噪声,觉得这个处理数据的小方法还是不错的。
2、作者做的实验工作非常充足。
个人观点:
1、由于自身也是做lncRNA-disease关联预测的,看到这篇论文时,实在觉得没啥太大的创新,但是实验做的挺多,但也都是传统套路吧,有些是审稿人常要加的实验。简单来说,作者的方法包括两个部分,一部分使用图自动编码器提取lncRNA和疾病特征,第二部分用随机森林作为分类器来进行分类。

2、说一下和前人工作重复的点,(1)作者构建网络时,也是参考了GCNLDA的这篇文章的方法,以及BIB去年发的一篇VADLP(玄老师组常用的构建方法)的论文,包括使用的数据也是一样(都是从余老师(MFLDA)之前发的论文中提取来的)。(2)作者使用了图卷积相当于是采用GCNLDA这篇论文的一个分支。(GCNDLP包括两个分支,一个CNN,一个GCN)。(3)作者将GCNLDA和VADLP的工作中基于神经网络的分类器换成随机森林来分类。作者觉得GCNLDA和VADLP这两篇工作做的复杂,所以就简化了,相当于拿出人家的部分工作又重新做了一遍。感觉没有什么太大的创新。
仅为个人观点,并没有批判之意



推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • MySQL数据库锁机制及其应用(数据库锁的概念)
    本文介绍了MySQL数据库锁机制及其应用。数据库锁是计算机协调多个进程或线程并发访问某一资源的机制,在数据库中,数据是一种供许多用户共享的资源,如何保证数据并发访问的一致性和有效性是数据库必须解决的问题。MySQL的锁机制相对简单,不同的存储引擎支持不同的锁机制,主要包括表级锁、行级锁和页面锁。本文详细介绍了MySQL表级锁的锁模式和特点,以及行级锁和页面锁的特点和应用场景。同时还讨论了锁冲突对数据库并发访问性能的影响。 ... [详细]
  • 深入理解Java虚拟机的并发编程与性能优化
    本文主要介绍了Java内存模型与线程的相关概念,探讨了并发编程在服务端应用中的重要性。同时,介绍了Java语言和虚拟机提供的工具,帮助开发人员处理并发方面的问题,提高程序的并发能力和性能优化。文章指出,充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 本文介绍了Windows操作系统的版本及其特点,包括Windows 7系统的6个版本:Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统,具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本,缺乏Aero特效功能,没有64位支持,最初设计不能同时运行三个以上应用程序。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的,并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中,由于CPU速度 ... [详细]
  • HashMap的相关问题及其底层数据结构和操作流程
    本文介绍了关于HashMap的相关问题,包括其底层数据结构、JDK1.7和JDK1.8的差异、红黑树的使用、扩容和树化的条件、退化为链表的情况、索引的计算方法、hashcode和hash()方法的作用、数组容量的选择、Put方法的流程以及并发问题下的操作。文章还提到了扩容死链和数据错乱的问题,并探讨了key的设计要求。对于对Java面试中的HashMap问题感兴趣的读者,本文将为您提供一些有用的技术和经验。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有