热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

GAERF:predictinglncRNAdiseaseassociationsbygraphautoencoderandrandomforest(通过图自动编码器和随机森林)

GAERF:predictinglncRNA-diseaseassociationsbygraphauto-encoderandrandomforest(通过图自动编码器和随机森林



GAERF: predicting lncRNA-disease associations by graph auto-encoder and random forest(通过图自动编码器和随机森林预测lncRNA-疾病的关联)是2021年才接收的论文,由安徽大学郑老师组的发表在Briefings in Bioinformatics上


文章目录


  • 摘要
  • 一、Introduction
  • 二、Materials and methods
    • 1.Matrix representation
    • 2.Construction of LMD network
    • 3.GAERF

  • 三、Results
  • 四、个人总结




摘要

预测疾病相关的长链非编码RNA(lncRNAs)有利于发现新的生物标志物,用于预防、诊断和治疗复杂的人类疾病。在本文中,我们提出了一种基于机器学习技术的分类方法,通过图自动编码器(GAE)和随机森林(GAERF)来识别疾病相关的lncRNA。首先,我们将lncRNA、miRNA和疾病的关系构建成一个异构网络。然后,GAE从网络中学习节点的低维表示向量,降低了生物数据的维数和异质性。将这些特征向量作为输入,我们训练了一个随机森林分类器来预测新的lncRNA-疾病关联。相关实验结果表明,该方法能够准确地表示lncRNA-疾病特征。由于集成学习方法,GAERF获得了优异的性能,显著优于其他方法。此外,案例研究进一步证明了GAERF是一种有效的预测lncRNA-疾病关联的方法。


一、Introduction

长非编码RNA(lncRNAs)由200多个核苷酸组成,长度没有明显的蛋白质编码潜力[1,2]。根据基因编码数据库的最新估计,人类基因组包含16 000个编码28 000多个不同基因的基因。然而,只有少数lncRNAs具有指定的功能[4]。

随着lncRNA研究的发展,越来越多的证据表明失调的lncRNA与多种疾病有关[5,6]。例如,据报道,MALAT1在多种癌症类型中过度表达[7,8]。MEG3 rs3087918与乳腺癌风险降低相关[9]。CRNDE通过促进POU2F1的表达促进肝细胞癌的进展[10]。SNHG5在鼻咽癌中作为肿瘤启动子[11]。SNHG7促进了鼻咽癌的增殖和迁移[12]。WWC2-AS1在辐射诱导的肠纤维化中高度表达[13]。LncRNA表达模式与急性髓系白血病的发展和进展密切相关[14]。这些研究表明,异常表达的lncRNAs可作为疾病诊断和预后的生物标志物以及癌症治疗的潜在靶点。

重要的是,越来越多的实验验证的关联使我们能够通过计算方法预测潜在的lncRNA关联。陈等人[15]首先提出了相似疾病往往与功能相似的非编码区带相关的假设,并发展了一种半监督方法,称为LRLSLDA。到目前为止,已经有大量的研究是基于数据库[16–20],研究人员提出了多种模型来预测LDAs[21–24]。这些模型中的一些基于随机游走预测疾病相关的lncrNA[25]。例如,陈等人[26]提出了一种称为IRWRLDA的模型,该模型基于改进的带重启的随机游走。IRWRLDA使用lncRNA表达相似度和疾病语义相似度作为随机游走的初始概率向量。于等人[27]开发了一个在有向双关系图上执行双随机游动的模型来预测LDAs。顾等[28]建立了预测LDAs的全局网络随机游走模型。这些模型可以应用于没有任何已知相关基因的疾病。

有些模型基于矩阵运算。傅等[29]构造了一种基于矩阵分解的方法,称为MFLDA。MFLDA通过矩阵三因子分解将异构数据源的数据矩阵分解为低秩矩阵,以探索和利用它们内在的共享结构。陆等[30]通过整合基因-疾病、基因-疾病和基因-基因关联,建立了诱导矩阵完成模型。宣等[31]提出了一个新的方法叫PMFILDA根据概率矩阵分解推断潜在的LDA。PMFILDA通过整合三个新构建的关联网络,构建了一个lncRNA-疾病加权关联网络,并基于疾病的语义相似度和lnc RNA函数的相似度,采用k近邻算法进一步更新。

另外,有些模型是基于深度学习的。宣等人提出了两个经典的基于CNN的预测模型,GCNLDA [32]和CNNDLP [33]。GCNLDA认为,一些模型未能深入整合包含lncRNAs、疾病和微小核糖核酸的异构网络[34–37]的拓扑信息,然后开发了图形卷积网络和卷积神经网络来学习lnc RNA-疾病对的网络和局部表示。CNNDLP认为,以前的大多数方法未能深入集成异构多源数据并从这些数据中学习低维特征表示,因此集成了来自异构源的多种数据,包括与lncRNAs、疾病和微小核糖核酸相关的关联、相互作用和相似性。与几种最先进的方法相比,这两种方法具有优越的性能。

虽然上述方法取得了很好的效果,但也存在一些局限性。基于随机游走和矩阵运算的方法很难挖掘出疾病网络中节点的拓扑信息;GCNLDA和CNNDLP模型的结构过于复杂,需要建立两个框架并调整许多参数,它们的性能可能会受到噪声(无关或低质量)数据的影响。为了解决这些问题,我们开发了一个基于图形自动编码器(GAE)和随机森林(射频)的LDAs预测模型(简称GAERF)。使用四个经典分类器和两种嵌入方法的大量对比实验证明了该方法的优越性能。此外,我们还利用外部数据集和实验验证的LDAs数据库来验证我们的模型的有效性。

简而言之,本研究有以下贡献:(1)利用已知的关联和前k个相似信息,创建一个由lncRNA、miRNA和疾病组成的异质网络(LMD网络),可以提供生物分子之间更精确的结构关系;(二)提出了一个结构简单的计算模型(GAE和RF)。GAE主要为图中的节点寻找合适的嵌入向量,并通过嵌入向量实现图的重构。得到的节点嵌入可以代表原始数据的主要成分,用于RF分类器;(3)提高计算模型的预测精度。


二、Materials and methods

在这项研究中,预测疾病相关lncRNA的数据集是从以前的工作中获得的[29,38]。数据集中有240个lncRNA、412种疾病和495个miRNAs,其中2697个LDAs来自Lnc2Cancer [39]、LncRNADisease [40]和GeneRIF [41]数据库,1002个lncRNA-MiRNA相互作用来自starBase [42]数据库,13562个MiRNA-疾病关联(MDAs)来自HMDD[43]数据库。


1.Matrix representation

给定l lncRNA、m miRNA和d疾病,它们的成对关联/相互作用分别由l×d LDAs矩阵LD、l×m lncRNA-miRNA相互作用矩阵LM和m×d MDAs矩阵MD表示。如果两种不同类型的生物分子之间存在关联/相互作用,则矩阵对应位置的元素值为1,否则为0。例如,如果ith lncRNA与jth疾病相关,则LD (i,j)=1,否则LD (i,j)=0

另外,lncRNA的功能相似矩阵按陈等[44]方法计算,∈R1×l表示;miRNA与疾病的相似矩阵按王等[45]的方法计算,分别用SML∈Rm×和SMD ∈ Rd×d表示。由于部分lncRNAs、miRNAs和疾病的相似度都为0,我们构建了基于LM和MD的高斯核相似度[23],并用高斯核相似度代替了SML、SMM和SMD中相应的0。最后,共有240×240个lncRNA相似性,495×495个miRNA相似性,412×412个疾病相似性。


2.Construction of LMD network

LncRNA和疾病的更多异质特征对于提高模型的准确性具有重要意义,但是一个没有相似性的模型是噪声数据,这将影响模型的性能。为了减少噪声数据,我们使用部分相似性得分来构建更精确的相似性矩阵。对于非负矩阵,向量SML (i),即矩阵SML的第I行,表示I本身和每个非负矩阵的相似性。我们只考虑前k个最相似的lncRNAs (i1,i2,…,ik) i n S M L (i) a n d认为它们将与lncRNA i相联系.同时,S M L (i)中的相应值,如SML(i,ij),j=1,2,…k设置为1,SML (i)中的其他值为0。经过预处理,我们得到了一个新的相似矩阵,表示为SL ∈ Rl×l,同样,我们得到了新的相似矩阵SM∈Rm×和SD ∈ Rd×dmiRNA和疾病。

基于关联矩阵和相似矩阵,我们可以构造LMD网络。LMD网络可以看作是一个无向图,它包括一个节点集和一个边集。每个节点代表一个基因,每个边代表连接的生物分子之间的关系。LMD网络的邻接矩阵可以表示为
在这里插入图片描述
其中LMT、L、DTT和MDT分别表示矩阵LM、LD和MD的转置。


3.GAERF

在这里插入图片描述
基于LMD网络,建立了图形嵌入和集成学习预测模型。GAERF的预测过程分为两个部分(如图1所示):GAE学习LMD网络的节点表示,RF预测潜在的LDAs。

图嵌入方法旨在从图中学习节点的低维表示向量[46–48]。有了这些表示向量,其他经典的机器学习算法可以应用于图形数据。GAE [49]在基于神经网络的图嵌入模型中,它使用GCN编码器和内积解码器来学习节点嵌入(见图2)。由于其简单的编解码结构和高效的编码能力,GAE被广泛应用于生物医学任务,如MDA预测[50,51],lnc RNA-miRNA相互作用预测[52],蛋白质-蛋白质相互作用预测[53]等。

给定LMD网络G的一个邻接矩阵H及其度矩阵d . 我们让 Z∈N×F表示 G中节点的随机潜在特征,其中N为节点数,F为特征维数。根据前人的工作[48],将F设置为100,将节点的原始特征初始化为单位矩阵I。

编码器是一个简单的两层图形卷积网络,定义如下:
在这里插入图片描述
其中∨H = D 1/2HD-1/2,ReLU(x)=max (0,x)指模型的激活函数,Wiis为第ith层的参数矩阵。

解码器计算两个节点之间的边的概率来重建图形
在这里插入图片描述
其中sigmoid(x)= 1 1+e外部参照激活函数,Z=GCN (I,H)。

为了测量重建图和原始图之间的差异,损失函数L被定义为
在这里插入图片描述
其中y表示邻接矩阵H中元素的值(0或1),n d y表示重构邻接矩阵H中相应元素的值(在0和1之间)。

通过GAE,我们获得了LMD网络中节点的潜在特征表示,每个lncRNA疾病对由一个200维向量表示。然后,实施RF来预测潜在的lncRNA-疾病关联。RF对噪声和稀疏数据具有较高的分类精度和良好的鲁棒性。它已被广泛应用于计算生物学。例如,陈等人[54]开发了一个用RF预测miRNA-疾病关联的模型。Dezs˝等人[55]提出了一种基于RF的方法来对蛋白质进行评分,以生成新靶标的可药物性评分。张等[56]利用RF从大规模,噪声和稀疏数据预测药物-药物相互作用。

RF是通过使用训练集构建大量决策树并输出结果来操作的(见图3)。它有三个重要参数,最大特征数、树数和最小样本叶大小。这些参数对RF的性能影响很大。然而,我们将树的数量设置为500,并将其他参数设置为默认值,GAERF可以实现出色的性能。经过训练,我们得到了一个可以推断的预测模型
通过对lncRNA-疾病配对进行评分来评估潜在的LDA。lncRNA-疾病对的较高分数表明lncRNA更有可能与疾病相关。
在这里插入图片描述


三、Results

老套路


四、个人总结

值的学习的点:
1、作者在整合相似性的时候,选取了前k个最大相似性值来用,来减少噪声,觉得这个处理数据的小方法还是不错的。
2、作者做的实验工作非常充足。
个人观点:
1、由于自身也是做lncRNA-disease关联预测的,看到这篇论文时,实在觉得没啥太大的创新,但是实验做的挺多,但也都是传统套路吧,有些是审稿人常要加的实验。简单来说,作者的方法包括两个部分,一部分使用图自动编码器提取lncRNA和疾病特征,第二部分用随机森林作为分类器来进行分类。

2、说一下和前人工作重复的点,(1)作者构建网络时,也是参考了GCNLDA的这篇文章的方法,以及BIB去年发的一篇VADLP(玄老师组常用的构建方法)的论文,包括使用的数据也是一样(都是从余老师(MFLDA)之前发的论文中提取来的)。(2)作者使用了图卷积相当于是采用GCNLDA这篇论文的一个分支。(GCNDLP包括两个分支,一个CNN,一个GCN)。(3)作者将GCNLDA和VADLP的工作中基于神经网络的分类器换成随机森林来分类。作者觉得GCNLDA和VADLP这两篇工作做的复杂,所以就简化了,相当于拿出人家的部分工作又重新做了一遍。感觉没有什么太大的创新。
仅为个人观点,并没有批判之意



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的,并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中,由于CPU速度 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度
    介绍在我们学习机器算法的时候,可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器,但你要明白这些兵器是需要在合适的时间合理 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有