热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MIT设计深度学习框架登Nature封面,预测非编码区DNA突变

来源:ScienceAI作者:RaleighMcElvery编辑:小舟、张倩来自MIT和哈佛大学博德研究所等机构的一项研究刚刚登上了Nat

db963f76e13ae89e3d5f204427db3d59.png

来源:ScienceAI

作者:Raleigh McElvery

编辑:小舟、张倩

来自 MIT 和哈佛大学博德研究所等机构的一项研究刚刚登上了 Nature 封面。他们创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药、寻找包括癌症和自身免疫性疾病在内的疾病新疗法。

尽管每个人类细胞都包含大量基因,但所谓的「编码」DNA 序列仅占人类整个基因组的 1%。剩下的 99% 由「非编码」DNA 组成,非编码 DNA 不携带构建蛋白质的指令。

这种非编码 DNA(也称为调控 DNA)的一个重要功能是帮助打开和关闭基因,控制蛋白质的合成量。随着时间的推移,细胞复制它们的 DNA 以生长和分裂,这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。这些突变大多是微不足道的,但有时可能会增加一些疾病风险,包括癌症。

为了更好地了解此类突变的影响,研究人员一直在努力研究数学图谱,这些图谱使他们能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。在生物学中,这些图谱被称为「适应度地形(fitness landscape)」,大约在一个世纪前被概念化,以了解基因构成如何影响一种常见的有机体适应度,特别是繁殖成功率。

早期的适应度地形非常简单,通常只关注有限数量的突变。现在有更丰富的数据集可以使用,但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地理解单个基因如何随着时间的推移而进化,而且还有助于预测未来可能发生的序列和表达变化。

近日,来自麻省理工学院和哈佛大学博德研究所等机构的研究者开发了一种新框架来研究调控 DNA 的适应度地形。该研究利用在数亿次实验测量结果上进行训练的神经网络模型,预测酵母菌 DNA 中非编码序列的变化及其对基因表达的影响,登上了最新一期《自然》杂志的封面。

11cd7e2e1e7bfb2ebea8d330448bad98.png

论文地址:https://www.nature.com/articles/s41586-022-04506-6

该研究还设计了一种以二维方式表示适应度地形的独特方式,使其对于酵母以外的其他生物也能够理解已有的实验结果并预测非编码序列的未来演变,甚至有望为基因治疗和工业应用设计自定义的基因表达模式。

该研究的主要作者之一、MIT 生物学教授 Aviv Regev 说:「科学家们现在可以使用该模型解决一些进化问题或完成一些设想,例如以所需方式制作控制基因表达的序列。」

1175dc69595ca4b66746f84e272bbc78.png

Aviv Regev

在这项研究之前,许多研究人员只是简单地在自然界存在的已知突变上训练他们的模型。然而,Regev 的团队想要更进一步。他们建立了自己的无偏模型,该模型能够基于任何可能的 DNA 序列,甚至是以前从未见过的序列,预测生物体的适应度和基因表达。研究人员将能够利用这些模型来设计细胞,研发新药,寻找包括癌症和自身免疫性疾病在内的疾病新疗法。

为了实现这一目标,麻省理工学院研究生 Eeshit Dhaval Vaishnav、哥伦比亚大学助理教授 Carl de Boer(论文共同一作)等人创建了一个神经网络模型来预测基因表达。他们在一个数据集上训练模型,并观察每个随机序列如何影响基因表达,该数据集是通过将数百万个完全随机的非编码 DNA 序列插入酵母菌中生成的。他们专注于非编码 DNA 序列的一个特定子集——启动子,它是蛋白质的结合位点,可以打开或关闭附近的基因。

Regev 说,「这项工作表明,当我们设计新的实验来生成正确的数据以训练模型时,将会出现什么样的可能性。从更广泛的意义上说,我相信这些方法对许多问题都很重要,比如理解人类基因组中带来疾病风险的调控区域的遗传变异,以及预测突变组合的影响,或设计新的分子。」

Regev、Vaishnav、de Boer 和他们的合著者继续以各种方式测试他们的模型的预测能力。「创建一个准确的模型当然是一项成就,但对我来说,这只是一个起点,」Vaishnav 解释道。

首先,为了确定他们的模型是否有助于合成生物学应用,如生产抗生素、酶和食物,研究人员使用它来设计能够为任何感兴趣的基因产生所需表达水平的启动子。然后,他们查阅了其他的科学论文,以确定基本的演化问题,看看他们的模型能否帮助解答这些问题。该团队甚至还从一项现有研究中获取了真实世界的种群数据集,其中包含了世界各地酵母菌株的遗传信息。通过这些方法,他们能够描绘出过去数千年的选择压力,这种压力塑造了今天的酵母基因组。

但是,为了创造一个可以探测所有基因组的强大工具,研究人员需要找到一种方法,在没有这样一个全面的种群数据集的情况下预测非编码序列的进化。为了实现这一目标,Vaishnav 和他的同事们设计了一种计算方法,允许他们将来自框架的预测绘制到二维图上。这帮助他们以非常简单的方式展示了任何非编码 DNA 序列如何影响基因表达和适应度,而无需在实验室工作台进行任何耗时的实验。

0814a151fa3fb3ef6cea3c43cc76ee7b.png

Vaishnav 解释说:「之前,适应度地形中有一个未解决的问题,即没有一种方法可以以一种有意义地捕捉序列进化特性的方式将它们可视化。我真的很想找到一种方法来填补这一空白,并为创造一个完整的适应度环境的长期愿景做出贡献。」

爱丁堡大学医学研究委员会人类遗传学部门的遗传学教授 Martin Taylor 表示,这项研究表明,人工智能不仅可以预测调控 DNA 变化的影响,还可以揭示支配数百万年进化的潜在原则。

尽管该模型只在少数几种生长条件下的一小部分酵母调节 DNA 上进行了训练,但让他印象深刻的是,这个模型竟然能够对哺乳动物基因调控的进化做出如此有用的预测。

这项研究因其在设计生物 DNA 序列方面的重要影响而受到诸多关注,甚至在该研究正式发表之前,Vaishnav 就已经收到了一些研究人员的询问,希望将该模型设计用于基因治疗的非编码 DNA 序列。

这项工作近期已经有了一些具体的应用,包括在酿造、烘焙和生物技术中为酵母自定义设计调控 DNA。 

Martin Taylor 还评价称:「这项工作未来有望帮助识别人类调控 DNA 中的疾病突变,这些突变目前在临床上很难找到并且在很大程度上被忽视了。这项工作表明,在更丰富、更复杂和更多样化的数据集上训练的基因调控 AI 模型有着光明的未来。」

原文链接:

https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

8fd4b2d4f30284480fd0d5df8535d0e5.png



推荐阅读
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 像跟踪分布式服务调用那样跟踪Go函数调用链 | Gopher Daily (2020.12.07) ʕ◔ϖ◔ʔ
    每日一谚:“Acacheisjustamemoryleakyouhaven’tmetyet.”—Mr.RogersGo技术专栏“改善Go语⾔编程质量的50个有效实践” ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
author-avatar
曾经的诺系列
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有