热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

learning_ManifoldlearningbasedmethodsforanalyzingsinglecellRNAsequencingdata

https://doi.org/10.1016/j.coisb.2017.12.008 Yale university 2017年12月发布的基于机器学习中流形学习的单细胞

https://doi.org/10.1016/j.coisb.2017.12.008 

Yale university 2017年12月发布的基于机器学习中流形学习的单细胞降维降噪处理优化。

The manifold learning:

 假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。

 常见的MFL:PCA、MDS、diffusion mapping等,图下为不同方法的优劣简介。

技术分享图片

本文关键词:MFL(Manifold models can also be useful for analyzing data generated from disparate dynamics or profiles as the data can be modeled with several disconnected mani- folds)、DPT(a pseudotime trajectory through the data to describe a latent axis of development or cell state transition)、DPT method(to find a major axis of variability in the data, DPT defines a distance from a source cell to all other cells over a modified transition operator that includes only non- trivial diffusion components. This produces trajec- tories of nonlinear variation across a dataset)

而本文的思路是在分析scRNAseq的数据的第二步使用到了MFL:

gene selection, 

manifold learning, 

cell organization,

Dimensionality reduction and visualization,

Density estimation and clustering。

而整体的前三步统称为pseudotime methods。

下图清晰的展示出了文章的分析思路,图也草鸡美。我觉得我还要修炼些时日再做图,分析分析思路比较拿手哈哈哈:

技术分享图片

每个plot都会有对应的一个subtitle,理解作者在做什么足够。

其中,

主要的文章算法核心在下图:

技术分享图片



Comparison of pseudotime methods. Pseudotime methods(four kinds of method) may generally be broken down into three stages: gene selection, manifold learning, and cell organization.

从而作者提出了一些现存方法的局限性,



A current limitation of these methods is their reliance to varying degrees on assumptions about the underlying shape of the data (数据潜在形态的假设几何对后期分型影响很大)(e.g. a tree, bifurcating trajectory, etc.)

而他们开发的DPT,也就是最后一种方法:provideing two significant advantages over other pseudotemporal techniques. First, working directly on a diffusion map does not require any greedy computational steps(层级聚类的经典算法,每一步都是贪婪模型,也就是局部最优而不是树的全局最优). Second and most importantly, because DPT operates directly on the diffusion space, it features the least coarse graining or over-fitting of data into low-dimensional assumptions(DPT的工作对象是整体的扩散空间,而不是二分支结构以及树状结构,所以可以以最小的粗粒度过拟合到低维空间).






 文章最后的验证:

 

技术分享图片

三种降维分析的验证以及模拟数据点的jaccard index similarity validation in jaccard graph ,I mentioned in one piece of previous blog

 文章整篇都是叙述性的算法介绍,而没有任何公示和代码stick up。就本人拙见,比较重要的机器学习思维是其中的manifold learning,pseudotime method,以及根据MFL衍生出来的降维分析方法。

在这里贴一个MFL的CSDN博文,人家讲的贼好。

https://blog.csdn.net/chl033/article/details/6107042

 

技术分享图片

 


推荐阅读
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • Android日历提醒软件开源项目分享及使用教程
    本文介绍了一款名为Android日历提醒软件的开源项目,作者分享了该项目的代码和使用教程,并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能,以及添加日程提醒和查看详情的界面。同时,作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题,并提供了解决方法。 ... [详细]
  • Introduction(简介)Forbeingapowerfulobject-orientedprogramminglanguage,Cisuseda ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 无损压缩算法专题——LZSS算法实现
    本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 怀疑是每次都在新建文件,具体代码如下 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 本文介绍了一个适用于PHP应用快速接入TRX和TRC20数字资产的开发包,该开发包支持使用自有Tron区块链节点的应用场景,也支持基于Tron官方公共API服务的轻量级部署场景。提供的功能包括生成地址、验证地址、查询余额、交易转账、查询最新区块和查询交易信息等。详细信息可参考tron-php的Github地址:https://github.com/Fenguoz/tron-php。 ... [详细]
author-avatar
Gravitymann
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有