热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

差异表达基因变化倍数_GEO2R差异表达分析软件

前两天我们对GEO数据库来了一个大致的介绍。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果。所有的表达芯片做的差异表达分析都是基

前两天我们对GEO数据库来了一个大致的介绍。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果。所有的表达芯片做的差异表达分析都是基于limma的算法来的。我们今天介绍的这个GEO2R也只是把这个算法更加方便使用了而已。

PS:GEO2R只是适用于表达谱芯片。对于二代测序是不适用的,我们下面说到的数据类型都是表达谱芯片来进行阐述的。

1 所谓差异分析

我们在进行科学研究的时候,同样也是需要比较才能得到结果的。通常我们研究一个疾病的时候,其实都会有一个隐藏的目标伴随着来进行研究的。例如我们要研究TP53是否和胃癌的发生相关,那我们收集的数据除了胃癌患者当中的TP53的基因表达水平,也要收集正常对照人群的表达变化,通过两者的对比来确定TP53的表达变化是否和胃癌有关。

对于表达谱芯片而言,我们会得到上万的基因的表达量变化,但是这上万的基因不一定都参与疾病的发生。我们进行差异分析的目的也是要得到和疾病相关的那些变化基因。毕竟这些基因才是符合我们研究目的的。

237013945825a34a232272d143b1e7f3.png

2 GEO2R

GEO2R就是一个基于GEO数据库来对表达谱芯片进行差异分析的一个软件。我们在每个数据集的下面都可以看到这个软件的的入口。例如:GSE79973我们就可以在数据集的下面看到这个分析入口。

2a00564700e60aad05a7839e7f4a3567.png

软件的整体操作还是很简单的,我们需要做的就是

2.1 制定数据分组

前面提到,我们需要两组或者多组之间比较才能得到差异的结果,所以我们第一步需要做的就是来制定我们想要的分组。这里我们可以基于自己想要的分组名称来填写即可。

需要注意的是,如果是两组的话,我们要先选择对照组;再选择处理组。如果这里输入反了,就导致我们结果是反的。

2e5bebefc543c5dbd65f0dd35b181b5e.png

2.2 选择相对应的样本

在制定好分组之后,我们需要在所有数据样本当中来符合我们分组的样本。我们可以通过点击某一个列名来进行排序。

8ab0bb7329feabd2408301dd22f9a869.png

2.3 进行差异表达分析

我们把界面往下拉,有一个TOP250/Save All Results的地方。这个地方就是我们用来查看结果的地方。

a0a28b9c81ed180f34f31af753acfca9.png
  • TOP250,可以查看所有差异结果当中,前250的基因。
585e8da5360b55f553370296e5baaa24.png

在这个结果当中,包括了:芯片当中探针ID号、差异分析的P值和logFC值,以及相对应的基因名。我们点击ID下面每一个探针前面的▶️,就可以看到这个数据集里面相对应的样本在不同分组的表达量变化了。

具体结果的筛选标准我们后面再说。

  • Save All Results 则会弹出另外一个界面。这里面包括芯片当中作用的数据的差异表达结果。每一列的内容和之前的TOP250是一样的
dd629d876a313770f787e9d05c1640dc.png

如果我们需要保存所有的结果。那么全选—复制—打开excel—粘贴即可。

3 结果解读

通过以上的过程&#xff0c;我们就得到了这个数据集所有差异 表达的结果。但是所有的结果&#xff0c;并不是都有意义的结果&#xff0c;所以我们要进行一定的筛选。目前对于差异的筛选结果&#xff0c;其实并没有一个严格意义上的标准。但是都有一个默认的最低标准&#xff1a;那就是logFC的绝对值 > 1. 且 矫正P值(adj.P.Val) <0.05

8697413fb222b0df26b6a816fbfa30ea.png

关于logFC

logFC&#xff0c;全称是log2 foldchange。foldchange可以代表变化倍数&#xff0c;如果处理组的表达均值是8&#xff1b;对照组的表达均值是2&#xff0c;那么foldchange就是4。而log2 fold change就是2。所以我们默认的logFC > 1,则代表两组之前差异在2倍以上的为有意义。

logFC的绝对值, 由于相较于对照组&#xff0c;基因的变化并不一定是升高的。也有降低的。所以logFC会有一个方向性&#xff0c;如果为 则代表&#xff0c;相较于对照组是低表达的&#xff0c;如果为 则代表是高表达。

由于表达是有方向性的&#xff0c;所以再次抢到在输入分组命名的时候先输入对照组的名字。不然的话&#xff0c;按照系统的分析方法&#xff0c;我们得到的结果有可能方向就完全是相反的了。



推荐阅读
  • 本文介绍了Paxos的世界中关于复制日志与状态机的概念和重要性。通过存储日志来实现数据的持久化,并通过日志流来记录数据的变化,而不是直接持久化数据本身。这样做的好处是简化了持久化存储的操作,并且方便多机之间的数据同步。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • qt学习(六)数据库注册用户的实现方法
    本文介绍了在qt学习中实现数据库注册用户的方法,包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 我们有(据我所知)星型模式SQL数据库中的数据文件。该数据库有5个不同的文件,扩展名为 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 无损压缩算法专题——LZSS算法实现
    本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • MATLAB函数重名问题解决方法及数据导入导出操作详解
    本文介绍了解决MATLAB函数重名的方法,并详细讲解了数据导入和导出的操作。包括使用菜单导入数据、在工作区直接新建变量、粘贴数据到.m文件或.txt文件并用load命令调用、使用save命令导出数据等方法。同时还介绍了使用dlmread函数调用数据的方法。通过本文的内容,读者可以更好地处理MATLAB中的函数重名问题,并掌握数据导入导出的各种操作。 ... [详细]
  • Office07:桌面办公软件的极品
    本文介绍了桌面办公软件Office07的优点,包括跟踪菜单功能、丰富的样式功能和Excel的制图功能。作者强调了对知识产权的尊重和保护的重要性。 ... [详细]
  • 如何用python pandas读取一个多层表头的excel,将多层表头转化为列?
    原始数据:期待的数据 ... [详细]
author-avatar
蒋军利
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有