热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

matlabcnv函数,使用CNVkit进行CNV分析

欢迎关注”生信修炼手册”!CNVkit是一款CNV预测软件,适用于全外显子,目的区域靶向测序等数据的CNV检测,官网如下https:cnv

欢迎关注”生信修炼手册”!

CNVkit是一款CNV预测软件,适用于全外显子,目的区域靶向测序等数据的CNV检测,官网如下

https://cnvkit.readthedocs.io/en/stable/

被很多高分文章引用, 示意如下

c9b850491f31a1da544ee8006a1830d0.png

文章发表在PLos上,链接如下

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004873

和Excavator类似,CNVKit也将基因组划分为in-target和off-target两部分,流程图示意如下

1efef1dcf6a792e9b8a1fdf3c54fa35f.png

将in-target和off-target区域划分成小的bin区间,统计bin区间内的测序深度,综合考虑GC含量,目的区域的大小和分布密度, 重复元件等因素,对原始测序深度进行校正,然后计算相对对照样本的log2 ratio, 通过segmentation算法来划分segment, 支持cbs, haar, flasso多种segmentation算法。

CNVkit采用python进行开发,使用方便,集成了可视化功能,可以直观的展示分析结果,支持导出多种格式的结果文件,可以很好的与下游软件相结合。采用了模块化的开发思想,按照功能拆分成了独立的模块,示意如下

af8524e7cd116b7ab19f361260c37f6a.png

每个功能模块对应一个子命令,为了方便调用,将pipeline的完整功能封装在batch子命令中,只通过这一个命令来运行整个pipeline。整个数据分析的过程可以分为以下几个部分

1.  输入区域文件

对于靶向测序而言,肯定需要输入目的区域的文件,格式为bed, target子命令用于处理目的区域的bed文件,可以添加对应的基因注释等信息,用法如下

cnvkit.py target \

my_baits.bed \

--annotate refFlat.txt \

-o my_targets.bed

除了目的区域in-target,还需要计算off-set区域,也称之为antitarget,  in-target和off-target区域加起来就是基因组上所有可覆盖的区域。二测测序并不能达到100%的覆盖度,基因组上的高重复区域,端粒,着丝粒等区域就无法覆盖,所以cnvkit通过access子命令来计算基因组上可以覆盖到的区域,命令如下

cnvkit.py access \

hg19.fa \

-x excludes.bed \

-o access.hg19.bed

计算出可覆盖的区域之后,减去in-target区域, 就可以得到off-target区域,通过antitarget子命令来实现,代码如下

cnvkit.py antitarget \

my_targets.bed \

-g access.hg19.bed \

-o my_antitargets.bed

2. 计算样本的测序深度

coverage和autobin两个子命令都可以用来计算测序深度,以coverage为例,用法如下

cnvkit.py coverage \

Sample.bam \

my_targets.bed \

-o Sample.targetcoverage.cnn

cnvkit.py coverage \

Sample.bam \

my_antitargets.bed \

-o Sample.antitargetcoverage.cnn

分别统计target和antitarget区域的测序深度信息,输出结果后缀为cnn,是cnvkit中定义的一种格式,专门用来存储测序深度信息。

3. 构建正常基因组的测序分布模型

通过reference子命令来构建正常基因组的测序分布模型,采用对照样本的测序深度,校正GC含量等系统误差。有多个对照样本时,可以将所有的对照样本合并来创建,用法如下

cnvkit.py reference \

*coverage.cnn \

-f hg19.fa \

-o Reference.cnn

当没有对照样本时,软件可以模拟出一个正常的测序深度分布模型,用法如下

cnvkit.py reference \

-o FlatReference.cnn \

-f hg19.fa \

-t my_targets.bed \

-a my_antitargets.bed

4. 计算实验样本相对正常对照的log2 ratio

通过fix子命令计算log2 ratio,用法如下

cnvkit.py fix \

Sample.targetcoverage.cnn \

Sample.antitargetcoverage.cnn \

Reference.cnn \

-o Sample.cnr

输出结果后缀为cnr, 是cnvkit中定义的一种格式,专门用来存储log2ratio的信息。

5. 划分segment, 计算拷贝数

通过segment子命令进行segment的划分,用法如下

cnvkit.py segment \

Sample.cnr \

-o Sample.cns

输出结果后缀为cns, 是cnvkit中定义的一种格式,和SEG格式类似,用来存储CNV分析的结果。接下来还可以通过call子命令,计算每个segment区域的绝对拷贝数,用法如下

cnvkit.py call \

Sample.cns \

-o Sample.call.cns

关于各种文件格式的具体解释可以参考以下链接

https://cnvkit.readthedocs.io/en/stable/fileformats.html

6. 结果可视化

提供了以下3种可视化的子命令

diagram

scatter

heatmap

diagram用于展示单个样本的CNV在染色体上的分布,用法如下

cnvkit.py diagram \

-s Sample.cns \

Sample.cnr

可视化结果如下

da00123e62b7a65f515344ec8a0bf6b5.png

scatter子命令展示单个样本染色体区域上log2 ratio值的分布,用法如下

cnvkit.py scatter \

-s Sample.cns \

Sample.cnr

可视化结果示意如下

e9d6eb54c78ad3ceb56aa19e1690456f.png

heatmap子命令展示多个样本的CNV分布情况,用法如下

cnvkit.py heatmap *.cns

可视化结果示意如下

21d7c316883f174e1ed25294b5570cda.png

分布运行步骤繁琐,上面的代码可以通过batch一个子命令搞定,用法如下

cnvkit.py batch \

*Tumor.bam \

--normal *Normal.bam \

--targets my_baits.bed \

--annotate refFlat.txt \

--fasta hg19.fasta \

--access access.hg19.bed \

--output-reference my_reference.cnn \

--output-dir results/ \

--diagram --scatter

以上就是cnvkit的基本用法,更多细节请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!



推荐阅读
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • 安装mysqlclient失败解决办法
    本文介绍了在MAC系统中,使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中,可以解决安装mysqlclient失败的问题。同时,还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言,包管理器是标配,而Composer作为PHP的包管理器,解决了PEAR的问题,并且使用简单,方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题,避免命名空间冲突,并且能够方便地安装升级扩展包。 ... [详细]
  • 本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分,而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路,并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案,希望能够得到更好的思路。 ... [详细]
  • Python已成为全球最受欢迎的编程语言之一,然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件,即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项,调用程序的目录也必须是安全的。同时,文章还提出了一些预防措施,如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说,这些内容将有所帮助。 ... [详细]
  • 通过Anaconda安装tensorflow,并安装运行spyder编译器的完整教程
    本文提供了一个完整的教程,介绍了如何通过Anaconda安装tensorflow,并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统,并提供了相关的网址供参考。通过本教程,读者可以轻松地安装和配置tensorflow环境,以及运行spyder编译器进行开发。 ... [详细]
  • Python中的PyInputPlus模块原文:https ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图
    微信公众号:「Python读财」如有问题或建议,请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]
author-avatar
一颗顽石
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有