fastq质量值_FASTP|极速全能的FASTQ预处理神器

作者：awrjftyitik | 来源：互联网 | 2023-10-09 20:11

FASTQ文件的质控和预处理对于为下游分析至关重要。一般来说，我们每个步骤都会用到不同的软件，比如先用fasqtc看看测序质控，再用tri

FASTQ 文件的质控和预处理对于为下游分析至关重要。一般来说&＃xff0c;我们每个步骤都会用到不同的软件&＃xff0c;比如先用 fasqtc 看看测序质控&＃xff0c;再用 trimmomatic 进行质控&＃xff0c;或用 cutadapt 去除接头等等。然而大多数软件都是基于高级编程语言(例如Python和Java)开发的&＃xff0c;多线程的效率较低。同时&＃xff0c;多次读取和加载数据也会导致预处理速度慢&＃xff0c;I/O效率低下。在此背景下 FASTP 软件应运而生&＃xff0c;它可以仅仅扫描 FASTQ 文件一次&＃xff0c;就可以完成比 FASTQC&＃43; cutadapt &＃43; Trimmomatic 这三个软件加起来的功能还多很多的功能&＃xff0c;而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右。

GitHub 地址&＃xff1a;https://github.com/OpenGene/fastp

FASTP 的特性

对数据自动进行全方位质控&＃xff0c;生成人性化的报告&＃xff1b;
过滤功能&＃xff1b;
对每一个序列的头部或尾部&＃xff0c;计算滑动窗内的质量均值&＃xff0c;并将均值较低的子序列进行切除(类似 Trimmomatic 的做法&＃xff0c;但是快非常多);
全局剪裁 (在头/尾部&＃xff0c;不影响去重)&＃xff0c;对于 Illumina 下机数据往往最后一到两个 cycle 需要这样处理&＃xff1b;
去除接头污染。厉害的是&＃xff0c;你不用输入接头序列&＃xff0c;因为算法会自动识别接头序列并进行剪裁&＃xff1b;
对于双端测序(PE)的数据&＃xff0c;软件会自动查找每一对 read 的重叠区域&＃xff0c;并对该重叠区域中不匹配的碱基对进行校正&＃xff1b;
去除尾部的 polyG。对于 Illumina NextSeq/NovaSeq 的测序数据&＃xff0c;因为是两色法发光&＃xff0c;polyG 是常有的事&＃xff0c;所以该特性对该两类测序平台默认打开&＃xff1b;
可以对带分子标签(UMI)的数据进行预处理&＃xff0c;不管 UMI 在插入片段还是在 index 上&＃xff0c;都可以轻松处理&＃xff1b;
可以将输出进行分拆&＃xff0c;而且支持两种模式&＃xff0c;分别是指定分拆的个数&＃xff0c;或者分拆后每个文件的行数。

软件安装

最简单的安装方法莫过于直接下载可执行的软件&＃xff1a;

# this binary was compiled on CentOS, and tested on CentOS/Ubuntu wget http://opengene.org/fastp/fastp chmod a&＃43;x ./fastp

简单上手

单端数据

fastp -i in.fq -o out.fq

双端数据

fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

可以看到&＃xff0c;-i和-o用来指定 read1 的输入了输出&＃xff0c;而大写的-I和-O则是用于指定 read2 的输入和输出。同时&＃xff0c;fastp 对于输入和输出都支持 gzip 压缩&＃xff0c;使用方法也很简单&＃xff0c;只要文件名的末尾带有.gz&＃xff0c;就会被认为是 gzip 压缩文件&＃xff0c;会启用 gzip 对输入输出进行压缩和解压处理。默认情况下&＃xff0c;HTML 报告会保存为 fastp.html(可用-h参数指定名称)&＃xff0c;JSON 报告保存为 fastp.json(可用-j参数指定名称)。

主要功能

1. 质量过滤

fastp 可以对低质量序列&＃xff0c;含较多 N 的序列进行过滤&＃xff0c;该功能默认是启用的&＃xff0c;但可以使用-Q参数关闭。可使用-q参数来指定合格的 phred 质量值&＃xff0c;-u参数来指定最多可以有多少百分比的质量不合格碱基。比如-q 15 -u 40表示一个 read 最多只能有 40% 的碱基的质量值低于 Q15&＃xff0c;否则会被扔掉。使用-n可以限定一条 read 中最多能有多少个 N。fastp 还默认启用了 read 长度过滤。使用-l参数指定一个 read 至少有多长&＃xff0c;比如-l 30表示长度低于 30 个碱基的 read 会被去掉。

fastp 还几乎包含了 Trimmomatic 软件的所有功能&＃xff0c;比如对滑动窗口中的碱基计算平均质量值&＃xff0c;然后将不符合的滑窗直接剪裁掉。使用-5参数开启在 5&＃39; 端&＃xff0c;也就是 read 的开头的剪裁&＃xff0c;使用-3参数开启在 3&＃39; 端&＃xff0c;也就是 read 的末尾的剪裁。使用-W参数指定滑动窗大小&＃xff0c;使用-M参数指定要求的平均质量值。用-f和-t分别指定 read1 的头部和尾部的剪裁&＃xff0c;使用-F和-T分别指定 read2 的头部和尾部的剪裁。

在 fastp 的 HTML 报告中&＃xff0c;最开始的 Summary 表格显示了过滤的统计信息&＃xff1a;

2. 接头处理

fastp 可以自动化地查找接头序列并进行剪裁&＃xff0c;不需要输入任何接头序列。

3. 校正碱基(用于双端测序)

fastp 支持对双端测序数据的每一对 read 进行分析&＃xff0c;查找它们的重叠区间&＃xff0c;然后对于重叠区间中不一致的碱基&＃xff0c;如果发现其中一个质量非常高&＃xff0c;而另一个非常低&＃xff0c;则可以将非常低质量的碱基改为相应的非常高质量值的碱基值&＃xff0c;如下图所示&＃xff1a;

上图中所示的标红的 T 碱基是低质量序列&＃xff0c;和高质量的 A 不匹配&＃xff0c;它会被校正为 A。

除此之外&＃xff0c;还可以使用-m参数&＃xff0c;开启合并模式&＃xff0c;将双端测序数据进行合并处理。

4. UMI 数据的处理

UMI 在处理 ctDNA 类似的超低频突变检测应用中是十分有用的&＃xff0c;为了更好地对带 UMI 的 FASTQ 文件进行预处理&＃xff0c;fastp 也很好地支持了对 UMI 标签预处理功能。该功能默认没有启用&＃xff0c;需要使用-U参数开启&＃xff0c;另外需要使用--umi_loc来指定 UMI 所在的位置&＃xff0c;它可以是(index1、 index2、 read1、 read2、 per_index、 per_read )中的一种&＃xff0c;分别表示 UMI 是在 index 位置上&＃xff0c;还是在插入片段中。如果指定了是在插入序列中&＃xff0c;还需要使用--umi_len参数来指定 UMI 所占的碱基长度。还可以使用--umi_skip来设置 UMI 之后需要跳过的碱基数。fastp 会把 UMI 的信息加入 fastq 文件的 read 名称中&＃xff0c;所以 UMI 的信息也会显示在 SAM / BAM 文件中。

举个例子&＃xff0c;比如&＃xff0c;在我的双端测序文件中&＃xff0c;每条 read 的 UMI 插入在 read 的最前端&＃xff0c;占 3 个碱基&＃xff0c;之后又用了两个随机碱基把 UMI 与 ctDNA 测序数据隔开&＃xff1a;

&＃64;NB501841:4:HJJW3AFXY:1:11101:5427:1093 1:N:0:CGGCTAAT&＃43;NTCGTTCT CAGTACATCATCTGCTTGATCCATTTTAGTTTTCACTGTGCGAAGACTTTTATGTCTACTATTGGGAACATTCCTTCCTGAAACAGTACAATAATTCAGTGAGAATGTATATACTCTGGAGTAT &＃43; AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEE

代码就是这样写&＃xff1a;

fastp --thread 16 --in1 $fq1 --in2&＃61;$fq2 --out1 tmp_${fq1}.fq --out2&＃61;tmp_${fq2}.fq -U --umi_loc&＃61;per_read --umi_len&＃61;3 --umi_skip&＃61;2

处理完后可以看到双端 UMI 的信息已经加入到第一行的注释中&＃xff0c;CAG即为第一条 read 的 UMI 信息&＃xff0c;ATA则是其反向 read 的 UMI 信息&＃xff1a;

&＃64;NB501841:4:HJJW3AFXY:1:11101:5427:1093:CAG_ATA 1:N:0:CGGCTAAT&＃43;NTCGTTCT CATCATCTGCTTGATCCATTTTAGTTTTCACTGTGCGAAGACTTTTATGTCTACTATTGGGAACATTCCTTCCTGAAACAGTACAATAATTCAGTGAGAATGTATATACTCTGG &＃43; EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEE

这样将 FASTQ 文件进行比对后&＃xff0c;UMI 信息也会保存在 SAM / BAM 文件中&＃xff0c;进一步可使用同样是 OpenGene 软件库中的 gencore 软件生成 consensus reads&＃xff0c;并基于 consensus reads 进行下游分析。

5. 输出文件切分

fastp 软件还可以对输出的 FASTQ 文件进行切分&＃xff0c;分成大小均匀的多个文件&＃xff0c;这样可以使用比对软件并行地比对&＃xff0c;提高并行处理的速度。fastp 支持两种模式&＃xff0c;分别是使用参数-s指定切分后文件的个数&＃xff0c;或使用-S参数指定每个切分后文件的行数。

Reference

fastp: 一款超快速全功能的FASTQ文件自动化质控&＃43;过滤&＃43;校正&＃43;预处理软件
https://github.com/OpenGene/fastp

猜你喜欢

我的 Shiny 入门学习笔记

分析带 UMI 分子标签的测序数据

我的 Docker 笔记

使用 bcl2fastq 将 base call 文件转换成 fastq 文件

在 Python 中调用百度 API 批量翻译

生信考研经历分享

生信基础知识100讲

生信菜鸟团-专题学习目录(5)

生信菜鸟团-专题学习目录(6)

生信菜鸟团-专题学习目录(7)

还有更多文章&＃xff0c;请移步公众号阅读

▼ 如果你生信基本技能已经入门&＃xff0c;需要提高自己&＃xff0c;请关注下面的生信技能树&＃xff0c;看我们是如何完善生信技能&＃xff0c;成为一个生信全栈工程师。

▼ 如果你是初学者&＃xff0c;请关注下面的生信菜鸟团&＃xff0c;了解生信基础名词&＃xff0c;概念&＃xff0c;扎实的打好基础&＃xff0c;争取早日入门。

推荐阅读

ubuntu
使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换

本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式，然后详细介绍了相关API，包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List，以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较，指出了JSON的优势和缺点。 ... [详细]

蜡笔小新 2023-12-11 16:20:50
process
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
main
使用nodejs爬取b站番剧数据，计算最佳追番推荐

本文介绍了如何使用nodejs爬取b站番剧数据，并通过计算得出最佳追番推荐。通过调用相关接口获取番剧数据和评分数据，以及使用相应的算法进行计算。该方法可以帮助用户找到适合自己的番剧进行观看。 ... [详细]

蜡笔小新 2023-12-14 20:44:52
main
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
main
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
main
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
main
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
install
成功安装Sabayon Linux在thinkpad X60上的经验分享

本文分享了作者在国庆期间在thinkpad X60上成功安装Sabayon Linux的经验。通过修改CHOST和执行emerge命令，作者顺利完成了安装过程。Sabayon Linux是一个基于Gentoo Linux的发行版，可以将电脑快速转变为一个功能强大的系统。除了作为一个live DVD使用外，Sabayon Linux还可以被安装在硬盘上，方便用户使用。 ... [详细]

蜡笔小新 2023-12-13 11:35:40
install
在CentOS/RHEL 7/6，Fedora 27/26/25上安装JAVA 9的步骤和方法

本文介绍了在CentOS/RHEL 7/6，Fedora 27/26/25上安装JAVA 9的详细步骤和方法。首先需要下载最新的Java SE Development Kit 9发行版，然后按照给出的Shell命令行方式进行安装。详细的步骤和方法请参考正文内容。 ... [详细]

蜡笔小新 2023-12-13 09:26:47
install
Vagrant虚拟化工具的安装和使用教程

本文介绍了Vagrant虚拟化工具的安装和使用教程。首先介绍了安装virtualBox和Vagrant的步骤。然后详细说明了Vagrant的安装和使用方法，包括如何检查安装是否成功。最后介绍了下载虚拟机镜像的步骤，以及Vagrant镜像网站的相关信息。 ... [详细]

蜡笔小新 2023-12-11 14:24:00
install
Linux下安装免费杀毒软件ClamAV及使用方法

本文介绍了在Linux系统下安装免费杀毒软件ClamAV的方法，并提供了使用该软件更新病毒库和进行病毒扫描的指令参数。同时还提供了官方安装文档和下载地址。 ... [详细]

蜡笔小新 2023-12-10 14:10:51
install
Ubuntu 11.10 x64环境下安装Android开发环境及解决常见问题

本文介绍了在Ubuntu 11.10 x64环境下安装Android开发环境的步骤，并提供了解决常见问题的方法。其中包括安装Eclipse的ADT插件、解决缺少GEF插件的问题以及解决无法找到'userdata.img'文件的问题。此外，还提供了相关插件和系统镜像的下载链接。 ... [详细]

蜡笔小新 2023-12-09 09:41:58
install
CentOS离线安装zip和unzip的方法

本文介绍了在无法联网的情况下，通过下载rpm包离线安装zip和unzip的方法。详细介绍了如何搜索并下载合适的rpm包，以及如何使用rpm命令进行安装。 ... [详细]

蜡笔小新 2023-12-09 09:08:01
main
Ubuntu 用户安装 Linux Kernel 3.15 RC1

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 18:29:07
main
Linux防火墙配置—允许转发

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 17:49:02

awrjftyitik

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章