热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

用python做生物信息数据分析(2pysam)

写perl的思维,可能确实不能拿来学python。毕竟,python的裤子有很多。面向对象的语言,如果不好好穿裤子,怎么找对象?。手上要做的事情,需要解析sam,更或者bam文件。

写perl的思维,可能确实不能拿来学python。毕竟,python的裤子有很多。面向对象的语言,如果不好好穿裤子,怎么找对象?。手上要做的事情,需要解析sam,更或者bam文件。当然,如果有可能的话,还需要对SAM或者BAM进行排序!
这个事情我在java写过,but,最后效率不如htsjdk,故最后还是打包了htsjdk。吸取这个教训,使用python的时候。第一步,先用pysam。

pysam的下载与安装

此处,直接接上一个推文,从pycharm中,右击某个项目,就可以直接打开terminal

《用python做生物信息数据分析(2-pysam)》 image.png

网络畅通的情况下,使用pip安装pysam(其实我也不知道,windwos下是否可以)

pip install pysam

很遗憾,安装失败了。各种报错,不忍直视。
百度 google 搜索了一下,发现,似乎pysam不能直接安装,同时似乎有一个解法
https://pypi.org/project/pysam-win/

pip install pysam-win

OK。似乎这样就安装好了。可以在windows下愉快地使用python处理SAM/BAM文件了。

pysam的使用与目标

首先,当然是看官方文档,看看都怎么用的,https://pysam.readthedocs.io/en/latest/

从文档来看,pysam的速度应该不会慢,毕竟是**a lightweight wrapper of the htslib C-API.

**

随后,目标如下:

  1. 读取SAM,BAM文件
  2. BAM文件排序
  3. ….没有了

读取

先打开一个文件对象 AlignmentFile

import pysam
samfile = pysam.AlignmentFile("ex1.bam", "rb")

然后就可以自由自在地获取任意region的reads…我总是觉得我似乎在什么时候用过pysam?还是….哦,感觉很像我写的Jsam…

for read in samfile.fetch('chr1', 100, 120):
print read
samfile.close()

只是,此处的BAM不需要排序的吗?本来想试验一下,不过发现还是比较麻烦。继续看文档就知道,必须是先排序,因为

Without an index, random access via fetch() and pileup() is disabled.

如果需要遍历一个文件的话,那么直接

import pysam
samfile = pysam.AlignmentFile("Treat.20M.merged.sam")
lineCount = 0
for read in samfile:
print(read)
lineCount = lineCount + 1
if lineCount > 10:
break

即可。
大体过了文档,整体感觉是,我需要的可能只有pysam,而可能真的不需要biopython,毕竟有了IO,其他的似乎暂时对我来说并不重要。

pysam支持多种生信常见文件格式,包括SAM BAM CRAM fastq fasta vcf gtf gff ….

写出

import pysam
samfile = pysam.AlignmentFile("ex1.bam", "rb")
pairedreads = pysam.AlignmentFile("allpaired.bam", "wb", template=samfile)
for read in samfile.fetch():
if read.is_paired:
pairedreads.write(read)
pairedreads.close()
samfile.close()

排序

pysam.sort("-o", "output.bam", "ex1.bam")

写一个用得到的小脚本

课题需要,所以要写一个python小脚本,需要完成以下内容

  1. 读取SAM或者BAM文件(默认要求name-sorted)
  2. 过滤去除mapped pos大于20个位置的,因为基本可以认为是repeat
  3. 对文件进行pos-sorted
  4. 课题内容,就不写出来了

import pysam
# filter sam file to remove reads mapped to repeat regions.\
samfile = pysam.AlignmentFile("Treat.20M.merged.sam")
tmpfile = pysam.AlignmentFile("dedup.sam", "w", template=samfile)
lineCount = 0
max_hit_num = 3
pre_read_id = ""
cur_read_list = list()
for read in samfile:
cur_read_id = read.qname
if cur_read_id == pre_read_id:
cur_read_list.append(read)
else:
if len(cur_read_list) for cur_read in cur_read_list:
tmpfile.write(cur_read)
cur_read_list.clear()
cur_read_list.append(read)
pre_read_id = cur_read_id
lineCount = lineCount + 1
if lineCount > 100:
break
if len(cur_read_list) != 0 & len(cur_read_list) for cur_read in cur_read_list:
tmpfile.write(cur_read)
cur_read_list.clear()
# sort sam file
pysam.sort("-o", "dedup.sorted.sam", "dedup.sam")

补充

我是在windows下面写代码的,但是经过尝试,pysam确实几乎无法在windows下面正常配置,所以写代码的过程是痛苦的。
无法进行代码补全的面向对象码码,简直要命!
最后的解法是,只能在linux下,查看当前对象的属性…

import pysam
samfile = pysam.AlignmentFile("Treat.20M.merged.sam")
lineCount = 0
for read in samfile:
print(dir(read))
lineCount = lineCount + 1
if lineCount > 10:
break

python有一些好处,即几乎所有变量是全局的(除非在函数中)。所以对于上述代码的read,我之前大概翻过python的书,知道完全可以在python交互式操作中,使用

dir(read)
# 或者
help(read)

来查看read对象的文档。


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • 欢乐的票圈重构之旅——RecyclerView的头尾布局增加
    项目重构的Git地址:https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集:http:www.jianshu.comno ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • Introduction(简介)Forbeingapowerfulobject-orientedprogramminglanguage,Cisuseda ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的详细步骤
    本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境的步骤,包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]
author-avatar
手浪用户2602901267
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有