vcf是一种非常特殊的文件类型,它的实际名称为突变识别文件,只有在基因组工作之中才会去生成该类型的文件。那么在python程序内也是可以对这种类型的文件进行读取等处理操作,下文所要来介绍的内容就是,python处理vcf文件并且读取其内容的方法。
1.python标准库以及内置模块之中是没有该类型文件处理方法可以使用,所以需要选择安装PyVCF这个第三方模块才可以,打开命令行或者终端窗口后执行如下命令即可:
pip install PyVCF
2.那么读取vcf文件则是用这个模块之中Reader()方法,此方法里面需要传入文件路径这一个参数就可以了,而返回的对象不是平常打开文件时的文件对象。而是一个可迭代对象,因为该方法会构建出一个有明确合理结构的可迭代对象,代码如下所示:
import vcf vcf_reader = vcf.Reader(filename=r'D:\test\example.hc.vcf.gz') for record in vcf_reader: print(record.CHROM)
那么就可以使用for循环迭代遍历该对象将其中的数据都取出来进行查看,而可以去输出的属性有很多。分别为染色体名称CHROM、位点在染色体的位置POS、突变的rs号ID、参考基因组在该位点上的碱基REF、在该位点的测序结果ALT、位点的测序质量QUAL、过滤信息FILTER、位点的一些测试指标INFO、基因型信息FORMAT。那么这些数据和信息只需要使用prin函数再加上遍历对象点属性名即可将其打印输出。
以上就是关于“Python怎么处理vcf文件?Python如何读取vcf文件数据”的全部内容了,希望对你有所帮助。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。