美文网首页
biopython解析genbank文件获取物种分类信息

biopython解析genbank文件获取物种分类信息

作者: 小明的数据分析笔记本 | 来源:发表于2020-08-09 10:45 被阅读0次

NCBI的线粒体基因组数据库

ftp://ftp.ncbi.nlm.nih.gov/refseq/release/mitochondrion/

看了前面几个物种好像都是动物,这里也提供了genbank格式的文件,所以应该可以批量看下这个数据里面有没有植物的线粒体。

那么如何根据genbank文件获得物种所属的分类信息呢?
biopython里提供解析genbank文件的方法

示例genbank文件

LOCUS       NC_035240                114 bp    DNA     linear   PLN 14-JUL-2017
DEFINITION  Punica granatum chloroplast, complete genome.
ACCESSION   NC_035240 REGION: 70545..70658
VERSION     NC_035240.1
DBLINK      BioProject: PRJNA394497
KEYWORDS    RefSeq.
SOURCE      chloroplast Punica granatum (pomegranate)
  ORGANISM  Punica granatum
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliophyta; eudicotyledons; Gunneridae;
            Pentapetalae; rosids; malvids; Myrtales; Lythraceae; Punica.
REFERENCE   1  (bases 1 to 114)
  AUTHORS   Rabah,S.O., Lee,C., Hajrah,N.H., Makki,R.M., Alharby,H.F.,
            Alhebshi,A.M., Sabir,J.S.M., Sabir,M.J., Jansen,R.K. and
            Ruhlman,T.A.
  TITLE     Plastome sequencing of 10 non-model crop species reveals multiple
            inversions, gene transfers to the nucleus and a recent, large
            mitochondrial insertion in the tree species cashew (Anacardium,
            Anacardiaceae)
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 114)
  CONSRTM   NCBI Genome Project
  TITLE     Direct Submission
  JOURNAL   Submitted (14-JUL-2017) National Center for Biotechnology
            Information, NIH, Bethesda, MD 20894, USA
REFERENCE   3  (bases 1 to 114)
  AUTHORS   Rabah,S.O., Lee,C., Hajrah,N.H., Makki,R.M., Alharby,H.F.,
            Alhebshi,A.M., Sabir,J.S.M., Sabir,M.J., Jansen,R.K. and
            Ruhlman,T.A.
  TITLE     Direct Submission
  JOURNAL   Submitted (17-FEB-2017) Biological Sciences, King Abdulaziz
            University, P.O.Box 80141, Jeddah 21589, Saudi Arabia
COMMENT     PROVISIONAL REFSEQ: This record has not yet been subject to final
            NCBI review. The reference sequence is identical to KY635883.
            
            ##Assembly-Data-START##
            Assembly Method       :: Velvet v. 1.2.08
            Sequencing Technology :: Illumina
            ##Assembly-Data-END##
            COMPLETENESS: full length.
FEATURES             Location/Qualifiers
     source          1..114
                     /organism="Punica granatum"
                     /organelle="plastid:chloroplast"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:22663"
     gene            1..114
                     /gene="petG"
                     /locus_tag="CGW82_pgp045"
                     /db_xref="GeneID:33351918"
     CDS             1..114
                     /gene="petG"
                     /locus_tag="CGW82_pgp045"
                     /codon_start=1
                     /transl_table=11
                     /product="cytochrome b6/f complex subunit V"
                     /protein_id="YP_009390828.1"
                     /db_xref="GeneID:33351918"
                     /translation="MIEVFLFGIVLGLIPITLAGLFVTAYLQYRRGDQLDF"
ORIGIN      
        1 atgattgaag tttttctatt tggaattgtc ttaggtctaa ttcctattac tttagctgga
       61 ttatttgtaa ctgcatattt acaatacaga cgtggtgatc agttggactt ttga
//

FEATURES Location/Qualifiers这行以前的内容会以字典的形式存储在annotations里,比如我要获取这部分内容,可以写一个简单的命令

for rec in SeqIO.parse('sequence.gb','gb'):
    print(rec.annotations)

获得的内容是

{'molecule_type': 'DNA', 'topology': 'linear', 'data_file_division': 'PLN', 'date': '14-JUL-2017', 'accessions': ['NC_035240', 'REGION:', '70545..70658'], 'sequence_version': 1, 'keywords': ['RefSeq'], 'source': 'chloroplast Punica granatum (pomegranate)', 'organism': 'Punica granatum', 'taxonomy': ['Eukaryota', 'Viridiplantae', 'Streptophyta', 'Embryophyta', 'Tracheophyta', 'Spermatophyta', 'Magnoliophyta', 'eudicotyledons', 'Gunneridae', 'Pentapetalae', 'rosids', 'malvids', 'Myrtales', 'Lythraceae', 'Punica'], 'references': [Reference(title='Plastome sequencing of 10 non-model crop species reveals multiple inversions, gene transfers to the nucleus and a recent, large mitochondrial insertion in the tree species cashew (Anacardium, Anacardiaceae)', ...), Reference(title='Direct Submission', ...), Reference(title='Direct Submission', ...)], 'comment': 'PROVISIONAL REFSEQ: This record has not yet been subject to final\nNCBI review. The reference sequence is identical to KY635883.\nCOMPLETENESS: full length.', 'structured_comment': OrderedDict([('Assembly-Data', OrderedDict([('Assembly Method', 'Velvet v. 1.2.08'), ('Sequencing Technology', 'Illumina')]))])}

物种所属分类信息的键是taxonomy,值对应的是一个列表,判断这个物种是不是植物就判断Viridiplanta在不在这个列表里应该就可以了

欢迎大家关注我的公众号
小明的数据分析笔记本

公众号二维码.jpg

相关文章

  • biopython解析genbank文件获取物种分类信息

    NCBI的线粒体基因组数据库 ftp://ftp.ncbi.nlm.nih.gov/refseq/release/...

  • gbff 文件

    包含基因和序列信息 bp_genbank2gff3.pl脚本可以把gbff文件转化成gff文件

  • Biopython之序列输入

    Biopython 1.序列输入 主要功能是Bio.SeqIO.parse()获取file handle(或文件名...

  • [JAVA] 读取Java源文件中的注释

    因“注释信息”只存在.java文件中,而不在.class文件中,故只有通过解析*.java文件来获取:1.通过正则...

  • utmp文件

    /var/run/utmp文件保存着当前登录到系统中的用户信息,通过解析此文件可以获取登录用户的一些信息。这些信息...

  • 序列数据库

    Genbank GenBank是美国国家生物技术信息中心(National Center for Biotechn...

  • 用python从gbff文件中直接提取cds序列

    首先,我们要了解一下什么是GBFF文件 GenBank纯文本文件格式(GenBank flatfile, 简称GB...

  • js解析xml

    案例:ajax请求获取的数据为xml文件,解析xml标签中的数据信息 1、ajax请求,测试地址为:获取地图坐标偏...

  • jsp中的文件操作

    一、获取文件信息 jsp中获取文件的信息主要使用file文件,用来获取的文件信息包括文件所在的目录、文件的长度、文...

  • 短文本分类在商品分类下的应用

    最近发现从电商网站获取到的商品,有一些是没有分类信息的想到用商品标题文本解析,用文本分类的方法来初步实现未分类商品...

网友评论

      本文标题:biopython解析genbank文件获取物种分类信息

      本文链接:https://www.haomeiwen.com/subject/ngkldktx.html