Day59-用Perl和Python脚本提取FASTA中最长转录

作者: 腐草为嘤 | 来源:发表于2019-09-29 10:26 被阅读0次

Day59-用Perl和Python脚本提取FASTA中最长转录
使用python从cds或蛋白质fasta文件中提取最长转录本
RNA-seq：最长转录本提取
[比较基因组] 基因家族聚类（Orthofinder）
用Python提取FASTA中最长转录本
从fasta序列中提取特定ID的序列
从fasta文件中批量提取特定序列
提取 genecode的gtf注释信息
脚本 | Shell | 提取每个转录本的intron坐标
[环境规则]一、perl,python自寻环境

这段时间简书因为一些不可描述的文章被整顿了，所以没有做学习笔记。加上最近开学，乱七八糟的事情很多，目测要下个礼拜开始上课才能够回归正轨。
最近做了一个事情就是，注释出来的初始基因组pep文件会存在许多个转录本，很多冗余的氨基酸序列，我们需要去除这些冗余，取最长的那个转录本。
对于序列只有一行的很容易可以用grep办到，但是还是那个问题，fasta格式存在自动换行问题，所以我们最好还是写脚本提取最长转录本比较稳妥，这里分享一下所用的脚本。
原数据格式基本如下：

>Gene1.m1 gene=Gene1
MSVAADSPIHSSSSDDFIAYLDDALAASSPDASSDKEVENQDELESGRIKRCKFESAEETEESTSEGIVK
QNLEEYVCTHPGSFGDMCIRCGQKLDGESGVTFGYIHKGLRLHDEEISRLRNTDVKNLLIRKKLYLILDL
...

我写的Perl脚本修改了原文件格式和顺序（哈希表的sort真是个谜），以后有时间我会考虑一下如何保留所有原格式输出，暂时将就着用吧。

#use strict;
#use warnings;

my %pep=();

my $trans = "";
my $gene = "";

open IN,"$ARGV[0]" or die "fail to open!";
open OUT,">$ARGV[1]" or die "fail to create!";
while (<IN>){
    chomp;
    my $line = $_;
    if ($line =~ /^>/){
        my @items = split /\s+/,$line;
            $gene = $items[1]; 
            $gene =~ s/gene=//g;
            $trans = $items[0];
            $trans =~ s/>//g;
    }else{
        $line =~ s/\.//g;
        $pep{$gene}{$trans}=$pep{$gene}{$trans}.$line;
    }
}
for my $key1(sort{$pep{$a} <=> $pep{$b}} keys %pep){
    my $hash2 = $pep{$key1};
    my $maxlen = 0;
    my $pepfin;
    my $transfin;
    for my $key2(sort{$hash2->{$a} <=> $hash2->{$b}} keys %$hash2){
#       print OUT $key1."\t".$key2."\t".$hash2->{$key2}."\n";
        my $len = length($hash2->{$key2});
        if ($len > $maxlen){
            $maxlen = $len;
            $pepfin = $hash2->{$key2};
            $transfin = $key2;
        }
    }
    print OUT ">".$transfin." gene=".$key1."\n";
    print OUT $pepfin."\n";
}
close IN;
close OUT;

另外同学依据我的需求也写了一个对应功能的Python脚本，不得不承认Python v3.0的字典在保留原顺序输出方面的能力就很强，这个脚本几乎对原文件没有改动，很实用。有时间的话会对它进行全方位的注释学习，希望自己能在Python脚本书写能力上有所进步【狗头苦笑】！

import sys,getopt

def usage():
    print('usage:python3 removeRedundantProteins.py -i <in_fasta> -o <out_fasta> <-h>')
    return

def removeRedundant(in_file,out_file):
    gene_dic = {}
    flag = ''
    with open (in_file) as in_fasta:
        for line in in_fasta:
            if '>' in line:
                line1 = line.strip('>\n')
                line2 = line1.split('.')
                li = line2[0]
                flag = li
                try:
                    gene_dic[li]
                except KeyError:
                    gene_dic[li] = [line]
                else:
                    gene_dic[li].append(line)
            else:
                gene_dic[flag][-1] += line
    with open (out_file,'w') as out_fasta:
        for k,v in gene_dic.items():
            if len(v) == 1:
                out_fasta.write(gene_dic[k][0])
            else:
                trans_max = ''
                for trans in gene_dic[k]:
                    a = len(list(trans))
                    b = len(list(trans_max))
                    if a > b:
                        trans_max = trans
                out_fasta.write(trans_max)

def main(argv):
    
    try:
        opts, args = getopt.getopt(argv,'hi:o:')
    except getopt.GetoptError:
        usage()
        sys.exit()

    for opt, arg in opts:
        if opt == '-h':
            usage()
            sys.exit()
        elif opt == '-i':
            in_fasta_name = arg
        elif opt == '-o':
            outfile_name = arg
    try:
        removeRedundant(in_fasta_name,outfile_name)
    except UnboundLocalError:
        usage()

    return

if __name__ == '__main__':
    main(sys.argv[1:])