美文网首页ggplot集锦
根据染色体坐标快速得到基因组的 DNA 序列

根据染色体坐标快速得到基因组的 DNA 序列

作者: 可能性之兽 | 来源:发表于2022-10-30 09:31 被阅读0次

1. Samtools faidx

利用 samtools 的 faidx 工具,方法如下:
首先用 faidx 生成 fasta 序列文件索引

samtools faidx hg19.fa
samtools faidx hg19.fa chr13:1000000:10006666

2.bedtools getfasta

BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而其中getfasta的功能就是根据坐标信息提取序列信息。
-fi:参考基因组fasta文件;
-bed:需要提取的序列的位置信息;
-fo:输出文件。

bedtools getfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF>

3.pysam fetch

name_file = pysam.AlignmentFile(input_filename, "rb")

for line in name_file.fetch(contig="chr21",  start=xx, end=xx):
    print(line)
 

提取参考基因组某个位置的碱基 - 简书 (jianshu.com)

4. biopython

genome_dict= {}

for line in SeqIO.parse("ref.fa", format="fasta"):
    print(record)
    genome_dict[line.id] = record.seq.upper()
genome_dict["chr1"][1:100000]

5.R Biostrings

library(Biostrings) ;
s = readDNAStringSet("ref.fasta")
s$chr1[1:100]

相关文章

网友评论

    本文标题:根据染色体坐标快速得到基因组的 DNA 序列

    本文链接:https://www.haomeiwen.com/subject/lfxctdtx.html