在做有参测序分析的时候,选择准确合适的基因组是极其关键的,今天来看下人的参考基因组
fasta文件包含哪几个部分.
以GRCh38版本的基因组fasta文件为例,我们先看看这个基因组文件里包含哪些序列:
# 查看GRCh38包含哪些序列:
awk '{if($0~">")print $1}' ./Homo_38.fasta> ./tmp.txt
部分结果如下:
GRCh38部分序列
上图只显示了部分结果,其实远远不止上图这几条,上面这个GRCh38文件中一共有3366条序列,前25条还好理解,就是22常染色体+X+Y+线粒体.但后面的chr1_.*_random又是什么呢.
人基因组fasta注释文件可以分为以下几部分序列:
-
Primary assembly,包含以下三部分:
-
Assembled chromosomes:
chr1-chr22,chrX,chrY和chrM的序列. -
Unlocalized sequence:以
_random结尾的序列,表示知道在哪条染色体上,但不知道方向和顺序.
_random结尾的序列
-
Unplaced sequence:以
chrU_为前缀的序列,不知道在哪个染色体上.
chrU_开头的序列
-
Alternate contigs, alternate scaffolds或 alternate loci,以
alt结尾的序列.用来表征单倍体序列的多样性,这是由于基因组是用单倍体类型表现的,比如1号染色体有两条,但fasta文件里只有一条的序列,由于基因的多样性(如等位基因)无法通过一条序列表示,所以就有了alt序列来补充说明. 但这样的alt序列在测序分析map的的过程中容易产生multiple-mapping低质量的reads.而GATK的ZeroMappingQuality会将这样的reads过滤掉.
alt结尾的序列
-
PAR 区域: 伪染色体序列
(pseudoautosomal region),PAR区域的基因在X和Y染色体上都存在.但在map序列时会造成multiple-mapping reads,所以需要其中一条染色体(如y染色体)上的PAR区域mask掉.
PAR区域
- decoy基因组:包含人疱疹病毒(EBV)基因组的序列.
decoy序列
关于基因组版本
在下载基因组文件的时候,可以发现即使是GRCh38版本,也有:GRCh38.p6,GRCh38.p11等小版本.这里的p是Patchs指定期对基因组的修补,并且每次修补并没有扰乱染色体位置信息.有两种patch:
- Fix patches是表示下次主版本发布时将要替换的序列.
-
Novel patches表示上面提到的
alternate loci.也就是将新的patches看做变异序列.
关于analysis set
在下载基因组文件时,常会看到analysis set的基因组文件:
常用基因组文件只包含上面提到的Primary assembly,而analysis set还包含alt序列,PAR序列,decoy基因组.这些对于做基因组变异分析是必须的.可以看出笔者上面用来示范的那个GRCh38文件是analysis set.
(更多信息请参考GATK论坛: https://gatkforums.broadinstitute.org/gatk/discussion/7857/reference-genome-components)
更多原创精彩视频敬请关注生信杂谈:










网友评论