1 相关概念
-
测序深度(sequencing depth)
=测得碱基数/reference碱基数,结果是n就是nX -
覆盖度(coverage, breadth of coverage)
=reference被测碱基数/reference碱基数,0-100% -
GC深度(GC depth)
average depth=序列测得碱基数/序列碱基数
GC content=序列GC数/序列碱基数
GC depth应该指含量和深度,也许不是,没关系
GC depth分布图可以看出测序是否有明显的GC偏向。如果存在样品污染,通常能够从GC含量分析中呈现出来,出现独立的序列簇,类似Bin。
2 计算碱基depth
samtools depth file.bam > file_depth.txt
3 计算GC depth
samtools stats
地址:http://www.htslib.org/doc/samtools-stats.html
samtools stats file.bam > file.txt
metabat2所带程序
jgi_summarize_bam_contig_depths \
--outputDepth \
final.depth.txt \
final.sorted.bam
4 GC depth
GC content可以自己写脚本计算:python:计算fasta的GC含量
利用GC depth数据可对组装序列可视化(bin着色)
数据
ggplot geom_point
来自参考
第二参考给的图如上,如果其中有独立序列簇,应该可以认为是存在生物污染。在meta Bin分析中一个微生物一般是相对独立的簇。
更多阅读:
测序数据的深度、覆盖度等计算
GCdepth散点图绘制









网友评论