美文网首页生信基础宏基因组
宏基因组要不要混着拼呀?

宏基因组要不要混着拼呀?

作者: 沈梦圆1993 | 来源:发表于2018-10-26 17:32 被阅读178次

许多人跟我交流,自己的宏基因组和宏转录组要不要拼接?然后拼接要不要混这拼?对于这些问题,其实我没有很多的实战经验跟大家分享,所以以前跟大家交流的都是在文献中看到的内容。

分箱的基础知识

  • 分箱的定义
    分箱(binning)指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。其扩展定义为,从群体序列中重新构建群体成员个体基因组的过程。但也有人将分箱定义为将微生物群体序列与产生这些序列的物种(或者更高一级生物分类单元)关联起来的过程,准确来说,该定义的分箱是一种特殊形式(taxonomic binning/profiling/assignment),多了个体的生物分类信息。
  • 分箱的对象
    分箱的对象可以是reads、contigs、scaffolds、基因四个特征单元的任意一个,但一般情况下很少对基因进行分箱,对contigs和scaffolds的分箱不加以区别。因此,分箱按照分箱对象的不同可以分为两类,一种是直接对环境样品测序产生的reads进行分箱的方法,另一种则是对环境样品序列的拼接结果进行分析分箱的方法。前者可以避免拼接过程中出现的错误拼接序列(misassembly)或者嵌合体序列(chimeric)的产生,但二代测序的短读长会直接导致序列比对过程中出现歧义。
  • 分箱的原理
    与已知物种信息序列的相似性;群体序列的组成成分的相似性;群体序列的测序覆盖度。

以上摘自二师兄的毕业论文。

我虽然对分箱抱有怀疑的态度(但是大家都发表了许多宏基因组重构基因组的文章,而且质量还看起来挺好的):

第一,几乎所有的分箱方法都是在拼接以后的(现在很少有人去拿reads去分箱了吧,这个我觉得更不准哦),拼接的错误率我觉得是很高的;

第二,然后现在许多分箱是需要人眼配合去对Bin进行筛选优化的,就不说你这属于劳动密集型工作吧(人眼不小心看差了手一抖);

第三,宏基因组拼接的结果肯定不会太完整的(以前说在Genome Bin找不到16sRNA的说的就是这个问题是很正常的,不要想拼全啦~)然后就是物种的变异 ,当处理那种高深度的测序数据时,需要在宏基因组拼接的时候考虑到。

比较Tara海洋宏基因组数据集的两种不同分箱方法的结果

为什么我比较关注Tara,因为我是做湖泊宏基因组的,借鉴学习海洋的宏基因组分析是最好的啦~当然人呀,猪呀,老鼠的我也看的。

Tara 海洋的数据集 (Sunagawa S, Coelho L P, Chaffron S, et al. Ocean plankton. Structure and function of the global ocean microbiome[J]. Science, 2015, 348(6237):1261359.)

来点摘要:

Microbes are dominant drivers of biogeochemical processes, yet drawing a global picture of functional diversity, microbial community structure, and their ecological determinants remains a grand challenge. We analyzed 7.2 terabases of metagenomic data from 243 Tara Oceans samples from 68 locations in epipelagic and mesopelagic waters across the globe to generate an ocean microbial reference gene catalog with>40 million nonredundant, mostly novel sequences from viruses, prokaryotes, and picoeukaryotes. Using 139 prokaryote-enriched samples, containing >35,000 species, we show vertical stratification with epipelagic community composition mostly driven by temperature rather than other environmental factors or geography. We identify ocean microbial core functionality and reveal that >73% of its abundance is shared with the human gut microbiome despite the physicochemical differences between these two ecosystems

现在有人来挖掘Tara项目数据,比如把他们重新拼一拼进行分箱,文章发表在bioRxiv 上Tully et al., 2017 and Delmont et al., 2017. 我们就把它们叫做 TullyDelmont

Tully的分析方法

Tully et al. produced 2631 genomes, and estimated that 1491 were more than 70% complete and 603 were more than 90% complete. (Wow!)

The process used was (roughly) as follows --

  1. Assemble each of 234 samples with MEGAHIT, yielding 562m contigs.
  2. After length filtering the contigs at 2kb, use CD-HIT to eliminate contigs that are more than 99% similar.
  3. Co-assemble contigs from each of the 61 stations (geographical locations) with MINIMUS2, yielding 7.2m contigs.
  4. Apply BinSanity to cluster these contigs into genome bins, and use CheckM to evaluate completeness.

Delmont的分析方法

Delmont et al. produced 957 genomes from 93 samples (presumably a subset of the 234 samples above?), using this very well documented approach - briefly,(就是那个anvi'o软件作者嘛)

  1. Co-assemble samples from 12 geographical regions with MEGAHIT.
  2. Bin results with CONCOCT.
  3. Manually refine CONCOCT results using a'n'vio'.
  4. Extract bins with > 70% completion or 2 Mbp of contigs into 1077 genome bins.
  5. Collapse redundant genomes from across the different regions into 957 bins based on average nucleotide identity (> 98% ANI).

主要区别

拼接方法:

Tully是先把234个样品先单独拼MEGAHIT(快就是好,这个是De Bruijn 图算法呢),然后在分解不同地理区域按区域(61个点一起)使用MINMUS2混拼(把长的contig拼在一起咯,那个啥overlap算法的);

Delmont是这样子的,他的样品少一点,只用了93个样品,把它们分为12个区域(肯定是按照海域啥来分的咯),然后同样是用MEGAHIT来拼(很受欢迎嘛,我也用它)所有样品按区域混拼咯。

分箱方法:

Tully用BinSanity(17年刚出来的,我没有顺利运行,不评价);Delmont用CONCOCT(比较老的分箱软件,看别人说比较准)

分箱评定:

Tully用的是CheckM啦,Delmont用的是自己的anvi'o啦,用的方法都是几十个核心基因来判断的,我看anvi'o用的数据集大些。

然后就没啥然后了,我看有人把这两个分箱完成的genome bins拿去做比较(用的好像是sourmash),但是肯定结果是不好的。两个进行数据挖掘,采用的样本大小是不一样的。在我看来如果要比较两种拼接方法哪种好,至少要其他分析步骤都一样嘞。

我的微信公众号

如果实在有需要请给我发邮件:mengyuanshen@126.com
也可以关注我的公众号:沈梦圆(PandaBiotrainee)

相关文章

  • 宏基因组要不要混着拼呀?

    许多人跟我交流,自己的宏基因组和宏转录组要不要拼接?然后拼接要不要混这拼?对于这些问题,其实我没有很多的实战经验跟...

  • 宏蛋白质组研究概述

    前言 宏组学(Meta-Omics)是涵盖宏基因组学、宏转录组学和宏蛋白质组学的一门学科。其中宏基因组研究可以获知...

  • 突变需要学习的知识点

    学习Jimmy直播我的基因组系列 SNV(经常会被混着SNP来称呼,我们先不纠结这个细节) 通常一个人的全基因组测...

  • 一心不能两用,投资和学习,两者只能选其一

    每日精选笑话:肥肉混着长 女友:亲爱的,你说我到底要不要减肥呀? 我:哦,你知道猪的五花肉怎么长的吗? 女友:不知...

  • 答非所问已是答

    1. “周末可以陪我去逛街买衣服呀?” “马上要考试了,我要好好复习啦!” 2. “我想喝奶茶,你要不要一起拼单呀...

  • 宏组学研究相关名词解释

    ​宏组学基本策略 宏基因组 (Metagenomics):是一种以环境样品中的微生物群体基因组为研究对象,以功能基...

  • From 16S rDNA测序 To 宏基因组学研究—技术发展及

    主要内容: 1.16S rDNA测序 2.宏基因组测序 3.宏基因组的由来及发展过程 4.16S rDNA测序与宏...

  • 混着

  • 混着

    也许是想吃什么就会想什么,这几日来来去去想的都是草莓。 本想下班立刻买了草莓解口馋,但因为出差的一些事情需要被交代...

  • 混着?

    看着店里面同事,有一种预感,年后将离职好几个,因为他们“心”不在这里。 就像上午培训时,某位老板说的一样。他分享平...

网友评论

    本文标题:宏基因组要不要混着拼呀?

    本文链接:https://www.haomeiwen.com/subject/qlsltqtx.html