本篇文章由德国Institute of Computational Biology, Helmholtz Zentrum München 研究所的两位科学家M. Colomé-Tatché&Fabian J. Theis于2022年发表在Nature methods
原文链接: https://www.nature.com/articles/s41592-021-01336-8#MOESM1
文章用到的代码/流程
pipeline:https://github.com/theislab/scib-pipeline
处理代码:https://github.com/theislab/scib ; https://github.com/theislab/scib-reproducibility
文章亮点:
1,建立各种打分机制,评估了16种integrate methods 在基因表达(scRNA-seq),染色质开放(scATAC-seq),以及模拟数据上的效果,结果评估主要包含了bio-conservation 和 batch effect 两个方面
2,开放了benchmarking用到的代码,方便大家用来评估和开放新工具
背景
目前各种单细胞测序方法层出不穷,单细胞测序的数据也与日俱增,合理的将各种不同来源,不同组织,或者不同技术产生的单细胞数据整合在一起(在去除batch effect的同时,保留bio-conversation),才能提供可靠的下游分析,进行生物学判断。 目前有大于49种的integrate工具可用于scRNA-seq数据的整合,但是缺乏一个量化的对各种方法进行评估选择,以前类似的benchmarking的文章仅仅对低数据量和低复杂度的数据进行了整合和去除batch的评估,不够全面。
实验设计
实验设计FIg 1
13个integrate tasks 通过是否做HVG/scaling 四种方式进行预处理,得到预处理后的结果,之后用16种integate 方法对预处理的结果进行integate分析,不同工具可能会得到3种结果(Graph,embedding, corrected features)。对得到的结果从1,batch removal ; 2, biological variance conservation; 3,scalability 4,usability 方面评估integrate的表现
实验流程拆分思维导图
样本:
tasks table
结果:
human immune cell task
这个task 来自5篇文献,包括人的pbmc和bone marrow 所以作者认为这里有10个batch。综合评分Scanorama (embedding), FastMNN (embedding), scANVI and Harmony 此task中表现最好。
鉴于不同方法得到的结果表现形式不同,将不同工具得到的结果分开评估,例如SAUCIE 可以得到graph和embedding的结果,就作为SAUCIE-gragh 和SAUCIE-embedding 分开计算score
Fig2a
Scanorama 因为很好的integrate了Villani (Smart-seq2)和10X的batch而获得较高评分
scANVI 没有很好的integrate villani batch, 并且Erythrocytes 呈现出明显的oetjen batch的偏向性
scANVI 和FastMNN, 都在CD14+ monocytes群中表现出10x的batch
Harmony的isolated label F1 bio-conservation score最低
fig2b-c
overall score:
具体的计算大家可以去看方法,太复杂啦。
scRNA(5) + simulation tasks(2)
对5个scRNA和2个模拟task测试汇总显示不同工具对batch removal 和biological variance conservation的权衡
最佳工具
simpler tasks: Seurat v3 ;Harmony
complex real data:Scanorama;scVI
all tasks: scGen ; scANVI
在preprocessing的选择上
HVG selection 在大多数的task中有较高的batch removal 和bio- conversation score
full gene set 在trajectory 和cell-cycle conservation中得分较高
scaling 有较高的batch removal 得分和较低的bio conversation 得分
综合比较
scANVI, Scanorama 和 scVI 在scRNA real data中表现最好。
总体来说基于mutual nearest neighbors的方法去除batch的效果比较好,此外deep learning-based methods 结合细胞注释,在去除强batch和保留生物学变化上效果好
Fig3
mouse brain scATAC-seq tasks
scATAC-seq features:peaks, windows, gene(gene activity)
基本上所有的方法在scATAC-seq中的表现都不如scRNA-seq,在scRNA中表现好的方法在Gene activity的评分中相对也比较高。
Liger 和harmony 大力度去除batch effect (而不是bio-conversation),在scATAC的integrate中表现更好。
fig4b-c
scalability和usability
scalability 主要是对task运行过程中的cpu time和peak memory 进行比较,具体结果图在Extended Data fig. 7-8
作者通过下图的10项标准对工具的实用性进行评估,Harmony, Seurat v3 和 BBKNN 对初学者友好,相反, DESC, scANVI 和 trVAE上手比较困难
Extended Data Fig.9
Guide
Fig5a
本文使用的其他生信工具:
Splatter package:生成stimulated data
Scanpy:preprocessing
scikit-learn27 (v.0.22.1): NMI;ARI
anndata2ri:converted between R and Python data formats
随便聊聊
本文的各种打分方法实在让人眼花撩乱,希望后面有时间能好好看明白。
文章最后的结论基本上还是针对不同的数据特征用不同的方法,或许没有工具可以识别数据特征然后自动匹配方法吗?加上现在多组学技术的兴起,不知道不同组学之间的integrate机制又是怎样的。












网友评论