美文网首页
单细胞数据处理

单细胞数据处理

作者: 生信小书童 | 来源:发表于2026-01-11 10:21 被阅读0次

1 Scanpy工具

1、Scanpy 构建的对象叫做 AnnData 对象
2、Scanpy 是一个python 工具包,分析单细胞基因表达数据。它包含预处理、可视化、聚类、轨迹推断和差异表达测试等功能








2 数据质量控制

1、“Spike-in”是生物学和生物信息学实验中常用的术语,意思是人为加入的已知量的外源性对照物质,常用于校准、标准化或定量分析。中文里可以翻译为“加标物”或“外源内参”
2、特定细胞的 QC 指标包括所有基因的总数、表达基因的总数以及分配给对照基因(例如spike-in 转录本或线粒体基因)的计数百分比。这些指标有助于识别低质量细胞——例如,映射到spike-in 的计数百分比高通常表明该细胞捕获的 RNA 量较少,这表明实验方案失败或细胞在处理过程中死亡,使其不适合进行下游分析。对于每个基因,都会计算 QC 指标,例如平均表达水平和表达该基因的细胞比例。这可用于识别低丰度基因或丢失率高的基因,这些基因应在下游分析之前过滤掉
3、此过程中使用以下 QC 指标:来自前 100 个特征的计数百分比、具有可检测表达的特征总数、来自对照特征的计数百分比、检测到的特征对照的数量、来自内生特征的对数缩放计数以及来自特征对照的对数转换计数
4、因为 scRNA-seq 数据的特点是“丢失”事件发生频率高,即在特定细胞中没有观察到基因实际表达的表达(例如没有读取计数)。事实上,大多数基因不会在每个细胞中都有可检测到的表达。使用 plotQC,可以轻松地在图中突出显示每个细胞中应该存在的控制特征,从而可以将技术丢失与表达的生物异质性区分开来
5、典型的 scRNA-seq 数据集将显示跨细胞的平均表达水平和表达频率之间大致呈 S 形关系。这与预期行为一致,即平均表达量较大的基因在文库制备过程中更容易捕获,并且检测到的频率更高





6、pct_counts_mt (线粒体基因表达百分比),健康的细胞线粒体基因比例较低
7、pct_counts_ribo (核糖体基因表达百分比),这个指标反映了细胞的蛋白质翻译活性,高核糖体基因比例说明细胞正在活跃地合成蛋白质
8、pct_counts_hb (血红蛋白基因表达百分比),这个指标主要用于检测样本中红细胞的污染

知乎介绍




测试数据:

预处理和聚类 3k PBMCs


使用 Ingest 和 BBKNN 集成数据



相关文章

网友评论

      本文标题:单细胞数据处理

      本文链接:https://www.haomeiwen.com/subject/ucscgjtx.html