线性回归残差与标准化残差--联系单细胞SCTransform

作者: Norahd | 来源:发表于2023-04-09 19:52 被阅读0次

名词解释
统计学残差
Huber loss
回归模型的诊断：残差及模型诊断
数据分析：基于DESeq2结果的基因富集分析
什么是残差——一文让你读懂GBDT(梯度提升树) 和 Resne
70-线性回归与方差分析
残差图绘制
残差网络
残差网络

extension://bfdogplmndidlpjfhoijckpakkdjkkil/pdf/viewer.html?file=https%3A%2F%2Fhuhuaping.com%2Fcourse-statistics%2Fmaterial%2F05-05-reg-goodness.pdf

Pearson 残差度量模型对观测值的预测优度，使得不同线性模型的优度变得可比。

通过对测序深度进行建模，深度与单个基因的表达水平呈线性关系，那么基因在关于深度的线性模型中的预测值 $\hat y$ 就是在当前深度下由深度影响的正常表达水平， $y -\hat y$ 的结果就是抛开当前深度下正常的表达水平，保留下的 生物差异+技术混淆 的结果，也就是模型的 residule ，对每个基因的 residule 执行标准化得到的结果即 pearson residule ，放在了seurat中的 scale.data 槽中。

最终的 矫正counts矩阵 基于当前数据集的 median(total_totalUMI) 执行了表达量矫正 $y_{corr} = \hat y_{median} + (y- \hat y)*\frac {std(residual \ y_{median})}{std(residual \ y)}, \{ \ if(y_{corr} <0)\ \ y_{corr} = 0\}$ ，其中， $\hat y$ 反映了回归深度下应有的表达量，基于中位数建模的缩放因子矫正批了部分批次差异。通过该回归测量，一定程度上可以补全 drop out 缺失值问题。
sctransform/denoise.R at 0b52965a88a6a9e35fa9e5604afa7e1fb58dfedf · satijalab/sctransform (github.com)

SCTransform 处理后的 scale.data 并不是由 seu@assays$SCT@data 数据槽归一化得到，而是每个基因回归的Pearson 残差

SCTransform 处理后的 counts 矩阵如上所诉方式经过矫正得到

SCTransform 处理后的 data 矩阵则通过 log1p(counts)，

data 中存放了有效矫正当前测序数据中存在于每个细胞的深度差异和部分技术噪音，如果需要去除多个批次文库中明显的批次噪音，就需要按整合方式进行批次矫正了(参考下面矫正)。在不同文库上做SCTransform后标准化的 data 取出来并不可以直接比较，按教程建议merge两个对象之后进行 PrepSCTFindMarkers(seu_merge) 重新矫正计数，从而在两个文库建立统一标准才可比，或者直接 merge 在一起后重新做 SCTransform。

SCTransform + Harmony in Seurat for batch correction (biostars.org)

多样本SCT批次差异矫正处理·教程文档： Introduction to SCTransform, v2 regularization • Seurat (satijalab.org)