美文网首页
GWAS笔记4-LDSC

GWAS笔记4-LDSC

作者: 江湾青年 | 来源:发表于2023-11-29 15:56 被阅读0次

为什么要做LDSC

通过GWAS分析可以识别到与表型相关的SNP位点,然而严格来讲,这个结果并不一定真实客观的描述遗传因素对表型的效应,因为其结果是由以下两个因素共同构成的:

  1. polygenic effects, 基因对表型的效应

  2. confounding factors, 混淆因素,比如群落分层,样本间隐藏的亲缘关系等等

尽管我们在GWAS分析中,可以通过协变量来校正群落分层等因素,但是混淆因素是无法完全消除的。为了保证分析结果的准确性,我们就需要评估GWAS分析结果中以上两个因素的占比,只有当混淆因素占比很低时,才能说明我们的分析结果是可靠的,此时我们就可以通过LDSC来探究这个混淆因素的占比。

什么是LDSC

LDSC本质是一个线性回归,其输入数据为GWAS的分析结果,回归的自变量SNP位点的LD score值因变量是该算法的核心,自定义的一个符合卡方分布的统计量,通过线性回归拟合LD score和卡方统计量的关系,从而判断GWAS分析结果中是否存在混淆因素。

首先来看下自变量LD score, 对于一个SNP位点j,其LD score定义该位点与其邻近位点的连锁不平衡R2的总和,公式如下

LD score

然后再来看下因变量,公式如下

image.png

其中N为样本总数,M为窗口内的其他SNP位点数,h²是遗传力,这几个值为常数,从公式可以看出,卡方统计量和LD score之间是一个线性关系,而且对应到图像上,其截距为1。上述公式是只考虑遗传效应的前提下得到,如果存在混淆因素,那么最后的截距就不是1了。

应用

通过LDSC回归分析的截距,可以判断GWAS结果中是否存在混淆因素。如果截距在1附近,说明没有混淆因素,如果解决超过这个范围,说明有混淆因素的存在。同时公式中涉及到了遗传力,通过LDSC也可以评估遗传力的大小。

针对单个表型的GWAS分析,LDSC可以鉴定是否存在混淆因素,估计遗传力的大小;对于多个表型,则可以根据对应的卡方统计量,计算表型间的遗传相似度。

我们经常在scATAC-seq的文章中看到的这种热图就代表了每种细胞类型特异的峰所富集的LDSC GWAS-SNP的显著性,每行代表一个GWAS study的SNP集合,每一列代表一种细胞类型特异的peaks

image.png

代码

http://www.github.com/bulik/ldsc


参考

https://blog.csdn.net/weixin_43569478/article/details/108079805

相关文章

网友评论

      本文标题:GWAS笔记4-LDSC

      本文链接:https://www.haomeiwen.com/subject/aootgdtx.html