🔑 1、概要
liftOver 是 基因组坐标转换(genome coordinate conversion) 的一个常用工具/方法,最早由 UCSC Genome Browser 团队开发。
在基因组学研究中,不同版本的基因组组装(assembly)之间会有差异,比如人类常见的 hg19 (GRCh37) 和 hg38 (GRCh38)。同一个基因或调控区域,在不同版本的参考基因组上的坐标可能完全不同。liftOver 的作用就是 根据参考的链文件(chain file),把某个基因组组装上的区间映射到另一个基因组组装上获得映射坐标。
chain file 是 liftOver 的核心,它相当于一本“基因组间的地图册”。通常使用 whole-genome alignment(全基因组比对) + UCSC 的链式处理工具生成,一般我们不会自己从零生成,而是直接从 UCSC genome browser / Ensembl / NCBI 下载 获得。
📌2、跨物种应用
liftOver 不仅能用于 同一物种不同版本的基因组 之间的映射(如 hg19 → hg38),也能用于 跨物种之间的基因组比对坐标转换(如人类 hg38 → 猕猴 macfas5,或人类 → 小鼠 mm10)。这种跨物种的 liftOver 是通过序列同源性比对 (常用 lastz 工具) 产生的链文件来完成的,精确性依赖两个物种基因组之间的保守性。通过映射,能让我们能把动物实验和人类遗传学、功能基因组学对接起来,回答哪些调控机制是保守的,哪些是人类特有的。搭建 “进化—调控—疾病”的桥梁。
snATAC-se 应用场景: 在 snATAC-seq 研究的时,通过 跨物种的 liftOver, 就能把一个物种(比如猕猴)的开放区间(Peak)映射到人类基因组,从而根据人类的全面基因组数据来检查保守区域的相关基因组学特征。比如人类 GWAS 发现的变异大多落在非编码区。通过 liftOver,可以检验 疾病相关变异 是否落在灵长类动物中保守的调控区间里。如果某些 ATAC-seq peak 在人和猕猴都开放,并且在人类携带 GWAS 变异,那它可能是一个功能性风险 CRE。这种方法有助于解释 GWAS 信号,并将动物模型研究与人类疾病机制联系起来。
⚠️⚠️⚠️ 跨物种应用的注意事项:
在做 跨物种的 ATAC-seq Peak liftOver 时,需要注意,同一个 peak 在不同基因组之间并不是“完美一一对应”的。尤其是在人和猕猴这样的近缘物种之间,虽然整体基因组结构相对保守,但局部区域可能会因为插入、缺失或重排而产生大小和位置的偏移。如果不加筛选,直接拿所有 liftOver 结果去做下游分析,很容易引入噪音,甚至得出偏差的结论。
👉3、本文提供了一套 综合筛选准则 来尽可能保留 “靠谱” 的 liftOver 映射区间:
- 保留落在标准染色体上的 lifted区间(映射后的区间),避免组装碎片带来的干扰;
- 检查 lifted区间 大小是否与原始 peak 相近,避免那些因结构变异导致明显拉长或缩短的片段;
- 检查 overlap fraction(重叠比例) ,使得保留下来的结果在位置上仍然具有一定的可信度。
- 约束lifted区间的 summit/中心 的偏移距离,因为 ATAC-seq Peak 的功能核心往往集中在峰顶(summit) 附近,若中心偏移过大,则可能失去对真实调控位点的代表性。
- 区分 ATAC-seq Peak 类型, 对 宽峰(broad peak) 和 窄峰(narrow peak)分别应用不同的区分标准。
🔑 宽峰(broad peak) 和 窄峰(narrow peak) 的定义、性质和生物学意义说明:
-
-
窄峰(narrow peak):
典型于转录因子结合位点(TF binding sites),通常峰宽 < 1000 bp,信号集中且峰中心(summit)代表着相对精确的调控元件位置。比如窄峰对应的 TF 结合位点往往是 几十个碱基对的 motif,这些小片段如果在 liftOver 后不能很好重叠,大概率说明该位点在目标物种中已经缺失或发生显著改变。
➝ 对于这种情况,跨物种 liftOver 时必须要求 更严格的过滤标准,否则就可能偏离实际的功能位点。
-
窄峰(narrow peak):
-
-
宽峰(broad peak):
常见于染色质修饰(如 H3K27me3、H3K36me3)或某些可变的开放区域,峰宽可能上千甚至几万 bp,信号分布比较弥散,没有特别明确的单一 summit。它们的功能区域通常是 片段性的(区域里不是每个碱基都有同样强的调控信号,而是有多个信号域(motif、TF结合位点、染色质修饰)分布在整个区域里,共同塑造区域的功能)、调控“带状”的(宽峰类似一条“带”,沿着染色质延伸,而不是一个尖锐的峰)。
➝ 对于这种情况,跨物种 liftOver 时使用 更宽松的过滤标准(本身就是“模糊边界”,过于严格的 筛选反而可能丢掉大量真实的保守信号)。 因为整个宽峰的调控作用是整体呈现的,而不是依赖单个点,所以即使跨物种部分区域没有完全对应(部分区域丢失),但只要核心部分还在,仍能捕捉到关键的生物学信号。
-
宽峰(broad peak):
✅ 总结:
在综合筛选里面窄峰需要高的筛选标准以保证位置精度,而宽峰由于功能弥散、边界不清,即使较宽松的筛选标准获得的结果仍可能保留生物学意义。
本文所提及的筛选原则不是绝对的 “金标准”,但在实践中能很好地平衡 严格性 和 保留率。这样,我们得到的跨物种可比 peaks 就更接近于“真正共享”的开放染色质区域,而不是被噪声干扰。








网友评论