前一篇推送为大家解读了今年发表在GB上的关于ChIP-seq峰差异分析工具的测评,文章的最后作者对不同应用场景提出了最合适的分析工具,整体而言也就是MACS2/bdgdiff、Diffbind、edgeR和DESeq2等。
我们经常用MACS2来进行call peak,对这款软件还是比较熟,Diffbind内置了edgeR和DESeq的算法,所以大多数情况下我们使用MACS2/bdgdiff和Diffbind就能满足差异分析需求。
所以这次推送将带来这两款工具进行差异分析的简单流程。

MACS2软件bdgdiff选项
Fig 1
MACS2是目前最常用的用来检测ChIP-seq 峰的软件,无论是转录因子还是各种组蛋白修饰,具体的操作可参考之前的推送“生信分析:NG-拟南芥雄配子发生-ChIP-seq数据分析”。其实该软件自带了差异peak分析功能。
MACS2软件bdgdiff选项可以用来检测一个样本对另一个样本的差异peak,注意一定是一个,即不支持生物学重复。
bdgdiff选项可以充分利用call peak过程产生的各种输出文件(但不是peak),即MACS2/bdgdiff是不依赖峰而做差异分析的工具(Fig 1)。
Fig 2
--t1/2和--c1/2即指定condition1和2的bedGraph文件,输入的四个文件在call peak过程可以生成(Fig 2)。
Fig 3
指定--d1和--d2用来做标准化,消除测序文件reads数不一致的影响(Fig 3)。
输出文件有三个:
1、*cond1.bed (condition1中上调的peak)
2、*cond2.bed (condition2中上调的peak)
3、*common.bed (非显著差异的peak)
R包-Diffbind
Fig 4
Diffbind是一款更为常用的差异peak分析软件,为峰依赖型,支持生物学重复。它的运行思路是把所有的输入文件写入一个配置文件,通过读入该配置文件完成各种分析(Fig4)。
配置文件:
1、样本名称
2、组织(可不填,写为NA)
3、因子(可不填,写为NA)
4、时空条件(可不填,写为NA)
5、分组
6、重复
7、样本比对后的bam文件
8、对照的名称
9、对照的bam文件 (8和9列可写为NA)
10、该样本peak的bed文件
11peak类型(宽峰/窄峰)
Fig 5
整体分为四步:
1、读取数据,只读入我们构建好的配置文件即可。
2、计算reads,计算每个peaks的reads数量。
3、对第二步的结果进行标准化。
4、指定差异分组。
5、进行差异分析并输出分析结果
Fig 6
输出文件包含11列(Fig 6):
1、差异Peak所在染色体
2、差异Peak在参考序列上的起始位置
3、差异Peak在参考序列上的终止位置
4、差异Peak的长度信息
5、正负链信息
6、Group1和Group2平均值进行log2标准化后的计数
7、Group1进行log2标准化后的计数
8、Group2进行log2标准化后的计数
9、Group1与Group2的差异倍数(进行log2标准化)
10、差异Peak的置信度计算
11、差异Peak的多重校验FDR
以上两款软件不只是用于ChIP-seq数据,也可以用来分析CUT&TAG、ATAC-seq等数据。
对于Diffbind,不只是可以输入峰的bed文件,也可以把它换为自己感兴趣的区域。
本文使用 文章同步助手 同步
网友评论