本文首发于“生信大碗”公众号,转载请注明出处
上次我们介绍了使用GEO2R进行零代码差异分析筛选差异基因,那么如何了解差异基因的功能呢?这就要用到富集分析了。今天给大家分享一个实用的富集分析工具——DAVID,同样不需要语言基础,直接点点点就可以得到自己需要的数据分析结果。
背景知识
1、什么是富集分析呢?
一个生物学过程通常是由许多基因共同参与,而不是由单个基因独自完成。富集分析本质上是对基因的分布检验,如果基因集中分布在某条通路上,则认为是富集。
2、为什么要做富集分析呢?
我们在差异分析后,得到一组差异显著的基因集,想分析这些基因参与了哪些生物学过程,我们就需要通过富集分析去探究,常见的富集分析包括GO功能注释和KEGG通路富集分析。
3、怎么做富集分析呢?
除了全代码使用R语言之外,还可以零代码使用DAVID数据库进行。DAVID是一个生物信息数据库,其整合了生物学数据和分析工具,为基因或蛋白提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于差异基因的功能和通路富集分析。
以上是关于富集分析的一些理论讲解,话不多说,我们下面就开始实战演示吧。
实战演练
1、
进入DAVID(https://david.ncifcrf.gov/) 数据库。
将鼠标移动至红色方框处,得到如下图所示菜单栏,点击Functional Annotation。
图 1
2、
在下图Step 1白色空白内复制粘贴自己的基因,然后在Step 2处选择对应的基因ID类型,Step3处勾选Gene List,最后在Step4处点击提交。
图 2
3、
得到如下图界面所示,Use All Species板块是所识别到的物种类型,这里输入的是人的基因,因此勾选人类,然后点击图左下方Use。DAVID默认进行包括Disease、Functional_Annotations、Gene_Ontology等在内的所有分析,但我们只需要进行GO功能注释和KEGG通路富集,所以这里先点击下图右上方Clear All,之后再重新选择。
图 3
4、
点击上图Gene_Ontology前加号,得到如下图所示界面,只勾选BP,CC,MF。
(BP代表生物学过程,CC代表细胞组分,MF代表分子功能。)
图 4
5、
然后点击下图Functional Annotation Chart
图 5
6、
得到如下图所以便是GO富集分析的结果,点击Download File下载保存结果。
图 6
7、
KEGG通路富集分析则是在勾选Clear All后,点击下图Pathways,之后的操作就跟GO功能富集的操作一致了。
图 7
结果解读
如图6中GO富集分析部分,我们只需要关注其中一些重要列的信息即可,比如Category代表的是富集功能的类别,Term代表的是具体的功能,Count代表富集到该功能的基因数,p值则用来评估结果是否具有统计学意义。
而我们要怎么在文章中展示富集分析的结果呢?最简单的就是用Excel将数据整理成表格或者直方图,当然也可以利用其他的一些可视化软件,如SangerBox(http://vip.sangerbox.com/)等。
好了,今天的分享就到这里啦!下期我们继续介绍其他的分析工具~
本文首发于“生信大碗”公众号,转载请注明出处
—END—











网友评论