GO(Gene ontology)是国际通用的基因功能分类体系,按照基因的细胞成分(cellular component),分子功能(molecule function)以及生物过程(biological process)分为3类。在我们拿到了差异基因的集合以后,进行GO富集能够看到不同样本在这三大类中的基因分布情况,也可以用于对目标功能的基因的聚集。通过计算数据集的超几何分布,得出基因富集对应GO terms的排序。
差异表达基因GO富集分析结果展示(上调/下调基因):
表5 差异基因的GO富集示意图表
Up-regulated Genes Gene Ontology Analysis | ||||||
---|---|---|---|---|---|---|
GOBPID | Pvalue | OddsRatio | ExpCount | Count | Size | Term |
GO:0010975 | 9.87E-09 | 49.56483516 | 0.098693503 | 4 | 62 | regulation of neuron projection development |
GO:0072001 | 1.66E-08 | 826.7317073 | 0.007591808 | 2 | 48 | renal system development |
GO:0030900 | 1.67E-08 | 5.693782383 | 2.469868173 | 11 | 57 | forebrain development |
GO:0001822 | 2.22E-08 | 16.63632766 | 0.349223164 | 5 | 46 | kidney development |
GO:0001655 | 4.15E-08 | 9.481650071 | 0.736405367 | 6 | 51 | urogenital system development |
Down-regulated Genes Gene Ontology Analysis | ||||||
---|---|---|---|---|---|---|
GOBPID | Pvalue | OddsRatio | ExpCount | Count | Size | Term |
GO:0008544 | 1.36E-13 | 6.491166078 | 2.037429379 | 11 | 85 | epidermis development |
GO:0043588 | 3.39E-11 | 6.228924847 | 2.118644068 | 11 | 74 | skin development |
GO:0060337 | 6.89E-10 | 6.131799877 | 2.150423729 | 11 | 26 | type I interferon signaling pathway |
GO:0071357 | 6.89E-10 | 4.864259523 | 3.262711864 | 13 | 26 | cellular response to type I interferon |
GO:0034340 | 2.22E-09 | 3.783207038 | 5.71680791 | 17 | 26 | response to type I interferon |
注:
1) GOBPID: gene ontology biological process ID;GO数据库中生物学过程分类编号信息;
2) Pvalue: 富集分析显著性统计参数;
3) Count: 差异表达基因中隶属于该生物学过程的基因个数统计;
4) Size:该生物学过程所包含的所有基因个数统计;
5) Term:生物学过程名称;
6) Gene Ontology分析选用数据库GO生物过程(biological process);
7) GO富集分析按照显著性统计参数pvalue排序;
8) GO富集分析显著性筛选阀值:cutoff: pvalue < 0.05;
9) 上、下调差异基因GO富集分析分别选择top20 biological process做结果展示,完整列表见附件“/结果文件/phase3-GO_KEGG/up/genes_up_go.xls; /结果文件/ phase3-GO_KEGG/down/ genes_down_go.xls ”。
图4.1 差异基因的GO富集示意图
注: 选取结果中top10富集进行绘图展示。
随着科学研究的发展,科学家们发现不同的基因间存在着相互作用关系。这些基因相互协调,发挥其生物学功能,展现出生物学现象。针对这一现象,科学家们分门别类的制定出各种pathway。较为著名的有KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库。利用pathway显著性富集,确定差异基因所属的pathway,进而找出可能相互作用的基因,挖掘现象背后的机制。
差异表达基因KEGG pathway富集分析结果展示(上调/下调基因):
表6 差异基因的KEGG富集示意图表
Up-regulated Genes KEGG Pathway Analysis | ||||||
---|---|---|---|---|---|---|
GOBPID | Pvalue | OddsRatio | ExpCount | Count | Size | Term |
hsa04540 | 1.1E-05 | 10.5046208 | 5.659773585 | 35 | 20 | Gap junction |
hsa05200 | 7.26E-05 | 5.369824806 | 13.16226415 | 51 | 53 | Pathways in cancer |
hsa00982 | 0.00029073 | 3.021918626 | 21.32286792 | 53 | 15 | Drug metabolism - cytochrome P450 |
hsa04510 | 0.000398643 | 6.210961919 | 5.133283019 | 23 | 30 | Focal adhesion |
hsa04974 | 0.000569771 | 4.453982344 | 8.621283019 | 30 | 17 | Protein digestion and absorption |
Down-regulated Genes KEGG Pathway Analysis | ||||||
---|---|---|---|---|---|---|
GOBPID | Pvalue | OddsRatio | ExpCount | Count | Size | Term |
hsa04514 | 1.56E-06 | 4.88481203 | 12.60316981 | 36 | 31 | Cell adhesion molecules (CAMs) |
hsa04360 | 4.82E-06 | 21.76313148 | 0.632301887 | 10 | 34 | Axon guidance |
hsa05165 | 8.67E-05 | 50.32307692 | 0.19290566 | 6 | 48 | Human papillomavirus infection |
hsa04940 | 0.000196515 | 13.78965297 | 0.932377358 | 10 | 12 | Type I diabetes mellitus |
hsa05332 | 0.000524794 | 13.84582543 | 0.825207547 | 9 | 11 | Graft-versus-host disease |
注:
(1) KEGGID: KEGG pathway ID;KEGG数据库中生物学通路编号信息;
(2) Pvalue: 富集分析显著性统计参数;
(3) Count: 差异表达基因中隶属于该生物学通路的基因个数统计;
(4) Size:该生物学通路所包含的所有基因个数统计;
(5) Term:生物学通路名称;
(6) KEGG pathway富集分析按照显著性统计参数pvalue排序;
(7) KEGG pathway富集分析显著性筛选阀值:cutoff: pvalue < 0.05;
(8) 上、下调差异基因KEGG pathway富集分析分别选择top20 biological process做结果展示,完整列表见附件“/结果文件/phase3-GO_KEGG/up/genes_up_kegg.xls; /结果文件/phase3-GO_KEGG/down/genes_down_kegg.xls”。
图4.2 差异基因的KEGG富集示意图
注: 选取结果中top10富集进行绘图展示。
差异表达基因在KEGG pathway中具体通路信息展示:
以表达上调基因KEGG pathway富集分析结果为例,其中表达下调基因AMPK,ACC,GK,G6PC,PP1等蛋白因子显著富集在生物学通路“INSULIN SIGNALING PATHWAY”中,并以绿色字体标出。所有显著富集的通路信息见附件“/结果文件/phase3-GO_KEGG”。
图4.3 KEGG pathway 富集分析结果展示示意图
GSEA软件是由broad institute开发的用于分析差异表达基因所富集的通路和GO term的软件。用该软件分析差异表达基因的特征被 国际上许多顶尖实验室所采用。GSEA软件的分析是基于广泛的数据库的,其中较为著名的有Gene Ontology 数据库和KEGG数据库。
该分析的好处是,可以一次性的扫描所有GO term以及pathway,并直观的了解每一个pathway或者GO term中所有基因的差异表达情况,且该方法不依赖于差异表达的p-value cutoff。如上三点好处,让GSEA 备受推崇。
图4.4 GSEA分析核心图(举例)
注:
(1) 文件在数据汇总的GESA文件夹中index.html文件,以上图为例,说明GSEA的核心分析图;
(2) 我们根据基因的差异表达情况,对基因组中的所有基因进行排序,其中上调的基因依次排在最前面(显示为图中中间颜色符红色的部分),下调的基因依次排在最后面(显示为图中中间颜色符蓝色的部分),差异表达不明显的基因排在中间(显示为图中中间颜色符红蓝交界的部分);
(3) 颜色符上面的黑色竖线(bar)代表此图中的基因在排序队列中的位置。若图中大部分黑色竖线对应(hit)于红色的颜色符区域,表明在此图示状态下的大部分基因是上调的。若图中大部分黑色竖线对应(hit)于蓝色的颜色符区域,表明在此图示状态下的大部分基因是下调的;
(4) 图中最上面的绿色曲线,与黑色竖线的富集区域相对应。其峰值出现的区域 即为黑色竖线(bar)集中出现的区域;
完整信息见附件“/结果文件/phase4-GSEA/”
Signal-Net整合所有KEGG通路中基因和基因之间的调控关系,构建基因与基因间的调控网络图。通过Singal-Net,可以获得网络中具有核心调控地位的基因,重要的桥梁基因(eg.连接主网络图的基因)以及核心基因的上下游基因和它们之间的相互关系。
图4.5 Signal-Net分析核心基因图(部分截图)
注:
(1) 文件在数据汇总的Signal-Net文件夹中,以上图为例,图中的节点为基因,红色代表上调,蓝色代表下调。红色越深,代表上调程度越高;蓝色越深,代表下调程度越高;
(2) 各个基因间的连线代表实验验证的来自KEGG数据库的调控关系,可以将图放大后即可清楚看到;
(3) 差异表达显著且连接的边众多的节点即为核心基因;核心基因互相连接的即为重要的桥梁基因;
原始文档见附件“/结果文件/phase5-SignalNet/”。