用户工具

站点工具


gsea结果解读

GSEA结果解读

1、GSEA简介

常规的GO(Gene Ontology)和pathway(KEGG)分析,属于超几何富集算法,使用的基因数据源是我们根据实验组vs对照组所获得的差异基因,其中差异基因则需要根据设置的阈值进行判断,比如p值、FDR值、Fold Change等,因此这就会涉及到人为的阈值选择,具有一定的主观性,毕竟没有一个公认的、固定的阈值标准告诉我们,这样的基因就是差异的基因,所以这种富集结果可能有一定的局限性。

基因集富集分析GSEA采用的算法则不同,使用的基因数据源是我们实验组和对照组检测到的所有基因(无论是否被人为阈值判断为差异基因),将所有基因与预定义的GSEA基因集(类似pathway、GO这样的基因与功能对应关系)进行比较、富集,从而判断基因对表型(功能)的贡献。因此,从基因集的富集角度出发,GSEA不局限于是否为差异基因,理论上更容易发现一些对生物通路/功能有细微变化(基因倍数变化小)的影响。

总的来说,二种富集分析都是可以使用的方法,而GSEA涵盖的变化基因更多,哪怕有些基因在我们看来不是”差异基因”,因此,GSEA相对来说要更为全面一些。

2、GSEA结果解读

富集分析结果分为网页报告的html版和tsv版的文本,都是表达一样的意思。表头含义如下所示:
GS:基因集的名字,详细信息等(官方版基因集可跳转到网页,查看更多基因集的信息);
SIZE:该基因集中包含在表达矩阵中的基因数目(经过条件筛选的值);
ES:基因集的富集分数,该基因集在表达数据中的基因排名列表的顶部或底部被过度代表的程度;
NES:归一化的ES值。通过标准化富集分数,GSEA解决了基因集大小以及基因集与表达矩阵之间相关性的差异问题。因此,可以使用归一化的富集分数(NES)来比较各个基因集的分析结果;
NOM p-val:即p-value,是对富集分数ES的统计学分析,用来表示富集结果的可信度;
FDR q-val:错误发现率(FDR),归一化的富集得分代表假阳性结果的估计概率,一般而言,绝对NES越大FDR越小,而FDR越小说明富集越显著;GSEA分析报告重点介绍了FDR小于25%的富集基因集;
FWER p-val:family-wise error rate(FWER),以更保守的算法估计归一化的富集得分代表假阳性结果的概率,一般不采用,GSEA官方建议关注FDR;
RANK AT MAX:当富集分数ES值最大/最小时,对应基因所在的排序好的基因列表中所处的位置;
LEADING EDGE:显示用于定义 leading edge subset的三个统计信息,具体可参考官网说明。

解读Enrichment plot结果图片如下所示,整个可分为3部分,可从下往上进行理解: gsea_enrichment_plot.jpg

第一部分,所有基因排序后的分布,横坐标代表所有基因的位置,数值总大小与表达矩阵的基因数量一样,纵坐标代表该基因的表达情况与表型的关联程度,从大到小排列,绝对值越大代表关联越强(可简单理解为类似差异倍数)。GSEA会根据基因表达情况与表型(分组)的关联程度进行排序(排序方式为信噪比Signal2noise,参数可设置),靠近横坐标0的基因代表与表型呈现正相关(Exp,positivelycorrelated),靠近横坐标30000的为负相关基因(Con,negatively correlated)。不同的颜色表示基因与表型的关联程度,红色表示基因在Exp中高表达,蓝色表示基因在Con中高表达;
第二部分,用线条标记了该基因集中的基因出现在基因排序列表中的位置,黑线代表当前分析的基因集中的基因在所有基因排序中的位置;
第三部分,绿色曲线为富集打分ES的动态过程,而遍历排序的基因列表是计算ES值的过程。ES值初始为0,然后顺着基因排序位置0处往后进行移动,当有排序基因中出现在该基因集中时则ES加分,反之不出现则减分,加减分值由基因与表型的相关性决定,最终完成全部排序基因的打分流程,形成完成的绿色曲线,而ES值最高(>0)或最低(0<)时的值为该基因集的ES值。Leading edge subset即为从0到绿色曲线峰值ES出现对应时,这段区间所对应的基因。

3、结果小结

在分析结果中,通常会按照NOM p-val和FDR q-val的参数对该基因集是否被显著富集进行判断,常见参数有NOMp-val<0.05,FDR q-val<0.25,表明这个功能基因集在处理条件下具有显著的生物学意义。同时,也有人加入|NES|>1作为额外的显著性判断标准。总的来说,GSEA官方没有固定判断标准,因此建议使用者根据自身情况或文献情况,对显著性阈值做出判断。

gsea结果解读.txt · 最后更改: 2022/09/26 06:43 由 zhangxin