RRHO方法是将不同class样本的基因表达谱进行排序(两个class),然后利用超几何分布迭代计算所有组合的P值,进而找到最佳overlapping基因组合;这方法不需要预先人为设定阈值(比如差异基因阈值),所以是unbiased
R包-RRHO的源码理解其计算思路,然后结合上述方法学文章加以理解;其R包源码很简单(500行不到的代码),大致有以下几个步骤:
对每组class样本计算其gene ranking;这个类似于GSEA中的ranking,可选的方法也一样,下图中用的是tTest,也可以用signal-to-noise等等;然后可以根据ranking绘制scatter plot,如果两个class之间一致性很高,那会有一条很好的线性回归线(对角线) 对上述ranking按照降序排列,设置一个step(相当于基因组合的长度),穷尽两个class的组合,用的是expand.grid函数 循环每个组合,计算每个组合的overlapping gene数以及通过超几何分布(phyper函数)计算每个组合的P值;下图的H(k,s,M,N)中k代表overlapping gene数,s和M分别代表两个class中每个组合的gene数,N代表总gene数 最后则是对于P值进行校正,默认是用BY(Benjamini-Yekutieli)方法进行多重检验校正;此外还有用Permutation(置换检验)方法(如果每组class的样本足够的多,至少6个样本)来评估hypergeometric map的整体统计学意义,这里跟GSEA也比较相似,既可以选择sample permutation也可以选择gene permutation,但是文章作者建议使用前者(PS. R包则默认使用后者。。。)
测试路径:/TJPROJ6/RNA_SH/personal_dir/zhangxin/jiaoben/RRHO
脚本路径:/TJPROJ6/RNA_SH/personal_dir/zhangxin/jiaoben/RRHO
RRHO
./RRHO --diff1 MiddlevsBottom_deg.xls --diff2 TopvsBottom_deg.xls --diffname1 MiddlevsBottom --diffname2 TopvsBottom --prefix test1
测试结果见/TJPROJ6/RNA_SH/personal_dir/zhangxin/jiaoben/RRHO/RRHO_result.zip rrho_result.zip
RRHO2
git网站: http://htmlpreview.github.io/?https://github.com/RRHO2/RRHO2/blob/master/vignettes/RRHO2.html
./RRHO2 --diff1 MiddlevsBottom_deg.xls --diff2 TopvsBottom_deg.xls --diffname1 MiddlevsBottom --diffname2 TopvsBottom --prefix test1
测试结果见/TJPROJ6/RNA_SH/personal_dir/zhangxin/jiaoben/RRHO/RRHO2_result.zip rrho2_result.zip
建议使用RRHO2,其结果够容易理解,RRHO中只有一张热图可以查看趋势,RRHO2可以查看各个部分的gene。