随机森立分析

一。目的：使用随机森林算法对数据分类进行预测并得到关键基因

二。地址：/TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R 

三。内容与方法：
1、对数据集进行预处理，处理原则：将数据集按照2:8分为两份，行名为样本的分组，列名为特征（如基因），表中的内容为特征值，每个表格至少两个组。
2、/TJPROJ1/MICROCOOP/share/Software/Miniconda3/bin/Rscript /TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R 

-t train.xls （测试集）

-s test.xls （训练集）

-o out

-k 10（默认为5）

四。结果解读：
boxplot_prob_testset1.pdf 模型预测的准确性箱图

boxplot_prob_testset2.pdf 模型预测的准确性箱图

boxplot_prob_trainset1.pdf 模型预测的准确性箱图

boxplot_prob_trainset2.pdf 模型预测的准确性箱图

err.cv.csv 变量筛选数目与错误率

error.rate.cv.pdf 变量筛选数目与错误率图形展示

important_vars.xls 筛选的重要变量

MDS.rf.pdf 基于相似矩阵做MDS降维图 

MeanDecreaseAccuracy.pdf 平均精度下降 pdf 图形展示

MeanDecreaseGini.pdf 平均 Gini 指数下降 pdf 图形展

oob.err.pdf  随机森林的oob错误率图 

ROC/ ROC曲线

testset_prediction_prob.xls 模型预测的准确性

trainset_prediction_prob.xls 模型预测的准确性

五。测试文件：
/TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/Random_Forest/