随机森立分析 一。目的:使用随机森林算法对数据分类进行预测并得到关键基因 二。地址:/TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R 三。内容与方法: 1、对数据集进行预处理,处理原则:将数据集按照2:8分为两份,行名为样本的分组,列名为特征(如基因),表中的内容为特征值,每个表格至少两个组。 2、/TJPROJ1/MICROCOOP/share/Software/Miniconda3/bin/Rscript /TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R -t train.xls (测试集) -s test.xls (训练集) -o out -k 10(默认为5) 四。结果解读: boxplot_prob_testset1.pdf 模型预测的准确性箱图 boxplot_prob_testset2.pdf 模型预测的准确性箱图 boxplot_prob_trainset1.pdf 模型预测的准确性箱图 boxplot_prob_trainset2.pdf 模型预测的准确性箱图 err.cv.csv 变量筛选数目与错误率 error.rate.cv.pdf 变量筛选数目与错误率图形展示 important_vars.xls 筛选的重要变量 MDS.rf.pdf 基于相似矩阵做MDS降维图 MeanDecreaseAccuracy.pdf 平均精度下降 pdf 图形展示 MeanDecreaseGini.pdf 平均 Gini 指数下降 pdf 图形展 oob.err.pdf 随机森林的oob错误率图 ROC/ ROC曲线 testset_prediction_prob.xls 模型预测的准确性 trainset_prediction_prob.xls 模型预测的准确性 五。测试文件: /TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/Random_Forest/