随机森立分析
一。目的:使用随机森林算法对数据分类进行预测并得到关键基因
二。地址:/TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R
三。内容与方法: 1、对数据集进行预处理,处理原则:将数据集按照2:8分为两份,行名为样本的分组,列名为特征(如基因),表中的内容为特征值,每个表格至少两个组。 2、/TJPROJ1/MICROCOOP/share/Software/Miniconda3/bin/Rscript /TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R
-t train.xls (测试集)
-s test.xls (训练集)
-o out
-k 10(默认为5)
四。结果解读: boxplot_prob_testset1.pdf 模型预测的准确性箱图
boxplot_prob_testset2.pdf 模型预测的准确性箱图
boxplot_prob_trainset1.pdf 模型预测的准确性箱图
boxplot_prob_trainset2.pdf 模型预测的准确性箱图
err.cv.csv 变量筛选数目与错误率
error.rate.cv.pdf 变量筛选数目与错误率图形展示
important_vars.xls 筛选的重要变量
MDS.rf.pdf 基于相似矩阵做MDS降维图
MeanDecreaseAccuracy.pdf 平均精度下降 pdf 图形展示
MeanDecreaseGini.pdf 平均 Gini 指数下降 pdf 图形展
oob.err.pdf 随机森林的oob错误率图
ROC/ ROC曲线
testset_prediction_prob.xls 模型预测的准确性
trainset_prediction_prob.xls 模型预测的准确性
五。测试文件: /TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/Random_Forest/