随机森立分析

一。目的:使用随机森林算法对数据分类进行预测并得到关键基因

二。地址:/TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R

三。内容与方法: 1、对数据集进行预处理,处理原则:将数据集按照2:8分为两份,行名为样本的分组,列名为特征(如基因),表中的内容为特征值,每个表格至少两个组。 2、/TJPROJ1/MICROCOOP/share/Software/Miniconda3/bin/Rscript /TJPROJ7/RNA_R/shouhou/script_dir/other/Random_forest/randomforest.R

-t train.xls (测试集)

-s test.xls (训练集)

-o out

-k 10(默认为5)

四。结果解读: boxplot_prob_testset1.pdf 模型预测的准确性箱图

boxplot_prob_testset2.pdf 模型预测的准确性箱图

boxplot_prob_trainset1.pdf 模型预测的准确性箱图

boxplot_prob_trainset2.pdf 模型预测的准确性箱图

err.cv.csv 变量筛选数目与错误率

error.rate.cv.pdf 变量筛选数目与错误率图形展示

important_vars.xls 筛选的重要变量

MDS.rf.pdf 基于相似矩阵做MDS降维图

MeanDecreaseAccuracy.pdf 平均精度下降 pdf 图形展示

MeanDecreaseGini.pdf 平均 Gini 指数下降 pdf 图形展

oob.err.pdf 随机森林的oob错误率图

ROC/ ROC曲线

testset_prediction_prob.xls 模型预测的准确性

trainset_prediction_prob.xls 模型预测的准确性

五。测试文件: /TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/Random_Forest/