t-SNE:T-Distribution Stochastic Neighbour Embedding, T分布随机近邻嵌入。与PCA一样是常用的降维方法,其主要优势在于能保持局部结构的能力,即高维数据空间中距离相近的点投影到低维空间中仍然相近。 R语言中实现的包:Rtsne
与流程中PCA使用数据相同,样本gene表达矩阵,gene_fpkm.xls。
install.packages("Rtsne") library(Rtsne) df<-read.table("test.xls",header = T,sep='\t',row.names = 1) new_df <- t(df) #将输入文件转置使列为gene,行为sample condition <- read.table("condition.xls",header = T) sample <- data.frame(id=condition$sample,group=condition$group) set.seed(1) # t-SNE结果随机,进行分析之前需设置随机数种子是结果具有可重复性 tsne_out = Rtsne( new_df, #待降维矩阵 dims = 2, #正整数,表示降维后的数据纬度——将数据降到几维? pca = F, #TRUE/FALSE,表示在进行t-SNE前是否进行主成分分析PCA,然后使用PCA得到的top50主成分分析进行后续计算。因为t-SNE的计算量是非常大的。 max_iter = 1000, #表示迭代次数,默认为1000。 theta = 0.4, #是速度/精度权衡,范围在0~1之间,数值越小越精确,默认0.5。该参数影响最终结果,可根据可视化结果进行调整。 perplexity = 3, #困惑度,具体没整明白干啥的, 大小必须**小于**(nrow(data)-1)/3 check_duplicates = FALSE, 检查是否存在重复项。最好确保在进行t-SNE之前数据不存在重复项,并将此选项设置为FALSE。 verbose = F) tsne_out #输出结果是一个列表,其中元素Y就是降维结果。 #library(ggalt) library(ggplot2) tsne_result = as.data.frame(tsne_out$Y) colnames(tsne_result) = c("tSNE1","tSNE2") tsne_result$group=sample$group p <- ggplot(tsne_result,aes(tSNE1,tSNE2,color=group)) + geom_point() + #stat_ellipse(level = 0.9)+ #与PCA相同可添加置信区间 #geom_encircle(aes(group=group), expand=0.1,spread=0.5,s_shape=0.9) + #ggalt包将同组散点圈起来 theme_bw()+ theme(plot.margin = unit(rep(1.5,4),"lines"), panel.grid.major = element_blank(), panel.grid.minor = element_blank()) #legend.position = c(0.9,0.1), #legend.background = element_rect(fill = "grey90", size = 1, colour = "white")) pdf("test.tsne.pdf")
/TJPROJ6/NC_BG_SH/shouhou/202306/X101SC22012246-Z01-J001_Rtsne