====选择性多聚腺苷酸化(APA)分析_-APAtrap==== 参考网址:[[https://www.jianshu.com/p/ffad29721e31]] 这个软件第一步先是检测3‘UTR(Fig 3),其实这个信息在我们研究的物种的基因组注释文件中是有的,但是一般的基因组注释是比较粗糙的,基因结构注释总会存在大量的问题,对于一般的分析可能影响不大,但是我们现在研究的是APA还是有很大影响的,所以这一步相当于是对基因组注释的校正。我们先是把基因组的注释文件输入进去,它会识别出已经注释的3‘UTR区,然后对这个区域上下延申10kb,然后从这个范围的开头以100bp为窗格、以1bp为步长,滑动检测这个范围的reads。比如这个图上,蓝色是基因组的注释情况,红色是校正后的情况,有可能是本来没有注释出3‘UTR,根据我们的转录组数据注释到了,有可能是之前的注释过长或者过短,最后整合这些情况得到修正好的3‘UTR。 第二步是在这个修正后的3‘UTR,将它的最末端称为“远端polyA位点”,然后对3‘UTR从5’端向3’端以100bp为窗格、以1bp为步长,滑动检测这个范围的reads,目的是检测覆盖深度显著下降的位置,这些位置被认定为潜在的ployA位点(Fig 4)。对于两个条件的比较,输入的是多个转录组数据,所以对这些所有的数据在100bp以内的polyA位点被合并,认定为一个ployA位点。需要注意这里检测到的APA位点是前面介绍的三种类型中最主要的一种,即3'-UTRs-APA 第三步是用来检测处理和对照是否存在差异APA的情况。 比如在给定的示意图中(Fig 5),有A和B两个样本,在A样本中根据深度的骤减鉴定到两个潜在的APA位点,它们的3‘UTR长度分别为L1和L2,在sampleB中也鉴定到两个潜在的APA,它们的3‘UTR长度分别为L3和L4,就长度而言,L1,固定这个排序,然后表征出样本A和B在这4个APA的使用情况。然后作者计算了皮尔逊相关系数,该值为正表明B样本比A样本偏好更长的3‘UTR,为负说明A样本偏好更长的3‘UTR。 步骤一般为: [[https://sourceforge.net/p/apatrap/wiki/User%20Manual/#jump6]] $ samtools view -bS SRR.sam > SRR.bam $ samtools sort SRR.bam -o SRR.sorted.bam $ genomeCoverageBed -bg -ibam SRR.sort.bam -g reference.genome.size.txt -split > SRR.bedgraph Steps of using APAtrap to process the Test_Data.zip: 1st step: type the following command in the Command Prompt of Linux or Windows, $ ./identifyDistal3UTR -i Sample1.bedgraph Sample2.bedgraph -m hg19.genemodel.bed -o test.utr.bed 2nd step: type the following command in the Command Prompt of Linux or Windows, $ ./predictAPA -i Sample1.bedgraph Sample2.bedgraph -g 2 -n 1 1 -u test.utr.bed -o test.APA.txt 3rd step: type the following command in the R Command Prompt, > library(deAPA) > deAPA('test.APA.txt', 'test.APA.stat.txt', 1, 2, 1, 1, 20) 串写脚本: python /TJPROJ6/RNA_SH/personal_dir/fengjie/SOFTWARE/APAtrap/APA_prep.py \ --bamdir /TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/APA_analysis/bam \ --samples C1,C2,C3,T1,T2,T3,T4,M1,M2,M3 \ --groups T,C,M \ --s2g T1:T2:T3:T4,C1:C2:C3,M1:M2:M3 \ --compares TvsC,MvsC,TvsM \ -software APAtrap \ --gtf /TJPROJ13/GB_TR/reference_data/Animal/Mus_musculus/Mus_musculus_Ensemble_94/Mus_musculus_Ensemble_94.gtf \ --outdir /TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/APA_analysis/APAtrap \ 结果文件: Gene Mean_Squared_Error Predicted_APA Loci Group_1_1_Separate_Exp Group_1_1_Total_Exp Group_2_1_Separate_Exp Group_2_1_Total_Exp p.value perc_diff r p.adjust ENST00000011619.6|NA|6|- 598.3 13621971,13621773 6:13621499-13622492 17.86,48.13,44.14 110.13 1.84,22.78,92.72 117.33 5.28701774179812e-10 0.389383320339873 0.414641939828123 4.98041899604087e-09 ENST00000011691.6|NA|3|+ 142.8 42594522 3:42594422-42594939 9.73,27.89 37.63 0.00,24.67 24.67 0.00596178484853801 0.258639021796917 0.348420677578292 0.0142022657535034 ENST00000019317.8|NA|18|+ 1186.7 9537570,9537879 18:9535671-9537989 111.23,22.33,20.12 153.67 108.95,18.57,21.77 149.28 0.914447915468732 0.0209131525521339 -0.000660897206945504 0.929313324932017 ENST00000034275.12|NA|19|- 398.7 5917557 19:5917353-5917653 36.85,83.13 119.98 148.82,100.48 249.3 1.82111334131726e-07 0.289816941679075 -0.271469037571982 1.15598671481154e-06 ENST00000166139.9|NA|19|+ 14614.6 682874,683196 19:681650-683384 0.00,18.51,11.34 29.85 0.00,228.53,175.84 404.37 0.55853573503918 0.0549497742191682 0.0280746391745866 0.630683755547799 ENST00000186436.10|NA|2|- 17.3 97757198 2:97756606-97757383 71.43,5.51 76.94 NA NA NA NA NA NA ENST00000187762.7|NA|19|+ 15.8 16688241 19:16688144-16688492 12.91,11.28 24.19 12.71,12.76 25.48 0.806933623072795 0.0346731550204644 0.0346791922719301 0.838219569183875 ENST00000196371.10|NA|5|- 744.1 41730397 5:41730168-41731770 108.04,98.61 206.65 27.41,58.77 86.18 0.00136160714016571 0.204761122924986 0.187156182056048 0.00373040575054696 ENST00000203629.3|NA|12|+ 19.7 6778354,6778638 12:6778244-6778835 51.73,0.00,5.45 57.18 15.38,12.39,4.86 32.62 0.00109341838525578 0.433341565800189 0.378885750753235 0.00304415941806029 readme novel.utr.bed 第一列 染色体的名称 第二列 起始位置 第三列 结束位置 第四列 标签,包括基因ID,基因符号,染色体名称,链 第五列 得分 第六列 链方向 APA_diff.txt Gene 基因ID Mean_Squared_Error 拟合的均方误差 Predicted_APA 由APAtrap推断的近端APA位点坐标(以逗号分隔) Loci 3'UTR的范围,其中末端位点代表最远的poly(A)位点 Group_m_n_Separate_Exp 各APA部位的表达水平(从最近部位到远端部位,用逗号分隔)。M,n表示第M个样本,第n次复制 Group_m_n_Total_Exp Total expression level of sample m, replicate n p.value 差异分析显著性p值 perc_diff 两组间APA位点差异百分比,∈[0,1] r pearson相关系数∈[-1,1],正值表示group2比group1使用更多的远端poly(a)位点(或长3' UTR),负值表示group2比group1使用更多的近端poly(a)位点(或短3' UTR) p.adjust 矫正后p值