用户工具

站点工具


选择性多聚腺苷酸化_apa_分析_-apatrap

选择性多聚腺苷酸化(APA)分析_-APAtrap

参考网址:https://www.jianshu.com/p/ffad29721e31

这个软件第一步先是检测3‘UTR(Fig 3),其实这个信息在我们研究的物种的基因组注释文件中是有的,但是一般的基因组注释是比较粗糙的,基因结构注释总会存在大量的问题,对于一般的分析可能影响不大,但是我们现在研究的是APA还是有很大影响的,所以这一步相当于是对基因组注释的校正。我们先是把基因组的注释文件输入进去,它会识别出已经注释的3‘UTR区,然后对这个区域上下延申10kb,然后从这个范围的开头以100bp为窗格、以1bp为步长,滑动检测这个范围的reads。比如这个图上,蓝色是基因组的注释情况,红色是校正后的情况,有可能是本来没有注释出3‘UTR,根据我们的转录组数据注释到了,有可能是之前的注释过长或者过短,最后整合这些情况得到修正好的3‘UTR。

第二步是在这个修正后的3‘UTR,将它的最末端称为“远端polyA位点”,然后对3‘UTR从5’端向3’端以100bp为窗格、以1bp为步长,滑动检测这个范围的reads,目的是检测覆盖深度显著下降的位置,这些位置被认定为潜在的ployA位点(Fig 4)。对于两个条件的比较,输入的是多个转录组数据,所以对这些所有的数据在100bp以内的polyA位点被合并,认定为一个ployA位点。需要注意这里检测到的APA位点是前面介绍的三种类型中最主要的一种,即3'-UTRs-APA

第三步是用来检测处理和对照是否存在差异APA的情况。

比如在给定的示意图中(Fig 5),有A和B两个样本,在A样本中根据深度的骤减鉴定到两个潜在的APA位点,它们的3‘UTR长度分别为L1和L2,在sampleB中也鉴定到两个潜在的APA,它们的3‘UTR长度分别为L3和L4,就长度而言,L1<l2<l3<l4< span=“”>,固定这个排序,然后表征出样本A和B在这4个APA的使用情况。然后作者计算了皮尔逊相关系数,该值为正表明B样本比A样本偏好更长的3‘UTR,为负说明A样本偏好更长的3‘UTR。

步骤一般为:

https://sourceforge.net/p/apatrap/wiki/User%20Manual/#jump6

$ samtools view -bS SRR.sam > SRR.bam

$ samtools sort SRR.bam -o SRR.sorted.bam

$ genomeCoverageBed -bg -ibam SRR.sort.bam -g reference.genome.size.txt -split > SRR.bedgraph

Steps of using APAtrap to process the Test_Data.zip:
1st step: type the following command in the Command Prompt of Linux or Windows,

$ ./identifyDistal3UTR -i Sample1.bedgraph Sample2.bedgraph -m hg19.genemodel.bed -o test.utr.bed

2nd step: type the following command in the Command Prompt of Linux or Windows,

$ ./predictAPA -i Sample1.bedgraph Sample2.bedgraph -g 2 -n 1 1 -u test.utr.bed -o test.APA.txt

3rd step: type the following command in the R Command Prompt,

> library(deAPA)
> deAPA('test.APA.txt', 'test.APA.stat.txt', 1, 2, 1, 1, 20)

串写脚本:

python /TJPROJ6/RNA_SH/personal_dir/fengjie/SOFTWARE/APAtrap/APA_prep.py \
	--bamdir /TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/APA_analysis/bam \
	--samples C1,C2,C3,T1,T2,T3,T4,M1,M2,M3 \
	--groups T,C,M \
	--s2g T1:T2:T3:T4,C1:C2:C3,M1:M2:M3 \
	--compares TvsC,MvsC,TvsM \
	-software APAtrap \
	--gtf /TJPROJ13/GB_TR/reference_data/Animal/Mus_musculus/Mus_musculus_Ensemble_94/Mus_musculus_Ensemble_94.gtf \
	--outdir /TJPROJ6/RNA_SH/personal_dir/fengjie/Personal_analysis/APA_analysis/APAtrap \

结果文件:

Gene	Mean_Squared_Error	Predicted_APA	Loci	Group_1_1_Separate_Exp	Group_1_1_Total_Exp	Group_2_1_Separate_Exp	Group_2_1_Total_Exp	p.value	perc_diff	r	p.adjust
ENST00000011619.6|NA|6|-	598.3	13621971,13621773	6:13621499-13622492	17.86,48.13,44.14	110.13	1.84,22.78,92.72	117.33	5.28701774179812e-10	0.389383320339873	0.414641939828123	4.98041899604087e-09
ENST00000011691.6|NA|3|+	142.8	42594522	3:42594422-42594939	9.73,27.89	37.63	0.00,24.67	24.67	0.00596178484853801	0.258639021796917	0.348420677578292	0.0142022657535034
ENST00000019317.8|NA|18|+	1186.7	9537570,9537879	18:9535671-9537989	111.23,22.33,20.12	153.67	108.95,18.57,21.77	149.28	0.914447915468732	0.0209131525521339	-0.000660897206945504	0.929313324932017
ENST00000034275.12|NA|19|-	398.7	5917557	19:5917353-5917653	36.85,83.13	119.98	148.82,100.48	249.3	1.82111334131726e-07	0.289816941679075	-0.271469037571982	1.15598671481154e-06
ENST00000166139.9|NA|19|+	14614.6	682874,683196	19:681650-683384	0.00,18.51,11.34	29.85	0.00,228.53,175.84	404.37	0.55853573503918	0.0549497742191682	0.0280746391745866	0.630683755547799
ENST00000186436.10|NA|2|-	17.3	97757198	2:97756606-97757383	71.43,5.51	76.94	NA	NA	NA	NA	NA	NA
ENST00000187762.7|NA|19|+	15.8	16688241	19:16688144-16688492	12.91,11.28	24.19	12.71,12.76	25.48	0.806933623072795	0.0346731550204644	0.0346791922719301	0.838219569183875
ENST00000196371.10|NA|5|-	744.1	41730397	5:41730168-41731770	108.04,98.61	206.65	27.41,58.77	86.18	0.00136160714016571	0.204761122924986	0.187156182056048	0.00373040575054696
ENST00000203629.3|NA|12|+	19.7	6778354,6778638	12:6778244-6778835	51.73,0.00,5.45	57.18	15.38,12.39,4.86	32.62	0.00109341838525578	0.433341565800189	0.378885750753235	0.00304415941806029

readme

novel.utr.bed
	第一列    染色体的名称
	第二列    起始位置
	第三列    结束位置
	第四列    标签,包括基因ID,基因符号,染色体名称,链
	第五列    得分
	第六列    链方向


APA_diff.txt

	Gene                      基因ID
	Mean_Squared_Error        拟合的均方误差
	Predicted_APA             由APAtrap推断的近端APA位点坐标(以逗号分隔)
	Loci                      3'UTR的范围,其中末端位点代表最远的poly(A)位点
	Group_m_n_Separate_Exp    各APA部位的表达水平(从最近部位到远端部位,用逗号分隔)。M,n表示第M个样本,第n次复制
	Group_m_n_Total_Exp       Total expression level of sample m, replicate n
	p.value                   差异分析显著性p值
	perc_diff                 两组间APA位点差异百分比,∈[0,1]
	r                         pearson相关系数∈[-1,1],正值表示group2比group1使用更多的远端poly(a)位点(或长3' UTR),负值表示group2比group1使用更多的近端poly(a)位点(或短3' UTR)
	p.adjust                  矫正后p值
选择性多聚腺苷酸化_apa_分析_-apatrap.txt · 最后更改: 2024/09/19 09:33 由 fengjie