外源标准ERCC样品评估高通量RNA测序技术

##欢迎批评指正!!

项目:P101SC17092074-01-西农60个转录组测序分析技术服务(委托)合同

背景

ERCC (The External RNA Control Consortium)开发的一组序列和浓度已知的外源标准RNA样本,已被用于评估基因芯片和qPCR等技术平台的性能和数据质量及评估RNA-Seq数据的质量。

采用最新的92条序列和浓度已知的商业化ERCC外源标准RNA,将其按照被测样品mRNA量1%的比例(假设InRNA占总RNA量的2%)加入到样品RNA中,然后用Illumina测序平台进行RNA-Seq测序

方法

1.有参将ercc序列合并到参考基因组中一起mapping+定量,然后用ercc矫正样品readcount,基于矫正后结果差异分析;

2.无参拼接定量完,然后单独定量ercc,在用ercc定量结果来矫正,基于矫正后结果差异分析

脚本

/TJPROJ1/RNA/shouhou/script_dir/other/ercc/ercc_diff.py
备注:有参基于mapping后结果,无参基于trinity拼接后结果,差异分析为有生物学重复;可调参

脚本使用

Python /TJPROJ1/RNA/shouhou/personal_dir/zhangcuijie/script/ercc/ercc_diff.py 
--sample A1,A2,A3,B1,B2,B3,C1,C2,C3 \  # 样品名 以逗号隔开
--group A1:A2:A3,B1:B2:B3,C1:C2:C3  \ #样本分组,组内用‘:’分隔,组间用‘,’分隔
--groupname A,B,C \ 组名,逗号分隔,顺序对应于—group
--readcount /BJPROJ/RNA/noref1708/P101SC17020563-01-B3-4_sangshu_noref_20171024/DIFF_EXP/Diff_analysis.out/merged.readcount  #readcount文件,绝对路径
--cleanfq_dir /TJPROJ1/RNA/shouhou/personal_dir/zhangcuijie/script/ercc/clean_data \ #**无参项目必填,有参不填**
--ss 0.5 \ #是否链特异性 **无参项目必填,有参不填**
--fa /TJPROJ1/RNA/shouhou/personal_dir/zhangcuijie/script/ercc/RSEM.old/ercc/ercc1.seq \ #ercc1.seq 序列文件
--fc 2   为差异分析筛选条件foldchange ,如果不想用该条件,选择填写1
--p 0.05   差异分析筛选条件pval/padj的阈值
--ty padj  对应参数--p,选择是用pval还是padj为筛选标准 
--type noref 项目类型 ref or noref 
--compare 2:1,3:1 组间比较方式,处理:参考;
--exclude 排除选项  {'1':'quant','2':''diff} 

脚本使用方法

sjm_Analysis.sh

结果文件

===有参:
矫正结果:
1.ERCC.readcount.xls
2.normalized.count:矫正结果:如下

矫正结果说明:
gene_id  gene的id
其余列是各个样本的所对应的基因的readcount值

若分析差异则差异基因list+火山图结果
===无参:
1.ERCC定量结果
2.矫正结果
3.若分析差异则差异基因list+火山图结果

文献

ercc_rna_spike-in_control_mixes.pdf