======无参转录组统一流程指南====== =====1.项目信息爬取===== ====环境==== /TJPROJ6/RNA_T/software/miniconda2/envs/python_2.7.14/bin/python ====位置==== /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/get_lims_info ==== 国内项目 ==== python get_lims_noref.py -name your name -pw yourpassword --pjcode 分期号 ==== 海外项目 ==== python get_lims_noref_hw.py -name your name -pw yourpassword --pjcode 分期号 =====2. project.txt===== project.txt 示例,具体含义见注释信息 [project] #项目编号 project_number=X204SC21042174-Z01-F002 #项目名称 project_name=NO-UiT-13RNA-11Amplicon-WBI #合同编号 project_contract=H204SC21042174 #项目分期 project_stage=2 #RNA组编号 project_RNA=16 #利润国内or海外1000/1100/1200/2001/2002,用于区分交付报告 prefecture=1100 #项目运营经理 project_yunying=单亚楠 #项目信息负责人 project_xinxi=范天童 #项目类型 noref/meta project_type=noref #是否截取数据,国内默认截取true,海外项目默认不截取数据flase cutrawdata=flase #QC是否自动调参,默认自动调参true,不调参false automatic=true #数据来源 novogene/other project_source=novogene #数据量(G) data_size=6.0 #文库类型 0.5为非链特异建库,1.0为dUTP链特异性建库,也叫fr-firstrand project_libtype=0.5 #测序类型, single/paired project_readtype=paired #测序长度 project_readlength=150 #最终保留长度 project_keeplength=150 #是否交付clean data,填写yes或者no,默认no clean_data=no #文库号,以英文逗号隔开 project_library=ERRB210000072-1b #文库路径,以英文逗号隔开,和文库号顺序相一致,同一文库号的路径以冒号隔开 project_libpath=/ifs/TJPROJ3/GB_TR/PJ_GB/mRNA/noref/1100/fantiantong/X204SC21042174-Z01-F002.Caligus_elongatus.20210804/data/X204SC21042174-Z01-F002 #样本名称,以英文逗号隔开,和文库号顺序相一致 project_sample=SL_G7 #样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开 project_s2g=SL_G7 #组名,以英文逗号隔开,和分组信息相对应 project_group=SL_G7 #比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名 project_compare= #韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开 project_venn= #需要排除的分析内容,以英文逗号隔开,1:QC/2:Trinity/3:ANNOTATION/4:CDSprediction/5:RSEM/6:DIFF_EXP/7:Enrichment/8:SSR/9:SNP/10.WGCNA project_exclude=6,7,9,10 #ppi物种编号,如人9606 小鼠10090 ppi_taxon= #拼接参数,混合拼接Hybrid,单独拼接Separate splicing_type=Hybrid #基因组指导拼接fasta trinity_genome= #组名,以英文逗号隔开,和分组信息相对应 trinity_align= #参与拼接样本 trinity_samples= #组装软件,默认为TRINITY assemble=trinity #拼接参数,默认为3,关注低表达2 minkmercov=3 #拼接参数,默认为4 minglue=4 #去冗余聚类软件corset/cdhit cluster=corset #物种拉丁名 latin_name=Caligus_elongatus #物种分类信息all/mam/ver/rod/inv/pri/animal/plant/fungi,/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/animal.species project_specie=inv #CDS预测软件,eastscan/TransDecoder,默认TransDecoder cds=TransDecoder #CDS预测类型矩阵,默认1,eastscan参数 codon=1 #物种分类信息matrix参数,选择临近物种At,Hs,Mm,Rn,Dm,Dr,Os,Zm,eastan参数 matrix=At #碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33 baseq=33 #核糖体RNA过滤软件,默认为bowtie2 rRNA=bowtie2 #接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp trim=fastp #定量软件,RSEM quant=RSEM #差异分析软件,DESeq2/edgeR diff= #定量标准,FPKM/TPM quant_type=fpkm #基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05 padj=0.05 #基因显著差异fold change阈值 fc= #是否自动调参 true|false 仅在padj下有效 adjust=true #调参后的p值 adjust_p=0.05 #调参后的fc值 adjust_fc= #snp calling方式,single/mix snp_type=mix #文库删除脚本存放路径 libdel=/TJPROJ6/RNA_T/WORK/del_Nova #配置文件 configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/configure.txt =====3. pipeline===== /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/auto_norefpipline =====4. sjm 投递===== sjm QC.job sjm Analysis.job 单拼项目,每一个样本有一个Analysis.job,分开投递 sjm sample_Analysis.job =====5.数据释放和结题报告上传===== 数据释放: qsub -cwd -V -l vf=1G,p=1 release.sh 结题报告上传: sh upload_release_lims.sh =====6.无参自动化流程的手动启动===== 演示路径: /ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/A01102/Manul/X101SC21033045-Z01-F009 操作路径: 国内 quant: /ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/gn_022/Manul dge: /ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/gn_023/Manul 标准分析 /ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/gn_024/Manul 海外 标准分析 /ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/hw_018/Manul dge /ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/hw_019/Manul quant /ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/hw_036/Manul #!/bin/bash source /TJPROJ4/BioAI/mayubin/software/miniconda3/bin/activate noref-autorun python3 /TJPROJ5/GB_TR/PJ_AI/PIPLINE/GB_trans/gb_noref/v1.0/noref_wdl_sge/pipline/auto_run/script/main.run.manul_noref.py \ --stageCode X101SC21033045-Z01-F009 \ --info xinxi_table.xls \ --samp sample.list \ --yunyingEmail 'fengjie@novogene.com' \ --xinxiEmail 'fengjie@novogene.com' \ --prodCode hw_018 \ --oriProdCode RSPR00213 \ --libType 0.5 \ --serviceLineName AMEA \ --serviceLineCode 3000 \ sample.list 展示: #sample lib lane fq1 fq2 T_1000_4 FRAS210114045-1r L2 X101SC21033045-Z01-F009/yuanshi_data/210709_A01045_0561_BHWTM7DSXY-new/FRAS210114045-1r/FRAS210114045-1r_L2_1.fq.gz X101SC21033045-Z01-F009/yuanshi_data/210709_A01045_0561_BHWTM7DSXY-new/FRAS210114045-1r/FRAS210114045-1r_L2_2.fq.gz xinxi_table.xls 信息收集表 其他信息均在信息收集表解析的邮件中找~ =====注意事项===== ====1.单拼样本,注意splicing_type的参数为Separate,如下。==== splicing_type=Separate 刷出来的分析投递job为sample_Analysis.job。 result_tree如下 . |-- 1.QC | |-- 1.Error | |-- 2.GC | |-- 3.Filter | |-- 4.Stat | `-- QC_readme.pdf |-- result_tree.html |-- W350 | |-- 2.Assembly | |-- 3.Annotation | |-- 4.CDSprediction | |-- 5.Quant | `-- 6.SSRdetection |-- W353 | |-- 2.Assembly | |-- 3.Annotation | |-- 4.CDSprediction | |-- 5.Quant | `-- 6.SSRdetection |-- W382 | |-- 2.Assembly | |-- 3.Annotation | |-- 4.CDSprediction | |-- 5.Quant | `-- 6.SSRdetection `-- W390 |-- 2.Assembly |-- 3.Annotation |-- 4.CDSprediction |-- 5.Quant `-- 6.SSRdetection 29 directories, 2 files report_tree如下 . |-- report_tree.html |-- W350 | |-- Report_X101SC20120052-Z01-J011-B11-16.html | `-- src |-- W353 | |-- Report_X101SC20120052-Z01-J011-B11-16.html | `-- src |-- W382 | |-- Report_X101SC20120052-Z01-J011-B11-16.html | `-- src `-- W390 |-- Report_X101SC20120052-Z01-J011-B11-16.html `-- src 8 directories, 5 files