http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:pipelines:产品_宏转录组统一新流程 ====== 宏转录组统一流程文档以及使用说明: ====== == 一、爬表脚本 == /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_gn_meta.py #国内爬表脚本 /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_hw_meta.py #海外爬表脚本 功能:\\ 下载信息搜集表生成 xiaji_table.xls 和 final_xinxi_table.xls \\ 爬取 lims 的样本下机路径 \\ 生成配置文件 project.txt \\ python /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_gn_meta.py -name lims账号 -pw lims密码 -pj 分期号 python /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_hw_meta.py -name lims账号 -pw lims密码 -pj 分期号 == 二、project.txt 参数说明 == [project] #项目编号 project_number= #项目名称 project_name= #合同编号 project_contract= #项目分期 project_stage= #RNA组编号 project_RNA= #利润国内or海外1000/1100/1200/2001/2002,用于区分交付报告 prefecture= #项目运营经理 project_yunying= #项目信息负责人 project_xinxi= #项目类型 noref/meta project_type=meta #是否截取数据,国内默认截取true,海外项目默认不截取数据flase cutrawdata=flase #QC是否自动调参,默认自动调参true,不调参false automatic=true #数据来源 novogene/other project_source=novogene #数据量(G) data_size=10.0 #文库类型 0.5为非链特异建库,0为dUTP链特异性建库,也叫fr-firstrand project_libtype=0.5 #测序类型, single/paired project_readtype=paired #产品来源 gn/hw product_source=gn #测序长度 project_readlength=150 #最终保留长度 project_keeplength=150 #是否交付clean data,填写yes或者no,默认no clean_data=no #文库号,以英文逗号隔开 project_library=FRMT230080942-1r,FRMT230080943-1r,... #文库路径,以英文逗号隔开,和文库号顺序相一致,同一文库号的路径以冒号隔开 project_libpath=/TJPROJ4/XJ/department_data-nova/2011/230531_A01426_0605_AHNKTLDSX5-new:/TJPROJ4/XJ/department_data-nova/2011/230529_A01426_0604_AHMTGHDSX5-new,/TJPROJ4/XJ/department_data-nova/2011/230531_A01426_0605_AHNKTLDSX5-new:/TJPROJ4/XJ/department_data-nova/2011/230529_A01426_0604_AHMTGHDSX5-new,... #样本名称,以英文逗号隔开,和文库号顺序相一致 project_sample=B_C_1,B_C_2,... #样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开 project_s2g=B_C_1,B_C_2,... #组名,以英文逗号隔开,和分组信息相对应 project_group=B_SPAU_1,B_SPAU_2,... #比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名 project_compare=B_SPAU_1vsB_SPAU_2,... #韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开 project_venn=B_SPAU_1:B_SPAU_2 #需要排除的分析内容,以英文逗号隔开,1:QC/2:Trinity/3:ANNOTATION/4:RSEM/5:DIFF/6:Enrichment/7:CDSprediction,默认不做7 project_exclude= #CARD功能库注释,默认为no CARD=no #去宿主物种基因组所在路径,客户提供下载链接下载后填入 host= #ppi物种编号,如人9606 小鼠10090 ppi_taxon= #拼接参数,混合拼接Hybrid,单独拼接Separate splicing_type= #基因组指导拼接fasta trinity_genome= #组名,以英文逗号隔开,和分组信息相对应 trinity_align= #参与拼接样本 trinity_samples= #组装软件,默认为TRINITY assemble=trinity #组装投递计算节点的核心数,默认20 cpu_num=20 #组装片段过滤的最小长度,默认250 minlength=250 #拼接参数,meta默认为2,关注低表达1 minkmercov=1 #拼接参数,默认为4 minglue=4 #去冗余聚类软件corset/cdhit cluster=corset #CDS预测软件,eastscan/TransDecoder,默认TransDecoder cds=TransDecoder #CDS预测类型矩阵,默认1,eastscan参数 codon=1 #碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33 baseq=33 #核糖体RNA过滤软件,默认为bowtie2 rRNA=bowtie2 #接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp trim=fastp #定量软件,RSEM quant=RSEM #差异分析软件,DESeq2/edgeR diff=DESeq2 #定量标准,FPKM/TPM quant_type=fpkm #基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05 padj=0.05 #基因显著差异fold change阈值 fc=2 #是否自动调参 true|false 仅在padj下有效 adjust=true #调参后的p值 adjust_p=0.05 #调参后的fc值 adjust_fc=2 #文库删除脚本存放路径 libdel=/TJPROJ6/RNA_T/WORK/del_Nova #配置文件 configure=/TJPROJ11/GB_TR/USER/liujiawen/00.pipline/Meta_TR/configure.txt == 三、打印脚本投递任务 == 1. /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/Meta_TR/meta_pipeline.py \\ 在log路径下打印脚本,并生成job文件 \\ \\ 2. QC ——> sjm log/QC.job \\ 质控分析部分,对下机数据进行QC,并产生QC报告(cleandata数据量,核糖体含量,Q20,Q30,错误率,GC分布,N线,外源污染等)——有问题反馈给运营,没有问题继续分析 \\ \\ 3. Analysis ——> sjm log/Analysis.job \\ 宏转录组质控后的分析部分,会按照程序先后运行逻辑顺序依次投递各个分析脚本,并生成结题报告。 \\ \\ 4. QC&Analysis ——> sjm QC_Analysis.job \\ 宏转录组分析全部内容,会按照程序先后运行逻辑顺序依次投递各个分析脚本,并生成结题报告。 \\ \\ 5. 结题释放 ——> sh upload_release_lims.sh \\ 上传结题报告并释放数据 \\