http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:pipelines:产品_宏转录组统一新流程

宏转录组统一流程文档以及使用说明：

一、爬表脚本

/TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_gn_meta.py #国内爬表脚本 /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_hw_meta.py #海外爬表脚本

功能：
下载信息搜集表生成 xiaji_table.xls 和 final_xinxi_table.xls
爬取 lims 的样本下机路径
生成配置文件 project.txt

python /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_gn_meta.py -name lims账号 -pw lims密码 -pj 分期号
python /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_hw_meta.py -name lims账号 -pw lims密码 -pj 分期号

二、project.txt 参数说明

[project]
#项目编号
project_number=

#项目名称
project_name=

#合同编号
project_contract=

#项目分期
project_stage=

#RNA组编号
project_RNA=

#利润国内or海外1000/1100/1200/2001/2002，用于区分交付报告
prefecture=

#项目运营经理
project_yunying=

#项目信息负责人
project_xinxi=

#项目类型 noref/meta
project_type=meta

#是否截取数据，国内默认截取true，海外项目默认不截取数据flase
cutrawdata=flase

#QC是否自动调参,默认自动调参true，不调参false
automatic=true

#数据来源 novogene/other
project_source=novogene

#数据量(G)
data_size=10.0

#文库类型 0.5为非链特异建库，0为dUTP链特异性建库，也叫fr-firstrand
project_libtype=0.5

#测序类型, single/paired
project_readtype=paired

#产品来源 gn/hw
product_source=gn

#测序长度
project_readlength=150

#最终保留长度
project_keeplength=150

#是否交付clean data，填写yes或者no，默认no
clean_data=no

#文库号,以英文逗号隔开
project_library=FRMT230080942-1r,FRMT230080943-1r,...

#文库路径，以英文逗号隔开,和文库号顺序相一致，同一文库号的路径以冒号隔开
project_libpath=/TJPROJ4/XJ/department_data-nova/2011/230531_A01426_0605_AHNKTLDSX5-new:/TJPROJ4/XJ/department_data-nova/2011/230529_A01426_0604_AHMTGHDSX5-new,/TJPROJ4/XJ/department_data-nova/2011/230531_A01426_0605_AHNKTLDSX5-new:/TJPROJ4/XJ/department_data-nova/2011/230529_A01426_0604_AHMTGHDSX5-new,...

#样本名称，以英文逗号隔开，和文库号顺序相一致
project_sample=B_C_1,B_C_2,...

#样本按照不同的实验处理分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开
project_s2g=B_C_1,B_C_2,...

#组名,以英文逗号隔开，和分组信息相对应
project_group=B_SPAU_1,B_SPAU_2,...

#比较组合，处理组vs对照组，不同比较组合用英文逗号隔开，如AvsB，其中A和B为组名
project_compare=B_SPAU_1vsB_SPAU_2,...

#韦恩组合，不同比较组以英文冒号隔开，不同维恩组合以英文逗号隔开
project_venn=B_SPAU_1:B_SPAU_2

#需要排除的分析内容，以英文逗号隔开，1:QC/2:Trinity/3:ANNOTATION/4:RSEM/5:DIFF/6:Enrichment/7:CDSprediction，默认不做7
project_exclude=

#CARD功能库注释，默认为no
CARD=no

#去宿主物种基因组所在路径，客户提供下载链接下载后填入
host=

#ppi物种编号，如人9606 小鼠10090
ppi_taxon=

#拼接参数，混合拼接Hybrid，单独拼接Separate
splicing_type=

#基因组指导拼接fasta
trinity_genome=

#组名,以英文逗号隔开，和分组信息相对应
trinity_align=

#参与拼接样本
trinity_samples=

#组装软件，默认为TRINITY
assemble=trinity

#组装投递计算节点的核心数,默认20
cpu_num=20

#组装片段过滤的最小长度,默认250
minlength=250

#拼接参数，meta默认为2，关注低表达1
minkmercov=1

#拼接参数，默认为4
minglue=4

#去冗余聚类软件corset/cdhit
cluster=corset

#CDS预测软件,eastscan/TransDecoder,默认TransDecoder
cds=TransDecoder

#CDS预测类型矩阵，默认1,eastscan参数
codon=1

#碱基编码值，取决于测序平台，illumina测序平台都为33,默认为33
baseq=33

#核糖体RNA过滤软件，默认为bowtie2
rRNA=bowtie2

#接头和低质量reads过滤软件，ngqc/trimmomatic/fastp,默认为fastp
trim=fastp

#定量软件，RSEM
quant=RSEM

#差异分析软件，DESeq2/edgeR
diff=DESeq2

#定量标准，FPKM/TPM
quant_type=fpkm

#基因显著差异筛选阈值，pvalue或padj值，默认采用padj值0.05
padj=0.05

#基因显著差异fold change阈值
fc=2

#是否自动调参 true|false 仅在padj下有效
adjust=true

#调参后的p值
adjust_p=0.05

#调参后的fc值
adjust_fc=2

#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova

#配置文件
configure=/TJPROJ11/GB_TR/USER/liujiawen/00.pipline/Meta_TR/configure.txt

三、打印脚本投递任务

1. /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/Meta_TR/meta_pipeline.py
在log路径下打印脚本，并生成job文件

2. QC ——> sjm log/QC.job
质控分析部分，对下机数据进行QC，并产生QC报告（cleandata数据量，核糖体含量，Q20，Q30，错误率，GC分布，N线，外源污染等）——有问题反馈给运营，没有问题继续分析

3. Analysis ——> sjm log/Analysis.job
宏转录组质控后的分析部分，会按照程序先后运行逻辑顺序依次投递各个分析脚本，并生成结题报告。

4. QC&Analysis ——> sjm QC_Analysis.job
宏转录组分析全部内容，会按照程序先后运行逻辑顺序依次投递各个分析脚本，并生成结题报告。

5. 结题释放 ——> sh upload_release_lims.sh
上传结题报告并释放数据