http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:pipelines:产品_宏转录组统一新流程

宏转录组统一流程文档以及使用说明:

一、爬表脚本

/TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_gn_meta.py #国内爬表脚本 /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_hw_meta.py #海外爬表脚本

功能:
下载信息搜集表生成 xiaji_table.xls 和 final_xinxi_table.xls
爬取 lims 的样本下机路径
生成配置文件 project.txt

python /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_gn_meta.py -name lims账号 -pw lims密码 -pj 分期号
python /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/get_lims_info/get_lims_noref_hw_meta.py -name lims账号 -pw lims密码 -pj 分期号
二、project.txt 参数说明
[project]
#项目编号
project_number=

#项目名称
project_name=

#合同编号
project_contract=

#项目分期
project_stage=

#RNA组编号
project_RNA=

#利润国内or海外1000/1100/1200/2001/2002,用于区分交付报告
prefecture=

#项目运营经理
project_yunying=

#项目信息负责人
project_xinxi=

#项目类型 noref/meta
project_type=meta

#是否截取数据,国内默认截取true,海外项目默认不截取数据flase
cutrawdata=flase

#QC是否自动调参,默认自动调参true,不调参false
automatic=true

#数据来源 novogene/other
project_source=novogene

#数据量(G)
data_size=10.0

#文库类型 0.5为非链特异建库,0为dUTP链特异性建库,也叫fr-firstrand
project_libtype=0.5

#测序类型, single/paired
project_readtype=paired

#产品来源 gn/hw
product_source=gn

#测序长度
project_readlength=150

#最终保留长度
project_keeplength=150

#是否交付clean data,填写yes或者no,默认no
clean_data=no

#文库号,以英文逗号隔开
project_library=FRMT230080942-1r,FRMT230080943-1r,...

#文库路径,以英文逗号隔开,和文库号顺序相一致,同一文库号的路径以冒号隔开
project_libpath=/TJPROJ4/XJ/department_data-nova/2011/230531_A01426_0605_AHNKTLDSX5-new:/TJPROJ4/XJ/department_data-nova/2011/230529_A01426_0604_AHMTGHDSX5-new,/TJPROJ4/XJ/department_data-nova/2011/230531_A01426_0605_AHNKTLDSX5-new:/TJPROJ4/XJ/department_data-nova/2011/230529_A01426_0604_AHMTGHDSX5-new,...

#样本名称,以英文逗号隔开,和文库号顺序相一致
project_sample=B_C_1,B_C_2,...

#样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开
project_s2g=B_C_1,B_C_2,...

#组名,以英文逗号隔开,和分组信息相对应
project_group=B_SPAU_1,B_SPAU_2,...

#比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名
project_compare=B_SPAU_1vsB_SPAU_2,...

#韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开
project_venn=B_SPAU_1:B_SPAU_2

#需要排除的分析内容,以英文逗号隔开,1:QC/2:Trinity/3:ANNOTATION/4:RSEM/5:DIFF/6:Enrichment/7:CDSprediction,默认不做7
project_exclude=

#CARD功能库注释,默认为no
CARD=no

#去宿主物种基因组所在路径,客户提供下载链接下载后填入
host=

#ppi物种编号,如人9606 小鼠10090
ppi_taxon=

#拼接参数,混合拼接Hybrid,单独拼接Separate
splicing_type=

#基因组指导拼接fasta
trinity_genome=

#组名,以英文逗号隔开,和分组信息相对应
trinity_align=

#参与拼接样本
trinity_samples=

#组装软件,默认为TRINITY
assemble=trinity

#组装投递计算节点的核心数,默认20
cpu_num=20

#组装片段过滤的最小长度,默认250
minlength=250

#拼接参数,meta默认为2,关注低表达1
minkmercov=1

#拼接参数,默认为4
minglue=4

#去冗余聚类软件corset/cdhit
cluster=corset

#CDS预测软件,eastscan/TransDecoder,默认TransDecoder
cds=TransDecoder

#CDS预测类型矩阵,默认1,eastscan参数
codon=1

#碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33
baseq=33

#核糖体RNA过滤软件,默认为bowtie2
rRNA=bowtie2

#接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp
trim=fastp

#定量软件,RSEM
quant=RSEM

#差异分析软件,DESeq2/edgeR
diff=DESeq2

#定量标准,FPKM/TPM
quant_type=fpkm

#基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05
padj=0.05

#基因显著差异fold change阈值
fc=2

#是否自动调参 true|false 仅在padj下有效
adjust=true

#调参后的p值
adjust_p=0.05

#调参后的fc值
adjust_fc=2

#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova

#配置文件
configure=/TJPROJ11/GB_TR/USER/liujiawen/00.pipline/Meta_TR/configure.txt
三、打印脚本投递任务

1. /TJPROJ11/GB_TR/USER/liujiawen/00.pipline/Meta_TR/meta_pipeline.py
在log路径下打印脚本,并生成job文件

2. QC ——> sjm log/QC.job
质控分析部分,对下机数据进行QC,并产生QC报告(cleandata数据量,核糖体含量,Q20,Q30,错误率,GC分布,N线,外源污染等)——有问题反馈给运营,没有问题继续分析

3. Analysis ——> sjm log/Analysis.job
宏转录组质控后的分析部分,会按照程序先后运行逻辑顺序依次投递各个分析脚本,并生成结题报告。

4. QC&Analysis ——> sjm QC_Analysis.job
宏转录组分析全部内容,会按照程序先后运行逻辑顺序依次投递各个分析脚本,并生成结题报告。

5. 结题释放 ——> sh upload_release_lims.sh
上传结题报告并释放数据