目录

无参转录组统一流程指南

1.项目信息爬取

环境

/TJPROJ6/RNA_T/software/miniconda2/envs/python_2.7.14/bin/python

位置

/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/get_lims_info

国内项目

python get_lims_noref.py -name your name -pw yourpassword --pjcode 分期号

海外项目

python get_lims_noref_hw.py -name your name -pw yourpassword --pjcode 分期号

2. project.txt

project.txt 示例,具体含义见注释信息

[project]
#项目编号
project_number=X204SC21042174-Z01-F002
#项目名称
project_name=NO-UiT-13RNA-11Amplicon-WBI
#合同编号
project_contract=H204SC21042174
#项目分期
project_stage=2
#RNA组编号
project_RNA=16
#利润国内or海外1000/1100/1200/2001/2002,用于区分交付报告
prefecture=1100
#项目运营经理
project_yunying=单亚楠
#项目信息负责人
project_xinxi=范天童
#项目类型 noref/meta
project_type=noref
#是否截取数据,国内默认截取true,海外项目默认不截取数据flase
cutrawdata=flase
#QC是否自动调参,默认自动调参true,不调参false
automatic=true
#数据来源 novogene/other
project_source=novogene
#数据量(G)
data_size=6.0
#文库类型 0.5为非链特异建库,1.0为dUTP链特异性建库,也叫fr-firstrand
project_libtype=0.5
#测序类型, single/paired
project_readtype=paired
#测序长度
project_readlength=150
#最终保留长度
project_keeplength=150
#是否交付clean data,填写yes或者no,默认no
clean_data=no
#文库号,以英文逗号隔开
project_library=ERRB210000072-1b
#文库路径,以英文逗号隔开,和文库号顺序相一致,同一文库号的路径以冒号隔开
project_libpath=/ifs/TJPROJ3/GB_TR/PJ_GB/mRNA/noref/1100/fantiantong/X204SC21042174-Z01-F002.Caligus_elongatus.20210804/data/X204SC21042174-Z01-F002
#样本名称,以英文逗号隔开,和文库号顺序相一致
project_sample=SL_G7
#样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开
project_s2g=SL_G7
#组名,以英文逗号隔开,和分组信息相对应
project_group=SL_G7
#比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名
project_compare=
#韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开
project_venn=
#需要排除的分析内容,以英文逗号隔开,1:QC/2:Trinity/3:ANNOTATION/4:CDSprediction/5:RSEM/6:DIFF_EXP/7:Enrichment/8:SSR/9:SNP/10.WGCNA
project_exclude=6,7,9,10
#ppi物种编号,如人9606 小鼠10090
ppi_taxon=
#拼接参数,混合拼接Hybrid,单独拼接Separate
splicing_type=Hybrid
#基因组指导拼接fasta
trinity_genome=
#组名,以英文逗号隔开,和分组信息相对应
trinity_align=
#参与拼接样本
trinity_samples=
#组装软件,默认为TRINITY
assemble=trinity
#拼接参数,默认为3,关注低表达2
minkmercov=3
#拼接参数,默认为4
minglue=4
#去冗余聚类软件corset/cdhit
cluster=corset
#物种拉丁名
latin_name=Caligus_elongatus
#物种分类信息all/mam/ver/rod/inv/pri/animal/plant/fungi,/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/animal.species
project_specie=inv
#CDS预测软件,eastscan/TransDecoder,默认TransDecoder
cds=TransDecoder
#CDS预测类型矩阵,默认1,eastscan参数
codon=1
#物种分类信息matrix参数,选择临近物种At,Hs,Mm,Rn,Dm,Dr,Os,Zm,eastan参数
matrix=At
#碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33
baseq=33
#核糖体RNA过滤软件,默认为bowtie2
rRNA=bowtie2
#接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp
trim=fastp
#定量软件,RSEM
quant=RSEM
#差异分析软件,DESeq2/edgeR
diff=
#定量标准,FPKM/TPM
quant_type=fpkm
#基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05
padj=0.05
#基因显著差异fold change阈值
fc=
#是否自动调参 true|false 仅在padj下有效
adjust=true
#调参后的p值
adjust_p=0.05
#调参后的fc值
adjust_fc=
#snp calling方式,single/mix
snp_type=mix
#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova
#配置文件
configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/configure.txt

3. pipeline

/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/auto_norefpipline

4. sjm 投递

sjm QC.job

sjm Analysis.job

单拼项目,每一个样本有一个Analysis.job,分开投递

sjm sample_Analysis.job

5.数据释放和结题报告上传

数据释放:

qsub -cwd -V -l vf=1G,p=1 release.sh

结题报告上传:
sh upload_release_lims.sh

6.无参自动化流程的手动启动

演示路径:

/ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/A01102/Manul/X101SC21033045-Z01-F009

操作路径: 国内

quant:

/ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/gn_022/Manul

dge:

/ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/gn_023/Manul

标准分析

/ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/gn_024/Manul

海外

标准分析

/ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/hw_018/Manul

dge

/ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/hw_019/Manul

quant

/ifs/TJPROJ3/GB_TR/PJ_AI/mRNA/hw_036/Manul

#!/bin/bash

source /TJPROJ4/BioAI/mayubin/software/miniconda3/bin/activate noref-autorun

python3 /TJPROJ5/GB_TR/PJ_AI/PIPLINE/GB_trans/gb_noref/v1.0/noref_wdl_sge/pipline/auto_run/script/main.run.manul_noref.py \
    --stageCode X101SC21033045-Z01-F009 \
    --info xinxi_table.xls \
    --samp sample.list \
    --yunyingEmail 'fengjie@novogene.com' \
    --xinxiEmail 'fengjie@novogene.com' \
    --prodCode hw_018 \
    --oriProdCode RSPR00213 \
    --libType 0.5 \
    --serviceLineName AMEA \
    --serviceLineCode 3000 \

sample.list 展示:

#sample lib lane fq1 fq2

T_1000_4 FRAS210114045-1r L2 X101SC21033045-Z01-F009/yuanshi_data/210709_A01045_0561_BHWTM7DSXY-new/FRAS210114045-1r/FRAS210114045-1r_L2_1.fq.gz X101SC21033045-Z01-F009/yuanshi_data/210709_A01045_0561_BHWTM7DSXY-new/FRAS210114045-1r/FRAS210114045-1r_L2_2.fq.gz

xinxi_table.xls 信息收集表

其他信息均在信息收集表解析的邮件中找~

注意事项

1.单拼样本,注意splicing_type的参数为Separate,如下。

splicing_type=Separate

刷出来的分析投递job为sample_Analysis.job。

result_tree如下

.
|-- 1.QC
|   |-- 1.Error
|   |-- 2.GC
|   |-- 3.Filter
|   |-- 4.Stat
|   `-- QC_readme.pdf
|-- result_tree.html
|-- W350
|   |-- 2.Assembly
|   |-- 3.Annotation
|   |-- 4.CDSprediction
|   |-- 5.Quant
|   `-- 6.SSRdetection
|-- W353
|   |-- 2.Assembly
|   |-- 3.Annotation
|   |-- 4.CDSprediction
|   |-- 5.Quant
|   `-- 6.SSRdetection
|-- W382
|   |-- 2.Assembly
|   |-- 3.Annotation
|   |-- 4.CDSprediction
|   |-- 5.Quant
|   `-- 6.SSRdetection
`-- W390
    |-- 2.Assembly
    |-- 3.Annotation
    |-- 4.CDSprediction
    |-- 5.Quant
    `-- 6.SSRdetection

29 directories, 2 files

report_tree如下

.
|-- report_tree.html
|-- W350
|   |-- Report_X101SC20120052-Z01-J011-B11-16.html
|   `-- src
|-- W353
|   |-- Report_X101SC20120052-Z01-J011-B11-16.html
|   `-- src
|-- W382
|   |-- Report_X101SC20120052-Z01-J011-B11-16.html
|   `-- src
`-- W390
    |-- Report_X101SC20120052-Z01-J011-B11-16.html
    `-- src

8 directories, 5 files