gb_trans_v1.0原核手动流程

流程路径

目前原核项目下机数据在南京，启动大部分在南京集群,分析过程中所用脚本均在流程路径下，下方所有说明均已南京集群为例，天津集群执行方法类比。

南京：/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual
天津：/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok
 
pipeline名称：yuanhe_pipline

原核统一流程执行方法与有参，无参等统一流程执行方法相似，皆是通过解析信息搜集表后生成配置文件project.txt,刷新pipeline，投递sjm即可。脚本路径在项目执行路径的log目录里，即：workdir/log.

注意事项

海外同事在手动进行原核分析时，需要source环境变量：
 
/NJPROJ3/GB/GB_TR/USER/andong/bash_profile

lims系统中爬取信息搜集表并解析

由于国内和海外项目信息搜集表差异，所以对应2个解析脚本：

国内：
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003
 
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003
 
海外：
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000
 
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000
 
若不需要重新从lims上爬表，利用本地下机数据和信息搜集表生成project.txt:
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_bendi
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw_bendi
 
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_bendi
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw_bendi

配置文件project.txt说明

[project]
 
#项目编号
project_number=X101SC21040319-Z01-J001
 
#项目名称
project_name=放射所6例毛螺菌转录组测序分析技术服务（委托）合同
 
#合同编号
project_contract=H101SC21040319
 
#项目分期
project_stage=1
 
#RNA组编号
project_RNA=16
 
#项目运营
project_yunying=Jiali Guo 郭佳丽
 
#项目信息
project_xinxi=Dong An 安冬
 
#数据来源 novogene/other,为other时与参数project_fqpath对应，路径中对应样本名称与信息搜集表中的样本名称一致
project_source=novogene
 
#category流程,利润中心编号:1000,1100,1200,2001,3000
 
category=2001
 
#是否cutdata,可选择yes or no
 
cutdata=yes
 
#数据量(G)
data_size=2
 
#是否需要释放clean,可选择Y or N,若为N，执行release脚本后删除clean，若为Y，将clean移动到释放目录
need_clean=Y
 
#文库类型 0/1/2 其中0为非链特异建库，1为dUTP链特异性建库，也叫fr-firstrand
project_libtype=reverse
 
#测序类型, single/paired
project_readtype=paired
 
#测序长度
project_readlength=150
 
#最终保留长度
project_keeplength=150
 
#文库号,以英文逗号隔开
project_library=BRRP210002643-1A,BRRP210002644-1A,BRRP210003810-1A,BRRP210002646-1A
 
#文库路径，以英文逗号隔开,和文库号顺序相一致，同一文库号的路径以冒号隔开
project_libpath=/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210922_A00159_0891_BHJWJ5DSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new:/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210824_A00204_0747_AH5Y3CDSX2-new
 
#fastq所在路径，单端后缀为fq.gz，双端后缀为_1.fq.gz和_2.fq,gz，如已有文库号和文库号路径，忽略该参数，一般纯分析项目使用
project_fqpath=
 
#样本名称，以英文逗号隔开，和文库号顺序相一致
project_sample=SFM_2,SFM_3,AS168_2,AS168_3
 
#样本按照不同的实验处理分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开
project_s2g=SFM_2:SFM_3,AS168_2:AS168_3
 
#组名,以英文逗号隔开，和分组信息相对应
project_group=SFM,AS168
 
#比较组合，处理组vs对照组，不同比较组合用英文逗号隔开，如AvsB，其中A和B为组名
project_compare=SFMvsAS168
 
#每个比较组合的差异分析模型，normal常规模型 pair肿瘤配对模型 multi多组比较模型，以英文逗号隔开，若所有比较组合采用相同模型，填一个即可
project_design=normal
 
#project_s2b,样本按照批次进行分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开，仅用于pair肿瘤配对模型/batch模型
project_s2b=
 
#韦恩组合，不同比较组以英文冒号隔开，不同维恩组合以英文逗号隔开
project_venn=
 
#样本共表达venn,同一venn图中的样品或者组以vs隔开，不同共>表达venn图以英文逗号隔开。如果不画共表达venn图，等号后面不填
project_covenn=SFMvsAS168,SFM_2vsSFM_3
 
#聚类组合，不同比较组以英文冒号隔开，不同聚类组合以英文逗号隔开，所有比较组合以英文冒号连接
project_cluster=SFMvsAS168
 
#需要排除的分析内容，以英文逗号隔开，1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:Structure/7:SNP/8:WGCNA（原核DGE排除2,6,7；标准原核填写0）
project_exclude=0,8
 
#java版GSEA分析,yes/no
gsea_java=yes
 
#基因组版本,如人Homo_sapiens_Ensemble_90，小鼠Mus_musculus_Ensemble_90
genome_version=X101SC21010077-Z01-J014
 
#物种的拉丁名，写准备参考基因组时的--latin里的值
latin=haloferax_mediterranei
 
#基因组染色体名称,跟fa第一行名字保持一致,如NC_999999999.1
chrome_name=NC_999999999.1
 
#Rockhopper生成的transcript.txt的名字,和fa文件的名字一致,如NC_999999999
Rockhopper_name=NC_999999999
 
#kegg物种缩写，如人hsa 小鼠mmu
kegg_abbr=hme
 
#ppi物种编号，如人9606 小鼠10090
ppi_taxon=523841
 
#是否添加内参，目前仅支持ERCC
spike=
 
#物种基因组大小，normal/large，小麦等基因组较大的物种填写large，用于建bam文件index
genome_size=normal
 
#分析水平 gene/transcript,默认为gene
level=gene
 
#碱基编码值，取决于测序平台，illumina测序平台都为33,默认为33
baseq=33
 
#核糖体RNA过滤软件，默认为bowtie2
rRNA=bowtie2
 
#接头和低质量reads过滤软件，ngqc/trimmomatic/fastp,默认为fastp
trim=fastp
 
#比对软件，默认为hisat2，可选STAR
align=bowtie2
 
#组装软件，默认为Rockhopper
assemble=Rockhopper
 
#定量软件，HTSeq/featureCounts/stringtie,默认为HTSeq
quant=featureCounts
 
#差异分析软件，DESeq/DESeq2/edgeR/ballgown,默认为DESeq2
diff=DESeq2
 
#基因显著差异筛选阈值，pvalue或padj值，默认采用padj值0.05
padj=0.05
 
#基因显著差异fold change阈值
fc=1
 
#是否自动调参 true|false 仅在padj下有效
adjust=true
 
#调参后的p值
adjust_p=0.05
 
#调参后的fc值
adjust_fc=1
 
#富集方法,normal/GSEA,默认为normal(超几何分布模型)
enrich_method=normal
 
#snp calling软件，默认为GATK
snp=GATK
 
#文库删除脚本存放路径
libdel=/NJPROJ3/GB/GB_TR/WORK/del_Nova
 
#配置文件
configure=/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/config/configure.txt

pipeline

/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/yuanhe_pipline
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/yuanhe_pipline

运行

sjm log/QC.job
sjm log/Analysis.job
sjm log/QC_Analysis.job

result_check

主分析运行完之后，会生成result和report，流程中包含result_check脚本，会对生成的结果进行check，check结果会发送邮件：
若check successed会直接进行释放目录整理；
若check failed，邮件中会包含failed原因，进而手动check和解决。

上传报告及释放数据

sh upload_release_lims.sh

售后

用户工具

站点工具

目录