====== gb_trans_v1.0原核手动流程 ======
===== 流程路径 =====
目前原核项目下机数据在南京,启动大部分在南京集群,分析过程中所用脚本均在流程路径下,下方所有说明均已南京集群为例,天津集群执行方法类比。
南京:/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual
天津:/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok
pipeline名称:yuanhe_pipline
原核统一流程执行方法与有参,无参等统一流程执行方法相似,皆是通过解析信息搜集表后生成配置文件project.txt,刷新pipeline,投递sjm即可。
脚本路径在项目执行路径的log目录里,即:workdir/log.
===== 注意事项 =====
海外同事在手动进行原核分析时,需要source环境变量:
/NJPROJ3/GB/GB_TR/USER/andong/bash_profile
===== lims系统中爬取信息搜集表并解析 =====
由于国内和海外项目信息搜集表差异,所以对应2个解析脚本:
国内:
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003
海外:
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000
若不需要重新从lims上爬表,利用本地下机数据和信息搜集表生成project.txt:
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_bendi
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw_bendi
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_bendi
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw_bendi
===== 配置文件project.txt说明 =====
[project]
#项目编号
project_number=X101SC21040319-Z01-J001
#项目名称
project_name=放射所6例毛螺菌转录组测序分析技术服务(委托)合同
#合同编号
project_contract=H101SC21040319
#项目分期
project_stage=1
#RNA组编号
project_RNA=16
#项目运营
project_yunying=Jiali Guo 郭佳丽
#项目信息
project_xinxi=Dong An 安冬
#数据来源 novogene/other,为other时与参数project_fqpath对应,路径中对应样本名称与信息搜集表中的样本名称一致
project_source=novogene
#category流程,利润中心编号:1000,1100,1200,2001,3000
category=2001
#是否cutdata,可选择yes or no
cutdata=yes
#数据量(G)
data_size=2
#是否需要释放clean,可选择Y or N,若为N,执行release脚本后删除clean,若为Y,将clean移动到释放目录
need_clean=Y
#文库类型 0/1/2 其中0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand
project_libtype=reverse
#测序类型, single/paired
project_readtype=paired
#测序长度
project_readlength=150
#最终保留长度
project_keeplength=150
#文库号,以英文逗号隔开
project_library=BRRP210002643-1A,BRRP210002644-1A,BRRP210003810-1A,BRRP210002646-1A
#文库路径,以英文逗号隔开,和文库号顺序相一致,同一文库号的路径以冒号隔开
project_libpath=/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210922_A00159_0891_BHJWJ5DSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new:/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210824_A00204_0747_AH5Y3CDSX2-new
#fastq所在路径,单端后缀为fq.gz,双端后缀为_1.fq.gz和_2.fq,gz,如已有文库号和文库号路径,忽略该参数,一般纯分析项目使用
project_fqpath=
#样本名称,以英文逗号隔开,和文库号顺序相一致
project_sample=SFM_2,SFM_3,AS168_2,AS168_3
#样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开
project_s2g=SFM_2:SFM_3,AS168_2:AS168_3
#组名,以英文逗号隔开,和分组信息相对应
project_group=SFM,AS168
#比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名
project_compare=SFMvsAS168
#每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可
project_design=normal
#project_s2b,样本按照批次进行分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开,仅用于pair肿瘤配对模型/batch模型
project_s2b=
#韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开
project_venn=
#样本共表达venn,同一venn图中的样品或者组以vs隔开,不同共>表达venn图以英文逗号隔开。如果不画共表达venn图,等号后面不填
project_covenn=SFMvsAS168,SFM_2vsSFM_3
#聚类组合,不同比较组以英文冒号隔开,不同聚类组合以英文逗号隔开,所有比较组合以英文冒号连接
project_cluster=SFMvsAS168
#需要排除的分析内容,以英文逗号隔开,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:Structure/7:SNP/8:WGCNA(原核DGE排除2,6,7;标准原核填写0)
project_exclude=0,8
#java版GSEA分析,yes/no
gsea_java=yes
#基因组版本,如人Homo_sapiens_Ensemble_90,小鼠Mus_musculus_Ensemble_90
genome_version=X101SC21010077-Z01-J014
#物种的拉丁名,写准备参考基因组时的--latin里的值
latin=haloferax_mediterranei
#基因组染色体名称,跟fa第一行名字保持一致,如NC_999999999.1
chrome_name=NC_999999999.1
#Rockhopper生成的transcript.txt的名字,和fa文件的名字一致,如NC_999999999
Rockhopper_name=NC_999999999
#kegg物种缩写,如人hsa 小鼠mmu
kegg_abbr=hme
#ppi物种编号,如人9606 小鼠10090
ppi_taxon=523841
#是否添加内参,目前仅支持ERCC
spike=
#物种基因组大小,normal/large,小麦等基因组较大的物种填写large,用于建bam文件index
genome_size=normal
#分析水平 gene/transcript,默认为gene
level=gene
#碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33
baseq=33
#核糖体RNA过滤软件,默认为bowtie2
rRNA=bowtie2
#接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp
trim=fastp
#比对软件,默认为hisat2,可选STAR
align=bowtie2
#组装软件,默认为Rockhopper
assemble=Rockhopper
#定量软件,HTSeq/featureCounts/stringtie,默认为HTSeq
quant=featureCounts
#差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为DESeq2
diff=DESeq2
#基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05
padj=0.05
#基因显著差异fold change阈值
fc=1
#是否自动调参 true|false 仅在padj下有效
adjust=true
#调参后的p值
adjust_p=0.05
#调参后的fc值
adjust_fc=1
#富集方法,normal/GSEA,默认为normal(超几何分布模型)
enrich_method=normal
#snp calling软件,默认为GATK
snp=GATK
#文库删除脚本存放路径
libdel=/NJPROJ3/GB/GB_TR/WORK/del_Nova
#配置文件
configure=/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/config/configure.txt
===== pipeline =====
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/yuanhe_pipline
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/yuanhe_pipline
===== 运行 =====
sjm log/QC.job
sjm log/Analysis.job
sjm log/QC_Analysis.job
===== result_check =====
主分析运行完之后,会生成result和report,流程中包含result_check脚本,会对生成的结果进行check,check结果会发送邮件:
若check successed会直接进行释放目录整理;
若check failed,邮件中会包含failed原因,进而手动check和解决。
===== 上传报告及释放数据 =====
sh upload_release_lims.sh