====== gb_trans_v1.0原核手动流程 ====== ===== 流程路径 ===== 目前原核项目下机数据在南京,启动大部分在南京集群,分析过程中所用脚本均在流程路径下,下方所有说明均已南京集群为例,天津集群执行方法类比。 南京:/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual 天津:/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok pipeline名称:yuanhe_pipline 原核统一流程执行方法与有参,无参等统一流程执行方法相似,皆是通过解析信息搜集表后生成配置文件project.txt,刷新pipeline,投递sjm即可。 脚本路径在项目执行路径的log目录里,即:workdir/log. ===== 注意事项 ===== 海外同事在手动进行原核分析时,需要source环境变量: /NJPROJ3/GB/GB_TR/USER/andong/bash_profile ===== lims系统中爬取信息搜集表并解析 ===== 由于国内和海外项目信息搜集表差异,所以对应2个解析脚本: 国内: /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 海外: /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000 /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000 若不需要重新从lims上爬表,利用本地下机数据和信息搜集表生成project.txt: /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_bendi /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw_bendi /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_bendi /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw_bendi ===== 配置文件project.txt说明 ===== [project] #项目编号 project_number=X101SC21040319-Z01-J001 #项目名称 project_name=放射所6例毛螺菌转录组测序分析技术服务(委托)合同 #合同编号 project_contract=H101SC21040319 #项目分期 project_stage=1 #RNA组编号 project_RNA=16 #项目运营 project_yunying=Jiali Guo 郭佳丽 #项目信息 project_xinxi=Dong An 安冬 #数据来源 novogene/other,为other时与参数project_fqpath对应,路径中对应样本名称与信息搜集表中的样本名称一致 project_source=novogene #category流程,利润中心编号:1000,1100,1200,2001,3000 category=2001 #是否cutdata,可选择yes or no cutdata=yes #数据量(G) data_size=2 #是否需要释放clean,可选择Y or N,若为N,执行release脚本后删除clean,若为Y,将clean移动到释放目录 need_clean=Y #文库类型 0/1/2 其中0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand project_libtype=reverse #测序类型, single/paired project_readtype=paired #测序长度 project_readlength=150 #最终保留长度 project_keeplength=150 #文库号,以英文逗号隔开 project_library=BRRP210002643-1A,BRRP210002644-1A,BRRP210003810-1A,BRRP210002646-1A #文库路径,以英文逗号隔开,和文库号顺序相一致,同一文库号的路径以冒号隔开 project_libpath=/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210922_A00159_0891_BHJWJ5DSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new:/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210824_A00204_0747_AH5Y3CDSX2-new #fastq所在路径,单端后缀为fq.gz,双端后缀为_1.fq.gz和_2.fq,gz,如已有文库号和文库号路径,忽略该参数,一般纯分析项目使用 project_fqpath= #样本名称,以英文逗号隔开,和文库号顺序相一致 project_sample=SFM_2,SFM_3,AS168_2,AS168_3 #样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开 project_s2g=SFM_2:SFM_3,AS168_2:AS168_3 #组名,以英文逗号隔开,和分组信息相对应 project_group=SFM,AS168 #比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名 project_compare=SFMvsAS168 #每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可 project_design=normal #project_s2b,样本按照批次进行分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开,仅用于pair肿瘤配对模型/batch模型 project_s2b= #韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开 project_venn= #样本共表达venn,同一venn图中的样品或者组以vs隔开,不同共>表达venn图以英文逗号隔开。如果不画共表达venn图,等号后面不填 project_covenn=SFMvsAS168,SFM_2vsSFM_3 #聚类组合,不同比较组以英文冒号隔开,不同聚类组合以英文逗号隔开,所有比较组合以英文冒号连接 project_cluster=SFMvsAS168 #需要排除的分析内容,以英文逗号隔开,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:Structure/7:SNP/8:WGCNA(原核DGE排除2,6,7;标准原核填写0) project_exclude=0,8 #java版GSEA分析,yes/no gsea_java=yes #基因组版本,如人Homo_sapiens_Ensemble_90,小鼠Mus_musculus_Ensemble_90 genome_version=X101SC21010077-Z01-J014 #物种的拉丁名,写准备参考基因组时的--latin里的值 latin=haloferax_mediterranei #基因组染色体名称,跟fa第一行名字保持一致,如NC_999999999.1 chrome_name=NC_999999999.1 #Rockhopper生成的transcript.txt的名字,和fa文件的名字一致,如NC_999999999 Rockhopper_name=NC_999999999 #kegg物种缩写,如人hsa 小鼠mmu kegg_abbr=hme #ppi物种编号,如人9606 小鼠10090 ppi_taxon=523841 #是否添加内参,目前仅支持ERCC spike= #物种基因组大小,normal/large,小麦等基因组较大的物种填写large,用于建bam文件index genome_size=normal #分析水平 gene/transcript,默认为gene level=gene #碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33 baseq=33 #核糖体RNA过滤软件,默认为bowtie2 rRNA=bowtie2 #接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp trim=fastp #比对软件,默认为hisat2,可选STAR align=bowtie2 #组装软件,默认为Rockhopper assemble=Rockhopper #定量软件,HTSeq/featureCounts/stringtie,默认为HTSeq quant=featureCounts #差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为DESeq2 diff=DESeq2 #基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05 padj=0.05 #基因显著差异fold change阈值 fc=1 #是否自动调参 true|false 仅在padj下有效 adjust=true #调参后的p值 adjust_p=0.05 #调参后的fc值 adjust_fc=1 #富集方法,normal/GSEA,默认为normal(超几何分布模型) enrich_method=normal #snp calling软件,默认为GATK snp=GATK #文库删除脚本存放路径 libdel=/NJPROJ3/GB/GB_TR/WORK/del_Nova #配置文件 configure=/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/config/configure.txt ===== pipeline ===== /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/yuanhe_pipline /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/yuanhe_pipline ===== 运行 ===== sjm log/QC.job sjm log/Analysis.job sjm log/QC_Analysis.job ===== result_check ===== 主分析运行完之后,会生成result和report,流程中包含result_check脚本,会对生成的结果进行check,check结果会发送邮件: 若check successed会直接进行释放目录整理; 若check failed,邮件中会包含failed原因,进而手动check和解决。 ===== 上传报告及释放数据 ===== sh upload_release_lims.sh