======gb_trans pipline1.1流程====== gff_to_gtf_new 张新优化后的脚本 gff_to_gtf_old处理常规的gff,如果 gff_to_gtf_old不行再使用 gff_to_gtf_new ======环境变量====== 天津: cat ~/.bashrc # .bashrc # Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi # User specific aliases and functions source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate 美国: # .bashrc # Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi # User specific aliases and functions source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate 英国: cat ~/.bashrc # .bashrc # Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi # Uncomment the following line if you don't like systemctl's auto-paging feature: # export SYSTEMD_PAGER= # User specific aliases and functions source /PUBLIC/software/GB_AI/miniconda3/bin/activate =====医口转录组统一流程结果比较===== {{ :products_tr:自动化流程分析组:国内和海外有参医口统一版手动流程:医口转录组统一流程结果比较.docx |}} **最终的统一流程的每个分析结果的最终展示形式见:医口转录组统一流程结果比较.docx** =====有参转录组统一流程结果比较===== {{ :products_tr:自动化流程分析组:国内和海外有参医口统一版手动流程:有参转录组统一流程结果比较.docx |}} **最终的统一流程的每个分析结果的最终展示形式见:有参转录组统一流程结果比较.docx** ====1.账号配置==== 由于要使用新系统lims,报告的自动上传lims系统需要大家先配置账号信息,方法如下:\\ 北京: gn: source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate /TJPROJ1/JF/lims/GN/lims_report_upload_gn/Lims_report_uploader init hw: source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate /TJPROJ1/JF/lims/HW/lims_report_upload_hw/Lims_report_uploader init 美国: source source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate /HWPROJ2/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader init 英国: source /PUBLIC/software/GB_AI/miniconda3/bin/activate /UKPROJ4/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader 南京: export PYTHONPATH=/NJPROJ2/MICRO/share/software/Anaconda/anaconda3/bin/python:$PATH /NJPROJ2/MICRO/PROJ/lidanqing/lims/lims_report_upload_v2.1/Lims_report_uploader init ====API指标库配置==== cat ~/.stats_api_config [zhouheming] apiuser = gb_tr apipasswd = P4K5RSvyPvuuqhP =====项目启动方法===== ==== lims系统信息搜集表及下机数据爬取 ==== 为提高项目执行人员的效率,减少人工时间,从lims中实现信息搜集表和下机数据的自动爬取,并自动生成配置文件project.txt,快速启动项目。 ===脚本=== 爬取脚本路径: 南京: 北京国内: export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info 北京海外: export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info_hw 美国: export PATH=/RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin:$PATH /PUBLIC/source/HW/RNA/gb_MedRef_man_pipline/bin/get_lims_info_hw 英国: export PATH=/PUBLIC/software/GB_AI/miniconda3/bin:$PATH /PUBLIC/source/RNA/gb_MedRef_man_pipline/bin/get_lims_info_hw ===脚本使用方法=== **/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info --project_type med --name {lims用户名} --pw {lims密码} --pjcode X101SC20082950-Z01-J004 --local TJ --project_stage 4 --ProfitCode 2001** **/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info_bendi --project_type med --name {lims用户名} --pw {lims密码} --pjcode X101SC20082950-Z01-J004 --local TJ --project_stage 4 --ProfitCode 2001** **注意:海外的项目生成project.txt后需要单独配置下面文件** 天津: #文库删除脚本存放路径 libdel=/TJPROJ6/RNA_T/WORK/del_Nova #配置文件 configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt 美国: #文库删除脚本存放路径 libdel=/PUBLIC/source/HW/RNA/WORK/del_Nova #配置文件 configure=/PUBLIC/source/HW/RNA/database/CONFIG/configure.txt 英国: #文库删除脚本存放路径 libdel=/PUBLIC/source/RNA/WORK/del_Nova #配置文件 configure=/PUBLIC/source/RNA/database/CONFIG/configure.txt /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info\ --pjcode 必填,项目编号#示例:P101SC16122246-01-F001; --project_type 必填,项目类型:ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE; 标准ref:有参;refDGE:有参DGE;med:标准医口;medDGE:医口DGE;sc:单细胞标准有参;scDGE:单细胞有参DGE;scmed:单细胞标准医口;scmedDGE单细胞医口DGE --name 必填,lims登录账号; --pw 必填,lims登录密码; --genome_version 基因组版本,没填需在生成的project.txt文件中手动填写; --project_stage 项目分期,与F00保持一致,默认1; --project_exclude 排除不分析的内容,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA,没填需在生成的project.txt文件中手动填写; --data_size 项目分析的数据量,默认6; --gsea_java 可选,java版GSEA分析,yes/no,默认yes; --project_libtype 可选,文库类型,0/1/2(0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand),默认为0; --project_readtype 可选,测序单双端类型,single/paired,默认paired; --project_readlength 可选,测序长度,默认150; --project_keeplength 可选,最终保留长度,默认150; --project_design 可选,每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可,默认normal; --genome_size 可选,物种基因组大小,normal/large,小麦等基因组较大的物种填写large,默认normal; --analysis_level 可选,分析水平 gene/transcript,默认为gene; --baseq_code 可选,碱基编码值,illumina测序平台都为33,默认为33; --trim_tools 可选,接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp; --align_tools 可选,比对软件,hisat2/STAR,默认为hisat2; --quant_tools 可选,定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts; --diff_tools 可选,差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为DESeq2; --pj_spike 可选,是否添加内参,目前仅支持ERCC,默认不添加; --diff_padj 可选,基因显著差异筛选阈值,默认采用padj值0.05; --fold_change 可选,基因显著差异fold change阈值,默认是2,无生物学重复默认2; --pj_adjust 可选,是否自动调参 true|false 仅在padj下有效,默认true; --adjust_p 可选,调参后的p值,默认0.05; --adjust_fc 可选,调参后的fc值,默认1,无生物学重复默认2; --enrich_method 可选,富集方法,normal/GSEA,默认为normal(超几何分布模型),默认normal; --as_cutoff 可选,可变剪接显著性差异阈值,默认0.05; ==备注== 1.必填参数为必须填写,可选参数可不选,则流程选择默认参数;若有的参数没填写,则记得在生成的project.txt文件中手动填好,根据信息搜集表内容check无误后再运行/PUBLIC/source/RNA/gb_MedRef_man_pipline/auto_refpipline命令生成脚本。 ====== 配置文件project.txt ====== 参考文件: /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/project.txt [project] #项目编号 project_number=P101SC18082344-01 #合同编号 project_contract=H101SC20061658 #项目名称 project_name=中国水稻研究所12个水稻转录组测序分析技术服务(委托)合同 #项目分期 project_stage=1 #RNA组编号 project_RNA=16 #项目运营 project_yunying=张月 #项目信息 project_xinxi=殷林 #项目类型 ref/med/sc/scmed project_type=ref #数据来源 novogene/other project_source=novogene #产品来源 gn/hw product_source=gn #数据量(G) data_size=6 #文库类型 0/1/2 其中0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand project_libtype=0 #测序类型, single/paired project_readtype=paired #测序长度 project_readlength=150 #最终保留长度 project_keeplength=150 #文库号,以英文逗号隔开 project_library=RRAS18003-V,RRAS18004-V,RRAS18005-V,RRAS18006-V,RRAS18007-V,RRAS18008-V,RRAS18009-V,RRAS18010-V,RRAS18011-V,RRAS18012-V,RRAS18013-V,RRAS18014-V #文库路径,以英文逗号隔开,和文库号分组顺序相一致,同一文库号的路径以冒号隔开 project_libpath=/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/,/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/ #fastq所在路径,单端后缀为fq.gz,双端后缀为_1.fq.gz和_2.fq,gz,如已有文库号和文库号路径,忽略该参数,一般纯分析项目使用 project_fqpath= #样本名称,以英文逗号隔开,和文库号顺序相一致 project_sample=NIP_1_1,NIP_1_2,NIP_1_3,SFY_1_1,SFY_1_2,SFY_1_3,NIP_2_1,NIP_2_2,NIP_2_3,SFY_2_1,SFY_2_2,SFY_2_3 #样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开 project_s2g=NIP_1_1:NIP_1_2:NIP_1_3,NIP_2_1:NIP_2_2:NIP_2_3:SFY_2_1,SFY_1_1:SFY_1_2:SFY_1_3,SFY_2_2:SFY_2_3 #组名,以英文逗号隔开,和分组信息相对应 project_group=NIP_1,NIP_2,SFY_1,SFY_2 #比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名 project_compare=SFY_1vsNIP_1,SFY_2vsNIP_2,SFY_2vsSFY_1 #每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可 project_design=normal #韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开。如果不画venn图,等号后面不填 project_venn=SFY_1vsNIP_1:SFY_2vsNIP_2,SFY_2vsNIP_2:SFY_2vsSFY_1 #共表达venn图,既可以画样品间的,可以画组间的,样品与组间的venn图,同一venn图中的样品或者组以vs隔开,不同共表达venn图以英文逗号隔开。如果不画共表达venn图,等号后面不填。 project_coexpr_venn=SFY_1vsNIP_1,SFY_2vsNIP_2 #聚类组合,不同比较组以英文冒号隔开,不同聚类组合以英文逗号隔开,所有比较组合以英文冒号连接 project_cluster=SFY_1vsNIP_1:SFY_2vsNIP_2:SFY_2vsSFY_1 #需要排除的分析内容,以英文逗号隔开,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA #国内: 标准有参排除8;有参DGE排除2,6,7,8;标准医口排除2,医口DGE排除2,6,7,8;WGCNA建议样品个数在5个以上 #海外: 标准有参排除8,9;有参DGE排除2,6,7,8,9;标准医口排除2,9;医口DGE排除2,6,7,8,9 project_exclude=8 #基因组版本,如人Homo_sapiens_Ensemble_94,小鼠Mus_musculus_Ensemble_94 genome_version=Oryza_sativa_IRGSP_1.0 #kegg物种缩写,如人hsa 小鼠mmu kegg_abbr=dosa #ppi物种编号,如人9606 小鼠10090 ppi_taxon=39947 #是否添加内参,目前仅支持ERCC spike= #物种基因组大小,normal/large,小麦等基因组较大的物种填写large,用于建bam文件index genome_size=normal #分析水平 gene/transcript,默认为gene level=gene #碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33 baseq=33 #核糖体RNA过滤软件,默认为bowtie2 rRNA=bowtie2 #接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp trim=fastp #比对软件,默认为hisat2,可选STAR,海外医口的项目必须选择STAR,海外有参hisat2,国内有参,医口默认使用hisat2 align=hisat2 #组装软件,默认为stringtie assemble=stringtie #定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts quant=featureCounts #差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为有生物学重复使用DESeq2,无生物学重复使用edgeR。如果项目 既有有生物学重复又有无生物学重复的,不同差异分析软件以英文逗号隔开 diff=DESeq2 #基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开,和差异分析软件相对应 padj=0.05 #基因显著差异fold change阈值。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的基因显著差异 筛选阈值以英文逗号隔开,和差异分析软件相对应 fc=1 #是否自动调参 true|false 仅在padj下有效 adjust=true #java版GSEA分析,yes/no,默认,yes gsea_java=yes #调参后的p值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的p值以英文逗号隔开,和差异分析软件相对应 adjust_p=0.05 #调参后的fc值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的fc值以英文逗号隔开,和差异分析软件相对应 adjust_fc=1 #富集方法,normal/GSEA,默认为normal(超几何分布模型) enrich_method=normal #可变剪接软件,默认为rMATS splice=rMATS #可变剪接显著性差异阈值 cutoff=0.05 #snp calling软件,默认为GATK4,可选择GATK snp=GATK4 #project_s2b,样本按照批次进行分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开,仅用于pair肿瘤配对模型/batch模型 project_s2b= #融合基因软件,默认为starfusion fusion=starfusion #流程部署位置,默认为TJ local= #利润中心,默认为2001 ProfitCode= #文库删除脚本存放路径 libdel=/TJPROJ6/RNA_T/WORK/del_Nova #配置文件 configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt ====== 手动运行命令 ====== 南京: 北京:/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/auto_refpipline 美国:/PUBLIC/source/HW/RNA/gb_MedRef_man_pipline/auto_refpipline 英国:/PUBLIC/source/RNA/gb_MedRef_man_pipline/auto_refpipline 运行上述命令后,在项目路径下,会有log文件夹生成,进入log目录,执行下面命令 ==== QC ==== sjm QC.job 该步分析结束后,检查QC报告,如没有问题,上传QC报告 ==== Analysis ==== sjm Analysis.job ==== QC加Analysis ==== sjm QC_Analysis.job 该步首先分析QC,自动检查QC报告,自动上传QC报告。如没有问题,自动进行后续分析;若QC有问题,任务断掉,发送邮件通知信息负责人。 ==== 释放数据 ==== qsub -V -cwd -l vf=1g,p=1 release.sh 该步分析结束后,数据自动整理并上传至OSS,上传成功need_move_data_to_oss_again文件大小为0,如果上传失败could_rm_linux_data文件大小为0,数据上传成功后会将可以删除整个项目路径的脚本生成至/NJPROJ2/RNA/share/ref_med_del/,在该路径下找到自己的项目,投递删除。 ======注意事项====== 1 项目启动根据项目具体情况选择启动方法,遇到问题请及时找流程负责人 2 遇到脚本报错,先看报错文件,自己尝试解决,还未解决,再找流程负责人 3 当填spike参数时,需在参考基因组目录下新建ERCC目录,将ERCC序列及注释文件和参考基因组及注释文件合并,具体参考人的基因组Homo_sapiens_Ensemble_90 4 当align参数选用STAR时,需在参考基因组目录下新建STAR_150目录,新建参考基因组的STAR索引,具体参考人的基因组Homo_sapiens_Ensemble_90 5 新转录本预测,通过stringtie软件组装,用gffcompare进行注释,提取class code为基因间区的新转录本,提取最长转录本作为基因序列,对其进行interproscan注释(pfam和superfamily数据库) 项目执行遇到问题,可以查看下面的wiki是否有解决方法,如没有建议你在解决后将报错及解决方法更新至该wiki,方便他人遇到同样问题时可以快速的解决:http://172.25.35.18/novotredia/doku.php?id=%E4%BA%A7%E5%93%81:%E6%96%87%E6%A1%A3_%E6%96%B0rna-seq%E9%A1%B9%E7%9B%AE%E6%89%A7%E8%A1%8C%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98%E5%8F%8A%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88