======gb_trans pipline1.1流程======
gff_to_gtf_new 张新优化后的脚本 gff_to_gtf_old处理常规的gff,如果 gff_to_gtf_old不行再使用 gff_to_gtf_new
======环境变量======
天津:
cat ~/.bashrc
# .bashrc
# Source global definitions
if [ -f /etc/bashrc ]; then
. /etc/bashrc
fi
# User specific aliases and functions
source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
美国:
# .bashrc
# Source global definitions
if [ -f /etc/bashrc ]; then
. /etc/bashrc
fi
# User specific aliases and functions
source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate
英国:
cat ~/.bashrc
# .bashrc
# Source global definitions
if [ -f /etc/bashrc ]; then
. /etc/bashrc
fi
# Uncomment the following line if you don't like systemctl's auto-paging feature:
# export SYSTEMD_PAGER=
# User specific aliases and functions
source /PUBLIC/software/GB_AI/miniconda3/bin/activate
=====医口转录组统一流程结果比较=====
{{ :products_tr:自动化流程分析组:国内和海外有参医口统一版手动流程:医口转录组统一流程结果比较.docx |}}
**最终的统一流程的每个分析结果的最终展示形式见:医口转录组统一流程结果比较.docx**
=====有参转录组统一流程结果比较=====
{{ :products_tr:自动化流程分析组:国内和海外有参医口统一版手动流程:有参转录组统一流程结果比较.docx |}}
**最终的统一流程的每个分析结果的最终展示形式见:有参转录组统一流程结果比较.docx**
====1.账号配置====
由于要使用新系统lims,报告的自动上传lims系统需要大家先配置账号信息,方法如下:\\
北京:
gn:
source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
/TJPROJ1/JF/lims/GN/lims_report_upload_gn/Lims_report_uploader init
hw:
source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
/TJPROJ1/JF/lims/HW/lims_report_upload_hw/Lims_report_uploader init
美国:
source source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate
/HWPROJ2/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader init
英国:
source /PUBLIC/software/GB_AI/miniconda3/bin/activate
/UKPROJ4/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader
南京:
export PYTHONPATH=/NJPROJ2/MICRO/share/software/Anaconda/anaconda3/bin/python:$PATH
/NJPROJ2/MICRO/PROJ/lidanqing/lims/lims_report_upload_v2.1/Lims_report_uploader init
====API指标库配置====
cat ~/.stats_api_config
[zhouheming]
apiuser = gb_tr
apipasswd = P4K5RSvyPvuuqhP
=====项目启动方法=====
==== lims系统信息搜集表及下机数据爬取 ====
为提高项目执行人员的效率,减少人工时间,从lims中实现信息搜集表和下机数据的自动爬取,并自动生成配置文件project.txt,快速启动项目。
===脚本===
爬取脚本路径:
南京:
北京国内:
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info
北京海外:
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info_hw
美国:
export PATH=/RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin:$PATH
/PUBLIC/source/HW/RNA/gb_MedRef_man_pipline/bin/get_lims_info_hw
英国:
export PATH=/PUBLIC/software/GB_AI/miniconda3/bin:$PATH
/PUBLIC/source/RNA/gb_MedRef_man_pipline/bin/get_lims_info_hw
===脚本使用方法===
**/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info --project_type med --name {lims用户名} --pw {lims密码} --pjcode X101SC20082950-Z01-J004 --local TJ --project_stage 4 --ProfitCode 2001**
**/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info_bendi --project_type med --name {lims用户名} --pw {lims密码} --pjcode X101SC20082950-Z01-J004 --local TJ --project_stage 4 --ProfitCode 2001**
**注意:海外的项目生成project.txt后需要单独配置下面文件**
天津:
#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova
#配置文件
configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt
美国:
#文库删除脚本存放路径
libdel=/PUBLIC/source/HW/RNA/WORK/del_Nova
#配置文件
configure=/PUBLIC/source/HW/RNA/database/CONFIG/configure.txt
英国:
#文库删除脚本存放路径
libdel=/PUBLIC/source/RNA/WORK/del_Nova
#配置文件
configure=/PUBLIC/source/RNA/database/CONFIG/configure.txt
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/bin/get_lims_info\
--pjcode 必填,项目编号#示例:P101SC16122246-01-F001;
--project_type 必填,项目类型:ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE;
标准ref:有参;refDGE:有参DGE;med:标准医口;medDGE:医口DGE;sc:单细胞标准有参;scDGE:单细胞有参DGE;scmed:单细胞标准医口;scmedDGE单细胞医口DGE
--name 必填,lims登录账号;
--pw 必填,lims登录密码;
--genome_version 基因组版本,没填需在生成的project.txt文件中手动填写;
--project_stage 项目分期,与F00保持一致,默认1;
--project_exclude 排除不分析的内容,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA,没填需在生成的project.txt文件中手动填写;
--data_size 项目分析的数据量,默认6;
--gsea_java 可选,java版GSEA分析,yes/no,默认yes;
--project_libtype 可选,文库类型,0/1/2(0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand),默认为0;
--project_readtype 可选,测序单双端类型,single/paired,默认paired;
--project_readlength 可选,测序长度,默认150;
--project_keeplength 可选,最终保留长度,默认150;
--project_design 可选,每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可,默认normal;
--genome_size 可选,物种基因组大小,normal/large,小麦等基因组较大的物种填写large,默认normal;
--analysis_level 可选,分析水平 gene/transcript,默认为gene;
--baseq_code 可选,碱基编码值,illumina测序平台都为33,默认为33;
--trim_tools 可选,接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp;
--align_tools 可选,比对软件,hisat2/STAR,默认为hisat2;
--quant_tools 可选,定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts;
--diff_tools 可选,差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为DESeq2;
--pj_spike 可选,是否添加内参,目前仅支持ERCC,默认不添加;
--diff_padj 可选,基因显著差异筛选阈值,默认采用padj值0.05;
--fold_change 可选,基因显著差异fold change阈值,默认是2,无生物学重复默认2;
--pj_adjust 可选,是否自动调参 true|false 仅在padj下有效,默认true;
--adjust_p 可选,调参后的p值,默认0.05;
--adjust_fc 可选,调参后的fc值,默认1,无生物学重复默认2;
--enrich_method 可选,富集方法,normal/GSEA,默认为normal(超几何分布模型),默认normal;
--as_cutoff 可选,可变剪接显著性差异阈值,默认0.05;
==备注==
1.必填参数为必须填写,可选参数可不选,则流程选择默认参数;若有的参数没填写,则记得在生成的project.txt文件中手动填好,根据信息搜集表内容check无误后再运行/PUBLIC/source/RNA/gb_MedRef_man_pipline/auto_refpipline命令生成脚本。
====== 配置文件project.txt ======
参考文件: /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/project.txt
[project]
#项目编号
project_number=P101SC18082344-01
#合同编号
project_contract=H101SC20061658
#项目名称
project_name=中国水稻研究所12个水稻转录组测序分析技术服务(委托)合同
#项目分期
project_stage=1
#RNA组编号
project_RNA=16
#项目运营
project_yunying=张月
#项目信息
project_xinxi=殷林
#项目类型 ref/med/sc/scmed
project_type=ref
#数据来源 novogene/other
project_source=novogene
#产品来源 gn/hw
product_source=gn
#数据量(G)
data_size=6
#文库类型 0/1/2 其中0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand
project_libtype=0
#测序类型, single/paired
project_readtype=paired
#测序长度
project_readlength=150
#最终保留长度
project_keeplength=150
#文库号,以英文逗号隔开
project_library=RRAS18003-V,RRAS18004-V,RRAS18005-V,RRAS18006-V,RRAS18007-V,RRAS18008-V,RRAS18009-V,RRAS18010-V,RRAS18011-V,RRAS18012-V,RRAS18013-V,RRAS18014-V
#文库路径,以英文逗号隔开,和文库号分组顺序相一致,同一文库号的路径以冒号隔开
project_libpath=/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/,/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/
#fastq所在路径,单端后缀为fq.gz,双端后缀为_1.fq.gz和_2.fq,gz,如已有文库号和文库号路径,忽略该参数,一般纯分析项目使用
project_fqpath=
#样本名称,以英文逗号隔开,和文库号顺序相一致
project_sample=NIP_1_1,NIP_1_2,NIP_1_3,SFY_1_1,SFY_1_2,SFY_1_3,NIP_2_1,NIP_2_2,NIP_2_3,SFY_2_1,SFY_2_2,SFY_2_3
#样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开
project_s2g=NIP_1_1:NIP_1_2:NIP_1_3,NIP_2_1:NIP_2_2:NIP_2_3:SFY_2_1,SFY_1_1:SFY_1_2:SFY_1_3,SFY_2_2:SFY_2_3
#组名,以英文逗号隔开,和分组信息相对应
project_group=NIP_1,NIP_2,SFY_1,SFY_2
#比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名
project_compare=SFY_1vsNIP_1,SFY_2vsNIP_2,SFY_2vsSFY_1
#每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可
project_design=normal
#韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开。如果不画venn图,等号后面不填
project_venn=SFY_1vsNIP_1:SFY_2vsNIP_2,SFY_2vsNIP_2:SFY_2vsSFY_1
#共表达venn图,既可以画样品间的,可以画组间的,样品与组间的venn图,同一venn图中的样品或者组以vs隔开,不同共表达venn图以英文逗号隔开。如果不画共表达venn图,等号后面不填。
project_coexpr_venn=SFY_1vsNIP_1,SFY_2vsNIP_2
#聚类组合,不同比较组以英文冒号隔开,不同聚类组合以英文逗号隔开,所有比较组合以英文冒号连接
project_cluster=SFY_1vsNIP_1:SFY_2vsNIP_2:SFY_2vsSFY_1
#需要排除的分析内容,以英文逗号隔开,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA
#国内: 标准有参排除8;有参DGE排除2,6,7,8;标准医口排除2,医口DGE排除2,6,7,8;WGCNA建议样品个数在5个以上
#海外: 标准有参排除8,9;有参DGE排除2,6,7,8,9;标准医口排除2,9;医口DGE排除2,6,7,8,9
project_exclude=8
#基因组版本,如人Homo_sapiens_Ensemble_94,小鼠Mus_musculus_Ensemble_94
genome_version=Oryza_sativa_IRGSP_1.0
#kegg物种缩写,如人hsa 小鼠mmu
kegg_abbr=dosa
#ppi物种编号,如人9606 小鼠10090
ppi_taxon=39947
#是否添加内参,目前仅支持ERCC
spike=
#物种基因组大小,normal/large,小麦等基因组较大的物种填写large,用于建bam文件index
genome_size=normal
#分析水平 gene/transcript,默认为gene
level=gene
#碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33
baseq=33
#核糖体RNA过滤软件,默认为bowtie2
rRNA=bowtie2
#接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp
trim=fastp
#比对软件,默认为hisat2,可选STAR,海外医口的项目必须选择STAR,海外有参hisat2,国内有参,医口默认使用hisat2
align=hisat2
#组装软件,默认为stringtie
assemble=stringtie
#定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts
quant=featureCounts
#差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为有生物学重复使用DESeq2,无生物学重复使用edgeR。如果项目
既有有生物学重复又有无生物学重复的,不同差异分析软件以英文逗号隔开
diff=DESeq2
#基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开,和差异分析软件相对应
padj=0.05
#基因显著差异fold change阈值。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的基因显著差异
筛选阈值以英文逗号隔开,和差异分析软件相对应
fc=1
#是否自动调参 true|false 仅在padj下有效
adjust=true
#java版GSEA分析,yes/no,默认,yes
gsea_java=yes
#调参后的p值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的p值以英文逗号隔开,和差异分析软件相对应
adjust_p=0.05
#调参后的fc值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的fc值以英文逗号隔开,和差异分析软件相对应
adjust_fc=1
#富集方法,normal/GSEA,默认为normal(超几何分布模型)
enrich_method=normal
#可变剪接软件,默认为rMATS
splice=rMATS
#可变剪接显著性差异阈值
cutoff=0.05
#snp calling软件,默认为GATK4,可选择GATK
snp=GATK4
#project_s2b,样本按照批次进行分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开,仅用于pair肿瘤配对模型/batch模型
project_s2b=
#融合基因软件,默认为starfusion
fusion=starfusion
#流程部署位置,默认为TJ
local=
#利润中心,默认为2001
ProfitCode=
#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova
#配置文件
configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt
====== 手动运行命令 ======
南京:
北京:/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/gb_MedRef_man_pipline/auto_refpipline
美国:/PUBLIC/source/HW/RNA/gb_MedRef_man_pipline/auto_refpipline
英国:/PUBLIC/source/RNA/gb_MedRef_man_pipline/auto_refpipline
运行上述命令后,在项目路径下,会有log文件夹生成,进入log目录,执行下面命令
==== QC ====
sjm QC.job
该步分析结束后,检查QC报告,如没有问题,上传QC报告
==== Analysis ====
sjm Analysis.job
==== QC加Analysis ====
sjm QC_Analysis.job
该步首先分析QC,自动检查QC报告,自动上传QC报告。如没有问题,自动进行后续分析;若QC有问题,任务断掉,发送邮件通知信息负责人。
==== 释放数据 ====
qsub -V -cwd -l vf=1g,p=1 release.sh
该步分析结束后,数据自动整理并上传至OSS,上传成功need_move_data_to_oss_again文件大小为0,如果上传失败could_rm_linux_data文件大小为0,数据上传成功后会将可以删除整个项目路径的脚本生成至/NJPROJ2/RNA/share/ref_med_del/,在该路径下找到自己的项目,投递删除。
======注意事项======
1 项目启动根据项目具体情况选择启动方法,遇到问题请及时找流程负责人
2 遇到脚本报错,先看报错文件,自己尝试解决,还未解决,再找流程负责人
3 当填spike参数时,需在参考基因组目录下新建ERCC目录,将ERCC序列及注释文件和参考基因组及注释文件合并,具体参考人的基因组Homo_sapiens_Ensemble_90
4 当align参数选用STAR时,需在参考基因组目录下新建STAR_150目录,新建参考基因组的STAR索引,具体参考人的基因组Homo_sapiens_Ensemble_90
5 新转录本预测,通过stringtie软件组装,用gffcompare进行注释,提取class code为基因间区的新转录本,提取最长转录本作为基因序列,对其进行interproscan注释(pfam和superfamily数据库)
项目执行遇到问题,可以查看下面的wiki是否有解决方法,如没有建议你在解决后将报错及解决方法更新至该wiki,方便他人遇到同样问题时可以快速的解决:http://172.25.35.18/novotredia/doku.php?id=%E4%BA%A7%E5%93%81:%E6%96%87%E6%A1%A3_%E6%96%B0rna-seq%E9%A1%B9%E7%9B%AE%E6%89%A7%E8%A1%8C%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98%E5%8F%8A%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88