天津:
cat ~/.bashrc # .bashrc # Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi # User specific aliases and functions source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
美国:
# .bashrc # Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi # User specific aliases and functions source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate
英国:
cat ~/.bashrc # .bashrc # Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi # Uncomment the following line if you don't like systemctl's auto-paging feature: # export SYSTEMD_PAGER= # User specific aliases and functions source /PUBLIC/software/GB_AI/miniconda3/bin/activate
由于要使用新系统lims,报告的自动上传lims系统需要大家先配置账号信息,方法如下:
北京: gn: source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate /TJPROJ1/JF/lims/GN/lims_report_upload_gn/Lims_report_uploader init hw: source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate /TJPROJ1/JF/lims/HW/lims_report_upload_hw/Lims_report_uploader init 美国: source source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate /HWPROJ2/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader init 英国: source /PUBLIC/software/GB_AI/miniconda3/bin/activate /UKPROJ4/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader
cat ~/.stats_api_config [zhouheming] apiuser = gb_tr apipasswd = P4K5RSvyPvuuqhP
为提高项目执行人员的效率,减少人工时间,从lims中实现信息搜集表和下机数据的自动爬取,并自动生成配置文件project.txt,快速启动项目。
转录爬取脚本路径:
北京国内: export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info 北京海外: export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info_hw 美国: export PATH=/RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin:$PATH /PUBLIC/source/HW/RNA/gb_tr_man_pipline/bin/get_lims_info_hw 英国: export PATH=/PUBLIC/software/GB_AI/miniconda3/bin:$PATH /PUBLIC/source/RNA/gb_tr_man_pipline/bin/get_lims_info_hw
调控爬取脚本路径:
北京国内: export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info_nc 北京海外: export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info_nc_hw
转录:
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info –project_type ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2011
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info_bendi –project_type ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2011
调控:
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info_nc –project_type lnc/circ –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2011
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info_nc_bendi –project_type lnc/circ –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2011
注意:lnc+circ 项目,–project_type 填lnc
注意:海外的项目生成project.txt后需要单独配置下面文件
天津: #文库删除脚本存放路径 libdel=/TJPROJ13/GB_TR/share/WORK/del_Nova #配置文件 configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt 美国: #文库删除脚本存放路径 libdel=/PUBLIC/source/HW/RNA/WORK/del_Nova #配置文件 configure=/PUBLIC/source/HW/RNA/database/CONFIG/configure.txt 英国: #文库删除脚本存放路径 libdel=/PUBLIC/source/RNA/WORK/del_Nova #配置文件 configure=/PUBLIC/source/RNA/database/CONFIG/configure.txt
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/get_lims_info\ --pjcode 必填,项目编号#示例:P101SC16122246-01-F001; --project_type 必填,项目类型:ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE/lnc/circRNA(lnc+circ 填lnc) ref:有参标准;refDGE:有参DGE;med:标准医口;medDGE:医口DGE;sc:单细胞标准有参;scDGE:单细胞有参DGE;scmed:单细胞标准医口;scmedDGE单细胞医口DGE --name 必填,lims登录账号; --pw 必填,lims登录密码; --genome_version 基因组版本,没填需在生成的project.txt文件中手动填写; --project_stage 项目分期,与F00保持一致,默认1; --project_exclude 排除不分析的内容,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA,没填需在生成的project.txt文件中手动填写; --data_size 项目分析的数据量,默认6; --gsea_java 可选,java版GSEA分析,yes/no,默认yes; --project_libtype 可选,文库类型,0/1/2(0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand),默认为0; --project_readtype 可选,测序单双端类型,single/paired,默认paired; --project_readlength 可选,测序长度,默认150; --project_keeplength 可选,最终保留长度,默认150; --project_design 可选,每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可,默认normal; --genome_size 可选,物种基因组大小,normal/large,小麦等基因组较大的物种填写large,默认normal; --analysis_level 可选,分析水平 gene/transcript,默认为gene; --baseq_code 可选,碱基编码值,illumina测序平台都为33,默认为33; --trim_tools 可选,接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp; --align_tools 可选,比对软件,hisat2/STAR,默认为hisat2; --quant_tools 可选,定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts; --diff_tools 可选,差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为DESeq2; --pj_spike 可选,是否添加内参,目前仅支持ERCC,默认不添加; --diff_padj 可选,基因显著差异筛选阈值,默认采用padj值0.05; --fold_change 可选,基因显著差异fold change阈值,默认是2,无生物学重复默认2; --pj_adjust 可选,是否自动调参 true|false 仅在padj下有效,默认true; --adjust_p 可选,调参后的p值,默认0.05; --adjust_fc 可选,调参后的fc值,默认1,无生物学重复默认2; --enrich_method 可选,富集方法,normal/GSEA,默认为normal(超几何分布模型),默认normal; --as_cutoff 可选,可变剪接显著性差异阈值,默认0.05;
1.必填参数为必须填写,可选参数可不选,则流程选择默认参数;若有的参数没填写,则记得在生成的project.txt文件中手动填好,根据信息搜集表内容check无误后再运行/PUBLIC/source/RNA/gb_MedRef_man_pipline/auto_refpipline命令生成脚本。
参考文件: /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/project.txt
[project] #项目编号 project_number=X201SC22111468-Z01-F002 #项目名称 project_name=Hong Kong-UM-Tianhong-4RNA-extraction-6G-WOBI-AMEA2022110311 #合同编号 project_contract=H201SC22111468 #项目分期 project_stage=1 #RNA组编号 project_RNA=16 #项目运营 project_yunying=Hongli Yao 姚红丽 #项目运营经理邮箱 yunying_email=yaohongli@novogene.com #项目信息 project_xinxi=Xiaosong Li 李晓松 #项目信息负责人邮箱 xinxi_email=lixiaosong8199@novogene.com #项目销售 project_xiaoshou=Siqi Cui 崔思琪 #项目销售邮箱 xiaoshou_email=cuisiqi6577@novogene.com #项目类型 ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE/lnc/circRNA(lnc+circ 填lnc) project_type=med #数据来源 novogene/other project_source=novogene #产品来源 gn/hw product_source=hw #产品类型 mRNA/ncRNA product_type=mRNA #数据量(G) data_size=6 #文库类型 0/1/2 其中0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand project_libtype=0 #测序类型, single/paired project_readtype=paired #测序长度 project_readlength=150 #最终保留长度 project_keeplength=150 #是否交付clean data,填写yes或者no,默认no clean_data=no #文库号,以英文逗号隔开 project_library=FRAS220294323-1r,FRAS220294324-1r,FRAS220294325-1r,FRAS220294326-1r #文库路径,以英文逗号隔开,和文库号顺序相一致,同一文库号的路径以冒号隔开 project_libpath=/TJPROJ4/XJ/department_data-nova/3000/221120_A00877_1089_AH252KDSX5-new,/TJPROJ4/XJ/department_data-nova/3000/221122_A00920_1084_BH3KFCDSX5-new:/TJPROJ4/XJ/department_data-nova/3000/221120_A00877_1089_AH252KDSX5-new,/TJPROJ4/XJ/department_data-nova/3000/221123_A00881_1087_BH3KMKDSX5-new:/TJPROJ4/XJ/department_data-nova/3000/221120_A00877_1089_AH252KDSX5-new,/TJPROJ4/XJ/department_data-nova/3000/221120_A00877_1089_AH252KDSX5-new #fastq所在路径,单端后缀为fq.gz,双端后缀为_1.fq.gz和_2.fq,gz,如已有文库号和文库号路径,忽略该参数,一般纯分析项目使用 project_fqpath= #样本名称,以英文逗号隔开,和文库号顺序相一致 project_sample=shNC_1,shNC_2,shPCSK9_1,shPCSK9_2 #样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开 project_s2g=shNC_1:shNC_2,shPCSK9_1:shPCSK9_2 #组名,以英文逗号隔开,和分组信息相对应 project_group=shNC,shPCSK9 #比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名 project_compare=shPCSK9vsshNC #每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可 project_design=normal #project_s2b,样本按照批次进行分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开,仅用于pair肿瘤配对模型/batch模型 project_s2b= #remove_batch,是否需要去批次效应, 填写yes或者no, 默认no remove_batch=no #software,去批次效应软件, 填写svaseq或者limma, 默认svaseq software=svaseq #韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开。如果不画venn图,等号后面不填 project_venn= #共表达venn图,既可以画样品间的,可以画组间的,同一venn图中的样品或者组以vs隔开,不同共表达venn图以英文逗号隔开。如果不画共表达venn图,等号后面不填 project_coexpr_venn=shPCSK9vsshNC #聚类组合,不同比较组以英文冒号隔开,不同聚类组合以英文逗号隔开,所有比较组合以英文冒号连接 project_cluster=shPCSK9vsshNC #分析类型 analysis_type=DGE Analysis #是否为外泌体 yes/no 默认no exosome_type=no #需要排除的分析内容,以英文逗号隔开,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA/10.Immuno(国内)/11.CircNovel/12.CircTarget/13.CircDiff/14.CircEnrich/15.CircCoding(国内: 标准有参排除8,10,11,12,13,14,15; 有参DGE排除2,6,7,8,9,10,11,12,13,14,15;标准医口排除2,10,11,12,13,14,15,医口DGE排除2,6,7,8,9,10,11,12,13,14,15;WGCNA建议样品个数在15个以上;Immuno根据运营的邮件反馈确定是否分析;默认不分析;海外: 标准有参排除8,9,10,11,12,13,14,15;有参DGE排除2,6,7,8,9,10,11,12,13,14,15;标准医口排除2,9,10,11,12,13,14,15;医口DGE排除2,6,7,8,9,10,11,12,13,14,15;国内: 标准lnc排除7,8(7-人或者小鼠不排除;8-人或者小鼠融合基因yes时分析),9,10,11,12,13,14,15;标准lnc+circ排除8(人或者小鼠不排除),9,10;标准circ排除2,3,4,5,6,7,8,9,10;海外: 标准lnc,8,9,10,11,12,13,14,15;标准circ排除2,3,4,5,6,7,8,9,10) project_exclude=2,9,10,11,12,13,14,15 #物种分类信息animal/plant project_specie= #基因组版本,如人Homo_sapiens_Ensemble_94,小鼠Mus_musculus_Ensemble_94 genome_version=Homo_sapiens_Ensemble_94 #物种的拉丁名,爬取信息搜集表里获得 latin=Homo_sapiens #kegg物种缩写,如人hsa 小鼠mmu kegg_abbr=hsa #是否重新准备kegg,yes或no,做富集分析填yes,否则填no,默认yes prepare_kegg=yes #ppi物种编号,如人9606 小鼠10090 ppi_taxon=9606 #是否添加内参,目前仅支持ERCC spike= #物种基因组大小,normal/large,小麦等基因组较大的物种填写large,用于建bam文件index genome_size=normal #分析水平 gene/transcript,默认为gene,nc流程应填gene_trans level=gene_trans #碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33 baseq=33 #核糖体RNA过滤软件,默认为bowtie2 rRNA=bowtie2 #接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为ngqc trim=fastp #比对软件,默认为hisat2,可选STAR align=hisat2 #组装软件,默认为stringtie assemble=stringtie #定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts,nc流程默认用stringtie定量 quant=stringtie #差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为DESeq2,nc流程lncRNA差异使用edgeR diff=edgeR #基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05 padj=0.05 #基因显著差异fold change阈值 fc=2 #是否自动调参 true|false 仅在padj下有效 adjust=true #java版GSEA分析,yes/no,默认,no gsea_java=yes #调参后的p值 adjust_p=0.05 #调参后的fc值 adjust_fc=1 #富集方法,normal/GSEA,默认为normal(超几何分布模型) enrich_method=normal #可变剪接软件,默认为rMATS splice=rMATS #可变剪接显著性差异阈值 cutoff=0.05 #snp calling软件,默认为GATK snp=GATK4 #融合基因软件,默认为starfusion fusion=starfusion #流程部署位置,默认为TJ local=TJ #利润中心,默认为2001 ProfitCode=2001 #文库删除脚本存放路径 libdel=/TJPROJ13/GB_TR/share/WORK/del_Nova #配置文件 configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt 调控特有参数: #是否为外泌体 yes/no 默认no exosome_type=no #circ分析的mirbase,可以以逗号分割多个,也可以填写animal/plant/fungi circ_mirbase=hsa #circ差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为有生物学重复使用DESeq2,无生物学重复 circ_diff=edgeR #circ基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05。如果项目既有有生物学重复又 circ_padj=0.05 #circ基因显著差异fold change阈值。如果项目既有有生物学重复又有无生物学重复的,不同差异分>析软件的基因显著差异筛选阈值以英文逗号隔开,和差异分析软件相对应 circ_fc=2 #circ是否自动调参 true|false 仅在padj下有效 circ_adjust=true #circ调参后的p值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的p值以英文逗号隔开,>和差异分析软件相对应 circ_adjust_p=0.05 #circ调参后的fc值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的 circ_adjust_fc=1
北京:/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/auto_refpipline 美国:/PUBLIC/source/HW/RNA/gb_tr_man_pipline/auto_refpipline 英国:/PUBLIC/source/RNA/gb_tr_man_pipline/auto_refpipline
运行上述命令后,在项目路径下,会有log文件夹生成,进入log目录,执行下面命令
sjm QC.job
该步分析结束后,检查QC报告,如没有问题,上传QC报告
sjm Analysis.job
QC结果确认无误后,投递该脚本,进行后续分析步骤,最终生成Result、Report以及data_release等目录。
sjm QC_Analysis.job
该步首先分析QC,自动检查QC报告,自动上传QC报告。如没有问题,自动进行后续分析;若QC有问题,任务断掉,发送邮件通知信息负责人。若分析没有问题会自动运行到最后release.sh,该脚本会check结果文件是否正常,若结果文件有问题,任务断掉,会在项目路径下生成Result_Check_Failed,并发邮件通知信息负责人;若无问题,自动整理data_release目录并备份数据至OSS。上传成功PJbackOSS_succeed文件大小为0,如果上传失败PJbackOSS_failed文件大小为0。数据上传成功后会将可以删除整个项目路径的脚本生成至/TJPROJ13/GB_TR/share/ref_med_del,在该路径下找到自己的项目,投递删除。
信息搜集表版本 | genome_version默认版本参数填写 | 可选版本 |
---|---|---|
Homo Sapiens(GRCh38/hg38) | Homo_sapiens_Ensemble_94 | 1.Homo_sapiens_Ensemble_92(对应有参基因组id ensembl_homo_sapiens_grch38_p12_gca_000001405_27 ) 2.Homo_sapiens_Ensemble_94 3.Homo_sapiens_Ensemble_87 4.Homo_sapiens_Ensemble_90 5.Homo_sapiens_Ensemble_91 6.Homo_sapiens_Ensemble_93 7.Homo_sapiens_Ensemble_96 8.Homo_sapiens_Ensemble_97 |
Homo Sapiens(GRCh37/hg19) | Homo_sapiens_Ensemble_75 | 1.Homo_sapiens_Ensemble_74(对应有参基因组id ensembl_homo_sapiens_grch37_p13_gca_000001405_14 ,但该版本医口需准备) 2.Homo_sapiens_Ensemble_75 |
Mus Musculus(GRCm38/mm10) | Mus_musculus_Ensemble_94 | 1.Mus_musculus_Ensemble_92 (对应有参基因组id ensembl_mus_musculus_grcm38_p6_gca_000001635_8 ) 2.Mus_musculus_Ensemble_94 3.Mus_musculus_Ensemble_90 4.Mus_musculus_Ensemble_96 5.Mus_musculus_Ensemble_97 |
Mus Musculus(GRCm39/m39) | Mus_musculus_Ensemble_107_new | Mus_musculus_Ensemble_107_new |
1 项目启动根据项目具体情况选择启动方法,遇到问题请及时找流程负责人 2 遇到脚本报错,先看报错文件,自己尝试解决,还未解决,再找流程负责人 3 当填spike参数时,需在参考基因组目录下新建ERCC目录,将ERCC序列及注释文件和参考基因组及注释文件合并,具体参考人的基因组Homo_sapiens_Ensemble_90 4 当align参数选用STAR时,需在参考基因组目录下新建STAR_150目录,新建参考基因组的STAR索引,具体参考人的基因组Homo_sapiens_Ensemble_90 5 新转录本预测,通过stringtie软件组装,用gffcompare进行注释,提取class code为基因间区的新转录本,提取最长转录本作为基因序列,对其进行interproscan注释(pfam和superfamily数据库) 6 去除批次效应remove_batch填写为yes,同时生成的condition.xls文件需要新增一列type,填写上批次号。 7 只要进行5 Enrich富集分析,prepare_kegg填写yes,否则填写no。 8 统一流程抓取的基因组路径与自动化准备的基因组路径一致,即genomepath/Annotation、genomepath/Sequence (1)若使用自动化准备的参考基因组,配置文件直接填写自动化准备的参考基因组路径即可; (2)若使用的参考基因组是手动准备的,用统一流程里prepare_data(只可以准备转录用到的参考基因组文件)或者prepare_data_nc_mRNA_v2(转录调控用到的参考基因组文件均可以准备)重新刷一下脚本,然后重新投递执行bio_ai.sh a 执行完毕后,配置文件填写genomepath/genome b 或者将genome目录下的Annotation、Sequence目录软链到上一层目录,配置文件直接填写genomepath。
准备参考基因组脚本prepare_data_nc_mRNA_v2(转录调控均可使用):
集群路径:/TJPROJ11/GB_TR/USER/songshuo/0_save/3_run_project/ncRNA_mRNA_reference_date/bin/prepare_data_nc_mRNA_v2
问题与解决方法
项目执行遇到问题,可以查看下面的wiki是否有解决方法,如没有建议你在解决后将报错及解决方法更新至该wiki,方便他人遇到同样问题时可以快速的解决:http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:pipelines:%E5%9B%BD%E5%86%85%E6%9C%89%E5%8F%82%E5%8C%BB%E5%8F%A3%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E5%8F%8A%E8%A7%A3%E5%86%B3%E6%96%B9%E6%B3%95%E6%B1%87%E6%80%BB
医口国内思维导图参考:
med_gn.png
有参国内思维导图参考:
有参分析流程.png