用户工具

站点工具


gb_lnccirc_man_pipline流程

gb_LncCirc_man_pipline流程

环境变量

天津:

cat ~/.bashrc
# .bashrc
 
# Source global definitions
if [ -f /etc/bashrc ]; then
	. /etc/bashrc
fi
 
# User specific aliases and functions
source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate

美国:

# .bashrc
 
# Source global definitions
if [ -f /etc/bashrc ]; then
	. /etc/bashrc
fi
 
# User specific aliases and functions
source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate

英国:

cat ~/.bashrc
# .bashrc
 
# Source global definitions
if [ -f /etc/bashrc ]; then
	. /etc/bashrc
fi
 
# Uncomment the following line if you don't like systemctl's auto-paging feature:
# export SYSTEMD_PAGER=
 
# User specific aliases and functions
 
source  /PUBLIC/software/GB_AI/miniconda3/bin/activate

1.账号配置

由于要使用新系统lims,报告的自动上传lims系统需要大家先配置账号信息,方法如下:

  北京:
  gn:
  source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
  /TJPROJ1/JF/lims/GN/lims_report_upload_gn/Lims_report_uploader init
  hw:
  source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
  /TJPROJ1/JF/lims/HW/lims_report_upload_hw/Lims_report_uploader init
  美国:
  source source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate
  /HWPROJ2/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader init
  英国:
  source  /PUBLIC/software/GB_AI/miniconda3/bin/activate
  /UKPROJ4/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader
  南京:
  export PYTHONPATH=/NJPROJ2/MICRO/share/software/Anaconda/anaconda3/bin/python:$PATH
  /NJPROJ2/MICRO/PROJ/lidanqing/lims/lims_report_upload_v2.1/Lims_report_uploader init

API指标库配置

cat ~/.stats_api_config
[zhouheming]
apiuser = gb_tr
apipasswd = P4K5RSvyPvuuqhP

项目启动方法

lims系统信息搜集表及下机数据爬取

为提高项目执行人员的效率,减少人工时间,从lims中实现信息搜集表和下机数据的自动爬取,并自动生成配置文件project.txt,快速启动项目。

脚本

爬取脚本路径:

  南京:
  北京国内:
  export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
  /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info
  北京海外:
  export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
  /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info_hw
  美国:
  export PATH=/RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin:$PATH
  待更新
  英国:
  export PATH=/PUBLIC/software/GB_AI/miniconda3/bin:$PATH
  待更新

脚本使用方法

/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info –project_type med –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2001

/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info_bendi –project_type med –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2001

注意:海外的项目生成project.txt后需要单独配置下面文件

天津:
#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova
#配置文件
configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt
 
美国:
#文库删除脚本存放路径
libdel=
#配置文件
configure=
英国:
#文库删除脚本存放路径
libdel=
#配置文件
configure=
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info\
--pjcode  必填,项目编号#示例:P101SC16122246-01-F001;
--project_type 必填,项目类型:ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE/lnc/circRNA;
标准ref:有参;refDGE:有参DGE;med:标准医口;medDGE:医口DGE;sc:单细胞标准有参;scDGE:单细胞有参DGE;scmed:单细胞标准医口;scmedDGE单细胞医口DGE;lnc:lnc分析;circRNA:circRNA分析
--name 必填,lims登录账号;
--pw 必填,lims登录密码;
--genome_version 基因组版本,没填需在生成的project.txt文件中手动填写;
--project_stage 项目分期,与F00保持一致,默认1;
--project_exclude 排除不分析的内容,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA,没填需在生成的project.txt文件中手动填写;
--data_size 项目分析的数据量,默认6;
--gsea_java 可选,java版GSEA分析,yes/no,默认yes;
--project_libtype 可选,文库类型,0/1/2(0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand),默认为0;
--project_readtype 可选,测序单双端类型,single/paired,默认paired;
--project_readlength 可选,测序长度,默认150;
--project_keeplength 可选,最终保留长度,默认150;
--project_design 可选,每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可,默认normal;
--genome_size 可选,物种基因组大小,normal/large,小麦等基因组较大的物种填写large,默认normal;
--analysis_level 可选,分析水平 gene/transcript,默认为gene;
--baseq_code 可选,碱基编码值,illumina测序平台都为33,默认为33;
--trim_tools 可选,接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp;
--align_tools 可选,比对软件,hisat2/STAR,默认为hisat2;
--quant_tools 可选,定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts;
--diff_tools 可选,差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为DESeq2;
--pj_spike 可选,是否添加内参,目前仅支持ERCC,默认不添加;
--diff_padj 可选,基因显著差异筛选阈值,默认采用padj值0.05;
--fold_change 可选,基因显著差异fold change阈值,默认是2,无生物学重复默认2;
--pj_adjust 可选,是否自动调参 true|false 仅在padj下有效,默认true;
--adjust_p 可选,调参后的p值,默认0.05;
--adjust_fc 可选,调参后的fc值,默认1,无生物学重复默认2;
--enrich_method 可选,富集方法,normal/GSEA,默认为normal(超几何分布模型),默认normal;
--as_cutoff 可选,可变剪接显著性差异阈值,默认0.05;
备注
  1.必填参数为必须填写,可选参数可不选,则流程选择默认参数;若有的参数没填写,则记得在生成的project.txt文件中手动填好,根据信息搜集表内容check无误后再运行/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/auto_refpipline命令生成脚本。

配置文件project.txt

参考文件: /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/project.txt

[project]

#项目编号
project_number=P101SC18082344-01

#合同编号
project_contract=H101SC20061658

#项目名称
project_name=中国水稻研究所12个水稻转录组测序分析技术服务(委托)合同

#项目分期
project_stage=1

#RNA组编号
project_RNA=16

#项目运营
project_yunying=张月

#项目信息
project_xinxi=殷林

#是否需要clean yes/no

clean_data=no

#分析内容

analysis_type=标准分析

#项目类型 ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE/lnc/circRNA
project_type=lnc

#外泌体exosome_type yes/no 默认no

exosome_type=no

#数据来源 novogene/other
project_source=novogene

#产品来源 gn/hw

product_source=gn

#数据量(G)
data_size=6

#文库类型 0/1/2 其中0为非链特异建库,1为dUTP链特异性建库,也叫fr-firstrand
project_libtype=0

#测序类型, single/paired
project_readtype=paired

#测序长度
project_readlength=150

#最终保留长度
project_keeplength=150

#文库号,以英文逗号隔开
project_library=RRAS18003-V,RRAS18004-V,RRAS18005-V,RRAS18006-V,RRAS18007-V,RRAS18008-V,RRAS18009-V,RRAS18010-V,RRAS18011-V,RRAS18012-V,RRAS18013-V,RRAS18014-V

#文库路径,以英文逗号隔开,和文库号分组顺序相一致,同一文库号的路径以冒号隔开
project_libpath=/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/,/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/

#fastq所在路径,单端后缀为fq.gz,双端后缀为_1.fq.gz和_2.fq,gz,如已有文库号和文库号路径,忽略该参数,一般纯分析项目使用
project_fqpath=

#样本名称,以英文逗号隔开,和文库号顺序相一致
project_sample=NIP_1_1,NIP_1_2,NIP_1_3,SFY_1_1,SFY_1_2,SFY_1_3,NIP_2_1,NIP_2_2,NIP_2_3,SFY_2_1,SFY_2_2,SFY_2_3

#样本按照不同的实验处理分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开
project_s2g=NIP_1_1:NIP_1_2:NIP_1_3,NIP_2_1:NIP_2_2:NIP_2_3:SFY_2_1,SFY_1_1:SFY_1_2:SFY_1_3,SFY_2_2:SFY_2_3

#组名,以英文逗号隔开,和分组信息相对应
project_group=NIP_1,NIP_2,SFY_1,SFY_2

#比较组合,处理组vs对照组,不同比较组合用英文逗号隔开,如AvsB,其中A和B为组名
project_compare=SFY_1vsNIP_1,SFY_2vsNIP_2,SFY_2vsSFY_1

#每个比较组合的差异分析模型,normal常规模型 pair肿瘤配对模型 multi多组比较模型,以英文逗号隔开,若所有比较组合采用相同模型,填一个即可
project_design=normal

#韦恩组合,不同比较组以英文冒号隔开,不同维恩组合以英文逗号隔开。如果不画venn图,等号后面不填
project_venn=SFY_1vsNIP_1:SFY_2vsNIP_2,SFY_2vsNIP_2:SFY_2vsSFY_1

#共表达venn图,既可以画样品间的,可以画组间的,样品与组间的venn图,同一venn图中的样品或者组以vs隔开,不同共表达venn图以英文逗号隔开。如果不画共表达venn图,等号后面不填。

project_coexpr_venn=SFY_1vsNIP_1,SFY_2vsNIP_2

#聚类组合,不同比较组以英文冒号隔开,不同聚类组合以英文逗号隔开,所有比较组合以英文冒号连接
project_cluster=SFY_1vsNIP_1:SFY_2vsNIP_2:SFY_2vsSFY_1

#需要排除的分析内容,以英文逗号隔开,1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA/10.Immuno(国内)/11.CircNovel/12.CircTarget/13.CircDiff/14.CircEnrich/15.CircCoding(国内: 标准有参排除
8;有参DGE排除2,6,7,8,9;标准医口排除2,医口DGE排除2,6,7,8,9;WGCNA建议样品个数在15个以上;Immuno根据运营
的邮件反馈确定是否分析;默认不分析;海外: 标准有参排除8,9,10;有参DGE排除2,6,7,8,9,10;标准医口排除2,9;医口DGE排除2,6,7,8,9,10;国内: 标准lnc排除8(人或者小鼠不排除),9,10,11,12,13,14,15;标准lnc+circ排除8(人或者小鼠不排除),9,10;标准circ排除2,3,4,5,6,7,8,9,10;海外: 标准lnc,8,9,10,11,12,13,14,15;标准circ排除2,3,4,5,6,7,8,9,10)
project_exclude=8,9,10

#基因组版本,如人Homo_sapiens_Ensemble_94,小鼠Mus_musculus_Ensemble_94
genome_version=Oryza_sativa_IRGSP_1.0

#kegg物种缩写,如人hsa 小鼠mmu
kegg_abbr=dosa

#ppi物种编号,如人9606 小鼠10090
ppi_taxon=39947

#是否添加内参,目前仅支持ERCC
spike=

#物种基因组大小,normal/large,小麦等基因组较大的物种填写large,用于建bam文件index
genome_size=normal

#分析水平 gene/transcript,默认为gene
level=gene_trans

#碱基编码值,取决于测序平台,illumina测序平台都为33,默认为33
baseq=33

#核糖体RNA过滤软件,默认为bowtie2
rRNA=bowtie2

#接头和低质量reads过滤软件,ngqc/trimmomatic/fastp,默认为fastp
trim=fastp

#比对软件,默认为hisat2,可选STAR,海外医口的项目必须选择STAR,海外有参hisat2,国内有参,医口默认使用hisat2
align=hisat2

#组装软件,默认为stringtie
assemble=stringtie

#定量软件,HTSeq/featureCounts/stringtie,默认为featureCounts
quant=featureCounts

#差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为有生物学重复使用DESeq2,无生物学重复使用edgeR。如果项目
既有有生物学重复又有无生物学重复的,不同差异分析软件以英文逗号隔开
diff=DESeq2

#基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开,和差异分析软件相对应
padj=0.05

#基因显著差异fold change阈值。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的基因显著差异
筛选阈值以英文逗号隔开,和差异分析软件相对应
fc=1

#是否自动调参 true|false 仅在padj下有效
adjust=true

#java版GSEA分析,yes/no,默认,yes
gsea_java=yes

#调参后的p值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的p值以英文逗号隔开,和差异分析软件相对应
adjust_p=0.05

#调参后的fc值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的fc值以英文逗号隔开,和差异分析软件相对应
adjust_fc=1

#circ差异分析软件,DESeq/DESeq2/edgeR/ballgown,默认为有生物学重复使用DESeq2,无生物学重复使用edgeR。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件以英文逗号隔开
circ_diff=DESeq2,edgeR

#circ基因显著差异筛选阈值,pvalue或padj值,默认采用padj值0.05。如果项目既有有生物学重复又有无生物学重复的,>不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开,和差异分析软件相对应
circ_padj=0.05,0.05

#circ基因显著差异fold change阈值。如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开,和差异分析软件相对应
circ_fc=1,2

#circ是否自动调参 true|false 仅在padj下有效
circ_adjust=true

#circ调参后的p值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的p值以英文逗号隔开,>和差异分析软件相对应
circ_adjust_p=0.05,0.05

#circ调参后的fc值,如果项目既有有生物学重复又有无生物学重复的,不同差异分析软件的调参后的fc值以英文逗号隔开>,和差异分析软件相对应
circ_adjust_fc=1,2


#富集方法,normal/GSEA,默认为normal(超几何分布模型)
enrich_method=normal

#可变剪接软件,默认为rMATS
splice=rMATS

#可变剪接显著性差异阈值
cutoff=0.05

#snp calling软件,默认为GATK4,可选择GATK
snp=GATK4

#project_s2b,样本按照批次进行分组,组间以英文逗号隔开,同一组的样本以英文冒号隔开,仅用于pair肿瘤配对模型/batch模型
project_s2b=

#融合基因软件,默认为starfusion
fusion=starfusion

#流程部署位置,默认为TJ
local=

#利润中心,默认为2001
ProfitCode=

#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova

#配置文件
configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt

手动运行命令

南京:
北京:/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/auto_refpipline
美国:待更新
英国:待更新

运行上述命令后,在项目路径下,会有log文件夹生成,进入log目录,执行下面命令

QC

sjm QC.job

该步分析结束后,检查QC报告,如没有问题,上传QC报告

Analysis

sjm Analysis.job

QC加Analysis

sjm QC_Analysis.job

该步首先分析QC,自动检查QC报告,自动上传QC报告。如没有问题,自动进行后续分析;若QC有问题,任务断掉,发送邮件通知信息负责人。

释放数据

qsub -V -cwd -l vf=1g,p=1 release.sh

该步分析结束后,数据自动整理并上传至OSS,上传成功need_move_data_to_oss_again文件大小为0,如果上传失败could_rm_linux_data文件大小为0,数据上传成功后会将可以删除整个项目路径的脚本生成至/NJPROJ2/RNA/share/ref_med_del/,在该路径下找到自己的项目,投递删除。

注意事项

1 项目启动根据项目具体情况选择启动方法,遇到问题请及时找流程负责人

2 遇到脚本报错,先看报错文件,自己尝试解决,还未解决,再找流程负责人

3 当填spike参数时,需在参考基因组目录下新建ERCC目录,将ERCC序列及注释文件和参考基因组及注释文件合并,具体参考人的基因组Homo_sapiens_Ensemble_90

4 当align参数选用STAR时,需在参考基因组目录下新建STAR_150目录,新建参考基因组的STAR索引,具体参考人的基因组Homo_sapiens_Ensemble_90

5 新转录本预测,通过stringtie软件组装,用gffcompare进行注释,提取class code为基因间区的新转录本,提取最长转录本作为基因序列,对其进行interproscan注释(pfam和superfamily数据库)

项目执行遇到问题,可以查看下面的wiki是否有解决方法,如没有建议你在解决后将报错及解决方法更新至该wiki,方便他人遇到同样问题时可以快速的解决:http://172.25.35.18/novotredia/doku.php?id=%E4%BA%A7%E5%93%81:%E6%96%87%E6%A1%A3_%E6%96%B0rna-seq%E9%A1%B9%E7%9B%AE%E6%89%A7%E8%A1%8C%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98%E5%8F%8A%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88

gb_lnccirc_man_pipline流程.txt · 最后更改: 2022/07/20 02:44 由 zhanghailei