gb_LncCirc_man_pipline流程

环境变量

天津：

cat ~/.bashrc
# .bashrc
 
# Source global definitions
if [ -f /etc/bashrc ]; then
	. /etc/bashrc
fi
 
# User specific aliases and functions
source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate

美国：

# .bashrc
 
# Source global definitions
if [ -f /etc/bashrc ]; then
	. /etc/bashrc
fi
 
# User specific aliases and functions
source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate

英国：

cat ~/.bashrc
# .bashrc
 
# Source global definitions
if [ -f /etc/bashrc ]; then
	. /etc/bashrc
fi
 
# Uncomment the following line if you don't like systemctl's auto-paging feature:
# export SYSTEMD_PAGER=
 
# User specific aliases and functions
 
source  /PUBLIC/software/GB_AI/miniconda3/bin/activate

1.账号配置

由于要使用新系统lims，报告的自动上传lims系统需要大家先配置账号信息，方法如下：

  北京：
  gn:
  source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
  /TJPROJ1/JF/lims/GN/lims_report_upload_gn/Lims_report_uploader init
  hw:
  source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
  /TJPROJ1/JF/lims/HW/lims_report_upload_hw/Lims_report_uploader init
  美国：
  source source /RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin/activate
  /HWPROJ2/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader init
  英国：
  source  /PUBLIC/software/GB_AI/miniconda3/bin/activate
  /UKPROJ4/lims/JF/HW/lims_report_upload_hw/Lims_report_uploader
  南京：
  export PYTHONPATH=/NJPROJ2/MICRO/share/software/Anaconda/anaconda3/bin/python:$PATH
  /NJPROJ2/MICRO/PROJ/lidanqing/lims/lims_report_upload_v2.1/Lims_report_uploader init

API指标库配置

cat ~/.stats_api_config
[zhouheming]
apiuser = gb_tr
apipasswd = P4K5RSvyPvuuqhP

项目启动方法

lims系统信息搜集表及下机数据爬取

为提高项目执行人员的效率，减少人工时间，从lims中实现信息搜集表和下机数据的自动爬取，并自动生成配置文件project.txt，快速启动项目。

脚本

爬取脚本路径：

  南京：
  北京国内：
  export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
  /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info
  北京海外：
  export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
  /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info_hw
  美国：
  export PATH=/RLNAS02/GB/GB_TR/PUBLIC/software/miniconda3/bin:$PATH
  待更新
  英国：
  export PATH=/PUBLIC/software/GB_AI/miniconda3/bin:$PATH
  待更新

脚本使用方法

/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info –project_type med –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2001

/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info_bendi –project_type med –name {lims用户名} –pw {lims密码} –pjcode X101SC20082950-Z01-J004 –local TJ –project_stage 4 –ProfitCode 2001

注意：海外的项目生成project.txt后需要单独配置下面文件

天津：
#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova
#配置文件
configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt
 
美国：
#文库删除脚本存放路径
libdel=
#配置文件
configure=
英国：
#文库删除脚本存放路径
libdel=
#配置文件
configure=

/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin/get_lims_info\
--pjcode  必填，项目编号#示例:P101SC16122246-01-F001；
--project_type 必填，项目类型：ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE/lnc/circRNA；
标准ref:有参；refDGE:有参DGE;med:标准医口;medDGE:医口DGE;sc：单细胞标准有参；scDGE:单细胞有参DGE;scmed:单细胞标准医口;scmedDGE单细胞医口DGE;lnc:lnc分析;circRNA:circRNA分析
--name 必填，lims登录账号；
--pw 必填，lims登录密码；
--genome_version 基因组版本，没填需在生成的project.txt文件中手动填写；
--project_stage 项目分期，与F00保持一致，默认1；
--project_exclude 排除不分析的内容，1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA，没填需在生成的project.txt文件中手动填写；
--data_size 项目分析的数据量，默认6；
--gsea_java 可选，java版GSEA分析,yes/no，默认yes；
--project_libtype 可选，文库类型，0/1/2（0为非链特异建库，1为dUTP链特异性建库，也叫fr-firstrand），默认为0；
--project_readtype 可选，测序单双端类型，single/paired，默认paired；
--project_readlength 可选，测序长度，默认150；
--project_keeplength 可选，最终保留长度，默认150；
--project_design 可选，每个比较组合的差异分析模型，normal常规模型 pair肿瘤配对模型 multi多组比较模型，以英文逗号隔开，若所有比较组合采用相同模型，填一个即可，默认normal；
--genome_size 可选，物种基因组大小，normal/large，小麦等基因组较大的物种填写large，默认normal；
--analysis_level 可选，分析水平 gene/transcript,默认为gene；
--baseq_code 可选，碱基编码值，illumina测序平台都为33,默认为33；
--trim_tools 可选，接头和低质量reads过滤软件，ngqc/trimmomatic/fastp,默认为fastp；
--align_tools 可选，比对软件，hisat2/STAR，默认为hisat2；
--quant_tools 可选，定量软件，HTSeq/featureCounts/stringtie,默认为featureCounts；
--diff_tools 可选，差异分析软件，DESeq/DESeq2/edgeR/ballgown,默认为DESeq2；
--pj_spike 可选，是否添加内参，目前仅支持ERCC，默认不添加；
--diff_padj 可选，基因显著差异筛选阈值，默认采用padj值0.05；
--fold_change 可选，基因显著差异fold change阈值，默认是2，无生物学重复默认2；
--pj_adjust 可选，是否自动调参 true|false 仅在padj下有效，默认true；
--adjust_p 可选，调参后的p值，默认0.05；
--adjust_fc 可选，调参后的fc值，默认1，无生物学重复默认2；
--enrich_method 可选，富集方法,normal/GSEA,默认为normal(超几何分布模型)，默认normal；
--as_cutoff 可选，可变剪接显著性差异阈值，默认0.05；

备注

  1.必填参数为必须填写，可选参数可不选，则流程选择默认参数；若有的参数没填写，则记得在生成的project.txt文件中手动填好，根据信息搜集表内容check无误后再运行/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/auto_refpipline命令生成脚本。

配置文件project.txt

参考文件: /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/project.txt

[project]

#项目编号
project_number=P101SC18082344-01

#合同编号
project_contract=H101SC20061658

#项目名称
project_name=中国水稻研究所12个水稻转录组测序分析技术服务（委托）合同

#项目分期
project_stage=1

#RNA组编号
project_RNA=16

#项目运营
project_yunying=张月

#项目信息
project_xinxi=殷林

#是否需要clean yes/no

clean_data=no

#分析内容

analysis_type=标准分析

#项目类型 ref/refDGE/med/medDGE/sc/scDGE/scmed/scmedDGE/lnc/circRNA
project_type=lnc

#外泌体exosome_type yes/no 默认no

exosome_type=no

#数据来源 novogene/other
project_source=novogene

#产品来源 gn/hw

product_source=gn

#数据量(G)
data_size=6

#文库类型 0/1/2 其中0为非链特异建库，1为dUTP链特异性建库，也叫fr-firstrand
project_libtype=0

#测序类型, single/paired
project_readtype=paired

#测序长度
project_readlength=150

#最终保留长度
project_keeplength=150

#文库号,以英文逗号隔开
project_library=RRAS18003-V,RRAS18004-V,RRAS18005-V,RRAS18006-V,RRAS18007-V,RRAS18008-V,RRAS18009-V,RRAS18010-V,RRAS18011-V,RRAS18012-V,RRAS18013-V,RRAS18014-V

#文库路径，以英文逗号隔开,和文库号分组顺序相一致，同一文库号的路径以冒号隔开
project_libpath=/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/,/NJPROJ3/XJ/Data_production/department_data_Nova/1912/180917_A00202_0211_AH7W32DSXX-new/

#fastq所在路径，单端后缀为fq.gz，双端后缀为_1.fq.gz和_2.fq,gz，如已有文库号和文库号路径，忽略该参数，一般纯分析项目使用
project_fqpath=

#样本名称，以英文逗号隔开，和文库号顺序相一致
project_sample=NIP_1_1,NIP_1_2,NIP_1_3,SFY_1_1,SFY_1_2,SFY_1_3,NIP_2_1,NIP_2_2,NIP_2_3,SFY_2_1,SFY_2_2,SFY_2_3

#样本按照不同的实验处理分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开
project_s2g=NIP_1_1:NIP_1_2:NIP_1_3,NIP_2_1:NIP_2_2:NIP_2_3:SFY_2_1,SFY_1_1:SFY_1_2:SFY_1_3,SFY_2_2:SFY_2_3

#组名,以英文逗号隔开，和分组信息相对应
project_group=NIP_1,NIP_2,SFY_1,SFY_2

#比较组合，处理组vs对照组，不同比较组合用英文逗号隔开，如AvsB，其中A和B为组名
project_compare=SFY_1vsNIP_1,SFY_2vsNIP_2,SFY_2vsSFY_1

#每个比较组合的差异分析模型，normal常规模型 pair肿瘤配对模型 multi多组比较模型，以英文逗号隔开，若所有比较组合采用相同模型，填一个即可
project_design=normal

#韦恩组合，不同比较组以英文冒号隔开，不同维恩组合以英文逗号隔开。如果不画venn图，等号后面不填
project_venn=SFY_1vsNIP_1:SFY_2vsNIP_2,SFY_2vsNIP_2:SFY_2vsSFY_1

#共表达venn图，既可以画样品间的，可以画组间的，样品与组间的venn图，同一venn图中的样品或者组以vs隔开，不同共表达venn图以英文逗号隔开。如果不画共表达venn图，等号后面不填。

project_coexpr_venn=SFY_1vsNIP_1,SFY_2vsNIP_2

#聚类组合，不同比较组以英文冒号隔开，不同聚类组合以英文逗号隔开，所有比较组合以英文冒号连接
project_cluster=SFY_1vsNIP_1:SFY_2vsNIP_2:SFY_2vsSFY_1

#需要排除的分析内容，以英文逗号隔开，1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:AS/7:SNP/8:Fusion/9:WGCNA/10.Immuno(国内)/11.CircNovel/12.CircTarget/13.CircDiff/14.CircEnrich/15.CircCoding（国内： 标准有参排除
8；有参DGE排除2,6,7,8,9；标准医口排除2，医口DGE排除2,6,7,8,9;WGCNA建议样品个数在15个以上；Immuno根据运营
的邮件反馈确定是否分析；默认不分析；海外： 标准有参排除8,9,10；有参DGE排除2,6,7,8,9,10；标准医口排除2，9；医口DGE排除2,6,7,8,9,10;国内: 标准lnc排除8(人或者小鼠不排除),9,10,11,12,13,14,15;标准lnc+circ排除8(人或者小鼠不排除),9,10;标准circ排除2,3,4,5,6,7,8,9,10；海外: 标准lnc,8,9,10,11,12,13,14,15;标准circ排除2,3,4,5,6,7,8,9,10）
project_exclude=8,9,10

#基因组版本,如人Homo_sapiens_Ensemble_94，小鼠Mus_musculus_Ensemble_94
genome_version=Oryza_sativa_IRGSP_1.0

#kegg物种缩写，如人hsa 小鼠mmu
kegg_abbr=dosa

#ppi物种编号，如人9606 小鼠10090
ppi_taxon=39947

#是否添加内参，目前仅支持ERCC
spike=

#物种基因组大小，normal/large，小麦等基因组较大的物种填写large，用于建bam文件index
genome_size=normal

#分析水平 gene/transcript,默认为gene
level=gene_trans

#碱基编码值，取决于测序平台，illumina测序平台都为33,默认为33
baseq=33

#核糖体RNA过滤软件，默认为bowtie2
rRNA=bowtie2

#接头和低质量reads过滤软件，ngqc/trimmomatic/fastp,默认为fastp
trim=fastp

#比对软件，默认为hisat2，可选STAR，海外医口的项目必须选择STAR,海外有参hisat2,国内有参，医口默认使用hisat2
align=hisat2

#组装软件，默认为stringtie
assemble=stringtie

#定量软件，HTSeq/featureCounts/stringtie,默认为featureCounts
quant=featureCounts

#差异分析软件，DESeq/DESeq2/edgeR/ballgown,默认为有生物学重复使用DESeq2，无生物学重复使用edgeR。如果项目
既有有生物学重复又有无生物学重复的，不同差异分析软件以英文逗号隔开
diff=DESeq2

#基因显著差异筛选阈值，pvalue或padj值，默认采用padj值0.05。如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开，和差异分析软件相对应
padj=0.05

#基因显著差异fold change阈值。如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件的基因显著差异
筛选阈值以英文逗号隔开，和差异分析软件相对应
fc=1

#是否自动调参 true|false 仅在padj下有效
adjust=true

#java版GSEA分析,yes/no,默认，yes
gsea_java=yes

#调参后的p值，如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件的调参后的p值以英文逗号隔开，和差异分析软件相对应
adjust_p=0.05

#调参后的fc值，如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件的调参后的fc值以英文逗号隔开，和差异分析软件相对应
adjust_fc=1

#circ差异分析软件，DESeq/DESeq2/edgeR/ballgown,默认为有生物学重复使用DESeq2，无生物学重复使用edgeR。如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件以英文逗号隔开
circ_diff=DESeq2,edgeR

#circ基因显著差异筛选阈值，pvalue或padj值，默认采用padj值0.05。如果项目既有有生物学重复又有无生物学重复的，>不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开，和差异分析软件相对应
circ_padj=0.05,0.05

#circ基因显著差异fold change阈值。如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件的基因显著差异筛选阈值以英文逗号隔开，和差异分析软件相对应
circ_fc=1,2

#circ是否自动调参 true|false 仅在padj下有效
circ_adjust=true

#circ调参后的p值，如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件的调参后的p值以英文逗号隔开，>和差异分析软件相对应
circ_adjust_p=0.05,0.05

#circ调参后的fc值，如果项目既有有生物学重复又有无生物学重复的，不同差异分析软件的调参后的fc值以英文逗号隔开>，和差异分析软件相对应
circ_adjust_fc=1,2


#富集方法,normal/GSEA,默认为normal(超几何分布模型)
enrich_method=normal

#可变剪接软件，默认为rMATS
splice=rMATS

#可变剪接显著性差异阈值
cutoff=0.05

#snp calling软件，默认为GATK4，可选择GATK
snp=GATK4

#project_s2b，样本按照批次进行分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开，仅用于pair肿瘤配对模型/batch模型
project_s2b=

#融合基因软件，默认为starfusion
fusion=starfusion

#流程部署位置，默认为TJ
local=

#利润中心，默认为2001
ProfitCode=

#文库删除脚本存放路径
libdel=/TJPROJ6/RNA_T/WORK/del_Nova

#配置文件
configure=/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt

手动运行命令

南京：
北京：/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/auto_refpipline
美国：待更新
英国：待更新

运行上述命令后，在项目路径下，会有log文件夹生成，进入log目录，执行下面命令

QC

sjm QC.job

该步分析结束后，检查QC报告，如没有问题，上传QC报告

Analysis

sjm Analysis.job

QC加Analysis

sjm QC_Analysis.job

该步首先分析QC，自动检查QC报告，自动上传QC报告。如没有问题，自动进行后续分析；若QC有问题，任务断掉，发送邮件通知信息负责人。

释放数据

qsub -V -cwd -l vf=1g,p=1 release.sh

该步分析结束后，数据自动整理并上传至OSS，上传成功need_move_data_to_oss_again文件大小为0，如果上传失败could_rm_linux_data文件大小为0，数据上传成功后会将可以删除整个项目路径的脚本生成至/NJPROJ2/RNA/share/ref_med_del/，在该路径下找到自己的项目，投递删除。

注意事项

1 项目启动根据项目具体情况选择启动方法，遇到问题请及时找流程负责人

2 遇到脚本报错，先看报错文件，自己尝试解决，还未解决，再找流程负责人

3 当填spike参数时，需在参考基因组目录下新建ERCC目录，将ERCC序列及注释文件和参考基因组及注释文件合并，具体参考人的基因组Homo_sapiens_Ensemble_90

4 当align参数选用STAR时，需在参考基因组目录下新建STAR_150目录，新建参考基因组的STAR索引，具体参考人的基因组Homo_sapiens_Ensemble_90

5 新转录本预测，通过stringtie软件组装，用gffcompare进行注释，提取class code为基因间区的新转录本，提取最长转录本作为基因序列，对其进行interproscan注释（pfam和superfamily数据库）

项目执行遇到问题，可以查看下面的wiki是否有解决方法，如没有建议你在解决后将报错及解决方法更新至该wiki，方便他人遇到同样问题时可以快速的解决：http://172.25.35.18/novotredia/doku.php?id=%E4%BA%A7%E5%93%81:%E6%96%87%E6%A1%A3_%E6%96%B0rna-seq%E9%A1%B9%E7%9B%AE%E6%89%A7%E8%A1%8C%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98%E5%8F%8A%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88

售后

用户工具

站点工具

目录