====== gb_trans_v1.0原核手动流程 ======

===== 流程路径 =====

目前原核项目下机数据在南京，启动大部分在南京集群,分析过程中所用脚本均在流程路径下，下方所有说明均已南京集群为例，天津集群执行方法类比。

<code bash>
南京：/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual
天津：/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok

pipeline名称：yuanhe_pipline
</code>

原核统一流程执行方法与有参，无参等统一流程执行方法相似，皆是通过解析信息搜集表后生成配置文件project.txt,刷新pipeline，投递sjm即可。
脚本路径在项目执行路径的log目录里，即：workdir/log.

===== 注意事项 =====

<code bash>
海外同事在手动进行原核分析时，需要source环境变量：

/NJPROJ3/GB/GB_TR/USER/andong/bash_profile

</code>

===== lims系统中爬取信息搜集表并解析 =====

由于国内和海外项目信息搜集表差异，所以对应2个解析脚本：
<code bash>
国内：
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003

/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003

海外：
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000

/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw --name andong --pw Andong2212 --pjcode X101SC21080555-Z01-J003 --category 3000

若不需要重新从lims上爬表，利用本地下机数据和信息搜集表生成project.txt:
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_bendi
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/getlims/get_lims_info_hw_bendi

/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_bendi
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/getlims/get_lims_info_hw_bendi

</code>
===== 配置文件project.txt说明 =====

<code bash>

[project]

#项目编号
project_number=X101SC21040319-Z01-J001

#项目名称
project_name=放射所6例毛螺菌转录组测序分析技术服务（委托）合同

#合同编号
project_contract=H101SC21040319

#项目分期
project_stage=1

#RNA组编号
project_RNA=16

#项目运营
project_yunying=Jiali Guo 郭佳丽

#项目信息
project_xinxi=Dong An 安冬

#数据来源 novogene/other,为other时与参数project_fqpath对应，路径中对应样本名称与信息搜集表中的样本名称一致
project_source=novogene

#category流程,利润中心编号:1000,1100,1200,2001,3000

category=2001

#是否cutdata,可选择yes or no

cutdata=yes

#数据量(G)
data_size=2

#是否需要释放clean,可选择Y or N,若为N，执行release脚本后删除clean，若为Y，将clean移动到释放目录
need_clean=Y

#文库类型 0/1/2 其中0为非链特异建库，1为dUTP链特异性建库，也叫fr-firstrand
project_libtype=reverse

#测序类型, single/paired
project_readtype=paired

#测序长度
project_readlength=150

#最终保留长度
project_keeplength=150

#文库号,以英文逗号隔开
project_library=BRRP210002643-1A,BRRP210002644-1A,BRRP210003810-1A,BRRP210002646-1A

#文库路径，以英文逗号隔开,和文库号顺序相一致，同一文库号的路径以冒号隔开
project_libpath=/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210922_A00159_0891_BHJWJ5DSX2-new,/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210821_A00159_0869_BH3WWKDSX2-new:/NJPROJ2/XJ/Data_production/department_data_Nova/2001/210824_A00204_0747_AH5Y3CDSX2-new

#fastq所在路径，单端后缀为fq.gz，双端后缀为_1.fq.gz和_2.fq,gz，如已有文库号和文库号路径，忽略该参数，一般纯分析项目使用
project_fqpath=

#样本名称，以英文逗号隔开，和文库号顺序相一致
project_sample=SFM_2,SFM_3,AS168_2,AS168_3

#样本按照不同的实验处理分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开
project_s2g=SFM_2:SFM_3,AS168_2:AS168_3

#组名,以英文逗号隔开，和分组信息相对应
project_group=SFM,AS168

#比较组合，处理组vs对照组，不同比较组合用英文逗号隔开，如AvsB，其中A和B为组名
project_compare=SFMvsAS168

#每个比较组合的差异分析模型，normal常规模型 pair肿瘤配对模型 multi多组比较模型，以英文逗号隔开，若所有比较组合采用相同模型，填一个即可
project_design=normal

#project_s2b,样本按照批次进行分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开，仅用于pair肿瘤配对模型/batch模型
project_s2b=

#韦恩组合，不同比较组以英文冒号隔开，不同维恩组合以英文逗号隔开
project_venn=

#样本共表达venn,同一venn图中的样品或者组以vs隔开，不同共>表达venn图以英文逗号隔开。如果不画共表达venn图，等号后面不填
project_covenn=SFMvsAS168,SFM_2vsSFM_3

#聚类组合，不同比较组以英文冒号隔开，不同聚类组合以英文逗号隔开，所有比较组合以英文冒号连接
project_cluster=SFMvsAS168

#需要排除的分析内容，以英文逗号隔开，1:QC/2:Assemble/3:Quant/4:Diff/5:Enrich/6:Structure/7:SNP/8:WGCNA（原核DGE排除2,6,7；标准原核填写0）
project_exclude=0,8

#java版GSEA分析,yes/no
gsea_java=yes

#基因组版本,如人Homo_sapiens_Ensemble_90，小鼠Mus_musculus_Ensemble_90
genome_version=X101SC21010077-Z01-J014

#物种的拉丁名，写准备参考基因组时的--latin里的值
latin=haloferax_mediterranei

#基因组染色体名称,跟fa第一行名字保持一致,如NC_999999999.1
chrome_name=NC_999999999.1

#Rockhopper生成的transcript.txt的名字,和fa文件的名字一致,如NC_999999999
Rockhopper_name=NC_999999999

#kegg物种缩写，如人hsa 小鼠mmu
kegg_abbr=hme

#ppi物种编号，如人9606 小鼠10090
ppi_taxon=523841

#是否添加内参，目前仅支持ERCC
spike=

#物种基因组大小，normal/large，小麦等基因组较大的物种填写large，用于建bam文件index
genome_size=normal

#分析水平 gene/transcript,默认为gene
level=gene

#碱基编码值，取决于测序平台，illumina测序平台都为33,默认为33
baseq=33

#核糖体RNA过滤软件，默认为bowtie2
rRNA=bowtie2

#接头和低质量reads过滤软件，ngqc/trimmomatic/fastp,默认为fastp
trim=fastp

#比对软件，默认为hisat2，可选STAR
align=bowtie2

#组装软件，默认为Rockhopper
assemble=Rockhopper

#定量软件，HTSeq/featureCounts/stringtie,默认为HTSeq
quant=featureCounts

#差异分析软件，DESeq/DESeq2/edgeR/ballgown,默认为DESeq2
diff=DESeq2

#基因显著差异筛选阈值，pvalue或padj值，默认采用padj值0.05
padj=0.05

#基因显著差异fold change阈值
fc=1

#是否自动调参 true|false 仅在padj下有效
adjust=true

#调参后的p值
adjust_p=0.05

#调参后的fc值
adjust_fc=1

#富集方法,normal/GSEA,默认为normal(超几何分布模型)
enrich_method=normal

#snp calling软件，默认为GATK
snp=GATK

#文库删除脚本存放路径
libdel=/NJPROJ3/GB/GB_TR/WORK/del_Nova

#配置文件
configure=/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/config/configure.txt

</code>

===== pipeline =====

<code bash>

/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/yuanhe_pipline
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/yuanhe_pipline

</code>
===== 运行 =====

<code bash>
sjm log/QC.job
sjm log/Analysis.job
sjm log/QC_Analysis.job

</code>

===== result_check =====

<code bash>

主分析运行完之后，会生成result和report，流程中包含result_check脚本，会对生成的结果进行check，check结果会发送邮件：
若check successed会直接进行释放目录整理；
若check failed，邮件中会包含failed原因，进而手动check和解决。

</code>
===== 上传报告及释放数据 =====

<code bash>

sh upload_release_lims.sh

</code>