国内海外WTS手动流程项目执行文档

环境变量

1.账号配置

由于要使用新系统lims，报告的自动上传lims系统需要大家先配置账号信息，方法如下：

天津：

source /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/activate
/TJPROJ1/JF/lims/GN/lims_report_upload_gn/Lims_report_uploader init

项目启动方法

lims系统信息搜集表爬取

为提高项目执行人员的效率，减少人工时间，从lims中实现信息搜集表的自动爬取，并自动生成配置文件project.txt，快速启动项目。

脚本

导入环境：
export PYTHONPATH=""
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH

国内爬表脚本：
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts.py
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts_bendi.py

海外爬表脚本：
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts_hw.py
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts_hw_bendi.py

脚本使用方法

/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts.py
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts_hw.py
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts_bendi.py
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/bin/pabiao_lims/get_lims_info_wts_hw_bendi.py

必填参数：
-j {分期号}

选填参数：
-n {lims用户名}
–p {lims密码}
-t {分期结尾数字}
-a {分析类型}    [WTS/ce/WTS+ce]
-l {lncRNA结果文件夹}
-c {circRNA结果文件夹}
-s {smallRNA结果文件夹}
-e {物种类别}    [animal/plant]
-g {参考基因组版本}  
-k {KEGG物种缩写}
-o {靶向软件}
-la {物种拉丁名}
-co {ceRNA相关性分析阈值}

脚本注意事项

1. WTS国内信息搜集表与海外信息搜集表格式差距较大，需要针对性的使用对应的爬表脚本。

2. 国内爬本地脚本需要在当前目录下存在wts_final_xinxi_table.xls、lnc_final_xinxi_table.xls、circ_final_xinxi_table.xls（含circRNA关联分析）、small_final_xinxi_table.xls等文件。
海外爬本地脚本需要在当前目录下存在wts_final_xinxi_table.xls文件。

3. 输入参数如缺少 n {lims用户名}、p {lims密码} 参数，则会从~/.lims_report_upload_gn_config 或 ~/.lims_report_upload_hw_config中获取。

4. 建议填写l {lncRNA结果文件夹}、c {circRNA结果文件夹}（含circRNA关联分析）、s {smallRNA结果文件夹}参数。
如填写以上参数，会从结果文件夹的差异分析文件夹中查找是否存在各比较组的差异分析结果。如未填写，则跳过此check。

配置文件project.txt

参考文件/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/project.txt

[project]

#项目编号
project_number=XXXX-TEST-Z01

#项目名称
project_name=Hong Kong-UM-Tianhong-4RNA-extraction-6G-WOBI-AMEA2022110311

#合同编号
project_contract=HXXXX

#项目分期
project_stage=1

#RNA组编号
project_RNA=16

#项目运营
project_yunying=Kaiwen Deng 邓凯文

#项目运营经理邮箱
yunying_email=dengkaiwen8572@novogene.com

#项目信息
project_xinxi=Kaiwen Deng 邓凯文

#项目信息负责人邮箱
xinxi_email=dengkaiwen8572@novogene.com

#项目销售
project_xiaoshou=Kaiwen Deng 邓凯文

#项目销售邮箱
xiaoshou_email=dengkaiwen8572@novogene.com

#项目类型
project_type=wts

#产品来源 gn/hw
product_source=gn

#样本名称，以英文逗号隔开
project_sample=NO_1,NO_2,NO_3,AO_1,AO_2,AO_3

#样本按照不同的实验处理分组，组间以英文逗号隔开，同一组的样本以英文冒号隔开
project_s2g=NO_1,NO_2,NO_3,AO_1,AO_2,AO_3

#组名,以英文逗号隔开，和分组信息相对应
project_group=NO_1,NO_2,NO_3,AO_1,AO_2,AO_3

#比较组合，处理组vs对照组，不同比较组合用英文逗号隔开，如AvsB，其中A和B为组名
project_compare=AO_1vsNO_1,AO_2vsNO_2,AO_3vsNO_3

#分析类型 WTS,ce,WTS+ce
analysis_type=WTS+ce

#需要排除的分析内容，以英文逗号隔开
#(WTS分析) 1:miRNA-mRNA, 2:lncRNA-mRNA, 3:lncRNA-miRNA, 4:lncRNA-miRNA-mRNA, 5:circRNA-mRNA, 6:circRNA-miRNA, 7:circRNA-miRNA-mRNA
#(ceRNA分析,仅限国内) 8:miRNA-lncRNA, 9:miRNA-mRNA, 10:miRNA-circRNA, 11:lncRNA-miRNA-mRNA, 12:circRNA-miRNA-mRNA
#包含circRNA的关联分析(国内:不填  海外:8,9,10,11,12)  不含circRNA的关联分析(国内:5,6,7,10,12  海外:5,6,7,8,9,10,11,12)
project_exclude=

#lnc项目目录
lnc_dir=/TJPROJ11/GB_TR/PJ_GB/ncRNA/WTS/2011/zhaomingming/X101SC23062878-Z01-F002.Gallus_gallus.20230801/lnc/Result_X101SC23062878-Z01-J003_Gallus_gallus_chicken

#circ项目目录
circ_dir=/TJPROJ11/GB_TR/PJ_GB/ncRNA/WTS/2011/zhaomingming/X101SC23062878-Z01-F002.Gallus_gallus.20230801/lnc/Result_X101SC23062878-Z01-J003_Gallus_gallus_chicken

#small项目目录
small_dir=/TJPROJ11/GB_TR/PJ_GB/ncRNA/WTS/2011/zhaomingming/X101SC23062878-Z01-F002.Gallus_gallus.20230801/sRNA/Result_X101SC23062878-Z01-J004_Gallus_gallus_chicken

#lnc项目分期号
lnc_stage=X101SC23062878-Z01-J003

#circ项目分期号
circ_stage=X101SC23062878-Z01-J003

#small项目分期号
small_stage=X101SC23062878-Z01-J004

#物种分类信息animal/plant
project_specie=animal

#基因组版本,如人Homo_sapiens_Ensemble_94，小鼠Mus_musculus_Ensemble_94
genome_version=ncbi_gallus_gallus_gcf_016699485_2_bgalgal1_mat_broiler_grcg7b

#基因组路径，层级下包含Sequence和Annotation
genome_path=/TJPROJ13/GB_TR/PJ_AI/AI_genome/animal/ncbi_gallus_gallus_gcf_016699485_2_bgalgal1_mat_broiler_grcg7b

#物种的拉丁名
latin=Gallus_gallus_domesticus

#kegg物种缩写，如人hsa 小鼠mmu
kegg_abbr=gga

#靶向预测软件miranda,psRobot,TargetFinder。动物默认使用miranda，植物默认使用TargetFinder
target_use=miranda

#是否推送pom，默认yes
push_pom=yes

#pom推送正式库还是测试库formal/test，默认formal
pom_database=formal

#up_down类型,不同类型间用英文逗号隔开,默认up:down:up,down:up:down
up_down=up:down:up,down:up:down

#lncRNA(mRNA)、circRNA、smallRNA差异筛选指标，pvalue或padj值，用英文逗号隔开，默认使用padj值
p_type=padj,padj,padj

#lncRNA(mRNA)、circRNA、smallRNA基因显著差异筛选阈值，pvalue或padj值，用英文逗号隔开，默认采用padj值0.05
p_value=0.05,0.05,0.05

#lncRNA(mRNA)、circRNA、smallRNA基因显著差异fold change阈值，用英文逗号隔开，默认值为2
fc=2,2,2

#富集图像差异筛选指标结果展示，pvalue或padj值，默认使用padj值
p_type_enrich=padj

#ceRNA相关性分析阈值，默认为0.85
cor_value=0.85

#流程部署位置，默认为TJ
local=TJ

#利润中心，默认从lims信息中抓取
ProfitCode=2011

#配置文件
configure=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/configure.txt

手动运行命令

/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_trans_wts_pipline/auto_pipline

运行上述命令后，在项目路径下，会有log文件夹生成，进入log目录，执行下面命令

Analysis

sjm Analysis.job

执行该命令将进行分析步骤，最终生成Result、Report以及data_release等目录。

注意事项

1. WTS分析包含：miRNA-mRNA、lncRNA-mRNA、lncRNA-miRNA、lncRNA-miRNA-mRNA、circRNA-mRNA、circRNA-miRNA与circRNA-miRNA-mRNA等关联分析内容。
ceRNA分析包含：miRNA-mRNA、miRNA-lncRNA、miRNA-circRNA、lncRNA-miRNA-mRNA与circRNA-miRNA-mRNA等关联分析内容。
ceRNA分析仅国内项目交付。

2. 项目类型project_type,无论是国内(WTS+ceRNA)还是海外(WTS)均填写wts。

3. 样本名称、样本分组、组名需要严格对应，且需要保证lncRNA、circRNA、smallRNA的分析结果中包含这些比较组合的结果。

4. lnc项目目录、circ项目目录、small项目目录需要填入Result目录，即lncRNA目录下包含5.Differential、circRNA目录下包含10.CircRNA、smallRNA目录下包含12.DiffExprAnalysis。

5. 基因组版本与基因组路径的最后一级目录应保持一致。基因组路径目录下应包含Annotation和Sequence文件夹。

6. 靶向预测软件包含miranda,psRobot,TargetFinder，动物建议使用miranda软件，植物建议使用TargetFinder软件。

7. p_type、p_value、fc用于统一lncRNA、circRNA、smallRNA调参结果。各包含三个值，以英文逗号分隔，分别代表lncRNA(mRNA)、circRNA、smallRNA，默认值为padj、0.05、2。不进行circRNA关联分析时，circRNA对应位置填写默认值即可。

8. lncRNA结果文件夹的SupFile文件夹下应存在go.xls与kegg.xls文件，以确保GO富集、KEGG富集能正常执行。

9. project.txt中物种拉丁名不能有特殊符号及空白符。特殊符号与空白符可用下划线代替。

流程思维导图

WTS思维导图： wts思维导图.png

流程更新

全转录组关联分析 v2.7

lncRNA+circRNA+mRNA+miRNA

/TJPROJ6/RNA_SH/script_dir/WTS_CE_asso/asso_v.2.7/WTS2_vs_ce_2.7.py

/TJPROJ6/RNA_SH/script_dir/WTS_CE_asso/asso_v.2.7/src

使用范围

 适用于新版本lncRNA+circRNA流程、sRNA流程。

输入全转录组结果文件解压后的路径，生成脚本启动分析

step1:
python /TJPROJ6/RNA_SH/script_dir/WTS_CE_asso/asso_v.2.7/WTS2_vs_ce_2.7.py \
      --lnc_dir  lncRNA或lncRNA+circRNA 结果文件路径【必填】 \
      --miRNA_dir sRNA 结果文件路径【必填】 \
 
示例：
python /TJPROJ1/RNA_R/pipline/ce_wts/pipeline2.4/WTS2_vs_ce_2.5.py \
	--lnc_dir /TJPROJ6/NC_BG_SH/shouhou/202303/X101SC22110562_asso/raw/l \
	--miRNA_dir /TJPROJ6/NC_BG_SH/shouhou/202303/X101SC22110562_asso/raw/s \
 
重要： 
1）--lnc_dir 参数填写到Result* 上一级目录，并在同级目录存放 project.txt 文件；
2）--miRNA_dir 填写至Result* 上级目录。
3) 从oss下载的或释放目录cp的结果文件，解压后将Result*文件夹分别 mv 到 raw/l，raw/s 下。
4）oss下载时，可同时从lncRNA目录中下载record.tar.gz文件，方便填写project.txt
 
step2:
sh asso.sh 生成分析脚本后，nohup sh ce_wts_analysis.sh &  投递关联分析脚本。
 
step3:
检查分析路径下result文件中，wts和ce结果文件是否缺失。
sh report.sh 生成报告。

参数说明

    --lnc_dir         lncRNA项目执行路径                 必填（项目路径下必须存在project.txt文件，文件名：run.sh）
    --circ_dir        circRNA项目执行路径                选填（lnc_dir目录下存在circ的结果文件时可不填，否则必填）
    --miRNA_dir       miRNA项目执行路径                  必填
    --setting          选择所做项目类型(all , ce, wts)      选填（默认为all）
    --miRNA_compare   miRNA各个比较组合文件夹名称         选填（组合以'vs'连接用','分割。eg：AvsB,BvsC）
    --mRNA_compare    mRNA各个比较组合文件夹名称          选填（同miRNA_compare）
    --circ_compare    circRNA各个比较组合文件夹名称       选填（同miRNA_compare）
    --circ_sample     circ的样本名 和 mRNA_sample、 miRNA_sample 一致（样本名用','分割。eg：A1,A2,A3,B1,B2,B3）
    --mRNA_sample     mRNA的样本名,和circ_sample 、 miRNA_sample 一致（同circ_sample）
    --miRNA_sample    miRNA的样本名,和circ_sample 、 mRNA_sample 一致（同circ_sample）
    --lnc_adj         默认不填写按照标准分析结果中的差异结果进行关联分析，如果需要调整lncRNA差异参数可以填写该参数，例如：p:0.05,logfc:2 表示按照p<0.05,|log2FC| >2来筛选差异基因，注意不是FC>2，p表示pval。
    --circ_adj        同lnc_adj
    --srna_adj        同srna_adj
    --lnc_value       默认不填写，流程会自己读取该参数。
    --updown          上下调关系 ，默认不填写按照up:down:up,down:up:down 分析。
    --cor_value        筛选的ceRNA相关性系数              ce需填（默认：0.85）
 
注意：
1.如果需要调整差异分析的参数，可以填写–-lnc_adj，–-circ_adj或–-srna_adj 参数，会在结果文件目录中备份差异分析结果文件，然后根据总差异分析表格重新生成上下调差异分析结果。
2.--miRNA_compare，--mRNA_compare，--circ_compare，--circ_sample，--mRNA_sample，--miRNA_sample
这个几个参数在老师需要选择项目中某几个比较组合或者某几个样本是使用。
 
wts,all：
如果lncRNA项目比较组合名称与sRNA项目比较组合名称不一致时，需要在asso.sh中填写mRNA,lncRNA,circRNA,miRNA compare，填写相同比较组合且顺序一致。
 
ce：
1.筛选的ceRNA相关性系数（cor_value）默认是按照负相关筛选，如果老师希望以正相关或both筛选，以miRNA_mRNA为例，需要修改ce/miRNA_mRNA/run_miRNA_mRNA.sh脚本中的--relation 为positive或both。
2.如果lncRNA中样品名称与sRNA中样品名称不一致时，需要填写asso.sh中的mRNA,circRNA,miRNA sample，并按照对应关系顺序填写。

lncRNA+mRNA+miRNA(不含circ的关联分析)

/TJPROJ6/NC_BG_SH/personal_dir/lihang/asso/asso_v.2.7/WTS2_vs_ce_2.7.nocirc.py

适用范围、使用方法，与包含circ的关联分析一致。只是再填写参数时忽略与circ相关的参数

全转录组关联分析介绍

whole-transcriptome_sequencing_identifies.pdf

https://www.cell.com/molecular-therapy-family/nucleic-acids/fulltext/S2162-2531(20)30186-4?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS2162253120301864%3Fshowall%3Dtrue

/TJPROJ6/NC_BG_SH/personal_dir/lihang/asso/asso_v.2.7/全转录组关联分析_ppt.pdf

售后

用户工具

站点工具

目录