====== WGS流程执行文档 ====== ===== 一、审核信息收集表 ===== ==== 1.WGS标准分析BIF审核 ==== 1.1 审核合同编号、分期编号、合同名称、分析类型、cleandata、数据量、分析软件 \\ 国内: {{:products_pag:pipelines:gnbif1.png?680}} 海外: {{:products_pag:pipelines:hwbif1.png?680}} 注意国内的BIF**添加隐藏的内部识别缩写**: {{:products_pag:pipelines:gnbif5.png?700}} G是GATK 的缩写,表示要使用GATK软件进行分析 S 是sentieon 的缩写,表示要使用sentieon软件进行分析 Q_F 是质控拼接(flash软件)缩写,目前一直有样品送样 PC, 意思是pcr-free 类型 O 表示 其它个性化分析,详细内容可以在 “3. 其他要求”,进行填写 1.2 审核样品名称命名是否规范 \\ 命名要求:请采用字母、数字和下划线 (即_) 表示(不能有空格和—符号),长度控制在8(海外)/15(国内)个字符以内,不能以数字开头,不要使用系统预留的设备名,例如CON、PRN、AUX、CLOCKS、NUL、COM1、COM2、COM3、LPT1等作为样本名或组名。 1.3 审核NovoID是否唯一,物种名是否正确 \\ {{:products_pag:pipelines:gnbif2.png?700}} {{:products_pag:pipelines:hwbif2.png?700}} 1.4 审核确认参考基因组 \\ {{:products_pag:pipelines:gnbif3.png?700}} {{:products_pag:pipelines:hwbif3.png?700}} 参考基因组填写规范: \\ 第1列是物种拉丁名,必须填写(注意:信息搜集表中不能有公式,物种拉丁名必须填写文字); \\ 第2列是参考基因组ID,是内部的参考基因组自动化数据库的Genome ID,可以在信息收集表 提供的列表index.html网址中依据物种拉丁名查找; \\ 如果正确填写了第1、2列,则第3、4列不要填写; \\ 如果是客户自己给的链接,需要填写第1、3、4列,物种拉丁名、FASTA Download Link*、GFF3 / GFF / GTF Download Link*,最好是到文件;如果是没有到文件的网址,也要填写到FASTA Download Link*、GFF3 / GFF / GTF Download Link*对应的单元格 \\ 审核点: <1>填写自动化数据库列表的Genome ID,查找到集群路径,检查准备好的文件,可以直接使用; <2>如果Genome ID没有填写,直接填写的网址链接,需要确认是否链接到文件,是否可以正常下载; 如果是网址链接:先到自动化数据库里面进行查找,如果没有,再到部门准备的参考基因组石墨链接里面进行查找; 如果都没有,可以写邮件申请进行准备; 可能会遇到没有填写或者填写不规范的,这种情况需要和运营进行沟通。 参考基因组数据库中,小鼠和人的参考基因组提供的是94的版本,如果老师要使用其它版本,辛苦让老师提供到文件的参考文件链接。 1.5 审核个性化分析是否有内容 \\ {{:products_pag:pipelines:gnbif4.png?700}} {{:products_pag:pipelines:hwbif4.png?700}} 有些客户会将个性化分析或者特殊要求填在这里,研究背景和目的也注意检查是否有备注个性化相关信息。 1.6 其它注意事项:\\ (1)、国内混库项目 需填写index列 \\ (2)、T7平台项目 测序策略请填写 T7-PE150 \\ (3)、国内混库是指:多个样品,多个诺禾编号,建立一个文库,数据下机也是一个文库,对应一个图表名称的情况。 \\ 混库填写规则: \\ 1、样品名称填写:把要混为一个库的多样品名称,使用英文输入法的逗号分隔,依次填写到同一个单元格,例如: {{:products_pag:pipelines:gnbif6.png?100|}} \\ 2,诺禾编号填写:把要混为一个库的多样品对应的诺禾编号,使用英文输入法的逗号分隔,依次填写到同一个单元格,例如: {{:products_pag:pipelines:gnbif7.png?200|}} \\ 注意:样品名称要和下机单里面的样品名称顺序一致,诺禾编号的顺序要和样品名称的顺序一致。 \\ 3、其它列正常填写就好。 \\ ==== 2.BSA标准分析BIF审核 ==== 基本审核标准同上,此外,需检查以下几点:\\ \\ 2.1 表1中亲子代关系与表型对应。要求:将与父本p1表型性状一致的子代池定为子代池s1;将与母本p2表型性状一致的子代池定为子代池s2。当类型为:1亲本+2子代,亲本须对应表1 第6列 p1;若类型为:2亲本+1子代 或者 1亲本+1子代,子代须对应表1 第6列 s2。 \\ {{:products_pag:pipelines:bsa_表1.png?600|}} \\ \\ 2.2 表3中 子代混池个数(2个子代混池个数取均值)与子代群体类型(杂合选F2,纯合选RIL) 为必填项。\\ {{:products_pag:pipelines:bsa_表3.png?600|}} \\ ---- =====二、项目执行流程===== ====流程说明==== ===主脚本路径:=== 天津集群:/TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline.py \\ 美国集群:/PUBLIC/source/HW/RESEQ/GB_WGS_pipe/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline.py \\ 英国集群:/PUBLIC/source/RESEQ/WGS/GB_WGS_pipe/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline.py \\ 新加坡集群:/PUBLIC/source/HW/RESEQ/GB_PAG/WGS_manual/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline.py \\ 南京集群:/NJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline.py \\ ===高级分析流程:=== 天津集群:/TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline_v2.0.py \\ 美国集群:/PUBLIC/source/HW/RESEQ/GB_WGS_pipe/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline_v2.0.py \\ 英国集群:/PUBLIC/source/RESEQ/WGS/GB_WGS_pipe/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline_v2.0.py \\ 新加坡集群:/PUBLIC/source/HW/RESEQ/GB_PAG/WGS_manual/gbwgs_pipline_v2/pipline/WGS_reseq_pipeline_v2.0.py ===环境变量路径:=== 天津集群:/TJPROJ5/GB_PAG/USER/yanyoudong/pipline/bashprofile/gbwgs.bash_profile \\ 美国集群:/RLNAS02/GB/GB_PAG/USER/yanyoudong/pipline/bashprofile/gbwgs.bash_profile \\ 英国集群:/UKPROJ4/GB/GB_PAG/USER/yanyoudong/bashprofile/gbwgs.bash_profile \\ 南京集群:/NJPROJ2/GB/GB_PAG/USER/yanyoudong/bashprofile/NJ.bash_profile \\ 新加坡集群:/PUBLIC/source/HW/RESEQ/GB_PAG/WGS_manual/yanshuang_profile \\ ===主要参数:=== ^ 主要参数 ^ 值类型 ^ 参数说明【default】 ^ 是否必须 ^ | --project | [string] | 合同名与分期名,在报告生成及脚本生成过程中需要,要求填写规则:合同号_分期号 | Y | | --pwd | [dir] | 项目分析路径,默认为当前路径 | N | | --samp_list | [file] | 需要分析的样本信息 | Y | | --ref | [file] | 参考基因组文件 | Y | | --refURL | [string] | 参考基因组下载路径,用于在报告中体现 | N | | --speci | [string] | 样本的物种名称 | Y | | --gff | [file] | 参考基因组描述的gff文件 | Y | | --bed | [file] | 用于GATK变异检测的bed区间 | N | | --merge | [logic] | 是否对同一样本不同lane的raw data进行合并,默认为N(不合并直接分lane交付) | N | | --cutfq | [logic] | 是否对raw data 进行截数据,默认不截 | N | | --analy_array | [string] | 指明分析内容,默认为1,2.1,进行QC 和mapping (详细见下面模块规划列表) | N | | --startpoint | [string] | 指定开始分析的位置,默认为None (一般有ln,bwa_mem,finalbam 选择) | N | | --sched | [string] | 流程使用的qsub参数,默认为用户可用队列 | N | | --karyotype | [file] | Circos图所需要的染色体说明文件。当-circos 参数为N时,可以不填写 | N | | --circos | [logic] | 是否绘制Circos图 | N | | --snpcompare | [string] | 确认是否进行SNP genotyping,Y1为基于samtools call后进行genotyping,Y2为基于GATK joint calling 后进行genotyping | N | | --newjob | [string] | 生成的job 文件名,默认为year.month.day.job | N | | --PCRFree | [logic] | PCR-Free建库的样本需要指定为Y,使用对应的报告模板,默认为N | N | | --cleandata | [logic] | 是否释放clean data | N | | --autoconfig | [logic] | 是否自动配置sample_list | Y | | --lenPart | [int] | samtools群call染色体拆分份数,如不需要拆分 指定为1即可,数目不得超过染色体数目 | N | | --splitlength | [int] | GATK群call拆分的长度,低于最长染色体长度时会拆分染色体,尽量选择大于最长的染色体长度,非必须参数,如不需拆分不指定即可。长度不得小于最长染色体长度。 | N | | --containingN | [int] | 用指定去N时的含N阈值 | N | | --maxN | [int] | 用于指定去N时含N峰值的阈值 | N | | --T7 | [logic] | 是否T7测序,默认为N,T7项目注意配置为Y | N | | --compare_group | [file] | somatic 分析样本对照关系,注意表头 #normal 在前,tumor在后 | N | | --byChr_num | [int] | somatic Indel 分析拆分数目,一般为主染色体的数目 | N | | --insertfa | [file] | call外源插入必填参数,插入序列 fasta文件路径 | N | | --gRNA | [file] | OffTarget分析的guide RNA序列 fasta文件路径 | N | | --param | [file] | 指定过滤VCF参数的文件路径,用于群体进化、GWAS等高级分析 | N | | --group | [file] | 样本和亚群的对应关系 group.txt文件路径,注意表头#sample在前,group在后,用于群体进化分析 | N | | --NT | [logic] | 是否进行NT比对,默认为Y(当配置--NT N时,QC无NT部分,适应周期短、大项目) | N | | --category | [string] | 物种大类,默认从animal,plant,viruses,fungi,bacteria五大类中选择,用于群体进化的功能注释分析 | N | | --dup | [string] | Mapping处理dup方法,可从rmdup和markdup中二选一,默认rmdup,若需选择markdup注意改用WGS_reseq_pipeline_v1.0_markdup.py | N | ===模块列表=== 根据分析顺序,赋予每个分析模块一个编号,简化参数列表,并定义每个分析模块之间的依赖关系,当依赖关系不满足时给出提示信息并退出程序:\\ ^ 代号 ^ 模块 ^ 说明 ^ 依赖于 ^ | 1 | quality_control | Rawdata 软链并质控 | 无 | | 2 | Mapping | Clean data 比对到参考基因组 | 1 | | 2.1 | mapping_bwa | 使用 bwa_mem 将 clean data 比对到参考基因组 | 1 | ^ 3 ^ snpindel_call ^ SNP/InDel 检测并注释 ^ 1,2.1 ^ | 3.1 | snpindel_call_samtools | 使用 samtools 检测 SNP/InDel 并注释(samtools 1.3.1) | 1,2.1 | | 3.2 | snpindel_call_GATK | 使用 GATK 检测 SNP/InDel 并注释 (GATK v4.0.5.1) | 1,2.1 | | 3.3 | snpindel_call_GATK_joint | 使用 GATK Joint Genotype 检测 SNP/InDel 并注释 | 1,2.1 | | 3.4 | snpindel_call_samtools_joint | 使用 samtools群call 检测 SNP/Indel 并注释 | 1,2.1 | ^ 4 ^ sv_call ^ SV 检测并注释 ^ 1,2.1 ^ | 4.1 | sv_call_breakdancer | 使用 breakdancer 检测 SV 并注释 | 1,2.1 | ^ 5 ^ cnv_call ^ CNV 检测并注释 ^ 1,2.1 ^ | 5.1 | cnv_call_cnvnator | 使用 CNVnator 检测 CNV 并注释 | 1,2.1 | | 5.2 | cnv_call_freec | 使用 freec 检测 CNV并注释 | 1,2.1 | ^ 6 ^ somaticsnpindel ^ somatic SNP Indel并注释(高级分析流程) ^ 1,2.1 ^ | 6.1 | somatic_snpindel_call_MuTect2 | 使用GATK mutect2检测somatic SNP Indel并注释(高级分析流程) | 1,2.1 | ^ 7 ^ somaticsv ^ somatic SV检测并注释(高级分析流程) ^ 1,2.1 ^ | 7.1 | somatic_sv_call_Delly | 使用delly 检测somatic SV并注释(高级分析流程) | 1,2.1 | ^ 8 ^ somaticcnv ^ somatic CNV检测并注释(高级分析流程) ^ 1,2.1 ^ | 8.1 | somatic_cnv_call_Freec | 使用freec 检测somatic CNV并注释(高级分析流程) | 1,2.1 | ^ 9 ^ call_insert ^ call外源插入(高级分析流程) ^ 1 ^ | 9.1 | call_insert_virusfinder | 使用Virusfinder检测外源插入(高级分析流程,需merge) | 1 | | 9.2 | call_insert_sv | 使用SV方法检测外源插入(高级分析流程) | 1,2.1,4.1 | | 9.3 | call_insert_bamreads | Virusfinder和SV方法均无结果时从bam中提取相关序列(高级分析流程) | 1,2.1 | | 9.4 | crisper_off_target | Crisper检测off-target(高级分析流程) | 1,2.1,6.1 | ^ 10 ^ BSA ^ BSA(高级分析流程) ^ 1,2.1,3.3 ^ | 10.1 | BSA_index | 基于GATK群call的BSA分析(高级分析流程) | 1,2.1,3.3 | ^ 11 ^ pop_structure ^ 群体进化的遗传结构分析(高级分析流程) ^ 1,2.1,3.3或3.4 ^ | 11.1 | nj_tree | 使用Treebest绘制NJ进化树(高级分析流程) | 1,2.1,3.3或3.4 | | 11.4 | gcta_pca | 使用GCTA分析PCA(高级分析流程) | 1,2.1,3.3或3.4 | | 11.6 | admixture_structure | 使用Admixture分析Structure(高级分析流程) | 1,2.1,3.3或3.4 | ^ 12 ^ selective ^ 群体进化的选择消除分析(高级分析流程) ^ 1,2.1,3.3或3.4,11 ^ | 12.1 | Fst | 使用vcftools计算Fst值(高级分析流程) | 1,2.1,3.3或3.4,11 | | 12.2 | PI | 使用vcftools计算π值(高级分析流程) | 1,2.1,3.3或3.4,11 | | 12.3 | TajimaD | 使用vcftools计算Tajima's D值(高级分析流程) | 1,2.1,3.3或3.4,11 | | 12.4 | Fst_PI | 结合Fst和π值结果的联合筛选(高级分析流程) | 1,2,3,11,12.1,12.2 | ^ 13 ^ linkage_disequilibrium ^ 群体进化的连锁不平衡分析(高级分析流程) ^ 1,2.1,3.3或3.4,11 ^ | 13.1 | LD_Haploview | 使用Haploview计算LD(高级分析流程) | 1,2.1,3.3或3.4,11 | | 13.2 | LD_PopLDdecay | 使用PopLDdecay计算LD(高级分析流程) | 1,2.1,3.3或3.4,11 | ^ 14 ^ gene_flow ^ 群体进化的基因流分析(高级分析流程) ^ 1,2.1,3.3或3.4,11 ^ | 14.1 | Treemix | 使用Treemix分析基因流(高级分析流程) | 1,2.1,3.3或3.4,11 | ^ 15 ^ gene_function ^ 群体进化的功能注释分析(高级分析流程) ^ 1,2.1,3.3或3.4,12.4 ^ | 15.1 | function_annotation | 基于选择消除的联合筛选结果进行GO和KEGG功能注释(高级分析流程) | 1,2.1,3.3或3.4,12.4 | 注意: 1、如果需要结果和报告,至少要有snpindel_call(模块3)中任意一个(3.1或3.2或3.3或3.4),没有snpindel_call(例如只有4.1的SV和5.1的CNV,没有3.1)是无法生成结题报告的; 如果snpindel_call(3)、sv_call(4)和cnv_call(5)都没有,只有高级分析模块的话,整理结果文件会报错。 2、call插入的9.1模块暂时停用,原因是Virusfinder软件目前有问题,call没有结果;如有call插入分析需求,优先选9.2,其次9.3 3、call插入的9.2和9.3模块已经包括 插入序列和参考基因组fa的合并及准备基因组 过程,无需手动合并基因组fa,配置--insertfa插入序列fasta文件路径即可 注意严格按照fasta格式配置插入序列文件,第一行">"后为插入序列名称(尽可能不要包含特殊字符如下划线或空格,仅由字母和数字组成为宜) 4、call插入的9.4模块是基于6.1的somatic_snpindel_call_MuTect2进行的,因此需要配置somatic必需的--compare_group和--gRNA参数,也就是需要确定WT对照样本和guide RNA sequence序列,详见上述“主要参数”部分。 5、BSA需要在Config目录下配置BSA_cfg文件,其内容示例如下: p1 p2 s1 s2 等号右边填写实际项目 报告中的样本名。有则填写,如只有1亲本1子代,则只写p2=parent2 s2=offspring2。 p1=parent1(亲本1)[p1报告中的样本名] p2=parent2(亲本2) s1=offspring1(子代池1,性状与亲本1一致) s2=offspring2(子代池2,性状与亲本2一致) num=33(子代混池的单株数均值) poptype=F2(子代群体类型,杂合选F2, 纯合写RIF) ===目录结构=== 通过选定分析模块对应的编号,流程会自动建立对应模块的分析路径。 ^ 路径 ^ 说明 ^ | Config | 存放sample_list project_info.txt 等文件 | | XJ | 存放下机数据的软链接,目录结构同下机目录 | | RawData | 存放每个样本 raw data 的软链接和脚本,子目录以 sampleID 命名 | | QC | 存放每个样本的质控结果(clean data 和质控图表文件)和相应脚本,子目录以 sampleID 命名。目录下包含NT目录,存放每个样本 clean data 的 blast 结果和相应脚本,子目录以 sampleID 命名 | | Reference | 存放参考基因组统计文件和 gff 文件生成的注释文件,karyotype.xls及相应脚本 | | Mapping | 存放每个样本的Mapping结果和相应脚本,子目录以 sampleID 命名。目录下包含Alnstat目录,存放每个样本 比对统计结果和相应脚本,子目录以 sampleID 命名 | | VarDetect | 存 放 每 个 样 本 的SNP、InDel,SV,CNV,变异统计结果。分别对应SnpInDel、SV、CNV、Varstat目录。变异结果目录下以样本名.软件命名。Varstat目录包含各变异类型的统计结果及统计结果的可视化。SnpInDel_somatic、SV_somatic、CNV_somatic包含Somatic分析结果。Varstat_somatic包含somatic分析结果的统计。Insert包含call外源插入分析结果。BSA包含BSA分析结果。 | | Report | 存放任务生成的报告和相应脚本。子目录以运行的任务名命名(job) | | Result | 存放结果文件的目录。 | | Release | 存放释放文件的目录。 | | log | 以对应 job 名存放流程执行的JOB文件及所有 job 的标准输出和标准错误输出,目录按照 job 名区分,设置为P101SC18113162-01-J005_Primary_20200609、P101SC18113162-01-J005_Mapping_20200609、P101SC18113162-01-J005_QC_20200609类似格式方便区分管理。 | | script | 冗余清理及备份上传脚本 | | record | 指标数据库内容的文件形式 | 注意:高级分析如OffTarget、群体进化、GWAS等,会另外建立AdvanceAnalysis分析路径,用于存放高级分析结果。 ====流程执行==== ===主脚本示例=== 1. 全基因组重测序基本分析 python WGS_reseq_pipeline.py \ --project C101SC18113162_P101SC18113162-01-J005 \ --samp_list ./Config/sample_list \ --ref /TJPROJ5/GB_PAG/reference_data/Animal/ncbi_Caenorhabditis_Elegans_WBcel235_GCF_000002985_6/Sequence/WholeGenomeFasta/genome.fa \ --refURL ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz \ --speci Caenorhabditis_Elegans \ --gff /TJPROJ5/GB_PAG/reference_data/Animal/ncbi_Caenorhabditis_Elegans_WBcel235_GCF_000002985_6/Annotation/Genes/genome.gff3 \ --merge N \ --cutfq N \ --circos Y \ --snpcompare N \ --autoconfig N \ --PCRFree N \ --cleandata N \ --analy_array 1,2.1,3.1,4.1,5.1 \ --karyotype ./Reference/karyotype.xls \ --newjob P101SC18113162-01-J005 此分析包括 QC,mapping,samtools SNP/InDel,breakdancer SV,CNVnator CNV。 本脚本参数需要根据不同区域项目具体情况进行调整:\\ 1. 主脚本路径修改为相应集群路径 \\ 2. 根据自己项目情况修改merge,cutfq,PCRFree等参数 \\ 2. --cleandata 需要设置为Y,不需要设置为N。 \\ 3. 若 --circos Y 则 --karyotype 必须指定配置文件 \\ 4. --newjob 根据项目情况指定job命名 ---- 2. 样本加测 \\ 对于需要加测的样本,需要重新构建 sample_list,该文件只含加测数据,流程会自动识别工作目录下的 qc_list 以判断样本是否为加测,所以加测时,注意保留上批样本的 qc_list。 python WGS_reseq_pipeline.py \ --project C101SC18113162_P101SC18113162-01-J005 \ --samp_list ./Config/sample_list_jiace \ --ref /TJPROJ5/GB_PAG/reference_data/Animal/ncbi_Caenorhabditis_Elegans_WBcel235_GCF_000002985_6/Sequence/WholeGenomeFasta/genome.fa \ --refURL ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/735/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz \ --speci Caenorhabditis_Elegans \ --gff /TJPROJ5/GB_PAG/reference_data/Animal/ncbi_Caenorhabditis_Elegans_WBcel235_GCF_000002985_6/Annotation/Genes/genome.gff3 \ --merge N \ --cutfq N \ --circos Y \ --snpcompare N \ --autoconfig N \ --PCRFree N \ --cleandata N \ --analy_array 1 \ --karyotype ./Reference/karyotype.xls \ --newjob P101SC18113162-01-J005 注 1:待加测数据量足够后,将上批数据的 sample_list 跟加测的 sample_list 合并成一个新的 sample_list,以 bwa_mem startpoint 进行后续分析。 \\ 注 2:生成报告和数据释放时,流程会自动识别 qc_list 中的样本信息进行报告生成和数据释放。如果遇到分批需要分批释放或者分批出报告的情况,则需要更改 qc_list 中的样本信息,再生成报告和数据释放结果。 ---- 3. 重测与重建库样本 \\ 对于重测与重建库样本,需要在将不要的数据手动在 sample_list 及 qc_list 中删除,之后按加测方法分析新数据即可。 ===流程操作=== 1. 配置sample_list \\ ^ #lane ^ sampleID ^ LibID ^ NovoID ^ Index ^ SeqStra ^ Path ^ Volume ^ PATHFLOWDATE ^ Analysis_type ^ Cleandata ^ Index ^ EQRUNID ^ Sequencing_Platform ^ Insertsize ^ ADDREMARK ^ EQTYPE ^ TESTNO ^ ADDTESTSTYPE ^ | 2 | VC1760_B3_5 | FDSW202139062-1r | FKDO202139062-1A | 7UDI2350;5UDI2350 | PE150 | /TJPROJ4/XJ/department_data-nova/2002/200601_A00920_0307_AH5C2TDSXY-new | 1 | 2020-06-04 11:29:29 | snpInDel+SV+CNV | NO | - | 200601_A00920_0307_AH5C2TDSXY | Illumina | 350bp | | S4 XP | Novaseq PE150 | | | 4 | VC1760_B3_8 | FDSW202139063-1r | FKDO202139063-1A | 7UDI2351;5UDI2351 | PE150 | /TJPROJ4/XJ/department_data-nova/2002/200602_A00881_0303_BH5CG7DSXY-new | 1 | 2020-06-05 10:23:08 | snpInDel+SV+CNV | NO | - | 200602_A00881_0303_BH5CG7DSXY | Illumina | 350bp | 加测 | S4 XP | Novaseq PE150 | | | 1 | VC1760_B5_7 | FDSW202139064-1r | FKDO202139064-1A | 7UDI2353;5UDI2353 | PE150 | /TJPROJ4/XJ/department_data-nova/2002/200604_A00821_0351_AH5GN7DSXY-new | 1 | 2020-06-07 10:11:36 | snpInDel+SV+CNV | NO | - | 200604_A00821_0351_AH5GN7DSXY | Illumina | 350bp | | S4 XP | Novaseq PE150 | | | 4 | VC1760_B5_7 | FDSW202139064-1r | FKDO202139064-1A | 7UDI2353;5UDI2353 | PE150 | /TJPROJ4/XJ/department_data-nova/2002/200602_A00881_0303_BH5CG7DSXY-new | 1 | 2020-06-05 10:23:08 | snpInDel+SV+CNV | NO | - | 200602_A00881_0303_BH5CG7DSXY | Illumina | 350bp | 加测 | S4 XP | Novaseq PE150 | | 注:如果第一行是 title,则需要以#号开头,每列的意思如下: \\ 第一列:样本在 FlowCell 上的 Lane 号(Ori_Lane);\\ 第二列:样本的编号(sampleID);\\ 第三列:样本的文库编号(LibID);\\ 第四列:样本的诺禾编号,一个样本有唯一诺禾编号(NovoID);\\ 第五列:构建文库所使用的 Index,与LIMS上QC Index编号一致(Index);\\ 第六列:样本的测序策略,如 PE150(SeqStra);\\ 第七列:样本分析需要使用的数据存储路径,一般是原始下机数据路径(Path); \\ 第八列:数据量(Volume); \\ 第九列:下机路径时间(PATHFLOWDATE); \\ 第十列:分析类型(Analysis_Type); \\ 第十一列:是否需要Cleandata(Cleandata); \\ 第十二列:混库项目需要填写正确的index序列,非混库 -(Index); \\ 第十三列:FC号(EQRUNID); \\ 第十四列:测序平台(Sequencing_Platform); \\ 第十五列:插入片段长度(Insertsize); \\ 第十六列:是否加测(ADDREMARK); \\ 第十七列:上机类型(EQTYPE); \\ 第十八列:测序策略(TESTNO); \\ 第十九列:ADDTESTSTYPE 记录用(ADDTESTSTYPE) \\ 自动配置:\\ --autoconfig Y。目前自动配置sample_list只支持LIMS下机路径在集群中都存在的分期,下机路径已删除的分期不能自动抓取下载datapath信息。自动配置逻辑:抓取下载BIF 生成project_info.txt、解析BIF、下载datapath信息、合并datapath及解析后的样本信息生成sample_list。配置karyotype.xls逻辑上不依赖于以上步骤。\\ 非自动配置:\\ 先将--autoconfig Y,运行主流程配置脚本,会在Config下生成配置sample_list project_info.txt 文件的脚本getsamplelist.sh。脚本第一行注释为半自动配置生成脚本的一个示例,若BIF自动下载有问题,则将--BIF 设置为 手动上传的BIF的位置,刷新脚本后重新执行配置脚本。\\ 若信息表的解析有问题,可以将样本新及样本信息的头信息行拷贝到纯文本文件中,后将--samples_information设置为该文件的位置,刷新该脚本,后重新执行该脚本。以下为--samples_information文件示例(\t分隔):\\ | #Analysis_Type | snpInDel+SV+CNV | | | | | | | | | #Cleandata | NO | | | | | | | | ^ #Sample Name ^ Novogene ID ^ Species Name ^ Description ^ Library Type ^ Sequencing Strategy ^ Data Output(G bases) ^ Sample Name in Report ^ Remarks ^ | ML01_gDNA | FKDN210367301-1A | Arabidopsis thaliana | | | NovaSeq 6000 PE150 | 4 | sco4_2_10_pale | | | ML02_gDNA | FKDN210367302-1A | Arabidopsis thaliana | | | NovaSeq 6000 PE150 | 4 | sco4_2_10_green | | | ML03_gDNA | FKDN210367303-1A | Arabidopsis thaliana | | | NovaSeq 6000 PE150 | 4 | sco4_2_6 | | 2. 配置karyotype文件 \\ --circos Y时候 会自动配置karyotype.xls文件,生成文件到Reference目录下。具体配置步骤位于Reference/statFa.sh中的Make Circos config步骤中,若参考基因组中存在较多的scaffold不需要生成Circos图,则可以通过Config_Circos.py -r 参数设置为 “.fai,24”,.fai文件后为”,” + 需要绘制Circos图的染色体个数。默认自动配置时,无该数目,若需要修改需要手动执行,如不设置 最多保留160个染色体绘制Circos图,防止组装较差参考基因组直接配置该文件。以下为karyotype.xls示例: \\ ^ #V1 ^ V2 ^ V3 ^ V4 ^ V5 ^ V6 ^ V7 ^ | chr | - | NC_003279.8 | NC_003279.8 | 0 | 15072434 | chr1 | | chr | - | NC_003280.10 | NC_003280.10 | 0 | 15279421 | chr2 | | chr | - | NC_003281.10 | NC_003281.10 | 0 | 13783801 | chr3 | | chr | - | NC_003282.8 | NC_003282.8 | 0 | 17493829 | chr4 | | chr | - | NC_003283.11 | NC_003283.11 | 0 | 20924180 | chr5 | | chr | - | NC_003284.9 | NC_003284.9 | 0 | 17718942 | chr6 | | chr | - | NC_001328.1 | NC_001328.1 | 0 | 13794 | chr7 | 第一列:chr 定义一个染色体。\\ 第二列:短线占位符通常用来定义所属关系,对于染色体来说,没有所属。\\ 第三列:ID 是染色体唯一且不能重复的标识。\\ 第四列:LABEL 是将来用于显示在图上的文本。\\ 第五第六列:START 和 END 值定义了染色体的大小。对于染色体组型文件,需要指明的是,这里的START 和 END 应该是染色体本身的大小,而不是你想绘制部分的起止位置。指定绘制部分将由其它文件来定义。\\ 第七列:COLOR 是预定义显示的颜色。对于人类基因组而言,circos 预设了与染色体相同的名字做为颜色名,比如 chr1, chr2, …, chrX, chrY, chrUn。\\ 3. 配置project_info.txt \\ 目前若无法自动配置的时候 不能通过半自动配置来生成,只能手动配置。以下为示例:(实验室、利润中心、合同号、分期号、分期名称、PC邮箱、BI邮箱、Double check邮箱、PC、BI、Double check、分期开始时间、分期结束时间)(1、美国实验室为:Davis实验室;利润中心为2002/2011时会默认为天津实验室,如为南京实验室需要手动修改): \\ ^ #ProductionBase ^ ProfitCode ^ CONTRACT_NUMBER ^ batchid ^ PJ_NAME ^ PC_EMAIL ^ BI_EMAIL ^ DOUBLE_EMAIL ^ PC ^ BI ^ DOUBLE_CHECK ^ SALES_MAN ^ SDATE ^ EDATE ^ PJ_NAME ^ | 天津实验室 | 1100 | H204SC21072744 | X204SC21072744-Z02-F002 | NVUK2021071425-DE-UniHamburg-Liebers-18-lncRNA-6G-WBI-5-plant WGS-4G-WBI | tianguangjing7425@novogene.com | yanyoudong@novogene.com | yangya6605@novogene.com | Guangjing Tian 田光晶 | Youdong Yan 闫有东 | Ya Yang 杨亚 | Movsisyan Naira | 2021-11-17 00:00:00 | 2021-12-25 00:00:00 | Plant and Animal Whole Genome Sequencing (WBI) | 若不需要该脚本配置或者已半自动配置完成,请将--autoconfig设置为N。\\ 4. sjm 投递 \\ 执行完run_WGS.sh后,会将sjm提交的job文件生成到log目录下。 \\ 任务会自动切分成 QC、Mapping、Mapping后的分析三部分,在log目录下依据所给出的newjob前缀 生成三部分对应的job。每一部分的任务完成后、依次执行下一部分的任务。\\ 可以sjm直接提交该文件,若流程意外中断需要重新提交可以sjm 最新的*.status,流程中断出可以从*log中查询。\\ \\ 如需人工指定流程提交的断点,通过--startpoint来指定,该参数 必须与主流程目录下的../Config/WGS_memory_config.py中的task名称相同。如出现run_WGS.sh后 job文件中所有任务状态被设置为done的问题,请先检查--startpoint 参数。(正常情况下--startpoint task前的任务会被设置成done。第一次执行QC的时候不要设置--startpoint ln,这个设置会跳过处理参考基因组的statFa步骤。)\\ 5. 意外跑断 \\ 意外跑断的话(包括盘满、集群问题引起跑断),找到最新的 job.status 或 job.status.bak文件,判断其中各任务状态是否正确,尤其是 running 状态,但是实际已经完成的任务。重新 sjm 投递 job.status。\\ 特别注意: \\ (1)在 sjm 之前,需要确定之前的 sjm 进程已经结束,如果尚未结束,需要 kill 掉之后再 sjm,以免出现任务重复投递的情况。确定 sjm 进程是否结束的方法是:在提交 sjm 任务的节点,使用 top –u yourname 或者使用 ps xf 查看 job 的进程是否存在。上一个 job 的进程可以从它的*.job.status.log 第一行看到,即 sjm process ID: XXXXX。 \\ (2)在 sjm 之前,需要确定之前的 sjm 是否存在已经 qsub 的任务,如果存在需要 qdel掉之后再 sjm。运行命令:sjm job.status 或:sjm job.status.bak 6. 指定从某一部分开始运行 \\ 对于需要指定分析起点的情况,提供了一个--startpoint 参数。刷新脚本,再执行新生成的 job 文件即可。数据下机之后一般先做 QC,如果继续 mapping 分析,将 startpoint 设置为 bwa_mem;mapping 完成后,继续分析,则需指定 startpoint 为 finalbam。\\ 7. 数据释放 \\ 当项目结题检查无问题后进行数据释放 \\ 项目数据释放目录为: \\ 国内:Release/Results_合同号_分期号_部门号_日期 \\ 海外:Release/分期号 \\ release_tree: \\ {{:products_pag:pipelines:hwrelease1.png}} \\ result_tree: \\ {{:products_pag:pipelines:pasted:20200617-115424.png}} \\ ====注意事项==== 1、标准交付目录追加个性化分析结果操作: a、在释放数据路径的上一级:建立05.Customized_Analysis , 命令mkdir 05.Customized_Analysis {{:products_pag:pipelines:pasted:20201117-093702.png}} b、在05.Customized_Analysis文件夹下整理个性化分析结果文件,整理完成后压缩文件夹, zip -r 05.Customized_Analysis.zip 05.Customized_Analysis; c、将05.Customized_Analysis.zip 以相对路径软链到释放数据路径里面; {{:products_pag:pipelines:pasted:20201117-092003.png}} d、在总的README.txt里面,追加说明:05.Customized_Analysis.zip:Personalized analysis result files . 或者05.Customized_Analysis.zip:个性化分析结果文件。 {{:products_pag:pipelines:pasted:20201117-092404.png}} c、总MD5.txt增加05.Customized_Analysis.zip的MD5值 md5sum 05.Customized_Analysis.zip >>MD5.txt {{:products_pag:pipelines:pasted:20201117-092629.png}} d、更新release_tree.html:以天津集群为例 国内:python /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/tools/makeReleaseReadmeHTML.py --release_path . --output ./Readme.html --content /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/tools/WGS_mode_GN.txt --html_template /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/tools/DataRelease_ReadMe_ZH.html 海外:python /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/tools/makeReleaseReadmeHTML.py --release_path . --output ./Readme.html --content /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/tools/WGS_mode_EN.txt --html_template /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/tools/DataRelease_ReadMe_EN.html {{:products_pag:pipelines:pasted:20201117-092833.png}} e、重新生成checkSize.xls perl /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v2/Uploadandrelease/dirCheckSize.pl . 8. 数据清理 \\ 当数据释放无问题后执行数据清理:\\ step1:\\ 交付完成无问题执行script下r1.byebye_reseq.sh,会进行删除中间文件(NT比对中间文件,mapping深度统计中间文件,若不释放cleandata则删除clean.fq.gz),会生成删除前后总目录大小、各文件大小的日志文件 供查询清理情况。\\ step2:\\ 转移到冷存后上云前若无问题深度清理,执行r2.byebye_reseq.sh,只保留sh,下机数据和结果文件统计文件等(bam等重要文件会被删除,请确认无误可删除后 方可执行),会生成删除前后总目录大小、各文件大小的日志文件 供查询清理情况。目前清理脚本给定的为原分析目录绝对路径,防止误删,如候选项目备份到冷存目录下需要清理时,将给定项目路径参数改换为冷存目录下的项目路径即可。\\ 9. 天津/南京数据备份冷存 \\ 规则: \\ 基本规则:信息负责人自行备份个人项目和下机数据 \\ 备份时间:\\ a、项目交付无问题后,项目备份上云 \\ b、若项目未分析完成或有售后 个性化分析等还暂时用数据,可以酌情备份到冷存\\ 备份说明:\\ 备份需要sample_list,请保证最后的sample_list是完整的 \\ 备份完成后一定要检查备份后的记录及是否有报错 \\ 注意点:备份冷存前和上云前需要自动清理冗余和该删除文件 \\ 执行: \\ 项目备份云存储执行:backup/CMD_PJbackOSS.sh \\ 项目备份冷存执行:backup/CMD_PJbackLC.sh \\ 项目备份完成后执行下机备份,作为lims上依然还存在的数据路径的补充备份 \\ 下机路径执行:backup/CMD_XJback.sh \\ 执行后生成记录日志文件:\\ 下机数据转冷存相关文件、脚本:\\ 备份完成后需检查文件:XJback_DONE PJback_DONE PJback_WARNNING XJback_WARNNING BackUP_LOG \\ 备份完成后删除下机路径需要的文件:X101SC21051093-Z01-F002.yanyoudong.PJback.RM_XJ_PATH.sh \\ X101SC21051093-Z01-F002.yanyoudong.XJback.RM_XJ_PATH.sh \\ 项目备份记录文件:X101SC21051093-Z01-F002.yanyoudong.PJ_BACKUP_LC_INFO.xls \\ ^ #ProductionBase ^ ProfitCode ^ PJ_TYPE ^ batchid ^ PC_EMAIL ^ BI_EMAIL ^ DOUBLE_EMAIL ^ PJ_CODE ^ PJ_NAME ^ CONTRACT_NUMBER ^ PC ^ BI ^ DOUBLE_CHECK ^ SALES_MAN ^ SDATE ^ EDATPJ_PATH ^ FROM ^ FROM_SIZE ^ PJ_LC_PATH ^ TO ^ TO_SIZE ^ PJ_BACKUP_TIME ^ PJ_BACKUP_MAN ^ | 天津实验室 | 2002 | 动植物全基因组变异检测 | X101SC21051093-Z01-F002 | liuchang@novogene.com | yanyoudong@novogene.com | yanyoudong@novogene.com | X101SC21051093 | 西湖大学200个宏基因组建库测序分析技术服务(委托)合同 | H101SC21051093 | Chang Liu 刘畅 | Youdong Yan 闫有东 | Youdong Yan 闫有东 | Wenjuan Xie谢文娟 | None | None | /TJPROJ5/GB_PAG/PJ_GB/reseq/WGS/2002/yanyoudong/X101SC21051093-Z01-F002.unknown.20211008 | /TJPROJ5/GB_PAG/PJ_GB/reseq/WGS/2002/yanyoudong/X101SC21051093-Z01-F002.unknown.20211008/backup/data_release | 337.14G | /TJNAS01/GB/GN_RESEQ/BackUP/PJ/TJPROJ5/GB_PAG/PJ_GB/reseq/WGS/2002/yanyoudong/X101SC21051093-Z01-F002.unknown.20211008 | /TJNAS01/GB/GN_RESEQ/BackUP/PJ/TJPROJ5/GB_PAG/PJ_GB/reseq/WGS/2002/yanyoudong/X101SC21051093-Z01-F002.unknown.20211008/backup/data_release | 337.14G | 2021-10-11 13:23:21 | ^ #ProductionBase ^ ProfitCode ^ CONTRACT_NUMBER ^ batchid ^ PJ_NAME ^ PC_EMAIL ^ BI_EMAIL ^ DOUBLE_EMAIL ^ PC ^ BI ^ DOUBLE_CHECK ^ SALES_MAN ^ SDATE ^ EDATE ^ PJ_PATH ^ PJ_PATH_SIZE ^ PJ_LC_TIME ^ PJ_LC_PATH ^ | 天津实验室 | 2002 | C101SC18113162 | P101SC18113162-01-J005 | 浙江西湖高等研究院4个线虫WGS-seq变异检测分析技术服务(委托)合同 | danghuijie@novogene.com | danghuijie@novogene.com | danghuijie@novogene.com | Kevin Pham | danghuijie | danghuijie | test | 2020-05-27 23:57:30 | 2020-05-27 | /TJPROJ5/GB_PAG/USER/yanyoudong/test/v2_WGS_test/compare | 2.8G | 2020/06/19 17:04:34 | /TJNAS01/GB/GN_RESEQ/GB_PAG/PJ_GB/reseq/WGS/yanyoudong/compare/compare | ===流程逻辑=== (1)run_WGS.sh阶段完成 \\ sample_list、project_info.txt、karyotype.xls配置(若设置autoconfig Y),生成结果位于Config下。 校验fastq文件,生成下机数据目录结构,并将fastq文件按原目录结构链接到XJ目录下(只链接fastq文件)。\\ 按照配置生成各个需要的目录结构。 \\ (2)sjm提交job文件后执行逻辑 \\ 先执行RawData下 ln*sh:链接,md5*sh:生成MD5值, dup*sh:统计Rawdata dup值。(若需要merge、cutfq也在此阶段提交) 提交QC下的qc*sh:质控脚本,现为fastp质控软件,质控生成统计数据,作图,并convert。gzip*sh:压缩可能存在的未压缩clean fastq,生成cleandata 的MD5值。NT目录:抽取reads NT比对。\\ Mapping下的:bwa_mem*sh:比对,samtools_sort*sh bam排序,picard_merge*sh: merge bam(若为merge模式 则缺失这一步),filter_rmdup*sh:去dup,finalbam*sh:生成最终的bam。\\ VarDetect下为各类型的call变异及统计:SnpInDel下为SNP、InDel,根据GATK、samtools不同。SV下为breakdancer的SV结果。CNV下为cnvnator的CNV结果。Varstat下为各类型的变异统计结果可视化结果,结果分布于对应的目录下,Circos图和密度图位于Circos目录下。\\ Report目录下为各个阶段的报告,具体报告类型取决于run_WGS.sh中的--analy_array,报告的位置取决于run_WGS.sh中的--newjob。国内海外报告类型取决于project_info.txt 中的利润中心,2002/2011时为国内报告,否则为海外报告。海外报告脚本:HW_reseq_Report.py,具体类型取决于报告脚本的--analy_array参数。国内QC报告脚本:GN_reseq_QC_report.py,国内Mapping报告脚本:GN_reseq_Mapping_report.py,国内结题报告脚本:GN_reseq_Primary_report.py。\\ Result目录下为各个阶段的结果目录,Release目录下为最终的释放目录 \\ ---- ====注意事项==== 1、报告生成和结果释放中的样本是根据自动生成的 qc_list 判断的,如果需要拆分样本,只需要提供新的 qc_list 文件即可。\\ 2、流程默认不释放 cleandata,如果需要只需将--cleandata 指定为 Y。 \\ 3、PCR-free 建库的样本,需要指定--PCRFree 参数为 Y,使用 PCR-free 对应的报告模板。 \\ 4、某些参考基因组的 gff 文件由于格式问题,流程可能会识别不了。需要检测 Reference 目录下 refGeneMrna.fa 和 refGene.txt 是否为空,如果为空文件,则需要手动修改 gff。 \\ 5、karyotype 文件是生成 Circos 图所必须的,里面只需要包括要展示的染色体即可(流程默认展示最长的前24条染色体)。 \\ 6、流程默认不进行 SNP genotyping,如果需要只需将--snpcompare 指定为 Y1 或 Y2。 \\ 7、byebye 脚本会清除项目路径下冗余文件,需待项目结题后根据数据清理规则执行。 \\ ====出错处理==== 1) 如果执行生成 job 文件的 shell 时报错,注意检查 sample_list 中的内容和格式是否正确,检查 qc_list 是否包含错误信息。 \\ 2) 若流程运行完毕,而结果未产生,则先查看xx.job.status.log中哪些任务failed,再查看 log 中这个任务的报错信息,寻找原因。当脚本修改完毕后,可用 startpoint 参数定点重新提交。\\ =====三、报告审核与上传===== ====QC报告审核==== 1. 数据量:数据量不足反馈运营加测 \\ 2. 测序质量:Q20一般大于90%,Q30一般大于80% ,含N/低质量一般小于2% , Effective 高于 95%, 错误率一般低于0.1,质量较差反馈运营,建议调参或重测 \\ 3. 接头率一般低于5% ,GC 无大幅度分离,若超过标准反馈运营调参或重建库 \\ 4. NT比对:排名前10的物种是近缘物种,无明显污染,出现异常,反馈运营确认 \\ ====Mapping报告审核==== 1. mapping rate:一般高于90%,若普遍较低,一般要求样本间差异不大,同批次样本间正常≤1%。 \\ 2. dup rate:一般小于15% ,超过15%进行反馈(美国集群需要检查,体现在报告中),PCR-Free 文库需要小于10%。\\ 3. 检查GC%是否与参考基因组偏离:要求偏离不超过3%,GC%偏离需要进行反馈,进行污染排查,GC Bias 排查和Genome Coverage 排查。\\ 4. coverage:与物种、测序深度、基因组组装情况有关,深度相近的样本间≤5%。\\ 5. 检查样本图片是否可以正常查看 \\ ====结题报告审核==== 1. 检查物种名,项目名,项目号是否一致 \\ 2. 检查图片是否可以正常查看,查看统计表格数值,是否出现异常 \\ 3. SNP&INDEL&SV&CNV检出数同批次同类样本间差异不大 \\ 4. 检查Circos 图:染色体数目、长度、顺序都要合乎规范 \\ ====报告上传与double check==== 当报告生成后需要向LIMS上传QC,Mapping及结题报告,上传时需要备注To 运营 的报告审核信息 及 To double check 的信息 \\ To 运营内容主要为报告审核及问题说明建议 \\ To check内容包括不限于: \\ 1. 样本数 2. 目标数据量 3. 是否加测,重测,重建库 4. 是否有特殊处理(去低质量,去dup,去接头,污染处理,更换注释文件等及必要的路径或目录说明) 5. 项目执行路径及数据释放路径 6. 报告审核和建议等 ====脚本上传报告 释放数据==== 上传报告:对应报告目录下生成Upload_*_Report.sh,检查报告无误后,运行上传。海外报告与数据释放逻辑均分离。国内QC项目、带分析项目结题报告上传需要与数据释放同时执行。在此之前需要线下发送doublecheck检查,可执行对应报告目录下生成Doublecheck_*_Report.sh。 释放数据:Release目录下生成datarelease_*sh,用于释放最终数据。国内数据释放与报告上传同时执行。海外项目注意在上传报告后还需要再执行释放数据。 目前报告上传及数据释放都有自动生成的report_memo.txt,线下发送check或者上传lims前需要补全report_memo.txt内备注信息。 ---- =====四、数据库路径===== ====分析指标数据库==== 天津:/TJPROJ2/GB/PUBLIC/database/GB_PAG/LibStat \\ 南京:/NJPROJ2/GB/PUBLIC/database/GB_PAG/LibStat \\ 美国:/PUBLIC/database/HW/LibStat \\ 英国:/PUBLIC/database/GB_PAG/LibStat \\ 上述指标库路径中的文件更新到2021年10月,在此之后执行的WGS项目指标库文件均生成在过程目录下的record目录中。 =====五、特殊说明===== 1、注释文件内容统计说明:\\ SNP:Total为变异总数,等于vcf文件中的数目。注释类型数加和不等于Total。(存在多等位位点,等位位点有可能会因为突变类型不一样 导致注释到不同的类型,导致注释的数目多于Total) Indel:Total为变异总数,等于vcf文件中的数目。注释类型数加和不等于Total。(存在多等位位点,等位位点有可能长度不同,类型不同,导致不同的等位位点可能注释到不同注释类型,长度不同可能有的注释到移码突变 有的是非移码突变,插入缺失类型不同也会造成不一样的注释类型,导致注释的数目多于Total) SV:Total为变异总数。注释的内容只有INS DEL INV三种类型,故注释内容总数小于 变异总数。 CNV:Total为变异总数。注释内容总数等于Total。 =====六、相关工具===== 1、WGS自动转手动脚本 \\ 路径:/TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v1/toolsmanual/autotomanual.py 注意事项: \\ 执行脚本前,需要先手动配置并执行run.sh,刷出手动目录后再执行。\\ run.sh中的--newjob必须含Mapping或Primary字样。\\ 参数说明:\\ --autoprjdir auto project path,自动目录路径 \\ --manualprjdir manual project path,手动目录路径 \\ --endpoint End position of the linkage of auto project,指定结束分析的位置,默认为statVariation;如果做到mapping,可选择finalbam \\ --circos circos exist or not,是否有圈图,y or n,默认为None \\ --report make final report and release data,是否生成报告和释放目录,y or n,默认为None \\ 示例: \\ #软链到call变异,没有圈图,完成后需手动生成结题报告和释放目录 \\ python /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v1/toolsmanual/autotomanual.py --autoprjdir /TJPROJ5/GB_PAG/PJ_AI/reseq/projects/GN/gn_005/2002/X101SC2108/X101SC21081362-Z01/J001 --manualprjdir . \\ #软链到call变异,有圈图,直接生成结题报告和释放目录 \\ python /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v1/toolsmanual/autotomanual.py --autoprjdir /TJPROJ5/GB_PAG/PJ_AI/reseq/projects/GN/gn_005/2002/X101SC2108/X101SC21081362-Z01/J001 --manualprjdir . --circos y --report y \\ #软链到mapping,完成后需手动生成Mapping报告和释放目录 \\ python /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v1/toolsmanual/autotomanual.py --autoprjdir /TJPROJ5/GB_PAG/PJ_AI/reseq/projects/GN/gn_005/2002/X101SC2108/X101SC21081362-Z01/J001 --manualprjdir . --endpoint finalbam \\ #软链到mapping,直接生成Mapping报告和释放目录 \\ python /TJPROJ2/GB/PUBLIC/source/GB_PAG/WGS_manual/gbwgs_pipline_v1/toolsmanual/autotomanual.py --autoprjdir /TJPROJ5/GB_PAG/PJ_AI/reseq/projects/GN/gn_005/2002/X101SC2108/X101SC21081362-Z01/J001 --manualprjdir . --endpoint finalbam --report y \\ 脚本逻辑:按照 rawdata,cleandata,qc,nt,mapping,call变异等分部分软链 \\