======cgMLST流程简介======
MLST(multi locus sequence typing)序列分型,1998 首次在Neisseria meningitidis的进化史研究中被提出;它采用分子生物学的手段(PCR)针对特定物种基因组中450-500bp大小的6-8个管家基因进行序列多样性研究,分析等位基因变异信息,通过特有等位基因的基因型对菌种进行快速鉴定。由于其高效、精确、快捷的分析流程,被广泛的应用于动植物病原菌的流行病学的检测、进化史研究和遗传多样性分析,成为近年来发展很快的分子生物学分析方法之一,逐渐成为细菌的常规分型方法。
微生物学家们利用全基因组水平的基因扫描和等位基因信息来对菌种进行序列分型研究,即cgMLST(core genenome multi locus sequence typing),基于全基因组的核心靶基因进行序列分型进一步提高了结果的精确度和准确性。流程利用数据库(NCBI)中物种现有的基因组数据,结合MLST databases中传统分型的ST型信息,获取较全面的代表性菌株和cgMLST靶基因,构建出适用于该物种序列分型的分析流程,进而对所研究的未知菌株群体进行序列分型、群体进化史研究、疾病的传播途径推测或验证;最终实现对现有菌株信息的整体把控、病原菌的风险评估等研究目的,对人类疾病的预防和控制提供有价值的信息。
流程优化原因:
该流程一直未测通,原因不明,当时只了解到流程未能鉴定到物种的所有管家基因导致后续无法分析,但是在维护mlst流程时,偶然发现是blast软件未能输出所有比对结果,从而导致比对信息丢失,由于mlst流程是cgmlst流程中的一步,且大量使用了blast比对,可以尝试将流程中的blast一并修改。
优化点:
①整个流程的blast软件使用的是旧的blastall,现已全部更新为blast+,blastall默认只输出250条比对结果,blast+为500条,改为输出所有结果。
②由于gff文件格式多变,增加参数可以选择抓取gff中指定信息,作为基因ID。
③step1.perTargetGene_filter.sh过程很多步骤是system直接执行,不利于后续流程维护,故将这些隐藏脚本进行输出。
④质粒数据库文件修改(压缩包gzip读取会有乱码),转座子数据库特殊字符处理,部分序列名称blast后会转变为大写,如序列名称为Ps,m8比对结果中会变为PS。
⑤部分步骤输出了一些中间文件,使流程更易读。
⑥抓结果部分修改。
======脚本流程及测试路径======
**1. 主脚本路径:**
流程主脚本是perl脚本,原本位于/PUBLIC/software公共路径下,由于没有修改权限,故将其主脚本和次级脚本全部拷贝到个人路径进行维护。
/TJPROJ5/META_ASS/16s/chenjiawei/script/danjun/cgmlst/binge/CoreGenomeMLST/bin/cgMLST_pipeline.pl
**2. 测试路径:**
/TJPROJ7/META_ASS/16s/chenjiawei/X101SC23034593-Z01/X101SC23034593-Z01-F012/test8-20240830
======一键化脚本路径及参数说明======
由于该流程配置文件较多,故将其写成了一键化脚本,方便进行文件配置和执行流程。
**1. 一键化脚本路径:**
/TJPROJ1/META_ASS/one-click/script/框架图/cgmlst.py
**2. 一键化脚本执行方法及各参数说明:**
执行方法:
/TJPROJ1/META_ASS/one-click/main.py cgmlst ST.table.xls MLST SEQ REF ncbi.ref.list CB.TAX.xls query.group.xls tax.xls /TJPROJ7/META_ASS/16s/chenjiawei/X101SC23034593-Z01/X101SC23034593-Z01-F012/test8-20240830
参数说明:共需要9个文件,文件依次是:
①ST.table.xls:分型列表
MLST分型网址如下,现在两个网站均需要使用邮箱注册账号才可使用
PubMLST: https://pubmlst.org/organisms
BIGSdb-Pasteur: https://bigsdb.pasteur.fr
官网下载位置:Download → Allelic profiles
如果最后一列非管家基因,要删掉如(clonal_complex)
②管家基因目录(MLST):用于存放管家基因序列
官网下载位置:DOWNLOADS → Allele sequences
会自动检索该目录下的fas后缀的管家基因序列文件
③样本序列目录(SEQ):用于存放样本组装序列
会自动检索该目录下的seq后缀的样本组装序列文件
④参考基因组目录(REF):用于存放参考基因组序列fna文件和gff文件,自动检索该目录下的fna后缀和gff后缀的文件,只能有一个参考
参考基因组一定要包含所有管家基因,可以到PubMLST或BIGSdb-Pasteur比对下
⑤ncbi.ref.list:候选基因组名称及对应的序列文件路径列表,以制表符\t分割,可以认为是重命名,左侧是结果中的名称,示例:
GCF_021442085.1 /TJPROJ7/META_ASS/16s/chenjiawei/X101SC23034593-Z01/X101SC23034593-Z01-F012/cgmlst-20231218/ncbi_data/GCF_021442085.1___GCF_021442085.1_ASM2144208v1_genomic.fna
GCF_005707595.1 /TJPROJ7/META_ASS/16s/chenjiawei/X101SC23034593-Z01/X101SC23034593-Z01-F012/cgmlst-20231218/ncbi_data/GCF_005707595.1___GCF_005707595.1_ASM570759v1_genomic.fna
注:候选基因组下载方式:
参考/TJPROJ5/META_ASS/16s/chenjiawei/script/one-click/cgmlst/load.sh的方法,候选基因组数目建议不超过200个
⑥CB.TAX.xls:候选基因组分组,以制表符\t分割,示例:
GCF_021442085.1 b.c
GCF_005707595.1 b.c
⑦query.group.xls:样本分组,以制表符\t分割,示例:
BC1 sample
BC7 sample
⑧tax.xls:用于存放物种拉丁名,示例:
Bacillus cereus
⑨工作路径:使用绝对路径
/TJPROJ7/META_ASS/16s/chenjiawei/X101SC23034593-Z01/X101SC23034593-Z01-F012/cgMLST-20240829
======补充说明======
由于流程维护涉及脚本过多,可能会有考虑不全的情况,发现问题及时优化。