关于单菌的coreSNP分析,会有客户做此类型分析,频次大概一年两到三次,之前下载过相关软件但流程一直未测通,经过排查问题,解决了相关流程问题,并将该流程测通。
现整理了相关流程步骤如下:
SNP calling,核心SNP(core SNP)聚类分析并建树。
1. 参考基因组序列准备:
由于后续分析涉及bwa软件,bwa只识别以下两种.fasta和.fna后缀的文件名称,所以对参考基因组文件名称有严格要求。
2. 样本基因组序列准备:
配置以样本名制表符样本序列路径的list,可以参考/data/micro/cjw/snippy/TEST/list
注:由于部分软件在TJ集群安装不上,此流程只能在172.17.8.142云平台集群进行分析。
1. 用软件自带的批量运行程序生成脚本并运行:
第一步使用snippy软件生成核心基因组SNP比对文件,生成core.full.aln。
source /Novomagic/meta/software/abricate/PATH=/Novomagic/meta/software/abricate/conda/bin/activate snippy snippy-multi list --reference 参考基因组.fna --cpus 16 > run_snp.sh qsub -cwd -l vf=10g -q all.q run_snp.sh
list 第一列样本名称\t第二列绝对路径
2. 处理特殊字符:
第二步使用snippy-clean_full_aln删除比对文件中所有奇怪的字符并替换为N。
snippy-clean_full_aln core.full.aln > clean.full.aln
3. 去除同源重组位点:
第三步使用gubbins软件去除同源重组位点。
run_gubbins.py -p gubbins clean.full.aln
4. snp位点提取:
第四步使用snp-sites从多fasta对齐文件中提取snp位点。
snp-sites -c gubbins.filtered_polymorphic_sites.fasta > clean.core.aln
5. 构建coresnp进化树:
第五步使用FastTree软件构建系统发育树。
FastTree -gtr -nt clean.core.aln > clean.core.tree.newick
完整脚本及测试路径:
/data/micro/cjw/snippy/TEST