======简介====== 关于单菌的coreSNP分析,会有客户做此类型分析,频次大概一年两到三次,之前下载过相关软件但流程一直未测通,经过排查问题,解决了相关流程问题,并将该流程测通。 现整理了相关流程步骤如下: ======功能====== SNP calling,核心SNP(core SNP)聚类分析并建树。 ======数据准备====== **1. 参考基因组序列准备:** 由于后续分析涉及bwa软件,bwa只识别以下两种.fasta和.fna后缀的文件名称,所以对参考基因组文件名称有严格要求。 **2. 样本基因组序列准备:** 配置以样本名制表符样本序列路径的list,可以参考/data/micro/cjw/snippy/TEST/list 注:由于部分软件在TJ集群安装不上,此流程只能在172.17.8.142云平台集群进行分析。 ======流程====== **1. 用软件自带的批量运行程序生成脚本并运行:** 第一步使用snippy软件生成核心基因组SNP比对文件,生成core.full.aln。 source /Novomagic/meta/software/abricate/PATH=/Novomagic/meta/software/abricate/conda/bin/activate snippy snippy-multi list --reference 参考基因组.fna --cpus 16 > run_snp.sh qsub -cwd -l vf=10g -q all.q run_snp.sh list 第一列样本名称\t第二列绝对路径 **2. 处理特殊字符:** 第二步使用snippy-clean_full_aln删除比对文件中所有奇怪的字符并替换为N。 snippy-clean_full_aln core.full.aln > clean.full.aln **3. 去除同源重组位点:** 第三步使用gubbins软件去除同源重组位点。 run_gubbins.py -p gubbins clean.full.aln **4. snp位点提取:** 第四步使用snp-sites从多fasta对齐文件中提取snp位点。 snp-sites -c gubbins.filtered_polymorphic_sites.fasta > clean.core.aln **5. 构建coresnp进化树:** 第五步使用FastTree软件构建系统发育树。 FastTree -gtr -nt clean.core.aln > clean.core.tree.newick 完整脚本及测试路径: /data/micro/cjw/snippy/TEST