====== 重测序snp结果构建进化树 ======
基于GATK的snp结果构建进化树
===== 参考工单和测试路径 =====
工单: 231222-00088
测试路径:/TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis
===== 流程简要说明 =====
1. gatk输出的结果中存在较高的假阳性结果,所以输入文件为过滤后的snp结果,如果没有过滤,请使用以下方法进行过滤
#参考路径
#/TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/filter_snp_indel/SnpInDel
/TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/filter_snp_indel/SnpInDel/work.sh
#注意:这里所有的gz文件全部是由bgzip压缩,否则不能正常建索引,可使用/TJPROJ6/AFS_RESEQ/Proj/liangjifeng/4.jk/bgzip
2. 将所有的snp结果merge到一起
/TJPROJ2/GB/PUBLIC/source/GB_HUMAN/guonei/disease_v1.0/Software/bin/bcftools merge \
-g /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/genome.fa \
-l /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/new_vcflist \
-Oz \
-o /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/merged.vcf.gz &&
echo "merge vcf done !!! (2/6) "
3. 对齐
#source这个环境变量主要是因为需要pathlib的python模块,或者换成一个3.2版本以上的python也行,需要加载对应模块的库
source /TJPROJ6/AFS_RESEQ/Proj/liangjifeng/software/miniconda3/bin/activate python3.5
python /TJNAS01/AFS_RESEQ/Proj/liangjifeng/QunTiJinHua_afssale/RAxML_RandomizedAxeleratedMaximumLikelihood/vcf2phylip.py -i merged.vcf.gz
4. 使用RAxML建树
/TJPROJ6/CCX/Share/PopEvolution/tree/RAxML/00.bin/standard-RAxML-master/raxmlHPC-PTHREADS-SSE3 \
-f a \
-m GTRGAMMA \
-x 12345 \
-p 12345 \
-# 10 \
-s /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/merged.min4.phy \
-n ex \
-T 30
#-f a 此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。
#-m GTRGAMMA 指定核苷酸或氨基酸替代模型。 "PROT" 表示氨基酸替代模型,“GTR”表示碱基替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。
#-x 12345指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。
#-p 12345指定一个随机数作为 parsimony inferences 的种子。
#-# 10指定 bootstrap 的次数。
#-s 20k.phy指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。也可以通过Tassel或者Mega转换格式:vcf-phylip
#-n chr001.raxml输出文件的后缀为 .chr001.raxml 。
#-T 30指定多线程运行的 CPUs 。
#结果文件
#RAxML_bootstrap.ex bootstrapped trees
#RAxML_bestTree.ex 最佳得分 ML 树
#RAxML_bipartitions.ex 有 bootstrap 分值支持的最佳得分树,分值在 node 上。
#RAxML_bipartionsBranchLabels.ex 有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件
===== 使用itol将树进行可视化 =====
{{ :snp-tree.png?600 |}}