目录

重测序snp结果构建进化树

基于GATK的snp结果构建进化树

参考工单和测试路径

工单: 231222-00088

测试路径:/TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis

流程简要说明

1. gatk输出的结果中存在较高的假阳性结果,所以输入文件为过滤后的snp结果,如果没有过滤,请使用以下方法进行过滤

#参考路径
#/TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/filter_snp_indel/SnpInDel

/TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/filter_snp_indel/SnpInDel/work.sh

#注意:这里所有的gz文件全部是由bgzip压缩,否则不能正常建索引,可使用/TJPROJ6/AFS_RESEQ/Proj/liangjifeng/4.jk/bgzip

2. 将所有的snp结果merge到一起

/TJPROJ2/GB/PUBLIC/source/GB_HUMAN/guonei/disease_v1.0/Software/bin/bcftools  merge    \
    -g  /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/genome.fa   \
    -l  /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/new_vcflist   \
    -Oz    \
    -o  /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/merged.vcf.gz    &&

echo "merge vcf done !!! (2/6) "

3. 对齐

#source这个环境变量主要是因为需要pathlib的python模块,或者换成一个3.2版本以上的python也行,需要加载对应模块的库
source /TJPROJ6/AFS_RESEQ/Proj/liangjifeng/software/miniconda3/bin/activate  python3.5

python    /TJNAS01/AFS_RESEQ/Proj/liangjifeng/QunTiJinHua_afssale/RAxML_RandomizedAxeleratedMaximumLikelihood/vcf2phylip.py        -i     merged.vcf.gz

4. 使用RAxML建树

/TJPROJ6/CCX/Share/PopEvolution/tree/RAxML/00.bin/standard-RAxML-master/raxmlHPC-PTHREADS-SSE3     \
	-f a   \
	-m GTRGAMMA   \
	-x 12345  \
	-p 12345  \
	-# 10 \
	-s  /TJPROJ5/META_ASS/meta/sunhongtao/SNP_Phylogenetic_tree/X101SC23103034_Z01_F001/analysis/merged.min4.phy   \
	-n    ex   \
	-T 30 

#-f a  此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。
#-m GTRGAMMA 指定核苷酸或氨基酸替代模型。 "PROT" 表示氨基酸替代模型,“GTR”表示碱基替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。
#-x 12345指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。
#-p 12345指定一个随机数作为 parsimony inferences 的种子。
#-# 10指定 bootstrap 的次数。
#-s 20k.phy指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。也可以通过Tassel或者Mega转换格式:vcf-phylip
#-n chr001.raxml输出文件的后缀为 .chr001.raxml 。
#-T 30指定多线程运行的 CPUs 。


#结果文件
#RAxML_bootstrap.ex bootstrapped trees
#RAxML_bestTree.ex            最佳得分 ML 树
#RAxML_bipartitions.ex        有 bootstrap 分值支持的最佳得分树,分值在 node 上。
#RAxML_bipartionsBranchLabels.ex 有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件

使用itol将树进行可视化