======简介====== D统计是AdmixTools软件中包含的一种用于祖先群体混合(admixture)程度分析的方法。用于确定群体间的基因交流或者基因渗入。该方法通常以4个群体 W、X、Y、Z为分析对象,其中Z为外群,Y为祖先群。若分析显示W和Y之间、X和Z之间存在基因流,则符合BABA模型,即W和Y之间亲缘关系更近;若W和Z之间、X和Y之间存在基因流,则符合ABBA模型,即X和Y之间亲缘关系更近。实际分析过程中,对于snp位点i,设定不同群体的等位基因频率分别是w’、x’、y’、z’。首先定义“BABA”,表示w和y的等位基因相同,x和z的等位基因相同,而w和x的等位基因不同。 ======功能====== 检测基因组选择信号分析 ======数据准备====== 输入文件为locust.vcf.gz===== 个体信息文件input.ind 确保文件名称为“input.ind”,该文件共三列,分别为样品名称、性别(雌:F,雄:M,未知:U)和群体名称(4个目标群体) ===== 配置群体信息文件input.pop同样确保文件名称为“input.pop”,该文件为 4 个目标群体名称,通常为单列四行。 ======数据分析====== 1 示例路径====== /TJNAS01/AFS_RESEQ/Share/GWAS/Dstat/test-zx ====== 2 分析脚本 python /TJNAS01/AFS_RESEQ/Share/GWAS/Dstat/Dstat.v2.py --input locust.vcf.gz --type vcf /PUBLIC/software/RESEQ/software/Admixtools/setup/bin/qpDstat -p parameter.D -l 1 -h 3 > Dstat.result 3 流程参数 --input [filename]:输入基因型或者vcf文件,若为geno,需要带有头行,并以#或者C开头。 --type [‘geno’ or ‘vcf’]:输入文件类型,geno或者vcf ======交付结果====== 该模块生成结果文件为 Dstat.result: 以“result:”开头的行即为得到的主要分析结果,前四列分别为W、X、Y、Z 四个群体;随后的第一列数字为 D 统计值;接着为该值的Z转化结果;随后的三列数字分别为支持 BABA 模型的 snp 位点数目、支持ABBA模型的 snp 位点树和总的snp数目。若最优结果的 Z 值为正,则表示数据符合BABA;为负则表示符合ABBA。