======简介====== 在自然群体(区别于强人工选择)中,如果我们感兴趣的数量性状表现出与特定的地理环境变量有高度的关联性,随着环境变量的改变而变化,则这些环境变量往往反映了环境作用于个体表型的选择性压力,并最终反映在群体水平的遗传统计量,进而可以探究连续环境变量梯度下不同的选择压力以及群体的适应模式。 单变量潜在因素线性混合模型(LFMM)可用于基因组中环境适应特征的筛选,可以理解为另一种类型的全基因组关联分析(GWAS),通过鉴定与环境变量高度相关的SNP位点来研究环境适应的模式。LFMM可以检测环境变量(或表型值)与等位基因频率之间的显著性关系,从而确定可能受气候因子(或表型)影响的SNP位点,专注于整体环境的评估,而不是温度、湿度、纬度等单一的变量。 ======功能====== LFMM (Latent Factor Mixed Models),模型用于探究潜在的环境因子对基因型的影响。 ======数据准备====== 群call 的vcf文件 ======数据分析====== 1 示例路径====== /TJNAS01/AFS_RESEQ/Share/GWAS/LFMM ====== 2 分析脚本 #step1 vcf转lfmm矩阵 /TJPROJ2/DW/Pipeline/Software/miniconda/miniconda3/envs/R/bin/Rscript vcf2lfmm.R 2.vcf.recode.vcf #step2 作图 /TJPROJ2/DW/Pipeline/Software/miniconda/miniconda2/bin/Rscript lfmm.R 2.vcf.recode.lfmm enviroment.env2 6 test 3 流程参数 第一步: 将vcf 文件转换为lfmm 的输入文件。 建议vcf 文件中位点缺失率不要过高,可以将vcf 先进行impute 基因型填充处理。 文件转换格式说明:转换后的基因型文件:*.lfmm 每一行为一个样本,每一列为一个snp位点,其中0代表0/0,1代表0/1,2代表1/1,9代表缺失。 第二步: 计算基因型与环境因子之间的关系,得到p值。 参数1 :输入文件,第一步的结果文件: *.lfmm 参数2:环境因子文件,每一列为一种环境因子变量,例如海拔数据、温度数据等。每一行对应一个样本,样本顺序应与*lfmm中保持一致。 参数3:分析使用的K值,一般为群体分群数值。 参数4 : 输出路径。 ======交付结果====== 结果文件:pvalue.txt 结果中每一行对应一个snp位点,每一列对应一个环境因子,如输入文件中第一列环境因子为海拔数据,则第一列的p值为与海拔数据相关的结果。P值越小,说明该位点受海拔因素的影响越大。 注意事项: P-value的筛选阈值可根据结果而定,不一定设为p<0.05, 例如p<0.001,或者取最小值前5%,1%的位点。