======简介====== IS(Identity Score)是根据个体基因型差异计算两两个体间的序列一致性,进而体现群体间序列相似度的一种分析方法。分析过程中,首先根据群体基因型文件进行打分,将基因型文件转化成由0、1和0.5三种数值组成的矩阵(纯合且与ref相同为0,纯合且不同于ref为1,杂合的均为0.5),然后根据打分两两个体进行比较,计算IS值IS =1-(max-min)。IS值越小说明两个个体在该位点的差异越大。 ======功能====== 根据个体基因型差异计算两两个体间的序列一致性,进而体现群体间序列相似度的一种分析方法。 ======数据准备====== 单个样本的vcf文件 需要输入文件vcf,fai,sample ======数据分析====== 1 示例路径====== /TJNAS01/AFS_RESEQ/Share/GWAS/IS/test===== 2 分析脚本====== python /TJNAS01/AFS_RESEQ/Share/GWAS/IS/IS.main.py \ --input shaozi-dp5-miss0.2-maf0.01.vcf.gz \ --type vcf \ --sample /TJNAS01/AFS_RESEQ/Share/GWAS/IS/test/sample \ --fai HV.15.fa.fai\ --win 2000 \ --step 1000 \ --out /TJNAS01/AFS_RESEQ/Share/GWAS/IS/test 3 流程参数 --input:必选参数,输入文件,vcf 或者 geno 文件。 --type:必选参数,输入文件类型,根据输入文件类型给定参数’geno’或者’vcf’。 --cfg:必选参数,流程所需脚本的配置文件。 --sample:必选参数,样品列表,单列,顺序需要与输入文件保持一致。 --fai:可选参数,fai 输完文件,用于滑窗口分析。 --win:可选参数,窗口大小,单位 bp。 --step:可选参数,滑窗口的步长大小,单位 bp。 --out:必选参数,输入结果路径。 ======交付结果====== 1.基因型打分文件 all.frq.score====== 2.两两个体 IS 值计算结果:在输出路径下生成一个新的路径 paired,里面为两两个体 IS 计算结果。A-B.paired.txt。 ===== 3.整体平均 IS 值矩阵