======简介======
IS(Identity Score)是根据个体基因型差异计算两两个体间的序列一致性,进而体现群体间序列相似度的一种分析方法。分析过程中,首先根据群体基因型文件进行打分,将基因型文件转化成由0、1和0.5三种数值组成的矩阵(纯合且与ref相同为0,纯合且不同于ref为1,杂合的均为0.5),然后根据打分两两个体进行比较,计算IS值IS =1-(max-min)。IS值越小说明两个个体在该位点的差异越大。
======功能======
根据个体基因型差异计算两两个体间的序列一致性,进而体现群体间序列相似度的一种分析方法。
======数据准备======
单个样本的vcf文件
需要输入文件vcf,fai,sample
======数据分析======
1 示例路径======
/TJNAS01/AFS_RESEQ/Share/GWAS/IS/test=====
2 分析脚本======
python /TJNAS01/AFS_RESEQ/Share/GWAS/IS/IS.main.py \
--input shaozi-dp5-miss0.2-maf0.01.vcf.gz \
--type vcf \
--sample /TJNAS01/AFS_RESEQ/Share/GWAS/IS/test/sample \
--fai HV.15.fa.fai\
--win 2000 \
--step 1000 \
--out /TJNAS01/AFS_RESEQ/Share/GWAS/IS/test
3 流程参数
--input:必选参数,输入文件,vcf 或者 geno 文件。
--type:必选参数,输入文件类型,根据输入文件类型给定参数’geno’或者’vcf’。
--cfg:必选参数,流程所需脚本的配置文件。
--sample:必选参数,样品列表,单列,顺序需要与输入文件保持一致。
--fai:可选参数,fai 输完文件,用于滑窗口分析。
--win:可选参数,窗口大小,单位 bp。
--step:可选参数,滑窗口的步长大小,单位 bp。
--out:必选参数,输入结果路径。
======交付结果======
1.基因型打分文件 all.frq.score======
2.两两个体 IS 值计算结果:在输出路径下生成一个新的路径 paired,里面为两两个体 IS 计算结果。A-B.paired.txt。 =====
3.整体平均 IS 值矩阵