用户工具

站点工具


is

简介

IS(Identity Score)是根据个体基因型差异计算两两个体间的序列一致性,进而体现群体间序列相似度的一种分析方法。分析过程中,首先根据群体基因型文件进行打分,将基因型文件转化成由0、1和0.5三种数值组成的矩阵(纯合且与ref相同为0,纯合且不同于ref为1,杂合的均为0.5),然后根据打分两两个体进行比较,计算IS值IS =1-(max-min)。IS值越小说明两个个体在该位点的差异越大。

功能

根据个体基因型差异计算两两个体间的序列一致性,进而体现群体间序列相似度的一种分析方法。

数据准备

单个样本的vcf文件 需要输入文件vcf,fai,sample

数据分析

1 示例路径

/TJNAS01/AFS_RESEQ/Share/GWAS/IS/test

2 分析脚本

python /TJNAS01/AFS_RESEQ/Share/GWAS/IS/IS.main.py \
	--input shaozi-dp5-miss0.2-maf0.01.vcf.gz \
	--type vcf \
	--sample /TJNAS01/AFS_RESEQ/Share/GWAS/IS/test/sample \
	--fai  HV.15.fa.fai\
	--win 2000 \
	--step 1000 \
	--out /TJNAS01/AFS_RESEQ/Share/GWAS/IS/test


3 流程参数

     --input:必选参数,输入文件,vcf 或者 geno 文件。 
     --type:必选参数,输入文件类型,根据输入文件类型给定参数’geno’或者’vcf’。 
     --cfg:必选参数,流程所需脚本的配置文件。 
     --sample:必选参数,样品列表,单列,顺序需要与输入文件保持一致。 
     --fai:可选参数,fai 输完文件,用于滑窗口分析。 
     --win:可选参数,窗口大小,单位 bp。 
     --step:可选参数,滑窗口的步长大小,单位 bp。 
     --out:必选参数,输入结果路径。 

交付结果

1.基因型打分文件 all.frq.score

2.两两个体 IS 值计算结果:在输出路径下生成一个新的路径 paired,里面为两两个体 IS 计算结果。A-B.paired.txt。

3.整体平均 IS 值矩阵

is.txt · 最后更改: 2023/03/29 06:01 由 hongxiang