通过 CheckV 软件将序列与完整病毒基因组的大型数据库进行比较,来评估病毒基因组的质量与完整性。
CheckV 共分为三个步骤来评估病毒基因组的质量。
第一步,CheckV 将病毒序列与包含 15958 个与病毒和微生物相关的 HMM 模型的数据进行比对,识别并去除序列边缘的非病毒区域。
第二步,CheckV 根据基于 NCBI 收录的完整病毒基因组数据库的平均氨基酸同一性(AAI)来估算病毒基因组预期长度。
最后一步,CheckV 根据 AAI 和 HMM 的方法评估病毒基因组的完整性,并且将病毒基因组的完整置信度分为高置信度(大于 90%)、中置信度 (80-90%)和低置信度(小于 80%)。
软件安装路径:
/TJPROJ7/RNA_R/software/CheckV/checkv-db-v1.0
脚本运行方法:
脚本位置
/TJPROJ6/RNA_SH/personal_dir/liuyan/checkv-db-v1.0/
export PYTHONPATH=/TJPROJ7/RNA_R/software/conda/miniconda3/bin/python:$PATH source /TJPROJ7/RNA_R/software/conda/miniconda3/bin/activate base export CHECKVDB=/TJPROJ6/RNA_SH/personal_dir/liuyan/checkv-db-v1.0/checkv-db-v1.0 checkv end_to_end S1.data.fas ./output -t 1 virus.fa为鉴定的病毒序列文件
(1) quality_summary.tsv:provirus/virus、质量、完整度
(2) completeness.tsv :估计完整性的结果
(3) contamination.tsv :估计污染的结果
(4) complete_genomes.tsv :已确定的假定完整基因组的结果
checkV官网:https://bitbucket.org/berkeleylab/checkv/src/master/
找不到客户关注的病毒,放宽各数据库比对的identify参数的阈值,流程默认identify >=90%