目录

CheckV

CheckV 通过将序列与完整病毒基因组的大型数据库进行比较来估计完整性,其中包括从公开可用的宏基因组、宏转录组和宏病毒组的系统搜索中确定的 76,262 个。在对模拟数据集进行验证并与现有方法进行比较后,我们将 CheckV 应用于宏基因组组装病毒序列的大量不同集合,包括 IMG/VR 和全球海洋病毒。这揭示了 44,652 高质量病毒基因组(即> 90% 完整)。

Running CheckV

 source  /TJPROJ1/META_ASS/soft/anaconda3/bin/activate /TJPROJ1/META_ASS/soft/CheckV

有两种方法可以运行CheckV:

  1. 使用单个命令来运行完整的流程(推荐):
checkv end_to_end input_file.fna output_directory -t 16 -d /TJPROJ1/META_ASS/soft/CheckV/checkv-db-v1.5/
  1. 为流程中的每个步骤使用单独的命令:
checkv contamination input_file.fna output_directory -t 16
checkv completeness input_file.fna output_directory -t 16
checkv complete_genomes input_file.fna output_directory
checkv quality_summary input_file.fna output_directory

数据库安装

本次分析使用v1.5版本的流程进行分析

#可以采用下面的方法下载不同版本的数据库
wget https://portal.nersc.gov/CheckV/checkv-db-archived-version.tar.gz
tar -zxvf checkv-db-archived-version.tar.gz
cd /TJPROJ1/META_ASS/soft/CheckV/checkv-db/genome_db
diamond makedb --in checkv_reps.faa --db checkv_reps

也可以使用软件内置数据库更新脚本

checkv update_database /path/to/checkv-db /path/to/updated-checkv-db genomes.fna

软件工作方式

A:去除原病毒的宿主污染

B:估计基因组的完整性

C:预测封闭基因组

D:总结质量


关于输出结果的说明参见官网: