CheckV 通过将序列与完整病毒基因组的大型数据库进行比较来估计完整性,其中包括从公开可用的宏基因组、宏转录组和宏病毒组的系统搜索中确定的 76,262 个。在对模拟数据集进行验证并与现有方法进行比较后,我们将 CheckV 应用于宏基因组组装病毒序列的大量不同集合,包括 IMG/VR 和全球海洋病毒。这揭示了 44,652 高质量病毒基因组(即> 90% 完整)。
source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate /TJPROJ1/META_ASS/soft/CheckV
有两种方法可以运行CheckV:
checkv end_to_end input_file.fna output_directory -t 16 -d /TJPROJ1/META_ASS/soft/CheckV/checkv-db-v1.5/
checkv contamination input_file.fna output_directory -t 16 checkv completeness input_file.fna output_directory -t 16 checkv complete_genomes input_file.fna output_directory checkv quality_summary input_file.fna output_directory
本次分析使用v1.5版本的流程进行分析
#可以采用下面的方法下载不同版本的数据库 wget https://portal.nersc.gov/CheckV/checkv-db-archived-version.tar.gz tar -zxvf checkv-db-archived-version.tar.gz cd /TJPROJ1/META_ASS/soft/CheckV/checkv-db/genome_db diamond makedb --in checkv_reps.faa --db checkv_reps
也可以使用软件内置数据库更新脚本
checkv update_database /path/to/checkv-db /path/to/updated-checkv-db genomes.fna
关于输出结果的说明参见官网: