用户工具

站点工具


checkv

CheckV

CheckV 通过将序列与完整病毒基因组的大型数据库进行比较来估计完整性,其中包括从公开可用的宏基因组、宏转录组和宏病毒组的系统搜索中确定的 76,262 个。在对模拟数据集进行验证并与现有方法进行比较后,我们将 CheckV 应用于宏基因组组装病毒序列的大量不同集合,包括 IMG/VR 和全球海洋病毒。这揭示了 44,652 高质量病毒基因组(即> 90% 完整)。

Running CheckV

 source  /TJPROJ1/META_ASS/soft/anaconda3/bin/activate /TJPROJ1/META_ASS/soft/CheckV

有两种方法可以运行CheckV:

  1. 使用单个命令来运行完整的流程(推荐):
checkv end_to_end input_file.fna output_directory -t 16 -d /TJPROJ1/META_ASS/soft/CheckV/checkv-db-v1.5/
  1. 为流程中的每个步骤使用单独的命令:
checkv contamination input_file.fna output_directory -t 16
checkv completeness input_file.fna output_directory -t 16
checkv complete_genomes input_file.fna output_directory
checkv quality_summary input_file.fna output_directory

数据库安装

本次分析使用v1.5版本的流程进行分析

#可以采用下面的方法下载不同版本的数据库
wget https://portal.nersc.gov/CheckV/checkv-db-archived-version.tar.gz
tar -zxvf checkv-db-archived-version.tar.gz
cd /TJPROJ1/META_ASS/soft/CheckV/checkv-db/genome_db
diamond makedb --in checkv_reps.faa --db checkv_reps

也可以使用软件内置数据库更新脚本

checkv update_database /path/to/checkv-db /path/to/updated-checkv-db genomes.fna

软件工作方式

A:去除原病毒的宿主污染

  • 根据与HMM的自定义数据库的比较,基因首先被注释为病毒或微生物
  • CheckV扫描contig(5'至3'),比较一对相邻基因窗口之间的基因注释和GC含量
  • 这些信息用于计算每个基因间位置的分数,并识别宿主病毒断点
  • 最适合以病毒为主的contigs

B:估计基因组的完整性

  • 首先使用AAI(平均氨基酸身份)将蛋白质与CheckV基因组数据库进行比较
  • 在确定热门点击量后,完整性计算为contig长度(或前病毒的病毒区域长度)和匹配参考长度之间的比率
  • 置信水平是根据对齐强度报告的
  • 一般来说,高置信度和中置信度估计相当准确
  • 较少的情况是,您的病毒基因组可能与CheckV数据库不紧密匹配;在这些情况下,CheckV根据在contig上识别的病毒HMM估计完整性
  • 根据发现的HMM,CheckV返回基因组完整性的估计范围(例如35%至60%的完整性),这代表了基于具有相同病毒HMM的参考基因组长度分布的90%置信区间

C:预测封闭基因组

  • 直接终端重复(DTRs)
  • 连续开始/结束时>20-bp的重复序列
  • 在我们的经验中,最值得信赖的签名
  • 可能表明从圆形模板(即共聚体)复制的圆形基因组或线性基因组
  • 原病毒
  • 预测宿主边界在5'和3'末端的病毒区域(见面板A)
  • 注意:如果主机区域已被删除(例如使用VIBRANT或VirSorter),CheckV将不会检测到病毒
  • 倒置终端重复(ITRs)
  • 在contig开始/结束时>20-bp的重复序列(3'重复反转)
  • 最不信任的签名
  • 对于上述所有方法,CheckV还根据估计的完整性检查contig是否大约是正确的序列长度;这很重要,因为终端重复可以代表元基因组组装的伪影

D:总结质量

  • 根据A-C的结果,CheckV生成一个报告文件,并将查询contigs分配给五个质量层之一(与MIUViG质量层一致并扩展):
  • 完成(见面板C)
  • 高质量(>90%的完整性)
  • 中等质量(50-90%的完整性)
  • 低质量(<50%的完整性)
  • 不确定的质量

关于输出结果的说明参见官网:

checkv.txt · 最后更改: 2024/10/22 07:37 由 yuxi