跳至内容
售后
用户工具
登录
站点工具
搜索
工具
显示页面
修订记录
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
checkv
编辑本页后请点击“保存”。请参阅
syntax
了解维基语法。只有在您能
改进
该页面的前提下才编辑它。如果您想尝试一些东西,请先到
playground
热身。
媒体文件
====== CheckV ====== CheckV 通过将序列与完整病毒基因组的大型数据库进行比较来估计完整性,其中包括从公开可用的宏基因组、宏转录组和宏病毒组的系统搜索中确定的 76,262 个。在对模拟数据集进行验证并与现有方法进行比较后,我们将 CheckV 应用于宏基因组组装病毒序列的大量不同集合,包括 IMG/VR 和全球海洋病毒。这揭示了 44,652 高质量病毒基因组(即> 90% 完整)。 ===== Running CheckV ===== <code> source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate /TJPROJ1/META_ASS/soft/CheckV </code> 有两种方法可以运行CheckV: - 使用单个命令来运行完整的流程(推荐): <code> checkv end_to_end input_file.fna output_directory -t 16 -d /TJPROJ1/META_ASS/soft/CheckV/checkv-db-v1.5/ </code> - 为流程中的每个步骤使用单独的命令: <code> checkv contamination input_file.fna output_directory -t 16 checkv completeness input_file.fna output_directory -t 16 checkv complete_genomes input_file.fna output_directory checkv quality_summary input_file.fna output_directory </code> ==== 数据库安装 ==== 本次分析使用v1.5版本的流程进行分析 <code> #可以采用下面的方法下载不同版本的数据库 wget https://portal.nersc.gov/CheckV/checkv-db-archived-version.tar.gz tar -zxvf checkv-db-archived-version.tar.gz cd /TJPROJ1/META_ASS/soft/CheckV/checkv-db/genome_db diamond makedb --in checkv_reps.faa --db checkv_reps </code> 也可以使用软件内置数据库更新脚本 <code> checkv update_database /path/to/checkv-db /path/to/updated-checkv-db genomes.fna </code> ==== 软件工作方式 ==== {{ :yuxi:68747470733a2f2f6269746275636b65742e6f72672f6265726b656c65796c61622f636865636b762f7261772f363537666465396231633639363138356133393934353666626362623463613832303636616262362f706970656c696e652e706e67.png?600 |}} === A:去除原病毒的宿主污染 === * 根据与HMM的自定义数据库的比较,基因首先被注释为病毒或微生物 * CheckV扫描contig(5'至3'),比较一对相邻基因窗口之间的基因注释和GC含量 * 这些信息用于计算每个基因间位置的分数,并识别宿主病毒断点 * 最适合以病毒为主的contigs === B:估计基因组的完整性 === * 首先使用AAI(平均氨基酸身份)将蛋白质与CheckV基因组数据库进行比较 * 在确定热门点击量后,完整性计算为contig长度(或前病毒的病毒区域长度)和匹配参考长度之间的比率 * 置信水平是根据对齐强度报告的 * 一般来说,高置信度和中置信度估计相当准确 * 较少的情况是,您的病毒基因组可能与CheckV数据库不紧密匹配;在这些情况下,CheckV根据在contig上识别的病毒HMM估计完整性 * 根据发现的HMM,CheckV返回基因组完整性的估计范围(例如35%至60%的完整性),这代表了基于具有相同病毒HMM的参考基因组长度分布的90%置信区间 === C:预测封闭基因组 === * 直接终端重复(DTRs) * 连续开始/结束时>20-bp的重复序列 * 在我们的经验中,最值得信赖的签名 * 可能表明从圆形模板(即共聚体)复制的圆形基因组或线性基因组 * 原病毒 * 预测宿主边界在5'和3'末端的病毒区域(见面板A) * 注意:如果主机区域已被删除(例如使用VIBRANT或VirSorter),CheckV将不会检测到病毒 * 倒置终端重复(ITRs) * 在contig开始/结束时>20-bp的重复序列(3'重复反转) * 最不信任的签名 * 对于上述所有方法,CheckV还根据估计的完整性检查contig是否大约是正确的序列长度;这很重要,因为终端重复可以代表元基因组组装的伪影 === D:总结质量 === * 根据A-C的结果,CheckV生成一个报告文件,并将查询contigs分配给五个质量层之一(与MIUViG质量层一致并扩展): * 完成(见面板C) * 高质量(>90%的完整性) * 中等质量(50-90%的完整性) * 低质量(<50%的完整性) * 不确定的质量 ---- 关于输出结果的说明参见官网: * 官网路径:[[https://pypi.org/project/checkv/]] * 脚本路径:[[/TJPROJ1/META_ASS/soft/CheckV]]
保存
预览
取消
编辑摘要
当您选择开始编辑本页,即寓示你同意将你贡献的内容按下列许可协议发布:
CC Attribution-Share Alike 4.0 International
checkv.txt
· 最后更改: 2024/10/22 07:37 由
yuxi
页面工具
显示页面
修订记录
反向链接
回到顶部