====病毒拼接完整性评估==== 通过 CheckV 软件将序列与完整病毒基因组的大型数据库进行比较,来评估病毒基因组的质量与完整性。 CheckV 共分为三个步骤来评估病毒基因组的质量。 第一步,CheckV 将病毒序列与包含 15958 个与病毒和微生物相关的 HMM 模型的数据进行比对,识别并去除序列边缘的非病毒区域。 第二步,CheckV 根据基于 NCBI 收录的完整病毒基因组数据库的平均氨基酸同一性(AAI)来估算病毒基因组预期长度。 最后一步,CheckV 根据 AAI 和 HMM 的方法评估病毒基因组的完整性,并且将病毒基因组的完整置信度分为高置信度(大于 90%)、中置信度 (80-90%)和低置信度(小于 80%)。 软件安装路径: /TJPROJ7/RNA_R/software/CheckV/checkv-db-v1.0 脚本运行方法: 脚本位置 /TJPROJ6/RNA_SH/personal_dir/liuyan/checkv-db-v1.0/ export PYTHONPATH=/TJPROJ7/RNA_R/software/conda/miniconda3/bin/python:$PATH source /TJPROJ7/RNA_R/software/conda/miniconda3/bin/activate base export CHECKVDB=/TJPROJ6/RNA_SH/personal_dir/liuyan/checkv-db-v1.0/checkv-db-v1.0 checkv end_to_end S1.data.fas ./output -t 1 virus.fa为鉴定的病毒序列文件 结果展示: {{:个性化条目:图片11.png?400|}} (1) quality_summary.tsv:provirus/virus、质量、完整度 (2) completeness.tsv :估计完整性的结果 (3) contamination.tsv :估计污染的结果 (4) complete_genomes.tsv :已确定的假定完整基因组的结果 checkV官网:https://bitbucket.org/berkeleylab/checkv/src/master/ 找不到客户关注的病毒,放宽各数据库比对的identify参数的阈值,流程默认identify >=90%