vRhyme
vRhyme是一种多功能工具,用于从宏基因组中拆分病毒基因组。vRhyme通过利用覆盖方差比较和序列特征的监督机器学习分类来构建病毒宏基因组组装基因组(vMAG)来发挥作用。
重要提示:vRhyme是为在病毒序列/Scaffold上运行而构建的。一个典型的工作流程是从宏基因组(例如,使用VIBRANT或VirSorter)预测病毒,然后使用这些预测作为vRhyme的输入。vRhyme可以将整个宏基因组作为输入,但整个宏基因组的性能尚未得到充分评估。vRhyme不是为了bin微生物。
vRhyme功能
运行
带有bam文件的最小输入示例
vRhyme -i fasta -b bam_folder/*.bam
带有覆盖范围文件的最小输入示例
vRhyme -i fasta -c coverage_file.tsv
完整的BAM输入示例
vRhyme -i fasta -g genes -p proteins -b bam_folder/*.bam -t threads -o output_folder/
读取带有去复制的输入示例
vRhyme -i fasta -g genes -p proteins -r paired_reads_folder/*.fastq -t threads -o output_folder --method longest
仅使用重复功能
vRhyme -i input_fasta -t threads -o output_folder/ --derep_only --method longest
输出说明
有用的输出
log_vRhyme_(-i).log:主日志文件
vRhyme_best_bins #.membership.tsv:最佳bins的scaffold组成结果
vRhyme_best_bins #.summary.tsv:最佳bins的汇总统计
vRhyme_best_bins_fasta/:包含最佳bins的fasta文件的文件夹
数字列表项目其他输出
log_vRhyme_paired_reads.log:读取文件与-r配对的日志。与-r一起存在。
(-i).prodigal.faa/(-i).prodigal.ffn:Prodigal预测的长度过滤输入序列的蛋白质/基因。在-p/-g的缺失下存在。
(-i).circular.tsv:圆形输入scaffold(即完整的病毒基因组)列表。终端重复(TR)类型可以是直接(DTR)或反转(ITR)。vRhyme将检查重复长度至少为20bp和最多2个不匹配;使用–keep_circ关闭。辅助脚本aux/flag_circular.py执行相同的功能,并允许修改参数。
vRhyme_machine_distances.tsv:用作机器学习模型输入的原始距离计算值
vRhyme_coverage_files:每个样本包含一个文件的文件夹,每个支架的覆盖值。行名可以在vRhyme_names.txt中找到。vRhyme_coverage_values.tsv是所有样本覆盖范围的组合,等同于-c。与-c不存在。
vRhyme_alternate_bins:包含每个替代bining迭代的成员资格和摘要文件的文件夹。vRhyme_bin_scoring.tsv包含最佳迭代的评分信息和理由,这些迭代被选为最佳bin。
vRhyme_bam_files:包含vRhyme生成的BAM文件。与-r/-u/-v/-s一起存在。除非–keep_bam只有排序的BAM文件才会存在。
vRhyme_sam_files:包含vRhyme生成的SAM文件。与-r/-u/-v和–keep_sam一起存在。