VirSorter 2

VirSorter2应用多分类器、专家指导的方法来检测不同的DNA和RNA病毒基因组。它对以前的版本进行了重大更新：

与更多的病毒群一起工作，包括dsDNA噬菌体、ssDNA病毒、RNA病毒、NCLDV（核细胞病毒科）、laviviridae（病毒噬细胞）；
应用机器学习来使用基因组特征，包括结构/功能/分类注释和病毒特征基因来估计病毒性；
使用来自元基因组或其他来源的高质量病毒基因组进行训练。

运行

# fetch testing data
wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa
# run classification with 4 threads (-j) and test-out as output diretory (-w)
virsorter run -w test.out -i test.fa --min-length 1500 -j 4 all
ls test.out

由于VirSorter2使用的大型HMM数据库，这个小数据集需要几分钟才能完成。在输出目录（test.out）中，有三个文件很有用：

final-viral-combined.fa：已识别的病毒序列
final-viral-score.tsv：表格中包含跨组每个病毒序列的评分和一些其他关键特征，可用于进一步过滤
final-viral-boundary.tsv：带有边界信息的表；这是一个中间文件，1）与其他两个文件相比，可能有额外的记录，应该被忽略；2）不包括病毒序列w/ < 2个基因，但有>= 1个特征基因；3）group和trim_pr是中间结果，可能分别与max_group和max_score不匹配final-viral-score.tsv

有关每个输出文件的更多详细信息可以查看：https://github.com/jiarong/VirSorter2?tab=readme-ov-file#detailed-description-on-output-files

更多选项

选择病毒组（–include-groups）

可用的选项有dsDNAphage、NCLDV、RNA、ssDNA病毒和laviviridae。默认值是dsDNAphage和ssDNA（自2.2版本以来从所有组中更改），适合那些只对噬菌体感兴趣的人。如果您只对RNA病毒感兴趣，您可以运行：

rm -rf test.out
virsorter run -w test.out -i test.fa --include-groups RNA -j 4 all

以不同的分数截止重新运行（–min-score和–classify）

VirSorter2需要一个位置参数，all或classify。默认值为all，这意味着运行整个管道，包括1）预处理，2）注释（特征提取）和3）分类。主要的计算瓶颈是注释步骤，占用了大约95%的CPU时间。如果您只是想用不同的分数截止（–min-score）重新运行，classify参数可以跳过注释步骤，只重新运行分类步骤。

virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.8 classify

上述内容覆盖了之前的最终输出文件。如果您想保留之前的结果，您可以使用–label为新的最终输出文件添加前缀。

virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.9 --label rerun classify

加快运行速度（–provirus-off）

如果您需要快速获得一些结果，有两种选择：1）使用–provirus-off关闭原病毒步骤；这降低了对仅部分病毒序列的敏感性；2）使用–max-orf-per-seq从每个序列中子采样ORF；如果序列的ORF比提供的数量多，此选项会子采样ORF。请注意，仅当使用–provirus-off时，此选项才可用。

rm -rf test.out
virsorter run -w test.out -i test.fa --provirus-off --max-orf-per-seq 20 all

输出文件说明

final-viral-combined.fa

已识别的病毒序列，包括两种类型：

被识别为病毒的完整序列（用后缀||full）；
被识别为病毒的部分序列（用后缀||{i}_partial识别）；这里{i}可以是从0开始到该contig中发现的病毒片段的最大数量；
具有特征基因的短（少于两个基因）序列，被确定为病毒（用后缀||lt2gene）；

final-viral-score.tsv

此表可用于进一步筛选结果。它包括以下列：

序列名称
跨组每个病毒序列的评分（多列）
跨组最高分
最大分数组
连接长度
标志基因计数
病毒基因%
非病毒基因%

final-viral-boundary.tsv

只有此文件中的部分列可能有用：

序列名称：原始序列名称
trim_orf_index_start，trim_orf_index_end：已识别病毒序列的源序列的开始和结束ORF指数
trim_bp_start，trim_bp_end：已识别的病毒序列的始末位置
trim_pr：最终修剪病毒序列的分数
部分：作为病毒的全序列或作为病毒的部分序列；当全序列有分数>分数截止时，它是完整的（0），或者从中提取的任何病毒序列都是部分的（1）
pr_full：原始序列的分数
hallmark_cnt：标志基因计数
组：给予高分的病毒组的分类器；这不应该被用作可靠的分类

官方网址：https://github.com/jiarong/VirSorter2?tab=readme-ov-file#option-2-development-version
测试网址：/TJPROJ1/META_ASS/soft/VirSorter2/test

售后

用户工具

站点工具

目录