====== VirSorter 2 ======
{{ :yuxi:virstore2.png?600 |}}
VirSorter2应用多分类器、专家指导的方法来检测不同的DNA和RNA病毒基因组。它对以前的版本进行了重大更新：
  * 与更多的病毒群一起工作，包括dsDNA噬菌体、ssDNA病毒、RNA病毒、NCLDV（核细胞病毒科）、laviviridae（病毒噬细胞）；
  * 应用机器学习来使用基因组特征，包括结构/功能/分类注释和病毒特征基因来估计病毒性；
  * 使用来自元基因组或其他来源的高质量病毒基因组进行训练。

===== 运行 =====
<code>
# fetch testing data
wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa
# run classification with 4 threads (-j) and test-out as output diretory (-w)
virsorter run -w test.out -i test.fa --min-length 1500 -j 4 all
ls test.out
</code>
由于VirSorter2使用的大型HMM数据库，这个小数据集需要几分钟才能完成。在输出目录（test.out）中，有三个文件很有用：
  * final-viral-combined.fa：已识别的病毒序列
  * final-viral-score.tsv：表格中包含跨组每个病毒序列的评分和一些其他关键特征，可用于进一步过滤
  * final-viral-boundary.tsv：带有边界信息的表；这是一个中间文件，1）与其他两个文件相比，可能有额外的记录，应该被忽略；2）不包括病毒序列w/ < 2个基因，但有>= 1个特征基因；3）group和trim_pr是中间结果，可能分别与max_group和max_score不匹配final-viral-score.tsv
有关每个输出文件的更多详细信息可以查看：[[https://github.com/jiarong/VirSorter2?tab=readme-ov-file#detailed-description-on-output-files]]

==== 更多选项 ====
  - 选择病毒组（--include-groups）
可用的选项有dsDNAphage、NCLDV、RNA、ssDNA病毒和laviviridae。默认值是dsDNAphage和ssDNA（自2.2版本以来从所有组中更改），适合那些只对噬菌体感兴趣的人。如果您只对RNA病毒感兴趣，您可以运行：
<code>
rm -rf test.out
virsorter run -w test.out -i test.fa --include-groups RNA -j 4 all
</code>
  - 以不同的分数截止重新运行（--min-score和--classify）
VirSorter2需要一个位置参数，all或classify。默认值为all，这意味着运行整个管道，包括1）预处理，2）注释（特征提取）和3）分类。主要的计算瓶颈是注释步骤，占用了大约95%的CPU时间。如果您只是想用不同的分数截止（--min-score）重新运行，classify参数可以跳过注释步骤，只重新运行分类步骤。
<code>
virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.8 classify
</code>
上述内容覆盖了之前的最终输出文件。如果您想保留之前的结果，您可以使用--label为新的最终输出文件添加前缀。
<code>
virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.9 --label rerun classify
</code>
  - 加快运行速度（--provirus-off）
如果您需要快速获得一些结果，有两种选择：1）使用--provirus-off关闭原病毒步骤；这降低了对仅部分病毒序列的敏感性；2）使用--max-orf-per-seq从每个序列中子采样ORF；如果序列的ORF比提供的数量多，此选项会子采样ORF。请注意，仅当使用--provirus-off时，此选项才可用。
<code>
rm -rf test.out
virsorter run -w test.out -i test.fa --provirus-off --max-orf-per-seq 20 all
</code>

----
==== 输出文件说明 ====
=== final-viral-combined.fa ===
== 已识别的病毒序列，包括两种类型：==
  * 被识别为病毒的完整序列（用后缀||full）；
  * 被识别为病毒的部分序列（用后缀||{i}_partial识别）；这里{i}可以是从0开始到该contig中发现的病毒片段的最大数量；
  * 具有特征基因的短（少于两个基因）序列，被确定为病毒（用后缀||lt2gene）；
=== final-viral-score.tsv ===
== 此表可用于进一步筛选结果。它包括以下列：==
  * 序列名称
  * 跨组每个病毒序列的评分（多列）
  * 跨组最高分
  * 最大分数组
  * 连接长度
  * 标志基因计数
  * 病毒基因%
  * 非病毒基因%

=== final-viral-boundary.tsv ===
== 只有此文件中的部分列可能有用：==
  * 序列名称：原始序列名称
  * trim_orf_index_start，trim_orf_index_end：已识别病毒序列的源序列的开始和结束ORF指数
  * trim_bp_start，trim_bp_end：已识别的病毒序列的始末位置
  * trim_pr：最终修剪病毒序列的分数
  * 部分：作为病毒的全序列或作为病毒的部分序列；当全序列有分数>分数截止时，它是完整的（0），或者从中提取的任何病毒序列都是部分的（1）
  * pr_full：原始序列的分数
  * hallmark_cnt：标志基因计数
  * 组：给予高分的病毒组的分类器；这不应该被用作可靠的分类


----
  * 官方网址：[[https://github.com/jiarong/VirSorter2?tab=readme-ov-file#option-2-development-version]]
  * 测试网址：[[/TJPROJ1/META_ASS/soft/VirSorter2/test]]