====== VirSorter 2 ======
{{ :yuxi:virstore2.png?600 |}}
VirSorter2应用多分类器、专家指导的方法来检测不同的DNA和RNA病毒基因组。它对以前的版本进行了重大更新:
* 与更多的病毒群一起工作,包括dsDNA噬菌体、ssDNA病毒、RNA病毒、NCLDV(核细胞病毒科)、laviviridae(病毒噬细胞);
* 应用机器学习来使用基因组特征,包括结构/功能/分类注释和病毒特征基因来估计病毒性;
* 使用来自元基因组或其他来源的高质量病毒基因组进行训练。
===== 运行 =====
# fetch testing data
wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa
# run classification with 4 threads (-j) and test-out as output diretory (-w)
virsorter run -w test.out -i test.fa --min-length 1500 -j 4 all
ls test.out
由于VirSorter2使用的大型HMM数据库,这个小数据集需要几分钟才能完成。在输出目录(test.out)中,有三个文件很有用:
* final-viral-combined.fa:已识别的病毒序列
* final-viral-score.tsv:表格中包含跨组每个病毒序列的评分和一些其他关键特征,可用于进一步过滤
* final-viral-boundary.tsv:带有边界信息的表;这是一个中间文件,1)与其他两个文件相比,可能有额外的记录,应该被忽略;2)不包括病毒序列w/ < 2个基因,但有>= 1个特征基因;3)group和trim_pr是中间结果,可能分别与max_group和max_score不匹配final-viral-score.tsv
有关每个输出文件的更多详细信息可以查看:[[https://github.com/jiarong/VirSorter2?tab=readme-ov-file#detailed-description-on-output-files]]
==== 更多选项 ====
- 选择病毒组(--include-groups)
可用的选项有dsDNAphage、NCLDV、RNA、ssDNA病毒和laviviridae。默认值是dsDNAphage和ssDNA(自2.2版本以来从所有组中更改),适合那些只对噬菌体感兴趣的人。如果您只对RNA病毒感兴趣,您可以运行:
rm -rf test.out
virsorter run -w test.out -i test.fa --include-groups RNA -j 4 all
- 以不同的分数截止重新运行(--min-score和--classify)
VirSorter2需要一个位置参数,all或classify。默认值为all,这意味着运行整个管道,包括1)预处理,2)注释(特征提取)和3)分类。主要的计算瓶颈是注释步骤,占用了大约95%的CPU时间。如果您只是想用不同的分数截止(--min-score)重新运行,classify参数可以跳过注释步骤,只重新运行分类步骤。
virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.8 classify
上述内容覆盖了之前的最终输出文件。如果您想保留之前的结果,您可以使用--label为新的最终输出文件添加前缀。
virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.9 --label rerun classify
- 加快运行速度(--provirus-off)
如果您需要快速获得一些结果,有两种选择:1)使用--provirus-off关闭原病毒步骤;这降低了对仅部分病毒序列的敏感性;2)使用--max-orf-per-seq从每个序列中子采样ORF;如果序列的ORF比提供的数量多,此选项会子采样ORF。请注意,仅当使用--provirus-off时,此选项才可用。
rm -rf test.out
virsorter run -w test.out -i test.fa --provirus-off --max-orf-per-seq 20 all
----
==== 输出文件说明 ====
=== final-viral-combined.fa ===
== 已识别的病毒序列,包括两种类型:==
* 被识别为病毒的完整序列(用后缀||full);
* 被识别为病毒的部分序列(用后缀||{i}_partial识别);这里{i}可以是从0开始到该contig中发现的病毒片段的最大数量;
* 具有特征基因的短(少于两个基因)序列,被确定为病毒(用后缀||lt2gene);
=== final-viral-score.tsv ===
== 此表可用于进一步筛选结果。它包括以下列:==
* 序列名称
* 跨组每个病毒序列的评分(多列)
* 跨组最高分
* 最大分数组
* 连接长度
* 标志基因计数
* 病毒基因%
* 非病毒基因%
=== final-viral-boundary.tsv ===
== 只有此文件中的部分列可能有用:==
* 序列名称:原始序列名称
* trim_orf_index_start,trim_orf_index_end:已识别病毒序列的源序列的开始和结束ORF指数
* trim_bp_start,trim_bp_end:已识别的病毒序列的始末位置
* trim_pr:最终修剪病毒序列的分数
* 部分:作为病毒的全序列或作为病毒的部分序列;当全序列有分数>分数截止时,它是完整的(0),或者从中提取的任何病毒序列都是部分的(1)
* pr_full:原始序列的分数
* hallmark_cnt:标志基因计数
* 组:给予高分的病毒组的分类器;这不应该被用作可靠的分类
----
* 官方网址:[[https://github.com/jiarong/VirSorter2?tab=readme-ov-file#option-2-development-version]]
* 测试网址:[[/TJPROJ1/META_ASS/soft/VirSorter2/test]]