目录

VirSorter 2

VirSorter2应用多分类器、专家指导的方法来检测不同的DNA和RNA病毒基因组。它对以前的版本进行了重大更新:

运行

# fetch testing data
wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa
# run classification with 4 threads (-j) and test-out as output diretory (-w)
virsorter run -w test.out -i test.fa --min-length 1500 -j 4 all
ls test.out

由于VirSorter2使用的大型HMM数据库,这个小数据集需要几分钟才能完成。在输出目录(test.out)中,有三个文件很有用:

有关每个输出文件的更多详细信息可以查看:https://github.com/jiarong/VirSorter2?tab=readme-ov-file#detailed-description-on-output-files

更多选项

  1. 选择病毒组(–include-groups)

可用的选项有dsDNAphage、NCLDV、RNA、ssDNA病毒和laviviridae。默认值是dsDNAphage和ssDNA(自2.2版本以来从所有组中更改),适合那些只对噬菌体感兴趣的人。如果您只对RNA病毒感兴趣,您可以运行:

rm -rf test.out
virsorter run -w test.out -i test.fa --include-groups RNA -j 4 all
  1. 以不同的分数截止重新运行(–min-score和–classify)

VirSorter2需要一个位置参数,all或classify。默认值为all,这意味着运行整个管道,包括1)预处理,2)注释(特征提取)和3)分类。主要的计算瓶颈是注释步骤,占用了大约95%的CPU时间。如果您只是想用不同的分数截止(–min-score)重新运行,classify参数可以跳过注释步骤,只重新运行分类步骤。

virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.8 classify

上述内容覆盖了之前的最终输出文件。如果您想保留之前的结果,您可以使用–label为新的最终输出文件添加前缀。

virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.9 --label rerun classify
  1. 加快运行速度(–provirus-off)

如果您需要快速获得一些结果,有两种选择:1)使用–provirus-off关闭原病毒步骤;这降低了对仅部分病毒序列的敏感性;2)使用–max-orf-per-seq从每个序列中子采样ORF;如果序列的ORF比提供的数量多,此选项会子采样ORF。请注意,仅当使用–provirus-off时,此选项才可用。

rm -rf test.out
virsorter run -w test.out -i test.fa --provirus-off --max-orf-per-seq 20 all

输出文件说明

final-viral-combined.fa

已识别的病毒序列,包括两种类型:

final-viral-score.tsv

此表可用于进一步筛选结果。它包括以下列:

final-viral-boundary.tsv

只有此文件中的部分列可能有用: