VirSorter2应用多分类器、专家指导的方法来检测不同的DNA和RNA病毒基因组。它对以前的版本进行了重大更新:
# fetch testing data wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa # run classification with 4 threads (-j) and test-out as output diretory (-w) virsorter run -w test.out -i test.fa --min-length 1500 -j 4 all ls test.out
由于VirSorter2使用的大型HMM数据库,这个小数据集需要几分钟才能完成。在输出目录(test.out)中,有三个文件很有用:
有关每个输出文件的更多详细信息可以查看:https://github.com/jiarong/VirSorter2?tab=readme-ov-file#detailed-description-on-output-files
可用的选项有dsDNAphage、NCLDV、RNA、ssDNA病毒和laviviridae。默认值是dsDNAphage和ssDNA(自2.2版本以来从所有组中更改),适合那些只对噬菌体感兴趣的人。如果您只对RNA病毒感兴趣,您可以运行:
rm -rf test.out virsorter run -w test.out -i test.fa --include-groups RNA -j 4 all
VirSorter2需要一个位置参数,all或classify。默认值为all,这意味着运行整个管道,包括1)预处理,2)注释(特征提取)和3)分类。主要的计算瓶颈是注释步骤,占用了大约95%的CPU时间。如果您只是想用不同的分数截止(–min-score)重新运行,classify参数可以跳过注释步骤,只重新运行分类步骤。
virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.8 classify
上述内容覆盖了之前的最终输出文件。如果您想保留之前的结果,您可以使用–label为新的最终输出文件添加前缀。
virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.9 --label rerun classify
如果您需要快速获得一些结果,有两种选择:1)使用–provirus-off关闭原病毒步骤;这降低了对仅部分病毒序列的敏感性;2)使用–max-orf-per-seq从每个序列中子采样ORF;如果序列的ORF比提供的数量多,此选项会子采样ORF。请注意,仅当使用–provirus-off时,此选项才可用。
rm -rf test.out virsorter run -w test.out -i test.fa --provirus-off --max-orf-per-seq 20 all