用户工具

站点工具


virsorter2

VirSorter 2

VirSorter2应用多分类器、专家指导的方法来检测不同的DNA和RNA病毒基因组。它对以前的版本进行了重大更新:

  • 与更多的病毒群一起工作,包括dsDNA噬菌体、ssDNA病毒、RNA病毒、NCLDV(核细胞病毒科)、laviviridae(病毒噬细胞);
  • 应用机器学习来使用基因组特征,包括结构/功能/分类注释和病毒特征基因来估计病毒性;
  • 使用来自元基因组或其他来源的高质量病毒基因组进行训练。

运行

# fetch testing data
wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa
# run classification with 4 threads (-j) and test-out as output diretory (-w)
virsorter run -w test.out -i test.fa --min-length 1500 -j 4 all
ls test.out

由于VirSorter2使用的大型HMM数据库,这个小数据集需要几分钟才能完成。在输出目录(test.out)中,有三个文件很有用:

  • final-viral-combined.fa:已识别的病毒序列
  • final-viral-score.tsv:表格中包含跨组每个病毒序列的评分和一些其他关键特征,可用于进一步过滤
  • final-viral-boundary.tsv:带有边界信息的表;这是一个中间文件,1)与其他两个文件相比,可能有额外的记录,应该被忽略;2)不包括病毒序列w/ < 2个基因,但有>= 1个特征基因;3)group和trim_pr是中间结果,可能分别与max_group和max_score不匹配final-viral-score.tsv

有关每个输出文件的更多详细信息可以查看:https://github.com/jiarong/VirSorter2?tab=readme-ov-file#detailed-description-on-output-files

更多选项

  1. 选择病毒组(–include-groups)

可用的选项有dsDNAphage、NCLDV、RNA、ssDNA病毒和laviviridae。默认值是dsDNAphage和ssDNA(自2.2版本以来从所有组中更改),适合那些只对噬菌体感兴趣的人。如果您只对RNA病毒感兴趣,您可以运行:

rm -rf test.out
virsorter run -w test.out -i test.fa --include-groups RNA -j 4 all
  1. 以不同的分数截止重新运行(–min-score和–classify)

VirSorter2需要一个位置参数,all或classify。默认值为all,这意味着运行整个管道,包括1)预处理,2)注释(特征提取)和3)分类。主要的计算瓶颈是注释步骤,占用了大约95%的CPU时间。如果您只是想用不同的分数截止(–min-score)重新运行,classify参数可以跳过注释步骤,只重新运行分类步骤。

virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.8 classify

上述内容覆盖了之前的最终输出文件。如果您想保留之前的结果,您可以使用–label为新的最终输出文件添加前缀。

virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.9 --label rerun classify
  1. 加快运行速度(–provirus-off)

如果您需要快速获得一些结果,有两种选择:1)使用–provirus-off关闭原病毒步骤;这降低了对仅部分病毒序列的敏感性;2)使用–max-orf-per-seq从每个序列中子采样ORF;如果序列的ORF比提供的数量多,此选项会子采样ORF。请注意,仅当使用–provirus-off时,此选项才可用。

rm -rf test.out
virsorter run -w test.out -i test.fa --provirus-off --max-orf-per-seq 20 all

输出文件说明

final-viral-combined.fa

已识别的病毒序列,包括两种类型:
  • 被识别为病毒的完整序列(用后缀||full);
  • 被识别为病毒的部分序列(用后缀||{i}_partial识别);这里{i}可以是从0开始到该contig中发现的病毒片段的最大数量;
  • 具有特征基因的短(少于两个基因)序列,被确定为病毒(用后缀||lt2gene);

final-viral-score.tsv

此表可用于进一步筛选结果。它包括以下列:
  • 序列名称
  • 跨组每个病毒序列的评分(多列)
  • 跨组最高分
  • 最大分数组
  • 连接长度
  • 标志基因计数
  • 病毒基因%
  • 非病毒基因%

final-viral-boundary.tsv

只有此文件中的部分列可能有用:
  • 序列名称:原始序列名称
  • trim_orf_index_start,trim_orf_index_end:已识别病毒序列的源序列的开始和结束ORF指数
  • trim_bp_start,trim_bp_end:已识别的病毒序列的始末位置
  • trim_pr:最终修剪病毒序列的分数
  • 部分:作为病毒的全序列或作为病毒的部分序列;当全序列有分数>分数截止时,它是完整的(0),或者从中提取的任何病毒序列都是部分的(1)
  • pr_full:原始序列的分数
  • hallmark_cnt:标志基因计数
  • 组:给予高分的病毒组的分类器;这不应该被用作可靠的分类

virsorter2.txt · 最后更改: 2024/10/23 09:26 由 yuxi