====== VirSorter 2 ====== {{ :yuxi:virstore2.png?600 |}} VirSorter2应用多分类器、专家指导的方法来检测不同的DNA和RNA病毒基因组。它对以前的版本进行了重大更新: * 与更多的病毒群一起工作,包括dsDNA噬菌体、ssDNA病毒、RNA病毒、NCLDV(核细胞病毒科)、laviviridae(病毒噬细胞); * 应用机器学习来使用基因组特征,包括结构/功能/分类注释和病毒特征基因来估计病毒性; * 使用来自元基因组或其他来源的高质量病毒基因组进行训练。 ===== 运行 ===== # fetch testing data wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa # run classification with 4 threads (-j) and test-out as output diretory (-w) virsorter run -w test.out -i test.fa --min-length 1500 -j 4 all ls test.out 由于VirSorter2使用的大型HMM数据库,这个小数据集需要几分钟才能完成。在输出目录(test.out)中,有三个文件很有用: * final-viral-combined.fa:已识别的病毒序列 * final-viral-score.tsv:表格中包含跨组每个病毒序列的评分和一些其他关键特征,可用于进一步过滤 * final-viral-boundary.tsv:带有边界信息的表;这是一个中间文件,1)与其他两个文件相比,可能有额外的记录,应该被忽略;2)不包括病毒序列w/ < 2个基因,但有>= 1个特征基因;3)group和trim_pr是中间结果,可能分别与max_group和max_score不匹配final-viral-score.tsv 有关每个输出文件的更多详细信息可以查看:[[https://github.com/jiarong/VirSorter2?tab=readme-ov-file#detailed-description-on-output-files]] ==== 更多选项 ==== - 选择病毒组(--include-groups) 可用的选项有dsDNAphage、NCLDV、RNA、ssDNA病毒和laviviridae。默认值是dsDNAphage和ssDNA(自2.2版本以来从所有组中更改),适合那些只对噬菌体感兴趣的人。如果您只对RNA病毒感兴趣,您可以运行: rm -rf test.out virsorter run -w test.out -i test.fa --include-groups RNA -j 4 all - 以不同的分数截止重新运行(--min-score和--classify) VirSorter2需要一个位置参数,all或classify。默认值为all,这意味着运行整个管道,包括1)预处理,2)注释(特征提取)和3)分类。主要的计算瓶颈是注释步骤,占用了大约95%的CPU时间。如果您只是想用不同的分数截止(--min-score)重新运行,classify参数可以跳过注释步骤,只重新运行分类步骤。 virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.8 classify 上述内容覆盖了之前的最终输出文件。如果您想保留之前的结果,您可以使用--label为新的最终输出文件添加前缀。 virsorter run -w test.out -i test.fa --include-groups "dsDNAphage,ssDNA" -j 4 --min-score 0.9 --label rerun classify - 加快运行速度(--provirus-off) 如果您需要快速获得一些结果,有两种选择:1)使用--provirus-off关闭原病毒步骤;这降低了对仅部分病毒序列的敏感性;2)使用--max-orf-per-seq从每个序列中子采样ORF;如果序列的ORF比提供的数量多,此选项会子采样ORF。请注意,仅当使用--provirus-off时,此选项才可用。 rm -rf test.out virsorter run -w test.out -i test.fa --provirus-off --max-orf-per-seq 20 all ---- ==== 输出文件说明 ==== === final-viral-combined.fa === == 已识别的病毒序列,包括两种类型:== * 被识别为病毒的完整序列(用后缀||full); * 被识别为病毒的部分序列(用后缀||{i}_partial识别);这里{i}可以是从0开始到该contig中发现的病毒片段的最大数量; * 具有特征基因的短(少于两个基因)序列,被确定为病毒(用后缀||lt2gene); === final-viral-score.tsv === == 此表可用于进一步筛选结果。它包括以下列:== * 序列名称 * 跨组每个病毒序列的评分(多列) * 跨组最高分 * 最大分数组 * 连接长度 * 标志基因计数 * 病毒基因% * 非病毒基因% === final-viral-boundary.tsv === == 只有此文件中的部分列可能有用:== * 序列名称:原始序列名称 * trim_orf_index_start,trim_orf_index_end:已识别病毒序列的源序列的开始和结束ORF指数 * trim_bp_start,trim_bp_end:已识别的病毒序列的始末位置 * trim_pr:最终修剪病毒序列的分数 * 部分:作为病毒的全序列或作为病毒的部分序列;当全序列有分数>分数截止时,它是完整的(0),或者从中提取的任何病毒序列都是部分的(1) * pr_full:原始序列的分数 * hallmark_cnt:标志基因计数 * 组:给予高分的病毒组的分类器;这不应该被用作可靠的分类 ---- * 官方网址:[[https://github.com/jiarong/VirSorter2?tab=readme-ov-file#option-2-development-version]] * 测试网址:[[/TJPROJ1/META_ASS/soft/VirSorter2/test]]