用户工具

站点工具


checkm2

CheckM2

与CheckM1不同,CheckM2具有普遍训练的机器学习模型,无论分类系如何,它都用于预测基因组箱的完整性和污染。这允许它通过将其置于训练集中所有其他生物体的背景下,将许多谱系纳入其训练集,这些谱系很少,甚至只有一个高质量的基因组代表。由于这个机器学习框架,CheckM2对基因组减少或异常生物的生物体(如Nanoarchaeota或Patescibacteria)也非常准确。

CheckM2使用两个不同的机器学习模型来预测基因组完整性。“一般”梯度提升模型能够很好地推广,并打算用于GenBank或RefSeq中没有很好地代表的生物体(大致来说,当生物体在顺序、类或门类级别上是新的时)。当预测与参考训练集更密切相关的生物体的完整性时,“特定”神经网络模型更准确(大致而言,当生物体属于已知物种、属或科时)。CheckM2使用余弦相似性计算来自动确定每个输入基因组的适当完整性模型,但您也可以强制使用特定的完整性模型,或获得两者的预测输出。只有一个污染模型(基于梯度提升),无论分类学新颖性如何,都可以应用,并且在所有情况下都能很好地工作。

功能

CheckM2的主要用途是预测元基因组组装基因组(MAG)和单放大基因组(SAG)的完整性和污染,尽管它也可以应用于分离基因组。

使用方法

1. 数据输入:

可以使用–input给它一个包含FASTA文件的文件夹,并使用–output-directory指导其输出

source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate checkm2
checkm2 predict --threads 30 --input <folder_with_bins> --output-directory <output_folder> 

CheckM2还可以在其–input参数中获取文件列表。如果给它一个文件夹或文件列表,它将自动解决,并相应地处理:

source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate checkm2
checkm2 predict --threads 30 --input ../bin1.fa ../../bin2.fna /some/other/directory/bin3.fasta --output-directory <output_folder> 

Checkm2也可以处理压缩文件。如果传递带有gzip文件的文件夹,请指定gz –extension。如果给出一个文件列表,CheckM2将自动确定该做什么,并且不需要指定扩展。它还可以处理提供给–input命令的gzipped和非gzipped文件的混合列表。

source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate checkm2
checkm2 predict --threads 30 --input ../bin.13.fa GCF_002248955.2_ASM224895v2_genomic.fna.gz GCF_025026575.1_ASM2502657v1_genomic.fna.gz GCF_025026715.1_ASM2502671v1_genomic.fna.gz --output-directory ./result/ --force --extension gz

注意事项: 如果提供的基因组未能成功,提示ERROR: No DIAMOND annotation was generated. Exiting,是由于提供的基因组无法注释导致的,这时可以增加一个序列文件如上面命令中的bin.13.fa ,这样在获得的结果中能够得到全部基因组或者bins的结果 –force 是强制执行输出文件,不论输出结果路径中是否为空 使用目录内存入文件序列的方法使用的时候并没有成功,建议还是从单序列样本开始 低内存模式:如果您在RAM有限的设备上运行CheckM2,您可以使用–lowmem选项将DIAMOND RAM的使用量减少一半,而牺牲更长的运行时间。 如果您已经预测了蛋白质文件(理想情况下使用Prodigal),您可以将文件传递给Checkm2,并添加一个–genes选项,让它知道期望蛋白质文件。 默认情况下,输出文件夹将有一个制表符分隔的文件 quality_report.tsv,其中包含每个箱的完整性和污染信息。还可以通过将 –stdout 选项传递给 checkm 预测,将结果打印到 stdout。

结果展示 ├── checkm2.log 比对日志

├── diamond_output

│ └── DIAMOND_RESULTS.tsv diamond比对序列结果

├── protein_files

│ └── *.faa 基因预测的结果

└── quality_report.tsv 结果统计表格

完整脚本路径:

/TJPROJ1/META_ASS/PreSaleEvaluation/checkm2/test

软件网址来源 https://github.com/chklovski/CheckM2

checkm2.txt · 最后更改: 2023/09/06 14:47 由 yuxi