Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。
可以评估三种数据类型:
组装的基因组; 转录组; 注释到的基因对应的氨基酸序列。 使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。
BUSCO官网:https://busco.ezlab.org
BUSCO v5数据库:https://busco-data.ezlab.org/v5/data/lineages/
直接在命令中设定参数【需设置的参数较少时】
nohup busco -i genome.fa -c 10 -o busco -m geno -l busco_downloads/eudicots_odb10 --offline &
-i:指定需要分析的数据,组装的genome或者注释的蛋白序列或者组装的转录组dna序列; -m:geno/prot/tran模式; -c:指定线程; -o:指定输出文件目录名; -l:指定数据库 使用–offline离线模式
busco结果 结果在short_summary.txt后缀文件中。
|Results from dataset eudicots_odb10 | -------------------------------------------------- |C:92.9%[S:72.4%,D:20.5%],F:1.8%,M:5.3%,n:2326 | |2162 Complete BUSCOs (C) | |1685 Complete and single-copy BUSCOs (S) | |477 Complete and duplicated BUSCOs (D) | |41 Fragmented BUSCOs (F) | |123 Missing BUSCOs (M) | |2326 Total BUSCO groups searched | --------------------------------------------------
结果的解释:
使用的eudicots_odb10真双子叶植物数据库中共有2326个BUSCO groups,其中2162(92.9%)个BUSCO groups被完整比对上(包括1685个单拷贝和477个多拷贝),41个部分比对上,123个没有比对上。
通常用完整比对上的占总共的BUSCO groups的比例作为BUSCO的重要结果,越高越好,这里是92.9%=2162/2326。
busco结果画图 在执行完毕之后,可以使用generate_plot.py画条形图,可以进行多个物种间同一个库结果的比较。
首先把所有的经过BUSCO检测的物种结果short_summary.txt后缀文件放到一个文件夹(result)下; 然后运行python busco/scripts/generate_plot.py –wd result; generate_plot.py会在指定的目录下识别short_summary.specific/genetic前缀文件,载入所有符合这个模式的文件,然后在result下生成busco_figure.R脚本。 然后运行这个脚本调用ggplot2生成图。如果当前环境的R中没有安装ggplot2,可以安装后自行运行脚本生成图。 可以修改busco_figure.R脚本以适应需要,比如修改标题(my_title),基因数量标签的尺寸(labsize)。
参考路径 /TJPROJ1/META_ASS/PreSaleEvaluation/BUSCO
细节脚本
unset PYTHONPATH unset PERL5LIB unset PERLPATH source /TJPROJ4/BioAI/mayubin/software/miniconda3/bin/activate noref-busco export PATH=/TJPROJ4/BioAI/mayubin/software/miniconda3/envs/noref-busco/bin:$PATH mkdir -p /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot cd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/trinity.out/Trinity.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o Trinity.fasta -m tran --cpu 10 run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/CORSET/unigene.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o unigene.fasta -m tran --cpu 10 run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/CORSET/cluster_all.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o cluster_all.fasta -m tran --cpu 10 ln -s /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_Trinity.fasta/short_summary_Trinity.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_unigene.fasta/short_summary_unigene.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_cluster_all.fasta/short_summary_cluster_all.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot/ cd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/bin/generate_plot.py -wd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/bin/get_busco.py -pd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot