====== Busco ======
===== busco简介 =====
Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。
可以评估三种数据类型:
组装的基因组;
转录组;
注释到的基因对应的氨基酸序列。
使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。
BUSCO官网:[[https://busco.ezlab.org]]
BUSCO v5数据库:[[https://busco-data.ezlab.org/v5/data/lineages/]]
====== 使用方法 ======
直接在命令中设定参数【需设置的参数较少时】
nohup busco -i genome.fa -c 10 -o busco -m geno -l busco_downloads/eudicots_odb10 --offline &
-i:指定需要分析的数据,组装的genome或者注释的蛋白序列或者组装的转录组dna序列;
-m:geno/prot/tran模式;
-c:指定线程;
-o:指定输出文件目录名;
-l:指定数据库
使用--offline离线模式
** busco结果 **
结果在short_summary.txt后缀文件中。
--------------------------------------------------
|Results from dataset eudicots_odb10 |
--------------------------------------------------
|C:92.9%[S:72.4%,D:20.5%],F:1.8%,M:5.3%,n:2326 |
|2162 Complete BUSCOs (C) |
|1685 Complete and single-copy BUSCOs (S) |
|477 Complete and duplicated BUSCOs (D) |
|41 Fragmented BUSCOs (F) |
|123 Missing BUSCOs (M) |
|2326 Total BUSCO groups searched |
--------------------------------------------------
结果的解释:
使用的eudicots_odb10真双子叶植物数据库中共有2326个BUSCO groups,其中2162(92.9%)个BUSCO groups被完整比对上(包括1685个单拷贝和477个多拷贝),41个部分比对上,123个没有比对上。
通常用完整比对上的占总共的BUSCO groups的比例作为BUSCO的重要结果,越高越好,这里是92.9%=2162/2326。
** busco结果画图 **
在执行完毕之后,可以使用generate_plot.py画条形图,可以进行多个物种间同一个库结果的比较。
首先把所有的经过BUSCO检测的物种结果short_summary.txt后缀文件放到一个文件夹(result)下;
然后运行python busco/scripts/generate_plot.py –wd result;
generate_plot.py会在指定的目录下识别short_summary.specific/genetic前缀文件,载入所有符合这个模式的文件,然后在result下生成busco_figure.R脚本。
然后运行这个脚本调用ggplot2生成图。如果当前环境的R中没有安装ggplot2,可以安装后自行运行脚本生成图。
可以修改busco_figure.R脚本以适应需要,比如修改标题(my_title),基因数量标签的尺寸(labsize)。
{{:yuxi:busco_plot.png?400|}}
** 参考路径 **
/TJPROJ1/META_ASS/PreSaleEvaluation/BUSCO
** 细节脚本 **
unset PYTHONPATH
unset PERL5LIB
unset PERLPATH
source /TJPROJ4/BioAI/mayubin/software/miniconda3/bin/activate noref-busco
export PATH=/TJPROJ4/BioAI/mayubin/software/miniconda3/envs/noref-busco/bin:$PATH
mkdir -p /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot
cd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO
run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/trinity.out/Trinity.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o Trinity.fasta -m tran --cpu 10
run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/CORSET/unigene.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o unigene.fasta -m tran --cpu 10
run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/CORSET/cluster_all.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o cluster_all.fasta -m tran --cpu 10
ln -s /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_Trinity.fasta/short_summary_Trinity.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_unigene.fasta/short_summary_unigene.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_cluster_all.fasta/short_summary_cluster_all.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot/
cd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/bin/generate_plot.py -wd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/bin/get_busco.py -pd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot