用户工具

站点工具


busco

Busco

busco简介

Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。

可以评估三种数据类型:

组装的基因组; 转录组; 注释到的基因对应的氨基酸序列。 使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。

BUSCO官网:https://busco.ezlab.org

BUSCO v5数据库:https://busco-data.ezlab.org/v5/data/lineages/

使用方法

直接在命令中设定参数【需设置的参数较少时】

nohup busco -i genome.fa -c 10 -o busco -m geno -l busco_downloads/eudicots_odb10 --offline &

-i:指定需要分析的数据,组装的genome或者注释的蛋白序列或者组装的转录组dna序列; -m:geno/prot/tran模式; -c:指定线程; -o:指定输出文件目录名; -l:指定数据库 使用–offline离线模式

busco结果 结果在short_summary.txt后缀文件中。


  |Results from dataset eudicots_odb10              |
  --------------------------------------------------
  |C:92.9%[S:72.4%,D:20.5%],F:1.8%,M:5.3%,n:2326    |
  |2162   Complete BUSCOs (C)                       |
  |1685   Complete and single-copy BUSCOs (S)       |
  |477    Complete and duplicated BUSCOs (D)        |
  |41     Fragmented BUSCOs (F)                     |
  |123    Missing BUSCOs (M)                        |
  |2326   Total BUSCO groups searched               |
  --------------------------------------------------

结果的解释:

使用的eudicots_odb10真双子叶植物数据库中共有2326个BUSCO groups,其中2162(92.9%)个BUSCO groups被完整比对上(包括1685个单拷贝和477个多拷贝),41个部分比对上,123个没有比对上。

通常用完整比对上的占总共的BUSCO groups的比例作为BUSCO的重要结果,越高越好,这里是92.9%=2162/2326。

busco结果画图 在执行完毕之后,可以使用generate_plot.py画条形图,可以进行多个物种间同一个库结果的比较。

首先把所有的经过BUSCO检测的物种结果short_summary.txt后缀文件放到一个文件夹(result)下; 然后运行python busco/scripts/generate_plot.py –wd result; generate_plot.py会在指定的目录下识别short_summary.specific/genetic前缀文件,载入所有符合这个模式的文件,然后在result下生成busco_figure.R脚本。 然后运行这个脚本调用ggplot2生成图。如果当前环境的R中没有安装ggplot2,可以安装后自行运行脚本生成图。 可以修改busco_figure.R脚本以适应需要,比如修改标题(my_title),基因数量标签的尺寸(labsize)。

参考路径 /TJPROJ1/META_ASS/PreSaleEvaluation/BUSCO

细节脚本

unset PYTHONPATH

unset PERL5LIB

unset PERLPATH

source /TJPROJ4/BioAI/mayubin/software/miniconda3/bin/activate noref-busco

export PATH=/TJPROJ4/BioAI/mayubin/software/miniconda3/envs/noref-busco/bin:$PATH

mkdir -p /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot

cd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO

run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/trinity.out/Trinity.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o Trinity.fasta -m tran --cpu 10

run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/CORSET/unigene.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o unigene.fasta -m tran --cpu 10

run_BUSCO.py -i /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/CORSET/cluster_all.fasta -l /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/busco/database//metazoa_odb9 -o cluster_all.fasta -m tran --cpu 10

ln -s /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_Trinity.fasta/short_summary_Trinity.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_unigene.fasta/short_summary_unigene.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/run_cluster_all.fasta/short_summary_cluster_all.fasta.txt /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot/

cd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/bin/generate_plot.py -wd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot

/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_noref/bin/get_busco.py -pd /TJPROJ10/GB_TR/PJ_GB/mRNA/noref/2011/wangyinhao/X204SC23032430-Z01-F005_Mytillus_galloprovincialis_anl_20230705/TRINITY/BUSCO/plot
busco.txt · 最后更改: 2023/08/29 03:30 由 yuxi