用户工具

站点工具


原核生物基因组快速注释_prokka

原核生物基因组快速注释——Prokka

Prokka简介

Prokka 是一个原核物种基因组注释工具,由墨尔本大学生物信息学家 Torsten Seemann 开发的基于命令行的本地快速注释工具,用来注释小基因组比如细菌、病毒等非常方便、快速。

Prokka官网:https://github.com/tseemann/prokka

Prokka可学习参考网址:https://indexofire.github.io/pathongs/book/C03_Genome-Annotation/01_prokka/

使用方法

激活conda环境

source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate metawrap-env
export PERL5LIB=/TJPROJ1/META_ASS/soft/anaconda3/envs/metawrap-env/lib/site_perl/5.26.2/

直接上预测:

prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ104/DZLSTJ104.seq --outdir prokka_out --prefix DZLSTJ104 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ106/DZLSTJ106.seq --outdir prokka_out --prefix DZLSTJ106 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ108/DZLSTJ108.seq --outdir prokka_out --prefix DZLSTJ108 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ121/DZLSTJ121.seq --outdir prokka_out --prefix DZLSTJ121 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ127/DZLSTJ127.seq --outdir prokka_out --prefix DZLSTJ127 --force

输出结果

egd.err prokka 对注释结果存在的一些疑问进行报告的信息 egd.faa 注释的氨基酸序列 egd.ffn 注释的碱基序列 egd.fna 以 NCBI gnlcentre 为ID命名的碱基序列文件 egd.fsa 以 NCBI gnlcentre 为ID命名的碱基序列文件 egd.gbk genbank 格式的注释文件 egd.gff gff 格式的注释文件 egd.log prokka 运行日志 egd.sqn sqn 格式的文件,可以用来提交到 NCBI egd.tbl tbl 格式的文件,可以用来提交到 NCBI egd.tsv tsv 格式文件,注释基因的列表 egd.txt prokka 注释的各种类型序列统计信息

–kingdom

默认注释的是细菌基因组,如果是其他物种则建议添加物种参数。可选项有:

Archaea: 真菌 Bacteria: 细菌 Mitochondria: 线立体 Viruses: 病毒 如果要注释病毒基因组,除了添加–kingdom外

prokka --kingdom Viruses contigs.fasta

.tsv 文件 tsv 文件按照 locus_tag 顺序排序了注释的结果。

# 显示 tsv 内容
$ head egd.tsv

locus_tag       ftype   length_bp       gene    EC_number       COG     product
DJECODEN_00001  CDS     1356    dnaA            COG0593 Chromosomal replication initiator protein DnaA
DJECODEN_00001  gene    1356    dnaA
DJECODEN_00001  mRNA    1356    dnaA
DJECODEN_00002  CDS     1146    dnaN            COG0592 Beta sliding clamp
DJECODEN_00002  gene    1146    dnaN
DJECODEN_00002  mRNA    1146    dnaN
DJECODEN_00003  CDS     1344    yeeO_1          COG0534 putative FMN/FAD exporter YeeO
DJECODEN_00003  gene    1344    yeeO_1
DJECODEN_00003  mRNA    1344    yeeO_1

locus_tag: 注释基因的 locus 名称 ftype: 类型,默认为CDS,如果打开–addgenes和–addmrna参数,则会区别是RNA还是编码基因 length_bp: 序列长度 gene: 根据数据库注释对应的基因名称,如果是多拷贝,则用_1,_2等区分 EC_number: 基因对应的 EC 值 COG: 基因对应的COG product: 基因编码的蛋白质产物

# 批量注释基因组
$ find . -name *.fna | sed 's/\.fna//g' | \
> parallel --max-args=1 prorkka --outdir prokka/{1} --prefix {1} \
> --addgenes --addmrna --mincontiglen 200 --centre 'HZCDC' \
> --proteins ref.gbk --rnammer --rfam {1}.fna

# 注释宏基因组
$ prokka --metagenome --outdir meta contigs.fa

# 将注释CDS长度排序
$ awk '/CDS/ {print $0}' egd.tsv | sort -kn3 -r | less

# 显示所有的不重复注释产物
$ awk '!a[$1]++{print}' egd.tsv

# 显示所有COG注释
$ awk '/COG/' egd.tsv
原核生物基因组快速注释_prokka.txt · 最后更改: 2023/09/27 09:27 由 yuxi