====== 原核生物基因组快速注释——Prokka ======
===== Prokka简介 =====
Prokka 是一个原核物种基因组注释工具,由墨尔本大学生物信息学家 Torsten Seemann 开发的基于命令行的本地快速注释工具,用来注释小基因组比如细菌、病毒等非常方便、快速。
Prokka官网:[[https://github.com/tseemann/prokka]]
Prokka可学习参考网址:[[https://indexofire.github.io/pathongs/book/C03_Genome-Annotation/01_prokka/]]
====== 使用方法 ======
激活conda环境
source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate metawrap-env
export PERL5LIB=/TJPROJ1/META_ASS/soft/anaconda3/envs/metawrap-env/lib/site_perl/5.26.2/
直接上预测:
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ104/DZLSTJ104.seq --outdir prokka_out --prefix DZLSTJ104 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ106/DZLSTJ106.seq --outdir prokka_out --prefix DZLSTJ106 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ108/DZLSTJ108.seq --outdir prokka_out --prefix DZLSTJ108 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ121/DZLSTJ121.seq --outdir prokka_out --prefix DZLSTJ121 --force
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ127/DZLSTJ127.seq --outdir prokka_out --prefix DZLSTJ127 --force
** 输出结果 **
| | egd.err | prokka 对注释结果存在的一些疑问进行报告的信息 | | egd.faa | 注释的氨基酸序列 | | egd.ffn | 注释的碱基序列 | | egd.fna | 以 NCBI gnl|centre| 为ID命名的碱基序列文件 | | egd.fsa | 以 NCBI gnl|centre| 为ID命名的碱基序列文件 | | egd.gbk | genbank 格式的注释文件 | | egd.gff | gff 格式的注释文件 | | egd.log | prokka 运行日志 | | egd.sqn | sqn 格式的文件,可以用来提交到 NCBI | | egd.tbl | tbl 格式的文件,可以用来提交到 NCBI | | egd.tsv | tsv 格式文件,注释基因的列表 | | egd.txt | prokka 注释的各种类型序列统计信息 |
--kingdom
默认注释的是细菌基因组,如果是其他物种则建议添加物种参数。可选项有:
Archaea: 真菌
Bacteria: 细菌
Mitochondria: 线立体
Viruses: 病毒
如果要注释病毒基因组,除了添加--kingdom外
prokka --kingdom Viruses contigs.fasta
.tsv 文件
tsv 文件按照 locus_tag 顺序排序了注释的结果。
# 显示 tsv 内容
$ head egd.tsv
locus_tag ftype length_bp gene EC_number COG product
DJECODEN_00001 CDS 1356 dnaA COG0593 Chromosomal replication initiator protein DnaA
DJECODEN_00001 gene 1356 dnaA
DJECODEN_00001 mRNA 1356 dnaA
DJECODEN_00002 CDS 1146 dnaN COG0592 Beta sliding clamp
DJECODEN_00002 gene 1146 dnaN
DJECODEN_00002 mRNA 1146 dnaN
DJECODEN_00003 CDS 1344 yeeO_1 COG0534 putative FMN/FAD exporter YeeO
DJECODEN_00003 gene 1344 yeeO_1
DJECODEN_00003 mRNA 1344 yeeO_1
''locus_tag: 注释基因的 locus 名称
ftype: 类型,默认为CDS,如果打开--addgenes和--addmrna参数,则会区别是RNA还是编码基因
length_bp: 序列长度
gene: 根据数据库注释对应的基因名称,如果是多拷贝,则用_1,_2等区分
EC_number: 基因对应的 EC 值
COG: 基因对应的COG
product: 基因编码的蛋白质产物''
# 批量注释基因组
$ find . -name *.fna | sed 's/\.fna//g' | \
> parallel --max-args=1 prorkka --outdir prokka/{1} --prefix {1} \
> --addgenes --addmrna --mincontiglen 200 --centre 'HZCDC' \
> --proteins ref.gbk --rnammer --rfam {1}.fna
# 注释宏基因组
$ prokka --metagenome --outdir meta contigs.fa
# 将注释CDS长度排序
$ awk '/CDS/ {print $0}' egd.tsv | sort -kn3 -r | less
# 显示所有的不重复注释产物
$ awk '!a[$1]++{print}' egd.tsv
# 显示所有COG注释
$ awk '/COG/' egd.tsv