Prokka 是一个原核物种基因组注释工具,由墨尔本大学生物信息学家 Torsten Seemann 开发的基于命令行的本地快速注释工具,用来注释小基因组比如细菌、病毒等非常方便、快速。
Prokka官网:https://github.com/tseemann/prokka
Prokka可学习参考网址:https://indexofire.github.io/pathongs/book/C03_Genome-Annotation/01_prokka/
激活conda环境
source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate metawrap-env export PERL5LIB=/TJPROJ1/META_ASS/soft/anaconda3/envs/metawrap-env/lib/site_perl/5.26.2/
直接上预测:
prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ104/DZLSTJ104.seq --outdir prokka_out --prefix DZLSTJ104 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ106/DZLSTJ106.seq --outdir prokka_out --prefix DZLSTJ106 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ108/DZLSTJ108.seq --outdir prokka_out --prefix DZLSTJ108 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ121/DZLSTJ121.seq --outdir prokka_out --prefix DZLSTJ121 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ127/DZLSTJ127.seq --outdir prokka_out --prefix DZLSTJ127 --force
输出结果
egd.err | prokka 对注释结果存在的一些疑问进行报告的信息 | egd.faa | 注释的氨基酸序列 | egd.ffn | 注释的碱基序列 | egd.fna | 以 NCBI gnl | centre | 为ID命名的碱基序列文件 | egd.fsa | 以 NCBI gnl | centre | 为ID命名的碱基序列文件 | egd.gbk | genbank 格式的注释文件 | egd.gff | gff 格式的注释文件 | egd.log | prokka 运行日志 | egd.sqn | sqn 格式的文件,可以用来提交到 NCBI | egd.tbl | tbl 格式的文件,可以用来提交到 NCBI | egd.tsv | tsv 格式文件,注释基因的列表 | egd.txt | prokka 注释的各种类型序列统计信息 |
–kingdom
默认注释的是细菌基因组,如果是其他物种则建议添加物种参数。可选项有:
Archaea: 真菌 Bacteria: 细菌 Mitochondria: 线立体 Viruses: 病毒 如果要注释病毒基因组,除了添加–kingdom外
prokka --kingdom Viruses contigs.fasta
.tsv 文件 tsv 文件按照 locus_tag 顺序排序了注释的结果。
# 显示 tsv 内容 $ head egd.tsv locus_tag ftype length_bp gene EC_number COG product DJECODEN_00001 CDS 1356 dnaA COG0593 Chromosomal replication initiator protein DnaA DJECODEN_00001 gene 1356 dnaA DJECODEN_00001 mRNA 1356 dnaA DJECODEN_00002 CDS 1146 dnaN COG0592 Beta sliding clamp DJECODEN_00002 gene 1146 dnaN DJECODEN_00002 mRNA 1146 dnaN DJECODEN_00003 CDS 1344 yeeO_1 COG0534 putative FMN/FAD exporter YeeO DJECODEN_00003 gene 1344 yeeO_1 DJECODEN_00003 mRNA 1344 yeeO_1
locus_tag: 注释基因的 locus 名称
ftype: 类型,默认为CDS,如果打开–addgenes和–addmrna参数,则会区别是RNA还是编码基因
length_bp: 序列长度
gene: 根据数据库注释对应的基因名称,如果是多拷贝,则用_1,_2等区分
EC_number: 基因对应的 EC 值
COG: 基因对应的COG
product: 基因编码的蛋白质产物
# 批量注释基因组 $ find . -name *.fna | sed 's/\.fna//g' | \ > parallel --max-args=1 prorkka --outdir prokka/{1} --prefix {1} \ > --addgenes --addmrna --mincontiglen 200 --centre 'HZCDC' \ > --proteins ref.gbk --rnammer --rfam {1}.fna # 注释宏基因组 $ prokka --metagenome --outdir meta contigs.fa # 将注释CDS长度排序 $ awk '/CDS/ {print $0}' egd.tsv | sort -kn3 -r | less # 显示所有的不重复注释产物 $ awk '!a[$1]++{print}' egd.tsv # 显示所有COG注释 $ awk '/COG/' egd.tsv