====== 原核生物基因组快速注释——Prokka ====== ===== Prokka简介 ===== Prokka 是一个原核物种基因组注释工具,由墨尔本大学生物信息学家 Torsten Seemann 开发的基于命令行的本地快速注释工具,用来注释小基因组比如细菌、病毒等非常方便、快速。 Prokka官网:[[https://github.com/tseemann/prokka]] Prokka可学习参考网址:[[https://indexofire.github.io/pathongs/book/C03_Genome-Annotation/01_prokka/]] ====== 使用方法 ====== 激活conda环境 source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate metawrap-env export PERL5LIB=/TJPROJ1/META_ASS/soft/anaconda3/envs/metawrap-env/lib/site_perl/5.26.2/ 直接上预测: prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ104/DZLSTJ104.seq --outdir prokka_out --prefix DZLSTJ104 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ106/DZLSTJ106.seq --outdir prokka_out --prefix DZLSTJ106 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ108/DZLSTJ108.seq --outdir prokka_out --prefix DZLSTJ108 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ121/DZLSTJ121.seq --outdir prokka_out --prefix DZLSTJ121 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ127/DZLSTJ127.seq --outdir prokka_out --prefix DZLSTJ127 --force ** 输出结果 ** | | egd.err | prokka 对注释结果存在的一些疑问进行报告的信息 | | egd.faa | 注释的氨基酸序列 | | egd.ffn | 注释的碱基序列 | | egd.fna | 以 NCBI gnl|centre| 为ID命名的碱基序列文件 | | egd.fsa | 以 NCBI gnl|centre| 为ID命名的碱基序列文件 | | egd.gbk | genbank 格式的注释文件 | | egd.gff | gff 格式的注释文件 | | egd.log | prokka 运行日志 | | egd.sqn | sqn 格式的文件,可以用来提交到 NCBI | | egd.tbl | tbl 格式的文件,可以用来提交到 NCBI | | egd.tsv | tsv 格式文件,注释基因的列表 | | egd.txt | prokka 注释的各种类型序列统计信息 | --kingdom 默认注释的是细菌基因组,如果是其他物种则建议添加物种参数。可选项有: Archaea: 真菌 Bacteria: 细菌 Mitochondria: 线立体 Viruses: 病毒 如果要注释病毒基因组,除了添加--kingdom外 prokka --kingdom Viruses contigs.fasta .tsv 文件 tsv 文件按照 locus_tag 顺序排序了注释的结果。 # 显示 tsv 内容 $ head egd.tsv locus_tag ftype length_bp gene EC_number COG product DJECODEN_00001 CDS 1356 dnaA COG0593 Chromosomal replication initiator protein DnaA DJECODEN_00001 gene 1356 dnaA DJECODEN_00001 mRNA 1356 dnaA DJECODEN_00002 CDS 1146 dnaN COG0592 Beta sliding clamp DJECODEN_00002 gene 1146 dnaN DJECODEN_00002 mRNA 1146 dnaN DJECODEN_00003 CDS 1344 yeeO_1 COG0534 putative FMN/FAD exporter YeeO DJECODEN_00003 gene 1344 yeeO_1 DJECODEN_00003 mRNA 1344 yeeO_1 ''locus_tag: 注释基因的 locus 名称 ftype: 类型,默认为CDS,如果打开--addgenes和--addmrna参数,则会区别是RNA还是编码基因 length_bp: 序列长度 gene: 根据数据库注释对应的基因名称,如果是多拷贝,则用_1,_2等区分 EC_number: 基因对应的 EC 值 COG: 基因对应的COG product: 基因编码的蛋白质产物'' # 批量注释基因组 $ find . -name *.fna | sed 's/\.fna//g' | \ > parallel --max-args=1 prorkka --outdir prokka/{1} --prefix {1} \ > --addgenes --addmrna --mincontiglen 200 --centre 'HZCDC' \ > --proteins ref.gbk --rnammer --rfam {1}.fna # 注释宏基因组 $ prokka --metagenome --outdir meta contigs.fa # 将注释CDS长度排序 $ awk '/CDS/ {print $0}' egd.tsv | sort -kn3 -r | less # 显示所有的不重复注释产物 $ awk '!a[$1]++{print}' egd.tsv # 显示所有COG注释 $ awk '/COG/' egd.tsv