跳至内容
售后
用户工具
登录
站点工具
搜索
工具
显示页面
修订记录
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
原核生物基因组快速注释_prokka
编辑本页后请点击“保存”。请参阅
syntax
了解维基语法。只有在您能
改进
该页面的前提下才编辑它。如果您想尝试一些东西,请先到
playground
热身。
媒体文件
====== 原核生物基因组快速注释——Prokka ====== ===== Prokka简介 ===== Prokka 是一个原核物种基因组注释工具,由墨尔本大学生物信息学家 Torsten Seemann 开发的基于命令行的本地快速注释工具,用来注释小基因组比如细菌、病毒等非常方便、快速。 Prokka官网:[[https://github.com/tseemann/prokka]] Prokka可学习参考网址:[[https://indexofire.github.io/pathongs/book/C03_Genome-Annotation/01_prokka/]] ====== 使用方法 ====== 激活conda环境 <code> source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate metawrap-env export PERL5LIB=/TJPROJ1/META_ASS/soft/anaconda3/envs/metawrap-env/lib/site_perl/5.26.2/ </code> 直接上预测: <code> prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ104/DZLSTJ104.seq --outdir prokka_out --prefix DZLSTJ104 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ106/DZLSTJ106.seq --outdir prokka_out --prefix DZLSTJ106 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ108/DZLSTJ108.seq --outdir prokka_out --prefix DZLSTJ108 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ121/DZLSTJ121.seq --outdir prokka_out --prefix DZLSTJ121 --force prokka /TJPROJ1/META_ASS/PreSaleEvaluation/prokka/02.Assembly/DZLSTJ127/DZLSTJ127.seq --outdir prokka_out --prefix DZLSTJ127 --force </code> ** 输出结果 ** | | egd.err | prokka 对注释结果存在的一些疑问进行报告的信息 | | egd.faa | 注释的氨基酸序列 | | egd.ffn | 注释的碱基序列 | | egd.fna | 以 NCBI gnl|centre| 为ID命名的碱基序列文件 | | egd.fsa | 以 NCBI gnl|centre| 为ID命名的碱基序列文件 | | egd.gbk | genbank 格式的注释文件 | | egd.gff | gff 格式的注释文件 | | egd.log | prokka 运行日志 | | egd.sqn | sqn 格式的文件,可以用来提交到 NCBI | | egd.tbl | tbl 格式的文件,可以用来提交到 NCBI | | egd.tsv | tsv 格式文件,注释基因的列表 | | egd.txt | prokka 注释的各种类型序列统计信息 | --kingdom 默认注释的是细菌基因组,如果是其他物种则建议添加物种参数。可选项有: Archaea: 真菌 Bacteria: 细菌 Mitochondria: 线立体 Viruses: 病毒 如果要注释病毒基因组,除了添加--kingdom外 <code> prokka --kingdom Viruses contigs.fasta </code> .tsv 文件 tsv 文件按照 locus_tag 顺序排序了注释的结果。 <code> # 显示 tsv 内容 $ head egd.tsv locus_tag ftype length_bp gene EC_number COG product DJECODEN_00001 CDS 1356 dnaA COG0593 Chromosomal replication initiator protein DnaA DJECODEN_00001 gene 1356 dnaA DJECODEN_00001 mRNA 1356 dnaA DJECODEN_00002 CDS 1146 dnaN COG0592 Beta sliding clamp DJECODEN_00002 gene 1146 dnaN DJECODEN_00002 mRNA 1146 dnaN DJECODEN_00003 CDS 1344 yeeO_1 COG0534 putative FMN/FAD exporter YeeO DJECODEN_00003 gene 1344 yeeO_1 DJECODEN_00003 mRNA 1344 yeeO_1 </code> ''locus_tag: 注释基因的 locus 名称 ftype: 类型,默认为CDS,如果打开--addgenes和--addmrna参数,则会区别是RNA还是编码基因 length_bp: 序列长度 gene: 根据数据库注释对应的基因名称,如果是多拷贝,则用_1,_2等区分 EC_number: 基因对应的 EC 值 COG: 基因对应的COG product: 基因编码的蛋白质产物'' <code> # 批量注释基因组 $ find . -name *.fna | sed 's/\.fna//g' | \ > parallel --max-args=1 prorkka --outdir prokka/{1} --prefix {1} \ > --addgenes --addmrna --mincontiglen 200 --centre 'HZCDC' \ > --proteins ref.gbk --rnammer --rfam {1}.fna # 注释宏基因组 $ prokka --metagenome --outdir meta contigs.fa # 将注释CDS长度排序 $ awk '/CDS/ {print $0}' egd.tsv | sort -kn3 -r | less # 显示所有的不重复注释产物 $ awk '!a[$1]++{print}' egd.tsv # 显示所有COG注释 $ awk '/COG/' egd.tsv </code>
保存
预览
取消
编辑摘要
当您选择开始编辑本页,即寓示你同意将你贡献的内容按下列许可协议发布:
CC Attribution-Share Alike 4.0 International
原核生物基因组快速注释_prokka.txt
· 最后更改: 2023/09/27 09:27 由
yuxi
页面工具
显示页面
修订记录
反向链接
回到顶部