COI数据库通常是指使用线粒体DNA中的细胞色素c氧化酶亚基I(Cytochrome c oxidase subunit I, COI)基因进行物种鉴定和分类的数据库。这种基因序列广泛应用于DNA条形码(DNA barcoding)技术,用于鉴定和分类各种动植物物种。
更新原因:客户需求使用COI数据库进行节肢动物注释,但是我们没有进行过该数据库下载和分析,弥补空缺。
COI数据库来源:
①BOLD数据库中存储了来自全球不同物种的COI基因序列数据。
②NCBI数据库中也存储了来自各种生物物种的COI基因序列数据。
因此可以从BOLD和NCBI两种数据库中分别整理出对应的COI数据库。
1. 数据库获取方法:
由于BOLD数据库中包含很多物种的信息,如果想要从中筛选得到节肢动物序列,还需要很多步骤,方法如下:
https://forum.qiime2.org/t/building-a-coi-database-from-bold-references/16129
2. 来自于BOLD的COI数据库的qza文件:
/TJPROJ5/META_ASS/16s/chenjiawei/script/database/BOLD-new-20240604/2020-08/bold_full_ArthOnly_classifier.qza
3. 测试路径:
/TJPROJ7/META_ASS/16s/chenjiawei/X101SC24031140-Z01/X101SC24031140-Z01-F002/bold-new-20240604/
1. 数据库获取方法:
新版的qiime2(qiime2-2024.5)提供了一个插件rescript,可以从NCBI上对特定物种的序列进行下载,具体操作方法如下:
从NCBI收集BOLD标记的COI序列:
## gather BOLD-tagged COI data from NCBI: qiime rescript get-ncbi-data \ --p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) AND "BARCODE"[KYWD])' \ --output-dir NCBIdata_BOLDonly
从NCBI收集非BOLD标记的COI序列:
## gather nonBOLD-tagged COI data fron NCBI: qiime rescript get-ncbi-data \ --p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) NOT "BARCODE"[KYWD])' \ --output-dir NCBIdata_notBOLD
2. 从 NCBI 序列构建特定于节肢动物的 COI 数据库:
qiime rescript get-ncbi-data \ --p-query 'txid6656[ORGN] AND (cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title])' \ --output-dir NCBIdata_ArthOnly
注:
①使用qiime rescript get-ncbi-data命令根据NCBI分类ID获取数据时,需要在特定时段进行下载
尽量避开正常的工作时间段(美国东部时间周一到周五的上午9点到下午5点),或在周末的时间进行下载,否则会下载失败。
②下载的序列文件为sequences.qza,注释文件为taxonomy.qza格式,后续需使用qiime2命令进一步训练特征分类器。
③由于下载数据库使用的是新版qiime2,分析需要使用标准流程的旧qiime2,因此训练特征分类器时也需要使用旧的qiime2命令训练,否则显示版本不匹配报错,需要将sequences.qza和taxonomy.qza解压后,使用以下命令训练旧qiime2的特征分类器。
3. 训练特征分类器:
source /TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/qiime2_202202/activate.sh time qiime tools import \ --type 'FeatureData[Sequence]' \ --input-path dna-sequences.fasta \ --output-path sequences.qza time qiime tools import \ --type 'FeatureData[Taxonomy]' \ --input-format HeaderlessTSVTaxonomyFormat \ --input-path taxonomy.tsv \ --output-path taxonomy.qza time qiime feature-classifier fit-classifier-naive-bayes \ --i-reference-reads sequences.qza \ --i-reference-taxonomy taxonomy.qza \ --o-classifier NCBIdata_ArthOnly_classifier.qza
4. 数据库下载训练路径:
/TJPROJ5/META_ASS/16s/chenjiawei/script/database/NCBI-COI/20240607/NCBIdata_ArthOnly2
5. 方法链接:
https://forum.qiime2.org/t/building-a-coi-database-from-ncbi-references/16500