======COI database简介======
COI数据库通常是指使用线粒体DNA中的细胞色素c氧化酶亚基I（Cytochrome c oxidase subunit I, COI）基因进行物种鉴定和分类的数据库。这种基因序列广泛应用于DNA条形码（DNA barcoding）技术，用于鉴定和分类各种动植物物种。

更新原因：客户需求使用COI数据库进行节肢动物注释，但是我们没有进行过该数据库下载和分析，弥补空缺。

COI数据库来源：

①BOLD数据库中存储了来自全球不同物种的COI基因序列数据。

②NCBI数据库中也存储了来自各种生物物种的COI基因序列数据。

因此可以从BOLD和NCBI两种数据库中分别整理出对应的COI数据库。

======从BOLD数据库整理的COI数据库======
**1. 数据库获取方法：**

由于BOLD数据库中包含很多物种的信息，如果想要从中筛选得到节肢动物序列，还需要很多步骤，方法如下：
<code>
https://forum.qiime2.org/t/building-a-coi-database-from-bold-references/16129
</code>
**2. 来自于BOLD的COI数据库的qza文件：**

<code>
/TJPROJ5/META_ASS/16s/chenjiawei/script/database/BOLD-new-20240604/2020-08/bold_full_ArthOnly_classifier.qza
</code>

**3. 测试路径：**
<code>
/TJPROJ7/META_ASS/16s/chenjiawei/X101SC24031140-Z01/X101SC24031140-Z01-F002/bold-new-20240604/
</code>

======从NCBI数据库整理的COI数据库======
**1. 数据库获取方法：**

新版的qiime2（qiime2-2024.5）提供了一个插件rescript，可以从NCBI上对特定物种的序列进行下载，具体操作方法如下：

从NCBI收集BOLD标记的COI序列：
<code>
## gather BOLD-tagged COI data from NCBI:
qiime rescript get-ncbi-data \
--p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) AND "BARCODE"[KYWD])' \
--output-dir NCBIdata_BOLDonly
</code>

从NCBI收集非BOLD标记的COI序列：

<code>
## gather nonBOLD-tagged COI data fron NCBI:
qiime rescript get-ncbi-data \
--p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) NOT "BARCODE"[KYWD])' \
--output-dir NCBIdata_notBOLD
</code>

**2. 从 NCBI 序列构建特定于节肢动物的 COI 数据库：**
<code>
qiime rescript get-ncbi-data \
--p-query 'txid6656[ORGN] AND (cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title])' \
--output-dir NCBIdata_ArthOnly
</code>

注：

①使用qiime rescript get-ncbi-data命令根据NCBI分类ID获取数据时，需要在特定时段进行下载

尽量避开正常的工作时间段（美国东部时间周一到周五的上午9点到下午5点），或在周末的时间进行下载，否则会下载失败。

②下载的序列文件为sequences.qza，注释文件为taxonomy.qza格式，后续需使用qiime2命令进一步训练特征分类器。

③由于下载数据库使用的是新版qiime2，分析需要使用标准流程的旧qiime2，因此训练特征分类器时也需要使用旧的qiime2命令训练，否则显示版本不匹配报错，需要将sequences.qza和taxonomy.qza解压后，使用以下命令训练旧qiime2的特征分类器。

**3. 训练特征分类器：**
<code>
source /TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/qiime2_202202/activate.sh
time qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path  dna-sequences.fasta \
  --output-path sequences.qza

time qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path taxonomy.tsv \
  --output-path taxonomy.qza

time qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads sequences.qza \
  --i-reference-taxonomy taxonomy.qza \
  --o-classifier NCBIdata_ArthOnly_classifier.qza
</code>

**4. 数据库下载训练路径：**

<code>
/TJPROJ5/META_ASS/16s/chenjiawei/script/database/NCBI-COI/20240607/NCBIdata_ArthOnly2
</code>

**5. 方法链接：**
<code>
https://forum.qiime2.org/t/building-a-coi-database-from-ncbi-references/16500
</code>