用户工具

站点工具


coi_database

COI database简介

COI数据库通常是指使用线粒体DNA中的细胞色素c氧化酶亚基I(Cytochrome c oxidase subunit I, COI)基因进行物种鉴定和分类的数据库。这种基因序列广泛应用于DNA条形码(DNA barcoding)技术,用于鉴定和分类各种动植物物种。

更新原因:客户需求使用COI数据库进行节肢动物注释,但是我们没有进行过该数据库下载和分析,弥补空缺。

COI数据库来源:

①BOLD数据库中存储了来自全球不同物种的COI基因序列数据。

②NCBI数据库中也存储了来自各种生物物种的COI基因序列数据。

因此可以从BOLD和NCBI两种数据库中分别整理出对应的COI数据库。

从BOLD数据库整理的COI数据库

1. 数据库获取方法:

由于BOLD数据库中包含很多物种的信息,如果想要从中筛选得到节肢动物序列,还需要很多步骤,方法如下:

https://forum.qiime2.org/t/building-a-coi-database-from-bold-references/16129

2. 来自于BOLD的COI数据库的qza文件:

/TJPROJ5/META_ASS/16s/chenjiawei/script/database/BOLD-new-20240604/2020-08/bold_full_ArthOnly_classifier.qza

3. 测试路径:

/TJPROJ7/META_ASS/16s/chenjiawei/X101SC24031140-Z01/X101SC24031140-Z01-F002/bold-new-20240604/

从NCBI数据库整理的COI数据库

1. 数据库获取方法:

新版的qiime2(qiime2-2024.5)提供了一个插件rescript,可以从NCBI上对特定物种的序列进行下载,具体操作方法如下:

从NCBI收集BOLD标记的COI序列:

## gather BOLD-tagged COI data from NCBI:
qiime rescript get-ncbi-data \
--p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) AND "BARCODE"[KYWD])' \
--output-dir NCBIdata_BOLDonly

从NCBI收集非BOLD标记的COI序列:

## gather nonBOLD-tagged COI data fron NCBI:
qiime rescript get-ncbi-data \
--p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) NOT "BARCODE"[KYWD])' \
--output-dir NCBIdata_notBOLD

2. 从 NCBI 序列构建特定于节肢动物的 COI 数据库:

qiime rescript get-ncbi-data \
--p-query 'txid6656[ORGN] AND (cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title])' \
--output-dir NCBIdata_ArthOnly

注:

①使用qiime rescript get-ncbi-data命令根据NCBI分类ID获取数据时,需要在特定时段进行下载

尽量避开正常的工作时间段(美国东部时间周一到周五的上午9点到下午5点),或在周末的时间进行下载,否则会下载失败。

②下载的序列文件为sequences.qza,注释文件为taxonomy.qza格式,后续需使用qiime2命令进一步训练特征分类器。

③由于下载数据库使用的是新版qiime2,分析需要使用标准流程的旧qiime2,因此训练特征分类器时也需要使用旧的qiime2命令训练,否则显示版本不匹配报错,需要将sequences.qza和taxonomy.qza解压后,使用以下命令训练旧qiime2的特征分类器。

3. 训练特征分类器:

source /TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/qiime2_202202/activate.sh
time qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path  dna-sequences.fasta \
  --output-path sequences.qza

time qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path taxonomy.tsv \
  --output-path taxonomy.qza

time qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads sequences.qza \
  --i-reference-taxonomy taxonomy.qza \
  --o-classifier NCBIdata_ArthOnly_classifier.qza

4. 数据库下载训练路径:

/TJPROJ5/META_ASS/16s/chenjiawei/script/database/NCBI-COI/20240607/NCBIdata_ArthOnly2

5. 方法链接:

https://forum.qiime2.org/t/building-a-coi-database-from-ncbi-references/16500
coi_database.txt · 最后更改: 2024/07/09 10:19 由 chenjiawei