======COI database简介====== COI数据库通常是指使用线粒体DNA中的细胞色素c氧化酶亚基I(Cytochrome c oxidase subunit I, COI)基因进行物种鉴定和分类的数据库。这种基因序列广泛应用于DNA条形码(DNA barcoding)技术,用于鉴定和分类各种动植物物种。 更新原因:客户需求使用COI数据库进行节肢动物注释,但是我们没有进行过该数据库下载和分析,弥补空缺。 COI数据库来源: ①BOLD数据库中存储了来自全球不同物种的COI基因序列数据。 ②NCBI数据库中也存储了来自各种生物物种的COI基因序列数据。 因此可以从BOLD和NCBI两种数据库中分别整理出对应的COI数据库。 ======从BOLD数据库整理的COI数据库====== **1. 数据库获取方法:** 由于BOLD数据库中包含很多物种的信息,如果想要从中筛选得到节肢动物序列,还需要很多步骤,方法如下: https://forum.qiime2.org/t/building-a-coi-database-from-bold-references/16129 **2. 来自于BOLD的COI数据库的qza文件:** /TJPROJ5/META_ASS/16s/chenjiawei/script/database/BOLD-new-20240604/2020-08/bold_full_ArthOnly_classifier.qza **3. 测试路径:** /TJPROJ7/META_ASS/16s/chenjiawei/X101SC24031140-Z01/X101SC24031140-Z01-F002/bold-new-20240604/ ======从NCBI数据库整理的COI数据库====== **1. 数据库获取方法:** 新版的qiime2(qiime2-2024.5)提供了一个插件rescript,可以从NCBI上对特定物种的序列进行下载,具体操作方法如下: 从NCBI收集BOLD标记的COI序列: ## gather BOLD-tagged COI data from NCBI: qiime rescript get-ncbi-data \ --p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) AND "BARCODE"[KYWD])' \ --output-dir NCBIdata_BOLDonly 从NCBI收集非BOLD标记的COI序列: ## gather nonBOLD-tagged COI data fron NCBI: qiime rescript get-ncbi-data \ --p-query '(cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title]) NOT "BARCODE"[KYWD])' \ --output-dir NCBIdata_notBOLD **2. 从 NCBI 序列构建特定于节肢动物的 COI 数据库:** qiime rescript get-ncbi-data \ --p-query 'txid6656[ORGN] AND (cytochrome c oxidase subunit 1[Title] OR cytochrome c oxidase subunit I[Title] OR cytochrome oxidase subunit 1[Title] OR cytochrome oxidase subunit I[Title] OR COX1[Title] OR CO1[Title] OR COI[Title])' \ --output-dir NCBIdata_ArthOnly 注: ①使用qiime rescript get-ncbi-data命令根据NCBI分类ID获取数据时,需要在特定时段进行下载 尽量避开正常的工作时间段(美国东部时间周一到周五的上午9点到下午5点),或在周末的时间进行下载,否则会下载失败。 ②下载的序列文件为sequences.qza,注释文件为taxonomy.qza格式,后续需使用qiime2命令进一步训练特征分类器。 ③由于下载数据库使用的是新版qiime2,分析需要使用标准流程的旧qiime2,因此训练特征分类器时也需要使用旧的qiime2命令训练,否则显示版本不匹配报错,需要将sequences.qza和taxonomy.qza解压后,使用以下命令训练旧qiime2的特征分类器。 **3. 训练特征分类器:** source /TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/qiime2_202202/activate.sh time qiime tools import \ --type 'FeatureData[Sequence]' \ --input-path dna-sequences.fasta \ --output-path sequences.qza time qiime tools import \ --type 'FeatureData[Taxonomy]' \ --input-format HeaderlessTSVTaxonomyFormat \ --input-path taxonomy.tsv \ --output-path taxonomy.qza time qiime feature-classifier fit-classifier-naive-bayes \ --i-reference-reads sequences.qza \ --i-reference-taxonomy taxonomy.qza \ --o-classifier NCBIdata_ArthOnly_classifier.qza **4. 数据库下载训练路径:** /TJPROJ5/META_ASS/16s/chenjiawei/script/database/NCBI-COI/20240607/NCBIdata_ArthOnly2 **5. 方法链接:** https://forum.qiime2.org/t/building-a-coi-database-from-ncbi-references/16500