====== VIRGO数据库串写及分析说明文档整理 ====== ===== 一、数据库简介 ===== VIRGO网站:https://virgo.igs.umaryland.edu/ VIRGO是人类阴道微生物群落的非冗余基因目录。它是用宏基因组和尿源分离基因组序列的组合构建的。VIRGO可以用来描述阴道宏基因组和宏转录组数据集的分类和功能组成。 ===== 二、测试路径 ===== /TJPROJ1/META_ASS/script_Advanced_analysis/VIRGO-20220530/example/ ===== 三、运行脚本 ===== #配好01.CleanData后依次运行以下脚本 VIRGO.step1.sh #需要修改该脚本中的样本名称 VIRGO.step2.sh ===== 四、说明文档 ===== (1)将宏基因组样本的读数映射到VIRGO并呈现结果(VIRGO尚不支持双端映射,所以将双端读取合并到一个fastq文件中进行分析,结果文件为sample.out)。 sample.out文件: 第1列是 VIRGO 基因 ID 第2列是映射到 VIRGO 数据库的读取数 第3列是基因长度。文件按读取映射列的数量排序。 {{:a1.png?400|}} (2)汇总多个样本的统计信息。 summary.Abundance.txt:每个物种的读取次数 summary.Count.txt:每个物种的基因数量 summary.Percentage.txt:每个物种的标准化丰度百分比(总计 100) summary.geneRichness.txt:每个样本的基因数 summary.NR.abundance.txt:每个非冗余基因的读取次数 gene.lst.txt:具有基因长度的非冗余基因列表 EggNOG.annotation.txt:每个样本的 EggNOG 注释文件 EC.annotation.txt:具有 EC 编号的非冗余基因列表 GC.txt:具有基因计数类别的非冗余基因列表(HGC:高基因计数,LGC:低基因计数) geneProduct.txt:带有基因产物注释的非冗余基因列表 Kegg.module.annotation.txt:带有 KEGG 模块注释的非冗余基因列表,包括模块 ID 和注释 Kegg.ortholog.annotation.txt:带有 KEGG 直向同源 (KO) 注释的非冗余基因列表,包括直向同源 ID 和注释 Kegg.pathway.annotation.txt:带有 KEGG 通路注释的非冗余基因列表,包括通路 ID 和注释 proteinFamily.annotation.txt:具有蛋白质家族注释的非冗余基因列表,来自 CDD、GO、Gene3D、Hamap、Interpro、MobiDBLite、PIRSF、PRINTS、Pfam、ProDom、ProSitePatterns、ProSiteProfiles、SFLD、SMART、SUPERFAMILY、TIGRFAM的数据库 rxn.annotation.txt:具有 KEGG 反应的非冗余基因列表 {{:a2.png?400|}} {{:a3.png?400|}}