目录

MicrobeCensus 简介

MicrobeCensus是一个快速且易于使用的管道,用于从元基因组数据中估计微生物群落的平均基因组大小(AGS)。

简而言之,AGS是通过将读数几乎所有与细胞微生物(细菌、古菌、真菌)中存在的一组通用拷贝基因家族保持一致来估计的。由于这些基因每个基因组发生一次,微生物群落的平均基因组大小与击中这些基因的读数比例成反比。

一旦获得AGS,就有可能获得样本中存在的微生物基因组的总覆盖率(基因组当量=bp中总bp测序/AGS),这有助于使基因丰度正常化。

运行MicrobeCensus

MicrobeCensus可以作为命令行脚本运行,也可以作为模块导入python。 该软件当安装python3以上版本时会提示 a bytes-like object is required, not 'str',使用encode也没有办法解决,只能通过python2进行执行操作,因此安装了python2.7

数据准备

样本基因组序列准备:

可以执行操作的基因格式有FASTQ/FASTA格式,也可以是gzip (.gz) or bzip (.bz2)的压缩格式

流程

1. 使用命令行的操作形式:

source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate MicrobeCensus
run_microbe_census.py SEQFILES OUTFILE

  * SEQFILES
  * path to input metagenome(s)
  * for paired-end metagenomes use commas to specify each file (ex: read_1.fq.gz,read_2.fq.gz)
  * can be FASTQ/FASTA
  * can be gzip (.gz) or bzip (.bz2) compressed
  * OUTFILE
  * path to output file containing AGS estimate

SEQFILES输入文件为序列,OUTFILE输出文件也需要输出一个文件

2. 使用python module的操作形式: 首先,导入模块:

from microbe_census import microbe_census

接下来,设置您的选项和参数,格式化为字典。您的元基因组路径是唯一的要求(默认值将用于所有其他选项):

args = {'seqfiles':['MicrobeCensus/microbe_census/example/example.fq.gz']}

如果您有配对端库,请用逗号将它们分开:

args = {'seqfiles':['seqfile_1.fq.gz', 'seqfile_2.fq.gz']}

或者,可以指定其他选项:

args = {
  'seqfiles':['MicrobeCensus/microbe_census/example/example.fq.gz'],
  'nreads':100000,
  'read_length':100,
  'threads':1,
  'min_quality':10,
  'mean_quality':10,
  'filter_dups':False,
  'max_unknown':0,
  'verbose':True}

最后,可以将您的参数传递给run_pipeline函数来运行整个管道。MicrobeCensus返回元基因组的估计AGS,以及一份使用参数的字典:

average_genome_size, args = microbe_census.run_pipeline(args)

对于正常化,您还可以估计元基因组中基因组当量数量:

count_bases = microbe_census.count_bases(args['seqfiles'])
genome_equivalents = count_bases/average_genome_size

输出格式

Parameters metagenome:基因组路径 reads_sampled:从元基因组采样以估计AGS的读取次数 trimmed_length:读取被修剪到这个长度以估计AGS min_quality:最低每基质量 mean_quality:最低平均基质量 filter_dups:过滤精确的重复读数 max_unknown:过滤器读取Ns的百分比大于这个的地方

Results average_genome_size:输入元基因组的平均基因组大小(以bp为单位) total_bases:输入元基因组的基本对总数 genome_equivalents:输入元基因组中微生物基因组的总覆盖率

完整脚本及测试路径:

/TJPROJ1/META_ASS/PreSaleEvaluation/MicrobeCensus

软件github链接:

https://github.com/snayfach/MicrobeCensus/tree/master


方法对应文献: bacterial_genome_size_and_gene_functional_diversity_negatively_correlate_with_taxonomic_diversity_along_a_ph_gradient.pdf

文献内对应作图code: https://github.com/FunCongWang/CForBio.metagenome/tree/main