======MicrobeCensus 简介====== MicrobeCensus是一个快速且易于使用的管道,用于从元基因组数据中估计微生物群落的平均基因组大小(AGS)。 简而言之,AGS是通过将读数几乎所有与细胞微生物(细菌、古菌、真菌)中存在的一组通用拷贝基因家族保持一致来估计的。由于这些基因每个基因组发生一次,微生物群落的平均基因组大小与击中这些基因的读数比例成反比。 一旦获得AGS,就有可能获得样本中存在的微生物基因组的总覆盖率(基因组当量=bp中总bp测序/AGS),这有助于使基因丰度正常化。 ===== 运行MicrobeCensus ===== MicrobeCensus可以作为命令行脚本运行,也可以作为模块导入python。 该软件当安装python3以上版本时会提示 a bytes-like object is required, not 'str',使用encode也没有办法解决,只能通过python2进行执行操作,因此安装了python2.7 ======数据准备====== ** 样本基因组序列准备:** 可以执行操作的基因格式有FASTQ/FASTA格式,也可以是gzip (.gz) or bzip (.bz2)的压缩格式 ======流程====== **1. 使用命令行的操作形式:** source /TJPROJ1/META_ASS/soft/anaconda3/bin/activate MicrobeCensus run_microbe_census.py SEQFILES OUTFILE * SEQFILES * path to input metagenome(s) * for paired-end metagenomes use commas to specify each file (ex: read_1.fq.gz,read_2.fq.gz) * can be FASTQ/FASTA * can be gzip (.gz) or bzip (.bz2) compressed * OUTFILE * path to output file containing AGS estimate SEQFILES输入文件为序列,OUTFILE输出文件也需要输出一个文件 **2. 使用python module的操作形式:** 首先,导入模块: from microbe_census import microbe_census 接下来,设置您的选项和参数,格式化为字典。您的元基因组路径是唯一的要求(默认值将用于所有其他选项): args = {'seqfiles':['MicrobeCensus/microbe_census/example/example.fq.gz']} 如果您有配对端库,请用逗号将它们分开: args = {'seqfiles':['seqfile_1.fq.gz', 'seqfile_2.fq.gz']} 或者,可以指定其他选项: args = { 'seqfiles':['MicrobeCensus/microbe_census/example/example.fq.gz'], 'nreads':100000, 'read_length':100, 'threads':1, 'min_quality':10, 'mean_quality':10, 'filter_dups':False, 'max_unknown':0, 'verbose':True} 最后,可以将您的参数传递给run_pipeline函数来运行整个管道。MicrobeCensus返回元基因组的估计AGS,以及一份使用参数的字典: average_genome_size, args = microbe_census.run_pipeline(args) 对于正常化,您还可以估计元基因组中基因组当量数量: count_bases = microbe_census.count_bases(args['seqfiles']) genome_equivalents = count_bases/average_genome_size **输出格式** Parameters metagenome:基因组路径 reads_sampled:从元基因组采样以估计AGS的读取次数 trimmed_length:读取被修剪到这个长度以估计AGS min_quality:最低每基质量 mean_quality:最低平均基质量 filter_dups:过滤精确的重复读数 max_unknown:过滤器读取Ns的百分比大于这个的地方 Results average_genome_size:输入元基因组的平均基因组大小(以bp为单位) total_bases:输入元基因组的基本对总数 genome_equivalents:输入元基因组中微生物基因组的总覆盖率 完整脚本及测试路径: /TJPROJ1/META_ASS/PreSaleEvaluation/MicrobeCensus 软件github链接: https://github.com/snayfach/MicrobeCensus/tree/master ----- ----- 方法对应文献: {{ :yuxi:bacterial_genome_size_and_gene_functional_diversity_negatively_correlate_with_taxonomic_diversity_along_a_ph_gradient.pdf |}} 文献内对应作图code: [[https://github.com/FunCongWang/CForBio.metagenome/tree/main]]