MetaWRAP(https://github.com/bxlab/metaWRAP “MetaWRAP”)旨在成为一个易于使用的宏基因组数据分析软件包,从头到尾完成宏基因组分析的核心任务:序列质量控制、组装、可视化、分类分析、提取基因组草图(又称分箱binning)和功能注释。此外,metaWRAP将bin提取和分析提升到了一个新的层次(参见下面的模块概述)。虽然没有简单的最佳方法来处理宏基因组数据,但在深入研究分析参数之前,metaWRAP是一种快速而简单的方法。MetaWRAP可应用于多种环境,包括肠道、水和土壤微生物组。
V2.0更新内容:
1. 增加binning后接入框架图模块,分析过程可以选择进行Binning分箱或分箱后框架图分析; 2. 对Binning分箱之后的结果内容增加了Report网页结题报告,方便客户查阅解读; 3. 替换Quant模块定量模块的salmon软件替换为coverM软件,默认使用Relative Abundance方法进行相对丰度的计算,由于salmon仅仅只支持tpm方法,且计算过程中需要大量fq过程文件占用存储,因此进行替换更新;coverM同时还支持relative_abundance, mean, trimmed_mean, coverage_histogram, covered_fraction, covered_bases, variance, length, count, reads_per_base, rpkm, tpm 等丰度计算方案,使生信分析计算丰度更加灵活; 4. 在Quant定量模块中增加使用Gtdb-tk软件对bins进行物种注释的结果; 5. 调整了默认分析模块的步骤,在默认分析模块中取消了关于bins可视化展示、bins重组装、以及重组装后注释相关步骤;
样本Cleandata序列准备: fastq文件需要以gz结尾,或解压后的数据,配置在Dataclean.total.list文件内作为–in的输入参数,形如:
CL /TJPROJ7/MICROCOOP/Coop_project/X101SC19092528-Z02-hagongda.202006/X101SC19092528-Z02-J023.N12.meta.ngs/01.DataClean/SystemClean/CL/CL_350.fq1.gz,/TJPROJ7/MICROCOOP/Coop_project/X101SC19092528-Z02-hagongda.202006/X101SC19092528-Z02-J023.N12.meta.ngs/01.DataClean/SystemClean/CL/CL_350.fq2.gz CS /TJPROJ7/MICROCOOP/Coop_project/X101SC19092528-Z02-hagongda.202006/X101SC19092528-Z02-J023.N12.meta.ngs/01.DataClean/SystemClean/CS/CS_350.fq1.gz,/TJPROJ7/MICROCOOP/Coop_project/X101SC19092528-Z02-hagongda.202006/X101SC19092528-Z02-J023.N12.meta.ngs/01.DataClean/SystemClean/CS/CS_350.fq2.gz
可以提供contig文件,作为–in2的输入文件,形如:
CL /TJPROJ7/MICROCOOP/Coop_project/X101SC19092528-Z02-hagongda.202006/X101SC19092528-Z02-J023.N12.meta.ngs/02.Assembly/CL/CL.scaftigs.fa CS /TJPROJ7/MICROCOOP/Coop_project/X101SC19092528-Z02-hagongda.202006/X101SC19092528-Z02-J023.N12.meta.ngs/02.Assembly/CS/CS.scaftigs.fa
group.list 样本信息内容,用于从–in 和–in2的传入文件中选择样本进行分析 只需要一列样本名称即可
使用Bash的操作形式:
#独立分析 #/TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/python3/bin/python /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/bin/pipeline.py -in Dataclean.total.list -g group.list --independent-analysis -o ./ #设置具体分析点 #/TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/python3/bin/python /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/bin/pipeline.py -in Dataclean.total.list -g group.list --independent-analysis -o ./ -s 1,2,3,4,5,6,7,8,9,10 #独立分析需要组装 #/TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/python3/bin/python /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/bin/pipeline.py -in Dataclean.total.list -g group.list --independent-analysis -o ./ --need-assemble #独立分析不需要组装,提供组装序列 #/TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/python3/bin/python /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/bin/pipeline.py -in Dataclean.total.list -g group.list --independent-analysis -o ./ -in2 total.scaftigs.list #混合分析 (混合必定重新组装)(次选) #/TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/python3/bin/python /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/bin/pipeline.py -in Dataclean.total.list -g group.list -o ./ #混合分析不组装(不需要将所有样本contig合并到一起,直接使用宏基因组中的contig序列文件即可)(默认分析) /TJPROJ7/GB_MICRO/PUBLIC/software/amplicon/python3/bin/python /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/bin/pipeline.py -in Dataclean.total.list -g group.list -o ./ -in2 ass.list 现在混合组装分析不需要手动处理contig序列合并内容,按照单样本contig文件配置即可 V2.0新增参数: --step 新增 11参数,填入11时为框架图分析 现在默认的分箱分析步骤为1,2,4,5,7 ,即可做到分箱和初步bins注释与丰度计算过程 --bins_folder_list 输入bins对应的序列文件夹位置,该参数可以使用分箱后框架图分析或独立序列接入框架图分析, 形如:merge /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/example_report/Step5_BIN_refinement/merge/metawrap_70_10_bins/ 如果有多个样本,那么增加多列即可,路径下要求为fa文件后缀结尾 --species_type 指定框架图分析时的物种类型,细菌或真菌 bac 或 fun 默认 bac --quant_method Step7使用coverM计算bins的丰度数据对应方法,可选: relative_abundance, mean, trimmed_mean, coverage_histogram, covered_fraction covered_bases, variance, length, count, reads_per_base, rpkm, tpm
完整脚本及测试路径:
/TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/bin/ /TJPROJ1/META_ASS/script_Advanced_analysis/metaWRAP/example
软件github链接:
https://github.com/bxlab/metaWRAP
方法对应文献: MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis