目录

HUMANn3流程升级

一、简介

HUMAnN3是一款快速获得宏基因组、宏转录组物种和功能组成的软件,采用分层式(tiered)检索策略,可以在环境和宿主相关群体中快速、准确获得种水平的功能组成,结果同时获得功能通路中具体物种组成,建立起了物种与功能的联系,可进一步研究功能组成。

二、升级关键点

1. 软件及依赖项升级

HUMAnN2 ⇒HUMAnN3

MetaPhlAn (2.6.0) ⇒ MetaPhlAn (4.0.1)

Bowtie2 (2.2.4)⇒ Bowtie2 (2.4.5)

Diamond (0.8.22.84) ⇒ Diamond (2.0.15.153)

2. 数据库升级

ChocoPhlAn (7673 ⇒ 12773)

uniref50 ( 4.6G ⇒ 12G )

misc (总量 668M ⇒ 2.9G )

MetaPhlAn数据库及bowtie2索引 (总量 1.8G ⇒ 35G )

3. 分析主脚本升级

humann2_pipeline.v2.1.pl =⇒ humann3_pipeline_v1.0.pl

三、文件配置

样本ID和分组信息:group.list

W.B1	W.B
W.B2	W.B
W.B3	W.B
W.J1	W.J
W.J2	W.J
W.J3	W.J

样本ID及路径信息:Dataclean.total.list

W.B1	/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq2.gz
W.B2	/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq2.gz
W.B3	/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq2.gz
W.J1	/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq2.gz
W.J2	/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq2.gz
W.J3	/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq2.gz

运行脚本

perl /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/bin/humann3_pipeline_v1.0.pl \
 --input /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/Dataclean.total.list \
 --outdir output \
 --pathdb kegg-metacyc \
 --step 123 \
 --func go-ko-eggnog-pfam-level4ec \
 --group /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/group.list \
 --notrun

四、流程简介

step0.merge_reads.sh

合并双端数据 占用资源:1G 占用时间:30min

step1.1.run_humann.sh

调用humann3进行分析 占用资源:50G 5线程 占用时间:65 h

脚本关键内容: 加载humann3环境,单独加载bowtie2

调用Humann3,生成genefamily文件

调用kegg-pathway数据库

调用kegg-module数据库

均一化

输出文件结果说明:https://github.com/biobakery/humann/#1-gene-families-file

临时文件:每个样本(5G)生成约120G的临时文件

step1.2.merge_humann.sh

调用humann_join_tables将所有样本的注释信息及丰度连接起来 占用资源:2G 占用时间:10 min

step2.1.function_abundance.sh

计算每个样本的5种功能丰度并均一化 占用资源:2G 占用时间:10min

step2.2.merge_abundance.sh

将每个样本的5中功能丰度连接起来,并添加功能名称注释 占用资源:2G 占用时间:5min

step3.compare.sh

合并group.list,进行差异检验及其它统计分析,并进行可视化 占用资源:2G 占用时间:15min 脚本主要思路: 输入文件:metacyc , kegg_pathway , kegg_module, ko, go, eggnog, pfam, level4ec 7个样本相对丰度文件 输入文件:group.list 调用函数:humann_barplot 统计计算:丰度柱状图、PCA、威尔克斯非参数检验、top10 柱状图、simper、分组top10 柱状图、分组 simper、T检验

step4.getresult.sh

抓取结果 占用资源:0.5G 占用时间:10 min