HUMAnN3是一款快速获得宏基因组、宏转录组物种和功能组成的软件,采用分层式(tiered)检索策略,可以在环境和宿主相关群体中快速、准确获得种水平的功能组成,结果同时获得功能通路中具体物种组成,建立起了物种与功能的联系,可进一步研究功能组成。
HUMAnN2 ⇒HUMAnN3
MetaPhlAn (2.6.0) ⇒ MetaPhlAn (4.0.1)
Bowtie2 (2.2.4)⇒ Bowtie2 (2.4.5)
Diamond (0.8.22.84) ⇒ Diamond (2.0.15.153)
ChocoPhlAn (7673 ⇒ 12773)
uniref50 ( 4.6G ⇒ 12G )
misc (总量 668M ⇒ 2.9G )
MetaPhlAn数据库及bowtie2索引 (总量 1.8G ⇒ 35G )
humann2_pipeline.v2.1.pl =⇒ humann3_pipeline_v1.0.pl
样本ID和分组信息:group.list
W.B1 W.B W.B2 W.B W.B3 W.B W.J1 W.J W.J2 W.J W.J3 W.J
样本ID及路径信息:Dataclean.total.list
W.B1 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq2.gz W.B2 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq2.gz W.B3 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq2.gz W.J1 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq2.gz W.J2 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq2.gz W.J3 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq2.gz
运行脚本
perl /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/bin/humann3_pipeline_v1.0.pl \ --input /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/Dataclean.total.list \ --outdir output \ --pathdb kegg-metacyc \ --step 123 \ --func go-ko-eggnog-pfam-level4ec \ --group /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/group.list \ --notrun
合并双端数据 占用资源:1G 占用时间:30min
调用humann3进行分析 占用资源:50G 5线程 占用时间:65 h
脚本关键内容: 加载humann3环境,单独加载bowtie2
调用Humann3,生成genefamily文件
调用kegg-pathway数据库
调用kegg-module数据库
均一化
输出文件结果说明:https://github.com/biobakery/humann/#1-gene-families-file
临时文件:每个样本(5G)生成约120G的临时文件
调用humann_join_tables将所有样本的注释信息及丰度连接起来 占用资源:2G 占用时间:10 min
计算每个样本的5种功能丰度并均一化 占用资源:2G 占用时间:10min
将每个样本的5中功能丰度连接起来,并添加功能名称注释 占用资源:2G 占用时间:5min
合并group.list,进行差异检验及其它统计分析,并进行可视化 占用资源:2G 占用时间:15min 脚本主要思路: 输入文件:metacyc , kegg_pathway , kegg_module, ko, go, eggnog, pfam, level4ec 7个样本相对丰度文件 输入文件:group.list 调用函数:humann_barplot 统计计算:丰度柱状图、PCA、威尔克斯非参数检验、top10 柱状图、simper、分组top10 柱状图、分组 simper、T检验
抓取结果 占用资源:0.5G 占用时间:10 min