====== HUMANn3流程升级 ======
===== 一、简介 =====
HUMAnN3是一款快速获得宏基因组、宏转录组物种和功能组成的软件,采用分层式(tiered)检索策略,可以在环境和宿主相关群体中快速、准确获得种水平的功能组成,结果同时获得功能通路中具体物种组成,建立起了物种与功能的联系,可进一步研究功能组成。
===== 二、升级关键点 =====
==== 1. 软件及依赖项升级 ====
HUMAnN2 =>HUMAnN3
MetaPhlAn (2.6.0) => MetaPhlAn (4.0.1)
Bowtie2 (2.2.4)=> Bowtie2 (2.4.5)
Diamond (0.8.22.84) => Diamond (2.0.15.153)
==== 2. 数据库升级 ====
ChocoPhlAn (7673 => 12773)
uniref50 ( 4.6G => 12G )
misc (总量 668M => 2.9G )
MetaPhlAn数据库及bowtie2索引 (总量 1.8G => 35G )
==== 3. 分析主脚本升级 ====
humann2_pipeline.v2.1.pl ==> humann3_pipeline_v1.0.pl
===== 三、文件配置 =====
样本ID和分组信息:group.list
W.B1 W.B
W.B2 W.B
W.B3 W.B
W.J1 W.J
W.J2 W.J
W.J3 W.J
样本ID及路径信息:Dataclean.total.list
W.B1 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq2.gz
W.B2 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq2.gz
W.B3 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq2.gz
W.J1 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq2.gz
W.J2 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq2.gz
W.J3 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq2.gz
运行脚本
perl /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/bin/humann3_pipeline_v1.0.pl \
--input /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/Dataclean.total.list \
--outdir output \
--pathdb kegg-metacyc \
--step 123 \
--func go-ko-eggnog-pfam-level4ec \
--group /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/group.list \
--notrun
===== 四、流程简介 =====
==== step0.merge_reads.sh ====
合并双端数据
占用资源:1G
占用时间:30min
==== step1.1.run_humann.sh ====
调用humann3进行分析
占用资源:50G 5线程
占用时间:65 h
脚本关键内容:
加载humann3环境,单独加载bowtie2
调用Humann3,生成genefamily文件
调用kegg-pathway数据库
调用kegg-module数据库
均一化
输出文件结果说明:https://github.com/biobakery/humann/#1-gene-families-file
临时文件:每个样本(5G)生成约120G的临时文件
==== step1.2.merge_humann.sh ====
调用humann_join_tables将所有样本的注释信息及丰度连接起来
占用资源:2G
占用时间:10 min
==== step2.1.function_abundance.sh ====
计算每个样本的5种功能丰度并均一化
占用资源:2G
占用时间:10min
==== step2.2.merge_abundance.sh ====
将每个样本的5中功能丰度连接起来,并添加功能名称注释
占用资源:2G
占用时间:5min
==== step3.compare.sh ====
合并group.list,进行差异检验及其它统计分析,并进行可视化
占用资源:2G
占用时间:15min
脚本主要思路:
输入文件:metacyc , kegg_pathway , kegg_module, ko, go, eggnog, pfam, level4ec 7个样本相对丰度文件
输入文件:group.list
调用函数:humann_barplot
统计计算:丰度柱状图、PCA、威尔克斯非参数检验、top10 柱状图、simper、分组top10 柱状图、分组 simper、T检验
==== step4.getresult.sh ====
抓取结果
占用资源:0.5G
占用时间:10 min