====== HUMANn3流程升级 ====== ===== 一、简介 ===== HUMAnN3是一款快速获得宏基因组、宏转录组物种和功能组成的软件,采用分层式(tiered)检索策略,可以在环境和宿主相关群体中快速、准确获得种水平的功能组成,结果同时获得功能通路中具体物种组成,建立起了物种与功能的联系,可进一步研究功能组成。 ===== 二、升级关键点 ===== ==== 1. 软件及依赖项升级 ==== HUMAnN2 =>HUMAnN3 MetaPhlAn (2.6.0) => MetaPhlAn (4.0.1) Bowtie2 (2.2.4)=> Bowtie2 (2.4.5) Diamond (0.8.22.84) => Diamond (2.0.15.153) ==== 2. 数据库升级 ==== ChocoPhlAn (7673 => 12773) uniref50 ( 4.6G => 12G ) misc (总量 668M => 2.9G ) MetaPhlAn数据库及bowtie2索引 (总量 1.8G => 35G ) ==== 3. 分析主脚本升级 ==== humann2_pipeline.v2.1.pl ==> humann3_pipeline_v1.0.pl ===== 三、文件配置 ===== 样本ID和分组信息:group.list W.B1 W.B W.B2 W.B W.B3 W.B W.J1 W.J W.J2 W.J W.J3 W.J 样本ID及路径信息:Dataclean.total.list W.B1 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B1/W.B1_350.nohost.fq2.gz W.B2 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B2/W.B2_350.nohost.fq2.gz W.B3 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.B3/W.B3_350.nohost.fq2.gz W.J1 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J1/W.J1_350.nohost.fq2.gz W.J2 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J2/W.J2_350.nohost.fq2.gz W.J3 /TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq1.gz,/TJPROJ5/META_ASS/meta/yaolijie/X101SC19114085-Z02/X101SC19114085-Z02-F001/HostClean/W.J3/W.J3_350.nohost.fq2.gz 运行脚本 perl /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/bin/humann3_pipeline_v1.0.pl \ --input /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/Dataclean.total.list \ --outdir output \ --pathdb kegg-metacyc \ --step 123 \ --func go-ko-eggnog-pfam-level4ec \ --group /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn2/example/group.list \ --notrun ===== 四、流程简介 ===== ==== step0.merge_reads.sh ==== 合并双端数据 占用资源:1G 占用时间:30min ==== step1.1.run_humann.sh ==== 调用humann3进行分析 占用资源:50G 5线程 占用时间:65 h 脚本关键内容: 加载humann3环境,单独加载bowtie2 调用Humann3,生成genefamily文件 调用kegg-pathway数据库 调用kegg-module数据库 均一化 输出文件结果说明:https://github.com/biobakery/humann/#1-gene-families-file 临时文件:每个样本(5G)生成约120G的临时文件 ==== step1.2.merge_humann.sh ==== 调用humann_join_tables将所有样本的注释信息及丰度连接起来 占用资源:2G 占用时间:10 min ==== step2.1.function_abundance.sh ==== 计算每个样本的5种功能丰度并均一化 占用资源:2G 占用时间:10min ==== step2.2.merge_abundance.sh ==== 将每个样本的5中功能丰度连接起来,并添加功能名称注释 占用资源:2G 占用时间:5min ==== step3.compare.sh ==== 合并group.list,进行差异检验及其它统计分析,并进行可视化 占用资源:2G 占用时间:15min 脚本主要思路: 输入文件:metacyc , kegg_pathway , kegg_module, ko, go, eggnog, pfam, level4ec 7个样本相对丰度文件 输入文件:group.list 调用函数:humann_barplot 统计计算:丰度柱状图、PCA、威尔克斯非参数检验、top10 柱状图、simper、分组top10 柱状图、分组 simper、T检验 ==== step4.getresult.sh ==== 抓取结果 占用资源:0.5G 占用时间:10 min