通过分箱前评估,可以检查数据的分布情况,确定数据是否具有一定的规律性或趋势。分箱前评估可以帮助识别数据中的异常值。异常值可能会严重影响分箱结果,因此在分箱前识别并处理它们是非常重要的。分箱前的数据评估还包括数据清洗和预处理,如缺失值填充、数据标准化等。
/TJPROJ7/META_ASS/16s/chenlei/script/test/binning/work.sh
perl /TJPROJ1/META_ASS/test_Advanced_analysis/check_binning_pipelineV1.0/bin/evaluate_for_binning.pl_yuxi20200525 --respath /TJPROJ7/META_ASS/16s/chenlei/202403/X101SC22011043-Z01-J007-meta/X101SC22011043-Z01-F004 --notrun --rundir
这个 Perl 脚本 evaluate_for_binning.pl 主要用于评估元基因组(Metagenome)结果,检查在最终的 contig binning 结果中可能找到的物种。
必需参数: --respath [result pathway]:元基因组结果路径,应该包含以下文件夹: 02.Assembly 03.GenePredict 04.TaxAnnotation --outdir [str]:输出目录,默认 ./out 可选参数: --spenum [int]:评估的物种数量,默认 100。 --complete [float]:物种的完整性(%)截断值,默认 75。 --cont_low [float]:物种的污染(%)截断值(低风险),默认 10。 --cont_high [float]:物种的污染(%)截断值(高风险),默认 100。 --clean:完成运行后删除临时数据(默认不设置)。 --notrun:仅写入 shell,但不运行。 --rundir:从运行目录获取输入数据,而不是结果目录。
生成的子目录及文件 01.OrigData: all.scaftigs.fa:合并后的所有 scaftigs 序列文件。 all.mgm.gff:合并后的所有基因预测 GFF 文件。 02.Species: 01.GeneList:包含提取的基因列表文件,文件命名格式通常为 gene.<index>.list,其中 <index> 是物种的索引。 02.Scaftigs:包含每个基因对应的 scaftigs 文件,文件命名格式通常为 scaftig.<index>.fa。 03.Evaluation: 01.CheckM: CheckM.txt:CheckM 分析的结果文件,包含关于完整性和污染度的评估。 SCG:包含 SCG(Single Copy Genes)分析的结果文件。 02.Result: Binning_evaluate.xls:最终的评估结果文件,包含物种的完整性、污染度等信息。