用户工具

站点工具


fore_binning

binning前评估

通过分箱前评估,可以检查数据的分布情况,确定数据是否具有一定的规律性或趋势。分箱前评估可以帮助识别数据中的异常值。异常值可能会严重影响分箱结果,因此在分箱前识别并处理它们是非常重要的。分箱前的数据评估还包括数据清洗和预处理,如缺失值填充、数据标准化等。

路径脚本

/TJPROJ7/META_ASS/16s/chenlei/script/test/binning/work.sh

perl /TJPROJ1/META_ASS/test_Advanced_analysis/check_binning_pipelineV1.0/bin/evaluate_for_binning.pl_yuxi20200525 --respath /TJPROJ7/META_ASS/16s/chenlei/202403/X101SC22011043-Z01-J007-meta/X101SC22011043-Z01-F004 --notrun --rundir

这个 Perl 脚本 evaluate_for_binning.pl 主要用于评估元基因组(Metagenome)结果,检查在最终的 contig binning 结果中可能找到的物种。

必需参数:
--respath [result pathway]:元基因组结果路径,应该包含以下文件夹:
02.Assembly
03.GenePredict
04.TaxAnnotation
--outdir [str]:输出目录,默认 ./out
可选参数:
--spenum [int]:评估的物种数量,默认 100。
--complete [float]:物种的完整性(%)截断值,默认 75。
--cont_low [float]:物种的污染(%)截断值(低风险),默认 10。
--cont_high [float]:物种的污染(%)截断值(高风险),默认 100。
--clean:完成运行后删除临时数据(默认不设置)。
--notrun:仅写入 shell,但不运行。
--rundir:从运行目录获取输入数据,而不是结果目录。

结果

生成的子目录及文件
01.OrigData:

all.scaftigs.fa:合并后的所有 scaftigs 序列文件。
all.mgm.gff:合并后的所有基因预测 GFF 文件。

02.Species:

01.GeneList:包含提取的基因列表文件,文件命名格式通常为 gene.<index>.list,其中 <index> 是物种的索引。
02.Scaftigs:包含每个基因对应的 scaftigs 文件,文件命名格式通常为 scaftig.<index>.fa。

03.Evaluation:

01.CheckM:
CheckM.txt:CheckM 分析的结果文件,包含关于完整性和污染度的评估。
SCG:包含 SCG(Single Copy Genes)分析的结果文件。
02.Result:
Binning_evaluate.xls:最终的评估结果文件,包含物种的完整性、污染度等信息。
fore_binning.txt · 最后更改: 2024/10/09 08:10 由 chenlei