我们基于单样本组装好的scaftigs,使用GeneMark软件进行基因预测,获得编码蛋白的核酸序列,gff文件中记录了CDS序列的位置和方向信息,这一步不涉及到注释。 获得每个样本的gff文件后,根据gff文件中的CDS序列的位置信息,将所有样本的CDS序列汇总,去冗余,翻译成蛋白序列,用于后续的物种和功能注释。gff文件是中间文件,流程直接读取每一个样本的gff文件,并没有生成全部的样本的gff文件。