我们基于单样本组装好的scaftigs，使用GeneMark软件进行基因预测，获得编码蛋白的核酸序列，gff文件中记录了CDS序列的位置和方向信息，这一步不涉及到注释。获得每个样本的gff文件后，根据gff文件中的CDS序列的位置信息，将所有样本的CDS序列汇总，去冗余，翻译成蛋白序列，用于后续的物种和功能注释。gff文件是中间文件，流程直接读取每一个样本的gff文件，并没有生成全部的样本的gff文件。