RagTag 是用于搭建和改进现代基因组组装的软件工具集合。任务包括:
基于同源性的错误组装序列校正 基于同源性的组装scaffold和修补 scaffold合并
agTag可以进行错误组装校正、scaffold组装和修补、scaffold合并等,一共分四步:correct,scaffold,patch,merge。之后,可以用Liftoff进行基因注释。
校正是使用参考基因组来鉴定和校正contigs中的组装错误,该步骤不会将序列减少或增加,仅仅是将序列在错误组装的位置进行打断。
ragtag.py correct relatives-reference.fa scaffolds_FINAL.fasta -t 80
重要的结果: ragtag.correct.fasta
该步骤是将相邻的contigs序列用100个N连起来,序列的位置和方向需要根据与参考基因组的比对结果确定。
ragtag.py scaffold relatives-reference.fa ragtag_output/ragtag.correct.fasta -t 80 -C
重要的结果: ragtag.scaffold.fasta ragtag.scaffold.agp
该步骤是用contigs序列对上一步得到的scaffold序列进行gap填补。
ragtag.py patch ./ragtag_output/ragtag.scaffold.fasta scaffolds_FINAL.fasta -t 80
在scaffolding过程中,可能会根据不同参数或图谱数据产生多个版本的基因组组装结果,该步骤可以将多个结果根据权重进行最终组装结果的生成。
如果有HiC数据,还可以加入HiC数据生成比较好的组装结果。
/TJPROJ1/META_ASS/PreSaleEvaluation/ragtag
官网:https://github.com/malonge/RagTag
得到结果: 运行步骤所输出的结果: # correct a query assembly
ragtag.correct.fasta:纠正后的基因组序列 ragtag.correct.agp:定义查询序列中断的精确坐标的AGP文件。
# scaffold a query assembly
ragtag.scaffold.agp:AGP 格式的查询序列的排序和方向。 ragtag.scaffold.fasta:FASTA格式的scaffolds序列文件 ragtag.scaffold.stats:scaffolds过程的汇总统计
# make joins and fill gaps in target.fa using sequences from query.fa
ragtag.patch.agp: 最终的 AGP 文件 ragtag.patch.asm.*: 装配对齐文件 ragtag.patch.comps.fasta: 分割后的目标程序集和重命名的查询程序集合并为一个 FASTA 文件。 ragtag.patch.ctg.agp: 定义目标装配体如何按gap分割的 AGP 文件 ragtag.patch.ctg.fasta :目标组件在gap处分裂 ragtag.patch.fasta:包含修补后的最终 FASTA 文件 ragtag.patch.rename.agp :定义查询序列新名称的 AGP 文件 ragtag.patch.rename.fasta:具有原始查询序列但具有新名称的 FASTA 文件
最终校正后的输出文件为:ragtag.patch.fasta