目录

RagTag简介

RagTag 是用于搭建和改进现代基因组组装的软件工具集合。任务包括:

基于同源性的错误组装序列校正 基于同源性的组装scaffold和修补 scaffold合并

agTag可以进行错误组装校正、scaffold组装和修补、scaffold合并等,一共分四步:correct,scaffold,patch,merge。之后,可以用Liftoff进行基因注释。

correct

校正是使用参考基因组来鉴定和校正contigs中的组装错误,该步骤不会将序列减少或增加,仅仅是将序列在错误组装的位置进行打断。

ragtag.py correct relatives-reference.fa scaffolds_FINAL.fasta -t 80

重要的结果: ragtag.correct.fasta

scaffold

该步骤是将相邻的contigs序列用100个N连起来,序列的位置和方向需要根据与参考基因组的比对结果确定。

ragtag.py scaffold relatives-reference.fa ragtag_output/ragtag.correct.fasta -t 80 -C 

重要的结果: ragtag.scaffold.fasta ragtag.scaffold.agp

patch

该步骤是用contigs序列对上一步得到的scaffold序列进行gap填补。

ragtag.py patch ./ragtag_output/ragtag.scaffold.fasta scaffolds_FINAL.fasta -t 80

merge

在scaffolding过程中,可能会根据不同参数或图谱数据产生多个版本的基因组组装结果,该步骤可以将多个结果根据权重进行最终组装结果的生成。

如果有HiC数据,还可以加入HiC数据生成比较好的组装结果。

项目执行路径

/TJPROJ1/META_ASS/PreSaleEvaluation/ragtag

官网:https://github.com/malonge/RagTag

得到结果: 运行步骤所输出的结果: # correct a query assembly

ragtag.correct.fasta:纠正后的基因组序列
ragtag.correct.agp:定义查询序列中断的精确坐标的AGP文件。

# scaffold a query assembly

ragtag.scaffold.agp:AGP 格式的查询序列的排序和方向。
ragtag.scaffold.fasta:FASTA格式的scaffolds序列文件
ragtag.scaffold.stats:scaffolds过程的汇总统计

# make joins and fill gaps in target.fa using sequences from query.fa

ragtag.patch.agp: 最终的 AGP 文件
ragtag.patch.asm.*: 装配对齐文件
ragtag.patch.comps.fasta: 分割后的目标程序集和重命名的查询程序集合并为一个 FASTA 文件。
ragtag.patch.ctg.agp: 定义目标装配体如何按gap分割的 AGP 文件
ragtag.patch.ctg.fasta	:目标组件在gap处分裂
ragtag.patch.fasta:包含修补后的最终 FASTA 文件
ragtag.patch.rename.agp	:定义查询序列新名称的 AGP 文件
ragtag.patch.rename.fasta:具有原始查询序列但具有新名称的 FASTA 文件

最终校正后的输出文件为:ragtag.patch.fasta