目录

简介

meta高级分析流程中,基于unigene的转移元件分析所使用的数据库版本过旧,需要及时更新。

已将流程中isfinder数据库更新至2023.01.06版本。

由于此数据库不提供下载,只能使用爬虫爬取数据库网址信息,此处整理补充了isfinder数据库更新方法。

功能

整理完善了isfinder数据库的更新方法

数据库下载流程

1. 爬取数据库网址链接:

第一步用来抓取每个插入序列的注释信息以及对应的网址链接。

/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python  ISfiner.step1.py  step1

2. 插入序列网址下载:

第二步根据下载的所有插入序列的网址链接,对每个网页进行下载,并提取网页中的seq序列信息

/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISfiner.step2_new.py step1.IS.ID.list outdir/
rm IS.database.tmp.fa
find outdir/ -type f -name 'IS*.seq.fa'|xargs -L 1 -I {} cat {} >> IS.database.tmp.fa
/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python check.empty.py IS.database.tmp.fa IS.database.fa > check.list

3. 爬取注释信息:

第三步,由于第一步爬取的注释信息不符合我们流程需要,需要重构脚本抓取注释。

/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISinfo.py list ./

这样我们就得到了数据库网址最新的插入序列以及注释信息。

完整脚本路径:

/TJPROJ1/META_ASS/script_Advanced_analysis/MGEs-unigene/database/isfinder/method