meta高级分析流程中,基于unigene的转移元件分析所使用的数据库版本过旧,需要及时更新。
已将流程中isfinder数据库更新至2023.01.06版本。
由于此数据库不提供下载,只能使用爬虫爬取数据库网址信息,此处整理补充了isfinder数据库更新方法。
整理完善了isfinder数据库的更新方法
1. 爬取数据库网址链接:
第一步用来抓取每个插入序列的注释信息以及对应的网址链接。
/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISfiner.step1.py step1
2. 插入序列网址下载:
第二步根据下载的所有插入序列的网址链接,对每个网页进行下载,并提取网页中的seq序列信息
/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISfiner.step2_new.py step1.IS.ID.list outdir/
rm IS.database.tmp.fa find outdir/ -type f -name 'IS*.seq.fa'|xargs -L 1 -I {} cat {} >> IS.database.tmp.fa
/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python check.empty.py IS.database.tmp.fa IS.database.fa > check.list
3. 爬取注释信息:
第三步,由于第一步爬取的注释信息不符合我们流程需要,需要重构脚本抓取注释。
/TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISinfo.py list ./
这样我们就得到了数据库网址最新的插入序列以及注释信息。
完整脚本路径:
/TJPROJ1/META_ASS/script_Advanced_analysis/MGEs-unigene/database/isfinder/method