======简介====== meta高级分析流程中,基于unigene的转移元件分析所使用的数据库版本过旧,需要及时更新。 已将流程中isfinder数据库更新至2023.01.06版本。 由于此数据库不提供下载,只能使用爬虫爬取数据库网址信息,此处整理补充了isfinder数据库更新方法。 ======功能====== 整理完善了isfinder数据库的更新方法 ======数据库下载流程====== **1. 爬取数据库网址链接:** 第一步用来抓取每个插入序列的注释信息以及对应的网址链接。 /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISfiner.step1.py step1 **2. 插入序列网址下载:** 第二步根据下载的所有插入序列的网址链接,对每个网页进行下载,并提取网页中的seq序列信息 /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISfiner.step2_new.py step1.IS.ID.list outdir/ rm IS.database.tmp.fa find outdir/ -type f -name 'IS*.seq.fa'|xargs -L 1 -I {} cat {} >> IS.database.tmp.fa /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python check.empty.py IS.database.tmp.fa IS.database.fa > check.list **3. 爬取注释信息:** 第三步,由于第一步爬取的注释信息不符合我们流程需要,需要重构脚本抓取注释。 /TJPROJ1/META_ASS/script_Advanced_analysis/HUMANn3/software/conda/envs/python3/bin/python ISinfo.py list ./ 这样我们就得到了数据库网址最新的插入序列以及注释信息。 完整脚本路径: /TJPROJ1/META_ASS/script_Advanced_analysis/MGEs-unigene/database/isfinder/method