wiki来源
http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:调控统一流程:国内和海外lnc_circ统一流程:参考基因组准备规范&s[]=转录调控统一准备参考基因组方法
<color #ed1c24>包括:真核有参,lnc+circ,small</color>
<color #ed1c24>自动准备参考基因组</color>:转录调控自动准备参考基因组说明文档
gff转gtf脚本:
/TJPROJ11/GB_TR/USER/songshuo/0_save/3_run_project/ncRNA_mRNA_reference_date/bin/gff_to_gtf_new --gff --type --outfile
<color #ed1c24>请在准备参考基因组之前一定要check参考基因组gtf文件中是否存在以下信息 </color>
gtf 文件要求: 以下信息必须存在 gene行: gene_id 、gene_name 、gene_biotype transcript行: gene_id、 gene_name、gene_biotype、transcript_id,transcript_biotype(没有用‘-’代替)、transcript_description(没有用‘-’代替)信息 exon行:gene_id、 gene_name、gene_biotype、transcript_id CDS行:gene_id、 gene_name、gene_biotype、transcript_id
脚本: /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2
注意,运行完脚本后需新开一个窗口进行投递,否则易出现环境变量不兼容的问题 export PYTHONPATH="" export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\ --genome \ --gtf \ --version \ --latin \ --abbr \ --taxon \ --type \ --dataset \ --threads \ --outdir \ --mirBase \ --small_ncRNA \ --cds_fa \ ######### #--genome fa绝对路径 #--gtf gtf绝对路径 #--version 物种基因组版本,如Homo_sapiens_Ensemble_90,包含物种拉丁名和数据库来源,有版本信息再加上版本信息,如果是公司组装的写,拉丁名_novogene #--latin 物种拉丁名: /NJPROJ1/RNA/database/CONFIG/kobas.txt。空格用下划线替代,如Homo_sapiens #--abbr kegg数据库中的物种缩写,如hsa #--taxon NCBI数据库中的物种taxon编号,即string数据库中的物种编号,用于ppi分析,如人9606,小鼠10090 #--type 物种类别,分为animal,plant,fungi三种类别,ensemble数据库动植物、真菌,添加注释使用 #--dataset 物种在ensemble数据库中的数据集名称,可从流程配置文件目录下的: /NJPROJ1/RNA/database/CONFIG/ensemble.txt、/TJPROJ6/RNA_T/database/CONFIG/ensemble.txt中查找(如果ensemble数据库有该物种的基因组,但ensemble.txt中无该物种的dataset数据集,可通过biomaRt包中的命令进行查看或升级新版本的biomaRt);若是NCBI数据来源,填写NCBI;否则忽略这个参数(忽略这个参数会对基因进行pfam的注释) #--threads 线程数,若是ensemble数据库来源,无需blast等注释,填1个线程即可,否则填8线程或更多 #--outdir 输出目录,默认为当前的工作目录 #--mirBase mirBase物种缩写,如果包含多个用,隔开,例如 dre,ccr,bfo (不准备circRNA参考基因组可不填,选择动物/植物/真菌/全库,分别选择animal/plant/fungi/all ) #--small_ncRNA small参考基因组的ncRNA.fa文件。指定的话从ncRNA.fa文件中提取,相对路径绝对路径均可,也可不填 #--cds_fa ncbi和ensembl数据库来源的参考基因组必填,需要下载,可不解压
准备过程及要求与国内项目真核有参参考基因组准备一致,仅需注意gtf准备需每行添加<color #ed1c24>gene_id</color>和<color #ed1c24>gene_biotype</color>信息。
投递脚本:
sjm_all.job 投递准备有参,small,lnc+circ参考基因组 sjm_ref.job 投递仅准备有参参考基因组 sjm_ncRNA.job 投递准备有参和lnc+circ参考基因组 sjm_sRNA.job 投递准备有参和small参考基因组 sjm_sRNAonly.job 在有参已经准备完毕情况下投递,准备small参考基因组 sjm_ncRNAonly.job 在有参已经准备完毕情况下投递,准备lnc+circ参考基因组(注意检查是否提供mirBase信息)
示例:
export PYTHONPATH="" export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\ --genome Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.fa \ --gtf Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.gtf \ --version Homo_sapiens_Ensemble_96 \ --latin Homo_sapiens \ --abbr hsa \ --taxon 9606 \ --type animal \ --dataset hsapiens_gene_ensembl \ --threads 1 \ --outdir path/output \ --mirBase hsa\ --small_ncRNA ncRNA.fa \ --cds_fa Mus_musculus.GRCm39.cds.all.fa.gz
示例路径: /TJPROJ6/GB_TR/reference_data/new_pip/Animal/Sus_scrofa/Sus_scrofa_Ensemble_106
更新:
2022/9/10
修改所有类型的注释信息均添加pfam注释(填写dataset且拉丁名不在植物库中的之前无pfarm注释)
2022/10/08
更改基因上下游fa文件的提取方法,使用bedtools工具进行提取
该脚本用于查找自动化使用的参考基因组路径,可以用两种方法进行查询。1、根据参考基因组的fa和gff完整链接进行查找;2、根据基因组ID进行查找,具体使用方法如下:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py -h usage: find_genome.py [-h] {lk,id} ... Search genome from database positional arguments: {lk,id} sub-command help lk 按fa和gff链接查找基因组 id 按基因组id查找基因组 optional arguments: -h, --help show this help message and exit 按fa和gff链接进行查找使用lk命令: /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -h usage: find_genome.py lk [-h] -l JQ -f FA -g GFF optional arguments: -h, --help show this help message and exit -l JQ, --jq JQ 集群地点,例如TJ/US/UK -f FA, --fa FA 参考基因组fa链接(必须是完整链接) -g GFF, --gff GFF 参考基因组gff链接(必须是完整链接) 按参考基因组id进行查找使用id命令: /TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -h usage: find_genome.py id [-h] -l JQ -i ID optional arguments: -h, --help show this help message and exit -l JQ, --jq JQ 集群地点,例如TJ/US/UK -i ID, --id ID 参考基因组ID,例如ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4
按照fa和gff完整链接进行查找使用方法示例:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -f http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_genome_v3.fa.gz -g http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_v3.gff3.gz -l TJ
按照参考基因组id进行查找使用方法示例:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -i ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4 -l US