=====转录调控统一准备参考基因组方法:=====
wiki来源
http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:调控统一流程:国内和海外lnc_circ统一流程:参考基因组准备规范&s[]=转录调控统一准备参考基因组方法
**包括:真核有参,lnc+circ,small**
自动准备参考基因组:[[products_tr:自动准备参考基因组:流程说明文档|转录调控自动准备参考基因组说明文档]]
=====参考基因组准备规范=====
**gff转gtf脚本:**
/TJPROJ11/GB_TR/USER/songshuo/0_save/3_run_project/ncRNA_mRNA_reference_date/bin/gff_to_gtf_new --gff --type --outfile
请在准备参考基因组之前一定要check参考基因组gtf文件中是否存在以下信息
gtf 文件要求:
以下信息必须存在
gene行: gene_id 、gene_name 、gene_biotype
transcript行: gene_id、 gene_name、gene_biotype、transcript_id,transcript_biotype(没有用‘-’代替)、transcript_description(没有用‘-’代替)信息
exon行:gene_id、 gene_name、gene_biotype、transcript_id
CDS行:gene_id、 gene_name、gene_biotype、transcript_id
脚本:
**/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2**
注意,运行完脚本后需新开一个窗口进行投递,否则易出现环境变量不兼容的问题
export PYTHONPATH=""
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\
--genome \
--gtf \
--version \
--latin \
--abbr \
--taxon \
--type \
--dataset \
--threads \
--outdir \
--mirBase \
--small_ncRNA \
--cds_fa \
#########
#--genome fa绝对路径
#--gtf gtf绝对路径
#--version 物种基因组版本,如Homo_sapiens_Ensemble_90,包含物种拉丁名和数据库来源,有版本信息再加上版本信息,如果是公司组装的写,拉丁名_novogene
#--latin 物种拉丁名: /NJPROJ1/RNA/database/CONFIG/kobas.txt。空格用下划线替代,如Homo_sapiens
#--abbr kegg数据库中的物种缩写,如hsa
#--taxon NCBI数据库中的物种taxon编号,即string数据库中的物种编号,用于ppi分析,如人9606,小鼠10090
#--type 物种类别,分为animal,plant,fungi三种类别,ensemble数据库动植物、真菌,添加注释使用
#--dataset 物种在ensemble数据库中的数据集名称,可从流程配置文件目录下的: /NJPROJ1/RNA/database/CONFIG/ensemble.txt、/TJPROJ6/RNA_T/database/CONFIG/ensemble.txt中查找(如果ensemble数据库有该物种的基因组,但ensemble.txt中无该物种的dataset数据集,可通过biomaRt包中的命令进行查看或升级新版本的biomaRt);若是NCBI数据来源,填写NCBI;否则忽略这个参数(忽略这个参数会对基因进行pfam的注释)
#--threads 线程数,若是ensemble数据库来源,无需blast等注释,填1个线程即可,否则填8线程或更多
#--outdir 输出目录,默认为当前的工作目录
#--mirBase mirBase物种缩写,如果包含多个用,隔开,例如 dre,ccr,bfo (不准备circRNA参考基因组可不填,选择动物/植物/真菌/全库,分别选择animal/plant/fungi/all )
#--small_ncRNA small参考基因组的ncRNA.fa文件。指定的话从ncRNA.fa文件中提取,相对路径绝对路径均可,也可不填
#--cds_fa ncbi和ensembl数据库来源的参考基因组必填,需要下载,可不解压
准备过程及要求与[[products_tr:pipelines:国内项目真核有参参考基因组准备规范|国内项目真核有参参考基因组准备]]一致,仅需注意gtf准备需每行添加gene_id和gene_biotype信息。
**投递脚本:**
sjm_all.job
投递准备有参,small,lnc+circ参考基因组
sjm_ref.job
投递仅准备有参参考基因组
sjm_ncRNA.job
投递准备有参和lnc+circ参考基因组
sjm_sRNA.job
投递准备有参和small参考基因组
sjm_sRNAonly.job
在有参已经准备完毕情况下投递,准备small参考基因组
sjm_ncRNAonly.job
在有参已经准备完毕情况下投递,准备lnc+circ参考基因组(注意检查是否提供mirBase信息)
示例:
export PYTHONPATH=""
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\
--genome Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.fa \
--gtf Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.gtf \
--version Homo_sapiens_Ensemble_96 \
--latin Homo_sapiens \
--abbr hsa \
--taxon 9606 \
--type animal \
--dataset hsapiens_gene_ensembl \
--threads 1 \
--outdir path/output \
--mirBase hsa\
--small_ncRNA ncRNA.fa \
--cds_fa Mus_musculus.GRCm39.cds.all.fa.gz
示例路径: **/TJPROJ6/GB_TR/reference_data/new_pip/Animal/Sus_scrofa/Sus_scrofa_Ensemble_106**
更新:
2022/9/10
修改所有类型的注释信息均添加pfam注释(填写dataset且拉丁名不在植物库中的之前无pfarm注释)
2022/10/08
更改基因上下游fa文件的提取方法,使用bedtools工具进行提取
====查询自动化使用的参考基因组====
该脚本用于查找自动化使用的参考基因组路径,可以用两种方法进行查询。1、根据参考基因组的fa和gff完整链接进行查找;2、根据基因组ID进行查找,具体使用方法如下:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py -h
usage: find_genome.py [-h] {lk,id} ...
Search genome from database
positional arguments:
{lk,id} sub-command help
lk 按fa和gff链接查找基因组
id 按基因组id查找基因组
optional arguments:
-h, --help show this help message and exit
按fa和gff链接进行查找使用lk命令:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -h
usage: find_genome.py lk [-h] -l JQ -f FA -g GFF
optional arguments:
-h, --help show this help message and exit
-l JQ, --jq JQ 集群地点,例如TJ/US/UK
-f FA, --fa FA 参考基因组fa链接(必须是完整链接)
-g GFF, --gff GFF 参考基因组gff链接(必须是完整链接)
按参考基因组id进行查找使用id命令:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -h
usage: find_genome.py id [-h] -l JQ -i ID
optional arguments:
-h, --help show this help message and exit
-l JQ, --jq JQ 集群地点,例如TJ/US/UK
-i ID, --id ID 参考基因组ID,例如ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4
按照fa和gff完整链接进行查找使用方法示例:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -f http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_genome_v3.fa.gz -g http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_v3.gff3.gz -l TJ
按照参考基因组id进行查找使用方法示例:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -i ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4 -l US