目录

转录调控统一准备参考基因组方法:

wiki来源

http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:调控统一流程:国内和海外lnc_circ统一流程:参考基因组准备规范&s[]=转录调控统一准备参考基因组方法

<color #ed1c24>包括:真核有参,lnc+circ,small</color>

<color #ed1c24>自动准备参考基因组</color>:转录调控自动准备参考基因组说明文档

参考基因组准备规范

gff转gtf脚本:

/TJPROJ11/GB_TR/USER/songshuo/0_save/3_run_project/ncRNA_mRNA_reference_date/bin/gff_to_gtf_new --gff  --type  --outfile

<color #ed1c24>请在准备参考基因组之前一定要check参考基因组gtf文件中是否存在以下信息 </color>

gtf 文件要求:
以下信息必须存在

gene行: gene_id 、gene_name 、gene_biotype
transcript行: gene_id、 gene_name、gene_biotype、transcript_id,transcript_biotype(没有用‘-’代替)、transcript_description(没有用‘-’代替)信息
exon行:gene_id、 gene_name、gene_biotype、transcript_id
CDS行:gene_id、 gene_name、gene_biotype、transcript_id

脚本: /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2

注意,运行完脚本后需新开一个窗口进行投递,否则易出现环境变量不兼容的问题
export PYTHONPATH=""
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\
  --genome  \
  --gtf  \
  --version \
  --latin  \
  --abbr  \
  --taxon  \
  --type  \
  --dataset  \
  --threads  \
  --outdir \
  --mirBase \
  --small_ncRNA \
  --cds_fa  \

#########
#--genome    fa绝对路径
#--gtf       gtf绝对路径
#--version   物种基因组版本,如Homo_sapiens_Ensemble_90,包含物种拉丁名和数据库来源,有版本信息再加上版本信息,如果是公司组装的写,拉丁名_novogene
#--latin      物种拉丁名: /NJPROJ1/RNA/database/CONFIG/kobas.txt。空格用下划线替代,如Homo_sapiens 
#--abbr      kegg数据库中的物种缩写,如hsa
#--taxon     NCBI数据库中的物种taxon编号,即string数据库中的物种编号,用于ppi分析,如人9606,小鼠10090
#--type      物种类别,分为animal,plant,fungi三种类别,ensemble数据库动植物、真菌,添加注释使用
#--dataset   物种在ensemble数据库中的数据集名称,可从流程配置文件目录下的: /NJPROJ1/RNA/database/CONFIG/ensemble.txt、/TJPROJ6/RNA_T/database/CONFIG/ensemble.txt中查找(如果ensemble数据库有该物种的基因组,但ensemble.txt中无该物种的dataset数据集,可通过biomaRt包中的命令进行查看或升级新版本的biomaRt);若是NCBI数据来源,填写NCBI;否则忽略这个参数(忽略这个参数会对基因进行pfam的注释)
#--threads 线程数,若是ensemble数据库来源,无需blast等注释,填1个线程即可,否则填8线程或更多
#--outdir 输出目录,默认为当前的工作目录
#--mirBase mirBase物种缩写,如果包含多个用,隔开,例如  dre,ccr,bfo (不准备circRNA参考基因组可不填,选择动物/植物/真菌/全库,分别选择animal/plant/fungi/all )
#--small_ncRNA small参考基因组的ncRNA.fa文件。指定的话从ncRNA.fa文件中提取,相对路径绝对路径均可,也可不填
#--cds_fa   ncbi和ensembl数据库来源的参考基因组必填,需要下载,可不解压

准备过程及要求与国内项目真核有参参考基因组准备一致,仅需注意gtf准备需每行添加<color #ed1c24>gene_id</color>和<color #ed1c24>gene_biotype</color>信息。

投递脚本:

sjm_all.job
    投递准备有参,small,lnc+circ参考基因组
    
sjm_ref.job
    投递仅准备有参参考基因组
    
sjm_ncRNA.job
    投递准备有参和lnc+circ参考基因组
    
sjm_sRNA.job
    投递准备有参和small参考基因组
    
sjm_sRNAonly.job
    在有参已经准备完毕情况下投递,准备small参考基因组
    
sjm_ncRNAonly.job
    在有参已经准备完毕情况下投递,准备lnc+circ参考基因组(注意检查是否提供mirBase信息)
    

示例:

export PYTHONPATH=""
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\
  --genome Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.fa \
  --gtf Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.gtf \
  --version Homo_sapiens_Ensemble_96 \
  --latin Homo_sapiens \
  --abbr hsa \
  --taxon 9606 \
  --type animal \
  --dataset hsapiens_gene_ensembl \
  --threads 1 \
  --outdir path/output \
  --mirBase hsa\
  --small_ncRNA  ncRNA.fa \
  --cds_fa Mus_musculus.GRCm39.cds.all.fa.gz 

示例路径: /TJPROJ6/GB_TR/reference_data/new_pip/Animal/Sus_scrofa/Sus_scrofa_Ensemble_106

更新:

2022/9/10

修改所有类型的注释信息均添加pfam注释(填写dataset且拉丁名不在植物库中的之前无pfarm注释)

2022/10/08

更改基因上下游fa文件的提取方法,使用bedtools工具进行提取

查询自动化使用的参考基因组

该脚本用于查找自动化使用的参考基因组路径,可以用两种方法进行查询。1、根据参考基因组的fa和gff完整链接进行查找;2、根据基因组ID进行查找,具体使用方法如下:

/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py -h
usage: find_genome.py [-h] {lk,id} ...

Search genome from database

positional arguments:
  {lk,id}     sub-command help
    lk        按fa和gff链接查找基因组
    id        按基因组id查找基因组

optional arguments:
  -h, --help  show this help message and exit

按fa和gff链接进行查找使用lk命令:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -h
usage: find_genome.py lk [-h] -l JQ -f FA -g GFF

optional arguments:
  -h, --help         show this help message and exit
  -l JQ, --jq JQ     集群地点,例如TJ/US/UK
  -f FA, --fa FA     参考基因组fa链接(必须是完整链接)
  -g GFF, --gff GFF  参考基因组gff链接(必须是完整链接)

按参考基因组id进行查找使用id命令:
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -h
usage: find_genome.py id [-h] -l JQ -i ID

optional arguments:
  -h, --help      show this help message and exit
  -l JQ, --jq JQ  集群地点,例如TJ/US/UK
  -i ID, --id ID  参考基因组ID,例如ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4

按照fa和gff完整链接进行查找使用方法示例:

/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -f http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_genome_v3.fa.gz -g http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_v3.gff3.gz -l TJ

按照参考基因组id进行查找使用方法示例:

/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -i ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4 -l US