新参考基因组

转录调控统一准备参考基因组方法：

wiki来源

http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:调控统一流程:国内和海外lnc_circ统一流程:参考基因组准备规范&s[]=转录调控统一准备参考基因组方法

<color #ed1c24>包括：真核有参，lnc+circ，small</color>

<color #ed1c24>自动准备参考基因组</color>：转录调控自动准备参考基因组说明文档

参考基因组准备规范

gff转gtf脚本：

/TJPROJ11/GB_TR/USER/songshuo/0_save/3_run_project/ncRNA_mRNA_reference_date/bin/gff_to_gtf_new --gff  --type  --outfile

<color #ed1c24>请在准备参考基因组之前一定要check参考基因组gtf文件中是否存在以下信息 </color>

gtf 文件要求：
以下信息必须存在

gene行： gene_id 、gene_name 、gene_biotype
transcript行： gene_id、 gene_name、gene_biotype、transcript_id，transcript_biotype（没有用‘-’代替）、transcript_description（没有用‘-’代替）信息
exon行：gene_id、 gene_name、gene_biotype、transcript_id
CDS行：gene_id、 gene_name、gene_biotype、transcript_id

脚本： /TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2

注意，运行完脚本后需新开一个窗口进行投递，否则易出现环境变量不兼容的问题
export PYTHONPATH=""
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\
  --genome  \
  --gtf  \
  --version \
  --latin  \
  --abbr  \
  --taxon  \
  --type  \
  --dataset  \
  --threads  \
  --outdir \
  --mirBase \
  --small_ncRNA \
  --cds_fa  \

#########
#--genome    fa绝对路径
#--gtf       gtf绝对路径
#--version   物种基因组版本，如Homo_sapiens_Ensemble_90，包含物种拉丁名和数据库来源，有版本信息再加上版本信息,如果是公司组装的写，拉丁名_novogene
#--latin      物种拉丁名： /NJPROJ1/RNA/database/CONFIG/kobas.txt。空格用下划线替代，如Homo_sapiens 
#--abbr      kegg数据库中的物种缩写，如hsa
#--taxon     NCBI数据库中的物种taxon编号，即string数据库中的物种编号，用于ppi分析，如人9606，小鼠10090
#--type      物种类别，分为animal,plant,fungi三种类别，ensemble数据库动植物、真菌，添加注释使用
#--dataset   物种在ensemble数据库中的数据集名称，可从流程配置文件目录下的: /NJPROJ1/RNA/database/CONFIG/ensemble.txt、/TJPROJ6/RNA_T/database/CONFIG/ensemble.txt中查找(如果ensemble数据库有该物种的基因组，但ensemble.txt中无该物种的dataset数据集，可通过biomaRt包中的命令进行查看或升级新版本的biomaRt)；若是NCBI数据来源，填写NCBI；否则忽略这个参数（忽略这个参数会对基因进行pfam的注释）
#--threads 线程数，若是ensemble数据库来源，无需blast等注释，填1个线程即可，否则填8线程或更多
#--outdir 输出目录，默认为当前的工作目录
#--mirBase mirBase物种缩写，如果包含多个用,隔开，例如  dre,ccr,bfo （不准备circRNA参考基因组可不填，选择动物/植物/真菌/全库，分别选择animal/plant/fungi/all ）
#--small_ncRNA small参考基因组的ncRNA.fa文件。指定的话从ncRNA.fa文件中提取,相对路径绝对路径均可，也可不填
#--cds_fa   ncbi和ensembl数据库来源的参考基因组必填，需要下载，可不解压

准备过程及要求与国内项目真核有参参考基因组准备一致，仅需注意gtf准备需每行添加<color #ed1c24>gene_id</color>和<color #ed1c24>gene_biotype</color>信息。

投递脚本：

sjm_all.job
    投递准备有参，small，lnc+circ参考基因组
    
sjm_ref.job
    投递仅准备有参参考基因组
    
sjm_ncRNA.job
    投递准备有参和lnc+circ参考基因组
    
sjm_sRNA.job
    投递准备有参和small参考基因组
    
sjm_sRNAonly.job
    在有参已经准备完毕情况下投递，准备small参考基因组
    
sjm_ncRNAonly.job
    在有参已经准备完毕情况下投递，准备lnc+circ参考基因组（注意检查是否提供mirBase信息）

示例：

export PYTHONPATH=""
export PATH=/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin:$PATH
export PATH=/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_LncCirc_man_pipline/bin:$PATH
/TJPROJ7/GB_TR/PUBLIC/source/ncRNA/gb_tr_man_pipline/bin/prepare_data_nc_mRNA_v2\
  --genome Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.fa \
  --gtf Homo_sapiens_Ensemble_96/Homo_sapiens_Ensemble_96.gtf \
  --version Homo_sapiens_Ensemble_96 \
  --latin Homo_sapiens \
  --abbr hsa \
  --taxon 9606 \
  --type animal \
  --dataset hsapiens_gene_ensembl \
  --threads 1 \
  --outdir path/output \
  --mirBase hsa\
  --small_ncRNA  ncRNA.fa \
  --cds_fa Mus_musculus.GRCm39.cds.all.fa.gz

示例路径： /TJPROJ6/GB_TR/reference_data/new_pip/Animal/Sus_scrofa/Sus_scrofa_Ensemble_106

更新：

2022/9/10

修改所有类型的注释信息均添加pfam注释（填写dataset且拉丁名不在植物库中的之前无pfarm注释）

2022/10/08

更改基因上下游fa文件的提取方法，使用bedtools工具进行提取

查询自动化使用的参考基因组

该脚本用于查找自动化使用的参考基因组路径，可以用两种方法进行查询。1、根据参考基因组的fa和gff完整链接进行查找；2、根据基因组ID进行查找，具体使用方法如下：

/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py -h
usage: find_genome.py [-h] {lk,id} ...

Search genome from database

positional arguments:
  {lk,id}     sub-command help
    lk        按fa和gff链接查找基因组
    id        按基因组id查找基因组

optional arguments:
  -h, --help  show this help message and exit

按fa和gff链接进行查找使用lk命令：
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -h
usage: find_genome.py lk [-h] -l JQ -f FA -g GFF

optional arguments:
  -h, --help         show this help message and exit
  -l JQ, --jq JQ     集群地点，例如TJ/US/UK
  -f FA, --fa FA     参考基因组fa链接(必须是完整链接)
  -g GFF, --gff GFF  参考基因组gff链接(必须是完整链接)

按参考基因组id进行查找使用id命令：
/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -h
usage: find_genome.py id [-h] -l JQ -i ID

optional arguments:
  -h, --help      show this help message and exit
  -l JQ, --jq JQ  集群地点，例如TJ/US/UK
  -i ID, --id ID  参考基因组ID,例如ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4

按照fa和gff完整链接进行查找使用方法示例：

/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py lk -f http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_genome_v3.fa.gz -g http://cucurbitgenomics.org/ftp/genome/cucumber/Chinese_long/v3/ChineseLong_v3.gff3.gz -l TJ

按照参考基因组id进行查找使用方法示例：

/TJPROJ2/GB/PUBLIC/software/GB_TR/mRNA/miniconda3/bin/python /TJPROJ11/GB_TR/USER/lixinyu/script/search_genome/find_genome.py id -i ensembl_rattus_norvegicus_rnor_6_0_gca_000001895_4 -l US