用户工具

站点工具


参考基因组准备

基因组准备规范

手动准备参考基因组登记链接: https://shimo.im/sheets/T9XQVGqP9JGCYvpD/MODOC/ 
gff转gtf脚本链接:http://192.168.47.160:8080/wiki/GB/doku.php?id=products_tr:pipelines:start

数据准备

准备完毕check没问题了,手动删除准备数据目录下的tmp文件 rm -rf tmp

原始fa只保留建立索引的,原始的gff文件进行压缩,写一个readme说明gtf处理的方法,wget的网址!

所有数据准备完后进入sh log/check.sh check基因组准备是否有问题

产品_rnaseq_pasted_新rna-seq数据准备解析.pdf

常规数据准备

先确定/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/CONFIG/configure.txt是否已经在[genomedb] 添加参考基因组

添加方式:使用RNA_M账号进行添加!!!!,没有的问佑婷,熟悉流程了再自己加

理解log/sjm.job的文件生成的先后顺序!!!

参数说明


 prepare_data \
  --genome 物种基因组fasta文件(绝对路径) \
  --gtf 物种基因组注释文件gtf,需要自行下载,必填参数,也可使用gff_to_gtf脚本将gff文件转成gtf文件(绝对路径) \
  --version 物种基因组版本,如Homo_sapiens_Ensemble_90,包含物种拉丁名和数据库来源,有版本信息再加上版本信息,如果是公司组装的写,拉丁名_novogene \
  --latin 物种拉丁名: /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/config/kobas.txt。空格用下划线替代,如Homo_sapiens \
  --abbr kegg数据库中的物种缩写,如hsa \
  --taxon NCBI数据库中的物种taxon编号,即string数据库中的物种编号,用于ppi分析,如人9606,小鼠10090 \
  --type 物种类别,分为animal,plant,fungi三种类别,ensemble数据库动植物、真菌,添加注释使用 \
  --dataset 物种在ensemble数据库中的数据集名称,可从流程配置文件目录下的: /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/config/ensemble.txt中查找(如果ensemble数据库有该物种的基因组,但ensemble.txt中无该物种的dataset数据集,可通过biomaRt包中的命令进行查看或升级新版本的biomaRt);若是NCBI数据来源,填写NCBI;否则忽略这个参数(忽略这个参数会对基因进行pfam的注释) \
  --threads 线程数,若是ensemble数据库来源,无需blast等注释,填1个线程即可,否则填8线程或更多 \
  --outdir 输出目录,默认为当前的工作目录 \

示例

prepare_data \
  --genome /path/Homo_sapiens_Ensemble_90.fa \
  --gtf /path/Homo_sapiens_Ensemble_90.gtf \
  --version Homo_sapiens_Ensemble_90 \
  --latin Homo_sapiens \
  --abbr hsa \
  --taxon 9606 \
  --type animal \
  --dataset hsapiens_gene_ensembl \
  --threads 1 \
  --outdir /path/output \

进入log目录,运行

sjm sjm.job

结果文件

Homo_sapiens_Ensemble_90.fa 参考基因组fa文件
Homo_sapiens_Ensemble_90.gtf gtf注释文件
Homo_sapiens_Ensemble_90_transcript.fa 转录组fa文件,一是用于提取基因fa,二是用于转录本水平的定量
Homo_sapiens_Ensemble_90_gene.fa 基因fa文件,提取最长转录本序列,用于释放数据,零号文件夹下
Homo_sapiens_Ensemble_90_flat.txt 基因注释文件,flat格式,通过gtfToGenePred命令对gtf进行转换得到,用于统计比对中exon和intron的比例
Homo_sapiens_Ensemble_90_gene.txt 基因注释文件,用于注释基因水平的定量和差异的表格文件
Homo_sapiens_Ensemble_90_gene.xls 在Homo_sapiens_Ensemble_90_gene.txt最后一列通过文件:Homo_sapiens_Ensemble_90_tf.txt添加转录因子
Homo_sapiens_Ensemble_90_transcript.txt 转录本注释文件,用于注释转录本水平的定量和差异的表格文件
Homo_sapiens_Ensemble_90_transcript.xls 在Homo_sapiens_Ensemble_90_transcript.txt最后一列通过文件:Homo_sapiens_Ensemble_90_tf.txt添加转录因子
Homo_sapiens_Ensemble_90_go.txt go注释文件 用于GO富集分析
Homo_sapiens_Ensemble_90_hsa_kegg.txt kegg注释文件,用于KEGG富集分析
Homo_sapiens_Ensemble_90_9606_ppi.txt ppi注释文件,用于PPI互作分析
Homo_sapiens_Ensemble_90.dict 基因组索引,用于snp分析
Homo_sapiens_Ensemble_90.fa.fai 基因组信息,用于snp分析
Homo_sapiens_Ensemble_90.fa.gz 基因组fa压缩文件,用于释放数据
Homo_sapiens_Ensemble_90.gtf.gz gtf注释压缩文件,用于释放数据
Homo_sapiens_Ensemble_90_transcript.fa.gz 转录组fa压缩文件,用于释放数据
Homo_sapiens_Ensemble_90_gene.fa.gz 基因fa压缩文件,用于释放数据
Homo_sapiens_Ensemble_90*.ht2 基因组索引文件,用于hisat2比对

gtf文件说明

gtf文件一般有三个来源,ensemble数据库(一般不用处理,可直接使用),NCBI数据库(将gff文件转为gtf文件,可使用gff_to_gtf命令),其它数据库(自己写脚本处理)
gff转换为gtf文件要注意如下几个事项

gff文件中的mRNA,要在gtf文件中改为transcript
若gtf第三列为gene,则第九列必须包含gene_id、gene_name(没有用‘-’代替)、gene_biotype(没有用‘-’代替)信息
若gtf第三列为transcript,则第九列必须包含gene_id、transcript_id、transcript_biotype(没有用‘-’代替)、transcript_description(没有用‘-’代替)信息
若gtf第三列为exon,则第九列必须包含gene_id、gene_name、transcript_id信息
若gtf第三列为CDS,则第九列必须包含gene_id、transcript_id、protein_id(没有用‘-’代替)信息

注释文件说明

gene.txt/transcript.txt从gtf文件中提取,其中description信息,一是通过biomaRt包从biomart数据库下载(gtf文件来源于ensemble),二是从gff中提取,三是从pfam注释结果中提取

gene.xls/transcript.xls 是在gene.txt/transcript.txt最后一列添加转录因子分析

GO文件说明

GO文件第一列为基因ID,第二列为GO的ID,第三列为go ontology,第四列为go term。第一列的基因ID一定要与gtf中的基因ID名称相一致。

GO数据有三个来源,biomart数据库,NCBI数据库,pfam注释,优先级从前往后
biomart数据库来源:通过biomaRt包进行下载
NCBI数据库来源:从 /TJPROJ6/RNA_T/database/ncbi/gene/gene2go.txt(改文件从NCBI数据库ftp路径下载https://ftp.ncbi.nih.gov/gene/DATA/gene2go.gz)提取
pfam注释:通过interproscan软件进行注释和提取

KEGG文件说明

KEGG文件第一列为基因ID,第二列为通路的基因ID(该ID通常为NCBI的ID),第三列为通路ID,第四列为通路名称。第一列的基因ID一定要与gtf中的基因ID相一致。

KEGG数据通过KEGGREST包进行下载,可通过get_kegg_pathway(若报错,改用get_kegg_pathway2)命令
在下载kegg通路xml文件和png文件时,若遇非网络连接报错,将该物种的KEGG编号添加到/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/database/config/keggid.txt文件中,再运行相关命令

PPI文件说明

PPI文件第一列为基因ID,第二列为蛋白ID(该蛋白ID来源于STRING数据库)。第一列的基因ID一定要与gtf文件中的基因ID相一致。

java版GSEA分析数据准备

以Homo_sapiens_Ensemble_90为例

Homo_sapiens_Ensemble_90_go.gmt
Homo_sapiens_Ensemble_90_kegg.gmt
Homo_sapiens_Ensemble_90_reactome.gmt
Homo_sapiens_Ensemble_90_do.txt
Homo_sapiens_Ensemble_90_disgenet.gmt

gmt文件要求第一列为通路名称(通路ID),第二列为通路名称,第三列及后面的所有列为该通路下所有的基因name(基因ID),文件名要以gmt作为后缀
可通过下面的命令进行转换

/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans/pipline1.1/bin/gsea_gmt

snpeff数据准备

该步为可选项,如果没有提前下载snpeff数据集,流程会在SNP分析模块的第一步通过fa及gtf文件生成

列出snpeff可供下载的数据集,如下所示 \
java -jar /NJPROJ1/RNA/software/snpeff/snpeff-4.3q/snpEff/snpEff.jar databases \

通过grep命令搜索感兴趣的数据集,如下所示,其中GRCh38为搜索关键词 \
java -jar /NJPROJ1/RNA/software/snpeff/snpeff-4.3q/snpEff/snpEff.jar databases|grep GRCh38 \

根据搜索到的结果,下载数据集,如下所示,其中GRCh38.86为搜索到的数据集名称 \
java -jar /NJPROJ1/RNA/software/snpeff/snpeff-4.3q/snpEff/snpEff.jar download -v GRCh38.86 \

数据集会自动下载到下面的目录 \
/NJPROJ1/RNA/database/snp

将下载的数据集链接为常规准备数据的基因组版本名,如下所示 \
ln -s GRCh38.86 Homo_sapiens_Ensemble_90

孙长凯国内有参参考基因组准备.pptx

参考基因组准备.txt · 最后更改: 2022/08/01 09:42 由 fengjie