用户工具

站点工具


原核参考基因组准备

原核统一流程参考基因组准备

参考基因组准备路径

南京集群:/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria   
天津集群:/TJPROJ6/GB_TR/reference_data/Bacteria

配置run.sh

python /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/genome/prepare.py   \
    --annot /NJPROJ1/RNA/database/genome/Bacteria/Escherichia_coli_str_K-12_W3110/temp/GCF_000010245.2_ASM1024v1_genomic.gff  \ 
    --fasta  /NJPROJ1/RNA/database/genome/Bacteria/Escherichia_coli_str_K-12_W3110/temp/GCF_000010245.2_ASM1024v1_genomic.fna  \
    --latin_name Escherichia_coli  \
    --outdir /NJPROJ3/RNA/personal_dir/yangwanyun/test/X101SC19102139-Z01-J001-B1-16_xijun_yuanhe_20191119/genome/Escherichia_coli_str_K-12_W3110  \
    --abbr ecj \
    --genename  yes 

天津集群脚本路径:/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/genome/prepare.py

参数说明

--annot参数:以后缀名称进行识别,可接受.gtf,.gff, .gbk格式文件。与有参不同,原核的gtf中只有exon,脚本在处理gff时,是将gff中第三列为gene的进行提取。

--faa参数:可以写也可以不写,如果是NCBI来源的基因组最好写。

--genename:可填写参数有yes,no,或删除该参数;
  yes:gff中有基因名字和product信息的,会自动从gff中提取genename和gene discription信息;
  no:本身有genenamefile文件,不需要准备;
  不填写该参数:gff中没有discription,会自动通过blast swissprot注释得到gene discription和genename;
--gbk_gtf: 可以下载gbk 转换成gtf文件进行配置,脚本如下
  /TJPROJ6/RNA_T/source/prokaryotes/pipline/genome/gbk_to_gtf.py 
  注意该脚本需要根据gbk里面的情况修改,修改识别为exon,gene 或cds,并且修改虚构数据来源Refseq为特殊来源,如kehu.防止数据有泄露嫌疑。

genome 运行

运行完run.sh后:
cd log

sjm sjm.job

基因组准备流程中包含genome check脚本:check_genome.sh,会对生成的go.txt,kegg.txt,gene.xls,ptt文件进行check,若文件存在问题,会在主目录下生成相应文件。
例如:

注意事项

1.基因组命名规则:拉丁名_版本,不允许只是拉丁名_NCBI字样,没有NCBI版本;
2.特殊基因组,客户需要保密或者是特殊处理的基因组准备路径:/NJPROJ3/GB/GB_TR/reference_data/newpip/Special_genome
3.基因组路径下需要填写wget;
4.KEGG文件最终结果是4列,有时候容易出现生成不了4列的情况,可本地执行该步骤;
5.go文件也容易跑不出来,log中有拆分后的脚本,直接运行sh gene_go_split.sh;
6.ptt文件容易出现的问题:原核的gtf文件,通常出现最后一个基因的end位置超过了fa的染色体长度,该情况需要手动将end位置进行更改。
7.fa文件染色体编号中不能含有|。

手动执行添加configure

准备好基因组之后,在项目执行之前,需要将该基因组添加到configure文件:
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/config/configure.txt
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/config/configure.txt

添加方法,例:
参考基因组路径:/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria/Sphingomonas_melonis_GCF_001761345.1

configure文件中:
Sphingomonas_melonis_GCF_001761345.1=/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria/Sphingomonas_melonis_GCF_001761345.1

Sphingomonas_melonis_GCF_001761345.1对应项目执行时project.txt中的genome_version.
原核参考基因组准备.txt · 最后更改: 2022/08/01 09:42 由 fengjie