原核统一流程参考基因组准备
参考基因组准备路径
南京集群:/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria
天津集群:/TJPROJ6/GB_TR/reference_data/Bacteria
配置run.sh
python /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/genome/prepare.py \
--annot /NJPROJ1/RNA/database/genome/Bacteria/Escherichia_coli_str_K-12_W3110/temp/GCF_000010245.2_ASM1024v1_genomic.gff \
--fasta /NJPROJ1/RNA/database/genome/Bacteria/Escherichia_coli_str_K-12_W3110/temp/GCF_000010245.2_ASM1024v1_genomic.fna \
--latin_name Escherichia_coli \
--outdir /NJPROJ3/RNA/personal_dir/yangwanyun/test/X101SC19102139-Z01-J001-B1-16_xijun_yuanhe_20191119/genome/Escherichia_coli_str_K-12_W3110 \
--abbr ecj \
--genename yes
天津集群脚本路径:/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/genome/prepare.py
参数说明
--annot参数:以后缀名称进行识别,可接受.gtf,.gff, .gbk格式文件。与有参不同,原核的gtf中只有exon,脚本在处理gff时,是将gff中第三列为gene的进行提取。
--faa参数:可以写也可以不写,如果是NCBI来源的基因组最好写。
--genename:可填写参数有yes,no,或删除该参数;
yes:gff中有基因名字和product信息的,会自动从gff中提取genename和gene discription信息;
no:本身有genenamefile文件,不需要准备;
不填写该参数:gff中没有discription,会自动通过blast swissprot注释得到gene discription和genename;
--gbk_gtf: 可以下载gbk 转换成gtf文件进行配置,脚本如下
/TJPROJ6/RNA_T/source/prokaryotes/pipline/genome/gbk_to_gtf.py
注意该脚本需要根据gbk里面的情况修改,修改识别为exon,gene 或cds,并且修改虚构数据来源Refseq为特殊来源,如kehu.防止数据有泄露嫌疑。
genome 运行
运行完run.sh后:
cd log
sjm sjm.job
基因组准备流程中包含genome check脚本:check_genome.sh,会对生成的go.txt,kegg.txt,gene.xls,ptt文件进行check,若文件存在问题,会在主目录下生成相应文件。
例如:
注意事项
1.基因组命名规则:拉丁名_版本,不允许只是拉丁名_NCBI字样,没有NCBI版本;
2.特殊基因组,客户需要保密或者是特殊处理的基因组准备路径:/NJPROJ3/GB/GB_TR/reference_data/newpip/Special_genome
3.基因组路径下需要填写wget;
4.KEGG文件最终结果是4列,有时候容易出现生成不了4列的情况,可本地执行该步骤;
5.go文件也容易跑不出来,log中有拆分后的脚本,直接运行sh gene_go_split.sh;
6.ptt文件容易出现的问题:原核的gtf文件,通常出现最后一个基因的end位置超过了fa的染色体长度,该情况需要手动将end位置进行更改。
7.fa文件染色体编号中不能含有|。
准备好基因组之后,在项目执行之前,需要将该基因组添加到configure文件:
/NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/config/configure.txt
/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/config/configure.txt
添加方法,例:
参考基因组路径:/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria/Sphingomonas_melonis_GCF_001761345.1
configure文件中:
Sphingomonas_melonis_GCF_001761345.1=/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria/Sphingomonas_melonis_GCF_001761345.1
Sphingomonas_melonis_GCF_001761345.1对应项目执行时project.txt中的genome_version.