====== 原核统一流程参考基因组准备 ====== ===== 参考基因组准备路径 ===== 南京集群:/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria 天津集群:/TJPROJ6/GB_TR/reference_data/Bacteria ===== 配置run.sh ===== python /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/genome/prepare.py \ --annot /NJPROJ1/RNA/database/genome/Bacteria/Escherichia_coli_str_K-12_W3110/temp/GCF_000010245.2_ASM1024v1_genomic.gff \ --fasta /NJPROJ1/RNA/database/genome/Bacteria/Escherichia_coli_str_K-12_W3110/temp/GCF_000010245.2_ASM1024v1_genomic.fna \ --latin_name Escherichia_coli \ --outdir /NJPROJ3/RNA/personal_dir/yangwanyun/test/X101SC19102139-Z01-J001-B1-16_xijun_yuanhe_20191119/genome/Escherichia_coli_str_K-12_W3110 \ --abbr ecj \ --genename yes 天津集群脚本路径:/TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/genome/prepare.py ==== 参数说明 ==== --annot参数:以后缀名称进行识别,可接受.gtf,.gff, .gbk格式文件。与有参不同,原核的gtf中只有exon,脚本在处理gff时,是将gff中第三列为gene的进行提取。 --faa参数:可以写也可以不写,如果是NCBI来源的基因组最好写。 --genename:可填写参数有yes,no,或删除该参数; yes:gff中有基因名字和product信息的,会自动从gff中提取genename和gene discription信息; no:本身有genenamefile文件,不需要准备; 不填写该参数:gff中没有discription,会自动通过blast swissprot注释得到gene discription和genename; --gbk_gtf: 可以下载gbk 转换成gtf文件进行配置,脚本如下 /TJPROJ6/RNA_T/source/prokaryotes/pipline/genome/gbk_to_gtf.py 注意该脚本需要根据gbk里面的情况修改,修改识别为exon,gene 或cds,并且修改虚构数据来源Refseq为特殊来源,如kehu.防止数据有泄露嫌疑。 ===== genome 运行 ===== 运行完run.sh后: cd log sjm sjm.job 基因组准备流程中包含genome check脚本:check_genome.sh,会对生成的go.txt,kegg.txt,gene.xls,ptt文件进行check,若文件存在问题,会在主目录下生成相应文件。 例如: {{:products_tr:自动化流程分析组:国内和海外原核统一版手动流程:屏幕快照_2022-07-21_上午11.53.20.png?400|}} ===== 注意事项 ===== 1.基因组命名规则:拉丁名_版本,不允许只是拉丁名_NCBI字样,没有NCBI版本; 2.特殊基因组,客户需要保密或者是特殊处理的基因组准备路径:/NJPROJ3/GB/GB_TR/reference_data/newpip/Special_genome 3.基因组路径下需要填写wget; 4.KEGG文件最终结果是4列,有时候容易出现生成不了4列的情况,可本地执行该步骤; 5.go文件也容易跑不出来,log中有拆分后的脚本,直接运行sh gene_go_split.sh; 6.ptt文件容易出现的问题:原核的gtf文件,通常出现最后一个基因的end位置超过了fa的染色体长度,该情况需要手动将end位置进行更改。 7.fa文件染色体编号中不能含有|。 ===== 手动执行添加configure ===== 准备好基因组之后,在项目执行之前,需要将该基因组添加到configure文件: /NJPROJ2/GB/PUBLIC/source/GB_TR/yuanhe/gb_trans_manual/config/configure.txt /TJPROJ2/GB/PUBLIC/source/GB_TR/mRNA/gb_trans_prok/manual_gb_prok/config/configure.txt 添加方法,例: 参考基因组路径:/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria/Sphingomonas_melonis_GCF_001761345.1 configure文件中: Sphingomonas_melonis_GCF_001761345.1=/NJPROJ3/GB/GB_TR/reference_data/newpip/Bacteria/Sphingomonas_melonis_GCF_001761345.1 Sphingomonas_melonis_GCF_001761345.1对应项目执行时project.txt中的genome_version.