密码子偏好性分析

##欢迎批评指正!!!

背景

同义密码子:
    每种氨基酸至少对应一个遗传密码子(一般不超过6个), 编码同一种氨基酸的密码子称为同义密码子,同义密码子在使用频率中存在一定的差异, 这种现象称为密码子使用偏好性(codon usage bias, CUB), 并且在某一特定物种或者基因中比较倾向使用的同义密码子称为最优密码子(optimal codons)
    
偏好性因素:
1.突变压力(如GC含量、基因碱基组成)
2.选择作用(如基因表达水平、tRNA丰度、蛋白结构与长度、翻译的起始信号)

研究物种:原核,低高等真核

方法

利用CodonW中进行密码子使用偏性的分析
CodonW:美国DEC公司开发的对密码子的使用进行的免费的软件工具。 
适用:windows环境,linux,可处理2000条以上的序列  
下载地址:http://codonw.sourceforge.net/     
使用指标:
CAI(密码子适应指数):基因表达水平测量,0-1
ENc(有效密码子数):一个基因中所用到的密码子种类的多少。20-61 
20:每个氨基酸只使用一个密码子;61:各个密码子均被平均使用
CBI(密码子偏爱指数):一个具体基因中高表达优越密码子的组分情况
FOP(最优密码子使用频数):使用最优密码子占总数百分比。
RSCU(相对同义密码子使用度):指某一特定密码子在使用频率与其无偏好性使用时预期频率之间的比值。密码子偏好性程度的有效指标
RSCU比值等于1说明该密码子无使用偏好性, 若RSCU比值大于1说明该密码子的使用频率较高
 

要求

1.CDS条件: 
    1.以ATG为起始密码子; 并以TAA、TAG或TGA为终止密码子(完整)
    2.编码序列长度大于300 bp 
软件:Transdecoder 预测全长CDS,然后过滤>300bp 
            有参下载cds 

脚本

/TJPROJ1/RNA/shouhou/script_dir/other/condow/comdow.py \

脚本示例

python /TJPROJ1/RNA/shouhou/personal_dir/zhangcuijie/script/condow/comdow.py  \
--outdir /TJPROJ1/RNA/shouhou/personal_dir/zhangcuijie/script/condow  \ #输出路径
--unigene /TJPROJ1/RNA/shouhou/shouhou_dir/201709/C101SC17051014/20171026_codonw/D_Ni/test.fa \ #无参unigene.fa 有参为下载cds序列 
--type noref \ #类型:有参填写ref,无参:noref

使用方法

sh sjm_Analysis.sh

结果

===若为无参结果有:
transdecoder预测CDS结果,过滤300CDS,codonw预测结果 

transdecoder软件预测结果:
*.fasta.transdecoder.pep : 最终候选ORF的蛋白质序列
*.fasta.transdecoder.cds  : 最终候选ORF的编码区的核酸序列。
*.fasta.transdecoder.gff3 : 最终被选中的ORF在目的转录本中的位置
*.fasta.transdecoder.bed  : 用来描述ORF位置的bed格式文件
对预测结果分类:
*.5prime_partial.fa
*.3prime_partial.fa
*.internal.fa
*.complete.fa
密码子预测结果:3.codonW_codon

RSCU:

===若有参: 过滤300CDS序列结果,codonw预测结果同上

文献

密码子分析.pdf