目录

motif反向定位

实现过程

分别选取8、10、12、14或6、8、10、12个碱基的所有motif,以motif8为例,按照显著性从高到低排序依次为motif8_1.motif、motif8_2.motif、motif8_3.motif、motif8_4.motif……motif8_25.motif,用这些文件作为输入文件来查找motif与gene的相对位置,分别得到motif8_1.motif.txt、motif8_2.motif.txt、motif8_3.motif.txt、motif8_4.motif.txt、motif8_5.motif.txt……motif8_25.motif.txt,可以使用 /TJPROJ1/RNA/WORK/Pipline/aftersale/findmotif_homer/motif.sh这个脚本。

脚本迁移到/TJPROJ6/RNA_SH/script_dir/motif

用法及参数说明

在测试目录下建run.sh,格式如下:

sh /TJPROJ1/RNA/WORK/Pipline/aftersale/findmotif_homer/motif.sh 实验名(用,分隔多个实验) motif路径,路径下应包括实验名命名的motif文件夹 gene.bed文件 fa文件 8,10,12,146,8,10,12

示例

sh /TJPROJ1/RNA/WORK/Pipline/aftersale/findmotif_homer/motif.sh ChIRP_1,ChIRP_2,ChIRP_3 /TJPROJ1/RNA/Epige/IP_2019/X101SC19072159-Z01-F001-B1-36_xiaoshu_ChIP_20190827/Results-X101SC19072159-Z01-F001-B1-36/Motif /TJPROJ1/RNA/SHOUHOU/X101SC19072159-Z01/20191031/gene.bed /TJPROJ1/RNA/reference_data/Animal/Mus_musculus/Ensemble_97/IP/genome.fa 8,10,12,14

结果及使用说明

生成的结果文件motif*_*.motif.txt如下:

PositionID	Offset	Sequence	Motif Name	Strand	MotifScore
ENSMUSG00000080834	16	GCTCACCC	7-GCTCACCC	+	8.236955
ENSMUSG00000047485	25	GCTCACCC	7-GCTCACCC	+	8.236955
ENSMUSG00000081365	60	GCTCACCC	7-GCTCACCC	+	8.236955
ENSMUSG00000087620	1	GCTCACCC	7-GCTCACCC	+	8.236955

该脚本将生成readme.txt,如下:

#
motif8_***.motif.txt:长度为8bp的第***个motif在基因上的匹配结果
motif10_***.motif.txt:长度为10bp的第***个motif在基因上的匹配结果
motif12_***.motif.txt:长度为12bp的第***个motif在基因上的匹配结果
motif14_***.motif.txt:长度为14bp的第***个motif在基因上的匹配结果
 
#表头
PositionID:基因id
Offset:Offset值表示motif的最后一个碱基距离基因中点的位移.
Sequence:motif在gene上匹配到的碱基序列
Motif Name:motif名
Strand:基因的链信息
MotifScore:motif与gene匹配得分,得分越高,表示该motif与gene的匹配程度越好

在工作目录下,将生成Result结果路径,并自动压缩。