分别选取8、10、12、14或6、8、10、12个碱基的所有motif,以motif8为例,按照显著性从高到低排序依次为motif8_1.motif、motif8_2.motif、motif8_3.motif、motif8_4.motif……motif8_25.motif,用这些文件作为输入文件来查找motif与gene的相对位置,分别得到motif8_1.motif.txt、motif8_2.motif.txt、motif8_3.motif.txt、motif8_4.motif.txt、motif8_5.motif.txt……motif8_25.motif.txt,可以使用 /TJPROJ1/RNA/WORK/Pipline/aftersale/findmotif_homer/motif.sh这个脚本。
脚本迁移到/TJPROJ6/RNA_SH/script_dir/motif
在测试目录下建run.sh,格式如下:
sh /TJPROJ1/RNA/WORK/Pipline/aftersale/findmotif_homer/motif.sh 实验名(用,分隔多个实验) motif路径,路径下应包括实验名命名的motif文件夹 gene.bed文件 fa文件 8,10,12,14或6,8,10,12
sh /TJPROJ1/RNA/WORK/Pipline/aftersale/findmotif_homer/motif.sh ChIRP_1,ChIRP_2,ChIRP_3 /TJPROJ1/RNA/Epige/IP_2019/X101SC19072159-Z01-F001-B1-36_xiaoshu_ChIP_20190827/Results-X101SC19072159-Z01-F001-B1-36/Motif /TJPROJ1/RNA/SHOUHOU/X101SC19072159-Z01/20191031/gene.bed /TJPROJ1/RNA/reference_data/Animal/Mus_musculus/Ensemble_97/IP/genome.fa 8,10,12,14
生成的结果文件motif*_*.motif.txt如下:
PositionID Offset Sequence Motif Name Strand MotifScore ENSMUSG00000080834 16 GCTCACCC 7-GCTCACCC + 8.236955 ENSMUSG00000047485 25 GCTCACCC 7-GCTCACCC + 8.236955 ENSMUSG00000081365 60 GCTCACCC 7-GCTCACCC + 8.236955 ENSMUSG00000087620 1 GCTCACCC 7-GCTCACCC + 8.236955
该脚本将生成readme.txt,如下:
# motif8_***.motif.txt:长度为8bp的第***个motif在基因上的匹配结果 motif10_***.motif.txt:长度为10bp的第***个motif在基因上的匹配结果 motif12_***.motif.txt:长度为12bp的第***个motif在基因上的匹配结果 motif14_***.motif.txt:长度为14bp的第***个motif在基因上的匹配结果 #表头 PositionID:基因id Offset:Offset值表示motif的最后一个碱基距离基因中点的位移. Sequence:motif在gene上匹配到的碱基序列 Motif Name:motif名 Strand:基因的链信息 MotifScore:motif与gene匹配得分,得分越高,表示该motif与gene的匹配程度越好
在工作目录下,将生成Result结果路径,并自动压缩。