这个算是对上次ChIP-seq流程的一个补充。
在注释完peak之后,还可以进行找motif的操作。
蛋白质分子中的一些二级结构单元,往往有规则地聚集在一起形成全由α-螺旋、全由β-片层或α-螺旋与β-片层混合、均有的超二级结构基本形式,具体说,形成相对稳定的αα、βββ、βαβ、β2α和αTα等超二级结构又称模体(motif)或模序。几个motif可以组成功能单位(结构域);一个或几个结构域构成活性中心(功能域)。
使用homer来找motif。
首先是安装
mkdir homer && cd homer
wget http://homer.ucsd.edu/homer/configureHomer.pl
perl configureHomer.pl -install
添加到环境变量这些就不说了。
然后下载数据库
# 这是下载我们这次要用的mm10
perl configureHomer.pl -install mm10
# 这是下载人的hg19
perl configureHomer.pl -install hg19
小鼠的mm10数据库大概1.2G。
再来就是运行了,我是批量运行macs2输出的_summits.bed文件
sample=$(ls Peak/*.bed)
for names in $sample;
do
name=$(basename $names "_summits.bed")
echo $name
awk '{print $4"\t"$1"\t"$2"\t"$3"\t+"}' Peak/${name}_summits.bed > Peak/${name}_homer.bed
findMotifsGenome.pl Peak/${name}_homer.bed mm10 Motif/${name%%.*}_motif
done
第一次跑的数据库,会报错然后自动生成索引文件,不用慌张。
然后就跑着就好了!