适用于VEP的突变位点侧翼注释
#coding
背景
现有需求是注释出突变位点的上游序列和下游序列,本来的想法是根据位点的Pos,使用samtools faidx从参考基因组中提取出对应的区域再输出。因为samtools的速度很快,效率并不低,但这样毕竟是要多进行一步。
查了一下VEP的文档,发现并没有对应的参数,也没有现成的插件(要不就是我没找到)。所以,自行编写了一个插件。
对于一个给定的输入,可以输出下面的格式,即发生了一个G>T突变,上游序列是GCCCATCTGTC;下游序列是TCTCTCTGATC。
GCCCATCTGTC[G/T]TCTCTCTGATC
下载插件
下载插件并放在自己的VEP插件目录里
wget https://github.com/pzweuj/VEP_Plugins_Self/raw/refs/heads/main/plugins/FlankingSequence.pm
使用插件
使用下面的命令进行注释
./vep -i input.vcf -o output.vcf -fa hg38.fasta --plugin FlankingSequence,10
结果将会被注释到FlankingSequence
字段中。可通过10这个参数对侧翼序列的长度进行调整。