测序下来的数据,经过variant call/SNP calling之后,想要得到更多的信息,就要拿去注释。annovar就是一款注释软件。 主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)。
第一步 安装perl。由于annovar是用perl写的,所以先要安装perl。然后,再下载annovar。下载下来的,其实是一堆perl脚本,然后windows要把这些东西弄成环境变量。
annotate_variation.pl #主程序,功能包括下载数据库,三种不同的注释
coding_change.pl #可用来推断蛋白质序列
convert2annovar.pl #将多种格式转为.avinput的程序
retrieve_seq_from_fasta.pl #用于自行建立其他物种的转录本
table_annovar.pl #注释程序,可一次性完成三种类型的注释
variants_reduction.pl #可用来更灵活地定制过滤注释流程
Example #存放示例文件
humandb #人类注释数据库
第二步 下载数据库。
annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
# -buildver 表示version
# -downdb 下载数据库的指令
# -webfrom annovar 从annovar提供的镜像下载,不加此参数将寻找数据库本身的源
# humandb/ 存放于humandb/目录下
# refGene数据库名,根据需要替换
下载下来后会是一个txt.gz和一个txt.idx.gz文件,都需要解压。由于annovar没有镜像服务器,所以下载很慢!所以可以用我提取出来的下载地址,用下载工具下载!
第三步 转换为annovar标准输入格式。 把snp calling之后的input.vcf文件转换为input.avinput。
convert2annovar.pl -format vcf4 input.vcf > input.avinput
第四步 进行注释。 用table_annovar.pl进行注释。
# -buildver hg19 表示使用hg19版本
# -out output 表示输出文件的前缀为output
# -remove 表示删除注释过程中的临时文件
# -protocol 表示注释使用的数据库,用逗号隔开,且要注意顺序
# -operation 表示对应顺序的数据库的类型(g代表gene-based、r代表region-based、f代表filter-based),用逗号隔开,注意顺序
# -nastring . 表示用点号替代缺省的值
# -csvout 表示最后输出.csv文件
table_annovar.pl input humandb/ -buildver hg19 -out output -remove -protocol refGene,cytoBand,esp6500siv2_all,1000g2015aug_all,1000g2015aug_eur,1000g2015aug_afr,1000g2015aug_amr,1000g2015aug_sas,exac03,ljb26_all,exac03nonpsych,exac03nontcga,hrcr1,icgc21,mcap,nci60,snp138NonFlagged,avsnp147,kaviar_20150923,gwava,avsift,cg69,clinvar_20170530,cosmic70,dbscsnv11,snp138 -operation g,r,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f -nastring . -thread 10 -otherinfo
以上,就是一次注释了refGene,cytoBand,esp6500siv2_all,1000g2015aug_all,1000g2015aug_eur, 1000g2015aug_afr,1000g2015aug_amr,1000g2015aug_sas,exac03,ljb26_all,exac03nonpsych, exac03nontcga,hrcr1,icgc21,mcap,nci60,snp138NonFlagged,avsnp147,kaviar_20150923, gwava,avsift,cg69,clinvar_20170530,cosmic70,dbscsnv11,snp138这堆数据库。
第五步 解读。
Chr:染色体号
Start:起始位置
End:结束位置
Ref:参考序列碱基
Alt:替代碱基
前面是常规的列,然后后面就是每个数据库注释出来的内容了。