annovar

测序下来的数据,经过variant call/SNP calling之后,想要得到更多的信息,就要拿去注释。annovar就是一款注释软件。 主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)。

第一步 安装perl。由于annovar是用perl写的,所以先要安装perl。然后,再下载annovar。下载下来的,其实是一堆perl脚本,然后windows要把这些东西弄成环境变量。 annovar-content

annotate_variation.pl               #主程序,功能包括下载数据库,三种不同的注释 
coding_change.pl                    #可用来推断蛋白质序列
convert2annovar.pl                  #将多种格式转为.avinput的程序
retrieve_seq_from_fasta.pl          #用于自行建立其他物种的转录本
table_annovar.pl                   #注释程序,可一次性完成三种类型的注释
variants_reduction.pl              #可用来更灵活地定制过滤注释流程 
Example                             #存放示例文件 
humandb                             #人类注释数据库

第二步 下载数据库。

annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/

# -buildver 表示version 
# -downdb 下载数据库的指令 
# -webfrom annovar 从annovar提供的镜像下载,不加此参数将寻找数据库本身的源 
#  humandb/ 存放于humandb/目录下
#  refGene数据库名,根据需要替换

下载下来后会是一个txt.gz和一个txt.idx.gz文件,都需要解压。由于annovar没有镜像服务器,所以下载很慢!所以可以用我提取出来的下载地址,用下载工具下载!

annovar_hg19_txt

annovar_hg19_idx

查看最新的数据库及版本、更新日期等信息。

第三步 转换为annovar标准输入格式。 把snp calling之后的input.vcf文件转换为input.avinput。

convert2annovar.pl -format vcf4 input.vcf > input.avinput

第四步 进行注释。 用table_annovar.pl进行注释。

# -buildver hg19 表示使用hg19版本 
# -out output 表示输出文件的前缀为output
# -remove 表示删除注释过程中的临时文件 
# -protocol 表示注释使用的数据库,用逗号隔开,且要注意顺序 
# -operation 表示对应顺序的数据库的类型(g代表gene-based、r代表region-based、f代表filter-based),用逗号隔开,注意顺序 
# -nastring . 表示用点号替代缺省的值 
# -csvout 表示最后输出.csv文件
table_annovar.pl input humandb/ -buildver hg19 -out output -remove -protocol refGene,cytoBand,esp6500siv2_all,1000g2015aug_all,1000g2015aug_eur,1000g2015aug_afr,1000g2015aug_amr,1000g2015aug_sas,exac03,ljb26_all,exac03nonpsych,exac03nontcga,hrcr1,icgc21,mcap,nci60,snp138NonFlagged,avsnp147,kaviar_20150923,gwava,avsift,cg69,clinvar_20170530,cosmic70,dbscsnv11,snp138 -operation g,r,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f -nastring . -thread 10 -otherinfo

以上,就是一次注释了refGene,cytoBand,esp6500siv2_all,1000g2015aug_all,1000g2015aug_eur, 1000g2015aug_afr,1000g2015aug_amr,1000g2015aug_sas,exac03,ljb26_all,exac03nonpsych, exac03nontcga,hrcr1,icgc21,mcap,nci60,snp138NonFlagged,avsnp147,kaviar_20150923, gwava,avsift,cg69,clinvar_20170530,cosmic70,dbscsnv11,snp138这堆数据库。

第五步 解读。 annovar-example

Chr:染色体号

Start:起始位置

End:结束位置

Ref:参考序列碱基

Alt:替代碱基

前面是常规的列,然后后面就是每个数据库注释出来的内容了。