annovar

测序下来的数据，经过variant call/SNP calling之后，想要得到更多的信息，就要拿去注释。annovar就是一款注释软件。主要包含三种不同的注释方法，Gene-based Annotation（基于基因的注释）、Region-based Annotation（基于区域的注释）、Filter-based Annotation（基于筛选的注释）。

第一步安装perl。由于annovar是用perl写的，所以先要安装perl。然后，再下载annovar。下载下来的，其实是一堆perl脚本，然后windows要把这些东西弄成环境变量。 annovar-content

annotate_variation.pl               #主程序，功能包括下载数据库，三种不同的注释 
coding_change.pl                    #可用来推断蛋白质序列
convert2annovar.pl                  #将多种格式转为.avinput的程序
retrieve_seq_from_fasta.pl          #用于自行建立其他物种的转录本
table_annovar.pl                   #注释程序，可一次性完成三种类型的注释
variants_reduction.pl              #可用来更灵活地定制过滤注释流程 
Example                             #存放示例文件 
humandb                             #人类注释数据库

第二步下载数据库。

annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/

# -buildver 表示version 
# -downdb 下载数据库的指令 
# -webfrom annovar 从annovar提供的镜像下载，不加此参数将寻找数据库本身的源 
#  humandb/ 存放于humandb/目录下
#  refGene数据库名，根据需要替换

下载下来后会是一个txt.gz和一个txt.idx.gz文件，都需要解压。由于annovar没有镜像服务器，所以下载很慢！所以可以用我提取出来的下载地址，用下载工具下载！

annovar_hg19_txt

annovar_hg19_idx

查看最新的数据库及版本、更新日期等信息。

第三步转换为annovar标准输入格式。把snp calling之后的input.vcf文件转换为input.avinput。

convert2annovar.pl -format vcf4 input.vcf > input.avinput

第四步进行注释。用table_annovar.pl进行注释。

# -buildver hg19 表示使用hg19版本 
# -out output 表示输出文件的前缀为output
# -remove 表示删除注释过程中的临时文件 
# -protocol 表示注释使用的数据库，用逗号隔开，且要注意顺序 
# -operation 表示对应顺序的数据库的类型（g代表gene-based、r代表region-based、f代表filter-based），用逗号隔开，注意顺序 
# -nastring . 表示用点号替代缺省的值 
# -csvout 表示最后输出.csv文件
table_annovar.pl input humandb/ -buildver hg19 -out output -remove -protocol refGene,cytoBand,esp6500siv2_all,1000g2015aug_all,1000g2015aug_eur,1000g2015aug_afr,1000g2015aug_amr,1000g2015aug_sas,exac03,ljb26_all,exac03nonpsych,exac03nontcga,hrcr1,icgc21,mcap,nci60,snp138NonFlagged,avsnp147,kaviar_20150923,gwava,avsift,cg69,clinvar_20170530,cosmic70,dbscsnv11,snp138 -operation g,r,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f,f -nastring . -thread 10 -otherinfo

以上，就是一次注释了refGene,cytoBand,esp6500siv2_all,1000g2015aug_all,1000g2015aug_eur, 1000g2015aug_afr,1000g2015aug_amr,1000g2015aug_sas,exac03,ljb26_all,exac03nonpsych, exac03nontcga,hrcr1,icgc21,mcap,nci60,snp138NonFlagged,avsnp147,kaviar_20150923, gwava,avsift,cg69,clinvar_20170530,cosmic70,dbscsnv11,snp138这堆数据库。

第五步解读。 annovar-example

Chr：染色体号

Start：起始位置

End：结束位置

Ref：参考序列碱基

Alt：替代碱基

前面是常规的列，然后后面就是每个数据库注释出来的内容了。

上篇B-L-A-S-T!blast

下篇HLA分型与资料数据库