Skip to content

注释

注释的意思是对于找到的变异位点,采用现有的数据库和研究,对其进行注释。在DNA检测中差不多算是最终的步骤。

目前最常用的注释软件无疑是annovar。其他常见的还有VEPsnpEffoncotator等等。

annovar可以一次对多个数据库进行注释,软件对学术用户免费,要通过邮件申请下载

annovar 的使用

下载数据库,点击这里查看目前可下载的数据库

1
annotate_variation.pl -buildver hg38 -downdb -webfrom annovar refGene humandb/

annovar的原始输入是vcf文件,首先需要将vcf转成annovar的格式

1
convert2annovar.pl -format vcf4 input.vcf -includeinfo > input.avinput

然后选择想要注释的数据库,进行注释

1
2
3
4
5
table_annovar.pl input humandb/ -buildver hg38 \
    -out output -remove \
    -protocol refGene,cytoBand,avsnp150,gnomad211_genome,clinvar_20210131,dbnsfp41a,cosmic92_coding \
    -operation g,r,f,f,f,f,f \
    -nastring . -thread 10 -otherinfo

对应的,如果说是检测遗传方面的snp,个人觉得只需要注释rsid、频率、基因,clinvar以及位点良恶性预测的数据库。如果是肿瘤方面的话最好注释上cosmic数据库。

snpeff

snpEff也挺好用,而且比annovar更易获取。详细流程看这里

1
java -jar snpEff.jar -c snpEff.config hg38 input.vcf > output.vcf