注释
注释的意思是对于找到的变异位点,采用现有的数据库和研究,对其进行注释。在DNA检测中差不多算是最终的步骤。
目前最常用的注释软件无疑是annovar。其他常见的还有VEP、snpEff、oncotator等等。
annovar可以一次对多个数据库进行注释,软件对学术用户免费,要通过邮件申请下载。
annovar 的使用
下载数据库,点击这里查看目前可下载的数据库
| annotate_variation.pl -buildver hg38 -downdb -webfrom annovar refGene humandb/
|
annovar的原始输入是vcf文件,首先需要将vcf转成annovar的格式
| convert2annovar.pl -format vcf4 input.vcf -includeinfo > input.avinput
|
然后选择想要注释的数据库,进行注释
| table_annovar.pl input humandb/ -buildver hg38 \
-out output -remove \
-protocol refGene,cytoBand,avsnp150,gnomad211_genome,clinvar_20210131,dbnsfp41a,cosmic92_coding \
-operation g,r,f,f,f,f,f \
-nastring . -thread 10 -otherinfo
|
对应的,如果说是检测遗传方面的snp,个人觉得只需要注释rsid、频率、基因,clinvar以及位点良恶性预测的数据库。如果是肿瘤方面的话最好注释上cosmic数据库。
snpeff
snpEff也挺好用,而且比annovar更易获取。详细流程看这里。
| java -jar snpEff.jar -c snpEff.config hg38 input.vcf > output.vcf
|