注释

注释的意思是对于找到的变异位点,采用现有的数据库和研究,对其进行注释。在DNA检测中差不多算是最终的步骤。

目前最常用的注释软件无疑是annovar。其他常见的还有VEPsnpEffoncotator等等。

annovar可以一次对多个数据库进行注释,软件对学术用户免费,要通过邮件申请下载

annovar 的使用

下载数据库,点击这里查看目前可下载的数据库

annotate_variation.pl -buildver hg38 -downdb -webfrom annovar refGene humandb/

annovar的原始输入是vcf文件,首先需要将vcf转成annovar的格式

convert2annovar.pl -format vcf4 input.vcf -includeinfo > input.avinput

然后选择想要注释的数据库,进行注释

table_annovar.pl input humandb/ -buildver hg38 \
	-out output -remove \
	-protocol refGene,cytoBand,avsnp150,gnomad211_genome,clinvar_20210131,dbnsfp41a,cosmic92_coding \
	-operation g,r,f,f,f,f,f \
	-nastring . -thread 10 -otherinfo

对应的,如果说是检测遗传方面的snp,个人觉得只需要注释rsid、频率、基因,clinvar以及位点良恶性预测的数据库。如果是肿瘤方面的话最好注释上cosmic数据库。

snpeff

snpEff也挺好用,而且比annovar更易获取。详细流程看这里

java -jar snpEff.jar -c snpEff.config hg38 input.vcf > output.vcf