dbNSFP

#database

dbNSFP这个巨大的整合库在2025年更新到5.0了。搬迁了官方网站,原来的4.x版本目前仍然可以访问。

但现在采用了和Annovar相似的下载模式,需要通过邮件申请。依然进行学术版本(a)和商业版本(c)的区分,使用上需要注意⚠️。提醒了我之后如果做一个开源的个人项目,也要考虑一下数据库的许可。

5.0版本终于更新到了gnomAD v4.1。对于我的流程来说,最大的影响是已经不区分exome和genome,直接采用两者相加的joint,会影响我原本的结果整理流程。

数据库申请

学术版本

学术版本的申请应该会识别edu、org、gov等域名,不是相关类型域名的邮箱可能无法申请。

商业版本

看着还是比较贵的。

研究使用许可:仅在被许可人的网站上出于研究目的使用 dbNSFP。 许可费为 5,000 美元/年。

产品开发使用许可:用于在被许可人的网站上使用 dbNSFP 为第三方最终用户和研究活动开发产品和/或服务。 许可费为 10,000 美元/年。

替换方案

对我来说,因为国内主流仍然是GRCh37,使用dbNSFP最大的优势是他对数据库进行了liftover,在现在大多数数据库已经不提供GRCh37的情况下,我不用对数据库重新转换。

我目前依赖于dbNSFP进行注释的字段有

字段 替换方案
rs_dbSNP 使用VEP cache内置
MCAP 没啥大用了,删除
REVEL 没啥大用了,删除
GnomAD相关 VEP提供的缺失了我的一些需求字段,因此通过官方库自行liftover

最重要的是GnomAD,我本来是希望dbNSFP更新到GnomAD v4.1后,直接采用的。但是因为他的注释字段都发生了重大改变,因此还是得自己来做。总体影响不大。