其实就是几个数据库的使用而已啦。
说起孟德尔遗传病(遵循孟德尔遗传定律的基因病),首先想到的数据库肯定是OMIM。 我们需要的是申请下载OMIM的数据。申请地址点这里。 主要需要的是genemap2.txt这个文件。
因为做的是panel,所以一定要有据可循,要做到李菊福。 所以,我们可以去用免费的疾病数据库Clinvar。 可以在Clinvar中筛选出致病的位点,但是这样不能保证都是孟德尔遗传病,所以,要增加一个筛选条件,就是提交者为OMIM。
我发现了一个不错的网站,利用Clinvar的数据进一步归类分析。叫做Clinvar Miner。
所以我直接在Clinvar Miner中选择了OMIM作为提交者的位点。 然后再选择致病位点。大概是24000多个。 直接下载完整列表,由于我只是想做一个简单的panel,所以只挑选了其中有rsid的部分,总共有19000多个。
接下来,利用annovar的注释rsid功能,把这19000多个位点的位置信息注释出来,并且挑选出东亚人突变频率小于5%的位点(罕见病)。
然后,再利用新版的Clinvar注释,把其中提示Benign的位点都剔除掉,最后剩下8600多个位点。
再然后,利用genemap2这个文件,把OMIM的ID和疾病名称注释上去。这时已经是一个可用的panel了。 然后可以利用CHPO数据库,找到疾病的中文名字。 CHPO的数据也是可以下载的,不过申请起来很麻烦。可以尝试用爬虫抓取。
下篇有感