weka

Weka是由新西兰怀卡托大学用Java开发的数据挖掘软件,Weka是Waikato Environment for Knowledge Analysis的缩写。Weka限制在GNU通用官方证书的条件下发布,它可以运行在包括Linux、Windows、OS X等操作系统平台上。

IBM上有一篇介绍weka的文章,写的非常清晰。

在weka的主页中可以非常容易的下载到weka。在这里将使用windows版本来说明一个实例。

weka1

先将数据处理为weka能识别的格式,参考

@RELATION house
 
@ATTRIBUTE houseSize NUMERIC
@ATTRIBUTE lotSize NUMERIC
@ATTRIBUTE bedrooms NUMERIC
@ATTRIBUTE granite NUMERIC
@ATTRIBUTE bathroom NUMERIC
@ATTRIBUTE sellingPrice NUMERIC
 
@DATA
3529,9191,6,0,0,205000 
3247,10061,5,1,1,224900 
4032,10150,5,0,1,197900 
2397,14156,4,1,0,189900 
2200,9600,4,0,1,195000 
3536,19994,6,1,1,325000 
2983,9365,5,0,1,230000

也可以到weka的安装文件夹下data文件夹里参考里面的实例数据的格式。

将数据导入。 weka2

接下来选择classify选项卡,选择choose下挑选一个适合的模型。在下方选择一个作为因变量,这里选择的是sellingPrice。 然后点击start,weka就会计算这个回归模型。

另外,也可以做一些例如良恶性预测方面的工作,主要就是需要找到一个合适的模型。