Weka是由新西兰怀卡托大学用Java开发的数据挖掘软件,Weka是Waikato Environment for Knowledge Analysis的缩写。Weka限制在GNU通用官方证书的条件下发布,它可以运行在包括Linux、Windows、OS X等操作系统平台上。
IBM上有一篇介绍weka的文章,写的非常清晰。
在weka的主页中可以非常容易的下载到weka。在这里将使用windows版本来说明一个实例。
先将数据处理为weka能识别的格式,参考
@RELATION house
@ATTRIBUTE houseSize NUMERIC
@ATTRIBUTE lotSize NUMERIC
@ATTRIBUTE bedrooms NUMERIC
@ATTRIBUTE granite NUMERIC
@ATTRIBUTE bathroom NUMERIC
@ATTRIBUTE sellingPrice NUMERIC
@DATA
3529,9191,6,0,0,205000
3247,10061,5,1,1,224900
4032,10150,5,0,1,197900
2397,14156,4,1,0,189900
2200,9600,4,0,1,195000
3536,19994,6,1,1,325000
2983,9365,5,0,1,230000
也可以到weka的安装文件夹下data文件夹里参考里面的实例数据的格式。
将数据导入。
接下来选择classify选项卡,选择choose下挑选一个适合的模型。在下方选择一个作为因变量,这里选择的是sellingPrice。 然后点击start,weka就会计算这个回归模型。
另外,也可以做一些例如良恶性预测方面的工作,主要就是需要找到一个合适的模型。