数据挖掘即研究如何从大量数据或者数据库中提取有用信息。
而机器学习则是数据挖掘的一种方法,是研究计算机如何模仿人类的思维方式进行学习。
一个非常有名的例子详细大家都听说过,就是沃尔玛在分析研究人们购物留下的账单时发现很多购买了尿布的账单上会同时出现啤酒这个商品,通过调查得知原来很多奶爸在下班后收到家里妻子的请求希望给孩子买一些尿布,在给孩子买尿布的同时往往会顺带买一些啤酒,于是沃尔玛利用“啤酒和尿布”的效应,将二者的货架摆放在一起并且捆绑打折出售,结果二者的销量大增。
这就是一个非常典型的从海量数据中提取有用信息并且将该信息服务于我们日常的生产生活中,那么作为数据挖掘的一种有利工具,机器学习主要包括分类分析、回归分析、聚类分析、异常分析、关联分析、推荐分析、时序分析。上述的啤酒尿布的例子就是一个非常典型的推荐分析。
下面我们先从第一个分类分析开始。
一、分类分析