超市里,牛奶到底和哪种商品摆放一起销量更高?啤酒为什么与尿不湿摆放在一起会卖得更多?乍一看,它们似乎毫无联系,而大数据挖掘却能告诉你它们之间的关联。那么,大数据挖掘是什么呢?又有哪些方法?
简单来说,大数据挖掘即指从大量数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,其常用方法有分类、聚类、回归分析、关联规则、神经网络方法、Web数据挖掘等。
数据被喻为蕴藏能量的煤矿,就像煤炭可以分为焦煤、无烟煤、肥煤、贫煤等一样,每种数据也有自身的特点,比如频率、量、速度、类型和真实性等等,从而将数据分出来。像好坏、高低、胖瘦……这些就是生活中最简单的分类方法。
再比如,信用卡公司将持卡人信誉分为良好、一般和较差三类,如果建立“信誉良好的客户是那些收入在5万元以上,年龄在40至50岁之间的人士”这样一个模型,就可以根据这个模型对新的记录进行分类,从而判断一个新持卡人的信誉等级是什么。
聚类与分类相似,但目的不同。聚类是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。
比如在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,用购买模式刻画不同的客户群的特征;在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。
什么会促进蛋挞的销量?是飓风,飓风天气下蛋挞更受欢迎;啤酒与哪类产品摆放在一起会卖得更多?是尿不湿,父亲们在购买尿不湿的时候总是喜欢再买些啤酒……这些事物彼此之间看似毫无关联,但里面却隐藏着关联规则。
关联规则是隐藏在数据项之间的关联或相互关系,即可根据一个数据项的出现推出其他数据项。关联规则的挖掘过程有两个阶段:第一阶段是从海量原始数据中找出所有的高频项目组;第二阶段是从这些高频项目组产生关联规则。关联规则挖掘技术已被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。
回归分析反映了数据库中数据属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。
神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及以模糊、不完整、不严密的知识或数据为特征的处理问题。
人工神经网络首先要以一定的学习准则进行学习,然后才能工作。人工神经网络对手写“A”“B”两个字母的识别,如果规定当“A”输入网络时,输出“1”,而当输入为“B”时,输出为“0”。通过多次的学习模拟,来强化网络对上述规则的记忆,因而减少犯错误的可能性。一般说来,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多。
Web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P看做是输出,那么Web挖掘过程就可以看做是从输入到输出的一个映射过程。当前越来越多的Web数据都是以数据流的形式出现的,因此对Web数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HITS算法以及LOGSOM算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。目前Web数据挖掘面临着一些问题,包括:用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等。(编辑/任伟)