刘静,吴陈
(江苏科技大学 江苏 镇江 212003)
随着信息技术的飞速发展及其在商业领域的广泛应用,连锁餐饮业的数据库系统中积累了大量业务数据。海量数据没有得到有效利用,使得企业的决策过程变得日渐复杂,出现了“数据泛滥、知识贫乏”的局面。如何从历史数据中获取有用的信息,以挖掘潜在的商机、降低企业的运作成本;如何通过历史经营情况归纳出成功的经验和失败的教训,并用数据、信息来预测未来的企业发展趋势,快速准确地把握风云变幻的市场脉搏,已成为企业界和IT界共同关注的热点。因此,商业智能(Business Intelligence,BI)在连锁餐饮业的应用,是市场发展的要求,也是企业信息化发展到一定程度的必然结果。
BI系统的目标就是要为企业提供一个统一的数据分析平台,充分利用运营系统中积累的海量数据,对其进行深层次的知识挖掘,从不同的维度去分析企业的各种业务指标并构建业务知识模型。多年来,困扰连锁餐饮业高层主管的一个重要问题就是如何将多年来积累的海量数据提取成为有商业价值的信息,从而解决决策层日益关注的如何培育忠诚的消费群体和发掘潜在的消费群体、如何应用商业智能系统为企业的经营提供决策指导的问题。
商业智能的概念最早是由Gartner Group于1996年提出来的,定义为:商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后再分发到企业各处,辅助商业决策的制定。商业智能是商业数据海洋中的指南针,它从历史数据中提取信息,通过对信息的分析获取对经营决策有价值的知识,从而帮助用户对自身的业务经营做出正确而明智的决策,提升企业竞争力。比如,通过商业智能可以解决客户在不同地域的分布情况,可以对客户进行各个角度的分类,还可以把客户和订单联系起来,找出其变化趋势。
从业务角度看,商业智能是探讨通过技术手段对分散在不同系统的数据进行有效整合,从数据中获取有用的信息,再将这些信息转换为知识,用于商业决策。商业智能(Business Intelligence,BI) 主 要 是 通 过 数 据 仓 库 (Data Warehouse,DW)、ETL(数据抽取、转换、加载)、联机分析处理(OLAP)和数据挖掘(Data Mining,DM)等技术,对数据进行处理分析,以实现商业价值。
数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的数据仓库定义为:数据仓 库 (Data Warehouse) 是 一 个 面 向 主 题 的 (Subject Oriented)、集成的(Integrated)、相 对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,主要用于支持管理决策(Decision Making Support)。“面向主题”是指一个数据仓库包含的内容通常是一个领域内的知识,在数据进入数据仓库之前,必然要经过加工和集成,将原始数据结构从面向应用转为面向主题;“集成”是指将来自于多个异种数据源的数据经过抽取、转换、导入过程集成到一个数据仓库中;相对稳定是指数据被放入到数据仓库中后,将被长期保留,很少会变动:反应历史变化是指数据仓库中的数据记录了企业从开始使用数据仓库到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
ETL是数据抽取、转换、加载的过程,是数据仓库的重要步骤,是商业智能的核心和灵魂。用户从数据源抽取出所需的数据,经数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分就是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%。
联机分析处理(OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。OLAP支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,使分析人员能够快速、一致、交互地从各个维度查询信息。OLAP数据被组织到多维数据集(Cube)中,Cube中的基本单元称为度量值(Measure),记录着经过处理、计算的OLTP系统中的数据。由于Measure中的数据是经过处理计算的,并且Cube可以有多个维度,因此非常便于查询、分析。OLAP是数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
数据挖掘(Data Mining)也被称为数据库中的知识发现,就是从既有的大量的实际应用数据中,发掘出蕴藏在其中的、不为人肉眼所见的、同时又具有潜在价值的知识的过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式和隐含的有用信息,帮助决策者做出正确的决策。数据挖掘的对象不仅可以是数据库,也可以是文件系统,或其它任何组织在一起的数据集合。数据挖掘中常见的算法包括关联、聚类、决策树、时间序列、序列聚类等。
从系统的角度来看,连锁业商业智能系统由四部分组成:数据处理、数据仓库、联机分析处理和数据挖掘。系统结构图如下图所示。
图1 商业智能系统基本结构图Fig.1 BI system basic structure
近年来,连锁餐饮业在信息化建设中,积累了大量纷繁复杂的数据,包括形式各异的数据表,数据库,以及各种数据文件等。由于异构数据源种类多而且复杂,数据源形式多种多样,获取数据的途径不同,必然会引起数据的千差万别,以及各种形式的脏数据的产生,因此在保证数据源的准确、可靠统一性,数据质量的可提取性问题等方面就显得比较必要。所以必须先对数据进行预处理,才能导入到数据仓库系统中,也就是通常所说的ETL。ETL的建设在整个数据仓库建设中起着至关重要的作用,是整个数据仓库建设的灵魂。
针对连锁餐饮业的需求与特点,数据仓库按照如下方式建立:
事实表有2个,分别为:
表1 事实表Tab.1 Fact table
维度表共有16个,分别为:
表2 维度表Tab.2 Dimension table
除此之外,还有一些表和视图,辅助后续的数据挖掘工作。
本文项目中,为了查询方便,根据数据仓库的结构,在OLAP服务器上建立了10个共享维度,建立的Cube视图如下图。
图2 Cube视图Fig.2 Cube view
图3 挖掘模型设置项视图Fig.3 DM model settings view
图4 数据挖掘模型Fig.4 DM model view
图5 数据挖掘图例视图Fig.5 DM legend view
市场部想提高客户满意度和客户保有率,于是希望通过实行相关的市场手段来达到这些目标。于是对原有的会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。市场部想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入和拥有子女数等)和所申请卡之间的模式,然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。
以前的会员卡有4种,分别是普卡、铜卡、银卡和金卡,还有一些客户没有办会员卡,在销售业务数据中,每一个客户的个人信息和其所拥有的卡类型都存储在DimCustomer表中,表中除了“member_card”字段代表拥有会员卡的类型外,还有分别表示“性别”、“拥有子女数”、“教育程度”和“是否有房”等一系列信息,那么这些信息中哪个与客户拥有会员卡的类型关联最大,以及影响客户会员级别的因素有哪些,这是市场部经理迫切需要知道的。
图6 数据挖掘模型和图例视图(1)Fig.6 DM model&legend view(1)
图7 数据挖掘模型和图例视图(2)Fig.7 DM model&legend view(2)
本文通过SSAS数据挖掘组件进行数据挖掘,SSAS包含了决策树模型、时间序列模型、聚类分析模型等,挖掘的结构可以通过Analysis Service数据挖掘组件浏览查询和分析。如图3,即为挖掘模型的设置项。
设置其背景为“golden”,显示级别为3,则在决策树显示窗格中会显示如图4所示的决策树,即对客户数据进行挖掘的结果。同时,在整个工作窗口的右下角有如图5所示的“挖掘图例”窗格,单击决策树上的不同分支,不同类型的卡在这个分支上出现的概率和相应的颜色都在窗格中标识出来了。
在决策树显示区域中,颜色代表满足相关条件的客户的密度。颜色越深则节点中包含的客户就越多。从图6可以发现,“Yearly Income=$150K+”这一节点的密度高于其他任何节点,代表符合“Yearly Income=$150K+”这一条件的金卡客户是最多的。
根据决策树上的“全部”节点,“挖掘图例”窗格会有如图5所示的显示数据,这表明总共抽样的数据有7197条,其中铜卡用户最多,占了55.79%。
图8 数据挖掘依赖网络模型视图Fig.8 Miningmodel dependency network view
树的第一个级别由“yearly income”属性决定。树的组织由算法决定,其基础是该属性在输出中的重要性。这意味着“yearly income”属性是最重要的因素,它将决定客户可能选择的会员卡的类型。如图5.9所示,选择 “Yearly Income=$150K+”节点。该特性窗格显示收入较多的客户中,46.16%的客户可能会选择金卡。这个百分比要比“全部”节点中的(11.48%)高得多。
另外打开“Yearly Income=?$150K+”节点,如图7所示。选择颜色很深的“Marital Status not=S”节点,在“挖掘图例”窗格中,可以看到收入高于150000美元且已婚的客户中,较高百分比 (82.72%)的客户可能会选择金卡。而同时“Marital Status=S”节点的颜色非常浅,这意味着这些客户选择金卡的可能性非常小。
将挖掘模型查看器切换到“依赖关系网络”选项卡,可以看到如图8所示的界面,这是和“Member Card”的属性关联的客户属性依赖图,通过拖动左边的滑块,可以发现,“Yearly Income”的确是影响会员卡类型的最重要的因素。
有了以上信息,市场部就可以确定最可能选择某种类型卡的客户的特征。根据这些特征(收入、子女数和婚姻状况等),可以重新定义会员卡的服务和方案以便更好地适应其客户。
本文主要介绍了商业智能技术,包括数据仓库、ETL、在线分析处理、数据挖掘技术的应用。从客户的基本信息中分析、挖掘出可以协助重新定义会员卡服务和方案的价值信息,以便采取措施提高老客户的忠诚度和挖掘新客户。本文课题仍然存在着很多值得改进的方面,例如,可以充分利用SQL Server 2012数据挖掘算法可扩充的特性,将更多适合连锁餐饮业挖掘具体信息的算法应用到系统中。相信随着技术的日趋完善,商业智能将在各行业中发挥更大的作用。
[1]谢壹.商业智能在互联网业务分析中的研究与应用[J].微计算机信息,2006,22(4-3):199-200.XIE Yi.Application and research of business intelligence in internet business analysis[J].Micro Computer Information,2006,22(4-3):199-200.
[2]孟海洋,薛红.数据仓库和Web技术在超市商业智能系统中的应用[J].北京工商大学学报:自然科学版,2008,26(3):40-42.MENG Hai-yang,XUE Hong.Application of data Warehouse and web technology in supermarket business intelligence[J].Journal of Beijing Technology and Business University:Natural Science Edition,2008,26(3):40-42.
[3]崔凯.零售业商业智能系统的应用研究[D].青岛:青岛科技大学,2011.CUI Kai.The research of business intelligence system in retail industry[D].Qingdao University of Science and Technology,2011.
[4]米天胜.商业智能与企业竞争力的提升[J].中国管理信息化,2006,9(7):14-17.MITian-sheng.Promotion ofbusiness and enterprise competitiveness[J].China Management Informationization,2006,9(7):14-17.
[5]WilliamH.inmon.Building the Data Warehosue[M].北京:机械工业出版社,2006.
[6]Erik Thomsen.OLAP Solutions:Building Multidimensional Information System[M].北京:电子工业出版社,2004:110-120.