主动服务导向下的服务挖掘模型研究

2010-09-08 02:13虎,喻
关键词:粗糙集客户算法

王 虎,喻 立

(武汉理工大学管理学院,湖北武汉 430070)

主动服务就是通过客户行为差异分析预测出企业应向客户提供服务的内容和时机,构建基于客户实时需求的统一信息平台,有针对性地进行服务资源的动态匹配,提升企业服务响应水平,使企业将服务提前,变被动服务为主动服务,提高客户对产品的使用满意度,同时避免企业因无效服务导致的资源浪费。服务挖掘是企业开展主动服务的基础,它是以客户行为特征[1-2]为主要分析对象,将专家知识库与客户行为特征分析相结合,综合运用数据挖掘、知识管理和数理统计等技术方法和理论,对客户所需的服务进行准确的预测,从而获得最佳主动服务方案的一种科学方法。

1 服务挖掘框架

服务挖掘的基本思路是基于客户行为数据库,利用各种分析与统计工具,获取每个客户对某一特定产品的消费或使用偏好特征,结合给定的专家知识以及生产商所提供的服务指南,挖掘出客户行为特征对每项服务所产生的影响因子,并结合预测模型、标准服务指南和知识库,预测出每个客户下一次最有可能接受服务的项目及时间。

对大多数产品而言,客户在产品使用时所表现出的行为差异对产品的性能状况有着直接的影响,这种影响对于缺乏专家知识的一般客户来说是很难意识到的,当客户真正意识到需要服务时,产品往往已经出现了明显的问题,即已经对客户造成了损失。以汽车维修服务为例,一般情况下都是因为车辆出现了比较明显的问题,客户主动前来维修站保养维修车辆,这些问题实际上已经对客户造成了损失,如果能够掌握客户车辆的行驶变化规律,通过客户使用行为特征分析,了解车辆的性能变化情况,再结合规则库和专家知识库的推理,预测出车辆即将发生的问题,使客户在问题发生之前获得主动服务,从而避免遭受损失[3-4];另以切削加工机床为例,经过一段时间的使用后,机床的组件会发生磨损、偏移和间隙等故障,继续使用会导致大量废品产生甚至造成重大的安全事故。服务挖掘通过对历史数据进行挖掘,结合操作者行为分析,可以预测出将要发生的故障,及时地解决问题,避免更大的损失。由此可以推断:客户行为差异对产品性能状况的变化有着不同程度的影响,从而导致不同的服务内容和时机,这是服务挖掘的机理所在。基于这一点,服务挖掘试图对这种影响程度进行衡量,并进一步探究其对标准服务方案库的影响,从而获得更精确的服务方案。而如何从客户行为差异信息中提取对服务产生影响的重要因子,建立起反映客户主要行为特征的行为指标体系是进行服务挖掘的基础。

图1 服务挖掘系统框架

基于以上分析,可以获得服务挖掘系统的结构框架如图1所示,该构架是对服务挖掘系统中的构成要件以及要件间的相互关系的进一步描述。根据服务挖掘的机理分析,可以将服务挖掘系统的构架分为4个层次,从下层基础到上层应用,分别为数据采集层、数据处理层、客户行为分析层和服务应用发布层。

服务数据采集层采集各类数据。采集的数据包括国家宏观数据、行业和企业微观数据、客户动态数据和静态数据4个部分。

数据处理层对底层采集的各类数据进行整理形成产品和服务规则库、客户本体数据库和客户行为特征信息库。服务数据处理层对客户静态数据和动态数据进行处理形成客户行为特征信息库和客户本体数据库,再通过对产品和服务规则库、客户服务信息库和客户本体数据库的数据选择、预处理和转换,最终形成主题数据仓库,该库主要存储所有与客户相关的个体信息。产品和服务规则库主要存储行业的现行标准,以及对现行标准的调整规则。在服务数据处理层中,数据挖掘引擎将抽取算法提供给由数据仓库中提取的数据,结合规则库以及上一层的专家知识库,抽取数据元素间的模式和关系,再经过滤得到关注性的知识和信息,即知识发现。

客户行为分析层是基于服务数据处理层之上的,这一层的目的主要是通过分析掌握客户行为特征以及这些特征对服务的影响因子。客户行为分析层的主要数据来源于数据处理层输出的规则库、客户行为特征信息库和客户本体数据库,在分析时需要运用特定的算法对客户行为进行定量和定性描述,专家知识库中存储关于服务在特定的行为和环境下受影响程度的相关知识,通过分析判断客户行为对服务所产生的影响因子。影响因子进入到服务规则匹配系统中,对从服务数据处理层进行分析获得的预测及相关知识给予修正,并进一步推断出具体的服务内容和服务时机。

在整个服务挖掘构架中,客户行为分析是服务挖掘的核心。在客户行为分析中,包括客户行为指标体系构建、客户行为分析和算法实现、客户行为对服务内容与服务时机的影响分析等主要内容。通过对客户行为特征数据的选取形成初步的客户行为指标体系,采用数理统计方法和人工神经网络、粗糙集等算法对指标进行筛选,进而获得降维后的精炼指标体系。在此基础上对主题数据仓库进行挖掘分析,得到客户个性服务信息提取,运用云模型、定性推理和本体论的方法进行客户信息转换,使客户特征化,从而获得标准化的客户行为数据,最后综合客户群共性特征库构建影响模型,通过关联规则和神经网络等算法找出个体影响因子,个体影响因子可通过自适应学习系统的自学习方式实现个体影响因子的修正。客户行为分析流程如图2所示。

图2 客户行为分析流程

在服务应用发布层,企业需要对整个服务供应链系统进行重构,即有针对性地整合资源,调整能力,进行计划的协调,最大限度地发挥现有资源的作用,满足重点客户或绝大部分客户的服务需求。服务质量取决于客户期望的服务与客户感知到的实际服务之间的差异,由于服务挖掘是对最佳服务的一种事先预测,通过服务挖掘提供给客户的服务与客户获得服务后的满意度感知会存在差异,这种差异将及时反馈到服务挖掘反馈系统感知器中进行自适应学习,随后的服务方案输出将使客户的感知差异变小。服务挖掘反馈系统中将涉及到感知器的设计、自适应学习的算法实现。

2 服务挖掘工具

2.1 数据采集

在服务挖掘中,从数据的采集、处理、分析到最后的实施,需要运用各种手段和工具,尤其是各种算法分析工具和数据处理工具的合理运作是服务挖掘效率高低的重要决定因素,在服务挖掘分析中运用的主要工具涉及到数据采集、客户行为描述、数据预处理和数据分析等方面。

在服务挖掘中,数据的采集是基础,与其他数据挖掘和分析方式不同,服务挖掘更多地涉及到客户的私有数据的分析和管理,对数据的完备性和及时性有较高的要求。对此,企业应建立多元的客户数据采集系统,通过电子商务平台收集的数据是一种比较高效的方式,采用这种方式收集的数据具有较高的时效性,并且是比较清洁的数据,可以直接用于客户行为分析。另外通过企业的客户关系管理联络中心和客户服务支持中心也可以获得客户的有关信息,但信息收集的效率取决于客户的配合程度,其时效性和完备性都难以得到保障,获得的数据需要进行清洗、集成、归约等技术处理,这种数据采集方式是企业获取客户数据的主要渠道。

2.2 数据预处理

通过各种渠道采集的原始数据是不完整、不一致或含有噪声的,因此在数据挖掘和分析之前,需要对原始数据进行清理、集成、变换和归约处理,只有高质量的数据才能保证高质量的服务挖掘效果。在对数据空缺值进行填充处理时可采用多种方式,如平均值填充、人工填写,或用最可能的值填充,这时可用Bayesian公式、判定树等方法通过对现有的数据进行归纳判断出最可能的值进行填充[5-6];数据噪声是指变量中的随机错误和偏差,在坐标上表现为个别点的尖锐凸起,需要用到分箱法、聚类法和回归法进行处理;数据集成是把多个数据源中的数据整合到一个存储单元中,在集成中会产生大量的数据冗余,往往会用到相关性分析,如果两集合中的数据具有较大的相关性,直接集成会产生大量数据冗余;在数据的变换中,常用到分类、概化和规范化等方法,数据归约是为了提高服务挖掘的效率,通过对部分少量数据的挖掘和分析可以达到对整体数据库处理的效果,数据归约方式主要有数据立方体聚集、维归约、数值归约和压缩等方式,常用的工具有线性回归、多元回归、直方图和聚类等;数据的离散化主要用到分箱、直方图和基于熵的离散化等方法。

2.3 客户行为描述

在数据采集和数据挖掘分析过程中,不可避免地要建立定性描述的语言值和定量表示数值间的互换模型,实现数值与符号值之间的随时转换,连续量与离散量之间的随时转换,建立定性与定量彼此间的相互联系、相互依存、性中有量和量中有性的映射关系。云模型和粗糙集是在客户行为描述中常用到的方法和工具。

在统计数学和模糊数学的基础上,可以用云模型来统一刻画语言值与数值间的随机性和模糊性。它是用语言值描述的某个定性概念与其定量表示之间的不确定性转换模型。云的数字特征反映了定性概念的定量特征,分别用期望值Ex(Expected value)、熵 En(Entropy)和超熵 He(Hyper entropy)3个数值表示[7]。云的数字特征是描述云模型、产生虚拟云、实现云计算和完成云变换的数值基础,也是从含有不确定性的空间数据库或空间数据仓库中发现空间知识的基础[8]。云模型使得定性概念与定量数据之间的转换变得清晰、具体和可操作,同时又较真实地反映了转换过程的不确定性[9]。

粗糙集理论是一种刻画不完整性和不确定性信息的数学工具,能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律[10]。粗糙集的主要优势之一是它不需要任何预备的或额外的有关数据信息,如统计学中的数据的概率分布或者模糊集理论中的隶属度等,因此对问题的不确定性的描述或处理是比较客观的[11]。粗糙集理论是利用数据本身提供的信息,在保留关键信息的前提下对数据进行约简并求得知识的最小表达,运用粗糙集方法能识别并评估数据之间的依赖关系[12]。

2.4 服务挖掘涉及的算法

在服务挖掘中,要运用概率统计工具和多种算法,各种算法有其各自的特点,适合于不同场合。人工神经网络、粗糙集、遗传算法、决策树和关联规则是在分析中常用到的算法,在不同的服务挖掘中运用最合适的算法,即算法匹配是服务挖掘能否有效的关键。如人工神经网络就适合于对数值型数据的处理,主要用于分类和预测,具有较强的鲁棒性和容错性,运算速度较快;而决策树方法则适合于对非数值型数据的分析和处理,主要用于预测分析,粗糙集用于对不精确、不完整数据的处理,发现隐含知识、揭示内在规律,关联规则适合于对离散变量的处理,用于发现变量之间的内在联系和规律[13]。

3 服务挖掘模型

服务挖掘模型是建立在客户行为差异对产品性能变化的影响规律和影响程度这一机理分析基础之上的。

客户行为差异是衡量客户个体行为与群用户行为之间关系的标尺,是实现服务挖掘的关键。通过比较和度量个体行为特征与客户群共性特征的偏差,将偏差与历史服务数据进行比对,可以找出客户行为偏差对服务的影响规律,从而挖掘出所需的服务。行为差异是客户行为与服务之间的联系纽带,将个性和共性特征归纳入库进行关联规则运算,可以找到其间的联系,进而与客户服务数据库对应,形成服务方案,从而有针对性地为客户提供其所需的服务。根据客户行为数据,对客户的使用行为习惯进行统计分析,获得客户使用行为的规律以及客户对某一特定产品的使用偏好特征,通过聚类分析来划分不同的客户群,建立客户行为指标体系,对客户的行为特征进行定量化描述,通过关联分析等方法挖掘出客户行为特征对每项服务所产生的行为差异影响因子,并结合标准服务指南和专家知识库,预测出每个客户下一次最有可能接受服务的内容和时间,经客户认可后的服务方案将保存于知识库中或对原有的知识库给予更新和完善,产生偏差的服务方案将反馈到自适应学习系统中进行自学习后的偏差识别,并对原有的服务方案重新调整。服务挖掘模型如图3 所示[14]。

图3 服务挖掘模型

在服务挖掘模型中,客户的个性服务规则匹配是难点,其中涉及到数据和算法的匹配。不同客户的消费习惯是不同的,如某些汽车用户对汽车的使用很有规律,用途也比较单一,维修部门里有经验的专业人员通过用户使用的时间就可以判断出车辆状况的变化规律,而另外的用户在使用上可能没有规律,其消费行为受到很多主客观因素影响,对不同类型的客户采取统一的算法是不科学的。目前服务挖掘所提供的常用算法有决策树、人工神经网络、遗传算法、粗糙集和关联原则等,这些算法在不同场合中各有优缺点。另外一个难点就是客户数据的收集,服务挖掘中所涉及的客户数据一般是客户的私有数据,目前服务挖掘的应用领域还主要集中在通信、保险、汽车修理服务和银行等服务领域,这是因为在这些服务领域中关于客户的信息比较丰富,客户私有数据相对容易获得,因此如何有效地获得客户的私有数据是服务挖掘在应用领域得以推广的关键。

4 结论

以主动服务为导向的服务挖掘是基于客户行为、知识、服务规范和客户数据的综合应用,也是企业为客户提供最佳服务管理的思想方法。在服务领域,根据整理的客户数据和选择的算法,在服务挖掘的推理层进行数据和算法的匹配,结合客户行为分析,挖掘出客户所需要的服务,从而得到最佳服务解决方案。

[1]马刚,李洪心,杨兴凯.客户关系管理[M].大连:东北财经大学出版社,2008:12-65.

[2]曲昭伟,郑岩,李廷杰.基于聚类实现客户行为分析[J].东北师大学报:自然科学版,2006(6):19-21.

[3]WANG H,GONG C Q,LI Y.Service-mining based on the knowledge and customer databases[C]//Proceedings of 6thIEEE/ACIS ICIS 2007.[S.l.]:[s.n.],2007:561-568.

[4]龚春强.服务挖掘模型与算法研究[D].武汉:武汉理工大学图书馆,2007.

[5]陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004:153-175.

[6]王实,高文,李锦涛.Web数据挖掘[J].计算机科学方法,2004(4):58-60.

[7]李德毅.知识表示中的不确定性[J].中国工程科学,2000,2(10):73-79.

[8]范定国,贺硕,段副,等.一个基于云模型的综合评判模型[J].科学技术发展与经济,2003(9):157-159.

[9]周林.基于云理论和粗糙集的电信家庭客户聚类分析预处理研究[D].上海:同济大学图书馆,2008.

[10]PAWLAK Z.Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.

[11]赵炎,周文.基于粗糙集理论的知识密集型服务业集群创新能力评价研究[J].软科学,2009(4):46-55.

[12]RYBINSKIO M.Reducing information systems with uncertain attributes[C]//9thInternational Symposium on Foundations of Intelligent Systems.[S.l.]:[s.n.],1996:366-375.

[13]陈荣秋,马士华.生产与运作管理[M].北京:高等教育出版社,2005:288-290.

[14]王虎,毛文婷.基于云模型的电信客户行为关联规则研究[J].武汉理工大学学报:信息与管理工程版,2009,31(5):769-772.

猜你喜欢
粗糙集客户算法
基于Pawlak粗糙集模型的集合运算关系
基于MapReduce的改进Eclat算法
基于二进制链表的粗糙集属性约简
Travellng thg World Full—time for Rree
进位加法的两种算法
为什么你总是被客户拒绝?
如何有效跟进客户?
多粒化粗糙集性质的几个充分条件
一种改进的整周模糊度去相关算法
双论域粗糙集在故障诊断中的应用