□文/霍 亮 杨 柳 霍 烽
(1.河北金融学院;2.河北大学经济管理实验教学中心;3.保定市科学技术协会 河北·保定)
(一)数据挖掘简介。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们所不知道的但又是潜在有用的信息和知识的过程。简言之,数据挖掘实际上是一种深层次的数据分析方法。
(二)数据挖掘的主要步骤
1、问题定义。数据挖掘是指在大量数据中发现有用的令人感兴趣的信息,因此哪种信息是我们感兴趣的,就成了数据挖掘的首要问题。
2、数据准备。数据准备又可分为三个步骤,即数据选取、数据预处理和数据变换。数据选取的目的是根据用户的需要从原始数据库中抽取一组数据。数据预处理一般包括消除噪声、消除重复记录、完成数据类型的转换等。数据变换的目的是消减数据的维数,即从初始特征中找出真正有用的特征。
3、数据挖掘。根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。
4、结果解释和评估。数据挖掘的结果有些是有实际意义的,而有些是没有意义的,或是与实际情况相违背的,这就需要对结果进行评估。
5、分析决策。数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。
总之,以上步骤不是一次完成的,可能其中某些步骤或者全部要反复进行,才有可能达到预期的效果。
数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能:
1、自动预测。数据挖掘技术能够自动在大型数据仓库中寻找到预测性信息。过去需要进行大量手工分析的问题,如今可以迅速直接地由数据本身得出结论。例如,数据挖掘技术能够使用过去有关信用卡促销的数据来寻找未来信用卡消费中能使银行获取最大盈利的客户。
2、分析关联。数据关联是指数据仓库中存在着某类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。分析是否关联的目的是找出数据仓库中隐藏的关联网。有时并不知道数据仓库中数据的关联函数,即使知道也是不确定的,因此由分析数据关联度而生成的规则是具有可信度的,是有价值的知识。
3、划分聚类。数据仓库中的记录可被划分为一系列有意义的子集,即聚类。应用聚类技术可以增强人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术的核心是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
4、概念描述。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
5、偏差检测。数据仓库中的数据常有一些异常记录,从数据仓库中检测这些偏差很有意义。偏差往往包含很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
(一)风险管理。数据挖掘在银行业的重要应用之一是风险管理,如信用风险评估。可通过构建信用评级模型,评估贷款申请人或信用卡申请人的风险。对于银行账户的信用评估,可采用直观量化的评分技术。以信用评分为例,通过由数据挖掘模型确定的权重,给每项申请的各指标打分,加总得到该申请人的信用评分情况。银行根据信用评分决定是否接受申请,确定信用额度。通过数据挖掘,还可以侦查异常的信用卡使用情况,确定极端客户的消费行为。通过建立信用欺诈模型,帮助银行发现具有潜在欺诈性的事件,开展欺诈侦查分析,预防和控制资金非法流失。
(二)客户管理。在银行客户管理生命周期的各个阶段都会用到数据挖掘技术。
1、获取客户。发现和开拓新客户对任何一家银行来说都至关重要。通过探索性的数据挖掘方法,如自动探测聚类和购物篮分析,可以用来找出客户数据库中的特征,预测对于银行营销活动的响应率。可以把客户进行聚类分析,让其自然分群,通过对客户的服务收入、风险、成本等相关因素的分析、预测和优化,找到新的可赢利目标客户。
2、保留客户。通过数据挖掘,发现流失客户的特征后,银行可以在具有相似特征的客户未流失之前,采取额外增值服务、特殊待遇和激励忠诚度等措施保留客户。通过数据挖掘技术,可以预测哪些客户将停止使用银行的信用卡,而转用竞争对手的卡。银行可以采取措施来保持这些客户的信任。
数据挖掘技术可以识别导致客户转移的关联因子,用模式找出当前客户中相似的可能转移者,通过孤立点分析法可以发现客户的异常行为,从而使银行避免不必要的客户流失。数据挖掘工具,还可以对大量的客户资料进行分析,建立数据模型,确定客户的交易习惯、交易额度和交易频率,分析客户对某个产品的忠诚程度、持久性等,从而为他们提供个性化定制服务,以提高客户忠诚度。
3、优化客户服务。银行业竞争日益激烈,客户服务的质量是关系到银行发展的重要因素。为客户提供优质和个性化的服务,是取得客户信任的重要手段。如,通过分析客户对产品的应用频率、持续性等指标来判别客户的忠诚度,通过交易数据的详细分析来鉴别哪些是银行希望保持的客户。找到重点客户后,银行就能为客户提供有针对性的服务。
[1]Jiawei Han,Mi chel i ne Kamber. 范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.3.
[2]方蕾,王金桃.数据挖掘在客户生命周期中的应用研究[J].武汉理工大学学报(信息与管理工程版),2008.4.
[3]王实等.银行业CRM理论与实务[M].北京:电子工业出版社,2005.