王日宏 王晓龙
摘要:当今,随着计算机和网络的飞速发展,人们无论在工作中还是在日常生活中用到计算机的机会越来越多,由此产生的信息量也就越来越巨大,如此巨大的网络信息量,标志着人们已经进入了“大数据”时代。“大数据”时代下的信息具有体量大、高复杂性、增长速度快等特点,从具有如此复杂特性的信息中挖掘出用户所需要的信息,难度比以往要高了许多。特别对于银行这一行业,数据决定着它的未来发展。虽然有些银行可能还没有意识到数据爆炸性增长带来的问题,但是数据对于银行的重要性已经成为业界的共识。数据挖掘作为一种数据处理技术,在现如今数据量巨大的银行业领域中正逐步受到重视。
关键词:大数据时代;银行;数据挖掘
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)07-1369-02
1 概述
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但潜在有用的信息和知识的过程。并且数据挖掘又是与计算机科学相关,包括人工智能、数据库知识、机器学习、神经计算和统计分析等多学科领域和方法的交叉学科,数据挖掘能够自动对数据进行分析,并归纳总结,推理,分析数据,从而帮助决策者对信息预测和决策其作用。
2 数据挖掘的相关概念
数据挖掘的主要方法包括遗传算法、决策树、神经网络、K—近邻算法等。遗传算法是一种最佳的空间搜索方法。它通过应用算法的适应函数来决定搜索的方向,运用一些人工运算模拟生物种群“多样性”和“优胜劣汰”的过程,进行一代一代的周而复始的演化,首先将群体中较劣的初始解通过复制、交叉和变异3个基本算子优化求解的技术,再在求解空间随机和定向搜索特征的多次迭代,直到求得问题的最优解。决策树是一种用树枝状结构来展示数据受各变量影响的分析预测模型,树型结构表示分类或者决策集合,决策树是采用自上到下的递归模式,树的非终端节点表示属性,叶节点表示所属的不同类别。通过计算各个决策的期望值,选出最优解。神经网络是一种模仿人脑思考结构的数据分析模式,依据其非线形预测模型,通过模式识别的方式展开,获取的知识需要存储在网络各单元之间的连接权中。人工神经网络能够完成分类和聚类等挖掘。K—邻近算法是一种常用的基于距离度量的分类方法。K—近邻算法假设整个训练集不仅包含数据集,而且包含每个元组期望的类别标签。
数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策,其主要有以下五类功能。
2.1 关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为时序关联、简单关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
2.2 概念描述
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
2.3 自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
2.4 聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。
2.5 偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
3 大数据时代下的数据挖掘
近年来,随着互联网上的信息量高速增加,无论是商业、经济政治以及其他领域,都面临着“大数据”时代,所谓“大数据”,顾名思义就是大量的信息数据。大数据时代,数据挖掘是最关键的工作,它将帮助在复杂的,量巨大的数据库中的业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助决策的关键性数据。
数据挖掘在商业领域应用更是广泛,这里有一个关于在大数据时代下数据挖掘成功的案例。在美国沃尔玛超市,我们可以看到尿布与啤酒这两个毫不相干的产品通常摆在一起出售,而且销售量还非常不错。原来这是沃尔玛公司利用庞大的数据系统,对其顾客的购物行为进行购物篮分析时发现,一些年轻的父亲下班后经常要到超市给婴儿买尿布,他们中40%的人同时也会为自己买一些啤酒。通过数据挖掘技术,他们在庞大的、模糊的信息量中找到了这对他们有用的信息,于是,超市工作人员便把两者摆在一起出售后,取得了销量倍增的效果,获得了更多的利润。
4 数据挖掘在银行业中的应用
在信息化高速发展的背景下,各银行积累了海量的数据,由于银行产品具有相当的同质性,因此银行之间的差别,往往在于谁掌握了客户关系以及海量的业务和客户信息背后的独特业务规律,谁就可以科学地制定决策,提高竞争力。
数据挖掘在银行业的主要应用之一是对贷款方进行信用风险评估。可通过构建信用评级模型,如FICO评估模型、神经网络模型、贝叶斯分析模型等来对贷款方进行风险评估。对于银行账户的信用评估,可采用直观量化的评分技术。以信用评分为例,通过由数据挖掘模型确定的权重,来给每项申请的各指标打分,加总得到该申请人的信用评分情况。银行根据信用评分来决定是否接受申请,确定信用额度。
数据挖掘在银行业的另一主要应用是客户管理。发现和开拓新客户对任何一家银行来说都至关重要。通过探索性的数据挖掘方法,如自动探测聚类,可以用来找出客户数据库中的特征,预测对于银行营销活动的响应率。可以把客户进行聚类分析让其自然分群,通过对客户的服务收入、风险、成本等相关因素的分析、预测和优化,找到新的可赢利目标客户【6】。运用决策树模型,通过对客户贡献的期望值的计算将客户进行分类,可以把客户按照期望值的不同来进行分组,分为顶级客户、黄金客户、一般客户三种类型,然后再依据不同类型客户的特点提供有针对性的特色服务,提高客户的忠诚度;运用数据挖掘还可以预防客户流失,在发现有客户流失的特征后,采取额外增值服务、特殊待遇和激励忠诚度等措施保留客户。例如,可以预测哪些客户将停止在本银行贷款,而去其他银行贷款。银行可以采取降低贷款利率,提高贷款额度等措施来保持这些客户的信任。数据挖掘技术可以识别导致客户转移的关联因子,用模式找出当前客户中相似的可能转移者,通过孤立点分析法可以发现客户的异常行为,从而使银行避免不必要的客户流失。
5 结束语
谁拥有了客户信息,谁就拥有了未来。在“大数据”时代下,数据挖掘技术可以为银行提供大量的有用信息,这对于银行业来说是非常重要的,通过运用数据挖掘技术,使银行高层决策者们可以得到准确的潜在客户、客户分类、忠诚度等有用信息,指导他们制定最优的银行营销策略,降低运营成本,调高利润。
参考文献:
[1] 蒋翊凌.基于数据仓库的银行业务数据挖掘研究[D].上海:华东师范大学,2006.
[2] Jiawei Han,Micheline Kamber数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007.
[3] 张赫.数据挖掘及其在客户关系管理中的应用[M].上海:复旦大学出版社,2007.
[4] 刘健.基于数据挖掘的客户关系管理设计与研究[J].技术应用,2008(6).
[5] 王实.银行业CRM理论与实务[M].北京:电子工业出版社,2005.
[6] 孟娟.数据挖掘在银行业中的应用[J].大众商务,2010.
[7] 常雪琦,刘伟.数据挖掘技术在客户关系管理中的应用分析——以银行业为例[J].信息技术与信息化,2009(5).
[8] 孔德汉.数据挖掘技术在银行业客户关系管理中的应用[J].合作经济与科技,2010(20).
[9] 郑华.基于数据挖掘银行客户关系管理系统构建研究[J].广西轻工业,2008(10).