管 刚 杨 涛
【摘要】 简要阐述理数据挖掘的概念、发展及基本技术,并着重阐述了其在金融领域的应用。
【关键词】 数据挖掘;金融领域
一、数据挖掘技术简介
1.数据挖掘技术的定义
数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts),规则(Rules)、规律(Regularities)、模式(Patterns)等形式。这个定义把数据挖掘的对象定义为数据库。
2.常用的数据挖掘技术和过程
在数据挖掘中最常用的建模技术有:
(1)统计:统计是涉及数据和描述的一个数学分支,其主要任务就是了解已经收集到的有限数据,并根据这些数据作出关于潜在数据分布是什么的预测。
(2)K近邻:近邻技术是指为了预测在一个记录中的预测值是什么,在历史数据库中寻找有相似预测值的记录,并使用未分类记录中最接近的记录值作为预测值。对基础最近邻算法常常作的改进是从K个最近的邻居中进行投票选择,而不是仅仅取决于距未知记录最近的邻居。
(3)聚类:聚类方法用于将记录聚集在一起,从而给出数据库的一个高层视图。
(4)决策树:决策树是指采取树形式的预测模型,树的每个分支都是一个分类方法,树叶是带有分类的数据分割。
(5)人工神经网络是仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。
(6)规则归纳:从统计意义上对数据中的“if……then… …”规则进行寻找和推导。
3.数据挖掘的过程
(1)数据准备。数据的准备阶段可分为数据选取、数据预处理、数据转换三个步骤。数据的选取是根据用户的需要从原始数据库中抽取的一部分数据;数据预处理是消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换;数据转换的主要目的是削减数维数或降维。
(2)数据挖掘。对准备好的数据进行分类、聚类,找出关联规则,之后根据具体目标,确定数据挖掘的算法,在选择算法的时候,重要的是根据用户需求来决定具体的算法,然后确定具体的挖掘模型。
(3)结果评估。对数据挖掘阶段确定的模型,进行评价,消除冗余,使得模型满足用户的需求。在评价时要及时反馈,不符合的就要重新返回到以上两个步骤,直到满足要求。
二、数据挖掘技术在金融领域的应用
1.数据挖掘技术在证券行业的应用
数据挖掘在此过程中将发挥重要作用,其技术应用的方向主要有:
(1)客户分析。建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据,并通过对这些数据进行挖掘和关联分析,实现面向主题的信息抽取。
(2)咨询服务。根据采集行情和交易数据,结合行情分析,预测未来大盘走势,并发现交易情况随着大盘变化的规律,并根据这些规律做出趋势分析,对客户针对性进行咨询。
(3)风险防范。通过对资金数据的分析,可以控制营业风险,可以改变公司总部原来的资金控制模式,并通过横向比较及时了解资金情况,起到风险预警的作用。
(4)经营状况分析。通过数据挖掘,可以及时了解营业状况、资金情况、利润情况、客户群分布等重要的信息,并结合大盘走势,提供不同行情条件下的最大收益经营方式。通过对各营业部经营情况的横向比较,以及对本营业部历史数据的纵向比较,对营业部的经营状况作出分析,提出经营建议。
2.数据挖掘在银行CRM(客户关系关系管理)中的应用
客户关系管理(以下简称CRM,Customer Relationship Management)是现代商业银行的重要业务之一。商业银行实施CRM的目标是了解客户需求,找出能盈利客户,提高针对性服务。要实现以上目标,可以借助层次信息处理技术,它能够充分利用客户资料,发现潜在的,有用的规则和模式。
数据挖掘技术在商业银行CRM 中具有广泛用途主要有:
(1)加载客户信息。这一阶段主要是进行数据清理,消除现有业务系统中有关客户账户数据不一致的现象,将其整合到中央市场客户信息库,建立以客户为中心的数据仓库基础环境。银行各业务部门对客户有统一的视图,可以进行相关的客户分析。
(2)加载客户交易信息。这一阶段主要是把客户与银行分销渠道的所有历史交易数据加载到中央市场客户信息库。这一阶段完成后,银行可以分析客户使用分销渠道的情况和分销渠道的容量,了解客户、渠道、服务三者之间的关系。
(3)模型评测。为客户的每一个账号建立利润评测模型,以便了解客户对银行的总利润贡献度。要建立利润评测模型,需要加载会计系统的财务数据到中央数据仓库。这一阶段完成后,银行可以从组织、客户和产品三个方面分析利润贡献度。
(4)优化客户关系。银行应该掌握客户在生活、职业等方面的变化及外部环境的变化,抓住推销新产品和服务的时机。这需要将账号每次发生的交易明细数据,加载到中央数据仓库,核对客户行为的变化。
(5)风险评估和管理。银行风险管理的对象主要是与资产和负债有关的风险,与资产负债有关的业务系统的交易数据要加载到中央数据仓库;然后,银行可以依照不同的期间,以数学模型分析和模拟计算利率敏感性资产和负债之间的缺口,了解银行在不同期间资本比率、资产负责结构、资金情况和净利息收人的变化。
三、数据挖掘技术在金融领域应用存在的问题和挑战
1.选择合适的数据挖掘方法和参数
在金融数据挖掘的应用中,选择合适的影响变量(特征),合适的数据挖掘算法,和合适的模型评估是数据挖掘过程中的关键。尽管现在很多的应用转向用神经网络等工具来解决问题,问题依然存在,如合适的训练数据集合的大小与选择,怎样处理过时的数据等等。
2.可扩展性和性能的要求
有些金融数据的增长速度是爆炸式的,金融数据挖掘必须考虑到算法的可扩展性和算法的效率,所以模型在建立时就必须要考虑到新数据的更新和整合,至于性能的要求,如果把数据集合分成若干小集合,再使用并行的数据挖掘技术可能会有较好的表现。
3.文本数据挖掘
随着互联网的普及,网页信息为资源的提取提供了一个绝佳的“矿藏”,很多现存的金融数据挖掘模型很依赖于政府的政策,市场的反馈信息等等,显然现存的金融数据挖掘方法还没有充分利用到比如一些时报提供的资讯来辅助决策,如银行如果声称下月将调整利率,那么股市肯定有相应的变化。当然数据挖掘涉及到很多领域,如自然语言处理,信息检索等,具有很大的挑战。
4.多种数据挖掘技术的整合
由讨论可以看出,每种数据挖掘技术都有它的优点和局限,为了改进数据挖掘技术在金融领域的应用效果,现在很多研究者考虑将多种数据挖掘技术融合,如金融数据挖掘中用得较多的分类技术,就有多分类器系统
(multiple classify system, MCS),在很多情况下会有上佳的表现。
参考文献
[1]张玉春.数据挖掘在金融分析中的应用.华南金融电脑.2004
[2]张娴.数据挖掘技术及其在金融领域的应用.金融教学与研究.2005