陈春江 周易达
【摘要】在经济时代,数据的重要性是不言而喻的。作者通过大量实践,总结一些数据挖掘的应用方法,并在本文中用生动实例介绍给读者,有着抛砖引玉的作用。
【关键词】数据挖掘经济分析推理预测软件
一、数据挖掘及其作用
数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。它融合数据库系统、人工智能、统计学、机器学习、信息科学等,是一个新兴的多学科交叉应用领域[1]。简单地说,数据挖掘就是把存放在数据库、数据仓库或其他信息库中的大量的数据中“挖掘”或“找到”有趣知识的过程。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括行业监管、商务管理、生产控制、市场分析、工程设计和科学探索等。
有一个“尿布与啤酒”的故事,可以用来说明数据挖掘的作用。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。沃尔玛在这些原始交易数据的基础上,利用数据挖掘技术方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,发现美国的太太们常叮嘱她们的丈夫下班后到超市为小孩买尿布,而丈夫们中有30%~40%的人在买尿布的同时也为自己买一些啤酒。于是沃尔玛干脆将尿布与啤酒摆在同一个货架上,从而更方便了顾客,促进了销售。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术方法对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。那么,怎么样来挖掘数据呢?
二、常用的数据挖掘方法和应用举例
挖掘数据,简单来说就是要通过读活数据(传统方法)、知识运用(推理方法)、大海捞针(筛选方法)、专业软件(技术方法)等方法或手段,挖掘出有用数据。
(一)读活数据——传统方法
通过阅读政策、理论和报表数据,运用政策传导和理论根据,去挖掘数据背后的真实状况。在阅读的基础上,进一步计算比较基础数据的增加值、增长率和标准值等变化规律,及时发现各指标在运行过程中发生的突变情况。在阅读、比较的基础上进一步分析。
分析实例一,利率对银行的影响:2007年12月21日到2008年12月23日,央行连续4次下调基准利率,假设在银行存贷款总额不变的情况下,存、贷款余额和银行的利息收支变化情况如表一:
表一利率对银行的影响
从银行的角度来看,当基准利率下调时,支付的存款利息和收到的贷款利息都会减少,而且在存贷比保持某个比例时,利差会增大,而不是通常人们认为的那样利差会减少。从消费者的角度来看,存款人少收的利息大于贷款人少付的利息,结果银行增加的收入来自存款人减少的收入。
(二)知识运用——推理方法
通过经济理论知识来实证当前社会经济的情况或预测世界经济可能会出现的情况。
分析实例二,用奥肯定律来分析我国的GDP和失业率之间的关系:萨缪尔森和诺德豪斯合著的《经济学》第16版456页确切表述,“按奥肯定律,GDP增长比潜在GDP增长每快2%,失业率上升1个百分点,公式表示为:失业率的变动=-(实际GDP的增长率-潜在GDP的增长率)/2”[2]。2008年,全年国内生产总值同比增长9.6%。2009年GDP增长8.7%,则实际下降0.9个百分点,根据奥肯定律来推测,失业率应上升0.45个百分点,达到4.65%。
分析实例三,GDP与固定资产投资的关系:通过用加速模型对中国1978~1997年数据进行检验,从而推断出那些以有效需求不足为假设前提的模型不能解释中国的现实。其次,以供不应求为特征的存量调整模型能较好地解释中国固定资产投资的决定因素。在正常年份,实际国内生产总值增长1%,合理的实际固定资产投资应增长1.85%[3]。即GDP增长一个点,约需要投资增长2个点。因此,用GDP与投资总量之间的这种理论关系,可以推算出非信贷投资总额。比如:2008年保山市GDP增长率为13.1%(G),从GDP增速倒推,与其相适应的投资增速应在26.2%左右,但本地银行贷款实际增长22.27亿元,增速仅为16.84%,少增9.36%,表明可能有其他资金投放在本地;年初贷款余额N=131.79亿元,S=N×G×2-M=131.79×13.1%×2-22.27=12.37亿元。表明外地资金在本地当年投放12.37亿元左右。
分析实例四,金融危机与菜农的关系:美国金融危机后?圯中国涉外企业十分困难,大多处于关停状态?圯大量农民工返乡?圯返乡后自己种蔬菜(再说也无法买到原来吃的蔬菜)?圯以往这些农民工日常消费的蔬菜没有人消费,形成消费链断裂?圯河南菜农的蔬菜卖不出去?圯河南菜农生产过剩。事实上,根据国新办于2009年2月2日上午10时举行新闻背景吹风会,离开本乡镇外出就业的农民工的总量大概是1.3亿人,大约有15.3%的农民工因全球金融危机而失去了工作,或者没找到工作。据此推算,全国大约有2000万农民工失去工作,或者还没有找到工作而返乡了。假设每个农民工日均消费1市斤蔬菜,返乡农民工有2000万,就意味着菜农每天有2000万斤蔬菜卖不出去。
(三)大海捞针——筛选方法
可以通过Excel的筛选命令,从众多的数据中筛选出需要的信息。
分析实例五,异地贷款统计:在《银行业非现场监管信息系统》中,没有对异地贷款信息专门统计,给异地贷款风险监管带来难度,可是,银行业《风险预警系统》给我们提供了丰富的客户信息资源。《风险预警系统》中包含了哪个银行在什么地方对哪个企业授信多少、发放贷款多少,以及现在贷款的质量怎么样等48项信息。当银行与企业不在同一个地方时,贷款就衍变为异地贷款,考察全省汇总数据,我们很快发现,可以用筛选方法,将异地贷款统计出来。方法是:分别用筛选命令,筛选出注册地在本地各县区的所有客户,并将其汇总在同一张Excel表中,再删除本地银行机构的客户信息,剩下的就是外地银行在本地客户的贷款信息。反之,也可以筛选出本地银行在外地客户的贷款信息。
(四)专业软件——技术方法
通过《银行业非现场监管信息系统》的查询方法和分析模型,进行“时间序列分析”和“同质同类比较分析”,可以挖掘出更多有用的监管信息;通过Excel中强大的函数库,可以获得更多的统计分析结果;通过《马克威分析系统》等专业分析软件,可以从海量信息和数据中寻找规律和知识,建立起概念模型,为决策者提供科学的决策依据。
分析实例六,2009年全国贷款总额预测:根据2002年至2009年一季度贷款余额和全年贷款总量,以及2010年一季度的贷款余额,可以用回归分析预测出2010年贷款总量。如表二所示:
表二金融机构人民币信贷收支表(单位:亿元)
表中用回归分析预测函数FORECAST预测了2010年的全年贷款总量将达到47.9万亿元,FORECAST(x,known_y's,known_x's)中的x是2010年一季度贷款余额;known_y's是2003至2009年的贷款总量,是因变量;known_x's是2003至2009年一季度贷款余额,是对应的自变量。在本例中,函数表达式是FORECAST(B11,C3:C10,B3:B10)。
在表中,如果计算同比增加量,2010年全年同比增加贷款7.96万亿元左右。如果以时间作为自变量,全年各项贷款余额作为因变量,画出全年贷款余额折线图和三阶趋势线,我们发现,决定系统R2=0.997,接近于1,表示线性拟合程度较高。
考虑到出口减少,外汇储备下降,货币生成机制发生变化,企业更加依赖银行贷款等因素,贷款余额将远不止45万亿元,事实上,2010末贷款余额达到了50.9万亿元,这说明这个回归分析预测函数准确率还是很高的。
参考文献
[1]刘明亮.数据挖掘技术标准综述.计算机科学[J].2008年,(06):5.
[2]孙敬水.我国经济增长与就业关系的实证分析.经济问题探索[J],2007年(04):6.
[3]张华嘉.固定资产投资与经济增长.世界经济文汇[J].1999年(06):3.
作者简介:陈春江(1964-),女,汉族,云南昆明市人,学士,副教授,计算机科学专业,研究方向:计算机应用和区域经济研究;周易达(1962-),男,汉族,云南保山市人,学士,工程师,计算机科学专业,研究方向:银行业监管和金融风险分析。