胡炎非
在过去10年里,人们使用信息技术处理和收集数据的能力得到极大的提高,数百万个数据库被广泛应用于商业、政府、科学研究和工程实施等领域。但这也带来了新的挑战,一方面,数据过剩几乎成为每个人都必须面临的问题;另一方面,各类企业又往往面临信息不足的问题。本研究就是从这些问题出发,通过研究数据挖掘技术,为系统提供新的知识数据库。金融部门的日常业务都会产生大量数据,利用现有的数据库系统,可以有效地实现数据录入、查询、统计等功能,但找不到数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。由于缺乏挖掘数据背后隐藏知识的手段,导致出现“数据爆炸但知识匮乏”的现象。同时,金融机构的经营必然存在金融风险,风险管理是各金融机构的重要工作。数据挖掘技术的使用不仅可以从大量的数据中找到隐藏的规律,还可以降低金融机构的风险。学习和应用数据挖掘技术对我国的金融机构具有重要意义。
金融风险是指可能导致企业、事业单位财产损失的风险,即企业未来收入的不确定性和波动性。根据金融风险的来源,可分为静态风险和动态风险;按风险范围可分为微观风险和宏观风险;按金融机构类别可分为银行风险、证券风险、保险风险和信托风险等。通过对风险的测量和理解,采取相应的措施和处置方案,使风险最小化,利润最大化。可见,金融风险监测是一种规范金融投资安全与盈利能力之间平衡的金融管理方法。
在大数据时代,数据规模越来越大,价值密度也越来越低。数据挖掘是此背景下产生的一种技术,主要功能是帮助人们挖掘数据信息的价值,并被广泛应用于商业信息处理领域。数据挖掘可以实现对商业业务数据信息的读取、转化、分析和智能处理,为商业决策活动提供强有力的支持。
数据挖掘也被称为数据库中的知识发现,是目前人工智能和数据库领域的一个热点问题。所谓数据挖掘指的是从数据库中的大量数据中挖掘隐式的、先前未知的和有潜在价值的信息。数据挖掘是一种决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等。数据挖掘对于分析企业数据再加以归纳推理,并从中挖掘潜在的信息是高度自动化的,有利于帮助决策者调整市场策略,降低风险,做出正确的决策。
数据分析常用的数据挖掘方法有分类、神经网络、回归分析和偏差分析等,它们分别从不同角度对数据进行挖掘。
(1)分类
分类是为了查明数据库中一组数据对象的共同特征,并按分类模式分为不同的类,目的是通过分类模型将数据库中的数据项映射到某个给定的类别。可应用于客户分类、客户属性和特征分析、顾客满意度分析、顾客购买趋势预测等,如汽车零售商根据客户的喜好,将汽车分为不同的类别,从而将新车的广告手册直接邮寄给具有这些偏好的客户,从而大大增加交易机会。
(2)神经网络
神经网络具有良好的鲁棒性、自组织适应性、并行处理、分布式存储和高容错能力,非常适合解决数据挖掘问题,近年来引起越来越多人的关注。典型的神经网络模型主要分为三类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射。神经网络的缺点是“黑盒”性,使人们难以理解网络的学习和决策过程。
(3)回归分析
回归分析反映了数据库中属性值的特征,产生了将数据项映射到实值预测变量,并发现变量或属性之间依赖性的函数。主要的研究问题包括数据序列的趋势特征、数据序列的预测和数据之间的相关性。它可以适用于市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测以及有针对性的促销活动等。
数据挖掘是为了解决传统分析方法的不足,并处理大规模的数据分析。数据的快速增长和数据分析方法的持续进步,使人们能够在现有的大量数据分析的基础上提取隐藏在数据背后的有用信息。
信用风险的数据挖掘评估包括银行信用卡风险评估和贷款信用评估等。信用风险是指不可抗力和恶意欺诈造成的、使债务人不能或不愿履行已签订合同而给银行造成的损失。银行对个人和企业的财务状况发生变化的过程往往不能及时了解或者说被循环信用掩盖。通过数据挖掘技术,对区域差异、个人知识水平、收入水平、经济环境状况、社会地位等客户信用的影响因素进行挖掘,可以迅速建立用户信用等级,然后给出不同的信用额度。它还可以全面揭示信用风险的关系和特征,提高信用违约预测的准确性。Frydmann et al(1985)首次将决策树模型运用于违约企业和非违约企业的分类。此后,许多人将决策树模型、神经网络法和遗传算法用于违约判断,以期得到更好的分类效果。目前市场上,数据挖掘工具提供了完整的展现,如Brio公司的Brio. Enterprise,能全方位、多层次展现数据分析结果。
财务危机的本质是财务风险的规模和高强度的集中爆发,主要表现为财务状况的极端恶化、支付危机,甚至破产。这些公司都不同程度出现以下状况:无法偿还到期债务、巨额投资没有回报、现金流不足、产品销售不良、大量库存积压、涉及巨额诉讼赔偿,以及主营业务严重收缩。财务危机预警模型的建立可以为企业经营失败和财务管理错误进行早期预警和早期控制,为决策者、投资者和债权人提供重要信息。国内外学者利用数据挖掘中的主成分分析、逻辑回归、线性回归和神经网络等方法,来建立财务危机预警模型。首先根据特征向量和主成分贡献率,计算出对于财务状况影响最大的财务指标;接着以预测期公司的财务状况为目标变量;然后运用逻辑回归方法和决策树方法对公司财务状况进行预测;最后把各家公司综合评分作为目标变量,采用线性回归和神经网络方法进行公司财务危机预警分析。
数据挖掘作为一种深度数据信息分析方法,对传统评价方法无法获得的各种因素之间隐藏的内部联系进行综合分析。该技术的应用无疑有利于金融风险监测,能够提供风险预警,使管理者能够提前准备,提供决策参考信息,大大降低风险,提高企业竞争力,促进企业快速发展。