大数据时代金融专业数学的发展趋势

2014-09-22 02:08张瑞亭

大学教育 2014年14期

张瑞亭

[摘要]随着科学技术的飞速发展和人们获取数据的多样化，人类拥有的数据急剧增加。在大数据时代，数据已成为新型战略资源，是驱动创新的重要因素。如何获取隐藏在数据背后的潜在的规律备受研究人员关注。数据挖掘是一门边缘应用学科，它的蓬勃发展是由于它在各个领域的广泛应用。结合金融数据的特点以及目前数据挖掘、机器学习存在的问题，研究未来金融专业数学的发展方向和动态趋势，对于大数据时代下培养金融专业学生具有十分重要的意义。

[关键词]数据挖掘机器学习支持向量机金融数据

[中图分类号] F83 [文献标识码] A [文章编号] 2095-3437（2014）14-0029-02

一、背景

数据是与自然资源、人力资源一样重要的战略资源，其背后隐含着巨大的经济价值。近年来，“大数据”研究已经备受关注。[1]例如，2012年，美国政府在国内发布了“大数据”研究和《发展倡议》，投资约两亿美元发展大数据研究，用以强化国土安全、转变教育学习模式和进一步加速科学和工程领域的创新速度和水平。继1993年美国宣布“信息高速公路”计划后，这项决定标志着美国的又一次重大科技发展部署。美国政府认为“大数据”研究势必对未来的科技、经济等各领域的发展带来深远影响。在大数据应用的技术需求牵引下，数据科学研究和人才培养引起了各国的重视。美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立大学等纷纷成立数据科学研究机构；美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国邓迪大学等一大批高校开设了数据科学课程。

二、机器学习理论

机器学习（machine learning）是继专家系统之后人工智能应用的又一重要研究内容，在某种意义上，机器学习或将认为是数据挖掘的同义词。数据挖掘是指有组织、有目的地收集数据、分析数据，从海量数据中寻找潜在规律，并使之为决策规划提供有价值信息的技术。机器学习是人工智能的核心部分，在金融、工业、商业、互联网以及航天等各个领域均发挥着重要的作用。对机器学习研究的进展，必将对人工智能、数据挖掘领域的发展具有深远影响。

机器学习方法主要包括：Exper System（专家系统）、K-Nearest Neighbor（K近邻算法）、Decision Tree（决策树）、Neural Net（神经网络）、Support Vector Machine（支持向量机）、Cluster Analysis（聚类分析）等。近几年，研究人员将遗传算法、神经网络、系统理论以及当代数学研究的最新进展，应用于金融领域。这使得金融领域数据挖掘在金融管理中备受青睐。例如，产品定价、金融风险管理、投资决策甚至金融监管都越来越重视金融数据挖掘，通过数据挖掘发现金融市场发展的潜在规律与发展动态。机器学习理论及其在金融领域的应用成为了一个比较热的研究领域。[2] [3]

三、金融数据的特点

在众多机器学习方法中，基于Logistic回归、判别分析等传统的统计方法，对金融模型假定条件非常严格，在实际应用中很难达到理想效果。其原因在于对金融数据的非线性和非平稳性的操作具有片面局限性，在实际处理金融数据时，既定假设与金融市场发展实际并不完全一致，这样可能会影响模型的推广能力和泛化能力。

基于分类树方法、K-近邻判别分析、遗传算法等传统的非参数统计方法，其预测能力较好，但不能量化解释指标的程度。例如，K-近邻判别分析是一种非参数距离学习方法，通常按照数据样本之间的距离或相关系数进行度量，这样会受到少数异常数据点的影响。但是，在相同样本容量下，如果对于具体问题确实存在特定参数模型可以应用时，非参数方法效率相对较低。以神经网络、支持向量机等为典型的机器学习方法，优点在于可以有效处理金融数据的非线性特性，并且不需要事先严格的统计假设，这样会表现出较强的适应效果，充分体现人工智能、机器学习等方法的魅力。神经网络预测精度是各种机器学习方法中相对较好的，因为在一定程度上，神经网络可以按照任意精度近似非线性函数，为高度非线性问题的建模和算法提供相应支持。尽管神经网络技术进步有目共睹，但仍然存在一些难题。例如，通常难以确定隐层节点数，并会存在“过学习”现象和局部极小值等问题。

四、支持向量机

传统的统计模式识别方法是在样本数目足够多的情况下进行的，但是样本数目足够多在实际问题里面往往难以保证。1968年Vapnik等人首次提出了统计学习理论，专门从事有限样本情况下机器学习规律的研究。在此基础上，1995年Vapnik等人首先提出支持向量机（Support Vector Machine，简称SVM）的学习方法，它是数据挖掘中的一项新的技术。SVM是机器学习研究领域的一项重大成果，主要研究如何根据有限学习样本进行模式识别和回归预测，使在对未知样本的估计过程中，期望风险最小。近年来，它被广泛地应用于统计分类以及回归分析中。近几年的研究成果表明，SVM在实用算法研究、设计和实现方面已取得丰硕的成果，其在理论研究和算法实现方面都有突破性进展，逐渐开始成为克服维数灾难和过学习等传统问题的有力手段。支持向量机可以成功处理回归分析和模式识别等诸多问题，并可推广于预测和综合评价等领域，因此可应用于管理、经济等多种学科。支持向量机属于一般化线性分类器，可以认为是提克洛夫规则化（Tikhonov Regularization）方法的一个特例，其特点是他们能够同时最小化经验误差与最大化几何边缘区。支持向量机的优点表现在：1.它通过使用结构风险最小化代替传统的经验风险最小化，使用满足Mercer 条件的核函数，把输入空间的数据变换到高维的Hilbert 空间，将向量映射到一个更高维的空间里。在这个空间里建立有一个最大间隔超平面，实现了由输入空间中的非线性分析到Hilbert 空间中的线性分析。2.训练的复杂度与输入空间的维数无关，只与训练的样本数目有关。3.稀疏性。决定最大间隔超平面的只是少数向量——支持向量，就推广能力方面而言，较少的支持向量数在统计意义上对应好的推广能力。4.本质上，SVM算法是一个二次优化问题，能保证所得到的解是全局最优的解。综上所述，SVM在一定程度上解决了以往困扰机器学习方法的很多问题，例如，模型选择与“过学习”问题、非线性和高维小样本等维数灾难问题、局部极小问题等。[4]正是由于SVM具有完备的理论基础和出色的应用表现，使其在解决高维小样本、非线性、压缩感知以及高维模式识别问题中表现出独特的优势，正成为自神经网络之后，机器学习领域中新的研究热点之一。[5] [6]endprint

同其他机器学习方法比较，支持向量机更具严密的理论基础，因而在模型表现上也略胜一筹，被成功应用于模式分类、非线性回归，从使用效果来看，其结果较为理想。但从实践角度分析来看，模型参数的选择过度依赖人们的实验方法和实践技能，在一定程度上降低了模型的推广泛化能力和应用领域。同时计算方面，训练时间过长、核参数的确定，在大训练样本情况下， SVM面临着维数灾难，甚至会由于内存的限制导致无法训练。目前支持向量机在金融数据挖掘方面也存在一定的局限性，主要表现以下几方面：动态适应性、鲁棒性、特征变量异质性调整、模型推广精度等不尽如人意；建模方法与技术还有待进一步完善；支持向量机研究金融数据挖掘和金融问题的成果虽然不少，但大多集中在股票价格和股票市场走势预测方面，关于公司财务危机预测、套期保值分析、金融市场连接机制分析及其创新成果方面有待加强。

五、结论

大数据时代下金融专业的数学重在以下方面的应用：深度学习（Deep Learning）、机器学习和数据挖掘、分布式计算，如MR、Hadoop等，在大数据中预测最先取得突破的技术环节将会是分析中的大数据挖掘与关联分析、存储结构和系统、数据采集和数据化。目前金融问题的研究方向和发展趋势，主要集中在计量经济方法，例如，格兰杰因果分析、向量自回归、条件异方差、随机波动分析等。这些计量经济方法和技术大部分使用了线性技术，以及与金融市场不太吻合的理论假设，基于这些方法的结果，例如，资产预测价格、发展动态以及风险评估结果和实际出入较大，影响了金融管理的效率。对于我们大学教师来说，如何将已有分析数据算法整合，让学生抓住重点，挖掘到比较可靠的信息或知识，都将成为金融专业数学研究的方向和目标。

[ 注释 ]

[1] Anand Rajaraman Jeffrey David Ullman.大数据——互联网大规模数据挖掘与分布式处理[M].北京：人民邮电出版社，2012.

[2] Kumar， P.R. and Ravi， V. 2007. Bankruptcy prediction in banks and firms via statistical and intelligent techniques-a review. European Journal of Operational Research， 180（1）：1-28.

[3] M. Oet， R. Eiben， T. Bianco，D.Gramlich， S. Ong， and J.Wang，“SAFE： an early warning system for systemic banking risk，”in Proceedings of the 24th Australasian Finance and BankingConference， SSRN， 2011.

[4] 沈传河.金融问题中的支持向量机应用研究[D].山东科技大学博士论文，2011.

[5] Chang C.C. and Lin， C.J.， 2001. LIBSVM： A library for support vector machines.

[6] 邓乃扬，田英杰.数据挖掘中的新方法——支持向量机[M].北京：科学出版社，2004.

[责任编辑：陈明]endprint