统计学习的过去、现在和将来

2009-07-30 08:30李扬谢邦昌彭茜茜

数据 2009年7期

李　扬　谢邦昌　彭茜茜

[摘要]现今的统计学习虽然已经有了重大的发展，但是若想把事情完全交给机器完成却不能得到理想结果，仍需要加入大量的人类智慧。现代统计学习理论是研究利用经验数据进行机器学习的一般理论，属于计算机科学、模式识别和应用统计学相交叉与结合的范畴。在科学技术飞速发展的今天，统计学习理论广泛吸收和融合相关学科的新理论，不断开发应用新技术和新方法，深化和丰富了统计学传统领域的理论与方法，并拓展了新的领域。

关键词：统计学习试验方法

中图分类号：C812文献标识码：A文章编号：1006-5954（2009）07-058-03

一、引言

统计的发展可以通过其所解决的问题展现：解决的问题不断从简单到复杂，从具体到抽象，这就要求其具有更强的计算能力，不断的从狭义到广义演变。传统统计主要来源于具体的实验，依赖于经典的参数估计方法，而现代统计学习理论是研究利用经验数据进行机器学习的一种一般理论，属于计算机科学、模式识别和应用统计学相交叉与结合的范畴。由于较系统地考虑了有限样本的情况，统计学习理论与传统统计学理论相比有更好的实用性。统计学习（Statistics learning）的起源是一系列著名的实验（如Turing Test等），随着信息技术的不断发展与信息量不断增大的进程，统计学习（Statistical Learning）理论也在逐步完善以适应新的需求。

现今的统计学习虽然已经有了重大的发展，但是若想把事情完全交给机器完成却不能得到理想结果，仍需要加入大量的人类智慧，例如：寻找事物特征、参数选取等等。不过类神经网络、SVM等技术的革新帮助解决了很多现实中复杂的问题，可以应用在诸多模式识别和回归估计问题中，并已经在很多实际问题中取得了很好的应用成果。随着统计学习发展，我们对统计有越来越高的期望，期望其可以发挥人类智慧的作用，计算能力再进一步提高，解决更加复杂的现实问题。

二、统计学习的过去和现在

Alan Turing于1950年提出了一个著名的实验——图灵测试（“Turing Test”）：将一个具有智慧的机器和一个人类，放在一个布幕里面。人分别与机器和人类交谈，如果分不出哪一个是机器，哪一个是人类的话，那么机器就具有了人工智能。由此揭开了人工智能（Artificial Intellegence）研究的序幕。在研究中，AI被划分成Weak AI和Strong AI。Weak AI并不是功能较弱，而是指某个系统只要能表现出人类的智力就好，不管底层系统是否真的有人类的智力。Strong AI则是希望建构出来的系统即使不是用细胞做的，他的架构也却是和人类相当，真的具有人类智慧。Weak AI可以由机器学习(Machine Learning)来代表。只要给定问题的范围，训练的资料(training data)，就可以由数据中选择特征(Feature selection)，然后建构数据的模型(Model selection)，最后把这个模型当成学习的成果，拿来做预测(Prediction)。

迄今为止，关于机器学习还没有一种被共同接受的理论框架，其实现方法大致可以分为三种：第一种是经典的（参数）统计估计方法。包括模式识别、神经网络等在内；第二种方法是经验非线性方法，如人工神经网络（Artificial Neural Networks,ANN）；第三种方法是统计学习理论（ Statistical Learning Theory或 SLT）。

（一）经典的（参数）统计估计方法

经典的（参数）统计估计方法包括模式识别、神经网络等在内，现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学，在这种方法中，参数的相关形式是已知的，训练样本用来估计参数的值。

但是随着电脑解决问题的广泛应用，研究人员试图研究复杂问题时，发现了参数体系的缺点。

（1）大规模多变量问题导致了“维数灾难”现象的发生。研究人员观察到，增大可考虑因子的数量就需要成指数的增加计算量。因此，在含有几十个甚至是几百个变量的实际多维问题中定义一个相当小的函数集，也是一种不切实际的想法。

（2）透过实际数据分析，实际问题的统计成分并不能仅用经典的统计分布函数来描述。实际分布经常是有差别的，为了建构有效的算法，我们必须考虑这种差别。

（3）即使是最简单的密度估计问题，最大似然方法也不见得是最好的。

总之，这种方法有很大的局限性。首先，它需要已知样本分布形式，这需要花费很大代价，还有，传统统计学研究的是样本数目趋于无穷大时的渐近理论，现有学习方法也多是基于此假设。但在实际问题中，样本数往往是有限的，因此一些理论上很优秀的学习方法实际中表现却可能不尽如人意。

（二）经验非线性方法

经验非线性方法，如人工神经网络（ANN）。这种方法利用已知样本建立非线性模型，克服了传统参数估计方法的困难。但是，这种方法缺乏一种统一的数学理论。

以人工神经网络为例进行简单的介绍。人工神经网络（ANN），一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。人工神经网络具有自学习和自适应的能力，可以通过预先提供的一批相互对应的输入——输出数据，分析掌握两者之间潜在的规律，最终根据这些规律，用新的输入数据来推算输出结果，这种学习分析的过程被称为“训练”。人工神经网络具有非线性、非局限性、非常定性和非凸性的特点，它是并行分布式系统，采用了与传统人工智能和信息处理技术完全不同的机理，克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷，具有自适应、自组织和实时学习的特点。但是，由于在长期发展过程中，由于人工神经网络在理论上缺乏实质性进展，所以新的方法，统计学习理论开始受到越来越广泛的重视。

（三）统计学习理论

统计学习理论（ Statistical Learning Theory或 SLT）是一种专门研究小样本情况下机器学习规律的理论，是传统统计学的重要发展和补充，为研究有限样本情况下机器学习的理论和方法提供了理论框架，其核心思想是通过控制学习机器的容量实现对推广能力的控制。该理论针对小样本统计问题建立了一套新的理论体系，在这种体系下的统计推理规则不仅考虑了对渐近性能的要求，而且追求在现有有限信息的条件下得到最优结果。V.Vapnik等人从六、七十年代开始致力于统计学习理论方面的研究，到九十年代中期，随着其理论的不断发展和成熟，其受到了越来越广泛的重视。

在提到统计学习理论时不得不说的一个核心概念是VC维。它是描述函数集或学习机器的复杂性或者说是学习能力(Capacity of the machine)的一个重要指标，在此概念基础上发展出了一系列关于统计学习的一致性(Consistency)、收敛速度、推广性能(Generalization Performance)等的重要结论。

在统计学习理论基础上，一种新的通用学习方法应运而生，支持向量机（Support Vector Machine 或SVM）。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度，Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷，以期获得最好的推广能力(Generalization Ability)。支持向量机方法有以下的几个主要优点有：

（1）它是专门针对有限样本情况的，其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值。

（2）算法最终将转化成为一个二次型寻优问题，从理论上说，得到的将是全局最优点，解决了在神经网络方法中无法避免的局部极值问题。

（3）算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space)，在高维空间中构造线性判别函数来实现原空间中的非线性判别函数，特殊性质能保证机器有较好的推广能力，同时它巧妙地解决了维数问题，其算法复杂度与样本维数无关。

在SVM 方法中，只要定义不同的内积函数，就可以实现多项式逼近、贝叶斯分类器、径向基函数(Radial Basic Function 或RBF)方法、多层感知器网络等许多现有学习算法。目前，SVM算法在模式识别、回归估计、概率密度函数估计等方面都有应用。例如，在模式识别方面，对于手写数字识别、语音识别、人脸图像识别、文章分类等问题，SVM 算法在精度上已经超过传统的学习算法或与之不相上下。

由于 SVM方法较好的理论基础和它在一些领域的应用中表现出来的优秀的推广性能，近年来许多关于 SVM方法的研究，包括算法本身的改进和算法的实际应用，都陆续提出。尽管SVM算法的性能在许多实际问题的应用中得到了验证，但是该算法在计算上存在着一些问题，包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。

传统的利用标准二次型优化技术解决对偶问题的方法可能是训练算法慢的主要原因。首先，SVM方法需要计算和存储核函数矩阵，当样本点数目较大时，需要很大的内存，例如，当样本点数目超过 4000时，存储核函数矩阵需要多达128兆内存；其次，SVM在二次型寻优过程中要进行大量的矩阵运算，多数情况下，寻优算法是占用算法时间的主要部分。

SVM方法的训练运算速度是限制它的应用的主要方面，近年来人们针对方法本身的特点提出了许多算法来解决对偶寻优问题。大多数算法的一个共同的思想就是循环反复运算：将原问题分解成为若干子问题，按照某种反复运算策略，通过反复求解子问题，最终使结果收敛到原问题的最优解。根据子问题的划分和反复运算策略的不同，又可以大致分为两类。

第一类是所谓的“块算法”（Chunking algorithm）。“块算法”基于这样一个事实，即去掉 Lagrange乘子等于零的训练样本不会影响原问题的解。对于给定的训练样本集，如果其中的支持向量是已知的，寻优算法就可以排除非支持向量，只需对支持向量计算权值（即 Lagrange乘子）即可。

当支持向量的数目远远小于训练样本数目时，“块算法”显然能够大大提高运算速度。然而，如果支持向量的数目本身就比较多，随着算法反复运算次数的增多，工作样本集也会越来越大，算法依旧会变得十分复杂。因此第二类方法把问题分解成为固定样本数的子问题：工作样本集的大小固定在算法速度可以容忍的限度内，反复运算过程中只是将剩余样本中部分“情况最糟的样本”与工作样本集中的样本进行等量交换，即使支持向量的个数超过工作样本集的大小，也不改变工作样本集的规模，而只对支持向量中的一部分进行优化。

毫无疑问，固定工作样本集的算法解决了占用内存的问题，而且限制了子问题规模的无限增大；但是，从这个意义上来说，固定工作样本集的算法把解标准二次型的寻优问题的时间转嫁到循环反复运算上了，它的反复运算次数一般会比“块算法”多。尤其是 SMO，如果没有一个好的启发式反复运算策略，该算法就是一种盲目爬山法。

基于此，我们提出一种算法思想，希望能够综合两类算法的特点。我们仍旧从最终目标中抽取子问题，借用某种反复运算策略使算法收敛。关键的，我们希望一方面子问题规模不会太小，以免反复运算次数太多，另一方面能借鉴 SMO的思想，利用二次问题的特点，找到子问题的解析解法，或者是近似解，从而不必对每一个子问题都调用寻优算法。

此外，由于 SVM方法的性能与实现的上的巨大差异，我们在求解子问题时不一定要得到精确解（解的精确度可以由反复运算来保证），甚至还可以考虑对最终目标求取近似解。这样，尽管结果的性能会受到影响，但是如果能够大幅度提高运算速度，它仍不失为一种好方法。

三、统计学习的将来

统计学习在现当代社会已经有了飞速发展，但其还不能完全满足人类的需求。在其进一步的发展过程中，仍需要在机器学习问题、语言意识的学习、人机界面等方面进行改进。在完成一项任务时，人类总是希望机器能够自主独立的完成，自己介入的越少越好。这就需要加强机器的文字意识，而不是将所有的信息转化成数字之后机器才能识别。如果人类比较高层次的认知活动，如语言产生意义、寻找类似物品和抽象化的能力，其背后的神经机制若能够被发现，那么我们也可以了解大脑思想的表达方式，人脑和计算机之间可以互相转换数据，这时候人脑的能力和计算机的计算能力，就可以互补，让我们计算帕斯卡尔三角形速度更快而没有负担。计算机也可以运用人类抽象化的能力，更正确地寻找“类似”的东西，并且是以更快的速度达成抽象化才能解决的问题。

四、结语

传统的统计学习为统计学习的发展提供了坚实的理论基础，现代统计理论无论是在假设还是方法上都有了很大的突破和进展。在科学技术飞速发展的今天，统计学习理论广泛吸收和融合相关学科的新理论，不断开发应用新技术和新方法，深化和丰富了统计学传统领域的理论与方法，并拓展了新的领域。相信，统计学习必将会应用于越来越广泛的领域，解决迫在眉睫的问题，提供更大的便利。

■ 名词解释

［1］人工神经网络

人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型，主要依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

［2］支持向量机

支持向量机是数据挖掘中的一个新方法，能非常成功地处理回归问题（时间序列分析）和模式识别（分类问题、判别分析）等诸多问题，并可推广于预测和综合评价等领域。

［3］特征空间

特征空间是相同特征值的特征向量的集合。

［4］径向基函数网络

径向基函数网络是一种向前反馈网络，可以处理不规则分布的高维数据。

［5］多层感知器网络

多层感知器网络是具有多个中间层的网络系统。

■ 参考文献

[1] Berry Michael J. A., Linoff Gordon S. “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management” John Wiley & Sons, Inc., 1997

[2] Guape, F.H.; Owrang, M.M. “Database Mining Discovering New Knowledge and Cooperative Advantage” Information Systems Management, 1995,12, pp.26-31

[3] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, “The KDD Process for Extracting Useful Knowledge from Volumes of Data” Communications of the ACM, 1996, Vol 39., No.11, pp.27-34

[4] Chung, H. Michael; Gray, Paul; Guest Editors “Special Section: Data Mining” Journal of Management Information Systems, 1999, Vol. 16, pp.11-16

[5] 谢邦昌、李扬，数据挖掘与商业智能的现状及未来发展，统计与信息论坛，2008（5）：94-96