传统统计面对的挑战

2011-01-12 03:05吴喜之
统计与信息论坛 2011年12期
关键词:建模算法方法

刘 超,吴喜之

(1.北京航空航天大学a.数学与系统科学学院;b.“数学、信息与行为”教育部重点实验室,北京 100191;2.中国人民大学 统计学院,北京 100872)

传统统计面对的挑战

刘 超1a,b,吴喜之2

(1.北京航空航天大学a.数学与系统科学学院;b.“数学、信息与行为”教育部重点实验室,北京 100191;2.中国人民大学 统计学院,北京 100872)

针对统计的黑匣子特性,借用Breiman的两种统计文化的平台,分析传统统计面临的挑战和危机,并探索统计领域究竟要向何处发展的问题。研究表明:统计学必须重新回到针对实际问题而与数据打交道,并且创造有关理论的传统上来。只有这样,才能应对不断产生的新问题所带来的挑战。

统计;数学;数据建模;算法建模

一、引 言

今天,当你浏览报纸、杂志或者网络时,你将发现大量的信息。如何来判断各种报道里的数据所得出的结论是否正确?样本是否具有代表性?样本是如何抽取的?很多人已经意识到,在日常生活中,作为一个信息接受者或者使用者,了解统计学的基本概念以及懂得如何用统计知识去解决问题是非常重要的。

在300多年前,统计(Statistics)这个词语首次被人们应用,是指政府部门记录人们出生和死亡信息的工作。时至今日,统计工作仍然是世界上各级政府部门工作的支柱。随着统计知识的普及以及经济、社会的发展,特别是在信息化社会中,理、工、农、医、经济、管理以及人文社会科学需要处理大量的数据信息,对统计数据分析的需求在持续增加,统计越来越成为强有力的分析工具和决策方法。2010年6月3日,第64届联合国大会第90次会议通过决议确定每年10月20日为“世界统计日”。2011年初,国务院学位委员会在新的研究生专业目录中将统计学上升为一级学科,为统计学科和统计教育的发展提供了更广阔的平台,也显示出统计对科学研究、经济和社会发展的重要性。

我们知道,物理学、生物学、化学等学科的典型课题都是研究非常具体的客体之间的关系。它们即使不能直接观测,也必须是可以通过测量或其他方式认识的,因此,这些学科所用的数学模型是确定性的。然而,统计所用的模型往往不那么确定。例如,现实世界中有一些关系是很难明确的,特别是社会科学中的许多关系,许多不知道或无法说清楚的因素影响着这些关系。这些说不清楚的由现实世界(或自然)产生的内在机制只能被看成是具有某种随机结构的“黑匣子”。

如果记输入的数据为x,输出的数据为y,那么根据x产生出y的过程可以用图1描述:

图1 统计分析的过程

一般来说,统计数据分析有两个目的,一是能够由输入数据x来预测y,二是能解释联系输入变量和输出变量的“自然”部分,即所谓的“黑匣子”。

本文针对统计的黑匣子特性,借用Breiman的两种统计文化的平台,指出传统统计面临的挑战和危机以及统计学科究竟要向何处发展的问题。

二、统计的“黑匣子”特性

按照统计学家Breiman的说法,统计有两种文化。一种是数据建模文化(data modeling culture),它的特点是在“黑匣子”中假定一个随机产生数据的模型,这些模型中最典型的是大家熟知的线性回归模型、logistic回归模型和Cox模型等等。这里对模型是否合适采用诸如拟合优度检验和残差分析等方法来确定。模型通常写为下面的函数形式:

响应变量=f(预测变量,随机噪声,参数)

另一种统计文化是算法建模文化(algorithmic modeling culture)。它也是寻找一个函数f(x)来预测y,只不过这里的函数不局限于一些有明确表达的数学公式,而更多的是一个算法。这里主要关心的是预测,而至于黑匣子到底是什么,能够解释就解释,但并不强求。典型的算法包含决策树、关联规则、随机森林、支持向量机等等。这里则采用预测精度来衡量模型是否合适。Breiman估计,统计学家中只有2%的人支持第二种文化,而他是支持算法建模文化的。他认为,专注于数据模型会产生无关的理论以及有问题的结论,使得统计学家远离适当的算法模型,不去研究新的实际问题[1]。

本文引用Breiman关于两种文化的说法,并不想研究他对统计文化划分的科学性和合理性,而是想借该平台强调他在这里试图传达的一个重要信息,即统计面临的危机和统计领域究竟要向何处发展的问题。

统计应用最初是由政府的需要而产生的,但目前统计的方法和理论基础是由一批数学家奠定的。由于多数统计学家是数学专业出身,他们习惯于严密的逻辑和精确的推理,认为数理统计学只是从数量表现的层面上来分析问题,完全不触及问题的专业内涵。在这个意义上,数理统计方法是一个中立性的工具。这“中立”的含义是,它既不在任何问题上有何主张,也不维护任何利益或在任何学科中坚持任何学理。作为一个工具,谁都可以使用。如果谁不同意这种方法,可以不使用[2]2-3。对于统计方法或统计模型这种在各学科中的“中立性”是大家都同意的。但是,任何统计方法的发展及任何模型的建立都有其应用背景。就其本质来说,统计学家的研究是不可能独立于这些领域的具体目标。为了表述准确,这里所提到的“统计学家的研究”是指基于数据所进行的归纳研究,而不包括那些对统计方法中间的数学内容进行局部演绎的既不涉及数据又不涉及结果解释的内容,这些应该是数学或作为数学的一个分支的概率论的研究内容。一个全面的统计学家不可能在统计应用研究中对研究对象所属的领域保持无知。

由于统计学家不可避免地要和应用打交道,这就出现了如何对待上面所说的“黑匣子”的问题。多数应用领域的研究人员,针对他们所面对的实际问题和数据,在那些中立的方法中选择一些他们认为合适的模型或方法,来处理他们的问题。对于一些看来没有现成方法可用的问题,则由一些受到良好统计训练的人和该领域的实际工作者合作,以找到合适的方法。按照Breiman的说法,数据建模文化包含了目前统计课程所涉及的大部分统计模型。建立这些模型需要一些在实际中不一定能够满足的数学假定,在实行模型选择、对结果的解释和预测等方面有很多不明确或不清楚的地方。这些模型的使用对于非统计领域的人员来说并不方便。而算法建模文化,则针对实际课题的问题,选择一些方法,根据训练样本利用计算机建模。人们用对测试样本的预测精度来判断这些模型是否适用。由于没有多少中间的人为干预,因此,Breiman觉得这种文化容易被其他领域的工作者掌握。

三、统计从数学中继承了什么?

很多人认为统计学是数学的一个分支。这不仅涉及统计和数学的定义,而且涉及统计的性质和应用背景。我们认为,如果脱离统计的应用背景而把统计作为纯粹数学的一部分,那么,统计学没有存在的必要。原因在于,第一,统计学的方法都是在应用的推动下产生的,如果没有应用,它们不会出现。第二,如果以应用为目的而产生的统计方法不能满足应用的要求,再漂亮的数学表达也不能保证其存在,脱离应用背景的统计方法是没有生命力的。第三,统计中的数学知识本身不能形成一个完整的逻辑体系(贝叶斯统计可能被认为是例外),其中有大量的人为或主观因素在起作用,这不符合纯粹数学的本质。但是,到底统计是不是数学,我们没有必要进行争论,因为在不同定义和前提下可能有各种结论。然而,统计为应用服务的本质,是没有人争论的。统计的基础是实际领域产生的数据,这也是被广泛接受的统计定义所确定的。

数学是一个“是非明确”的理想世界,它自我形成严格的封闭逻辑体系。只要逻辑正确,数学研究最多得不出结果,但不会犯错误。这也是以演绎为主的数学的魅力之所在,数学教科书也因此没有负面的内容。但是,以归纳为主要思维方式的统计是描述现实世界的,是为各领域服务的。统计需要建立各种数学模型来描述现实世界,但任何数学模型都不可能精确地描述现实世界或自然,正如没有科学理论能够等于真理一样。因此,和确定性的数学不同,统计的结论不可能是确定性的。另外,数学是不能证伪的,而统计科学和其他科学的理论一样,必须是可以证伪的(falsifiable)。在不断证伪的过程中,统计学才得以发展。

由于很多基本上由数学老师讲授的数理统计课程是完全按照纯粹数学的模式设计的,对于背后的基于数据的统计思想介绍得不是很充分,也不强调这些充满假定的数学模型都是对现实世界的不同程度的简化。几乎没有人告诉学生,所有统计教科书中对数据(或其总体)的数学假定都是无法用数据验证的。大多数教科书仅仅指出这些模型在什么假定下可用,而很少指出违背这些假定的后果。统计教科书往往在给出统计方法结论的同时,不指出根据这些结论所做决策的风险,也很少强调统计学家不能替代实际领域专家做决策的原则。数学化的统计教科书极少提到统计应用中一系列决策的主观性和任意性。

四、传统数据建模中的问题

无论是统计学家还是其他领域的研究人员,对他们的研究对象所选择的模型,无论是现成的,或者是他们要基于现成模型修正的,或者是他们针对这个课题所新建的,都仅仅是对现实世界的某种近似。而这些用数学语言所描述的模型存在的一个必要条件是它们必须能够被人们解出来。这些解或者是近似的,或者是精确的。但是,无论得到什么样的结论,都由于模型的近似性而结论必然是近似的。而这些结果到底和现实世界有多么近似,则是不可能完全相同的。

衡量模型是否合适或者统计结果是否合理的传统方法包括常用的t检验、F检验、各种拟合优度检验、确定性系数R2以及AIC、BIC等等,当然还采用无偏性等大样本或总体概念。它们在统计学理论的发展和统计在各个领域的应用中起了很大的作用。正如Efron指出的,20世纪的统计可标以100年的无偏性,我们的大多数统计理论和实践是围绕着无偏或几乎无偏估计(特别是MLES)和基于这样估计的检验转的[3]。但是,要使用这些判别方法,必须对模型和产生数据的总体做出一些假定,诸如模型的数学形式、误差的结构和分布的假定。这些假定是基于经验、数据的特征或者数学上的方便。然而,Bickel等人表明除非备选假设有明确的方向,否则拟合优度检验的效率很低[4]。这是因为综合的拟合优度检验要面对所有方向,除非极度不拟合,否则是很难显著的。而残差分析也是不可靠的,它在变量数目多的时候无法揭示欠缺的拟合,不同的残差分析方法会导致不同的结论。Breiman指出,近年来在美国著名统计期刊JASA(Journal of the American Statistical Association)发表的应用文章主要讨论模型上的创新,似乎和独创性的统计模型相比,模型拟合好坏是次要的。只欣赏模型本身,而忽略实际应用背景是危险的[1]。当结论仅仅描述模型的机制而不反映模型应该反映的现实世界时,结论必然是错误的。Mosteller和Tukey在讨论回归的谬误时说:整个按部就班的回归领域充满着智力的、统计的、计算的和主题的困难[5]455-456。我们面对着从包含未知的物理、化学、生物或社会机制的复杂系统中产生的未受控制的观测数据,很难想象这种复杂的机制能够被一些统计学家主观选择的参数模型来充分解释,而从这些模型得到的结论不能由拟合优度检验和残差分析来证实。

传统统计方法的另一个问题是数据建模的结果的多重性。也就是说,若干模型都显著,但它们对现实世界有不同的描述,这些不同但又都“显著”的模型对“黑匣子”的解释各异。Mountain和Hsiao表明,很难构造一个能够包含所有竞争模型的复杂模型[6]。而且,鉴于利用有限的样本所建立的依赖于渐近理论的各种检验的合法性和效率,所导致的结论是靠不住的。

五、算法建模

和传统的数据建模文化不同,Breiman所定义的算法建模文化则多数由没有传统统计背景的研究人员所发展。早在20世纪80年代,算法建模在心理计量学、社会科学、医学中就有不同程度的应用,但最有影响的是20世纪80年代中期出现的神经网络和决策树。最初的研究人员包括年轻的计算机科学家、物理学家、工程师和少数统计学家,他们在数据模型无法使用的复杂预测问题上试验他们的新方法。这些问题包括语言识别、图象识别、非线性时间序列预测、笔迹识别以及金融市场的预测。

算法建模的势力迅速扩展,研究人员发表了数千篇文章。最初的算法建模研究人员多数没有接受过传统统计训练或者不受传统统计的约束,现在也有一些著名的统计学家加入了算法建模的行列。目前,除了复杂数据和海量数据之外,算法建模也应用于传统数据建模的研究领地。目前的算法建模方法对于模型的评价主要是预测精度,比如利用试验数据集来对训练数据集所建立的模型进行交叉验证。他们的方法在逐步改进,比如支持向量机就比早期的神经网络更有效,助推法(Boosting)或其改进型进行分类和回归的方法也在不断发展。许多方法在机器学习、人工智能或数据挖掘等各种名称下产生和发展。

算法建模和传统统计的区别不仅仅在于前面所介绍的,它还着重于预测精度和适用于海量数据。比如在基因数据中,变量个数可以达到4 682个,而样本量仅有81个[7]。它不仅不畏惧巨大的维数,而且认为变量越多,包含的信息越多。实际上,有大量的信息在各种预测变量的组合之中。算法建模文化不仅不减少维数,而且在预测变量中增加许多变量。这样巨大的变量和观测值数目的比例是传统统计不可想象的。比如Diaconis和Efron曾经说过,统计经验表明,基于19个变量和仅仅155个数据点来拟合模型是不明智的[8]37-43。此外,前面所说的数据建模文化所无法解决的模型多重性问题在算法建模文化中也是有利的,因为它可以把大量的竞争模型整合起来增加预测的精度。高精度总是与数据背后的机制更可靠的信息相关联的。因此,算法模型比数据模型能提供更好的预测精度,也提供了关于数据背后机制中较好的信息。此外,应用算法模型需要较少的专业知识和专家干预,对于各领域的工作者来说,更易于掌握和理解。

算法建模有如此广泛的应用和优势,但是,其研究成果基本上没有传统统计所固有的总体分布假定、假设检验、参数估计等标志性因素。这些成果多数发表在工程、计算机及其他非统计应用领域的期刊上。人们可能会问,按照(比如不列颠百科全书的)统计为“收集、分析、展示和解释数据的科学”的定义,难道这些算法建模不属于统计吗?实际上,在统计学的社区中,统计的定义是由各个统计系研究生课程的内容来确定的,是由统计期刊的文章范围来确定的。当然,统计系的课程目录是由受过传统统计训练的教授确定的,而统计期刊的内容是由该期刊的主编和编辑来决定的。在这种自我贴标签和自我约束下,过去统计界更多地聚焦在模型形式本身,而不是作为建模目的之所在的实际问题上。统计学也因此失去了活力、创造力和领地。上面所提到的统计的定义从来没有被完全当真。坚持数据模型的损害在于:统计学家把自己排除于有些最有意义和挑战性的统计问题之外,而许多有意义的结论最终由非统计学家来找到。

六、总 结

根据前面的分析,当前的统计要回到它的最初宗旨。统计最初是为解决实际问题而产生的,现在,统计学必须重新回到针对实际问题而与数据打交道,并且创造有关理论的传统上来。为了解决实际问题,必须毫无偏见地接受任何有效的建模方法[9]7-13。无论是数据模型、算法模型,还是它们的结合都可能很好地解决面对的问题。统计学家还需要与其他领域的科学家合作,共同工作。只有这样才能应对新问题所带来的挑战。

[1] Breiman L.Statistical Modeling:The Two Cultures[J].Statistical Science,2001(3).

[2] 陈希孺.数理统计学简史[M].长沙:湖南教育出版社,2002.

[3] Efron B.Comment on Breiman:Statistical Modeling:The Two Cultures[J].Statistical Science,2001(3).

[4] Bickel O,Ritov Y,Stoker T.Tailor-made Tests for Goodness of Fit for Semiparametric Hypotheses[J].The Annals of Statistics,2006,34(2).

[5] Mosteller F,Tukey J.Data Analysis and Regression[M].Massachusetts:Addison-Wesley,1977.

[6] Mountain D,Hsiao C.A Combined Structural and Flexible Functional Approach for Modelenery Substitution[J].Journal of the American Statistical Association,1989(84).

[7] Dudoit S,Fridlyand J,Speed T.Comparison of Discrimination Methods for the Classification of Tumors Using Gene Expression Data[J].Journal of the American Statistical Association,2002,97(457).

[8] Diaconis P,Efron B.Occam’s Two Razors:The Sharp and the Blunt[C]//Agrawai R,Stolovz P.In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining,California,Menlo Park:AAAI Press,Menlo Park,CA,1983.

[9] 吴喜之,马景义,吕晓玲,等.数据挖掘前沿问题[M].北京:中国统计出版社,2009.

The Challenge Encountered by Traditional Statistics

LIU Chao1a,b,WU Xi-zhi2

(a.School of Mathematics and Systems Science;b.LMIB of the Ministry of Education,1.Beihang University,Beijing 100191,China;2.School of Statistics,Renmin University of China,Beijing 100872,China)

Via Breiman’s concept of two kinds of statistical cultures,this paper aims at the black-box characteristicsof statistics,analyzing the challenges and crises encountered by traditional statisticsand the question of where is the future of statistics.Research results show that statistics must come back to its tradition that is to face real tasks dealing with data and to establish relevant theorems.Only in this way,we can deal with the challenges in the new era.

statistics;mathematics;data modeling;algorithmic modeling

(责任编辑:李 勤)

O212.1

A

1007-3116(2011)12-0010-05

2011-07-11

刘 超,男,湖北武汉人,经济学博士,讲师,硕士生导师,研究方向:应用统计学和数据挖掘;

吴喜之,男,广东肇庆人,教授,博士生导师,研究方向:统计诊断和贝叶斯统计。

【统计调查与分析】

猜你喜欢
建模算法方法
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
一种改进的整周模糊度去相关算法
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法