◇李 博
作为一门以识别因果关系和预测为目标的经济学领域的分支学科,计量经济学通过建立计量经济模型,或研究经济变量之间的关系;或对经济目标进行预测;或将经济目标做被解释变量,经济政策做解释变量,量化评估公共政策实施效果;或科学分析经济数据证伪或证实业已存在的经济理论,进而检验或发展经济理论。伴随经济学科学化过程,计量经济学逐渐渗透到经济领域的方方面面,成为分析经济问题普遍采用的工具。而中国经济正由高速增长逐渐转化为新常态,产业结构转型升级成为解决人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾的主要途径。面对世界性经济危机的潜在风险和国有企业居高不下的高杠杆和房地产泡沫等灰犀牛事件持续放大的国内经济系统性风险,建立计量经济学模型,科学、合理地运用计量经济学结构分析、预测、政策评价和检验、发展经济理论的应用功能,跟踪、分析和精准预判国内外经济发展趋势和经济金融风险,对各级政府出台的中、宏观经济政策进行科学评估和量化分析,对于防范国家系统性经济金融风险,提升政府治理能力,推进国家治理体系现代化,实现中国经济发展模式成功转轨具有重要意义。
与此同时,借助互联网的发展,人工智能的技术创新,大数据在世界范围内日渐与实体经济紧密结合,大数据技术在经济领域的应用日益广泛,其在描述性应用分析、预测性应用分析中都有不俗的表现。运用大数据技术,可以及时从企业客户或者商业用户大数据信息系统中收集并整理相关数据信息,进行可视化技术统计图表分析,帮助企业或商业客户更清晰地了解经营或销售现状,进而作出准确的判断和决策。运用大数据技术,还能收集、整理和分析传统计量经济学方法无法处理的数据,例如社交媒体用户发布帖子中的信息,进而对各种经济或社会问题进行研究或预测。当前,在国内外部分经济领域认识现状、预测未来和进行选择的过程中,大数据技术和计量经济学理论、方法及应用已经悄然融合,大数据及其技术正在发挥重要作用。为此,本文将以“融合”为切入点梳理计量经济学发展脉络,探讨大数据对于计量经济学发展的影响,在分析两者融合的现状、基础和存在的问题的基础上,探索计量经济学主动融合大数据的创新路径。
计量经济学的发展,本质上就是经济学理论、统计学和数学三者在计量经济学应用于经济领域过程中不断被质疑、不断实现科学融合的过程。在计量经济学独立肇始,计量经济学之父弗里希通过定义——“经验表明,统计学、经济理论和数学这三者对于真正了解现代经济生活的数量关系来说,都是必要的,但本身并非是充分条件。三者结合起来就是力量,这种结合便构成了计量经济学”[1]——指出计量经济学具有“融合”这一显著特征。Havvelmo[2]通过把随机性作为一条规律引入计量经济学模型,肯定了概率思想解释经济规律特有性质的必要性,奠定了数学、统计学与经济理论融合的理论基础,有力回答了凯恩斯对丁伯根用“回归”解释计量经济学估计结果合理性的质疑,搭建起凯恩斯宏观经济理论为导向的计量经济学研究基本框架。
20世纪70年代开始,面对计量经济模型预测结果与实证研究差距的不断扩大,计量经济学家们开始反思经济理论在指导建立计量经济模型过程中因果关系确立上的可信性问题,质疑计量经济学发展过程中变量间因果关系的推断行为,建立了计量经济模型数据关系导向原则。这一过程,本质上是计量经济学家面对现有经济理论与经济实践存在显著差异的条件下,通过在计量经济学研究中融入更为高深的数学理论,融合更为先进的数学或统计方法,用工具的先进性弱化或者消除理论缺陷对经济预测或政策评估的影响。例如,Black[3]和Pratt[4]在详尽分析回归检验中相关关系与因果关系区别的基础上,批判了由相关关系导出因果关系的行为,讨论了这种行为的可信性问题。Sims[5]建议使用约束条件更少的Var模型进行计量经济研究,目的是减弱或者消除由大型宏观计量经济模型外部条件不可靠引发的,建立在与现实脱节约束条件基础上的计量经济模型的政策性检验结论不可信问题。Leamer[6]提出进行模型敏感性检验来控制由模型假定及变量控制随意性引发的模型结论可靠性。
20世纪90年代以后,Hendry[7]提出现代经济学研究的基本假设前提:现实经济世界中存在着某种具有规律性的机制,这种机制是由经济主体的生产、消费、交易等行为构成,并进一步认为经济规律的某些规律性是可以测度的,并将这种可测机制部分称为数据生成过程(简称DGP)。这一假设是对过度重视数据关系,忽视经济理论指导建模方式的一种批判,其继承并拓展了弗里希和Havvelmo的观点,认为现实经济世界具有某种规律性,这种规律性可以通过经济数据显现出来。故此,计量经济学科发展中的融合,不仅仅要重视高深数学理论、先进统计方法的融合,更要重视发展经济理论,重视经济理论与计量经济学学科融合的问题。Hendry[8]早期提出的交替使用经济理论和数学关系,进而检验、检验、再检验的方法论,则为经济理论、数学关系和统计方法深度融合提供了坚实的方法论基础。李子奈[9]提出的先验经济理论指导经济主体动力关系学分析,数据统计分析检验经济主体动力学关系分析,进而根据经济主体的动力学关系设定总体模型的方法就已经尝试把经济理论、数学关系和统计方法在经济建模过程中融合在一起了。Cerulli[10]在强调充分了解公共政策实施的背景和内容的基础上,根据数据类型、变量是否可以观测,计量经济模型是否为结构性方程的标准构建了一整套计量经济学模型评估方法和公共政策评估内容之间相互匹配的指标体系,依据这样的指标体系,选择合适的计量经济学模型评估方法对相应的公共政策进行精准评估,其实质是经济理论、数学关系和统计方法深入融合的进一步拓展。
伴随经济理论、数学关系和统计工具融合的不断深入,计量经济学融合性特征日益凸显,已经搭建起彼此融合、相互渗透的现代计量经济学研究理论体系。首先,计量经济学的本质是利用观测到的经济数据研究、检验并掌握经济内在运行规律,经济数据质量的优劣、经济理论及约束条件是否与经济现实相符、采用的数学及统计分析工具是否科学、合理,决定了计量经济学实证研究结论的质量,三者之中任何一个出现瑕疵都会影响结论的准确性。其次,现代计量经济学构建的从现实经济世界到概率空间的映射实际上是建立在以统计学知识为基石的两大公理之上的:一是任何经济系统都可以看作是服从一定概率分布的随机过程;二是任何经济现象(数据)都可以看作是这个随机数据生成过程的实现。计量经济学研究的目的就是通过观测到的经济数据,利用概率或统计工具推知生成数据的经济系统的运行机制,进而分析或预测经济系统中条件变动带来的影响。再次,恒常性、偶然性因素即随机干扰项及其概率分布是客观经济现象不可或缺的组成部分,将其引入计量经济学总体模型,是经济理论与统计工具深度融合的一种外在表现,对其进行估计和检验,是保证计量经济学总体模型设定可靠性的重要来源,也是影响计量经济学研究结论科学性的重要因素之一。最后,因果推断和模型统计适切性是评价经济理论、数学关系、统计工具融合效果,判断计量经济学模型质量优劣、结论是否科学的两大支柱性指标。计量经济学模型构建的初衷一定是建立在经济实证研究诸多目标基础之上的,而经济研究目标中,因果关系的推断是首要目标。判断计量经济模型中变量之间是否存在因果关系,并识别因果关系的作用机制就成为评估融合效果及模型优劣的一个重要标准。计量经济学研究结论的科学性还取决于参数估计量统计性质是否良好,而参数估计量良好的统计性质又依赖于样本数据对模型初始设定的支持。判断样本数据是否支持模型初始设定的模型统计适切性也成为评估融合效果及模型优劣的一个重要标准。
计量经济学模型在现代经济学研究中具有强大的功能,在经济预测和公共政策评估中曾经有过骄人的成绩。不过,由于现实客观经济世界的发展已经超越了原有经济理论、数学关系和统计方法的范畴,三者融合不能完全克服计量经济学理论、方法和数据方面的缺陷,并且现代理论计量经济学应用虽日渐繁复,但其与计量经济学实证分析之间的缝隙反而存在日益扩大的趋势,故而,人们在下面几个方面质疑计量经济学研究的应用价值。首先,经济理论与计量理论、方法的脱节,前沿计量经济分析方法滥用的问题。自Lucas[11]质疑模型结构和结构模型不变以来,经济领域就存在经济理论研究滞后于计量方法研究的倾向。落后的经济理论无法合理解释现实经济问题,一方面导致经济理论与数学关系融合不合理,计量经济模型初始设定不严谨,甚至出现随意进行模型初始设定的现象;另一方面过于重视统计方法与数学关系融合的效果,故此,计量经济模型分析过程中更为重视先进计量方法的应用,运用前沿的计量经济方法分析复杂的计量经济模型成为计量经济学研究中的普遍现象,过度拟合使精准的预测评估变成了精确的预测评估。其次,经济研究中获得的经济数据质量不佳成为影响计量经济研究结论可靠性的重要因素。受数据采集工具、条件、人员、过程的限制,经济数据信息失真、缺失,以及经济数据具有时滞性是实际数据采集中经常遇到的问题。经济研究具有不可重复性的特殊规律,用于计量经济研究的经济数据绝大多数情况下是观测数据(实验主义经济学的兴起,微观领域中部分经济问题的研究能够通过实验获得经济数据),然而计量经济模型所依赖的经济理论是对复杂现实经济现象的简化抽象,观测到的经济数据是现实经济中所有因素共同作用的结果,尤其是观测过程中难免掺杂了诸多主客观的外来因素。经济模型之外的这些因素就构成了经济数据的“噪声”,不能有效降噪或者除噪常常导致经济数据质量不高,也容易使计量经济模型预测或评估失真。最后,建模过程中一些统计规律或经济运行规律的假设条件与实际情况存在较大差异也影响计量经济模型研究结论的可靠性。计量经济学模型建立的逻辑基础本质上是哲学上的认识的结构实在论,即人们的认知实际上是客体之间的关系与结构。计量经济学的目的或任务实质上就是通过对观测到的经济数据进行计量经济分析,从而发现经济变量之间的关系或结构。如前所述,利用不具有可重复性的经济数据进行计量经济学分析经常要求对经济系统做出平稳性、同质性或恒常性的假设,这与观测到的现实经济现象在很多时候存在显著差异。虽然,计量经济学家使用不少数学的、统计学的方法对这类问题进行处理,但是,处理之后的效果与实际结论之间依然存在这样或那样的差异,这也影响了计量经济学分析的准确性。
自20世纪80年代初,阿尔文·托夫勒把大数据赞誉为“第三次浪潮的华彩乐章”[12]以来,数据重要性日渐显现。互联网、大数据、人工智能等技术不断推陈出新,推动信息化进入新的发展阶段。大数据日益向社会的各个领域渗透,悄然改变着人们的生活、社会关系、经济运行方式和发展质量。资金、人才、物资在数据的引领下发生这样那样的组合变化,社会生产的组织方式缓慢而坚定地朝着数据引领的方向变革,不断催生互联网新业态、商业新模式。传统的生产方式和经济运行机制中生产、消费、流通方式等伴随网络化共享、集约化整合和协作化开发正在发生质的改变。人们对于世界的认识、人们的思维方式和经济活动内容都有了与传统迥异的差别。一方面,庞大的生产能力、巨大的消费市场、成熟的通讯体系积累了海量的数据资源;另一方面,电子商务、手机移动支付、电子金融、网络视频等大数据产业在发展过程中形成的产业链条背后的种类多样、数据丰富、内容完整的数据库也为大数据应用、大数据技术创新奠定了坚实的数据基础,大数据及其技术已经跨越技术范畴,成为生产要素的重要组成部分。以中国为例,2015年至2019年,国家层面出台大数据政策多达36项,省级政府也相继出台了约200项大数据相关政策,建成京津冀、贵州等八大国家级大数据综合实验区和其他省级大数据基地10余家。2019年国内大数据产业规模达到5386.2亿元,是2016年的1.9倍,产业覆盖数据服务、基础支撑和融合应用等全部大数据产业链,涵盖数字经济、数字政府和数字社会,大数据的触角已经遍及中国社会的各个角落。
大数据成为推动中国经济发展的新型驱动力,为重塑中国国家竞争优势提供了新机遇。学者们从哲学反思、经济学基础、统计学发展等角度对大数据应用进行研究。现有文献普遍认为,大数据通过改变信息和能源流动方式促进了世界经济的发展,具备人类历史进程中任何一次伟大技术变革的基本特征,其引发的经济发展方式的根本转变正深刻影响着经济研究方式及其内涵,引发经济学研究范式的转换。汪毅霖[13]比较分析了经济学预测与大数据预测各自的边界与缺陷,认为两者之间具有相辅相成、互相补充的效用。何大安[14]以数据思维对人类投资和消费行为的影响为例,分析了大数据思维改变人类思维特别是经济思维的作用机理。这些研究普遍认识到大数据对经济学发展的深刻影响,但全面、具体、深入探讨大数据与计量经济学融合的文献并不多见,本文基于“融合”这一计量经济学发展的显著特征,一方面深入分析探索计量经济学与大数据融合对于现代计量经济学发展的影响,另一方面以两者的融合为研究基石,探讨两者融合的突破方向与发展前景。
大数据时代,万物皆可数据化,数据的来源、种类、性质、价值和内涵的变化能够有效弥补有限数据缺陷,拓展计量经济学中统计工具应用空间,改善经济数据的使用效果。比如,得益于大数据及其技术的发展,数据来源、体量、构成等更加丰富多彩,统计学可以处理加工的材料——数据更加充足;大数据技术在处理数据过程中独有的方法和技术,可以弥补统计工具的不足,其思维方式、处理手段拓展了统计工具处理数据的空间,增强了统计工具处理数据的能力,统计工具作为计量经济学方法论的研究基础进一步扩大;大数据几何级数增长的海量数据,使计量经济学家可以在很多场景下直接用总体数据进行研究,建立在数据归纳思维基础上的计量经济学研究中探索客观经济世界的有效手段——统计工具,可以基于海量的整体性经济数据,挖掘、整理、分析出全部有效信息,对特定场景下的客观经济世界做全貌式描述和定位,进而对客观经济规律和经济变量之间的关系进行精准的预测和诠释。
大数据和计量经济学都具有收集、整理、分析数据,进而从数据中提取人们需要的信息和规律的特征。不过,计量经济学中普遍采用的源于统计学的抽样分析、样本估计推断总体特征的方法,是产生、发展和成熟于数据有限时代,颇具有限数据时代的烙印;而大数据技术源自数据几何级数爆炸的时期,其特征、研究方法具有海量数据研究的风格。两者的目的都是从数据中得到有用结论,而工作方式与实现途径迥异,但数据分析过程中思维模式的互补性要求两者相向而行。伴随人工智能、机器学习和统计推断等的深度融合,计量经济学家可以从数据中得到更多的信息,数据的使用效率会显著提升。大数据技术本质上是一种算法,是一种不依赖规则导向的程序设计,强调优化和性能。大数据中的机器学习在不对变量潜在关系进行先验假定的基础上,通过算法分析,输出潜在规律,进行预测、监督学习或非监督学习。统计学是一门关于抽样、统计和检验假设的科学,注重推导,以数据为基础,在给定数据收集方式、估计量的统计特征、研究对象的潜在分布规律等先验假设的前提下,利用数学方程式来探究变量之间的变化规律。两者关心的实际上是同一件事,即从收集的数据中得到变量之间的规律,不过,两者分析问题的角度存在很大的差异,大数据技术注重数据优化、拟合,统计学显然更关注变量之间的先验假设。数据收集不全或者从数据中挖掘的有效信息不足,统计学推断有效;而先验假设与客观事实相差较大,大数据的推断结论更科学。将算法之外的统计推断方法引入到大数据技术的程序设计之中,有目的地让两种分析方法融合,有助于扩大各自的知识面,弥合机器学习和统计推断之间的研究空白,逐渐使两者趋于归一化,提高发现变量之间潜在规律的准确率,降低过度拟合的风险。一些计量经济学家尝试把这两者结合起来进行计量经济学研究,例如Athey[15]运用机器学习的算法对数据分类、聚类,将其作为计量经济学应用研究的中间环节使用,已经取得了一定的成果。
经济学重点关注的是经济主体行为及其运行机制,传统计量经济学以先导的经济理论为指导,建立计量经济模型,利用观测到的经济数据对经济主体行为及运行机制进行推测,进而证实或证伪经济理论。云计算、互联网、大数据的发展使传统经济社会的资源配置模式、市场交易关系及企业内部管理的科层结构及治理方式逐渐被以网络购物、分享经济、移动支付、家庭办公等为代表的金融、商业、企业管理新模式所改造。在此基础上,以逻辑因果机制机理发现为目标,运用机器学习等穷尽变量之间关联性来预测经济主体行为的大数据技术对大量的、全部的数据进行合理挖掘、分析、利用,借助大数据全面性和实时性的特征及擅长发现微观层面事物间相关规律的优势,通过对微观和宏观经济之间关系全面准确的经验研究,证实或证伪一些现有的经济理论,例如拉弗曲线、菲利普斯曲线、内生性增长等理论,可以促进以因果关系为判断依据和准则来认知、分析客观世界的现代经济学理论实现突破和发展。
伴随大数据与经济现实的深度融合,计量经济学应用研究的经济理论基础已经出现显著性变化。部分大数据产业中,大数据已经从新技术体系中剥离出来,以数据服务、基础支撑的产业形式作为一种生产要素直接作用于产出。这类产业或立足海量的数据资源,或涵盖网络、存储等硬件基础设施、云计算平台及数据挖掘、处理等大数据技术,通过为市场提供数据挖掘、处理、分析等形式进行数据交易,对地区经济发展直接作出贡献。这类产业的生产要素、技术因素与传统产业存在明显差异,用传统的经济理论对其进行解释,必然会产生偏差。例如,传统生产函数常表示为Y=AKαLβ,其中Y表示产出,A表示技术,K和L分别表示资本和劳动,α和β分别表示资本和劳动的产出弹性。如果把数据从技术中剥离出来,这类产业生产函数就可以表示为Y=A,KαLβHγ,其中A,表示剥离数据之后的技术贡献,H表示数据,γ表示数据的产出弹性,其他参数经济涵义同上,这样的生产函数的表达方式是不是更符合其生产实际?
另一部分产业中,大数据技术借助融合应用的方式与政府、工业、农业、金融等实体经济深度融合,通过帮助实体经济提升业务效率、降低生产成本、合理配置资源、创新业态等形式以直接、渗透或替代效应推动经济发展。产业的经济运行机制、环境、内容与传统产业之间的差异更为突出,数据对于生产要素的影响更为复杂:是作为独立的生产要素对产出作出影响?是类似于催化剂,通过作用于资本、劳动或其他技术因素影响产出?是替代了某些生产要素的部分功能?还是由于大数据技术的使用提高了政府的治理能力,使经济环境更适宜于实体经济发展?抑或是这些因素同时发生作用?学界对此需要进行理论方面的深入探讨。显而易见的是,这种业态下的生产函数形式与传统的生产函数大相径庭。
大数据产业的发展及大数据擅长从微观层面观察事物之间联系的技术特征为近距离观测经济主体间关系和运行机制的变化提供了途径。通过这个途径,更容易发现经济学理论演绎推导过程中的缺陷,为传统经济理论发展提供新洞见,而大数据的即时性和全面性又为验证新理论、归纳新规律提供了便利,这种基于大数据及其产业的研究模式奠定了打通微观经济基础和宏观经济现实之间的逻辑枢纽。以上述生产函数为例,伴随数据在各种数据产业生产中作用的日益彰显,经济学家第一次有机会近距离观察到一种生产要素(数据)是如何从技术中剥离出来,又是通过何种方式影响生产主体,进而使原有的生产运行机制发生变化。计量经济学家可以运用传统的演绎推导方法建立关于生产函数的全部数据集,在此基础上借助大数据及其技术思考、验证传统演绎推导过程中是否存在问题,探寻数据与其他生产要素之间的关系,发现它们之间的潜在规律,进而对原有生产函数或者生产理论进行修正。而大数据的及时性和全面性,又使计量经济学家可以利用新生成的生产数据对修正后的理论进行再验证。大数据时代,逐渐兴起的大数据产业生产实践为进行上述研究提供了海量的研究素材,经济学家有更多机会发现传统生产理论的缺陷与不足,探寻以前不能发现的生产规律或影响因素,能够更全面地认识与发展生产函数理论。
这样的一个研究过程,一方面经济学家可以近距离的观察一种生产要素是如何逐渐对传统生产模式发生影响,最终改变原有的生产机制,有助于经济学家感性认知传统经济学思维模式,发现传统演绎推导方法的缺陷与谬误并进行修正;另一方面基于不同的大数据产业生产实践,完善推导宏观层面的大数据时代生产函数及其理论的过程,也为用经济数据归纳证明完善经济理论积累宏微观一体化研究经济问题的经验,最终实现对传统经济理论的发展与创新。
作为一门为人类经济生活服务的社会学科,经济学研究的中心问题是资源配置,其本质是实现约束条件下的最优化。大数据及其产业的发展,一方面会有效促进资源配置、经济主体行为、经济计划实现最优,即经济学本质并没有发生实质性变化;另一方面经济运行环境、运行机制,经济学研究中的思维模式、研究对象、内容和方法都发生了翻天覆地的变化。大数据与计量经济学的深度融合,有利于经济学家把演绎与归纳两种基本的经济研究方法统一于计量经济研究过程中;有利于把大数据思维融入传统经济研究思维模式中,全方位、多角度研究经济现象;有利于全面认知客观经济世界,发现经济规律。
首先,大数据与计量经济学的深度融合有利于重新认识演绎法和归纳法各自在计量经济学应用研究中的地位和作用,把归纳法和演绎法统一于计量经济研究当中,以抽象演绎选择经济数据,以经济数据的经验归纳反证演绎结论,两者相辅相成,在改善经济数据的应用效果基础上,提高经济研究的精度。计量经济学发展本身就是一部演绎法和归纳法相互补充、相互制约的学科发展史。计量经济学应用研究过程中,一方面借助逻辑推导,形成经济理论,视经济系统为服从一定概率分布的随机过程,进而以此为基础建立计量经济模型,提出约束条件,这是抽象演绎法主导的环节;另一方面消除、降低各种各样不可控偶然因素的影响,基于概率论思想,利用实际经济数据检验经济理论是不是具有一般性,这是经验归纳法发生作用的阶段。演绎和归纳两种方法彼此纠缠,共同推进计量经济学向前发展,任何一种方法出现偏差都会抑制计量经济学的发展空间。演绎出现问题,即使经济数据再正确、检验手段再科学,也无法得到正确的经济理论和正确的预测;归纳有了偏差,不管是数据出现问题,还是检验工具出现缺陷,对理论的判断也与事实相去甚远。一方面,大数据的整体性、完备性和有效性使建立在归纳法基础上的大数据分析更容易对计量经济学应用研究演绎阶段理论正确与否作出判断;另一方面,大数据研究方法对于数据的重视性,也容易导致在计量经济学应用研究中过于重视归纳法,而忽视演绎法的作用,其直观表现,就是重视相关性,忽视因果关系。计量经济学与大数据的融合可以协调相关性与因果性的关系,合理、科学、有效地使用演绎与归纳这两种研究方法,借助于大数据技术实现经济数据除噪、降噪,通过改善经济数据的应用效果,来提升经济研究的精度。
其次,大数据思维方式日渐融入经济学研究思维模式之中,计量经济学家可以全方位、多角度研究经济问题,而且伴随更为丰富的信息从经济数据中剥离,经济研究效果也会显著提高。何大安[14]以理性选择理论为例,说明现代经济学对效用函数的描述和论证不是依据数据分析,而是一种通过理论预设、判断和推理得出的因果思维模式。传统计量经济学分析是现代经济学研究的拓展,其思维模式并没有本质意义上的变化。这种研究方法主要是从经济主体的动机、偏好、效用等心理因素展开,比如亚当·斯密首先提出的“经济人”假设就是源于人的动机,基于传统经济理论建立的结构计量经济模型的理论基础本质上也是如此,其研究的逻辑起点是经济活动中的人,准确地说是人的欲望、动机、需要。在此基础上,计量经济学凭借抽象思维建立模型,进而借助统计学抽样分析,假设检验的方法,用样本来还原总体,使模型尽量逼近经济现实。从其实际应用效果来看,当其用于分析的信息(计量经济学分析用的信息主要是观测或实验获得的经济数据)与经济现实及约束条件接近或相符,也可以认为分析的起点近似于完全信息时,其应用结论就精准,反之就谬之千里,被人们诟病。
大数据思维的研究起点不再是传统经济学中的直接研究对象——经济主体(人),而是经济行为的后果,是信息的载体——数据。现实经济运行过程中,不论是“原因”方面,还是“结果”方面,总会以数据的形式留下信息。大数据体量大、多样性、及时性的特征可以在很短时间内收集到这两方面完备的、类型多样的、动态的数据,利用大数据中云计算、机器学习等工具、方法,通过建立很多个简单模型,对数据进行整合、分类和加工,优化和设定相应参数,进而探寻数据间的相关性。例如,崔俊富等[16]就以机器学习中的随机森林法对中国经济增长的影响因素进行了研究。其以中国国内生产总值、消费、投资及净出口增长率等数据组成经济增长数据集,构建以训练集为基础,重复建立彼此独立决策树的算法,由算法分析数据得出分类结果,认为影响中国经济增长的因素依次为投资、消费和出口。相较于传统计量经济学研究方法,这种方法获得的数据接近总体数据,在现有技术条件下,可以认为是或接近完全信息;对不同维度数据通过算法挖掘、整合,可以消除或降低有效信息之外的噪音,而依赖于规则导向程序设计的算法运用避免了研究者的推测和主观判断,故此,研究结论和预测精准性远优于传统计量经济方法。
传统计量经济学研究受限于数据量,无法获得足够多的有效信息,其思维模式以经济运行主体(人)的心理因素为起点,通过演绎推导,形成先验理论,数据的作用是辅助的,是用来验证推导是否正确、理论是否科学的工具。大数据时代,得益于数据的爆炸性增长,大数据思维方式是以经济运行的痕迹(数据)入手,通过机器学习、云计算对海量数据进行挖掘、分类、整合、归纳,对不同维度数据之间的相关性进行分析,输出因素间的潜在规律,进而对未来经济现象进行解释、预测,数据是主角。数据在两种研究过程中的不同作用源于数据的动态性。传统计量经济学分析以历史数据检验理论、预测将来,实际上隐含着人的偏好、动机等心理因素不发生改变的假设前提。大数据技术能够获得并分析处理即时数据,大数据的分析方式能够捕捉到人们行为、思想随时发生变化的信息。运用大数据技术可以验证经济学主体(人)的偏好、动机等心理因素是否发生改变,甚至随着大数据技术的发展,大数据算法能够准确预测未来流数据信息,通过分析这些数据能够全方位、多角度认识客观经济现象,也能够对经济变化作出更加精准的分析和预测。
最后,大数据技术和计量经济学的传统方法对于经济学研究对象的关注点截然不同,互为补充,两者的融合有利于更加全面地认识现实经济世界。大数据技术就像显微镜,侧重于从极细小的微观层面去观察事物之间的联系;计量经济学的传统方法则像滤镜,是对客观现实世界的简化,通过设定特定先验概率分布的方式滤掉不重要或观测不到的因素,专注于构建数学模型分析若干重要因素之间的因果关系。大数据的成果当前主要集中在商业领域,特别是营销领域,借助其对微观个体的准确定位和行为状态识别,可以对微观个体行为进行精准预测。以建立在大数定律和中心极限定理之上的科学抽样方法为研究基础,计量经济学更适合利用宏观总量特征对社会经济问题进行解析。打通微观基础和宏观现实之间的逻辑关联,建立微观、宏观一体化研究的传导机制才能更加全面地分析、认识现实经济世界。大数据技术通过提升数据收集的深度和维度使数据逼近总体,计量经济学家第一次可以从全局和动态演化的视角观察经济问题,而大数据技术对微观个体深入到细胞层面的行为状态的信息收集和识别,也使计量经济学家有机会从已经滤掉的不重要或观测不到的因素中,注意到迄今为止尚未发现的规律性,进而发现某些具有普遍性的经济特征。当然,这种发现一定是建立在基于因果关系探寻事物作用机理的传统研究体系基础上的,可以理解为借助于大数据理论基础和技术构架,对建立在主观判断或科学抽样基础上的假设检验、参数估计等量化描述的一系列统计学方法体系的重构。正是这种融合了大数据技术和计量经济学方法的重构,可以突破传统计量经济学量化技术的限制,打通微观经济基础和宏观经济现实之间的信息壁垒,建立起一条从微观到宏观的信息传导机制,实现宏微观一体化研究的新局面。
诺贝尔经济学奖获得者弗里德曼曾经说过:“经济学的最终目的,是要提出一种‘理论’或‘假说’,能对未来做出预测。”[17]作为经济学重要研究内容之一——经济预测是建立在逻辑演绎推导基础上的,其准确性取决于两个条件:一是逻辑推导没有错误,即提出的理论或者假说的大前提是正确的;二是经济理论的约束条件在预测区间内是稳定的。实践证明,即使大前提再正确,若约束条件发生变化,经济学的预测结论也会不准确。
大数据预测的核心是数据,是让数据说话而非数据为理论服务[13],其核心思想是借助大数据构造数据集,寻找一个具有最高拟合优度的函数形式,使得预测结果与实际结果之间的平均损失达到最小值。这种预测不需要知道变量之间的相互作用,因此对理论、假说和约束条件没有要求;也不需要知道具体的函数形式,因此不需要预先设定参数的统计分布;预测准确性,主要取决于算法的误差。以随机森林法为例,在以数据构成的训练集生成彼此独立树的过程中,树的分类精度越高,相关性越小,误差越小,预测效果就越好。随机森林法中生成树的过程,类似于传统计量经济学中为了提高预测效果,在计量经济模型中引入解释变量的交互项,其与其他解释变量或其他交互项的相关性越弱,对于模型预测效果的改进效果越好。而大数据技术的优势在于,它可以自动搜寻符合预测要求的交互项,即满足随机森林中树与树之间的独立性,故此,相比于传统计量经济学预测而言,大数据预测技术具有自身独特的优势。
传统计量经济学预测失败主要在于经济理论的约束条件在预测区间发生变化,而大数据预测由于只关注变量之间的相关性,在经济理论的约束条件发生变化的前提下,大数据海量性和即时性的特征能够借助机器学习等技术上的算法优势,把经济数据中包含的约束性条件变化信息在预测过程中充分利用,故此,其在预测领域确实存在一定程度的优势。然而,正是由于大数据预测是建立在只关注变量相关性这样一个哲学基础上的过程,其逻辑天生具有缺陷,其预测可能存在如下局限性:
首先,大数据样本外预测效果不见得优于传统计量经济预测。大数据用相关分析取代因果关系,预测不受先验理论的约束,其算法模型可以有充分的自由去探寻数据间潜在的规律性,故此,能够捕捉到经济理论约束条件变化的充分信息,这种预测方法预测准确的基础在于预测过程中不出现反例,一旦有反例出现,其预测的失败是显而易见的。因此,研究者普遍认为大数据预测在样本内具有优良的预测效果,但是样本外预测能力颇受质疑,很多情况下个体的大数据样本外预测效果存在有偏性。大数据样本外预测效果有偏的主要原因在于反例出现,其统计实质是产生了过度拟合。当经济理论约束条件变化时,不同样本区间内经济变量之间规律性是不一样的,即存在两个简单模型。传统计量经济预测是用一个简单模型预测两个模型;大数据预测则是在充分利用经济理论约束条件变化的信息,追求样本内最高拟合优度的函数形式的过程中,追踪每一个边缘数据信息,建立一个极为复杂的函数去逼近这两个原本很简单的函数。这样做的结果是在样本内其预测效果明显优于计量经济预测,样本外预测效果并不见得比计量经济预测好多少。
其次,建立在全数据基础上的大数据预测也存在误差,其稳定性有待验证。如前所述,大数据的预测基础是一定场景下的总体数据,鉴于大数据收集动态性与不确定性,其预测也需要克服数据的误差性,尤其需要检验其稳定性,即是否能保证在某一个特定总体场景中准确预测的模型在另一个总体场景中良好运行,大数据技术中常用领域适应或转移学习等概念和方法讨论这一问题。例如,具有相关性的X和Y,在一定的样本区间内总是同时出现,则大数据算法可以通过观测X预测Y,但当X单独存在于某一特定总体场景时,用X预测Y就不可避免地出现失败。实际应用中,经常使用即时更新的数据进行预测的大数据预测模型在预测短期行为时,预测精度能够保证;对于使用一定区间的数据预测长期行为时,其预测精度就很难保证了。
最后,大数据预测中不可避免地存在人为影响因素。理论上讲大数据预测能够避免研究者的主观行为的影响,但实际操作中,人为影响因素不可避免。很多大数据预测方法中会通过数据挖掘的方式来收集有效信息。所谓数据挖掘实质上就是通过设定关键词,从海量的数据资料中寻找有效的数据信息,而设定关键词不可避免地包含研究者的主观先验成分,特别是在某些特定场景中,刷单或灌票这样的人为操纵现象会进一步影响预测的准确性。
大数据预测与传统计量经济学预测,一个以数据为出发点,一个更关注理论的先验性,这种方法论上的本质差别衍生出两者不同的建模思路,其预测的功能定位、前提假设以及因果分析还是相关分析的区隔也由此而生,这种区隔并不是相互排斥,而是互为补充。在对经济发展趋势预测和公共政策效果评估中,如果能把两种预测方式有机融合在一起,伴随经济理论的发展和经济数据的极大丰富,可以预见计量经济学的应用水平和预测效果会有显著提升。一方面,计量经济学的方法和技术可以在先验主观成分、数据筛选和降噪以及探究变量之间因果关系领域给予大数据预测指导;另一方面,大数据方法与技术能够在发展、完善经济理论、确认经济理论约束条件及其变化状况方面为计量经济学应用研究提供帮助,进而改善经济学预测或政策评估效果。这两种方法论近乎相左的预测方法与技术的融合,在借助大数据技术和方法擅长发现微观层面事物之间的联系和规律的优势基础上,对传统计量经济模型中因果链条进行检验和改进,进而完善和发展传统经济理论,创新大数据统计推断方法论,彼此弥补各自的缺陷和不足,建立沟通微观经济基础和宏观经济现实之间的逻辑联系,最终能够为研究者构建基于人类真实经济主体行为的计量经济模型、认识真实的客观经济世界提供一种全新的路径。
探求事物之间的因果关系是哲学、自然科学和社会科学等众多研究所追求的终极目标,[18]经济学亦不例外。时至今日,尚没有有效的工具能够直接观测到因果关系。计量经济学中常用处理效应模型进行因果推断,进而判断因果关系,其具体做法是对不同个体进行不同水平处理互为反事实,然后比较不同个体所有估计量之间的关系,进而判断是否具有因果关系,主要研究方法包括匹配法、工具变量法和断点回归法。匹配法是在无干扰假设条件下,在控制所有可观测干扰因素的基础上对个体匹配,通过识别特征相似而又接受了不同处理的个体之间的平均差异估计平均处理效应,实现因果推断。如果无干扰假设难以成立,即存在大量与结果变量相关的协变量,估计结果就具有有偏性。为此,要寻找与结果变量独立又与处理变量(如政策变量)高度相关的工具变量来协助估计因果效应,这种方法称之为工具变量法。如果存在“强制变量”,即假设接受离散处理的激励或者能力具有一个不连续断点(临界值),其两端个体具有相似性,在施加某种干预性因素后,识别并比较断点两边的平均差异,实现因果推断的方法就是断点回归法。传统统计学或者计量经济学方法在无干扰条件下,使用匹配法进行因果推断时,效果显著,比如生物或者医药领域,通过实验的方法比较实验组与参照组之间药物或者手术效果。而实验组存在内生性,无干扰假设条件无法保证,或研究政策效应的异质性时,传统计量经济学研究方法得到的因果推断的结论要么识别率不高,要么稳定性较差。
非干扰假设条件下,只有控制住重要的协变量,才能满足随机处理分配的条件,减弱或者消除平均处理效应的偏差。Belloni等[19]采用机器学习中正则化回归的方法筛选对结果变量有潜在影响的重要协变量,其算法的实质是在最小化残差平方和的计算中加入一个惩罚项,伴随惩罚项系数的增加,不重要的协变量的系数会缩减为零,在这个基础上使用工具变量法进行因果推断,可以得到效果更好的结果变量的预测值。也有学者用双重机器学习的算法估计非干扰假设条件下平均处理效应,但实证效果还有待进一步论证。
运用大数据技术研究处理效应的异质性也是当前经济学家关注的领域。比如一项关乎社会福利或者平等性政策的实施,人们除了关心其平均处理效应(即关心结果变量分布中段人群的感受)之外,结果变量首尾段人群的感受与中段人群感受的差异也是研究者越来越重视的领域。计量经济学家通常计算政策的分位数/分布处理效应来研究这一问题。传统计量经济学中更多的是从解释变量无条件分布变化对被解释变量无条件分布的影响进行研究,计算分位数/分布处理效应。比如Powell[20]通过矩估计的方法来估计无条件或条件分位数处理效应。这类估计方法适用于协变量数量较少的情况,如果面对大量的协变量,其研究结论存在失效的可能。
大数据技术目前还不断被用于因果推断中断点回归、双重差分和结构模型。断点回归中两端个体通常需要彼此互为反事实,此时,大数据技术很多关于预测的方法,比如回归树、随机森林法、梯度提升树或正则回归法等都可以用于估计反事实结果,在海量数据支撑的保障下,机器学习的各种方法建立在预测上的优势可以确保断点回归估计结果更为精确。大数据技术在双重差分法中的使用一方面可以筛选出重要的协变量,另一方面与合成控制法结合,能够创造出一个与处理组最为相似的控制组单元组合,在进行因果效应评估时,能够更有效地利用控制组单元信息,显著提高政策评估的精确性。黄乃静等[21]用上述方法重新评估德国统一对西德经济的影响时,取得了较为令人满意的效果。计量经济学中的结构模型是建立在经济主体之间因果关系基础上的,从经济主体行为出发,通过结构模型,研究者可以分析经济运行机制,特别是公共政策的传导机制。当观测数据缺失或数量较少时,使用机器学习方法可以用若干个低秩矩阵逼近无法估计的复杂矩阵,一定程度上减弱数据的限制,改进结构模型的估计效率。
综上所述,因果推断是大数据技术应用最为广泛的领域之一,在控制大量协变量满足无干扰假设条件,以较好的预测结果得到反事实状态,研究政策的异质性等方面,大数据技术与传统计量经济学方法之间的融合已经取得了一系列的成果。借助机器学习的帮助,研究者可以避免使用不必要的函数形式、模型假设来增加政策分析研究的可信度;借助无监督机器学习在聚类分析中的优势,可以把收集到的数据集中具有相似特征的数据归类并进行网络链接分析,成为实证分析的一个重要环节;借助因果森林、回归树等方法,可以提高因果效应估计的精确性。未来,随着大数据技术的发展,机器学习、人工智能对于因果推断领域的意义将不仅仅限于提供新的研究方法和新的数据,帮助经济学家实现理论突破、发现新问题、进军新领域将成为大数据技术与计量经济学方法深度融合的方向。例如不需要理论假设不同人群的偏好,借助聚类分析识别大数据体现的不同人群的偏好结构,经济学家基于这种精准的偏好结构修正原有的偏好理论进行演绎推导,实现理论突破,继而依据新的理论把人类自然约束融入传统结构模型中,使结构模型尽可能逼近真实经济情况,进而为研究者认识客观经济世界开辟出一个新的天地。
现代经济学是以因果关系作为判断依据和准则来认知、分析客观世界的,为了研究方便,经济学家对其研究起点给出了一系列的假设前提,例如,约翰·穆勒就把亚当·斯密提出的“经济人”进一步定义为理性、自私和谋求利益最大化的生物,建立在这个基础上的效用最大化或利润最大化动机就上升为经济学的一般规律法则。又如,计量经济学中,在给定解释变量的前提下,若预期结果与真实结果不符,就把两者之间的偏差归因为偶然性因素的作用。现代计量经济学研究的基石正是Havvelmo[2]假设这种偶然性因素服从某种特定概率分布这一假设前提。基于这样一种思维模式,经济学家们提出了一个又一个的假设命题探索客观世界经济主体之间的关系及其运行机制,而计量经济学家则以这些假设命题为先验理论及约束条件建立了一个又一个计量模型,试图通过历史的经济数据来证实或者证伪这些命题。
大数据及其技术的发展可以放宽经济学理论的一些假设条件,使经济理论更接近客观经济世界,一些过去无法涉及的研究领域正在进入经济学家的视野。伴随数据收集手段多样、收集频率密集,尚未发现的经济变量之间的规律性日益显现,大数据时代经济数据时变性、非线性和非平稳性特征愈加明显。这些海量的经济数据使经济学家有机会观察到比原来更加真实的客观经济世界,认识更加复杂的经济变量之间的关系及其运行机制。例如,当经济数据具有时变性和非线性特征时,一定区间内不变结构的假设就失效,经济学家就有必要确定经济数据是渐近式结构还是突变式结构,继而确定不同时变结构性条件下的假设条件,进而发展出新的更具有普遍意义的非平稳时间序列模型来刻画、预测宏观经济现象的动态特征和走势。Rodrigues和Salish[22]提出的区间门限模型或Sun等[23]提出的时变模型就使经济学家过去没有关注的领域进入当前研究的视野。又如,在大数据推动下,经济数据的社会网络和空间相关性越来越强,即同一变量的不同样本之间也普遍存在依赖关系[24]。利用空间相关性研究国家之间的贸易关系,就有必要在考虑国家互动关系的基础上建立国家之间的贸易网络结构,对类似重力模型的传统经济贸易理论进行相应修正。
数据多元化和网络性需要重新认识网络生态环境下的经济和金融理论。数据多元化是传统结构化数据形式的多元化,建立在区间数据、符号数据和函数数据等包含更丰富信息的数据材料基础上的经济学理论显然包含更多传统经济学中忽视的因素。例如,使用区间数据预测经济发展趋势或评估政府公共政策时,由于区间数据比传统定量数据能够容纳更多更全面的有效信息,计量经济模型中应该容纳或者包涵更多的不确定因素的影响,这些不确定影响因素中哪些是恒常的,哪些是偶然的,哪些因素涵盖未发现的规律性,需要经济学家对传统的经济理论再认识。数据多元化还是数据形式的多元化,文本数据、音频数据等异构数据在网络生态环境下催生经济主体行为新特征,需要经济学家对传统经济学理论重新审视。例如,建立在传统心理动机基础上的微观计量经济学模型,受传统经济分析思维模式及个人、家庭等传统微观经济数据局限性的影响,这类模型的实际应用效果并不理想。伴随以互联网为基础的海量个人行为数据的产生及大数据技术的应用和创新,有望基于以上数据对以个人或家庭为主体的微观主体经济行为及他们之间的关系进行全方位、多角度的扫描和定位,发现一些传统经济分析下未注意到的个人行为影响因素、规律或网络生态环境下经济行为的新特征,例如,反应时间对于经济主体决策的影响,社交群体尤其是网络社交群体对于微观经济主体行为的影响。
特别是,大数据的发展使金融体系网络化特征日益明显,互联网金融的发展,在对传统的金融运行模式产生重大影响同时,也使金融体系风险传导机制发生相应异化,金融机构异变为金融网络节点,金融机构间诸多关系,如资产负债关系、存贷款关系等等异变为金融网络主体之间的链条,金融体系正在演变成类似于神经网络的系统,基于网络视角对金融主体之间关系和运行机制进行再认识,刻画大数据时代金融系统内在关联,需要对传统金融理论修正和重构。