文/高洁琳,厦门大学
伴随科学技术的日新月异,尤其是网络技术的快速发展,社会中的数据积累越来越多,造成了大量的数据信息,我们称之为“大数据”。如今,数据存在于各行各业的每一个领域中,是生活生产的一个重要因素。针对大数据的使用和发掘,也昭示着又一轮的生产力增长和消费富余潮流的到来。
总结目前已有的宏观经济的预测分析的理论、方法和使用现状,宏观经济预测模式主要有两种:由理论来驱动的构造形态和由数据来驱动的时序形态。
由理论来驱动的构造模式,是以宏观经济的理论为基础来组建数理去分析的模型。之后“系统化”,构成经济计量的形态,使用统计的数据来进行参考数据的估计,用来解析宏观经济之间变化的数量关系,并对其变量进行预测,而其中就包括布鲁金斯模型、可计算一般均衡模型、极限边界分析模型、随机动态一般均衡模型等等。这些模型的计算过程比较复杂多样,但解析和预测范围较广,拥有较好的经济了解性。
以布鲁金斯模型为例,该模型是反映美国经济的大型经济计量模型。是由布鲁金斯研究所在60年代初所研制的。其模型不仅包括了176个内生变量,89个外生变量。它主要是在经济增长的结构以及经济增长结构的解析和政策评价中应用。模型是以1949-1960年季节调整的季度资料预估的,其资料大约含有60个观测值。就是利用这种小型的样本来预估大的样本模式的方式,凭靠分块的递归结构来进行,也就是把模型分解成相互有影响的几个板块,对主要板块的每个方程式进行估计,然后对整个模型重新预估时,再衡量各个板块之间的相互影响。庞大的模型包含了劳动、社会经济、就业、失业、生产、薪资等各个领域。
由数据来驱动的时序形态指的是不依靠其它经济理论,而单纯的去依靠各种数据的规律去进行建造模型。包含自回归移动平均模型、扩散指数法、灰色预测法、指数平滑法、结构向量自回归模型、移动平均法、自回归条件异方差模型全球向量自回归模型等。这种模型并不强调内有经济理论的逻辑方式,其更多的是注意变量自身的转变特点和在时间上的延展性,并且利用这样的数据内有变化来预测未来。以扩散指数法为例,扩散指数法是根据一批领先经济指标的升降变化,计算出上升指标的扩散指数,以扩散指数为依据来判断未来的经济景气情况的预测方法。利用一组经济指标进行综合考察,避免仅依靠个别领先指标作出判断预测的弊端。进而建立一套能够全面、及时、准确地反映监测预警对象发展变化整体状态的指标体系。例如:利用扩散指数法测算邮政业务的发展,统计时间序列因素,来分析预测邮政业务的经济发展的波动变化。
传统宏观的经济预测方式,历经发展、改革和创新,已经达到相对完备,无论是数据驱动模式还是理论驱动模式,在宏观的经济预测发展范围内都发挥着至关重要的作用。而也正是因此,这两种模式都还在依靠经济系统内在规律的延展性。目前宏观经济的预测模式使用有效性是经由历史的数据去发现经济的运行规律,通过历史的数据规律去预测经济未来的发展情况。
经济的运行规律在短暂时间内产生变化的可能很小,但随着时间的增长,与原来的经济运行发展规律产生变化的可能性会越来越大。所以,已有的宏观经济预测模型的效用更依赖于使用的数据是不是足够准确。而这也是宏观经济是否会产生误差的重要原因,是传统宏观经济预测中的根本问题。
传统数据中主要有以下几个方面的问题。
1.2.1 获取数据的成本较高
以往的数据在收集的过程中是比较繁琐的,它需要投入大量的时间、经历、耗费人力、物力,获取数据的成本相对来说是比较高的。
1.2.2 不及时
一般来讲,由于宏观统计在获取过程中较复杂,而且要在经济的运行发生之后,再经过各个部门的收纳汇总,才会形成,因此宏观统计的数据需要的时间比较长,一般都会延后一个季度的数据,更甚至会延后一年,因此很不及时。
1.2.3 统计会出现误差
由于数据是人为的搜集、获取和汇总,时间较长,人为参与度较大,其过程也比较繁复,因此,很难保证在整个数据的形成中会完全精准。而这也正是导致预测出现误差的一个不可缺少的原因。
1.2.4 抽样式调查
由于统计样本较多,所以统计的难度和成本也会增加,因此,会使统计样本与统计成本达到一个平衡。例如:居民消费能力的统计,采用的就是抽样调查的方式,依据“定区域、定时、定人”的原则,直接去抽查采集最原始的数据。
1.2.5 微观不精
目前已有的宏观经济指标都是整体性的指标,例如:消费者物价指数,包含了衣、食、住、行、医疗、教育、娱乐、服务等各个方面,几百个分类的商品和价格,但是,这种整体性数据指标,却很难分类到具体行业指标。例如:想要了解长白山烟草的价格指标,就无法得知。
也正是因为传统的数据存在的问题,致使宏观经济在预测过程中很难达到有时效性,是目前传统数据分析中一直存在的问题。
在经济领域中使用“大数据”,需要确定其概念和特征,清晰其与传统宏观经济的差别,这样才能精确的掌握分析方向。虽然大数据的具体概念仍然没有构成一致的观点,但却可以从专家以及学者的定义中找到其规律。
2011年,DougLaney提出了“3V”模型,并在此基础上,提出了新的特性,整体构成了“4 V”特征,认为大数据是具有规模性、高速性、多样性、价值性的。而国内的部分学者也对其有所定义。李国杰等人论述了大数据现有的状态以及其意义。阐明了大数据目前所面对的难题和挑战,聚焦大数据查阅、分析的技术,对大数据的定义进行解析以及其所需的几个重要特点。
综上对“大数据”的阐述和定义,能被称为“大数据”的具有以下特点:
2.1.1 数据量很大
以往的数据量大多在KB、MB,而大数据信息量则在GB以上,甚至是TB、PB、EB。
2.1.2 以往的计算机无法分析处理大量的工作。
传统的计算力有限,面临大量的数据,无法承受分析处理大量的计算工作。
2.1.3 数据信息多、广
大数据的信息涉及较多、较广,包含了音频、视频、文字、图片、网络搜集等等。
2.1.4 可用价值低
由于数据庞杂,因此也会有一些无用、无帮助的数据,它是不能被称为“大数据”的,有价值的“大数据”是指能够提供精准的数据。但是因为数据量较大,个体能够被提供的数据价值就会被降低,所以只能从海量数据中提取有价值的完整的信息。
在当今时代,大数据以互联网为依托,显示出了它独有的优势。
2.2.1 时效性
由于互联网累计的数据会直接存储至网络中,所有交易、价格等发生时,都会在网络中留下痕迹,通过一定的技术可以被提取出来,用作分析和处理相关问题,因此解决了传统数据提取中的滞后性问题。
2.2.2 精确性。
网络数据直接存留,没有人为的参与和加工处理,而更加精准。
2.2.3 成本相对较低
网络数据产生时,会自动保存记录下来,不需要大量的人力搜集,使用技术可直接提取整理,大大的减少了成本的投入和人力的输出。
2.2.4 样本量大
大数据通过互联网可以获取80%—100%的样本信息,而不需要通过抽取样本的方法来获取信息,推断总体数据信息。这样一来,可用的样本量是巨大的,并且能无限接近样本总体,能够获得更精准、更全面的信息。
目前,国内外部分学者在根据大数据优势突破传统经济的宏观预测问题方面做了很多尝试。例如:研究社会消费问题的数据,它是用来测算美国个人的消费指标,经过比对传统的数据为标准和含有Google Insights指标测算美国个人消费的增长,加入大数据模式后能够提高到二十个百分比的精确率。Penna and Huang 也通过用Google搜索方式,对众多的语句进行,来组建美国的消费者个人的SBI,这款数据反应及时,同样可以预测常用消费者的信心指数,SBI明显比常用消费者的信心指数更有优势,它能够提供更加稳健、更加独立的信息。
本文通过对当今社会宏观经济预测解析的现实状况,在确定“大数据”概念特征的前提下,通过宏观经济预测中对比“大数据”与传统统计数据的优势,指出了其在理论和使用过程中呈现的问题和缺陷,包含数据样本来源少、不精确、数据海量、人力不足、成本较大等方面的问题,也点出了“大数据”在传统基础上,突破局限,各方面逐渐完善的优势,彰显了五大优势:成本低、及时、准确、细化到颗粒和样本量巨大。目前,“大数据”已经被专家和学者们广泛地用到了宏观的经济预测分析中,但还需继续进行拓展,而这也是“大数据”在未来宏观经济预测中发展的重要方向。