中国人民银行昆明中心支行货币金银处课题组
诚如大数据专家舍恩伯格所说,大数据开启了一次重大的时代转型。我们正身处转型之中:借助互联网公司庞大的数据库,我们可以在网上得到个性化的定制服务,可以使用强大的翻译引擎“无缝”地理解不同语言的文本;对于某个感兴趣的话题,我们能够迅速获取更详尽的描述和更精准的分析——在“大数据”的技术基础和思维模式蓬勃发展的今天,一个高效率的、令人信服的思维范式就是,让数据自己“说话”。生活、工作和思维,可以说,“大数据”正在重新塑造这个世界的方方面面。作为一项与数据、经济运转密不可分的社会职能部门,如何迅速接纳大数据的思维模式和工作方法以适应科学化、精细化管理的要求,也许是未来货币金银工作的重要课题之一。
那么,在大数据时代,货币金银工作会迎来怎样的机遇与挑战呢?
一、大数据的定义以及大数据时代的特征
大数据,顾名思义就是海量的数据。最初特指互联网公司大规模获取数据和相应发展出来的处理数据的手段。近年来,随着大数据在社会各个领域渗透,其适用语境已经悄然发生了改变。在本文中,我们采用大数据的另一种外延更广、更为大众所接受的定义:大数据是人们在大规模数据的基础上可以做到的事情,而这些事情是在小规模数据的基础上是无法完成的。举一个例子:舍恩伯格在他的《大数据时代》中提到,2009年,谷歌公司把5000万条美国人最频繁检索的词条(如“哪些是治疗咳嗽和发热的药物”)和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,旨在寻找特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。谷歌公司发现了45条检索词条的组合,将其用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。实践证明,谷歌公司可以准确判断出流感是从哪里传播出来,并且它的判断更及时,不存在疾控中心通常意义上的信息滞后。通过掌握和使用大数据,谷歌公司实现了在“小数据时代”无法想像的精准预测。
大数据的核心是预测,而预测的基础则在于对信息的分析。大数据对时代的重新定义就体现在我们对信息分析方式的转变,即:
一是在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。与局限在小数据范围相比,使用大数据带来了更高的精确性,也让我们看到了一些以前无法发现的细节信息。
二是研究数据如此之多,以至于我们不再热衷于追求精确度。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可——适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。
三是在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系。我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声,我们会注意到很多以前从来没有意识到的联系的存在。
以上转变正契合了货币金银工作科学化、精细化的发展要求。接受、吸收,把大数据时代的思维模板和技术手段为我所用,无疑会极大提高货币金银工作在量化管理、趋势预测等方面的水平——这是一次机遇,同时也是挑战。如何抓住机遇、迎接挑战,把货币金银工作和大数据的力量有机结合在一起,笔者在下文提出了一些设想。
二、货币金银工作怎样与大数据结合
(一)流通人民币管理与搜索引擎
搜索引擎是数据富集的地方。近年来,搜索引擎对大数据的创造性使用最为人所津津乐道。谷歌公司预测流感趋势便是其中一例。而在今年春节,央视携手百度进行的收视习惯调查同样令人印象深刻。在搜索引擎中,每个进行检索的人都成为数据的贡献者,而这些数据正是检索人困境和愿景的直接体现。和谷歌预测感冒同理,一些人在遭遇假币时也会求助搜索引擎,那么检索时间和检索者所在位置会不会体现假币在时间和空间上的蔓延态势呢?
笔者做了这样一个实验:在百度中键入“收到假币怎么办”和“收到假钱怎么办”(检索原则是令检索关键词尽量口语化,尽量避免检索出指导性的文章),各得到39.2万条和79万条共118.2万条检索结果,即使考虑到一定比例的无效链接和重复引用,如此规模的样本数在统计学意义上也是非常庞大的。对于普通用户,这些数据最有价值的部分隐藏在“黑箱”之中:检索人的IP地址(地理位置信息)、检索在时间上的聚集和波动趋势、某一词条被引用和链接的次数……这些庞杂的数据掌握在互联网公司的手中,运用特定的算法处理,很容易转化成有价值的数据。比如,通过收集检索人的地理信息,并经过数学处理(如用检索词条数除以投放规模以反映假币的相对泛滥程度,同时使用统计技术剔除掉各省信息化程度的差异),可以得到图1、图2统计结果。
图1 假币在不同地区的分布图(假想)
图2 假币在某一地区发展趋势图(假想)
如图,尽管从统计学的角度看,抽样是有偏的(使用搜索引擎的一般是年轻人),但我们需要的数据洞察是假币在时间和空间上的变化趋势,在如此巨量的样本支持下,得到的统计结果还是很能说明问题且具有指导意义的。尤其是如果我们观察这些数据在时间序列中的动态表现,则很容易看到某种新型假币的出现及至爆发,以及假币在空间上的流动——这样,就很容易定位假币是在何时、何地蔓延开来,有利于我们采取有针对性的处置措施。
同理,我们也可以通过搜索引擎观察人民币整洁度在不同地区、不同时点上的变动趋势。笔者在百度中键入“人民币破损用什么粘”、“人民币破损怎么办”,分别得到157万条和2250万条搜索结果。在这样规模的样本支持下,得出的结论将非常接近真实情况。
(二)发行基金投回预测与数理分析
发行基金的投回预测关乎人民银行在未来的生产计划、调拨和分支行投放的整条物流链,其精度至关重要。目前,发行基金的投回预测一般采用两种方法:数学建模法和经验估算法。笔者认为,这两种方法的原理其实是相同的,即,以过去指导未来,从错综复杂的经济变量中寻找能够决定、影响或者指示投回的因素,以这些因素的变动推测投回的变动。两种方法的区别是,相较经验估算法,数学建模法有更严格的数理分析、假设和检验做基础,且更易于标准化操作,因而越来越受到现金分析人员的青睐。然而,数学建模法亦有其局限性:第一,模型精度与可获得数据规模息息相关,小的样本数往往导致较大的系统性偏差;第二,自变量的选择依赖于分析人员的专业知识和主观判断,时常会有遗漏变量或伪回归的情形发生而影响模型精度;第三,一个好的模型的建立,需要反复试错,直至挑选出最能反映真实世界运行的那一个,在这一繁复过程中,分析人员的数理知识和统计技术至关重要,并且要耗费大量时间。这对“兼职”从事分析的发行人员来说,不能不说是一种负担。
为克服发行基金投回预测的局限,获取尽可能多的数据,减少分析人员的主观参与和工作强度,依托“大数据”,笔者做了如下设想:如果能够建立一个不断更新投回数据与国家主要统计数据(如人口数、GDP增长率、CPI增长率等)的信息化平台,并且在这一平台中整合一部分统计软件的功能,那么发行基金投回的数学建模(当然也包括其他和发行业务相关的数学建模)可能会事半功倍。如,大数据平台可以自动筛选出在时间上与投回变动有一致或强烈相关趋势的数据指标并且通过联立方程模型或向量自回归模型计算其数量关系。一些由于难以获取、经济理论知识缺陷等原因被我们忽视的数据(如人口的省际迁移、产业结构变迁、地区教育程度等)有可能成为模型的一部分从而提高模型的精度。一旦这些数据实现了实时更新,那么模型也会随之不断更新,我们将得到精度很高的动态预测,这对增强发行基金生产、调拨和投放的前瞻性是不无裨益的。
显然,这样的假想是建立在大数据的思维模式和技术能力的基础之上的。
三、大数据时代,货币金银工作的机遇与挑战
如前所述,要搭上大数据时代的“顺风车”,把大数据的力量化为己用,我们不仅要转变“小数据”时代的思维模式和工作方法,还要以实际行动为大数据搭建“舞台”,这就需要:
(一)寻求与互联网公司的合作,建立与发行数据接驳的数据分析平台
比如,若能与搜索引擎合作,从“黑箱”数据中提取信息并辅以统计软件,则可实现动态监测假币在时间和空间上的发展趋势。同时,在保证数据安全的前提下,实现与国家主要统计指标数据库之间的单向接驳,借助整合的计量经济学软件功能,我们将得到实时修正且精度较高的数学模型,用以预测发行业务的主要数字指标。
(二)整合历史数据,将“小数据”升级成“大数据”
发行业务有丰富的历史数据,如对调拨业务而言,我们可以得到某中心支库某种券别在某一工作日的投回金额。如果能利用全部信息,这将是样本数非常庞大的时间序列数据和面板数据,对分析发行基金投回自身变动趋势将有很大助益。但是,一直以来,数据的获取都是一个瓶颈。以云南省为例,要得到2005年1季度以前的投放数据,必须翻阅历史账本。而即使是能够在货币金银信息管理系统中查询到的2005年1季度以后的数据,也需要分析人员逐项查找、记录,最后将其输入电脑进行数据分析,这项工作既繁琐又容易出错。所以,从目前的实际情况来看,即便我们坐拥大数据的“冰山”,也往往只得其“一角”而已。为克服这一问题,总行应考虑在二代货金系统中纳入全部历史数据并实现这些数据的无纸化导出,将“小数据”升级成可以直接利用的“大数据”。由于工作量巨大,可考虑将久远的历史数据输入分块外包。
(三)加强总行与分支行之间、人行各部门之间的数据共享
人民银行分支行要深刻地认识经济规律以指导未来工作,局限在分析某一地区、某一部门的数据,始终是管中窥豹,只能窥其一斑。另一方面,总行货币金银局,各分支行的货币信贷、调统、金融稳定等部门掌握着丰富的数据资源。如果能建立数据共享平台,实现总行与分支行之间、人民银行各部门之间的数据共享,将局部的“小数据”统合成全局的“大数据”,将非常有助于我们突破单一地区、单一部门的分析局限性,高屋建瓴地指导未来工作。
四、结语
大数据是时代趋势,也将是我们的生存环境。如何迎接大数据时代的机遇和挑战,将是一个日益凸显的重要课题。对于这一课题,笔者仅做了粗糙的、理想化的设想和思考,不足之处,望批评斧正。
货币金银处课题组长:许卫东
成员:杨晚晴(执笔) 王伟松