【关键词】另类数据 传统数据 經济增长
【中图分类号】F49 【文献标识码】A
【DOI】10.16619/j.cnki.rmltxsqy.2021.06.003
另类数据的应用场景
本世纪初以来,互联网的普及,特别是移动终端的普及,使得积累数据的基础设施不断加强,以前无法留存的数据现在可以大规模的存储和积累,并得到有效利用。与此同时,数据存储的材料不断创新、技术不断提高,数据存储的成本也大幅降低,海量的数据也大大激发和带动了人工智能和云计算等技术的发展。
在这样的背景下,另类数据的概念出现了。另类数据,即非传统数据,目前尚未形成统一明确的定义,泛指区别于传统金融数据的有价值的信息和数据。传统金融数据是指通过常规渠道获得的数据,例如股票、债券等的交易数据、上市公司年报和财务数据、银行用户的借贷数据等。不同于传统数据,另类数据是典型的“大”数据,主要体现在三个方面:一是体量大,体现在规模和传输量;二是流动速度大,数据实时或接近实时获取和传输;三是种类多,数据结构形式多样。
另类数据主要有三方面来源。一是个人产生的数据,如社交网络信息、产品评价、搜索记录、购物喜好等。二是商业过程数据,如物流数据、支付数据等,也有另类数据公司采集传统商业数据,如大型百货公司客流量、大型游乐场客流量等数据。三是传感器数据,如利用卫星数据通过光感和热感采集钢厂、化工厂、原油等的开工、采集、运输情况,另外,还有来自GPS定位、车辆轨迹和个人穿戴设备的另类数据。
海量的数据推动了另类数据市场快速发展,另类数据公司大量涌现。从数据积累方面看,根据国际数据公司(International Data Corporation,简称IDC)的一份报告,2018年全球有33ZB的数据,而这个数量预计在2025年会增长到175ZB。从另类数据公司数量上看,据AlternativeData的统计数据,2018年全球另类数据公司已增长到近400家,国内另类数据公司大约占100家。我们估计,目前中国已经超过了200家。国际上的另类数据公司主要分为三类:一是原始数据提供者,这类供应商只收集最原始的另类数据,对于数据的处理程度最小;二是轻处理数据提供者,提供与金融资产相关的可视化数据;三是信号提供者,一般专注于某个特定行业,向资产管理公司提供打包好的量化投资信号。
从市场空间上看,AlternativeData统计表明,截至2017年全球已有约800支基金利用另类数据做投资决策,2017年投资机构对另类数据的投入规模约为4亿美金,行业正处于快速发展期。我们预计从2021年开始到未来的10年期间,国内每年新成立另类数据公司可达几十家乃至100家,每年吸引投资达数十亿人民币。
疫情之后全球和我国经济发展进入了一个新的阶段,数字经济将成为我国经济下一个阶段高质量发展的重要特征。因此,就像金融行业助力实体经济发展一样,另类数据行业不但会助力数字经济的发展,其行业本身也会成为经济增长的新亮点。
从国内发展的情况来看,另类数据已经在宏观、中观和微观等应用场景中得到了实际应用。在宏观方面,另类数据被用于编制物价、就业状况、疫情复工等指数,帮助我们更加清晰地认识和分析经济形势;在中观方面,另类数据通常用来整体分析企业经营情况、预测行业景气程度等,跟踪产业发展状况;在微观方面,另类数据的应用场景主要集中在投资决策辅助和个人信用判断等。毋庸置疑,另类数据与传统数据相互补充,将共同组成数字经济时代的生产要素和支柱产业。
另类数据辅助经济发展形势分析
另类数据可用来辅助预判经济发展形势,为政策制定者提供更多决策依据。例如,利用另类数据编制可实时更新经济指标CPI,来作为传统指数的有效补充;也可以用于编制就业指数,提高就业指数底层数据的完整度和时效性。此外,另类数据也可为评估疫情等事件对经济发展的影响提供及时、全面、深入的底层数据依据,以便得出准确度高、颗粒度细的结论。
1.消费者物价指数:基于网络消费编制的数字经济指数。消费者物价指数(Consumer Price Index,以下简称CPI)是反映与居民生活有关的消费品和服务价格水平变动情况的重要宏观指标,通常用来衡量通货膨胀的水平。CPI是市场经济活动与政府政策的一个重要参考指标,其变化会直接影响政府宏观经济调控措施的出台。传统的CPI编制通常采用抽样调查的方式选定代表性商品和价格调查地点,并派调查员通过直接上门调查的方式收集计算CPI所需的原始价格资料,之后由国家统计局按人口和消费水平加权汇总计算出CPI。随着另类数据的积累,一些机构开始利用新的数据来补充传统的CPI指标。
Adobe公司推出了数字经济指数(Digital Economy Index,以下简称DEI),该指数旨在衡量美国和全球主要经济体在数字经济中购买的商品的通货膨胀率。[1]该指数基于数字购买力(Digital Purchasing Power,简称DPP)计算,每月更新1次,以衡量1美元能够购买的商品。样本规模为美国前100家网络电商中的80家平台的交易信息。DEI抽取了网络电商中电子产品、食品杂货、服装、书籍、玩具等18个品类的价格指数进行计算,其中食品杂货、电子产品和服装价格变动对DEI影响最大。在指数计算过程中,覆盖了超过1万亿次的访问量和超过1亿个库存量单位(Stock Keeping Unit,简称SKU)的数据信息。
目前,包括美国劳工统计局、美联储和美国人口普查局在内的多个政府机构和行业贸易组织都与Adobe开展合作,以便即时了解数字经济的信息。和传统基于调查的CPI统计口径不同,DEI的数据是基于消费者实际购买的商品来实时计算的。另类数据的使用有效扩大了样本规模,降低了抽样调查的成本。通过使用高频率和广覆盖的互联网电商购物数据,DEI指数可以帮助我们更方便地衡量数字经济环境下的物价指数和消费者购买力,能够帮助消费者、企业和政策制定者更加全面地了解经济情况。
2.失业率:基于网络招聘数据编制的就业指數。就业稳定是宏观经济稳定的重要内容。失业率等反映就业市场状况的指标是宏观经济的重要信息指标和宏观调控政策的实施依据,直接关系到宏观调控的政策应对和未来经济的整体发展规划。
在就业问题的研究中,传统就业指数主要包括登记失业率、调查失业率和求人倍率等,目前国内外主要通过家庭抽样调查和机构抽样调查两种方式来统计相关人员的就业情况。与传统就业调查数据相比,网络招聘数据为就业问题研究提供了更广的覆盖面和更强的时效性。
清华大学金融科技研究院与熵简科技公司联合课题组通过对全网招聘大数据进行结构化清洗和聚合,编制了“基于网络招聘数据的就业指数”,该指数实时捕捉了就业市场整体景气度趋势与结构性变化,为基于就业数据的宏观调控提供了补充参考。“基于网络招聘数据的就业指数”分析了各大型招聘网站和各城市当地招聘网站的招聘数据,包括Boss直聘、前程无忧、智联招聘、58同城、拉勾网等招聘网站的主要公司岗位数量、需求人数、岗位地点分布、岗位薪资分布、岗位学历分布、岗位经验分布、历史岗位信息等。指数编制所使用的网络招聘数据对我国就业市场的覆盖率较高,可覆盖除港澳台之外的所有省市地区,并覆盖所有行业。
研究发现,与官方统计数据对比,全国线上招聘需求数据与城镇新增就业数据高度相关,二者均存在很强的周期性特征。整体而言,“基于网络招聘数据编制的就业指标”可以反映我国就业市场景气度,辅助对相关经济指标的预测,可以成为官方指标的重要补充。
3.疫情后的经济分析:道口中小微经济恢复指数。新冠肺炎疫情为全球经济带来了重创,如何评估新冠肺炎疫情对经济和生产的影响、并制定相应的应急政策是各国各部门关注的重点。另类数据凭借其可获取量高、实时性强的特征,在突发事件应急中提供了重要支持作用。
2020年4月,清华大学五道口金融学院、道口金科联合课题组联合发布了“道口中小微经济恢复指数”。该指数旨在更深入、全面地了解全国各地企业,尤其是中小微企业受疫情影响的具体状况、经济活动恢复情况、企业面临的问题、可能采取的行动及对政策的诉求。课题组利用道口金科通过税务、发票、支付、工商等多个数据源整理的企业经营类数据,构建全国、各行业、各地区及不同规模企业的“道口中小微经济恢复指数”,并从企业营业收入入手研究此次疫情对我国经济的影响。经研究,截至2020年3月31日,从全国来看,湖北省受到疫情冲击最严重,恢复指数较低,大部分中小企业业务停摆状态时间长;从行业来看,教育业、住宿及餐饮业、文娱产业受到冲击影响最大;中小企业方面,微型企业恢复指数较高,说明与2019年同期相比,微型企业经济活动恢复水平高于小型和中型企业。
此指数背后的原始数据涵盖了超过1年的日度频率中小微企业营业金额信息,包括1.73亿条企业/日营业记录,7.84亿条交易记录;覆盖了全国除港澳台的31个省份和直辖市,对应着全国600多个城市,同时也覆盖了国家统计局的19个行业分类,具备数据量大、维度广、颗粒度细的优势,使研究人员在技术上可以对企业经济活动恢复情况进行更准确、更多维的分析;企业经营数据可以更直观、更完整地衡量企业经营情况,具备更显著的经济意义。
除了能够较准确描摹企业经济恢复情况外,底层的企业经营类大数据还可用来量化测算疫情冲击对于中小微企业收入的影响。课题组利用全国600多个城市2019年以来各行业的日度汇总数据进行研究,建立了以企业营业收入的自然对数为因变量的回归模型,并通过将疫情设为一个虚拟变量来观察疫情对企业营收造成的影响。回归结果符合预期,截至2020年3月31日,新冠肺炎疫情冲击在整体水平上会使得中小微企业收入降低69.5%;行业方面,住宿和餐饮行业、建筑业、教育业、房地产业、制造业、租赁和商业服务业的中小微企业收入受疫情的负面影响最大。
除了“道口中小微经济恢复指数”研究之外,其他研究者们也在利用各类另类数据从多方面评估新冠肺炎疫情带来的冲击。例如,通过利用夜间灯光监测、遥感卫星红外成像辐射仪设备来判断复工情况;利用城市出行数据、网络舆情数据来判断国家经济的恢复情况;利用支付宝旗下的“码商”数据评估疫情对个体户造成的影响;利用企业用电量情况估测企业复工指数等。基于另类数据构建的实时性指标都为我们分析疫情后的经济形势提供了参考。
另类数据跟踪产业发展状况
另类数据可以被用于跟踪产业发展状况,例如,分析企业经营情况和预测行业景气程度等。作为传统经营数据的补充,另类数据具有高效、海量、客观和实地等特征,能有效提高分析、预测的准确性。
1.企业经营情况分析。不同于使用传统的财务数据、经营数据来分析企业的经营情况。目前,大量机构试图通过收集卫星遥感数据、航班数据、手机定位数据、气象数据等另类数据,结合深度学习等数据处理技术,将过去无法获取或者使用的数据转化为准确、高效的商业情报。
应用一:企业开工情况。望眼科技是国内一家将卫星遥感、气象、无人机、物联网、定位等时空数据用于商业分析的数据企业。望眼科技利用卫星遥感数据绘制了夜光数据和温度数据,对企业开工情况进行实时掌控,降低造假风险。其中,夜光数据利用遥感卫星获取地面可见光情况,来分析地面人类活动情况。在企业经营分析中,反映夜晚照明情况的夜光数据可以辅助追踪企业的经营活动,企业夜光指数的增加通常反映了企业生产经营活动的增加。温度数据则利用传感器收集物体发射的红外能量,从而得到温度信息。温度指数通过监测工厂内的运行温度和周边区域的温度之差,来追踪企业生产经营活动。当工厂内的运行温度和周边区域的温度温差增大时,则说明企业生产经营活动有所增加。
应用二:企业重大融资并购情况。企业高管的行程能够在一定层面上揭示公司的潜在决策。Paragon Intel是纽约一家通过搜集企业高管数据来监测企业经营发展的数据企业。其主要通过监控大企业高管的航班信息,来预测企业潜在重大交易、并购的情况。在达成大笔交易之前,企业高管之间会频繁会面。当他们不在同一城市时,高级管理人员通常乘坐公司飞机飞行至目的地,Paragon Intel实时监控目标企业相关的公务机,获得高管的出行数据,这些航班累计覆盖超过200万英里、10年时长、25000个机场、1700架飞机,遍及美洲、东欧和西欧、俄罗斯、中国沿海地区、亚洲其他地区以及北非部分地区。
2.行业发展指数。另类数据也被用于监测相关行业的发展情况,以解决传统财报数据滞后问题、新兴行业信息披露不足等问题。
应用一:社区团购行业。作为2020年的新型零售模式,社区团购受到了商业领域的极大关注。在社区团购中,社区居民通过平台的微信小程序下单,平台汇集社区居民的购买信息再统一向供应商采购,最后统一配送到社区自提点。百观科技是国内一家基于另类数据提供投研分析的数据平台。该企业从2020年初开始追踪社区团购行业数据,通过采集社区团购平台的微信小程序,监控近百万个自提点以及近十万个在售商品的销量、价格和品类等数据。基于抓取的微信小程序数据,可对社区团购行业的市场竞争格局形成判断,包括各平台的地区分布、商品交易总额、商品品类分布、物流配送基础设施搭建等情况。
应用二:ESG行业。ESG,即环境、社会和公司治理(Environment; Social Responsibility; Corporate Governance)。Truvalue Lab是一家2013年成立于美国旧金山的ESG新型数据公司,其创始人Hendrik Bartel看到了ESG报告数据的局限性,决定利用AI技术从公开信息中挖掘公司ESG的相关数据。Truvalue公司只会保留对公司可持续发展有实质性影响的数据,对其加以分析及量化,从而得到公司的ESG评分和趋势变化。投资人不仅可以用其数据进行投资决策,也可以通过ESG数据及时和被投资公司沟通交流。Truvalue公司也联合指数基金机构合作推出了ESG指数基金。Truvalue公司已于2020年10月被数据平台FactSet收购。
应用三:线上消费行业。国内众多另类数据公司通过抓取如天猫、京东等电商平台的销售数据,如行业时序销售数据、品牌时序销售数据、店铺销售数据、热销商品榜单、品牌市占率、商品长尾属性构成等信息,形成对大消费行业的实时分析。对于在食品饮料、纺织服饰和家电等线上业务占比较高的行业,企业的线上零售数据与财报的营收数据呈现高度相关性,可通过线上电商零售数据实现对行业发展的实时监控。
另类数据辅助投资决策和信用评估
另类数据也极大地辅助了个人的投资决策和信用评估。例如,个人在社交媒体和应用上发布的事件信息,可以成为投资研究决策的补充信息;个人行为、生物特征等另类数据也可作为授信评估的辅助依据,为信贷记录缺失的用户提供金融服务。
1.投资决策辅助。社交媒体平台是如今人们获取新闻和信息的重要来源之一。社交媒体平台发布的最新消息往往比主流媒体的相关报道时效性更强、传播速度更快、覆盖范围更广。依靠传统媒体的延迟报道或通过主流媒体渠道均存在一定的滞后性,在黑天鹅事件中往往会对投资决策带来不利影响。因此,大量机构通过社交媒体信息这一另类数据来辅助投资决策。
例如,Dataminr是一家美国的科技创业企业,通过分析用户在推特(Twitter)等社交媒体平台上发布的信息,监测影响力较大的事件或关键突发信息的最早迹象,并在事件扩散或引起严重连锁反应前,提供实时报警服务以减少损失。2017年12月12日,奥地利一座大型天然气设备发生爆炸,一位当地的目击者在Twitter分享了一张实时火势的照片。这一事件对股票和大宗商品交易有着重要影响,Dataminr在社交网络上传图片的同时,即刻向金融机构客户发出了预警,客户在市场波动前就已被提前告知这一突发事件,得以及时调整投资策略、避开风险。这一突发事件直接影响了整个欧洲的天然气供应,天然气期货价格飙升,整个能源行业也受到了冲击。
2.信贷评估决策。金融机构往往依据用户的历史信贷记录来进行授信决策。目前,以电信运营商数据、支付数据、航旅出行数据、申请行为数据等为代表另类数据被越来越多的用于信贷评估决策。
例如,新網银行通过将另类数据应用于贷款评分模型中,极大地提高了贷款效率。新网银行在信贷评估时,对用户的电信运营商、社保公积金、航旅出行、学历、支付行为、网络购物、地理位置、申请信息等数据进行分析,也采集和使用了如用户的图片影像、生物特征、关联网络等数据来对客户进行精准画像和风险评估。而部分客户虽银行征信数据比较好,但存在多头网络借贷情况。新网银行将这一部分另类数据也加入了评分模型,拒绝评分较低的风险客户。
毋庸置疑,另类数据已经成为新的生产要素,另类数据行业也逐渐成为数字经济时代的支柱产业。目前,从全球另类数据行业的发展来看,我国同其他国家处于一个起跑线上,并在应用的很多领域处于领先地位,但是应该指出的是,世界各国在发展另类数据行业方面都面临着巨大的挑战,主要原因是尚未形成对另类数据行业进行监管的成熟框架。
数据的不当获取和使用,既能产生个人隐私和商业信息泄露的风险,也能带来国家安全层面的风险,目前数据的获取、加工、使用和交易等所有的环节都需要立法来规制。过去几年,数据泄露和不当使用的案件和案例不断发生,暴露出另类数据行业监管的空白。在我国迈向数字经济的征途中,如何既能发挥另类数据的巨大潜能,又能有效防范相关风险,保障另类数据行业的健康发展,是摆在我们面前的一项重要任务。
注释
[1]Adobe此前还曾推出过数字价格指数(Digital Price Index, DPI)、就业指数(Job Seeking Index, JSI)和数字房价指数(Digital Housing Index, DHI),但目前官网已不再更新这些指数。
责 编/张 晓
廖理,清华大学五道口金融学院金融学讲席教授、教育部长江学者特聘教授、博导、清华大学五道口金融学院常务副院长、清华大学金融科技研究院院长、《清华金融评论》主编。研究方向为金融科技、公司金融。主要著作有《金融科技研究:前沿与探索》《全球互联网金融商业模式》《股权分置改革与中国资本市场》等。