我国大数据发展指数构建及实践应用
——从政务数据与社会数据融合的视角

2022-03-23 02:10郭明军陈沁安小米王建冬易成岐
大数据 2022年2期
关键词:评估指标发展

郭明军,陈沁,安小米,王建冬,易成岐

1. 国家信息中心,北京 100045;2. 中国人民大学信息资源管理学院,北京 100872;3. 成都数联铭品科技有限公司,四川 成都 610041;4. 中国人民大学智慧城市研究中心,北京 100872

0 引言

指数是客观反映事物发展水平的有效工具之一。随着大数据的快速发展,大数据指数研究成为学术界的重点议题,成为客观反映中国大数据发展现状的重要手段,有助于政府、企业、社会了解大数据领域的发展状况,为相关决策的制定提供参考。

近年来,随着我国大数据战略的持续推进,如何对大数据发展水平进行量化评估,为政府科学决策、精准施策提供客观数据支撑,成为众多研究机构的一项重要任务。许多学者围绕大数据指数进行了深入研究,形成了丰富的指数类研究成果。但受限于数据的可获得性,目前大数据指数领域研究利用的数据或者仅涉及经济或民生等某一具体领域,或者仅使用政府统计类小数据或互联网大数据,数据种类及数量不足,难以真正实现“统筹规划政务数据资源和社会数据资源”的目标。这成为我国大数据指数研究的重要瓶颈,亟待突破。本文以2019年贵阳数博会发布的《中国大数据发展指数报告(2018年)》提出的大数据发展指数(2018)为例,充分融合政务数据和社会数据资源,为我国大数据指数研究探索新的路径。

1 已有工作

在国外,大数据指数研究首先在预测流行病的发生概率方面取得了显著成效[1],随后,大数据方法逐步被拓展到经济学领域[2],许多学者围绕个人消费行为[3]、失业率预测[4-5]、劳动供需分析[6]、就业歧视[7]等进行了大数据指数监测预测研究。近年来,采用综合集成方法,融合多视角、多层面、多利益方,把各方面构成要素有机融合,成为大数据治理体系框架构建的基本思路[8]。在国内,大数据指数研究的力度逐渐加强,形成了两种主要类型,第一类是以高校为代表的学术类研究,第二类是权威信息化机构发布的评估类研究报告。

1.1 学术类大数据指数研究

国内学术类大数据指数研究主要由高校牵头,往往聚焦某个特定领域。比如,一些学者围绕消费[9]、交通[10]、就业[11]、融资[12]、生活质量[13]等民生领域,编制了大数据指数进行预测分析研究;也有学者聚焦经济领域,通过形成电力大数据指数[14]、金融风险指数[15]、制造业指数[16]、实体经济指数[17]等,对经济发展趋势进行监测预测研究;还有一些学者关注政府治理[18]、互联网舆情[19]、居民情绪[20]、社会信用[21]、城市发展[22]等社会治理领域,开发了相关的大数据指数。

1.2 评估类大数据指数研究

评估类大数据指数研究主要由国家信息中心、中国信息通信研究院(以下简称中国信通院)、中国电子信息产业发展研究院(以下简称赛迪研究院)等国家级信息化机构编制,从国家层面、区域层面、省级层面、产业层面等对我国大数据的发展情况进行评估排名,阿里巴巴集团、南方基金管理股份有限公司、新浪财经等企业也基于自身数据资源优势,针对某个领域开展大数据指数评估。

根据数据源及分析方法的不同,评估类研究又可分为互联网大数据分析与统计数据分析两种情况。互联网大数据分析的典型代表是国家信息中心编写的《中国大数据发展报告(2017)》,该报告基于40多亿条互联网数据,应用大数据分析技术,从政策环境、人才状况、投资热度、创新创业、产业发展、网民信心等方面,对全国各省大数据的发展情况进行评估。阿里研究院2017年发布的《品质消费指数报告》[23]从全网采集数据,使用大数据技术分析了我国居民消费的升级趋势。南方新浪大数据指数则在利用上市公司数据的基础上,将互联网大数据引入指数编制中,利用大数据对市场主体的情绪进行刻画和量化。这类评估的好处在于,基于海量的互联网数据、使用大数据技术进行的分析评估,其数据样本很大,有的指数涵盖数十亿甚至数百亿条数据,且很多数据能够实时动态更新,同时使用了数据挖掘、文本分析、语义分析等大数据技术,是真正意义上的大数据分析。不足之处在于,由于数据采自互联网,容易被认为是网络舆情分析或不能直接反映现实情况。统计数据分析的典型案例是中国信通院发布的《中国大数据发展调查报告(2018年)》,其主要通过现场访问、电话采访、在线调研和专家访谈等方式获取数据。赛迪研究院发布的《中国大数据发展指数报告(2018年)》也主要以统计数据为基础,对我国31个省、自治区、直辖市的大数据发展环境、大数据产业、大数据应用、技术研发创新及数据共享开放情况进行评估。这类评估主要基于官方统计数据或调查研究数据,使用传统数据分析方法进行分析评估,好处是数据相对权威,不足之处在于这类评估并非真正意义上的大数据分析,而是基于传统统计方法开展的小样本数据分析。

从以上分析可以看出,无论是学术类大数据指数研究还是评估类大数据指数研究,虽然都可以在一定程度上进行大数据预测或反映大数据的发展水平,但也存在一些不足。学术类大数据指数研究由于缺少海量数据支撑,即便拥有较好的分析技术方法,往往也只能对某一领域进行研究,分析对象无法覆盖各个省市。权威机构发布的评估类指数也存在一定缺陷,从数据源来看,该类评估仅仅基于互联网大数据或统计小数据,不能体现多源数据广泛代表性的优势,同时由于数据获取困难,评估对象只能覆盖到省级地区,无法延伸到地市层面。

2 数据来源及加工处理

为了弥补上述两类方法的不足,国家信息中心联合相关单位,探索将政府部门数据、政府网站数据、统计数据等政务数据与互联网大数据、企业数据等社会数据进行对接融合,构建了大数据发展指数(2018),使用大数据方法对全国及各省市大数据发展情况进行评估,从而既体现政务数据的直接性和权威性,也保证互联网等社会数据的鲜活性和大样本量。

一是数据层面,拓展多源数据。“指标好编、数据难得”是评估工作中普遍存在的问题,是否拥有广泛的数据源和足够的数据量,直接关系到定量评估的效果的好坏。本文通过大数据评估解决了数据源问题:一是通过搭建大数据指标监测系统,抓取互联网中与大数据评估相关的指标,包括政府大数据规划及政策、企业注册数据、专利数据、招聘数据、经济金融产业中间投入及数量等数据;二是采集国家统计局、工信部、知识产权局发布的相关政务数据;三是参考借鉴现有研究成果,包括财新BBD(成都数联铭品科技有限公司)数字经济指数中的产业指数、新华三数字经济指数和国家行政学院电子政务研究中心提出的政务应用指数等。通过互联网数据与政务数据融合分析,保证多源数据的代表性,同时也兼顾了数据的权威性。相关数据见表1。

表1 大数据发展指数的政务数据与社会数据使用情况

二是对象层面,覆盖所有城市。此前的评估主要针对国家层面、区域层面及省级层面,缺少全方位对城市层面进行的专门评估。本文将评估对象下沉到城市级,获取全国各个城市的多源异构数据,对各城市的大数据发展进行全景式分析,力求展现各城市的大数据发展水平。

三是技术层面,使用先进技术。传统的统计分析仅能处理小样本数据,而对于数十亿甚至数百亿条的数据,往往束手无策。更重要的是,对于互联网上的大量非结构化数据,只能通过大数据手段,才能进行有效的分析挖掘。大数据发展指数(2018)的数据加工处理综合使用了文本挖掘、语义分析、情感分析、机器学习等先进技术手段,体现了应用大数据技术开展大数据评估的特点。

3 指数构建

3.1 构建原则

为了确保评价指标的有效性,准确、全面地衡量我国大数据的发展水平,本文在设计大数据发展指标时坚持以下4项原则。

一是完备性。指标体系中的指标能够全面地反映评估对象的发展情况,确保不遗漏重要指标项。本评估指标体系包含了基础能力、创新应用、综合保障三大方面,从50个维度评估省市的大数据发展情况。

二是客观性。在指标选取及整个指标体系的确立中,每个环节均选取客观、可量化的指标,除了能够在网上直接采集的客观数据,也采用了政府部门及相关机构发布的客观统计数据,并借鉴了已有研究成果,尽可能规避主观因素带来的干扰。

三是导向性。整个指标设计突出了应用导向,将“创新应用”指标作为最重要的指标,并赋予最大的权重,重点评估各个省市在政务、经济及民生三大领域的应用成效。

四是易操作性。所有指标的数据均能获取,有些数据甚至可以做到实时获取。评价方法采用专家赋权法,该方法具有很强的操作性。同时,专业分析人员及大数据分析平台保证了整个评估工作的易操作性。

3.2 指标体系

大数据发展指数(2018)以“应用”为核心,围绕“能力-成效-保障”3个方面,构建了由基础能力、创新应用、综合保障构成的一级指标。按照每个一级指标包含的核心要素,设置了9个二级指标,同时,根据数据的可获得性以及为了充分体现政务数据与社会数据的融合,构建了50个三级指标,形成了我国大数据发展指数。大数据发展指数属于大数据指数范畴,两者在数据采集汇聚、加工处理以及编制思路等方面基本相似,只是大数据发展指数更加强调发展应用,“能力-成效-保障”3个维度更加突出发展的导向。

(1)基础能力指标

基础能力指标主要衡量地区的大数据基础,包括数据、算力、算法3个二级指标和20个三级指标,见表2。

表2 基础能力指标

(2)创新应用指标

创新应用指标包括政务应用、经济应用和民生应用3个二级指标和24个三级指标,体现大数据在政府治理、产业发展和便民服务领域的应用,见表3。

表3 创新应用指标

(3)综合保障指标

综合保障指标包含政策保障、合作保障和安全保障3个二级指标及6个三级指标,着重分析大数据应用的稳定性及可持续性,见表4。

表4 综合保障指标

指标使用了所有可获得的能够度量大

数据发展的年度城市数据,并创新地纳入了全网大数据。例如,“数据”二级指标主要来自其他指数的评估结果,包括复旦大学发布的中国开放数林指数、新华三的中国城市数字经济指数;“算力”二级指标主要来自各项统计指标;而“算法”部分则主要来自大数据,从人才总量和专利申请、专利流转3个方面度量大数据的技术水平,选用的数据总量达20亿条。各种类型数据的使用保证了在更细、更高频维度上度量城市大数据的发展情况,这也是目前其他机构发布的大数据指标中未能体现的特点。

3.3 权重设计

大数据发展指数的测算采用主观赋权法对指标体系中的各指标进行赋权,通过专家打分再求平均值获得各指标的权重,在保证指标体系科学性、全面性的同时,力求指标权重的稳定性。

使用定基标准化方法将测算结果进行标准化处理,既可以较方便地进行横向和纵向比较,也能与2018年北京的数值进行对标,有利于各个地方找到大数据发展过程中自身存在的短板。

使用定基标准化方法的原理如下:

● 设原始值为Xijt,其中i表示指标项,j表示城市,t表示时间;

● 选择2018年北京各项数值作为基期,标准化数值为100,记录其缩放比例,即当j=北京、t=2018时,记录Φi= 100/Xi;

● 将所有指标数值乘以对应的iΦ,得到Xijt=XijtΦi;

● 将Xijt作为新的指标数值进行计算。

按照此设计方法,本文对9个二级指标权重进行了赋值,见表5。从表5可知,创新应用指标的权重最高,达到45%,体现了创新应用的重要性,突出了发展导向的指标制定思路。

表5 大数据发展指数的指标权重赋值

4 实践应用

大数据发展指数(2018)编制形成之后,从横向、纵向两个维度验证了指标体系在评估国家及城市大数据发展水平方面的有效性。通过对2015—2018年全国大数据发展水平进行纵向对比评估,比较了历年大数据发展的变化情况。通过对351个城市的大数据发展水平进行横向对比评估,分析了各城市大数据发展特点及存在的短板。

4.1 全国大数据发展水平评估

基于构建的大数据发展指标,笔者对2015—2018年全国大数据发展指数进行了测算,如图1所示。结果显示,4年来,我国大数据发展总体呈现上升趋势,但2018年略有下降。从具体指标来看,2015—2018年我国大数据发展的基础能力始终保持上升态势,但由于创新应用水平在2018年有所下降,总指数下降了0.3。

图1 2015—2018年全国大数据发展指数

通过进一步的分析发现,2018年指数下降主要有两方面原因。一是我国经济增速放缓,经济下行压力增大,“资本寒冬”持续存在,给大数据行业的发展造成了影响,数据显示,2018年大数据行业的风险投资额度只有2017年的20%;二是前几年由政府主导推动的大数据应用因补贴高速扩张而在2018年资金短缺时无法持续,一些大数据公司2018年支付高级人才的工资也不如2017年高,招聘数量也出现明显萎缩。

4.2 各城市发展水平评估

笔者对2018年全国351个城市大数据的发展水平进行了评估,2018年大数据发展指数排名前40名的城市如图2所示。结果显示,2018年城市大数据发展指数排名前十的分别为深圳、北京、上海、杭州、成都、广州、天津、南京、东莞、武汉,呈现出一线城市引领,成都、天津等地快速跟进的特点。

图2 2018年大数据发展指数排名前40名的城市

● 分项指标方面,一线城市在经济及民生应用方面遥遥领先,而江苏、浙江、广东等地的政务应用水平位居前列,算法优势集中于北京、上海、深圳等地,而算力资源在东北地区较为丰富。

● 数据指标排名前五的分别为成都、深圳、广州、青岛和福州,它们均为数据资源及经济基础较好的城市。

● 算力指标排名前五的为大庆、牡丹江、哈尔滨、长春和北京。东北之所以排名靠前,主要是因为算力指标主要的计算来源是与大数据相关的信息系统基础,东北三省在人均光纤长度、人均互联网端口数量等方面均处全国领先地位。

● 算法指标排名前五的为北京、深圳、东莞、上海和西安,这主要得益于城市科教资源丰富、对大数据领域人才吸引力较强。

● 政务应用指标排名前五的分别为东莞、深圳、无锡、南通和金华,主要集中于江苏、浙江、广东,其政府部门的大数据整体应用水平相对较高。

● 经济应用和民生应用方面,上海、北京、深圳和杭州位居前四,这表明这4个城市在大数据推动产业发展及提升便民服务水平方面位居全国前列。

● 综合保障指标方面排名前五的分别是天津、杭州、宁波、武汉和成都,表明这些城市在政策、合作和安全方面的保障力度较大,可持续发展能力较强。

5 结束语

本文将政务数据与社会数据进行融合,构建了国内第一个将政务数据与社会数据融合、全景式展示城市大数据“画像”的大数据发展指数,弥补了大数据指标存在的数据源单一、无法下沉到城市的不足。总体来看,该指标体系具有“专、新、多”三大特点:“专”,评估对象聚焦到市,覆盖全国351个城市;“新”,充分利用大数据手段,包括数据挖掘、语义分析、社会网络分析等技术;“多”,将政务数据、统计数据、企业数据、互联网数据融合,应用数据量达20亿条。未来研究将基于多类数据融合的思路,进一步拓展数据资源范围,充分利用大数据分析技术,构建更为合理的指标体系,客观评估我国国家、区域、领域及省市县各级大数据发展水平,为政府治理、产业发展及民生服务能力提升提供客观参考。

猜你喜欢
评估指标发展
两款输液泵的输血安全性评估
迈上十四五发展“新跑道”,打好可持续发展的“未来牌”
核电工程建设管理同行评估实践与思考
第四代评估理论对我国学科评估的启示
主要宏观经济指标及债券指标统计表
国企发展如何提高“质感”——以陕汽党建引领发展为例
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
砥砺奋进 共享发展
铜川探索党建工作绩效第三方评估