文/于海东
近年全球电子政务发展表现出明显上升态势。联合国经济和社会事务部针对电子政务发布《联合国电子政务调查报告》,两年一版,在三个维度上收集数据和信息:电信基础设施的充分性、提升和使用信息通信技术的人力资源能力、在线服务和内容的可用性。在此基础上通过电子政务发展指数(EGDI)对数据进行跟踪调查。EGDI是对三个标准化指标取加权平均值的综合指数,包括:
电信基础设施指数,数据由联合国国际电信联盟提供。
人力资本指数,数据由联合国教科文组织提供。
在线服务指数,数据由联合国经济和社会事务部管理的一个独立调查问卷提供。
2018年调查结果突显电子政务正沿着积极、正向的水平持续发展,如图1。
从2014年开始已有193个成员地区递交了相关在线状况。图1中能够看出2018年有40个国家电子政务发展指数达到非常高水平,占比21%,2016年有29个国家,而2003年只有10个国家。
另外,电子参与(E-participation)也从侧面反映了发展情况,它基于电子参与度指数(EPI)来衡量。EPI指标包括:
电子信息,线上信息展示能力。
电子磋商,线上商议。
电子决策,公共事务决策过程。
政务调查基于这三个指标对世界各国展开调研,2018年越来越多的国家都在鼓励民众和商界合作贡献思路和提供资料。
图2中能够看出,电子参与度指数达到非常高水平的国家,已从2016年的31个,上升到2018年的62个。指数低的国家从56个减少到35个。这些都体现了世界各国为推动未来政务发展、倡导社会公众深层次参与所做的努力和承诺。
20世纪80年代,我国政府开始使用计算机处理业务数据。90年代,从中央到地方各级党政机关相继开展自动化办公,推动通信和网络设施构建。进入21世纪,中国科技水平突飞猛进,国家最高决策层的重要议程中加入了电子政务建设,政务工作进一步提升。
十八大以来,电子政务建设迅速步入快车道。各级政府加大力度推进职能转变,办事效率稳步提高,服务水平显著增强,更深层次实现了政务工作有效运用。
这些年我国电子政务建设能力加快提升。2018年我国电子政务发展指数达到0.6811,全球排名第65位;其中在线服务指数0.8611,电信基础设施指数0.4735,均达到全球较高水平;人力资本指数0.7088,降幅明显。图3展示了中国电子政务发展指数这些年变化情况。
另外,我国电子参与度指数0.9045,全球排名第29位,已经达到非常发达水平。
总的来说,我国电子政务事业发展在多方面、多角度都取得了长足进步。中国电子政务建设借力科学力量的进步,顺应时代发展,紧随国际电子政务前进趋势,未来还会有更大的上升空间。
大数据需要更高层次的洞察力和思维来处理海量、多样的信息资产。《大数据时代》中认为大数据:不依赖于少量的样本数据,而是分析与某事务相关的所有数据。
大数据计算技术则是大数据加工处理的核心过程。狭义的大数据计算技术可理解为大数据处理数据的核心技术引擎;而广义的大数据计算技术则是运用大数据手段对数据进行提取、抽象、加工、优化的信息化方式。
电子政务具有多元特点。一方面,政务信息资源具有广泛性。根据我国《政务信息资源共享管理暂行办法》,政务信息资源是政务部门在履行职责过程中制作或获取的,以一定形式记录、保存的文件、资料、图表和数据等各类信息资源。另一方面,政务工作还具有复杂性。通过信息技术管理政府掌握的数据资源,既需要宏观策略,把控全局;又需要精细实施,找准重点,让信息化建设不留死角。
这种情况下大数据计算技术作为大数据的核心,对政务开展具有重要意义。大数据计算技术能从复杂的日常问题和业务需求中抽象出高层次概念,建立清晰的业务模型,为政务工作整理出顺畅的推进流程,加快业务处理速度。
电子政务领域的大数据计算技术涉及如下几方面的业务需求。
政务数据分布广,将数据由下游向上游、由分支向中心汇聚是业务推进的必要条件。这部分处理一般与ETL关联,还包含对数据的清洗。
图1:2016年和2018年按照EGDI分组不同级别的国家数量及比例
图2:2016年和2018年按照EPI分组不同级别的国家数量及比例
图3:2004年至2018年中国电子政务发展指数变化情况
政务工作经常需要对业务数据汇总统计,时间维度可能分日、周、月、年等,业务维度就更复杂,需要酌情处理。统计过程还需要数据校验,并对凹凸不平的统计结果复查。
通过大数据计算技术构建起更贴心的服务工作很重要。运营性质的政务工作涉及很多公对公、公对私业务,不但要求流程化,而且需要做好日志记录,保证有迹可循。
一些复杂处理需要更深层次抽象计算,会与相关领域合作。在大数据、人工智能、区块链、5G等新兴技术迅速发展的今天,科技化服务民生,带给民众更好的生活体验已成现实。
政务领域大数据计算技术架构如图4。
离线数据计算发展较早,在政务领域应用广泛。在网络不稳定的地区或时段,可通过录入、拷贝等方式收集政务数据,统一处理;此外在实时性要求不高的场景,政府部门各级数据上报、阶段性统计都会通过离线技术完成。
4.1.1 Hadoop
Hadoop是开源软件搭建的稳定的、可扩展的分布式计算框架平台,允许通过简单模块构建集群环境,对海量数据做分布式处理。它可以从单一服务器扩展到成千上万的服务器集群,每台服务器都在本地环境下提供计算和存储。
4.1.2 Hive
Hive建立在分布式存储环境上,是为了对大规模数据集的高效读取、写入以及处理而构建的数据仓库。Hive将结构化数据映射成直观的数据表,并且定义了类SQL查询方法,即HQL,这也使得通过简单SQL进行查询和计算成为可能。
图4:政务领域大数据计算技术架构
有些政务场景要在数据产生时立刻捕获处理,离线计算很难满足。例如政府办事服务大厅一般都要求数据实时生效;特定领域如电力、交通、金融、舆情等都要求对数据实时监控、迅速处理,这也为实时数据计算提供了用武之地。
4.2.1 Storm
Storm是免费开源的分布式实时计算系统,是最早流行起来的流计算技术系统。它可以轻松处理无边界数据流,对实时产生的数据进行计算,然后输出结果。而且可使用多种语言开发。
4.2.2 Spark streaming
Spark是处理大规模数据的一款统一解析引擎,而Spark Streaming是Spark体系的核心组件之一,可以轻松构建起具有扩展性、容错性的流数据应用。Spark Streaming将时间片段当作处理单元,从Flume等应用获取数据并计算,将结果传送至HDFS等环境。
4.2.3 Flink
Flink是针对有边界和无边界数据流进行有状态计算的技术框架和分布式处理引擎,是计算领域非常先进的技术,被公认为未来数据计算的首选。Storm延迟率低但吞吐量小,Spark Streaming吞吐量大但延迟率高,而Flink集两者优点于一身,做到低延迟高吞吐,还支持exactly once。
大数据技术推动政务工作快速发展,让社会服务更加便利,而要想提高计算本身的高效性,特别是对已知数据做更加精细化分析,频繁数据交互,并让系统对分析快速响应,最好的办法就是使用交互式计算。
4.3.1 Impala
Impala是开源交互式数据查询系统,能够在Hadoop中处理商业智能的检索。Impala支持SQL,查询方便,可对HDFS、HBase等环境中PB级大数据进行检索,非常适合Hadoop集群环境的快速查询。
4.3.2 Drill
Drill是Google Dremel的开源版本,是针对分布式海量数据快速检索的低延迟查询计算引擎,能够处理几乎所有非关系型数据库、文件系统,包括HBase、MongoDB、HDFS等,支持上千节点PB级数据交互式智能场景分析。
习近平总书记指出,要加快推进电子政务,构建全流程一体化在线服务平台,更好解决企业和群众反映强烈的办事难、办事慢、办事繁的问题。总书记的重要指示为政务信息化展开增加了充沛动力,也是电子政务建设推进所需要的深入遵循。
社会步伐迅猛迈进,也对政务工作提出了新要求。电子政务不但要与大数据技术密切合作,深挖政务领域内在价值,还要与人工智能、区块链、5G等新兴技术深入融合,让信息更透明,数据更清晰,服务更完善,从而为百姓享受到更优质的公共服务提供便利。