李森 谈超洪 邵国
摘 要:针对电子政务数据共享、业务协同、应急处置等政务业务发展需要,文章结合电子政务发展现状、存在主要问题以及技术发展需求,对数据和大数据基本术语的概念、特点和主要区别进行了分析阐述,提出了电子政务大数据的核心应用要点,并从数据本身全生命周期及大数据平台两个方面,提出了大数据环境下的政务数据安全的内容要求。
关键词:数据安全;大数据;电子政务
中图分类号:TP393.08;D63 文献标识码:J
Abstract: Based on the needs of the E-government affairs, such as data sharing, synergy and emergency disposal, the paper studied the E-government affairs development present situation, main problems and technology development needs. Analyzed the basic terminology, characteristics and main difference of Data and Big Data, and put forward the E-government affairs core application of Big Data. Proposed the content of data security requirements with the big data environment , from the whole life cycle of the data itself and the Big Data platform.
Key words: data security; big data; E-government
1 引言
國家各级政务部门的电子政务经历了近二十年的建设和使用,为国家信息化、社会治理、政务信息公开、服务及政务数据跨部门跨省共享与交换等做出了巨大贡献。ICT(Information and Communications Technology,信息与通信技术)的不断涌现为电子政务的快速发展创造了技术条件,云计算、大数据、移动互联网、人工智能和物联网等新技术的应用,为一体化在线政务服务和跨部门跨省的政务数据共享、业务协同、应急处置和社会管理、科学决策等政务业务,提供了强有力的技术支撑和应用开发保障。
新技术的应用既带来了机遇,也带来了挑战。经过多年的实践经验发现,为了研究各级政务部门收集、积累的海量电子政务数据,必须首先厘清数据和大数据的概念,才能更好地分析大数据的安全和应用。
2 电子政务发展现状
《“十三五”国家信息化规划》提出[1]要按照“五位一体”总体布局和“四个全面”战略布局,牢固树立“创新、协调、绿色、开放、共享”的发展理念,政府以为法人和自然人服务为宗旨,坚持全面深化改革,打破信息壁垒和“孤岛”,构建统一高效、互联互通、安全可靠的国家数据资源体系,打通各部门信息系统,推动信息跨部门跨层级共享共用。国务院也提出要加快实施一体化在线政务服务平台建设,并制定了加快推进公共数据资源向社会开放等有关电子政务方面的具体措施和目标[2]。
3 存在问题与面临的需求
国内的电子政务建设虽然已有二十多年,但由于中西方的文化差异,小农经济意识的根深蒂固及利益驱使等原因,电子政务的建设和应用各自为战的现象十分严重,纵向看“烟囱”林立、专网独立,横向看共享不畅、效率低下、重复建设。在互联网时代进入共享、服务和开放及新技术应用不断涌现的今天,以“互联网+政务服务”为背景,分析电子政务存在的问题,梳理电子政务内外部发展状况,将有助于从源头上解决长期存在的政务建设与发展问题。
3.1 存在的主要问题
3.1.1 体制机制不够灵活
信息化的本质是数字化,而且随着新技术不断发展而变化,具有专业性强、扁平化、整体性等特点,并要求统一规划、网络共用、信息整合、业务融合和数据共享。20年的电子政务建设基本上是各自为战、自成体系和封闭运行,与信息化的初衷背离。体制机制依然是造成信息化建设不甚理想的原因,且在短时间内无法解决。
3.1.2 信息化理念比较短视
信息技术的发展是当今世界最活跃、最具创新的领域。当前多数人在忙着炒作名词概念,而没有深入了解这些名词概念的本质内容和具体的落地,在很大程度上对信息化的认知是片面的、局部的、功利的,尤其是缺乏真正的顶层设计。“顶层”是由上而下的战略目标和长期规划,“设计”是由下而上的方案制定和工程实施,二者是相互关联的。顶层的战略目标是指导设计,设计方案的实施是分步实现目标。目前,普遍存在的小作坊式信息化建设、独立建设运维,“一亩三地”式的工作理念,没有战略目标,缺乏实现目标的连续性,其危害是不仅无法解决问题,而且还会浪费宝贵的时间、资金和人力资源。
3.1.3 网络安全对抗措施缺乏
在信息化工作中,全面的网络安全理念也没有建立起来,信息化建设和管理人员对基于对抗的网络安全本质缺乏了解,工作就事论事,只解决眼前的问题或应付上级领导检查的现象比较普遍。电子政务的信息化项目建设了不少,资金也花了不少,但由于各自为战,应用、网络、数据和安全均是相对独立的,安全防御也是自成体系,因此总体效果应用不好。在面对全球的网络安全对抗过程中,全方位的安全保障及对数据的重点保护就成了问题。
3.2 新的电子政务的需求
3.2.1 互联网+政务服务的需求
电子政务的最终目的除优化业务流程、提高内部工作效率外,主要是为法人和自然人提供互聯网在线服务。所谓在线就是7×24小时全天候能够通过互联网接收法人和自然人办理各类行政类审批所提交的材料,在线服务的关键问题之一就是基于互联网的身份认证问题。
3.2.2 政务信息资源整合共享的需求
各类行政审批事项需要政府相关部门的业务协同和联合审批,其核心是依托政务专网,实现跨部门的数据共享与交换,保证审批过程的有效衔接和审计。
3.2.3 政务数据开放的需求
各级政务部门在社会管理、公众服务过程中收集形成了海量的政务数据。许多数据需要经“抽取、清洗和转换”,变成可机读的数据,并按照专题开放到互联网上,为法人和自然人提供数据服务。目前,这项工作在全国尚处于起步阶段。
3.2.4 新技术应用的需求
云计算、大数据、人工智能等新技术的引入为政务服务的深入应用创造了有利条件。党中央和国务院已将新技术的应用上升为国家战略。随着“互联网+政务服务”、政务信息资源共享、智慧城市及“数字政府”的建设要求,新一代信息技术也将在电子政务领域中得到加速应用,并引领“数字经济”和国家治理现代化的发展。
4 数据和大数据的术语分析
苏格拉底曾说过,“智慧源于对术语的定义”。要做好大数据应用,必须要弄清楚数据和大数据的区别,给予大数据一个明确的定义,在明确定义的基础上来再来研究大数据的应用。
4.1 数据的定义
在计算机术语中,数据的定义是:“事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材”。在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是具有一定意义的数字、字母、符号和模拟量等的通称。数据经过加工后就成为信息。
4.2 大数据的定义
目前,国际上对大数据没有一个统一的定义,大多数的研究机构都提出了一个宽泛的概念。
(1)研究机构Gartner对大数据的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[3]。
(2)麦肯锡公司是研究大数据的先驱。在其报告《Big data: the next frontier for innovation, competition and productivity》中给出的大数据定义是[4]:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。
(3)国际数据公司从大数据的四个特征来定义,即海量的数据规模、快速的数据流转和动态的数据体系、多样的数据类型、巨大的数据价值。
(4)亚马逊的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。
(5)维基百科中只有短短的一句话[5]:“巨量资料(Big Data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”。
概念上的混乱也影响在实际工作中,甚至误导信息化从业人员和管理者,多数人和部分专家都把数据与大数据混为一谈,好像海量数据就是大数据。这种概念和术语上的混乱,为数据安全和大数据应用的研究和应用都带来了极大的不确定性。
4.3 数据与大数据的区别
数据是独立的和静态的,各应用系统产生各类数据,并为应用系统服务。数据是客观现实真实单一的反映,并不能反映事物的本质或事物发展的规律。
大数据首先需要根据业务需求提出要研究的目标或提出假设,根据目标或假设再从多维度、海量数据中有针对性的收集相关数据,通过建立数学模型和算法、对来自假设目标相关的各类数据进行关联分析,大数据就是通过对多维度数据的关联分析来发现事物的本质或从数据分析中找出事物发展的规律,对未来发展趋势做出判断,为领导决策提供科学的依据。因此,大数据与业务密切关联,从某种意义上来讲,大数据更多的与业务应用系统更接近。
这是数据与大数据的最大区别,大数据的数据应该从各个维度的应用系统所产生,经过抽取、清洗、加工,变成标准的数据放入数据仓库中,为其他应用系统和大数据应用提供数据支撑。
4.4 大数据的主要特征
对大数据的完整理解至少应包括三个方面:数据特征、技术特征和应用特征。
(1)数据特征。一是数据量大,通常为数亿、数十亿级条目数,TB、PB量级的数据存储容量。二是数据类型特别繁多,除了结构化数据外,还包括非结构化数据,如网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。三是价值密度低,需要从海量价值密度低的数据中挖掘出具有高价值的数据。四是对海量数据的快速处理,时效性要求高。这是大数据区分于传统数据分析最显著的特征。五是准确性要求高,在任何情况下,规范化的数据才能迅速恢复使用。
(2)技术特征。一是对海量数据的快速处理,对各种类型的数据进行清洗、转换,变成结构化数据,有利于对数据的重复、高效使用。二是建立适用的模型工具,依据设定的目标和收集到的多维度数据,通过建立各种数学模型和算法进行分析、研究,不断调整模型,使得结论与事物的本质更接近。三是机器学习,就是用算法真正解析数据,不断学习,然后对假设的目标或事物本质做出判断和预测。四是数据规范化要求,这是大数据带来的要求,规范数据及将数据的分级分类,是使用数据和保证数据安全的最基本要求。五是数据标准化要求,数据与应用系统逐步由紧耦合变为松耦合,数据要为多个应用系统提供支撑和使用,数据的标准化是基础。
(3)应用特征。一是需要具有明确的目标,大数据时代的数据多且不规范,使用中需要首先确定目标,确定研究对象和需求,收集与目标相关的各维度数据。二是与业务需求密切相关,所有目标的确定,都是与业务密切相关。三是多维度数据的组合,由于事物的复杂性程度,单一维度的数据可能与事物的真相差距甚远,收集到的相关数据越多,维度越广,则大数据分析的结论越接近事物的真相和事物发展的规律。
5 政务大数据应用
经过近20年的发展,电子政务在社会管理、公众服务、应急保障等各领域积累了海量的政务数据。对政务数据的深度挖掘、多维度收集数据、一体化协同办公、精细化的社会管理及“互联网+政务服务”等,都是党中央、国务院在新时期提出需要落实的工作任务。
大数据反映事物的本质和事物发展的规律,充分利用这近二十年所积累的海量政务数据,对数据进行深度挖掘,结合现有的云计算、人工智能等新技术,多维度的分析数据,掌握其发展规律,为领导科学决策、实现社会治理现代化提供数据支撑将渗透到社会的各领域,政务大数据的应用十分广泛。比如要做好民政低保的核定和发放,需要综合发掘住房、车辆、消费及亲属等相关数据;要研究北京雾霾对人体健康的影响,需要综合多年的气象、环保数据,需要车管局的历年数据研究汽车的增加对雾霾的影响,需要工商、税务的数据研究工厂企业对环境的影响,甚至是京津冀的相关数据及医院就诊和呼吸道病人的临床数据等。类似应用场景会非常多,现在只是在起步阶段。
政务大数据应用的核心是跨部门跨省的政务数据共享与交换,根据业务需求提出目标,通过收集多维度数据的深度挖掘、建立数学模型和算法,对目标进行研究和数据关联分析,从而由过去的问题驱动、需求驱动和业务驱动这些被动型转为数据驱动,真正实现主动服务和实现社会治理现代化,而这才是“数字政府”的本质。
6 大数据环境下的政务数据安全要求
从全国政务数据使用和存储的实际情况来看,各级政务部门在近二十年电子政务建设应用过程中,积累的海量政治、经济、文化、科技、医疗、交通等各类数据,由各级行政职能部门所掌握和使用,其安全保障也由各单位负责。对数据资源的重新认识,对数据的深度挖掘、重复利用不仅关系到各级行政职能部门,还与国家安全相关。必须保证政务数据的安全,并在保证安全的前提下,让数据流动越来,创造更大的价值,引领数字社会发展,进一步释放经济活力,为企业和个人提供更好地的服务。政务数据的安全问题应该从数据本身全生命周期及大数据平台两个方面进行考虑。
6.1 数据全生命周期的安全要求
(1)数据的采集安全。数据由以前的人工录入、应用系统产生发展到现在由各类物联网前端设备产生、收集,其安全的要求应该是可信终端产生的数据,并防止异常终端接入网络。主要的安全措施應该是终端本身的安全要求,如物联网前端芯片的要求及通过设备证书等保证终端设备的可靠性。
(2)数据传输的安全。为保证数据在传输过程中的完整性和可用性,防止数据被篡改或劫持,传输过程中对数据进行加密是一个有效的手段。
(3)数据的使用安全。数据的使用包括共享和交换,包括有人的使用和机器的使用。在数据使用过程中应保证使用者的可信,在数据的全过程可追溯,可通过服务器日志、数据库审计日志进行管理。从大数据应用的发展趋势来看,数据与应用系统应松耦合,把数据作为资源单独于应用系统进行保护,这是信息化发展到现在和大数据应用的必然趋势。
(4)数据的存储安全。除了考虑存储介质的安全外,主要是保证数据的安全,无论是在云计算环境下副本、快照,还是在传统存储环境下的数据,应针对数据的重要程度,实施现场数据备份、异地备份及增量备份和全量备份的存储策略,并定期进行对存储数据的验证、检查及回退的演练,保证数据的完整性和可用性。
(5)数据的销毁安全。对于不用的数据应定期进行清理和销毁。销毁可分为主动数据销毁和被动数据销毁。主动数据销毁是指用户对确定不需要的数据或磁盘进行有针对性的销毁,保证数据的有效销毁。被动数据销毁是指管理人员误操作、用户误操作及恶意攻击人员对数据的破坏,在被动数据销毁后,应能保证有效数据的恢复。
(6)加强对数据安全的管理。如元数据标准的制定和实施,数据的分级分类规范,保证核心敏感数据的重点保护,如加密存储等,加强数据资源目录的动态管理和数据的规范化使用。
6.2 大数据平台的安全要求
(1)大数据平台自身的安全,包括对海量数据快速处理的操作系统,如Hadoop等,各种数学模型和算法,海量的多维度规范数据及离线数据等。
(2)接口的安全。海量多维度的数据主要从各业务应用系统中来,数据的实时更新和流动是保证大数据应用准确和实时的基础,规范的数据接口及对数据的实时抽取、转换、标准化及入库需要实时的监控。
(3)大数据平台上的海量多维度数据的安全保障,其本质还是数据安全的要求,可参照国家标准中对数据的安全要求执行。
7 结束语
目前,国内大数据的应用现在只是起步阶段,各级政务部门既是数据的主要采集和使用者,也是大数据应用的主要推动和使用者,更是推进数字经济发展、引领国家和谐发展的主要力量。正确理解大数据的本质,可以少走弯路,有效促进社会各领域的健康、可持续发展。通过政务数据开放,激发社会和企业活力和创新,充分利用政务数据开发并满足人民群众日益增长的物质和精神需求的产品;通过政务数据的共享与交换,跨部门跨省的政务业务协同,可早日实现一体化在线政务服务,为企业和公众提供更好地的服务;通过提升政务服务水平和平台,为全球经济一体化及来华企业家和个人提供更好的服务,为实现“一带一路”国家战略创造良好条件。
基金项目:
国家重点研发计划资助项目(项目编号:2018YFC0807000)。
参考文献
[1] 国务院关于印发“十三五”国家信息化规划的通知(国发〔2016〕73号) [EB/OL].http://www.gov.cn/gongbao/content/2017/content_5160221.htm.
[2] 国务院关于加快推进全国一体化在线政务服务平台建设的指导意见(国发〔2018〕27号) [EB/OL].http://www.gov.cn/zhengce/content/2018-07/31/content_5310797.htm.
[3] 于鹃.数据仓库与大数据融合的探讨[C]// 软件定义面向未来—2014电力行业信息化年会.
[4] Manyika J, Chui M, Brown B, etal. 2011. Big data: the next frontier for innovation, competition and productivity. mckinsey.com[R/OL].http://www. mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation.
[5] 大数据〔EB/OL〕.https://www.bk.gugeso.site/ wiki/ Wikipedia.