王娟李 玉海
摘要:[目的/意义]政府开放数据质量是影响人们获取利用开放数据的重要因素,研究政府开放数据质量控制机制,对优化政府开放数据质量,促进公众更广泛地参与,实现政府开放数据宗旨具有重要意义。[方法/过程]本文运用演化博弈理论,构建了有限理性的政府开放数据提供者和使用者的复制动态模型,分析在不同的数据质量监管状态下博弈双方的进化稳定策略以及实现政府开放数据质量控制的均衡条件。[结果/结论]研究结果表明:高于一定阈值的监管激励能够有效控制政府开放数据质量.建立科学的数据质量评估标准和数据质量过滤机制,降低提供优质数据的额外成本以及完善数据发布机制有利于提高数据质量控制效率。
关键词:政府开放数据;数据质量控制;进化稳定策略;演化博弈
DOl:10.3969/j.issn.1008-0821.2019.01.012
[中图分类号]D63-39 [文献标识码]A [文章编号]1008-0821(2019)01-0093-10
政府数据开放(Open Governmem Data,OGD)是政府或政府控制的實体产生的,可以被任何人自由使用、重用和再分配的数。增加政府透明度和数据重复利用是开放政府数据的两个主要目的:一方面政府开放数据可以提高政府机构的透明度,提升政府公信力,改善政府与公众之间的关系,并使公众能够直接获取数据并利用数据参与数据驱动型决策,将被动沟通模式转变为更为积极的公众参与;另一方面,开放政府数据供社会公众重复利用以增值和创新,从而有效盘活政府数据资源,创造巨大的社会公共价值,推动经济增长和社会发展,提升国家整体竞争力。
尽管开放政府数据旨在释放政府、公众的创新潜力,但其有效使用也面临着重大的挑战。第四版开放数据晴雨表报告指出,政府开放数据通常是不完整的、过时的、质量低下且零散的。在政府机构中,政府数据开放的时间表、流程和责任往往不够明确。这使得整体开放数据管理和发布工作非常薄弱,而且容易产生多种错误。学者Lourenco对美国、英国、加拿大等7国的政府开放门户网站进行评估,研究发现这些门户网站缺乏独立或外部数据质量控制机制。
数据质量是开放数据价值的关键,是影响政府数据开放实现增强政府透明度和数据重复利用两个目标的主要因素。开放数据的质量的不确定性对开放数据价值的实现造成巨大威胁。政府开放数据的使用者通常不是数据提供者,如果没有专业的数据科学的知识来甄别数据基础质量的能力,可能获取低质量的数据却无法意识到数据质量不足,从而影响根据低质量数据分析结果做出的任何后续决策。此外,政府数据开放中的数据质量控制失败不仅会妨碍数据的再利用,还会给开发数据门户的访问和使用带来负面影响。
因此,在当下我国政府数据开放平台建设的关键节点,有必要对如何控制政府开放数据质量进行深入研究,探讨并实施可行的数据质量控制方案,从而促进政府开放数据的获取再利用,实现开放政府数据的宗旨,推进政府数据开放行动的顺利开展。
政府开放数据提供者为保障开放数据质量,需要投入大量的技术成本、人力成本和资金成本等;开放数据使用者需对政府所发布的开放数据予以积极关注、跟踪参与、浏览检索下载等,甚至在某些情况下需要按规定取得许可才能访问获取,所以获取政府数据需支付资金、时间、技术等成本。从经济理性角度来讲,政府希望以较少的成本提供开放数据让更多的公众关注、获取、利用开放数据从而促进数据重复利用、释放数据潜能;而用户期望通过支付成本获取优质数据,并能通过数据开发利用实现数据价值,否则可能拒绝获取政府开放数据。可见,政府开放数据提供者与使用者间就数据质量问题存在着博弈。因此,针对政府开放数据质量控制研究引入博弈论的研究方法具有可行性与必要性。
本文从演化博弈角度出发,将政府开放数据提供者和使用者作为博弈双方,分析双方在政府数据开放与获取过程中的进化稳定策略,找出政府开放数据质量控制的均衡条件,进而探讨政府开放数据质量控制机制,以期从开放数据供给的源头上进行质量控制,从而提高数据质量以及政府开放数据的利用率。
1博弈模型选择与构建
政府开放数据的供给与获取是个动态变化和重复的过程。由于数据质量通常是一个多维和相对主观的概念,数据质量的优劣也较难判断,并且大多政府开放数据普通用户和一般政府工作人员往往不具备专业系统的数据科学的知识,因此,政府开放数据参与者的理性通常是有限的,他们必须在博弈过程中学习,经过反复试错以寻找较好的策略,通常不是一开始就能找到最优策略。
有限理性博弈分析的关键是确定博弈方学习和策略调整的模式。由于政府开放数据参与者普遍存在理性的局限性,在反复博弈过程中具有大群体随机配对的特征,适宜采用演化博弈中的“复制动态”模型来进行分析。
1.1博弈方与策略选择
政府数据开放构成一个生态系统,开放政府数据(OGD)可被视为政府和公众之间的跨界信息共享,包括企业、非营利组织和个人。因此,政府开放数据环境下最基本的参与者包括政府开放数据提供者和开放数据使用者。政府开放数据提供者包括各级政府部门、非盈利组织、承接政府外包业务的服务商等;开放数据使用者则是通过政府开放数据门户、平台获取并利用开放数据的任何用户,包括企业、非营利组织、科研团队和个人。
依据政府开放数据实践的实际情况,参与者还包括政府开放数据管理者,对数据的供给和利用起到一定审核、管理作用的组织和机构,通常是专门的政府开放数据管理部门或配备具有专业数据统计技能的专家的第三方部门机构。
本文依据政府开放数据质量的好坏将其分为优质数据和劣质数据两类,其中优质数据主要指具有规范性、完整性、一致性、准确性、及时性、可解释性和可信度高的高价值密度的开放数据,而劣质信息与之相反,主要指无序重复、缺漏、不一致、模糊、滞后的低价值密度的开放数据。在政府开放数据生态环境下,数据提供者根据自身拥有的数据资源状况选择提供优质数据或劣质数据,而数据使用者在无法判断数据质量优劣的情况下选择是否获取数据。
在有限理性博弈的分析框架中,其核心不是单个博弈方的最优策略选择,而是有限理性博弈方组成的群体成员的策略调整过程、趋势和采用稳定性。此处稳定性指群体成员采用特定策略的比例不变,而非某个博弈方的策略不变。因此采用生物进化的“复制动态”机制来模拟该博弈策略调整模式。
1.2研究假设
为了便于构建政府开放数据参与者针对数据开放与获取的演化博弈模型,结合政府数据开放实践的实际情况,本文做出如下假设。
假设1:博弈中存在两类博弈群体,分别是政府开放数据提供者(G)和开放数据使用者(U)。博弈方群体G(以下简称G)的策略集合为{g=优质数据,b=劣质数据};其中提供g类数据的比例为x(0≤x≤1),则提供6类数据的比例为1-x。同时,博弈方群体u(以下简称u)在不明确其数据质量优劣的情况下,可选的策略集合为|a=获取,r=不获取};其中获取数据的比例为y(0≤y≤1),则采取“不获取”的策略的比例为1-y。