王盟燏 王常珏 李玉海,3
1.华中师范大学信息管理学院 武汉 430079
2.海南经贸职业技术学院 海口 571127
3.华中师范大学中国图书馆创新发展研究中心 武汉 430079
政府数据开放是由政府信息公开发展而来。最早的专门性的信息公开立法是1966年美国颁布的《信息自由法》。在2007年,我国也颁布了《中华人民共和国政府信息公开条例》[1]。政府数据开放是政府信息公开的延续,起源于2009年数据开放运动——奥巴马政府推出首个政府数据开放平台“Data.gov”,英国、澳大利亚、爱尔兰、法国、日本等国纷纷推出政府数据开放计划,全球政府数据开放共享成为趋势。自此国内外学界和业界对于政府数据开放开展了大量的研究和实践。
华中师范大学信息管理学院和湖北省数据治理与智能决策研究中心在2020年发布的《中国政府开放数据利用研究报告》指出:政府开放数据是其他领域问题研究中不可缺少的一个环节,由“特殊利用”走向“泛在利用”[2]。数据由样本变为全体,在大数据开放的背景下,数据是新的重要资源,将形成以数据为基础的扁平化、网络化、平台化、数据化的新型生态[3]。在新型的社会生态环境中,政府的治理逻辑和结构流程创新重点离不开数据治理的创新发展,政府数据治理必须依靠数据,这不是简单的对政府数据本身的治理,而是依据数据治理。政府数据治理能力与政府数据开放息息相关,政府数据开放共享是数据治理的重要内容。政府数据开放是政府数据治理的前提和基础[4]。数据开放的核心在于将独自掌握的原始数据资源提供给公众获取和使用[5]。
但是现阶段我国政府数据的开放实践整体效果却不尽如人意,与美国、英国等国家政府数据开放相比还存在一定差距,如存在数据质量差异大、用户参与度低、有效利用率不高等问题[6-7],政府数据治理面临多方面的挑战。为解决这些问题,黄如花、段尧清、陈朝冰、杨正等学者分别在2016、2017、2018、2019年对政府数据开放研究做过共享研究述评(2005-2015年)[8],采用词频统计、聚类分析和共享分析方法对中外政府开放数据领域的研究热点与前沿问题进行分析[9],利用发表时间、作者、期刊等变量的分布特征和关键词聚类的方法对政府数据开放做了进展与趋势研究(2013-2017年)[10],利用Web of Science核心集)对政府数据开放利用做了科学计量分析[11]。但目前对我国政府数据开放研究文献主题的内在关联时序演化的深度挖掘和对研究成果来源及学科分析研究较少。随着政府数据开放研究主题的深化、扩大,迫切需要厘清与梳理近10年来我国政府数据开放研究的理论方法与实践应用研究,为新时代我国政府数据开放理论研究与实践应用提供参考路径。
本研究选取CNKI中国知识资源总库收录的主题词为“政府数据开放”“政府开放数据”“开放政府数据”,论文发表时间限定为2011年1月1日至2020年12月31日,期刊来源类别选择中国社会科学引文索引(CSSCI)和中文核心期刊要目总览的中文期刊论文,经过人工剔除不相关文献,检索得到文献622篇作为国内政府数据开放研究分析样本。本文运用文献调查法和知识可视化的方法,使用BICOMB2.0、COOC9.94等文献分析软件作为主要分析工具。
从图1可知,我国政府数据开放发文量在2011-2018年呈快速发展阶段,2019年至今发文量趋于稳定。2017年和2018年是国内发文量高峰,表明近年来政府数据开放逐渐受到关注并具有持续研究关注度。基于样本文献的时间分布,政府数据开放研究分为3个阶段:
图1 2011-2020年政府数据开放研究文献发文量
(1)起步期(2011-2014年)。此阶段发文量较少,研究初期的主题分布差异性较大,研究最多的主题是电子政务[12-14]。此外,研究较多聚焦于对国外政府数据开放成果的引介,研究内容为国外政府数据开放数据管理与利用[15]、保障机制[16]、历史与进展[17]、门户功能[18]。在实践方面,2012年我国建立了第一个政府数据开放平台——上海政府数据服务网[19]。
(2)发展期(2015-2018年)。2015年国务院发布《促进大数据发展行动纲要》,标志着国家开放政府数据顶层设计正式启动。此阶段政府数据开放研究成果数量增长迅速,而电子政务和对国外政府数据开放理论和实践的研究始终是重点内容[20-22],但是政府数据开放研究主题扩散到大数据[23]、数据治理[24]、公共服务[25-26]、政策[27-28]、元数据[29]等更宽泛的视域和更专深的研究。
(3)稳定转型期(2019-2020年)。2019年初,《中华人民共和国政府信息公开条例》修订公布,此阶段政府数据开放研究发展增速放缓并趋于稳定,学者对大数据、电子政务、数据治理、政策、元数据等重点研究主题做了更深入的研究,如对政策进行演化分析和主题分析[30-31],在政府开放数据研究取得阶段性成果后,更多的学者关注数据和数据平台的质量保障和评估主题[7,32](特别是在应对突发事件的政府开放数据的质量评估)研究[33],我国政府数据开放共享标准体系构建也提上日程[34]。2020年4月9日,国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,将数据资源作为一种新型生产要素[35],“数据要素”成为新的研究热点,我国政府数据开放研究迈入转型期。
运用CNKI及BICOMB2.0对我国政府数据开放研究样本文献的来源进行文献分析。主要分析样本文献的发文作者和发文机构。
从样本文献发文作者来看,2011-2020年发文量在10以上的作者有10位(见表1),分别是:黄如花、马海群、陈美、郑磊、翟军、夏义堃、周文泓、陈朝兵、段尧清、林岩。学者们对该领域问题进行了持续、深入研究,10位学者10年研究成果占总发文量的35%。
表1 样本文献中发文量在10篇以上的作者
从研究机构来看,研究成果分布较为集中。我国政府数据开放研究成果主要集中在高校信息管理学院及信息资源研究中心,发文数量前5位的高校是武汉大学、黑龙江大学、湖北工业大学、华中师范大学、四川大学。详细情况见表2。
表2 样本文献中发文量10篇及以上的机构
运用CNKI及BICOMB2.0对我国政府数据开放研究样本文献的来源学科和刊文载体进行统计分析。主要分析样本文献学科分布(见图2)和载文期刊(见表3)。
图2 样本文献发文量前10学科
表3 样本文献刊文量10篇及以上的期刊
从学科领域来看,根据CNKI的学科分析工具,发文数量前5位的学科是行政学及国家行政管理、新闻与传媒、图书情报与数字图书馆、中国政治与国际政治、行政法及地方法制,分别占总研究样本的42%、25%、12%、7%、5%。
从载文期刊来看,刊文量10篇及以上的期刊有13种,排名前5位的是《电子政务》(59篇)、《图书情报工作》(40篇)、《情报理论与实践》(37篇)、《情报杂志》(37篇)、《图书馆》(30篇)。13种期刊中11种属于图书情报学相关领域,1种属于电子政务领域,1种属于政府管理领域。政府数据开放研究成果在《电子政务》刊文量最大,但从期刊所属领域总体来看,图书情报学领域的期刊是研究成果的主要刊文阵地。
2011-2020年我国政府数据开放研究成果发文机构、研究学科和载文刊物较为集中。综合来看,主要集中在武汉大学、黑龙江大学等高校的信息管理学院和信息资源管理研究中心;虽然行政学及国家行政管理学科发文量最多,但是发文机构来源较为分散;图书情报学领域的期刊是样本文献研究成果的主要发文阵地。
为更直观地分析2011-2020年我国政府数据开放研究主题分布,对622篇样本文献进行关键词统计分析,选取出现频次为10及以上的关键词进行可视化社区聚类。
样本文献的主题分布见图3。关于“政府数据开放”的研究高度集中在电子政务、政府信息公开、公共服务等内容,映射出该主题研究服务于电子政务信息公开的公共服务需求导向,其他主题词频度由高到低依次为:大数据、信息公开、隐私保护、政策、数据开放平台、电子治理、信息资源、政府信息、信息安全、物联网+、个人隐私等。
图3 样本文献的主题分布
图3表明,研究者对“政府数据开放”的研究方向主要围绕开放数据平台、数据质量及评估、元数据及元数据标准、政策协同及工具等问题展开研究。图3还显示,“政府数据”“数据开放”也是我国政府数据开放的研究重点,研究内容主要集中在数据治理、政府治理、数据管理、数据共享、开放平台、政府数据治理、政策体系、数据安全、开放政策、法律法规等问题。
通过对样本文献的主题分布聚类分析,发现“政府数据开放”的研究领域较“开放政府数据”“政府开放数据”更为广泛,学者们研究“政府数据开放”研究的目的是提高政府数据的利用效率,他们对政策法律、信息安全、隐私保护等问题有较多的理论研究。学者们对“开放政府数据”“政府开放数据”的研究主要围绕数据平台、数据质量及评估、元数据及元数据标准、政策工具等方面的实践和应用展开。
我国政府数据开放研究样本文献主题的时序演进可视化分析是对样本文献时间和主题词进行统计分析。本研究采用主题词演化累积可视化分析(见图3),图中的主题词统计标注在最早出现的年度,圆圈越大代表该主题词在后续研究中出现的频率越高,即关注热度越高。笔者选取2011-2020年每年度主题词词频排名前6位的关键词进行主题词演化累计可视化分析,以找到重要研究主题并梳理其发展脉络,追踪其研究关注度。
3.2.1 主题词年度演进情况分析
表4为2011-2020年在样本文献中词频排名前6位的主题词。由表4可知,“开放政府数据”“政府开放数据”“政府数据开放”作为独立的研究主题分别出现于2011年、2012年、2013年,对政府开放数据的实践及应用研究早于理论研究。
表4 样本文献年度主题词词频排名前6位的关键词
3.2.2 主题词时序演进积累分析
(1)起步期(2011-2014年)。“开放数据”“开放政府数据”“电子政务”“信息公开”“关联数据”“数据管理”“政府开放数据”“开放政府”“政府数据开放”“政府数据”“政府信息公开”“公共服务”“保障机制”“大数据”“英国”“政府”“开放数据平台”学者们持续对以上主题保持研究热度,“数据服务”“实证分析”“贸易开放”“数据密集型科学”“平台建设”“大数据产业”等主题研究的关注度走低,缺乏研究持续力。
(2)发展期(2015-2018年)。这一时期学者们对起步期的主题做了深化研究,主要研究热点有“地方政府”“数据治理”“政府治理”“数据开放平台”“数据质量”“数据政策”“隐私保护”“元数据”“美国”,研究热点主题逐渐稳定,具有研究持续性;数据开放平台、数据质量、数据政策、元数据、数据利用相关研究主题领域成果丰富。
(3)稳定转型期(2019-2020年)。这一时期学者们对政府数据开放研究主题呈现泛化和跨学科性,主要趋势为更加重视社会和市场的研究维度,“数字经济”“数据要素”“模糊集定性比较”“新智库建设”“市场化配置”等成为新的研究热点主题。
综上所述,自2011年起学者们对政府数据治理的相关政策、法规、保障机制、隐私保护、数据管理、数据治理、数据质量、平台建设等问题进行不断深入的研究,这些一直是该领域的研究重点问题。2019年之后,学者们多从社会和市场的维度对该主题进行研究,主要研究数据的价值和利用。具体情况如图4所示:
图4 样本文献主题年度演进
本文运用文献调研法和文献分析工具,对文献的研究对象和研究内容进行分析和述评,全面系统地展现了我国政府数据开放研究的热点和发展态势。在全球政府数据开放的背景下,我国学者对政府数据开放展开研究,致力于研究我国政府数据治理不同阶段中亟需解决的重要问题。相关研究主要围绕数据采集、数据组织、数据储存、数据处理以及数据共享与利用等政府数据治理不同阶段的政府数据开放全过程开展研究。笔者从核心作者(见表1)、发文主要机构(见表2),并结合主题分布(见表4)及时序演进(见图4)进行综合分析,发现学者们研究我国政府数据开放的范围较广,但是研究多集中在政府开放数据的保障、范围、实现路径及工具、发展目标4个方面。结合样本文献发文主题聚类分布,将研究文献成果归纳为政策与法规研究、管理与治理研究、平台研究、价值与利用研究4类,并选取具有代表性的文献进行评述。
2013年以来,我国学者对政府数据开放政策及法律法规进行了大量研究,主要有以下4个方面:
(1)对国外政府数据开放的保障性法律进行研究。如王新才等[36]、孙旭培等[37]、龙非[38]等研究了《信息自由法》在美国、澳大利亚、德国的应用及对中国的启示。
(2)对政府数据开放共享保障机制问题进行研究。黄如花等对这一问题进行了持续深入的研究,主要对英国[39]、丹麦[40]、美国[41]、法国[42]政府数据开放政策法规保障及对我国的启示,政府数据开放共享政策与标准[27]、政策问题的构建[43]、政策框架与内容[44]、政策体系构建[45]、标准体系构建[46]等问题展开了研究。
(3)对政府数据开放过程中隐私保护问题的研究。陈美等对德国[47]、澳大利亚[48]的个人隐私保护政策及措施进行研究,对法国[49]、英国[50]、新西兰[51]隐私风险评估与防控经验进行研究;张晓娟等[52]以政府数据开放与个人隐私保护之间互为平衡、彼此促进的相互关系为切入点,梳理了中美在政府数据开放和个人隐私保护方面的各项政策和法律法规,分析了两国在实践中的经验。
(4)对现状和问题的研究。马海群等自2015年起对政府开放数据政策与治理进行比较研 究[53-54], 用 WSR(WuH-Shili-Renli System Approach)方法论对政策分析框架进行结构分析[55],对政策进行评估[56]和执行力影响因素研究[57];刘新萍等[58]以上海市为例对政府数据开放的潜在风险和对策进行了研究;谭必勇等[59]以15个副省级城市为例对地方政府开放政策进行了研究。
黄如花、陈美、马海群等学者主要对政府数据开放共享保障机制问题、隐私保护政策及风险评估与防控、政策分析及评估等问题展开持续深入的研究。目前我国政府数据开放法律法规和政策体系不健全,缺乏个人隐私保护的法律法规政策,对政府数据开放的监管不到位存在潜在风险,我国各地方政府开放数据政策体系建设情况差距较大,尚处在起步阶段。
关于政府数据开放中的管理和治理问题的研究按照关注热度(见图3)可以分为两个阶段,2011-2014年学者们主要研究方向为“数据管理”,2015之后学者们对“电子治理”“政府治理”“数据治理”等主题开展了更多的研究。
在第一个阶段,徐慧娜等[60]从公共管理的视角对国际政府数据开放研究的文献进行研究,其认为“政府数据开放”主要是对数据层面和管理层面进行管理,前者包括数据准确性、数据保密、数据整合、数据背景描述、数据所有权、数据位置、用户对数据的使用和解读能力等,后者包括权力结构、组织架构、部门利益、组织文化和人员意识等,这些影响因素间呈现动态互动关系;侯人华等[61]以美国www.data.gov为例, 从数据管理的视角,分别对其数据的特点、数据采集方式、数据管理策略、数据利用方式以及优势5个方面进行案例分析,通过对美国数据网站的开放政府数据集特征、管理和利用的分析来揭示美国数据网站在信息公开过程中对数据信息资源的管理与利用方式、方法和水平。
在第二个阶段,夏义堃、翟军、赵龙文等学者对这一问题进行了深入研究。夏义堃对政府数据治理的生成背景[62]、概念框架[24]、治理维度[63]和模式[64]、国际经验[20]进行了研究,同时对政府首席数据官制度[65]进行了探讨;翟
军等主要从数据层面进行研究,主要对政府开放数据质量评价[66-67],元数据核心集[68]、方案[69]、本体设计[70],跟踪研究美国、欧盟等元数据标准DCAT进展[71-73];赵龙文等主要基于语义和关联对政府数据开放进行资源描述[74-76]、检索[77],政府数据开放实现方法[78]和模式[79]等问题进行研究。
政府数据开放管理与治理研究领域学者们主要从数据层面和管理层面进行研究,在数据层面,学者翟军和赵文龙等主要从数据质量及评价、元数据、元数据标准、数据的描述和检索(语义和关联维度)等主题展开研究;在管理层面,夏义堃对政府数据治理进行了综合研究。目前我国政府数据开放的战略和制度不够健全,国内外规范标准和技术融合度不高,数据的价值属性方面的研究成果不丰富。
2014-2020年,学者一直关注“开放数据平台”“平台建设”“数据开放平台”“政府数据开放平台”等研究主题,产生了大量的研究成果,主要研究方向有平台保障政策研究、平台数据研究、平台软件开发与功能研究、平台质量及评估研究、平台发展现状分析等方面。这里为避免与上文重复,主要对后3个研究方向代表成果展开论述。
(1)平台软件开发与功能研究。钱晓红等[80]基于数据集开放来构建政府数据开放平台并提取了5个技术特征;李盼等[81]和陈美[82]认为可以应用Drupal和CKAN(the Comprehensive Knowledge Archive Network)建构我国政府数据开放平台的框架体系。
(2)平台质量及评估研究。马海群等对这一类问题使用多种方法和工具进行深度研究,方法一是基于结构方程法建立政府开放数据网站服务质量评价的六维度测量模型[83];方法二是建立了政府开放数据网站评价指标体系,利用神经网络的BP(Back Propagation)算法确定总体的评价结果[84],方法三是基于DEA(Data Envelopment Analysis)对我国8个具有代表性的政府开放数据网站效率进行评价[85]。
(3)平台发展现状分析。汤志伟等[86]对全国18个政府数据开放平台进行实证分析,结论是政府数据开放平台发展水平影响因素主要有数据开放政策数量、地方经济发展水平和信息产业发展水平等因素。东方[87]、王萍等[88]学者对国内外政府数据开放平台进行了调查分析并做了研究述评。
我国政府数据开放平台研究成果丰富,形成了“省级—副省级—地方”层级式分布特征[88],但是存在功能单一、用户参与度低、质量参差不齐、资源描述模糊、运营管理不及时、权限管理不清晰等问题[10,35,89]。学者们聚焦平台软件开发技术与国际融合,质量和评估与用户利用提升关联等问题进行研究,解决了我国政府数据开放平台现阶段实际问题。
2019年生效的美国《开放政府数据法案》和欧盟《开放数据指令》树立了全球典范[90],2020年4月9日,国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,提出了新型生产要素——数据资源。以上法案和意见的提出,为学者研究提供了新思路。2019-2020年,王卫、段尧清、付熙雯和郑磊等对政府数据开放的价值与利用集中展开研究。王卫等主要对开放政府数据价值的保障机制[90]、实现理论及框架[91]、实现影响因素[92-93]等问题进行研究。段尧清等以开放数据本身作为切入点,分析了政府开放数据静态利用状况[94],并基于情境理论提炼出政府开放数据公众初始接受行为的影响因素[95],结合数据与用户,建立政府开放数据服务水平的评价指标体系[96],得出政府开放数据服务水平与数据可利用性具有较高的关联性,且具有层次性,此外利用用户的数据敏感度、补救时机、用户感知与预期质量等变量构建政府开放数据服务失误补救时机策略模型[97],以提升政府开放数据服务水平和政府开放数据利用价值。付熙雯和郑磊等认为目前学界对政府开放数据价值的研究集中在探讨政府开放数据的预期价值,主要有价值类型、价值生成机制以及价值测量3个方面,评价开放政府数据成效的终极指标是评估数据在开放和利用后所产生的价值,并从理论和实践两条路径对开放政府数据价值测量进行研究[98-100]。
目前,对于政府开放数据价值及利用的研究缺乏对预期价值的实证研究,对价值生成机制和保障机制以及价值测量方法、框架、指标研究成果较少,还存在政府开放数据动态利用状况研究不足,缺乏利用和效果之间的检验等问题。
通过梳理2011-2020年我国政府数据开放文献,发现研究样本具有政策导向、主题多元、学科交叉、成果较为集中等特点。
(1)我国政府数据开放发文量及研究主题受国家法律法规及政策影响大。政府数据开放研究分为3个阶段:第一阶段(2011-2014年),发文数量较少,相关研究国内学者较少关注;第二阶段(2015-2018年),2015年国务院发布《促进大数据发展行动纲要》,此阶段政府数据开放研究量成倍增长,在2018年达到高峰,备受国内学者关注;第三阶段(2019-2020年),2019年《中华人民共和国政府信息公开条例》修订公布,2020年4月国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,此阶段发文数量到达峰值后有所回落并趋于稳定,学者开始聚焦在对政府开放数据的价值及利用方面进行研究。
(2)我国政府数据开放研究主题呈现泛化。我国政府数据开放研究从早期的关注概念、特征、技术、组织建设深化到政策、数据、用户、平台建设、价值与利用等方面。总而言之,该研究领域已经产生了大量高质量研究成果,大数据、人工智能、数字经济、数据要素等新技术理念的渗透带来新的研究切入点。
(3)我国政府数据开放研究具有跨学科性。我国研究者主要来自于高校机构,利用行政管理、情报学、公共管理、计算机软件及应用、经济学、系统动力学等学科领域的理论、方法和技术来分析政府数据开放,具有多学科融合发展趋势。
(4)我国政府数据开放研究成果较为集中。样本文献发文期刊主要集中在图书情报、电子政务、政府管理领域。发文较多的作者主要集中在武汉大学信息管理学院和信息资源研究中心、湖北工业大学经济与管理学院、华中师范大学信息管理学院、四川大学公共管理学院、黑龙江大学信息管理学院和信息资源管理研究中心等机构。综上,我国政府数据开放高质量研究成果主要集中在图书情报学、公共管理等学科领域。
(5)政府数据开放发展趋势预测。根据研究样本文献分析,发现目前缺少数据的价值属性的探索,数据动态利用、地方政府开放数据政策统一标准制定,可预测未来研究趋势如下:①在数字经济视域下,研究政府开放数据的价值生成机制、保障机制和市场化配置,有利于提高政府数据开放整体质量控制,提升数据要素经济和社会价值;②价值测量的方法、框架、指标的研究,有助于提高数据的利用率;③关注用户进行利用和效果之间的实证研究,有利于对开放数据进行监督和管理;④增加更细粒度的法律法规政策,保障政府数据共享及使用过程中的安全问题。