基于LDA 模型的我国开放公共数据政策供给特征分析

2023-08-14 16:02马海群张斌
现代情报 2023年8期
关键词:政策分析模型

马海群 张斌

摘 要: [目的/ 意义] 完善的公共数据开放政策是确保我国公共数据能够有效开放的重要保障。从“供给侧” 角度出发进行分析, 揭示我国开放公共数据政策供给特征, 为相关部门制定政策和公共数据高质量开放提供借鉴和参考。[方法/ 过程] 在“北大法宝” 和我国各级政府官方网站中检索我国开放公共数据相关的政策文本, 然后进行人工二次筛选。之后运用LDA 模型方法对我国公共数据开放政策进行聚类量化分析, 进而归纳出我国开放公共数据政策供给特征。[结果/ 结论] 我国开放公共数据政策供给特征呈现出明显的“ 差异性” 和“不均衡性”。即重视日常状态下的开放而对于“应急状态” 下的开放没有给予足够的重视; 同时也存在着公共数据开放的政策涉及“领域” 不均衡和“地域” 不均衡的特点, 欠缺构造一个涉及广泛领域的开放公共数据政策网络来促进公共数据中的价值得到有效释放。

关键词: 开放公共数据; 政策分析; 政策聚类; 政策供给特征; LDA 模型

DOI:10.3969 / j.issn.1008-0821.2023.08.004

〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 08-0035-10

在大数据时代, 政府作为社会数据的最大拥有者和掌握者, 把不涉及国家安全、商业机密以及个人隐私的数据开放出来, 满足社会各界对于数据资源的需求, 是政府提升公众满意度、提升政府满意程度的重要举措[1] 。我国政府对公共数据开放工作高度重视, 2022 年, 国务院印发《“十四五” 数字经济发展规划》[2] , 要求“构建统一的国家公共数据开放平台和开发利用端口, 提升公共数据开放水平”。2021 年, 在《中華人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》[3] 中提到, 要提升数字政府的建设水平, 加强公共数据开放共享。各个地方政府也积极响应, 出台一系列相关的配套条例, 促进本行政区域内的公共数据开放工作。可以说, 从中央到地方, 对公共数据开放均给予了较高的重视程度。

但是目前而言, 大多数地方的公共数据开放仅仅是政府信息公开的“升级版”[4] , 没有产生公共数据开放应有的效果, 地方政府对于如何对公共数据进行开放仍然没有一个较为清晰的概念, 无法更好地释放公共数据开放的红利。因此, 深入分析我国公共数据开放政策文本内容, 探究其供给特征, 一方面为后续相关政策的完善提供借鉴和参考; 另一方面也更好地促进相关公共数据开放工作稳步推进。

1 相关研究述评

1 1 开放公共数据研究

从开源的视角出发, 公共数据开放可以追溯到20 世纪80 年代以自由开放操作系统为代表的开源运动[5] 。随着大数据技术的发展, 开源运动从技术和系统领域逐步发展到数据领域, 公众开始呼吁数据开放。特别是进入21 世纪以来, 美国[6] 、澳大利亚[7] 、加拿大[8] 以及巴西[9] 等国家(地区)先后对自身所掌握的公共数据进行了开放。虽然国内公共数据开放起步较晚, 但是也取得了相当数量的成果。陆敬筠等[10] 以上海市公共数据开放平台的访问数据为研究对象, 构建了上海市公共数据开放平台的用户画像, 并分析了用户的行为特征, 结合分析的结果提出了相应的优化策略; 高争志[5] 分析了公共数据开放制度的价值定位以及实现路径, 认为应当以价值目标为导向, 对公共数据开放的概念进行重新界定, 同时在此基础上构建出不同类型的公共数据开放机制; 储节旺等[11] 对公共数据开放的主体责任进行了研究, 提出可以从数据来源、平台建设、消除数据孤岛等方面优化政府的主体责任;郑磊等[12] 以上海开放数据创新应用大赛为例, 对公共数据开放的产出与效果进行了研究, 指出公共数据开放具有巨大的潜在商业效益和社会效益; 蒲攀等[13] 通过内容分析、系统分析等方法, 构建了我国开放数据政策的S-R-P 理论模型。国外对于公共数据开放的研究重点侧重于通过案例进行分析。

Pereira G V 等[14] 分析了里约热内卢公共数据开放中心的案例, 认为公共数据的合理开放能够为智慧城市运营提供数据支撑, 同时也提高了数字政府的运行效率; Lakomaa E 等[15] 学者以瑞典企业家为案例, 研究了他们对于公共数据开放的看法, 认为合理的政策支撑能够确保公共数据得到有效开放, 并且能够最大限度地激发其中所蕴含的价值; Verslu⁃is L 等[16] 爬取了若干个城市系统的开放公共数据流, 发现不同工作负载源、领域和领域之间的特征、属性和工作流结构存在重大差异。

1 2 开放公共数据政策研究

公共数据开放运动在全球如火如荼展开以及国内外学者对公共数据开放给予较高关注度的同时,关于“开放公共数据政策” 的相关研究也开始越来越多地被学者们关注。特别是随着“数据” 作为生产要素的地位在不断地提升, 如何从政策的角度出发, 对规范公共数据开放行为, 更好地发挥其在国家治理、透明政府和公共服务方面的作用有重要的意义。王本刚等[17] 通过对国内外相关政策文件内容进行解读, 对公共数据蕴含的“公共价值”进行了探讨, 界定了公共数据的公共价值概念。孙瑞英等[18] 认为, 目前公共数据开放政策存在预测、引导作用不足, 忽视个人信息保护方面的内容, 政策目标和当地情况的协同程度有待提升的问题。因此, 马海群等[19] 从关联规则的角度出发, 对开放政府数据政策的协同性进行了分析, 为减少政策冲突、增强政策之间的兼容性提供了借鉴和参考, 付熙雯[20] 也从数字中国建设的角度出发, 提出了公共数据开放政策的优化策略。除此之外, 对于日本[21] 、美国[22] 、英国[23] 、丹麦[24] 和加拿大[25] 等国家(地区)的公共数据开放政策进行研究, 从中总结出能为我国所借鉴和采纳的相关经验, 也是我国学者所关注的研究方向之一。

而国外对于公共数据开放政策的研究或者是以具体国家为研究对象, 如Sumitomo T 等[26] 学者对于日本的开放公共数据政策进行了研究, 发现日本政府、学术界和企业三方在完善开放公共数据政策体系中发挥了主要的作用; Viscusi G 等[27] 和Jung K等[28] 分别从概念模型和语义网络的角度出发, 指出“概念建模” 在激发公共数据潜在价值方面具有重要的作用, 并且更好地发挥“公共数据” 的“社会价值” 的作用, 并为将“公共数据” 的开放纳入数字经济生态体系提供了借鉴和理论支撑。

1 3 LDA 模型研究

LDA 主题模型是学者Blei D M 等[29] 于2003 年提出的一种文本分析模型, 该模型的提出有效弥补了PLSA(概率隐形语义分析模型)的缺陷, 提升了对深层次文本内容挖掘和语义分析的精准度与效率。LDA 主题模型认为, 每篇文档包含若干个主题, 每个主题包含若干个词语。从文档到主题再到词语, 三层之间是通过一定的概率进行选择, 即每个文档按照一定的概率选择了某个主题, 某个主题再按照一定的概率选择了某个词语, 重复上述步骤得到了一整篇文档[30] 。国内对于LDA 主题模型的研究一般集中在情感分析[31] 、主题挖掘[32] 、文本分类[33] 以及话题演化[34] 等方面, 或者是通过相关算法研究、推荐算法来实现对现有LDA 主题模型的改进[35] 。如池毛毛等[36] 对酒店用户评论文本进行情感分析; 田园等对在线教学需求数据进行主题挖掘与分析; 吴江等[37] 采用LDA 模型对在线医疗社区的文本分类进行了研究; 孙玉洁等[38] 从LDA主题模型的角度出发, 提出一种新的多角度个性化微博推荐算法, 并实证了该算法的有效性; 王璟琦等[39] 利用LDA 模型对空间自相关背景下的网络舆情话题演化时空规律进行了分析。国外采用LDA主题模型基本侧重点在对主题模型进行深化以及不同领域的研究, 主要从协同过滤[40] 和个性化推荐[41] 、图像分类标注与检索[42] 等不同方面进行应用; 深化则主要集中在对“作者—主题模型”[43] 以及“分层狄利克雷过程”[44] 等拓展模型进行研究。

针对公共数据开放政策的相關研究虽然已经取得了一定数量的成果, 但是多就政策文本本身采用定量分析、定性比较或者总结归纳等方式进行研究, 多倾向于“需求侧” 角度。但是公共数据政策是一个涉及“供给侧” 和“需求侧” 两个方面的复杂系统, 只有“供给侧” 和“需求侧” 都彼此适配, 才能促进我国公共数据开放政策体系的完善, 保证我国的公共数据释放出自身内部的价值。因此, 本文采用LDA 主题模型, 对开放公共数据政策文本进行挖掘, 从“供给侧” 角度出发, 找到政策文本的侧重点, 分析其中还有哪些需要补充和完善的地方, 尝试为构建涉及不同层级单位、不同领域的全方位开放公共数据政策体系网络提供学理支撑和参考, 也能够与以往研究相呼应。

2 研究方法选择与数据的获取和预处理

2 1 研究方法

本文之所以选择LDA 主题模型作为分析工具,主要原因有以下两点: 第一, 该模型是一种无监督的经典学习方法, 且在分析不同领域和不同类型的政策方面都有着较好的实践效果; 第二, 采用LDA主题模型能够有效挖掘和分析政策文本内部潜在的主题, 更好地理解政策文本的内涵和精髓, 提高了政策文本分析的细粒度和精确度。而本文的研究目的是寻找公共数据开放政策供给的侧重点, 需要透过政策表面来看政策文本内部之间的联系, 符合应用LDA 主题模型的条件。而政策文件的主题词是对一篇政策文件主要内容的阐释, 而且为了保证政策文本在执行的时候能够取得预期效果, 所以在词语选择上均经过深思熟虑, 以求避免相关政策产生二义性, 通过分析了解一篇政策文件的主题词都有哪些, 以及每个主题词出现的频次的高低和共现情况,能够有效地了解整篇政策文件的内容。所以本文从主题词和LDA 主题模型两方面出发, 对我国公共数据开放政策进行分析, 以期实现本文的研究目的。

2 2 数据获取和预处理

本文研究的对象主要是我国地方政府发布的涉及公共数据开放的政策文本, 所以在“北大法宝”数据库中进行检索, 检索步骤为: 首先在“北大法宝” 数据库中选择“高级检索”, 在“法律法规”模块中选择“地方法规”, 全文中包含“公共数据开放”, 点击“同篇”, 以政策发布日期为准, 共计得到地方性法规37 条, 地方政府规章13 条, 地方规范性文件266 条, 地方工作文件742 条, 初步将上述政策文件纳入研究范围之中(检索时间为2023年3 月2 日)。

而国外对于公共数据开放政策的研究或者是以具体国家为研究对象, 如Sumitomo T 等[26] 学者对于日本的开放公共数据政策进行了研究, 发现日本政府、学术界和企业三方在完善开放公共数据政策体系中发挥了主要的作用; Viscusi G 等[27] 和Jung K等[28] 分别从概念模型和语义网络的角度出发, 指出“概念建模” 在激发公共数据潜在价值方面具有重要的作用, 并且更好地发挥“公共数据” 的“社会价值” 的作用, 并为将“公共数据” 的开放纳入数字经济生态体系提供了借鉴和理论支撑。

1 3 LDA 模型研究

LDA 主题模型是学者Blei D M 等[29] 于2003 年提出的一种文本分析模型, 该模型的提出有效弥补了PLSA(概率隐形语义分析模型)的缺陷, 提升了对深层次文本内容挖掘和语义分析的精准度与效率。LDA 主题模型认为, 每篇文档包含若干个主题, 每个主题包含若干个词语。从文档到主题再到词语, 三层之间是通过一定的概率进行选择, 即每个文档按照一定的概率选择了某个主题, 某个主题再按照一定的概率选择了某个词语, 重复上述步骤得到了一整篇文档[30] 。国内对于LDA 主题模型的研究一般集中在情感分析[31] 、主题挖掘[32] 、文本分类[33] 以及话题演化[34] 等方面, 或者是通过相关算法研究、推荐算法来实现对现有LDA 主题模型的改进[35] 。如池毛毛等[36] 对酒店用户评论文本进行情感分析; 田园等对在线教学需求数据进行主题挖掘与分析; 吴江等[37] 采用LDA 模型对在线医疗社区的文本分类进行了研究; 孙玉洁等[38] 从LDA主题模型的角度出发, 提出一种新的多角度个性化微博推荐算法, 并实证了该算法的有效性; 王璟琦等[39] 利用LDA 模型对空间自相关背景下的网络舆情话题演化时空规律进行了分析。国外采用LDA主题模型基本侧重点在对主题模型进行深化以及不同领域的研究, 主要从协同过滤[40] 和个性化推荐[41] 、图像分类标注与检索[42] 等不同方面进行应用; 深化则主要集中在对“作者—主题模型”[43] 以及“分层狄利克雷过程”[44] 等拓展模型进行研究。针对公共数据开放政策的相关研究虽然已经取得了一定数量的成果, 但是多就政策文本本身采用定量分析、定性比较或者总结归纳等方式进行研究, 多倾向于“需求侧” 角度。但是公共数据政策是一个涉及“供给侧” 和“需求侧” 两个方面的复杂系统, 只有“供给侧” 和“需求侧” 都彼此适配, 才能促进我国公共数据开放政策体系的完善, 保证我国的公共数据释放出自身内部的价值。因此, 本文采用LDA 主题模型, 对开放公共数据政策文本进行挖掘, 从“供给侧” 角度出发, 找到政策文本的侧重点, 分析其中还有哪些需要补充和完善的地方, 尝试为构建涉及不同层级单位、不同领域的全方位开放公共数据政策体系网络提供学理支撑和参考, 也能够与以往研究相呼应。

2 研究方法选择与数据的获取和预处理

2 1 研究方法

本文之所以选择LDA 主题模型作为分析工具,主要原因有以下两点: 第一, 该模型是一种无监督的经典学习方法, 且在分析不同领域和不同类型的政策方面都有着较好的实践效果; 第二, 采用LDA主题模型能够有效挖掘和分析政策文本内部潜在的主题, 更好地理解政策文本的内涵和精髓, 提高了政策文本分析的细粒度和精确度。而本文的研究目的是寻找公共数据开放政策供给的侧重点, 需要透过政策表面来看政策文本内部之间的联系, 符合应用LDA 主题模型的条件。而政策文件的主题词是对一篇政策文件主要内容的阐释, 而且为了保证政策文本在执行的时候能够取得预期效果, 所以在词语选择上均经过深思熟虑, 以求避免相关政策产生二义性, 通过分析了解一篇政策文件的主题词都有哪些, 以及每个主题词出现的频次的高低和共现情况,能够有效地了解整篇政策文件的内容。所以本文从主题词和LDA 主题模型两方面出发, 对我国公共数据开放政策进行分析, 以期实现本文的研究目的。

2 2 数据获取和预处理

本文研究的对象主要是我国地方政府发布的涉及公共数据开放的政策文本, 所以在“北大法宝”数据库中进行检索, 检索步骤为: 首先在“北大法宝” 数据库中选择“高级检索”, 在“法律法规”模块中选择“地方法规”, 全文中包含“公共数据开放”, 点击“同篇”, 以政策发布日期为准, 共计得到地方性法规37 条, 地方政府规章13 条, 地方规范性文件266 条, 地方工作文件742 条, 初步将上述政策文件纳入研究范围之中(检索时间为2023年3 月2 日)。

除此之外, 仅以“北大法宝” 作为数据库, 不仅在数据来源上有局限性, 而且相关政策的收录时间也存在一定的滞后性。因此, 同时在各省(自治区、直辖市)政府网站以及全国人大法律法规数据库中进行检索作为补充数据来源。综合上述, 两个来源共计获得初步纳入本研究范围的政策文件673篇。

对上述673 篇政策文件进行人工二次筛选, 剔除与本研究目的关联性不强的政策文本, 如《北京市实施开放举措行动方案》涉及“公共数据开放” 的内容仅仅是“加快推进公共数据开放, 制定本市公共数据管理制度”, 未涉及公共数据开放的领域和重点等, 与本研究的关联性不强, 因此予以剔除。而根据相关学者的研究经验, 相关技术标准也可以作为政策分析的一种对象纳入进来, 所以此类标准文件予以保留。经过筛选, 最终将16 条地方政府规章、25 条地方性法规、197 条地方规范性文件、104 条地方工作文件以及1 条推荐性地方标准纳入本研究的数据集之中, 共计343 篇政策文件, 部分政策文件的信息如表1 所示。

3 我国公共数据开放政策分析

3 1 描述性统计分析

1) 按政策效力区分。张涛等[45] 按照政策效力的高低将政策分为根政策、干政策和枝政策, 而表1 中提及的政策文件信息的5 种类别中, 地方政府规章效力低于地方性法规, 地方工作文件的效力低于地方规范性文件, 也低于地方政府规章。因此,借鉴张涛等[45] 学者的分类方法, 同时在与相关法学专家沟通的基础上, 将地方性法规划为“根政策”, 地方政府规章和地方规范性文件划为“干政策”, 地方工作文件和推荐性地方标准划为“枝政策”。

其中, “根政策” 共计25 篇, 约占比7%, “干政策” 共计213 篇, 约占比62%, “枝政策” 共计105 篇, 约占比31%。地方性法规的制定应当遵循本地具体情况和实际需要相一致的原则, 从而更好地促进党和国家的相关法律、法规政策在本地区落地实施, 如《福建省大数据发展条例》[46] 的制定目的即推进数字福建建设, 促进大数据的有序健康发展, 并对相关公共数据的开放和利用作出了一定的规定。而地方政府规章和地方规范性文件则相当于地方政府相关部门在处理公共数据开放和使用过程中的细化, 如《山东省公共数据开放办法》[47] 对公共数据的定义、开放原则、开放方式和组织机构等进行了明確的规定, 《广东省公共数据管理办法》从公共数据目录管理, 公共数据的采集、核准与提供, 公共数据的共享和使用, 公共数据的开发和利用等若干方面对公共数据开放全过程进行了细化;《哈尔滨市公共数据开放管理暂行办法》则提到了建立公共数据统一开放平台保证公共数据开放的质量。地方工作文件相当于地方政府中对于公共数据开放管理政策的“末端”, 通过协调项目, 提出规划, 或者举办公共数据开发利用比赛等手段激活公共数据的价值, 扩大公共数据开放的影响力。广西提出通过开放公安、交运、市场监管、气象、银联和通信行业等多类型的公共数据, 打造“一键游广西” 项目; 上海市先后批准多批次的公共数据开发和利用项目, 涉及银联、不动产租赁、征信以及数字地图可视化等领域。可以说, 不同地方政府结合当地的情况, 对本地区的开放公共数据作出了一定细化。

2) 按政策公布年限区分。对上述343 篇政策文件按照发文年度进行统计, 截至2023 年3 月5日, 各年度发布政策数目如图1 所示。

从图1 中可以看出, 我国公共数据开放相关政策出现于2014 年(2 部), 之后呈现出稳步上升的趋势, 并先后在2017 年(68 部)和2021 年(83 部)达到较高的水平, 说明我国地方政府高度重视公共数据开放的问题。2014 年, 北京中关村科技园和武汉市人民政府分别发布《关于加快培育大数据产业集群推动产业转型升级的意见》(以下简称《大数据意见》)和《武汉市大数据产业发展行动计划(2014—2018 年)》(以下简称《行动计划》)。《大数据意见》要求“抓好公共数据开放环节” “探索公共数据开放机制”, 进而促进公共数据开放在工业化和信息化深度融合中发挥应有的作用; 武汉市则指出, 要建立“公共数据开放机制”, 除法律法规禁止开放的信息之外, 一律向社会公开。公共数据涉及公众生活的方方面面, 远比政府数据或者是政务数据涵盖的范围要广, 对于公众的影响也更加密切。因此, 结合各种自媒体终端的大量普及以及5G、物联网等技术的快速发展, 打造公众专属的个人数据空间, 满足市民的日常生活需要, 让公共数据更好地发挥其自身应有的作用就显得尤为重要。

3) 按政策发布的省级行政区域区分。对各个地方政策发布部門按照其所属省级行政区域进行统计, 本研究涉及到的关于公共数据开放的政策文件, 共囊括我国除西藏、云南、台湾、香港以及澳门之外的29 个省级行政区。其中, 政策发布数量较多的省级行政区域和政策数量分别为: 浙江(23篇)、江苏(8 篇)、上海(15 篇)、山东(9 篇)、川渝地区(16 篇)和贵州(13 篇)。除贵州和川渝地区外, 基本都属于我国东部沿海地区, 且经济发展水平都较高。根据国家统计局公布的2021 年我国省级行政区域GDP 来看, 上述4 个东部沿海地区省级行政区域的经济数据均位居全国前10 名, 表明经济水平是影响我国公共数据开放政策发布的重要推动力[48] , 特别是将数字纳入生产要素的范畴中之后, 数字已经成为促进地方经济发展的重要生产资料。贵州虽然在2021 年的地区生产总值仅为19 586 42亿元, 在全国排名第22 位, 但是贵州省地方政府积极重视公共数据开放的应用, 积极组织或者举办相关开放数据应用大赛, 以此为导向促进本地区公共数据开放进程, 也为评估公共数据开放的产出和效果提供了契机[49] 。而且, 内蒙古自治区积极响应国家关于数字经济和“东数西算” 相关布局的政策; 川渝地区也成为了国家算力枢纽节点的中心, 充分发挥数字经济时代“算力” 的“生产力” 作用, 说明了经济发展水平的高低、积极响应国家政策以及推动公共数据开放的价值落地转变为“生产力” 成为了提升当地公共数据开放水平的重要推动力。

3 2 基于LDA 主题模型的政策文本聚类分析

3 2 1 最优主题数目的获取

对政策文本进行聚类, 首先要对其进行主题挖掘, 而确定涉及的政策文本中包含的主题数目是保证后续进行主题挖掘和聚类达到合理效果的关键因素。LDA 主题模型的提出者Blei D M 等[29] 、胡吉明等[33] 、王秀红等[50] 、邱均平等[51] 学者认为, 采用困惑度来对主题数目进行衡量, 选取困惑度最小的模型确定主题的最优数目, 但是存在主题辨识、情报分析效率过低的现象; Griffiths T L 等[52] 认为,应用贝叶斯模型来确定最优主题数目, 但是该方法的计算复杂度较高, 且应用范围有限, 因此还需要结合专家意见来进行最终判定。综合上述各位学者提到的方法, 结合本研究的实际情况, 决定采用计算对数似然估计数值的方法来确定最优主题数目。

首先对上述纳入研究范畴的文本在R 语言环境下进行数据清理和文本分词, 从而确保后续相关主题数目获取和政策文本分析的精确度与可靠性。使用R 环境中的Worker()函数以及Jieba 分词工具,Worker()函数中, User 参数设定用户自定义的词库,Stop_word 参数设定停用词表路径。将上述两个参数的值按照本研究的实际需要来进行设置, 确保去掉相关数据噪声。

在R 语言环境中设定主题范围为2~100 的闭区间, 按照步长为5 依次测算不同主题数目所对应的似然估计数值, 将似然估计数值最大的时候所对应的主题数目确定为最优主题数目, 主要代码为:fitted_many<-lapply(sequ,function(k) topicmodels::LDA(TDM,k =k,method =“Gibbs”,control =list(bur⁃nin=burnin,iter=iter,keep=keep)))。经过计算, 不同类型政策文本的最优主题数目如表2 所示, 以下所有分析均是在最优主题数目的环境下进行的。

3 2 2 政策文本识别使用Java 版LDA 主题模型软件, 在表3 中各个政策类型文本的最优主题数目下, 对政策文本进行主题挖掘, 其中, 迭代次数为2 000次。每种政策类型的文件所识别出的部分主题及其每个主题下包含的排名前5 位的词语如表3 所示。表3 中“政策类别” 按照政策效力作用范围从大到小进行排列。从表3 内容中可以看出, 我国开放公共数据政策中对于数据的供给给予了较高的关注度, 特别是在“地方政府规章” 相关政策文件中, “供给” “提供” 等关键词更是出现在每个主题排名前5 位的关键词之内, 而且更加强调对于“开放平台” 等数据供给措施的建设。同时随着政策作用范围越小, 对于开放公共数据的内容则更加具体。

3 2 3 政策文本聚类

使用Vosviewer, 对表3 中涉及的5 类政策识别出的各个主题包含的关键词进行聚类, Resolution 的值设定为1, 分析方法选择“Association Strength”(关联强度方法), 目的是为了利用LDA 主题模型能够从语义的角度分析政策文本主题词关系的优点,得到基于LDA 模型的我国公共数据开放政策文本聚类情况, 如图2 所示。

从图2 中可以看出, 各个政策的内容可以划分为9 类, 按照每一个聚类内部包含的信息, 可以将政策文本内容划为如下4 个方面:

第一, 涉及开放公共数据中的个人信息保护问题。对于开放公共数据过程中如果涉及个人信息的问题, 数据的收集、保存和使用者应当遵循相应的技术规范和政府规章规制, 采取技术手段对数据进行清洗优化, 从而保障数据在既能够发挥相关作用的前提下还能够不泄露或者可能泄露相关人员的隐私, 特别是我国的《数据安全法》和《个人信息保护法》更是对此作出了明确的规定, 部分地方政府规章, 如《浙江省公共数据开放条例》等也结合本地区的实际经验作出了相应的规范。

第二, 涉及公共数据开放的政府管理。公共数据合法、有效、高效地开放, 离不开政府部门的有效管理。特别是随着智慧城市的建设以及地方政府数字化转型的加快, 为了满足科学化决策和精准化响应, 更加需要对公共数据的开放管理和使用实行高精度的管理。因此, 随着2021 年发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》亦提及要“开展政府数据授权运营试点, 鼓励第三方深化对公共数据的挖掘利用”[2-3] , 浙江、福建、海南等诸多省份纷纷对公共数据的管理、使用进行规范, 《海南省大数据开发应用条例》指出, 要将“公共数据纳入国有资产管理”。同时还明确“市场主体可享有增值性利用产生的产品和收益”, 促进了第三方等主体积极投身于公共数据开放的应用领域之中[53] 。

第三, 涉及公共数据开放过程中的国家安全问题。对相關数据实行分级分类管理, 按照数据主体或者数据来源、数据属性等相关标准进行分类。按照和国家安全联系的远近来分别采取不同的技术手段或者规章制度来分别确定不同类型的数据的使用方法和范畴, 在数据开放和保障国家安全之间作出平衡[54] 。

第四, 涉及公共数据开放过程中的技术问题。从加强公共数据开放的角度出发, 在公共数据从生成到使用再到最后的销毁一系列过程中环节较多,例如可以通过相应的区块链等技术手段, 让每一个阶段的数据处理和使用过程有迹可循; 或者通过技术手段来限制某一主体在一定范围内和时间内对相关公共数据资源的访问频次, 进而实现数据机密性、完整性和可用性三者之间的有机结合[55] 。

4 结语与局限性

本文从主题词和LDA 主题模型两个角度出发,通过对文本主题词的词频和不同主题词之间的相互关系两个维度入手, 对我国公共数据开放政策的文本进行了聚类分析, 可以发现我国公共数据开放政策供给特征有如下几点:

第一, 从各个行政区域发布的政策数量来看,我国公共数据开放政策供给从东部地区到西部地区呈现出明显的“阶梯式” 下降的趋势。主要原因在于东部地区由于区位优势和经济发展的需要, 对公共数据的需求量较大, 由此倒逼东部地方政府积极出台相关政策来规范相关数据开放行为, 挖掘公共开放数据中的潜力, 从而让数字经济成为促进地区经济发展的有力引擎。

第二, 我国公共数据开放政策供给领域不均衡。现行的政策文本关注的主要是和公众利益密切相关的领域, 如光电、城市医疗、公共交通等领域。虽然在客观程度上反映了我国公共数据开放重视保护公众的利益、保障公众的知情权等, 但是公共数据涉及的领域很广, 除了上述领域之外, 金融、科技、文化等领域的相关数据开放也应该在确保数据安全的前提下, 出台相应的开放数据政策, 从而构造一个涉及各个领域的公共数据开放政策网络。

第三, 突发紧急事件状态下公共数据供给的力度还有待提高。目前而言, 大部分公共数据开放政策尚未涉及在突发紧急事件状态下相关数据的开放和使用问题。而突发紧急事件下相关数据的正常公开、合法使用和精准流通往往是确保突发事件能够高效解决的关键。但是各类政策文本对此却鲜有涉及, 因此还需要相关部门结合历次突发事件的特征和公共数据的特点, 制定突发紧急事件状态下的公共数据开放法规。

本文存在部分局限性, 主要表现在由于对“公共数据” 的定义, 不同的学者还存在着不同的理解,因此在纳入本研究范畴的政策文件选择上还可以继续斟酌, 以期兼顾政策文件的“查全率” 与“查准率”; 此外, 针对相关政策内容聚类和划分时,对于各个主题的细粒度还可以进一步进行优化; 在总结主题标签的过程中还可以结合本领域的专家意见或者相关文献进行归纳, 以使得主题标签的科学性更强。后续将围绕解决上述不足进行进一步的深化研究。

参考文献

[1] 何哲, 黄璜, 刘文宇. 等. 建设网络强国、促进国家治理体系和治理能力现代化行动指南———《习近平在网络安全和信息化工作座谈会上的讲话》精神学习体会[J]. 电子政务, 2016, (6):2-25.

[2] 新华网. (两会授权发布)中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要[EB/ OL]. http:/ /www.xinhuanet.com/2021-03/13/ c_1127205564.htm, 2023-02-13.

[3] 中华人民共和国中央人民政府. 国务院关于印发“十四五”数字经济发展规划的通知[EB/ OL]. http:/ / www.gov.cn/ zhengce/content/2022-01/12/ content_5667817.htm?type=1, 2023-02-13.

[4] 胡业飞, 孙华俊. 政府信息公开与数据开放的关联及治理逻辑辨析———基于“政府—市场—社会” 关系变迁视角[J]. 中国行政管理, 2021, (2): 31-39.

[5] 高争志. 公共数据开放制度的价值定位与实现路径[ J]. 数字图书馆论坛, 2020, (1): 27-34.

[6] 东方, 邓灵斌. 政府数据开放的法律规制: 美国立法与中国路径———基于美国《开放政府数据法》(OGDA) 的思考[J]. 情报资料工作, 2021, 42 (5): 50-57.

[7] 陈美. 澳大利亚地方政府开放数据的保障机制研究———基于多元公共行政观的视角[J]. 情报理论与实践, 2017, 40 (12):139-144, 111.

[8] 黄如花, 王春迎, 范冰玥, 等. 加拿大图书馆开放政府数据服务实践调查分析及对我国的启示[ J]. 图书馆学研究, 2018,(13): 97-101.

[9] 冉连. 基于WOS 的国外公共部门大数据应用研究可视化分析[J]. 电子政务, 2018, (7): 90-99.

[10] 陆敬筠, 吕海艳. 上海市公共数据开放平台用户画像构建与分析[J]. 数字图书馆论坛, 2021, (10): 54-59.

[11] 储节旺, 杨雪. 公共数据开放的政府主体责任研究[ J]. 现代情报, 2019, 39 (10): 127-135.

[12] 郑磊, 吕文增. 公共数据开放的产出与效果研究———以上海开放数据创新应用大赛为例[J]. 电子政务, 2017, (9): 2-10.

[13] 蒲攀, 马海群. 大数据时代我国开放数据政策模型构建[ J].情报科学, 2017, 35 (2): 3-9.

[14] Pereira G V, Macadar M A, Luciano E M, et al. DeliveringPublic Value Through Open Government Data Initiatives in a SmartCity Context [J]. Information Systems Frontiers, 2017, 19 (2):213-229.

[15] Lakomaa E, Kallberg J. Open Data as a Foundation for Innova⁃tion: The Enabling Effect of Free Public Sector Information for En⁃trepreneurs [J]. IEEE Access, 2013, 1: 558-563.

[16] Versluis L, Mathá R, Talluri S, et al. The Workflow Trace Ar⁃chive: Open-Access Data from Public and Private Computing In⁃frastructures [ J]. IEEE Transactions on Parallel and DistributedSystems, 2020, 31 (9): 2170-2184.

[17] 王本刚, 马海群. 公共数据的公共价值研究———以国内外相关政策和报告为核心的解读[J]. 情报理论与实践, 2022, 45(10): 1-10.

[18] 孙瑞英, 陈宜泓. 基于PMC 指数模型的我国公共数据开放政策评价研究[J/ OL]. 情报理论与实践: 1-16 [2023-04-09].http:/ / kns.cnki.net/ kcms/ detail/11.1762.g3.20230322.1639.006.ht⁃ml.

[19] 马海群, 刘兴丽, 韩娜. 基于关联规则的开放政府数据主题多政策协同性研究[J]. 情报科学, 2022, 40 (4): 3-8, 17.

[20] 付熙雯. 数字中国建设中政府数据开放利用政策的优化[ J].陕西师范大学学报(哲学社会科学版), 2022, 51 (4): 118-133.

[21] 黄雨婷, 傅文奇. 日本政府数据开放的政策保障及其启示[J].数字图书馆论坛, 2020, (9): 9-17.

[22] 东方, 邓灵斌. 政府数据开放的法律规制: 美国立法与中国路径———基于美国《开放政府数据法》( OGDA) 的思考[ J].情报资料工作, 2021, 42 (5): 50-57.

[23] 黄如花, 刘龙. 英国政府数据开放的政策法规保障及对我国的启示[J]. 图书与情报, 2017, (1): 1-9.

[24] 黄雨婷, 黄如花. 丹麦政府数据开放的政策法规保障及对我国的启示[J]. 图书与情报, 2017, (1): 27-36.

[25] 曹雨佳. 政府开放数据生态链中的用户参与机制———以加拿大政府数据开放实践为例[J]. 情报理论与实践, 2021, 44 (6):18-27.

[26] Sumitomo T, Koshizuka N. Progress and Initiatives for Open DataPolicy in Japan [J]. Computer, 2018, 51 (12): 14-23.

[27] Viscusi G, Batini C. Information Production and Social Value forPublic Policy: A Conceptual Modeling Perspective [J]. Policy &Internet, 2016, 8 (3): 334-353.

[28] Jung K, Park H W. A Semantic ( TRIZ) Network Analysis ofSouth Koreas “ Open Public Data” Policy [ J]. Government In⁃formation Quarterly, 2015.

[ 29] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research, 2003, 3 (4/5): 993-1022.

[30] 张涛, 马海群. 一种基于LDA 主题模型的政策文本聚类方法研究[J]. 数据分析与知识发现, 2018, 2 (9): 59-65.

[31] 黃仕靖, 吴川徽, 袁勤俭, 等. 基于情感分析的突发公共卫生事件舆情时空演化差异研究[J/ OL]. 情报科学: 1-11 [2023-02-13]. http: / / hfffg5fce84748f1d4cc2hxuwxpcpkunpc6pbv.fgfy. hlju.cwkeji.cn/ kcms/ detail/22.1264.G2.20220314.1057.012.html.

[32] 周健, 张杰, 屈冉, 等. 基于LDA 的国内外区块链主题挖掘与演化分析[J]. 情报杂志, 2021, 40 (9): 161-169.

[33] 胡吉明, 付文麟, 钱玮, 等. 融合主题模型和注意力机制的政策文本分类模型[J]. 情报理论与实践, 2021, 44 (7): 159-165.

[34] 刘雅姝, 张海涛, 徐海玲, 等. 多维特征融合的网络舆情突发事件演化话题图谱研究[J]. 情报学报, 2019, 38 (8): 798-806.

[35] 姚洁, 孟小璐. 运用改进型LDA 算法的电商微博热点话题研究[J]. 重庆理工大学学报(自然科学), 2019, 33 (12): 184-188.

[36] 池毛毛, 潘美钰, 王伟军. 共享住宿与酒店用户评论文本的跨平台比较研究: 基于LDA 的主题社会网络和情感分析[ J].图书情报工作, 2021, 65 (2): 107-116.

[37] 吴江, 侯绍新, 靳萌萌, 等. 基于LDA 模型特征选择的在线医疗社区文本分类及用户聚类研究[J]. 情报学报, 2017, 36(11): 1183-1191.

[38] 孙玉洁, 秦永彬. 基于LDA 模型的多角度个性化微博推荐算法[J]. 计算机工程, 2017, 43 (4): 177-182.

[39] 王璟琦, 李锐, 吴华意. 基于空间自相关的网络舆情话题演化时空规律分析[J]. 数据分析与知识发现, 2018, 2 ( 2):64-73.

[40] Zhou X Z, Wu S X. Rating LDA Model for Collaborative Filtering[J]. Knowledge-Based Systems, 2016, 110 (15): 135-143.

[41] Chen S, Huang L, Lei Z, et al. Research on Personalized Rec⁃ommendation Hybrid Algorithm for Interactive Experience Equipment[J]. Computational Intelligence, 2020, 36 (3): 1348-1373.

[42] Yang L, Jing L P, Michael K N, et al. A Discriminative andSparse Topic Model for Image Classification and Annotation [ J].Image and Vision Computing, 2016, 51 (7): 22-35.

[43] Wang L. Automatic Annotation of Multispectral Satellite Images U⁃sing Author-Topic Model [J]. IEEE Geoscience & Remote Sens⁃ing Letters, 2012, 9 (4): 634-638.

[44] Beraha M, Guglielmi A, Quintana F A. The Semi-hierarchicalDirichlet Process and Its Application to Clustering Homogeneous Dis⁃tributions [J]. Bayesian Analysis, 2021, 16 (4): 1187-1219.

[45] 张涛, 马海群. 我国大数据政策主题分析及发展动向研判[J].情报理论与实践, 2022, 45 (3): 72-80.

[46] 中央网信办. 《福建省大数据发展条例》公布[ EB/ OL]. ht⁃tp: / / www.cac. gov. cn/2021 - 12/28/ c_1642291459800235. htm,2023-02-13.

[47] 山东省人民政府. 山东省公共数据开放办法[ EB/ OL]. ht⁃tp: / / www.shandong.gov.cn/ art/2022/2/9/ art_107851_117339.ht⁃ml, 2023-02-13.

[48] 门理想, 王丛虎, 门钰璐. 公共价值视角下的政府数据开放———文献述评与研究展望[J]. 情报杂志, 2021, 40 (8): 104-110.

[49] 郑磊, 吕文增. 公共数据开放的产出与效果研究———以上海开放数据创新应用大赛为例[J]. 电子政务, 2017, (9): 2-10.

[50] 王秀红, 高敏. 基于BERT-LDA 的关键技术识别方法及其实证研究———以农业机器人为例[J]. 图书情报工作, 2021, 65(22): 114-125.

[51] 邱均平, 沈超. 基于LDA 模型的国内大数据研究热点主题分析[J]. 现代情报, 2021, 41 (9): 22-31.

[52] Griffiths T L, Steyvers M. Finding Scientific Topics [ J]. Pro⁃ceedings of the National Academy of Sciences of the United States ofAmerica, 2004, 101 (1): 5228-5235.

[53] 袁千里, 張云翔. 基于信息技术的共同生产: 作用、影响因素和挑战[J]. 公共行政评论, 2022, 15 (1): 171-195, 200.

[54] 新华网. 中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见[EB/ OL]. https:/ / xueqiu.com/6227555304/146559790?page=2, 2023-02-13.

[55] 胡吉明, 温芳芳, 黄如花, 等. 中国政府数据开放研究的主题关联结构与演化态势[J]. 情报资料工作, 2019, 40 (4):56-68.

(责任编辑: 郭沫含)

猜你喜欢
政策分析模型
适用于BDS-3 PPP的随机模型
p150Glued在帕金森病模型中的表达及分布
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
在纠结中前行的网约车改革
3D打印中的模型分割与打包
FLUKA几何模型到CAD几何模型转换方法初步研究