基于文本计算的我国数据安全政策与科研主题协同研究

2024-12-31 00:00:00张涛王瀚功于同同等
现代情报 2024年11期

关键词:数据安全政策;协同研究;主题识别;主题协同;NMF

DOI:10.3969/j.issn.1008-0821.2024.11.010

〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2024)11-0099-09

全球数字经济蓬勃发展,催生出以数据为关键要素、以数字服务为核心、以数字订购与交付为主要特征的数字贸易[1]。数据作为关键生产要素,具有可复制性与共享性,数字技术和生产生活不断交汇融合,各类数据迅猛增长且海量聚集,对经济发展、人民生活都产生了重大而深刻的影响。2020年4月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制的意见》[2],提出加快培育数据要素市场。2022年12月,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》[3](简称《数据二十条》),提出构建数据要素治理制度。随之而来的是大数据和人工智能技术发展速度远超过法律制度建设,导致数据采集、存储、管理、加工、应用和流通等诸多环节处在暂时性无法可依的状态,加之数据安全攻击技术智能化以及攻击工具普遍化,使得全球数据安全问题频发,全球数据安全防护的形势极其严峻,因此数据安全引起了学术界的广泛关注。近年来,数据安全相关的科研论文大幅增加,而后数据安全政策也不断增多,数据安全政策文本与科研论文从数量、深度、广度上均持续增加。数据安全科研成果的产出能够推动政策的颁布,而相关政策的出台又能进一步促进以数据安全为主题的科学研究,数据安全政策与科研之间存在相互推动、作用与反馈的关系。因此,探究二者的协同关系,不但有助于分析数据安全政策与科研之间的趋势特点,还能推动政策完善并厘清科研方向。

1文献综述

分析国内外文献发现,国内学者针对该主题的研究集中在以下4个维度。①政府数据安全维度。马海群等[4]采用层次分析法,从多元化政策评估主体以及政策评估指标体系两方面研究政府数据安全政策评估体系的构建;冉连等[5]使用文本内容分析法,对17个省级政府出台的84份关于数据开放全生命周期安全管理政策文本进行编码分析与信息挖掘;毛子俊等[6]运用文献计量法,从政策外部属性和政策工具两个维度,研究我国71份与政务数据相关的政策文本;程慧平等[7]采用Nvivo对我国政务数据安全共享政策进行研究。②开放数据安全维度。闫倩等[8]从文献和我国实情分析我国开放数据政策和数据安全政策;陈玲等[9]从政策工具维度和政策主题维度构建了政府开放数据政策的实施框架;张涛等[10]通过政策文本计算的方法,对开放数据与数据安全政策进行协同研究。③科研数据安全维度。宋筱璇等[11]对国内外科研数据安全政策进行比较研究;盛小平等[12]对科学数据开放中存在的问题进行探讨;刘冰等[13]对英、美、澳高校科研数据政策进行研究;朱玲等[14]对国外科学数据开放政策进行研究并生成框架。④政策与科研协同维度。张涛等[15]用LDA+Word2vec进行算法治理政策与科研协同研究;崔文波等[16]用相似度计算进行算法推荐政策与科研协同研究;张玲等[17]使用LDA+TF-IDF进行科研诚信政策与文献主题演化对比分析;文禹衡等[18]使用计量分析法对数据确权政策与科研协同研究。此外,国外学者也从不同维度对数据安全问题展开研究,如:Semenov NA等[19]从技术层面对云计算中数据架构安全进行研究;AlabdulatifA等[20]从健康医疗角度探讨数据安全;DixitP等[21]对印度数据安全政策进行评估;DemirolD等[22]对大数据隐私安全等方面进行研究;HajiheydariN等[23]对金融行业中大数据安全进行分析;Atoum IA等[24]对大数据隐私管理存在的问题进行研究;RenC等[25]从科研到政策扩散度研究科研与政策的关系。

综上所述,当前国内外对数据安全研究成果主要集中在两个方面,一是国内学者从政府数据安全、开放数据安全、科研数据安全3个方面对数据安全政策进行了较为全面的分析。二是国外学者研究成果集中于领域数据安全层面、数据安全技术、数据隐私保护方面。当前,数据安全领域研究成果虽然较为全面,但尚未出现数据安全政策和科研协同的研究成果。因此,本文以我国数据安全领域的547部政策和2466篇科研论文为样本,结合NMF主题模型和Word2vec模型,分别对政策文本和科研论文进行主题识别,并通过相似度计算方法探究我国数据安全政策与科研主题的协同情况。

2研究设计

本文选择与数据安全相关的政策文本和科研论文作为研究样本,样本采集时间为2023年9月,为确保该研究数据年度上的完整性,因此研究时间跨度确定为2013—2022年,具体研究框架如图1所示,主要包括:①从自建语料库中获取“数据安全”相关政策文本[26],从中国知网中获取数据安全相关科研论文;②对所获取到的政策和科研论文进行预处理;③通过NMF进行主题建模,运用主题一致性指标确定模型最优主题数目,并对政策主题与科研主题进行分析;④通过相似度计算对政策与科研主题协同关系进行分析,旨在揭示二者间的协同性。

2.1文本数据采集

政策文本是政策的载体,反映决策者的价值观,因此可以作为研究政策的重要样本。在自建语料库中选取数据类政策547部,在此基础上,以“安全”字样进行人工筛查,提取带有“安全”的政策文本语句片段共10636条,共885515个字符数作为政策研究样本。此外,根据政策文本数据量分布情况,以两年作为一个时间窗口划分阶段,共划分5个阶段,具体如表1所示。

科研论文是科研成果的精华所在,同时相比于专著、专利等其他文献,期刊论文更能反映当前研究的最新成果,更加具有时效性,与政策颁布实施具有同期性。以中国知网为数据库,基于已有文献选择“数据安全”进行主题检索,数据来源选择CSSCI和北大核心。此外,为了提高选取文献质量,本文通过人工筛选的方法根据标题、摘要以及学科分类等对文献进行梳理,剔除与主题明显不相关、非学术类的文献,最终确定2466篇为研究样本,共6347737个字符数,提取文献中的篇名、摘要和关键词形成待分析样本,如表2所示。

2.2文本预处理

文本预处理主要包括建立关键词表、无效词表、分词。①关键词表:提取论文关键词作为初始词表,并使用TF-IDF算法对待分析文本进行领域关键词提取,导入到初始特征词表,进行去重与筛选,最终形成11461条关键词,关键词表的建立是数据处理的重要环节,直接决定着后续分析精确性。②无效词表:为提高主题识别准确度,防止高频无效词的干扰,需要在通用停用词表基础上构建面向目标领域的无效词表,通常在第一次进行主题聚类后,筛选出现频率高且无实际意义关键词,如“研究”“发展”等,导入无效词表中,为保证准确性,反复迭代上述过程,再融合停用词表后形成无效词表。③分词:利用Python中Jieba工具对文本进行分词、加载有效词表、去无效词等预处理操作,最后去除超短语句(字符小于5的语句),超短语句对所计算结果影响较大,因此需要去除。

2.3文本计算

文本计算主要包括主题识别和相似度计算。①主题识别:利用主题一致性指标选出最优主题数,通过NMF主题聚类出的主题词,汇聚成主题词表[27]。②相似度计算:利用Word2vec模型训练主题的词向量,通过余弦相似度计算政策文本与科研论文主题的相似度数值。③协同分析:利用桑基图绘制政策与科研主题协同图,最终对数据安全政策与科研主题进行协同性分析。

3主题识别与协同研究

通过NMF和Word2vec模型对政策主题和科研主题进行有效识别,并利用相似度计算方法对二者间协同关系进行分析。

3.1政策主题分析

根据主题一致性确定5个阶段政策最优主题数为14、15、12、15、16,选取每个阶段平均权重最高的3个词作为主题词,如表3所示。

从主题分布来看,我国数据安全政策中包含公共数据、政务数据、个人信息、大数据等主题,这表明我国数据安全国家层面的总体战略布局初步形成,数据安全审查与监管措施逐步完善,数据安全管理以及个人信息保护认证体系逐步构建。

1)阶段1(2013—2014)。该阶段处于萌芽阶段,由于数据安全相关政策发布较早,主题分布较为零散化,主要以信息安全、网络安全、监管等主题为主,同时出现了“信息安全保障体系”“谣言”“假冒”等主题,早期政策主要偏向信息安全层面。

2)阶段2(2015—2016)。该阶段处于稳步增长阶段,政策数量显著增多,政策主题分布更广泛,如:数字资源开放、网络安全、大数据安全、云计算技术、监管领域、电子政务、信息安全等级保护等主题均有所涉及。从T6主题来看,应急预警机制是我国数据安全体系构建的重点[28],而该主题与阶段1中T9主题具有演进关系,并且从主题词来看,实现从应急事后处理到应急事前预警转化。从T13主题来看,电子政务平台则是我国政府电子办公的重要举措,提升工作效率的同时也存在一定风险问题,如漏洞、信息泄露、丢失等情况,电子政务也是政务数据形成初期的重要载体。

3)阶段3(2017—2018)。该阶段处于快速增长阶段,数据安全政策数量多,主题呈现多元化。宏观层面以大数据安全、网络安全、信息安全为主,微观层面则出现应急预警、政务信息、测评、技术标准化等主题,其中T8主题和T10主题均为阶段2演化而来,从主题词来看,T8应急管理主题具有较强演化关系,这也说明从政策层面对应急管理应更侧重于应急事前预警。T10电子政务主题实现了从阶段2的电子政务网络向阶段3电子政务数据过渡的趋势。

4)阶段4(2019—2020)。该阶段数据安全政策数量逐步减少,T14的公共数据开放主题较为突出,政策关注点形成了从网络数据、大数据到政务数据再到公共数据的演进,其中,T2应急主题已经向应急管理能力层面演进,而T4主题中的人工智能伦理和T15主题中区块链技术均说明了该阶段政策主题呈现出了技术细分化的趋势。

5)阶段5(2021—2022)。该阶段更多关注的是数据安全体系构建,随着三法的正式颁布,我国数据安全顶层法律设计已经初步形成。数据安全主题进一步呈现出细分趋势,其中全生命周期、保障措施、监测预警机制、数据责任、安全可控等有所体现,而T6应急主题从应急能力演进为应急预案主题词,该主题从阶段2到阶段5的持续变化,并且不断细化,由此可见国家在数据安全领域对应急处置尤为关注。

3.2科研主题分析

根据主题一致性确定5个阶段科研最优主题数为12、11、12、14、12,选取每个阶段平均权重最高的3个词作为主题词,如表4所示。

1)阶段1(2013—2014)。该阶段主题集中在云计算、物联网、大数据等安全问题。数据安全风险主要是数据在传输、存储方面的风险,而研究重点集中在技术层面,该阶段所发布的政策尚未对技术层面做出相关规定;在技术层面,数据安全政策存在一定滞后性。此外,T4为数字图书馆主题、T7为档案管理主题,因此图书馆学、档案学领域对数据安全的相关研究起步也较早,数据安全管理长期以来均为信息资源管理学科的研究热点,图书馆领域实现从“阶段1和阶段2数字图书馆主题—阶段3敏感数据主题—阶段4图书馆大数据风险主题—阶段5智慧图书馆主题”的演进。

2)阶段2(2015—2016)。该阶段科研主题变化并不显著,T6个人信息保护和T8科学数据管理为新增主题。该阶段个人信息泄露及被滥用问题频发,使得个人信息保护已经成为学术界研究的焦点问题,个人信息保护以“告知—同意”为核心的个人信息处理规则,强调自然人的自主权利,同时注重其他重要利益。而科学数据管理中数据安全问题也在该阶段逐渐兴起,并且针对高校科学数据管理方面形成一系列成果。

3)阶段3(2017—2018)。该阶段对政府数据开放的研究成果较多,出现T3开放数据政策、T5政府数据开放、T6政府数据治理等主题。而数据安全是数字政府建设生命线,其重要性毋庸置疑,我国政府数据不仅面临传统的网络安全威胁,还会在数据开放过程中出现数据安全管理责任不清晰的问题,一旦薄弱部位被利用,就可能引发全局渗透风险,该阶段政府数据与政策阶段3中T2和T10主题在同一阶段内具有协同关系,这也说明电子政务中政务数据开放与安全的重要作用。

4)阶段4(2019—2020)。该阶段则关注到T3数据治理、T4档案数据治理、T7信息安全、T10公共安全数据等主题。数据治理概念逐步出现,数据治理与数据质量研究成果逐渐增加,从T4主题档案数据治理可知,档案业务逐渐从线下转为线上,数据形式变得多样,如何确保档案在数据共享中的安全成为关键,档案数据到阶段5则演进为档案保护及档案数据长期保存的主题。

5)阶段5(2021—2022)。该阶段T2跨境数据流动、T3数据要素等主题尤为突出。跨境数据流动安全需要构建政策体系,健全保障数据跨境流动安全的法律规则,提升数据安全保障能力。当前,国内法与国际法还存在配套协同问题,如何让法律间有效衔接,共同构筑维护数据跨境流动安全的法律屏障成为当下问题所在。科研论文中这两个主题均与《数据二十条》政策相吻合,数据作为数字经济的核心生产要素之一,流通是数据要素价值释放的重要途径,在流通过程中如何确保数据要素安全则成为关键,可以预测未来数据要素和跨境数据流动中安全问题会成为政策和科研的热点与焦点。

3.3政策与科研主题协同关系分析

通过对政策与科研主题相似度计算以揭示二者间协同关系,为使得协同关系更清晰,将相似度阈值设置为0.6,若相似度大于0.6,则认为政策主题与科研主题存在较强协同性,采用桑基图进行可视化呈现,如图2所示。

1)阶段1(2013—2014)。政策中“大数据平台”“大数据产业”“大数据环境”“数据资源”“监管”“信息安全保障体系”“个人隐私”主题与科研主题存在协同关系。其中,主题词有“网络”“信息安全保障体系”“监管”“开放”“认证”“大数据产业”“大数据平台”,其中“信息安全”比较突显,说明早期我国关注的政策主要在信息安全领域,此外,该阶段“大数据”相关主题较多,并且与不同阶段科研主题均具有较强协同关系,2013年起,上海、重庆分别发布《上海推进大数据研究与发展三年行动计划》和《重庆市大数据行动计划》。在科研方面,“大数据”相关研究成果持续增多,并在不同阶段呈现出分化细化研究的趋势,这说明数据安全在大数据领域政策和科研关注点较为一致。从阶段1整体政策主题来看,与之协同的科研主题大多位于后续阶段,一定程度上体现政策对于科研的引领作用。阶段1科研主题对于同阶段政策匹配度较低,具有一定滞后性,并不能支撑个人隐私、信息安全保障体系等主题,而是将研究重点落到云计算技术上。此外,该阶段政策还出现了“网络”“社会秩序”“物联网”“应急处置”等主题。

2)阶段2(2015—2016)。阶段2政策“大数据”“云计算”“大数据安全”“应急处置”“网络安全”“保障”“数据资源”等主题与科研主题存在协同关系。政策主题主要围绕“安全”话题展开,如“大数据安全”“网络安全”“应急处置”主题词,科研主题中“安全”主题贯穿着整个阶段,可以看出科研主题在不断深化研究深度和广度。随着“棱镜门”事件的曝光,全球安全神经被绷紧,我国相继出台一系列安全制度与规范,尤其是2016年11月7日全国人大通过的《中华人民共和国网络安全法》,凸显我国将网络安全提升至国家安全的决心,而网络安全主题从阶段1持续至阶段4,这说明网络安全政策主题和科研主题具有相互促进、互为协同的关系。该阶段中部分政策主题与阶段1科研主题呈现协同关系,说明阶段1科研成果对阶段2政策起到促进作用。阶段2科研主题集中在云计算、云存储、网络安全、大数据方面,对于阶段1政策主题中出现的应急响应、制度建设等,在阶段2科研主题中尚未出现,在这些主题方面体现出科研主题与政策主题的不一致性。

3)阶段3(2017—2018)。政策“大数据”“电子政务”“网络安全”“保障”“应急处置”“大数据安全”“信息安全”等主题与科研主题存在协同关系。阶段3为数据安全政策密集发布阶段,从政策数量来看,政策层级覆盖面均较广,政策主题关注的对象更加丰富,涉及“电子政务”,该阶段围绕“政务数据”和“政务服务”集中出台相关政策,结合表4分析可知,“电子政务”和“政务信息”政策主题在科研主题之前,进而促进此后两个阶段“政府治理”“政务数据”等主题的科学研究。阶段3科研主题中出现了政府数据开放、政府数据治理等,从政府数据开放共享这一主题来看,与阶段4政策中公共数据主题以及阶段5中政务数据主题均存在协同关系,这体现出在该领域科研对政策的引领作用。

4)阶段4(2019—2020)。政策中“技术”“人工智能”“公共数据开放”“应急处置”等主题与科研主题存在协同关系。该阶段政策中逐步体现出技术主题,包括人工智能技术,利用技术来应对数据安全问题也成为未来政策与科研关注点之一,随着上海、北京在2019年相继发布《上海市加快推进数据治理促进公共数据应用实施方案》和《北京市公共数据管理办法(征求意见稿)》,政策层面公共数据开放与安全主题得以凸显。此后,阶段5出现公共数据一系列相关成果,虽然在科研主题层面未体现协同关系,但公共数据的科学研究必将与政策呈现出相互促进的关系,尤其2023年出现公共数据开放运营、公共数据安全、公共数据治理的科研成果。该阶段科研主题聚焦于数据安全问题,其中大数据安全、网络安全、信息安全均有所涉及。从协同关系上来看,此阶段科研主题具有承上启下的特点,与前阶段政策存在协同关系,对后阶段政策有一定促进作用。

5)阶段5(2021—2022)。政策“数据处理者”“监测预警”“保障”“政务数据”“大数据”等主题与科研主题存在协同关系。该阶段“政务数据”较为突出,阶段3与阶段4的科研主题均对政务数据产生正向影响,并促进政府颁布政务数据专项制度,如《云南省政务数据共享开放管理暂行办法(征求意见稿)》《内蒙古自治区政务数据资源管理办法》《山西省政务数据资源共享管理办法》等,而河南省2022年出台了专项政务数据安全的管理办法《河南省政务数据安全管理暂行办法》,该主题充分说明科研对政策前向影响,并对政策颁布起到推动作用。该阶段科研主题聚焦于跨境数据流动、数据开放、区块链等问题。从协同关系上看,该阶段科研受政策引领作用明显,科研主题主要针对前阶段所发布的政策展开研究。

总体来说,我国数据安全政策与科研主题呈现出协同一致、协同演进的关系,并且在数据要素和跨境数据流动主题中出现明显科研推动政策的协同趋势。①协同一致关系。如:“大数据安全”“网络安全”主题一直贯穿整个政策与科研主题中,尤其是在同一阶段政策和科研中相互间具有较强的协同关系;②协同演进关系。如:电子政务、政务服务、政府治理、政务数据等政策主题在演进过程中,政策与科研互为影响,呈现出从阶段3政策主题“电子政务”到科研主题“政府数据治理”“政府数据开放”到阶段4科研主题“政府治理”再到阶段5政策主题“政务数据”的协同演进趋势;③协同趋势。在阶段5科研主题中出现了“数据要素”“跨境数据流动”等,此前政策中尚未有该主题出现,但2023年10月国家网信办发布《规范和促进数据跨境流动规定(征求意见稿)》,2023年12月,国家数据局等部门关于印发《“数据要素×”三年行动计划(2024—2026年)》的通知,这两部政策对我国数据产业发展均具有重要意义,并呈现出新兴科研主题进一步推动政策的发展趋势。

4结束语

数字技术是当今世界科技革命和产业革命的先导力量,数字技术赋能实体经济推动高质量发展,其中数据安全是基石。《数据二十条》中明确提出要把安全贯穿数据治理全过程,守住安全底线,明确监管红线,国家颁布的重要政策具有引领作用,为科学研究指明方向,科学研究要紧紧围绕国家总体战略。而在细分领域,同时又体现出科学研究具有引领作用,因为政策颁布、实施、扩散具有严谨性、科学性、周期长等特点,科学研究先行探索,能够为政策制定提供更多的理论基础与现实意义。因此,本文以我国数据安全领域的547部政策和2466篇科研论文为样本,结合NMF主题和Word2vec模型,分别对政策文本和科研论文进行主题识别,并通过相似度计算方法探究我国数据安全政策与科研主题的协同情况,结论如下:一是我国数据安全发展经历了从信息安全、网络安全、政府数据安全再到公共数据安全的阶段。政策从阶段1以信息安全和网络安全为核心主题;阶段2和阶段3是数据安全政策数量和主题增长期,这一时期数据安全政策主题得以快速丰富,“大数据安全”“云技术安全”“电子政务”“政府数据治理”等主题开始被重点关注;阶段4数据安全政策开始向细分领域突出,如“公共数据安全”“人工智能伦理”“区块链技术”等政策主题;阶段5科研主题中出现“数据安全治理”“数据要素”“跨境数据流动”等。二是我国数据安全政策与科研主题呈现出协同一致、协同演进的关系。政策是科研的风向标,发挥了一定引领作用,而部分科研主题在细分领域走在政策颁布前列,这是科研对政策颁布起到促进作用的体现,因此科学主题与政策主题出现相互促进、协同一致的关系。如电子政务、政务服务、政府治理、政务数据等政策主题在演进过程中,政策与科研互为影响,呈现出从阶段3政策主题“电子政务”到科研主题“政府数据治理”“政府数据开放”到阶段4科研主题“政府治理”再到阶段5政策主题“政务数据”的协同演进趋势。

本研究尚存在一定局限:一是仅选取了CSSCI和北大核心的论文,并未将所有论文纳入考虑范围。二是政策获取虽采取最大努力原则,可能还会有个别政策遗漏,这都可能会影响结果精准性。未来研究团队将在数据与算法安全领域持续研究,将基于显著度理论,对数据安全政策与科研的特征词进行提取,形成更加精准细化的研究成果。