国内外数据安全研究领域前沿动态追踪：基于2013 年以来的文献计量分析

2022-07-26 13:19周茂雄

科技管理研究 2022年12期

周茂雄

（1.西南政法大学国家安全学院，重庆 401120；2.福建警察学院学报编辑部，福建福州 350007）

1 问题的提出：数据安全研究何以成为显学

近些年来，大型数据泄露事件层出不穷，从Facebook 数据泄露、美国知乎Quora 数据泄露、Google+账户泄露，到众多国内商业巨头纷纷中招，无不说明了传统网络安全中以抵御攻击为中心、以黑客为防御对象的策略和安全体系构建存在重大的安全缺陷，传统网络安全为中心需要向数据为中心的安全策略转变。数据泄露、数据贩卖等数据安全事件频发，给个人、企业、国家等带来了严重的安全隐患，数据安全已成为事关国计民生最紧迫、最基础的安全问题，因此加快数据安全研究、加强数据安全治理成为保障信息化建设和数字经济稳步向前推进的迫切要求。

学术界对数据安全的研究可谓如火如荼，涌现出了诸多研究成果。有学者从数据安全技术方面进行了总结与探索，如周由胜等［1］提出了一种细粒度的安全云端数据存储与删除方案；沈蒙等［2］提出了面向征信数据安全共享的支持向量机（SVM）训练机制。有学者从法律角度进行分析，如梁坤［3］认为应通过法律，强制要求服务提供者将其在我国境内收集的数据进行本地化存储，并对数据的跨境流动或披露进行法律规制。还有学者从管理学角度进行分析，如冉连等［4］认为要强化数据安全保护的顶层设计，完善数据安全保护的组织建设，加强数据安全管理人才队伍建设。为了解掌握数据安全研究领域的现状、热点和发展趋势，很多学者基于不同的视角、使用不同的方法对相关研究成果进行了综述，其中大多数学者是以定性分析和主观综述为主，如曹珍富等［5］、阮建海等［6］、陈性元等［7］，以文献计量为主要手段的定量分析相对较少，王康等［8］于2017 年利用CiteSpace 等可视化软件，通过高频关键词分析了国内数据安全研究热点。定性分析类之文献梳理的系统性和客观性方面有所不足，定量分析法则能相对全面地揭示数据安全领域研究的概貌，但现有定量分析以关键词共现研究为主，对研究脉络演进和文献内容分析力度不够，且主要是对国内数据安全相关研究进行梳理，缺乏国内外研究的比较分析。

随着《中华人民共和国数据安全法》的颁布，相关文献数量呈爆发性增长，文献时空范围不断扩大，研究主题愈发丰富，远超此前有关计量类文献数量，现有的总结类文献已经很难准确显示数据安全的研究现状。当前我国数据安全研究呈现何种特点与趋势，今后我国数据安全研究该往何处去？这些问题亟待解决。基于此，笔者拟借助CiteSpace 全面梳理分析国内外数据安全研究的脉络，分析国内外相关研究主题及前沿趋势，以期为我国今后数据安全研究提供参考。

2 研究概况：基于数据安全领域研究文献统计分析

2.1 数据来源与预处理

国内数据来源于中国知网（CNKI）数据库。利用CNKI 高级检索平台，以“数据安全”为主题词，检索时间为2021 年9 月23 日，以2013—2021 年的中文社会科学引文索引（CSSCI）和中国科学引文数据库（CSCD）的来源期刊为检索范围，共检索到1 688 篇文献。去除编者按、主持人语、征稿启事、会议综述等非学术文献，最终获得1 524 篇有关数据安全研究的文献（以下简称“中文文献”）。

国外数据来源于Web of Science（WoS）核心合集数据库，以科学引文检索扩展版（SCIEXPANDED）、社会科学引文索引（SSCI）为检索范围，以“data security”为主题词，语种设定为English，时间范围设定为2013—2021 年，文献类型为Article，检索时间为2021 年9 月24 日，共检索到2 268 篇文献（以下简称“外文文献”）1）。

之所以选择2013 年作为起始时间，是因为2013年一般被认为是大数据元年，对大数据时代的乐观和忧虑在这一年充分展示。

2.2 文献增长趋势分析

文献发表数量是衡量某一学科或领域研究进展的重要指标，可以直接反映一个科学知识量的变化情况，对评价该领域研究现状以及预测未来趋势具有重要意义。通过绘制文献年度分布图，可以了解数据安全在不同时期研究的趋势。从图1 可见，数据安全文献整体上呈增长趋势，研究历程大致可分为两个阶段。第一个阶段为2013—2015 年，文献数量较少，中文文献平均每年92 篇，外文文献平均每年93 篇，主要是围绕基础理论进行。第二阶段为2016 年之后，数据安全研究呈爆发式的增长态势，特别是外文文献，从2016 年的140 篇增长到2020年的537 篇，平均每年300 篇。2016 年，徐玉玉案牵动人心，美国大选剧情反转让人瞠目，以及20 万名儿童信息被打包出售令人咋舌［9］，接二连三的信息泄露事件让个人、企业以及国家对数据安全更加重视。随着数据安全事件频繁发生，数据安全问题引起国内外学术界的高度重视，迅速成为各学科研究的热点、焦点。

图1 数据安全领域样本文献的年度分布

对比国内外数据安全研究的发文量发现，2018年之前国内外发文量基本持平，而2018 年之后在国外发文量激增。这与国际数据安全形势不无关系。2018 年，国际关系风云变幻，数据安全问题不断演化升级，从商业问题上升为政治问题［10］，最为突出的表现就是“域外效力”的广泛适用。2018 年3 月，美国通过了《澄清合法使用境外数据法》（CLOUD法案），授权美国执法机构获取境外司法数据；随后，欧盟的《通用数据保护条例》（GDPR）开始生效，规定对跨境数据进行全流程管理。

2018 年之后，国外发文量远超国内发文量，那么是否可以认为国内对数据安全的重视度不如国外呢？为此，笔者对样本外文文献进行统计，绘制可视图如图2 所示，图中圆圈的大小代表一国发表论文数，圆圈越大则反映该国对数据安全越关注。从图2 可以看出，发文最多的国家为中国，说明中国是数据安全领域研究的先锋。为何中国的科研人员宁可舍近求远，纷纷热衷于在国外期刊上发表论文？这与中国长久以来的科研评价导向中存在“唯SCI至上”的倾向有着莫大的关系。虽然国内学者很关注数据安全领域研究，但SCI 论文相关指标成为学术评价、职称评定、绩效考核、人才评价、学科评估、资源配置、学校排名等方面的核心指标［11］，使得国内学者过度追求SCI 论文相关指标，将很多数据安全研究成果发表在国外期刊上。

图2 数据安全领域样本外文文献的作者国别网络

2.3 期刊及学科的统计分析

通过对期刊分布情况的统计分析，有裨于学者了解数据安全研究领域的核心期刊及其发文偏好等，为学者对该领域进一步研究提供参考。从样本文献发文期刊统计来看，数据安全领域研究呈现多样化发展态势，其中外文文献分布在705 种期刊上，中文文献分布在503 种期刊上。由表1可知，国外发文最多的前10 种期刊共发表了546篇，占发文总数的24.07%，其中IEEE ACCESS发文最多，共175 篇，远高于其他期刊，在数据安全研究领域处于领先地位；其次是MULTIMEDIATOOLS AND APPLICATIONS和SECURITY AND COMMUNICATION NETWORKS，分别以58 篇和56 篇发文数位列第二、第三。值得注意的是，OURNAL OF MEDICAL INTERNET RESEARCH以33 篇的发文数位列第八。OURNAL OF MEDICAL INTERNET RESEARCH是一本关于健康信息学和卫生政策的期刊，专注于数字健康、数据科学、健康信息学和生物医学等方面［12］。国内发文最多的前10 种期刊共发表了314 篇，占发文总数的20.6%；发文最多的期刊是《情报杂志》，为40 篇，《电子政务》和《计算机科学》分别以38 篇发文量并列第二。

表1 数据安全领域样本文献的主要发文期刊及排名（前10 位）

对学科领域发展现状的分析有助于了解各学科发展状态，识别研究热点领域，为预测学科发展趋势提供参考，从而指导研究者进行选题。从国内外数据安全领域研究发文期刊所涉及的学科可以发现，数据安全研究并不局限于计算机科学，还涉及医学、情报学、政治学、公共管理学等多个学科，表明数据安全领域的研究呈多样化和交叉性发展趋势，特别是随着人工智能应用范围的不断扩展和深入，数据安全的相关法律问题逐渐凸显，《东方法学》等法律专业期刊对数据安全问题亦有所关注。《东方法学》在2017 年刊发的“人工智能有限法律人格审视”一文成为国内数据安全领域的高被引论文［13］（见表2），奠定了数据安全法律理论基础。

表2 数据安全领域样本文献中高被引中文文献的主要相关信息（前5 位）

通过比较国内外数据安全领域研究发文期刊情况可以发现：其一，国外发文最多的前10 种期刊占发文总数的24.07%，高于国内发文最多的前10 种期刊20.6%的占比，说明国外在数据安全领域已形成相对集中的期刊群，而中国则尚未形成特别集中的研究数据安全的期刊群；其二，数据安全领域的研究呈现多样化和交叉性发展态势，外文文献的研究主要集中在计算机科学和医学领域，包括跨学科应用、人工智能理论与方法、信息系统控制论等；而中文文献的研究则主要集中在情报学、计算机科学、管理学领域，法学等领域也有所涉及。

3 研究主题识别：3 个视角下的数据安全研究

关键词是用于表达文献的主题内容，体现了文章的核心观点，因此通过对高频关键词进行统计和分析，有助于对数据安全研究形成更为准确的认识，进而把握数据安全研究的热点。笔者通过CiteSpace软件对样本文献的关键词进行共现分析，形成国内外数据安全领域关键词共现图（见图3），图中的圆圈及字体的大小可反映该关键词出现频次高低，亦即，圆圈及字体越大，说明该关键词出现频次越大；并得到样本文献的高频及高中介中心性关键词如表3 所示。

图3 数据安全领域样本文献的关键词共现

表3 数据安全领域样本文献的高频及高中介中心性关键词（前20 位）

表3（续）

从图3 和表3 可知，“大数据”和“数据安全”“隐私保护”是样本中文文献中频次最高的关键词，“数据治理”“信息安全”“云计算”“区块链”“安全模型”“云存储”“数据开放”“数据主权”“网络安全”“数据共享”等关键词的频次也位居前列；“data security”“security”“IoT” 是样本外文文献中频次最高的关键词，“privacy”“cloud computing” “encryption”“blockchain”等关键词的频次也位居前列。

此外，中介中心性是衡量网络中节点重要性的一个指标，可用来发现和衡量节点的重要性，关键词的中介中心性愈大，表明其在整个知识网络中的地位越重要。根据表3可知，“多级安全”“云存储”“个人数据”的中介中心性在样本中文文献中位于前三，分别为0.90、0.62、0.59，位居其后的关键词依次是“公共安全”“网络空间”“总体国家安全观”“电子政务”“网络安全”“数据主权”等；“IoT”“data security”“access control”“security”的中介中心性在样本外文文献中位于前三，分别为0.58、0.43、0.35、0.35，紧跟其后的关键词依次是“privacy”“health care”“system”“cloud computing”“cloud”等。

笔者基于以往学者的研究和知识图谱的分析，对数据安全研究的主题进行归纳整理，从宏观视角将其分为以下3 个研究主题，以理顺数据安全研究的知识体系和发展脉络。

3.1 技术视角下的数据安全研究

数据安全技术是数据安全管理和安全运行的保障，技术的进步可促进数据安全治理水平的提升。借鉴陈兴蜀等［14］的研究，技术视角下的数据安全研究可以从数据生命周期和数据平台两个维度来分析。

3.1.1 数据生命周期

云安全联盟［15］提出了“数据安全生命周期”概念，指数据从产生或获取到销毁的过程。数据安全生命周期的每个环节都面临着不同的安全威胁，安全问题较为突出的是数据采集、数据传输与分发、数据存储、数据分析与使用等阶段。

（1）数据采集阶段。数据采集是指采集方对于用户终端、智能设备、传感器等产生的数据进行记录与预处理的过程。由于数据来源不一、数据质量良莠不齐，在数据收集环节应关注数据质量问题。目前学界主要围绕数据集成、数据清洗等技术研究以提高数据的质量，如Zhao 等［16］提出了一个概率模型解决移动环境中的数据丢失问题；Herbert 等［17］提出了BIO-AJAX 框架以解决生物数据标准化问题；Chen 等［18］针对报表数据的特征,提出了一种面向报表数据的元数据提取与数据集成方法。然而，没有一个单一的技术能够用于多样化的数据集，必须基于数据集的特性、性能需求等因素选择合适的数据预处理方案。

（2）数据传输与分发阶段。为解决数据传输分发中的隐私泄漏问题，Sweeney［19］提出了K-匿名规则，Machanavajjhala 等［20］提出了L-多样性模型等，但这一系列工作的缺陷在于为简化隐私保护理论上的推导，对攻击者的背景知识和攻击模型都给出了相当多的假定；Dwork［21］提出了差分隐私模型，可以在攻击者掌握任意背景知识的情况下对发布的数据提供隐私保护。根据处理实施者的不同，差分隐私可分为中心化差分隐私和本地化差分隐私。中心化差分隐私保护技术要建立在可信第三方数据收集者的假设基础上，但该假设在现实中不一定成立。叶青青等［22］认为，本地化差分隐私不仅可以抵御具有任意背景知识的攻击者，而且能够防止来自不可信第三方的隐私攻击。

（3）数据存储阶段。数据被采集后通常汇集并存储于大型数据中心，而大量集中存储的有价值数据极易成为攻击目标。数据储存的根本目标是要确保存储数据的安全性，其实现机制主要有数据加密、数据完整性证明。数据加密是确保数据存储安全的核心技术，学者Rivest 等［23］、Dawn 等［24］、Sahai等［25］分别提出了同态加密、可搜索加密、属性加密等加密算法。数据完整性证明是用来验证数据的完整性是否被破坏。在大数据环境下，当前的验证机制可支持动态操作、共享数据验证、公开验证，随着数据共享和多数据中心协作的发展，支持共享数据验证和跨数据中心验证的方案将是未来值得深入研究的问题。

（4）数据分析与使用阶段。数据采集、传输、存储的主要目的是分析与使用，通过数据挖掘、机器学习等算法处理，从而提取出所需的知识。本阶段的焦点在于如何实现数据挖掘中的隐私保护。为解决这个问题，学者Xu 等［26］提出了数据扰动技术；Oliveira 等［27］提出使用平移、缩放和旋转的数据变换方式，但隐私保护效果不够理想；张翠翠等［28］提出一种数据集中式分布下布尔数据集的关联规则的挖掘算法，此方法在实现了隐私保护的同时，通过与或运算实现了数据集的压缩。

3.1.2 数据平台

在数据生命周期中，需要数据平台以支持数据传输、存储和分析。数据平台维度主要涉及身份认证、访问控制等平台安全保护相关技术。

（1）身份认证。云环境下，验证用户身份，明确访问数据资源用户的合法性是保证数据不被非法访问和利用的有效途径。传统方法主要通过用户名和口令进行身份认证，但这种机制存在不少安全问题。随着大数据和人工智能技术的应用，基于行为的身份认证、基于位置的身份认证等新的身份认证模式正在涌现，这些模式为实现更安全的身份认证提供了更多的思路。但单一的验证方式不足以抵御云计算环境中复杂的攻击方式，因此多因子认证方式被提出，如Liu 等［29］提出一种名为MACA 的隐私保护的多因子身份认证系统，结合了用户密码和用户行为的认证方法；Banyal 等［30］提出了一种用于云计算环境的多因子认证框架，结合了ID 和密码的认证与基于动态多因子秘密分割的认证方法。

（2）用户访问控制。访问控制技术通过对用户访问资源的活动进行有效监控，使合法用户能够在合法的时间内获得有效的系统访问权，并防止非授权用户访问系统资源。传统的访问控制模式主要有自主访问控制、强制访问控制和基于角色的访问控制。自主访问控制模型具有灵活性、易用性与可扩展性，但缺点也比较明显，控制需要用户自主完成。强制访问控制在自主访问控制的基础上增加了对网络资源的属性划分，规定不同属性下的访问权限，在安全性方面比自主访问控制要高，但灵活性较差。自主访问控制、强制访问控制都是将权限直接授予用户，而基于角色的访问控制则是从控制主体的角度出发，根据管理中相对稳定的职权和责任来划分角色，将访问权限与角色相联系，该模式基本解决了前两种模式的缺陷［31］。随着信息技术的发展以及分布式计算的出现，单纯的基于角色的访问控制模型已经不能适应这种新型网络环境的要求，无法及时制止用户的恶意行为。为了保证信息访问的合法性、安全性以及可控性，一些学者提出了新型访问控制模型，如赵斌等［32］提出了基于信任的动态访问控制总体方案；王静宇等［33］针对云计算环境下精细访问控制问题，提出一种基于属性加密的细粒度云访问控制（FGABE-CAC）方案。

3.2 法律视角下的数据安全研究

数据安全的治理必须要有法律的支持和规范。大数据时代下的数据拥有者、使用者、管理者与传统的数据资产的拥有者、使用者、管理者不同，传统的数据属于组织和个人的，而大数据具有社会性。大数据时代下数据权属关系不清、数据越权使用等问题亟待解决。当前学界主要从主权、物权、人格权3 个角度研究数据主权、数据产权及数据保护等问题。

3.2.1 人格权角度

个人数据保护一直都是国内外研究的重点领域，学者们普遍认为个人隐私保护是数据保护的核心内容。欧洲的个人数据保护长期同隐私权相关联，个人数据权被认为是从信息维度对隐私权的解读［34］。国内对个人数据权的保护也以保障人格独立和维护人性尊严为基础。个人数据权与隐私权虽有重合之处，但两者也有内在差异，个人数据权的法律属性不能仅凭借隐私权来充分诠释或全面概括，个人数据可能是隐私数据也可能是非隐私数据。史卫民［35］认为，个人信息涉及心理、生理、社会、经济、财产等，与隐私相比，其内容更为宽泛。曹晟旻［36］认为，有必要将“主体同意”视为使用个人数据的法律依据，以知情同意取代对隐私安全的追求。

3.2.2 物权角度

数据产权主要集中于所有权，已有研究重点关注对数据的占有、使用、收益和处分的权利分配，如杨立新认为衍生数据为客体建立的权利是数据专有权，是一种新型的知识产权［37］；汤琪［38］认为数据作为数字世界的产物，在交易过程中可产生经济价值，具有财产属性，应被纳入虚拟财产权和财产权的保护之中。也有学者提出反对意见，如Tisne［39］认为“数据所有权”一词虽然极具吸引力，它意味着人们有权控制个人数据，但这个提法本身可能是一种概念性错误，不利于人们保护数据真实意图的实现；李慧敏等［40］认为，过强的数据排他权制度设计不利于数据产业的战略发展，应“为应用而保护”，构建以促进数据应用为核心的数据保护范式。

3.2.3 主权角度

对数据法律问题的研究最初源于对隐私利益的关注，“棱镜门”事件后各国意识到“数据霸权”不仅危及个人安全，更威胁国家安全，由此“数据主权”成为新的焦点。肖冬梅等［41］认为，数据主权是指一个国家享有对其管辖范围内的数据生成、传播、管理、控制、利用和保护的权力，主要包括数据管理权和数据控制权。从权属主体来看，数据主权的主体是国家以及政府，不仅包含一国境内的治理，还包括跨境数据管理，涉及个人数据和重要核心数据两个关键部分［42］。提出数据主权有助于加强数据保护，但单纯强调数据主权可能导致国家间的对抗，不利于数字经济发展，如Mueller［43］认为网络空间主权不利于全球数字经济发展，并提出应将网络空间视为全球公域而非国家主权所有物；付伟等［44］认为数据主权从根本上讲不是一个权属问题，而是一个技术发展问题。

3.3 管理视角下的数据安全研究

数据安全三分靠技术、七分靠管理［45］，因此，解决数据安全问题单纯靠技术是远远不够的，还需要综合治理。管理是数据安全体系的指引和基础，世界各国纷纷采取行动，从分级分类管理体系、人才培养等多个维度入手，形成了各具特色的治理理念和治理方案。

3.3.1 数据分级分类管理体系

数据分类分级是数据安全的前提，做好数据分类分级可以确保一定级别数据能够以适当的投入保持适当的控制水平［46］。分类一般是按照类型或性质进行归类，而分级是按既定标准（如纯度、强度、大小、好坏等）进行高低区别的分类。关于政府数据，罗海宁［47］认为，可按照数据权属、来源、使用范围等属性对数据资源进行归类，按照数据敏感程度进行定级；商希雪［48］认为应根据政府数据开放应用的市场化程度对政务数据开放平台的数据进行分级分类；但美国并未制定关于开放政府数据的分类分级的法规，而是出台了关于政府安全数据及政府非涉密但敏感数据的分类分级相关政策，为政府数据开放中的数据分类分级提供了依据。关于科研数据，美国华盛顿地区采用了五级数据分类模式，将科研数据分为开放数据、公共数据、供地方政府使用的数据、机密数据、限制机密数据［49］；澳大利亚新南威尔士大学把科学数据分为公共级、私人级、敏感级、高度敏感级4 个层次［50］；盛小平等［51］认为，科学数据可分为开放共享的科学数据、有限共享的科学数据、机密的科学数据、高度机密的科学数据4 个级别。

3.3.2 数据安全人才培养

要完善数据安全战略体系，人才不可或缺。美国在数据安全管理时很注重数据安全人才的培养，于2010 年启动了“国家网络安全教育计划”强化了人才对数据安全的作用，通过在幼儿园、中小学、高等院校、职业学校等各教育层面开展网络安全知识普及活动，为私营部门和政府培养具有网络安全技能的员工［52］。Monica 等［53］认为，不仅需要培训更多的网络安全人员，而且必须提高他们的技能、才能和协作能力，以满足当前和未来市场需求。许宪春等［54］认为，人才培养的两个重要渠道分别为高校增设数据学科以培养数据人才和社会增加数据知识培训来培养人才，针对高校数据学科人才培养，可建立跨领域、跨专业、跨部门的多层次复合人才培养模式，社会数据知识培训主要是各大培训机构通过聘请国内外数据领域专家，定期向社会相关数据从业人员进行培训，培养相关数据人才。数据安全人才培养涉及人才选拔、培训、评估、认证等多个环节，其中如何准确评估数据安全人才的技能水平是非常重要的。张方娇等［55］提出了一种改进的贝叶斯知识追踪模型（cybersecurity talents bayesian knowledge tracing，CT-BKT），对数据安全人才的知识状态进行追踪，从而实现对其能力的动态精准评估。

4 数据安全研究前沿分析

研究前沿是某一科学研究中最新、最具发展潜力的专业领域，通常表现为一组突现的动态概念，而关键词激增指数能够探测出某一阶段频次变化率高的关键词，这些关键词在一定程度上代表着某一科学研究的前沿和趋势。笔者利用CiteSpace 对数据安全研究样本文献的关键词进行突现检测，删减、合并同义关键词，最终得到突现率前15 位的关键词，详见表4，可见不同时期出现了不同的突变性关键词，说明数据安全研究领域呈现多元化特征。国内外强度最大的关键词分别是“云计算”和“information”，强度值分别为11.48 和7.69；突现持续时间最长的关键词为“数据挖掘”和“key（钥匙）”，持续时间分别为5 年（2014—2018 年）和6 年（2013—2018年）。最近两年突现的关键词有“个人信息”“区块链”“人工智能”“数据控制者”“物联网”“future（未来）”“steganography（隐写术）”，表明这些研究主题自2019 年以来在数据安全研究领域中一直比较活跃，有可能成为未来一段时间的研究前沿趋势。

表4 数据安全领域样本文献的主要突现关键词（前15 位）

4.1 人工智能与数据安全

人工智能的实质就是一些算法的集合，是对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考，甚至可能超过人的智能。人工智能的快速发展为数据安全治理带来了新的机遇，如计算机视觉、自然语言处理、知识图谱等人工智能技术为数据治理提供了更高效、精准的手段，然而，人工智能对信息数据的过度需求也埋下了严重的隐患，人们的工作、生活因为人工智能的广泛应用而日益变得透明化，数据安全和隐私保护问题逐渐成为公众关注的焦点。人工智能加剧了过度采集等传统数据安全问题，带来数据投毒、深度伪造等新型数据安全问题。人工智能发展与数据安全问题相互交织、不可分割，未来有必要加快人工智能数据安全风险研判，在引导人工智能健康发展的同时，积极加强数据安全监管与治理。

4.2 区块链与数据安全

区块链是一种基于新思维、复合型的技术，具有去中心化、信息不可篡改、透明可追溯等特点。和由某一方独立构建和运营的传统信息系统不同，一个合格的区块链系统需要将同一信息存储在众多节点上，通过不同节点间的独立运行来保障数据的完整与完好。区块链为无信任的网络环境提供安全保障的同时，也面临安全和隐私方面的严峻挑战。当前区块链技术大多采用美国提出的公钥加密算法，导致其安全性一直无法得到有效保证。据路透社［56］报道，美国RSA 公司设计开发的公钥加密算法实现软件Bsafe 存在后门，便于美国国家安全局监控其他国家的保密通信或伪造数字签名。数据显示，2020年发生DeFi 安全攻击事件60 起，损失2.5 亿美元［57］；2021 年仅半年，DeFi 攻击事件总数已逼近2020 年整年，而损失金额已超2020 年3 倍多［58］。因此，如何积极推动区块链和经济社会的融合发展，保障数据安全，已成为一个崭新的话题。

4.3 个人信息保护

自新冠疫情暴发以来，许多人出入酒店、商场等公共场所都被要求手机扫码或手动填单；健康医疗大数据技术在病毒溯源、疫情监测、疫情预测分析及助力企业复工、复产等方面发挥了关键性作用。但这也给当前个人信息保护带来不小挑战，人们对此反映强烈。当个人医疗记录、行程轨迹等信息被收集，一旦被泄露或滥用，将给个人带来的风险巨大。成都新冠肺炎确诊女孩被“网暴”后面临“社会性死亡”［59］、沈阳新冠肺炎确诊患者尹某某和家属的具体身份信息被泄露后每天收到上百条辱骂信息［60］……每一次此类事件都在提醒我们，一旦隐私保护的“堤坝”被冲破，后果将很可怕。健康码作为特殊时期的应急措施，具有临时性、边界性及可恢复性，在新冠疫情防控常态化时期，相关部门可否继续收集个人信息仍有待进一步征求个人意见，凝聚社会共识。如何在进一步推动大数据应用的同时，加强数据安全与个人信息保护，是一个值得深入探讨的问题。

5 结论

本研究采用文献计量和科学知识图谱可视化的方法，对CNKI、WoS 核心合集数据库中2013—2021 年数据安全领域的文献进行统计分析，主要得出以下结论：

（1）随着数据安全事件频发，国内外对数据安全的研究如火如荼，涌现出了诸多研究成果，整体呈现逐年上升的趋势，特别是在2018 年之后，国外相关发文量大幅度上升，远超国内发文量，但从文献作者所属国家来看，中国仍是发文量最大的国家，是数据安全领域研究的先锋。

（2）从国内外发文期刊统计来看，数据安全领域研究呈现多样化发展态势，《情报杂志》《电子政务》《计算机科学》，以及IEEE ACCESS、MULTIMEDIA TOOLS AND APPLICATIONS、SECURITY AND COMMUNICATION NETWORKS等杂志发表了大量相关文献，为进一步推进数据安全研究提供了重要载体。从学科来看，国外期刊发表的文献主要集中在计算机科学和医学领域，包括跨学科应用、人工智能理论与方法、信息系统控制论等；而国内期刊发表的文献则主要集中在情报学、计算机科学、管理学等领域。

（3）对国内外数据安全领域文献的关键词分析表明，相关研究主要围绕技术、法律、管理3 个维度展开。技术是支撑数据安全管理、安全运行的保障，当前学界主要从数据生命周期和数据平台两个方面对相关技术进行了研究；数据安全的治理必须要有法律的支持和规范，当前学者主要从主权角度、物权角度、人格权角度3 个视角进行研究；解决数据安全问题单纯靠技术是远远不够的，还需要综合治理，世界各国纷纷采取行动，从分级分类、人才培养等多个维度入手，形成了各具特色的治理理念和治理方案。

（4）从国内外数据安全领域文献的关键词突现分析看，不同时期出现了不同的突变性关键词，数据安全研究领域呈现多元化特征，最近两年突现的关键词有“个人信息”“区块链”“人工智能”等，表明这些研究主题自2019 年以来在数据安全领域中一直比较活跃，有可能成为未来一段时间的研究前沿趋势。

此外，由于本研究中的数据来源仅限定在WoS核心合集数据库和中国知网中的CSSCI 及CSCD 期刊库，导致数据的样本量相对较小。在后续的研究中，笔者将进一步扩大样本量的选取范围，运用更多元的研究方法，对数据安全研究的内容进一步对比分析，从而为未来开展数据安全的研究提供有益的参考和借鉴。

注释：

1）此数据包含中国学者发表于国外期刊的文献。