文献量化视角的国际数据安全政策领域科研知识特性研究

2022-12-27 12:59胡慕海彭春雪田文迪陈艳霞
武汉纺织大学学报 2022年6期
关键词:桥接数据保护数据安全

胡慕海,彭春雪,田文迪,陈艳霞

文献量化视角的国际数据安全政策领域科研知识特性研究

胡慕海1,彭春雪1,田文迪1,陈艳霞2

(1. 武汉纺织大学 管理学院,湖北 武汉 430200;2. 武汉儿童医院 武汉市妇女儿童医疗保健中心,湖北 武汉 430019)

以文献为知识资源和量化对象,构建表征领域科研知识特性的若干概念,包括科研知识的流动性、新颖度、关注度、桥接性和突现性,进而宏观观测该领域不同学科的科研知识传播与扩散情况,并细粒度地从模块化知识特性的视角展开系统性梳理和评价。研究表明近年来该领域知识资源日益丰富,但不同学科的知识流动性差异较大,政法学和计算机科学的知识流动强度占有绝对优势,另外“人工智能”和“2019冠状病毒”是新近产生的知识模块,知识规模增长较快,而“区块链”模块则是近年来在科学研究中应用显著增加的知识,“自动决策”模块通过提供丰富的基础性知识,促进了本领域研究方向的变革。基于以上知识特性的分析,本研究最后对该领域的科研创新方向和知识资源建设提出若干建议,有利于推动我国在该领域的研究深化。

数据安全;政策;知识

数据安全政策作为确保数据被有效保护和合法利用的准则,具备了保障数据持续处于安全状态的能力[1, 2],是实施数据安全治理的重要手段和构建治理体系的关键支撑,有利于规范信息处理活动,保护个人隐私权益;充分挖掘数据价值,提高企业的数据管理效率,推动各行业数字化转型,促进数字经济发展[3];也利于维护国家数据主权,有助于数据的安全开放共享。

国外尤其西方发达国家对于数据安全政策的研究开展较早,对医疗、金融、制造和零售等行业的数据保护,以及物联网、人工智能等数字技术背景下的数据安全政策解读、设计、实施、评估、改革和政策框架构建等问题较为关注[4];还有采用文献计量的方法,总结了数据安全政策对隐私保护技术、组织措施制定或某特定领域[5],如远程教育、区块链等造成的影响;以及从技术、组织和环境层面建立分类框架,对大数据安全、隐私相关的文献进行统计分析,产生的研究成果较为丰富。国内对数据安全政策的研究尚属起步阶段,侧重对欧美发达国家政策的借鉴、评判以及对我国政策的优化建议,如从消费者隐私视角审视欧盟相关政策的治理举措[6];通过对欧美等发达国家数据安全政策量化、对比分析,为我国提供可参考的政策工具[7],或结合知识图谱、语义挖掘,剖析数据安全与开放政策的协同关系[8]。

总体而言,研究大多是定性、评述性的,对于支撑当前该领域研究工作的知识的特性,尤其知识的跨学科流动性,知识的主题分布,以及如何从文献量化的视角发掘科研知识特性方面,缺乏详细深入探讨,并且从文献计量和知识角度展开的相关研究也相对较少。本研究拟以文献为知识资源和量化对象,基于文献建立该领域科研知识特性的测度指标,完成当前国际数据安全政策领域的科研知识特性的系统性梳理和评价,为如何促进该领域知识资源的建设和科研创新提出建议。

1 数据来源、研究方法

1.1 数据来源

基于Web of Science采集研究数据集,使用“主题”检索并参照Zamfioroiu的采样策略[9],选定 “data protect* OR data security”、“policy OR regulat*”为检索词,形成组合检索表达式。为体现数据安全治理的当代特性,采样时间为2011年1月1日-2021年12月31日,跨度共计11年,选取“Article”和“Review Article”类较具实质性研究的文献,去重、勘误后最终确定2352篇文献作为知识源。

1.2 研究方法

(1)统计分析。统计2011-2021年间数据安全政策研究领域的文献及其引文数量,根据知识变化情况划分不同研究阶段,进一步,以学科为知识流动的测度空间,计算隶属不同阶段不同学科研究成果的被引与施引文献数量,用图表形式客观展现学科知识流动规模。

(2)共被引及聚类分析。通过两篇文献同时被一篇或多篇论文引证的共被引关系建立共被引网络,根据LLR算法对文献共被引网络聚类,形成的节点簇表征知识模块,获取各模块中知识节点的平均共被引年份、共被引频次、中心度和突现值。

(3)战略坐标图分析。基于共被引网络和聚类分析结果,由知识节点的共被引频次、平均共被引年份、网络中心度和预置时间范围内文献被引频次增长率构建测度知识特性指标:关注度、新颖度、桥接性和突现性,并分别作为横纵轴绘制战略坐标图,考量知识模块在研究领域中的时效性和应用特性。

2 学科知识流动性分析

考察发文数量、引文频次(图1)和两者对应的拟合指数R2(0.9781和0.9536),可见两者随时间推进均显著增长。2013年美国“窃听门”事件曝光,隐私保护受到空前重视;2018年欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)出台;考察发现,隐私保护和GDPR相关文献分别占次年发文总量的21%和52%,上述事件成为影响推动数据安全政策研究的重要诱因,综上,将近十年的数据安全政策研究发展历程分为初始期(2011-2013年)、增长期(2014-2017年)和爆发期(2018-2021年)。

图1 各年份发表文献数量和引文总数统计

图2 第一阶段各学科知识流动规模

图3 第二阶段各学科知识流动规模

图4 第三阶段各学科知识流动规模

计算机科学向其他学科扩散知识的强度最大,研究成果被参考的次数最多,是数据安全政策研究领域重点学科。计算机科学、电子电气、商业与经济在每一阶段知识输出量均大于输入量,可见不同学科间的知识极大程度地进行了交换与渗透,促进政策研究进一步深化;政法学知识输出量一直远低于输入,表明该学科研究选题丰富,但被其他学者采纳的理论与方法相对来说更集中单一,这或许与其本身学科特性有关,值得注意的是,在第三阶段输出量大幅上升,成为了学术界热门研究内容,未来或引发更大规模的知识流动。

3 知识模块识别与战略坐标图分析

为清晰反映数据安全政策研究知识体系的构成,构建样本文献的共被引网络,采用LLR算法对网络知识节点聚类,形成8个知识模块,对各模块进行时效性分析,对各模块排名前十高被引节点文献的摘要采用词云描述(图5)。

图5 各模块摘要词云

3.1 知识模块“关注度-新颖度”分析

从新颖度分布来看,“2019冠状病毒”、“人工智能”、“知情同意”、“个人数据保护”是该领域研究的新兴知识。“自动决策”、“区块链”、“通用数据保护条例”、“医疗保健”知识新颖度落后于平均水平。从关注度分布来看,“自动决策”模块中文献的共被引频次整体较高,在研究领域里具有一定的奠基作用[11],属于基础型知识模块。其中,2017年Sandra Wachter对GDPR中算法自动化决策的解释权提出质疑,并建议通过提高个人数据使用的透明度来加强隐私保护[12]。不少学者在其工作基础上展开更深入研究,例如“Selbst AD,2017”,针对Wachter的研究结论提出相反观点,认为解释权在一定程度上可以保护数据主体的权利,因此存在是十分有必要的[13]。

整体来看,“人工智能”位于第一象限,具有高新颖度和高关注度,是当前数据安全政策研究中具有显著时效性优势的知识模块,其中人工智能算法的发展是否会受到数据保护政策的限制是重点探讨的研究课题[14]。位于第二象限的模块“知情同意”、“2019冠状病毒”和“个人数据保护”,具有高新颖度和低关注度,提供了关于“知情困境”以及个人隐私泄露、滥用等问题的治理知识,包括数据安全法在当前治理中存在的短板、增加数据使用透明度的路径设计等,此类知识处于生命周期初期,有潜力成为后期研究应用中的焦点。尤其“2019冠状病毒”的知识具备最高新颖度,主要涉及新冠肺炎病毒背景下,检测和预防疾病过程中通信、数据科学技术大规模应用,符合新兴技术发展的数据安全政策框架构建,以及个人数据与公共安全利益平衡问题研究。第三象限的“通用数据保护条例”、“医疗保健”新颖度和关注度都较低,在研究中不受到重视,是目前处于低应用价值的边缘化知识,支撑研究的知识体系亟待发展。前者知识主题包括《通用数据保护条例》概念、定义的解读,值得注意的是数据可迁移性这一新概念的提出,赋予了数据主体更多控制数据的权利,有潜力促进政策的创新改革[15];后者聚焦于基于物联网技术的医疗系统中,电子健康数据共享政策设计。“区块链”位于第四象限,属于研究中长期得到应用的基础性知识,主要涉及数据保密技术在不同行业实现政策合规需作出的调整措施,相关知识体系有所老化。

图6 知识模块“新鲜度-关注度”分布

3.2 知识模块“桥接性-突现性”分析

桥接知识是指网络中高中心度的文献节点,往往与其他模块关联紧密,研究方向在此节点易发生明显转变,作为载体承接了重要的新理论、方法、技术或思想。“自动决策”桥接性最高,提供了大量引导后续研究转向的枢纽知识;其次是“2019新冠病毒”,促进了重大突发公共卫生危机事件背景下新研究分支发展。具体地,Jan Philipp Albrecht(2016)以消费者和数字技术间的信任关系为切入点,阐述GDPR对各国数据安全治理方式造成的影响及效果[16],近三年来该文献多次与“知情同意”、“个人数据保护”模块内的知识节点发生关联,为之后两模块的创新研究提供了重要的知识支持。Barocas的研究结合大数据应用的复杂情景,审视由数据挖掘等算法技术引起的“智能困境”[17],例如在大数据分析过程中,多元、非敏感的个人数据被挖掘、整合后,可推断出敏感信息从而造成隐私侵犯,该研究成果对后续预防大数据泄露的政策制定、机器学习的算法管控具有一定指导意义。

突显知识存在于特定时间段内被引次数骤升的文献中,是某一时段期被高频引用的热点知识;“区块链”拥有最多被引突增文献,是热门知识高发区,这与数字加密技术的迭代更新不无关系;来自该模块的“D.H.Paul, 2016”突现值最高,在GDPR正式颁布前,作者通过对该法案的内容分析,预测数据迁移权的提出对数据安全治理的变革有巨大推动作用[18],该权利不仅赋予数据主体控制数据的权利,未来还可能改变数字经济的市场环境,文章在发表一年之后出现被引突增,但仅维持一年,在2018年被引情况逐渐趋冷。其次是来自“人工智能”的“V.Mayer-Schonberger,2013”,指明了政府开放数据因包含公共部门、私营部门和个人信息等重要数据,会成为未来重点治理对象[19],该成果发表2年后(2015年)开始受到大量关注,为进一步从社会层面研究数据保护相关权益提供了思路。

图7 知识模块“桥接性-突现性”分布

4 研究结论、建议及展望

4.1 研究结论

(1)知识流动强度不均衡,大部分集中于政法和计算机领域,研究侧重在为政策执行提供技术层面的知识支持,与人文、工学、医学等学科知识流动性差距较大,表明这些领域政策研究的知识产出和应用尚属起步阶段,各学科间缺乏融合和联系,彼此分割。

(2)“人工智能”知识模块具有高新颖度和高关注度,主要涉及算法自动化决策的合规性调整,以及科学技术发展与数据安全政策变革的利益平衡问题,有潜力发展成核心知识领域。“2019冠状病毒”是新晋的研究主题,预示医疗健康、患者隐私数据安全治理可能成为热门研究分支;“自动决策”作为基石模块,为数据收集、使用和披露的操作规范化研究及自动决策程序的风险规避等问题提供了较丰富基础性知识。

(3)“自动决策”知识模块是促使研究方向发生转变的关键知识资源,其中的高中心度知识节点与其他知识模块发生连接和融合,对新方法、理论的产生影响较大;“区块链”模块包含最多被引突增文献,是研究中应用热点知识高发区。

4.2 知识资源建设和创新应用建议

对以上科研知识特性展开综合比较,可以对知识资源的建设和面向科研的创新应用形成一些建议。“自动决策”知识模块具有高关注度和高桥接性,新颖度和突现性表现较平,表明该主题的历史知识成果丰富,对早期数据安全政策研究方向的变革有一定指导作用,但知识内容相对老化,近年并未出现知识应用上的热点,发掘研究创新点难度可能会较大,需要厘清该领域知识资源的不足,明确知识资源建设和创新研究的基本方向;“区块链”有高突现性,但新颖度和桥接性均很低,可见相关知识曾经被积极应用和高度重视,但知识也是相对滞后,知识应用热点虽多但彼此分隔,后继乏力,可考虑从现有热点研究中发现学术联系,比如在跨学科,交叉研究方向上开辟新的创新思路;“人工智能”整体表现较平,研究竞争压力较小,有潜力成长为该领域核心主题,可以考虑在现有研究成果基础上推陈出新;“知情同意”新颖度较高、关注度不高,且突现性和桥接性均为最低,说明该新兴主题尚没有得到较多关注,相关知识尚未被积极应用,如果加强知识的创新利用,可能会产生新的研究热点;“2019冠状病毒”、“个人数据保护”的突现性和桥接性均不明显,新颖度较高但关注度低,表明是新近研究热点,但尚未形成丰富的知识资源,研究上可以认为竞争不大,且存在一些具有研究转向特性,加强对该领域知识资源的深度应用,有可能会形成新的创新领域和前沿热点;“通用数据保护条例”和“医疗保健”的突现性和桥接性和“2019冠状病毒”类似,但是前两者新颖度和关注度都不高,不是近期的研究上的知识应用热点;知识资源不够丰富且有所老化,需要进一步厘清该领域知识资源不能持续更新的原因,是否知识资源的不足制约了相关研究的发展。

进一步,结合典型高被引知识节点的分析,本文提出若干更具体的建议,首先重大突发公共卫生事件背景下,跨医疗、生物领域的知识创新应用。公民健康数据安全既涉及敏感的个人隐私信息,又属于威胁国家安全的重大资源,当前跨学科知识流动性不足,亟待进一步进行学科交叉、融合的新兴研究,并结合当下背景加强政策实施的案例型知识产出,以支持现实中的实操应用。其次,信息科技领域数据安全政策设计、实施和效果评价方面,通用的、范式化的方法及模型开发,尤其人工智能算法、数字保密技术的知识应用呈现碎片化特性,现有研究成果无法支撑政策构建统一的合规化标准,有必要围绕特定政策场景深化大量理论与实践研究,为“碎片化”的问题提供有力的知识支撑,为政策决策、评估、预测和校正等过程提供有参考意义和价值的方法指引,从而提高合规流程效率。

4.3 研究不足和工作展望

本文以学科为测度空间测量知识流动性,未考虑到某文献可能属于多个学科类别情况,其次,共被引网络聚类的主题标签识别可能有偏差,本文尚未验证基于主题聚类算法进行知识模块挖掘的有效性问题,有可能出现主题代表性偏差的问题,其次以文献作为知识资源的量化对象,所构建的知识特性指标也有一定局限性,由此形成的知识资源建设和创新应用的建议可能也有一定片面性,未来可以考虑识别更有代表性的知识模块主题标签。

未来的工作考虑整合和优化主题聚类算法,进一步提升知识主题聚类效果,完善基于文献的科研知识特性量化指标,拓展面向科研创新的知识资源,多方面挖掘不同类型的知识特征整合到知识图谱的节点表征和节点关联测度模型中,由此在不同知识粒度层面,建立和优化数据安全政策研究领域知识资源应用趋势的量化预测能力。

[1] 李艳, 章时雨, 季媛媛, 等. 全球数据安全:认知、政策与实践[J]. 信息安全与通信保密, 2021, (7):2-10.

[2] 马海群, 徐天雪. 我国政府数据安全政策评估体系构建研究[J]. 图书馆理论与实践, 2018, (1):1-4.

[3] Christopher K , Fred C , Orla L , et al. An unstoppable force and an immoveable object? EU data protection law and national security[J]. International Data Privacy Law, 2018, 8(1):1-3.

[4] Tamburri D A. Design principles for the General Data Protection Regulation (GDPR): A formal concept analysis and its evaluation[J]. Information Systems, 2020, 91, 101469.

[5] Dimitrova A , Brkan M. Balancing National Security and Data Protection The Role of EU and US Policy-Makers and Courts before and after the NSA Affair [J]. JCMS Journal of Common Market Studies, 2018, 56(4):751-767.

[6] 门小军. 大数据时代欧盟数据安全政策概述[J]. 信息安全与通信保密, 2015, (6): 36-39.

[7] 马海群, 王茜茹. 美国数据安全政策的演化路径、特征及启示[J]. 现代情报, 2016, 36(1):11-14.

[8] 闫倩, 马海群. 我国开放数据政策与数据安全政策的协同探究[J]. 图书馆理论与实践, 2018, (5):1-6.

[9] Alin Z, Bogdan I, Catalin B, et al. IoT Communication Security Issues for Companies: Challenges, Protocols and The Web of Data[J]. Proceedings of the International Conference on Business Excellence, 2020, 14(1): 1109- 1120.

[10] 夏红玉, 胡潜, 王忠义. 基于引文重要性的知识流动主路径分析[J]. 情报学报, 2022, 41(05): 451-462.

[11] Chen C. Science Mapping:A Systematic Review of the Literature[J]. Journalof Data&Information Science, 2017, 2(2):1-40.

[12] Wachter S , Mittelstadt B , Floridi L . Why a Right to Explanation of Automated Decision-Making Does Not Exist in the General Data Protection Regulation[J]. Social Science Electronic Publishing, 2017, 7(2): 76-99.

[13] Selbst A D , Powles J . Meaningful Information and the Right to Explanation[J]. Social Science Electronic Publish- ing, 2017, 7(4): 233-242.

[14] Maja B. Do algorithms rule the world? Algorithmic decision-making and data protection in the framework of the GDPR and beyond[J]. International Journal of Law and Information Technology, 2019, 27(2):91-121.

[15] Paul D H,Vagelis P,Gianclaudio M, et al. The right to data portability in the GDPR: Towards user-centric interoper- ability of digital services[J]. Computer Law & Security Review: The International Journal of Technology Law and Practice, 2018, 34(2):193-203.

[16] Albrecht J. How the GDPR Will Change the World[J]. European Data Protection Law Review, 2016, 2(3): 287–289.

[17] Barocas S , Selbst A D . Big Data's Disparate Impact[J]. Social Science Electronic Publishing, 2016, 104(1): 671- 732.

[18] Paul D H, Vagelis P.The new General Data Protection Regulation: Still a sound system for the protection of individuals?[J]. Computer Law & Security Review, 2016, 32(2): 179-194.

[19] Veale M, Edwards L. Clarity, Surprises, and Further Questions in the Article 29 Working Party Draft Guidance on Automated Decision-Making and Profiling[J]. LawArXiv, 2017, 34(2): 398-404.

Research on the Characteristics of Scientific Knowledge in the Field of International Data Security Policy From the Perspective of Literature Quantification

HU Mu-Hai1, PENG Chun-Xue1, TIAN Wen-Di1, CHEN Yan-Xia2

(1.School of Management, Wuhan Textile University, Wuhan Hubei 430200, China;2. Wuhan Women's and Children's Health Care Center, Wuhan Children’s Hospital, Wuhan Hubei 430019, China)

Take literature as the object of knowledge resources and quantify, this paper tries to build some concepts of characteristics of scientific research knowledge, including the scientific knowledge's liquidity, novelty, attention, bridge and emergent, and macroscopic observation the different disciplines in the field of scientific research knowledge dissemination and diffusion, and in a modular knowledge characteristics in detail to comb systematically and evaluated. Research shows that knowledge resources in this field are increasingly abundant in recent years, but there are great differences in knowledge mobility among different disciplines. Political science and law and computer science have absolute advantages in knowledge flow intensity. In addition, "artificial intelligence" and "COVID-19" are newly generated knowledge modules, and the scale of knowledge is growing rapidly. While the "blockchain" module is a significant increase in the application of knowledge in scientific research in recent years, the "automatic decision" module promotes the reform of the research direction of this field by providing rich basic knowledge. Based on the analysis of the above knowledge characteristics, this study finally puts forward some suggestions on the direction of scientific research innovation and knowledge resource construction, which is conducive to accelerating the process of scientific research in this field in China and promoting the deepening of research in this field in China.

data security; policy; knowledge

胡慕海(1976-),男,副教授,博士,研究方向:政策信息学.

湖北省教育厅科学技术研究计划指导性项目(B2013203);湖北省普通高等学校人文社会科学重点研究基地-企业决策支持研究中心项目(DSS20200705);湖北省普通高等学校人文社会科学重点研究基地-企业决策支持研究中心项目(DSS20170303);湖北省教育科学“十二五”规划2012年度立项课题(2012B075).

TN929.11

A

2095-414X(2022)06-0040-06

猜你喜欢
桥接数据保护数据安全
FPGA互连测试中的反馈桥接故障覆盖问题
Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案
数据保护护航IT转型
——戴尔易安信数据保护解决方案
欧洲数据保护委员会通过《一般数据保护条例》相关准则
云计算中基于用户隐私的数据安全保护方法
欧盟“最严”数据保护条例生效
建立激励相容机制保护数据安全
数据安全政策与相关标准分享
板栗嫁接不亲和挽救方法
大数据云计算环境下的数据安全