于 淼 孔孟蕾 郭 洁 孙艺萌
当今时代,数据作为信息型生产要素在经济社会的发展中发挥着重要作用,数据规模呈爆炸式增长,数据滥用的现象层出不穷,数据信息安全也成为有关个人、企业、社会乃至国家亟待解决的问题。近年来,我国政府对数据安全治理问题的重视程度不断提高,2021年出台的《数据安全法》就数据竞争和保护等关键问题制定了适合我国国情和现状的规则路径,成为提升数据安全治理能力的一把利器,也又一次引发了学界对于数据安全治理问题的关注。
国外对于国家大数据安全及治理的研究起步较早,研究重点有数据隐私和安全、数据安全技术和系统的构建等,也形成了包含大数据发展战略、法律制度、组织机制和安全监控在内的大数据战略体系。学者们很早就意识到了数据安全治理的重要性。1996年,菲茨杰拉德基于一个广泛的调查问卷,发表了基础研究计划的数据安全报告,提出了评估和升级数据安全措施的必要性[1];在数据安全治理技术和系统构建方面,兰·郭和丹尼尔·朗利提出的风险数据仓库(RDR)模型是最早的具有数据安全保障性质的计算机模型[2];特罗普和多威尔从政策治理的角度,提出政府及相关组织应提高数据安全策略标准,以加强数据安全管理[3];班萨利从管控数据风险的角度,提出应对数据进行长期监控和评估,以便更好地开展数据安全治理[4];在理论和模型构建方面,拿撒勒提出应从攻击预防、减少漏洞和威胁发现等几个方面着手建立动态系统模型,为相关管理人员提供数据安全治理的决策依据和建议。[5]
国内有关数据安全问题的探讨尚未形成体系化的发展路线和成熟的研究成果,对数据治理标准与内容的研究尚处于起步阶段。鉴于此,本文运用 可视化文献分析(CiteSpace)文献计量工具,选取中国知网数据库收录的国内有关数据安全治理的研究文献,对该领域的研究成果进行量化分析,希望能够借助知识图谱梳理该研究领域的演化路径及讨论热点,并总结领域发展特点,为研究工作的开展提供参考。
本文采用的数据库为“中国知网”,检索关键词为“数据安全法、数据安全法律、数据安全法规”,检索时间范围为2003年1月至2021年12月,共检索到文献323篇。随后笔者进行二次筛选,选取北大核心文献以及中文社会科学引文索引(CSSCI)文献。其中包含一些与检索词含义偏差较大的文章,笔者将进一步进行人工筛选。例如可能会检索出“地方安全生产治理绩效影响了官员晋升吗?——基于中国省级面板数据的实证检验”等同时出现“数据”和“安全”等关键词,但与本文研究无关的类似文章。筛选后最终作为数据源的文献数量为318篇。
CiteSpace设计的初衷是采用知识可视化的方式帮助学者明确知识发展脉络、把握领域发展重点。软件能够实现的功能较多:一是关键词的共现分析,即提取文献主题、摘要、内容等文本中的关键词,并寻找各个文献之间关键词的联系;二是聚类分析,对即将出现的关键词以及关键词之间的联系按照不同的依据进行聚类,得到不同的研究子领域;三是突现分析,即识别在某一年份突然凸显的、引用量大幅上升的新主题词;四是研究路径,即提取每年研究的关键词并按照年份绘制关联路径,以发现不同年份的研究重点。
本文借助CiteSpace5.8作为文献计量工具,了解数据安全法领域的讨论热点、研究发展路径、主要贡献作者等,以帮助该领域的学者总结领域发展特点。基于此,本文采用的研究路径如下。
第一,基本文献统计。该步骤主要统计该领域每年的发文量,结合数据统计结果与当前的经济、政治环境,总结研究的爆发点以及背后的原因。
第二,共词网络与聚类分析。该部分将聚焦于学者们的具体研究内容,对关键词进行词频统计、关联计算、聚类计算。在词频分析的基础上,CiteSpace能够对关键词进行共词分析。共词分析的基本原理是计算两个词汇在同一篇文献中出现的次数,以测度它们之间的亲疏关系。聚类分析则将学者们研究中聚焦、关联的关键词聚为一类,主要识别该领域的细分研究领域及其规模。该步骤可以对数据安全法领域的主要研究成果布局以及细分领域的组成、规模进行可视化展示。
第三,领域发展路径分析与突现分析。该部分在共词网络与聚类分析的基础上,引入时间序列,综合分析词汇的兴起与衰落,以及关键词的发展沿革。突现分析主要识别在某些年份突然出现的主题词,以及结束的时间。CiteSpace提供突现分析(Burst Detection)的功能来探测在某一时段引用量发生较大变化的情况。
第四,主要共现作者与合作网络分析。文章作者的共现分析与词汇的共现分析原理大致相同,以文章作者为数据源,统计1个作者的发文频次以及共现发文频次,并绘制网络。通过该部分的分析,笔者可总结该领域的主要学者、主要机构以及合作网络情况。
由图1可知,2015年数据安全法领域的发文量突然上升,从2014年的2篇增加到了11篇。2015年7月发布的《中华人民共和国国家安全法》提出“实现网络和信息核心技术、关键基础设施和重要领域信息系统及数据的安全可控”。此外,2015年7月,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》;2015年8月,国务院印发《促进大数据发展行动纲要》。故2015年是网络安全进步的关键年份,其中涉及的数据安全问题引发了学者的热烈讨论,并产生了波及效应,之后相关发文数量持续上升。2021年是发文数量跃升的又一关键年份,《数据安全法》颁布,明确了数据、数据处理、数据安全、风险管控、惩罚措施等关键问题,再次引发讨论热潮。
图1 发文数量统计(2003—2021年)
袁曾于2017年在《东方法学》发表的《人工智能有限法律人格审视》一文,引用量高达523次。文章认为人工智能具有独立自主的行为能力,有资格享有法律权利并承担责任义务,因此人工智能应当具有法律人格。但由于人工智能承担行为后果的能力有限,人工智能适用特殊的法律规范与侵权责任体系安排,其具有的法律人格是有限的法律人格。[6]
图2 共词网络
笔者采用关键词和主题进行共词网络的绘制,以关键词作为聚类依据,以上共词网络的词汇标签为词频高于10的关键词。聚类共有11类结果,分别为数据主权、大数据、人脸识别、美国、隐私保护、个人数据、网络安全、数据政策、个人信息、数据分类、人工智能,共有节点数215个,连接线数254条。排名前10的关键词分别为:数据安全、大数据、信息安全、数据治理、数据主权、国家安全、隐私保护、网络安全、数字经济、人工智能。第0类“数据主权”与第1类“大数据”为主要的高频词来源类别。笔者提取出每个类别下的主要关键词,如表1所示。
表1 聚类关键词信息
续表1
第0类“数据主权”主要探讨了大数据时代的国家数据主权问题。齐爱民、盘佳认为对大数据保护应遵循数据主权原则、数据保护原则、数据自由原则和数据安全原则等基本原则,并应在此基础上构建数据主权和数据权法律制度[7];杜雁芸通过对已有数据主权概念的辨别分析,从国家视角进一步界定数据主权概念,并提出应构建中国的国家数据战略、提高对核心数据的控制能力、实现数据的自由流通与跨境管控之间的合理平衡。[8]第1类“大数据”主要探讨在新技术和新平台下,大数据在提高信息利用率的同时,带来的诸多数据安全问题。冯志宏提出对大数据安全治理能力的提升需采用高级别的加密解密方案,综合采用密文检索、完善审计以及安全数据保护等技术,以防止大数据泄露[9];张涛、马海群分析了我国大数据方面的政策主题及未来发展动向。[10]第2类“人脸识别”主要探讨人脸识别技术过程中涉及的隐私侵犯与保护路径问题。蒋洁认为人脸数据从获取到应用的全过程中的各种违规行为侵害了目标群体的隐私权、自由权、平等权和安全利益等,亟待完善不同应用场景下人脸识别侵权风险的控制策略[11];周坤琳、李悦通过探究美国、欧盟和我国人脸识别的法律规制路径,提出应分别从行业自律、专门立法、行政监管和司法救济四个方面构建多维度、多主体的人脸识别法律规制机制。[12]第3类“美国”主要围绕欧美在个人隐私及数据保护方面的相关政策规制与实践经验展开讨论和分析,从而对我国个人隐私及数据保护提出路径建议。黄如花、李楠从法律法规、政策和组织机构设置等视角对美国个人隐私保护实践进行分析,提出我国应制定个人隐私保护法律法规、建立整个数据生命周期的隐私分析和审查机制、开展政府数据开放的隐私影响评估等建议。[13]第4类“隐私保护”主要探讨数据保护与隐私保护机制以及背后需要遵循的规则。刘晓探讨了我国大数据征信的个人敏感数据保护的困境,并对保护机制提出建议[14];梅夏英探讨了数据保护的司法局限性以及公共秩序的构建,认为应在数据分享与控制中找到一个平衡点。[15]第5类“个人数据”和第8类“个人信息”主要针对个人对象进行研究,也参考美国、欧盟的个人信息保护的立法经验。张哲、齐爱民对我国个人信息保护法域外效力制度的构建展开研究,指出应尊重他国利益并积极推动中国方案的实现[16];冉从敬、唐心宇和何梦婷创新性地将信托模式应用到个人数据产权管理中,探讨了其比较优势与应用困境。[17]第6类“网络安全”主要聚焦于互联网平台上可能出现的数据安全问题。邓若伊等对《网络安全法》和《国家网络空间安全战略》做出深度解读[18];陶源、黄涛等对网络安全态势感知的关键技术进行了研究,对其研发、建设和监管具有指导意义。[19]第7类“数据政策”从政策设计的视角探讨了我国当前在数据保护制度设计方面的问题以及未来改进方向。吴杨以国家的大数据政策文本和政策行动主体为研究对象,通过文本挖掘技术分析了目前我国大数据政策设计与执行过程中存在的问题,并从政策工具与政策网络、政策文本与政策主体、政策执行者与政策受众、政策文本与社会现实四个层面协同运行的角度提出了完善我国大数据政策的技术路径。[20]第9类“数据分类”主要探讨数据的分类分级依据、保护手段等。陈驰、马红霞和赵延帅提出了一种基于分类分级的数据全生命周期安全防护体系,设计实现了数据资产安全管控平台。[21]第10类“人工智能”主要研究在以人工智能为依托的细分研究领域内,数据安全问题应当如何处理与规制。祝高峰对人工智能领域个人信息安全的法律保护进行了探讨,并建议从法律上明确权利的归责原则和责任承担方式,积极制定行业标准。[22]
图3 领域发展路径
图4 重点作者与合作网络
有关数据安全的讨论在2003年便已经出现,但主要聚焦于个人信息安全;2014年“数据安全”这一关键词被正式提出;2015年出现关键词的爆发式增长。2015年有关数据安全的很多新词汇开始出现,例如“数据主权”“数据保护”“开放数据”等。2016年开始探讨“网络安全”“数据政策”“数据共享”和“数据开放”等;2017—2019年对数据安全的探讨更加深入,涉及的法律学科也更多;2020年“数字经济”一词正式出现;2021年对于数据安全的探讨更加深入和体系化,出现了“数据分类”“数据监管”“数据治理”“算法治理”“数字贸易”等关键词。
关于数据安全法的研究可以取2015年为分界点,划分为两大研究阶段:一是2015年以前的以个人为中心的数据安全研究,其研究对象单一,研究空间较为有限;二是2015—2021年的体系化且纵深发展时期,这一时期的特点是新词增多、词频增大。但当笔者进行突现分析时,发现这一阶段并无关键词出现,这是由于突现分析(Burst Detection)主要探测在某一时段引用量有较大变化的情况,而数据安全这一领域的探讨年限较短,仍处于成长初期,故引用量没有较大的变化。
发文量最多的作者为马海群,数据源中有10篇该作者的文章。与马海群构成合作网络的有王今、张涛等人。整体而言,作者共有168位,但形成的合作网络仅有66个,证明数据安全法领域的合作表现并不积极。
前5位的发文机构及其发文数量如表2所示。从机构之间的合作关系来看,机构多为单独发文,无跨院校合作发文的情况。关注该领域且发文数量最多的机构是对外经济贸易大学法学院以及西安交通大学法学院。
表2 前5位发文机构信息
总结而言,有关数据安全法领域的研究主要呈现以下特点:
一是研究处于成长初期。2021年之后是真正属于数据安全法的舞台,未来研究面对的环境更加复杂,技术更加丰富,研究内容自然会更加深入,研究外延将进一步扩大。
二是《数据安全法》的出台作为该领域研究再次爆发式增长的源头,未来的研究角度可能聚焦于对《数据安全法》的解读与实践方面的研究。但对于实施《数据安全法》应如何着力,存在哪些短板和困境,实践中该如何切实加强我国数据安全治理体系建设等问题尚未有研究成果。
三是国家政策指导以及社会经济环境会促使学者们对数字经济与数字治理进行更加深入的研究。现有研究为该领域的发展提供了初步思路,但仍缺乏对数据安全治理理论框架、创新体系的顶层设计。
四是从聚类结果上来看,关键词属性可以分为两类,一类是在数据安全范围内展开的研究,例如“数据安全”“大数据”“信息安全”“分类分级”等;另一类是数据安全与其他领域的交叉研究,例如“数字经济”“人工智能”“网络安全”等。笔者认为,未来研究将扩大交叉研究的广度和深度,例如除个人数据外,就机构、政府等其他对象面临的数据安全问题展开探讨;深入研究不同数据处理技术,探讨可能出现的数据安全风险与监管机制等。
五是该领域的合作潜力待开发,作者合作与机构合作未能在研究中起到有效的推动作用。故学者们应当积极交流意见、促进合作,生成具有严谨性、创造性和实践性的研究成果。