大数据背景下个人信息研究领域知识图谱分析

2023-09-23 08:45南冰冰
科技资讯 2023年18期
关键词:发文个人信息背景

南冰冰

(浙江警察学院 浙江杭州 310051)

个人信息是指与特定个人相关联的、反映个体特征的具有可识别性的符号系统,包括个人身份、工作、家庭、财产、健康等各方面的信息[1]。自2017 年6 月1日起实施的《网络安全法》中的第七十六条里,也明确界定了个人信息的概念。个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人身份的各种信息,这是以法律的形式明确对于个人信息的一种保护,也是我国法律法规中第一次明确界定了个人信息。当今社会正处于大数据时代中,海量的数据每天都在被产生、记录、使用,个人信息成为大数据时代最为重要的资源[2],但随之而来的个人信息泄露事件也频频发生,如何在开发信息价值的同时保障个人信息的合理利用[3]成为了一大难题。

目前,随着互联网与大数据技术的发展,个人信息被收集、处理(使用、存储、加工、传输、提供、公开等)已经成为不可逆转的趋势[4]。数据挖掘、数据预测以及更全面的监控,造就更具可能性的数据[5],为个人信息保护问题带来了巨大的风险。虽然大数据带来了新的安全问题,它自身却也是解决问题的重要手段[6]。国内外已有相当一部分学者从技术层面对个人信息进行研究,然而目前在个人信息保护方面技术仍未起到其应有的作用,技术发展的步伐仍然滞后[7]。现阶段,我国保护个人信息的立法虽多,但相关规定是零散的、不系统的[8],欧盟在个人信息领域采用“统一立法”,美国则通过“分散立法”和“行业立法”两种方式[9],但仅凭立法无法对个人信息起到有效保护,还需要技术、法律法规等的结合。

同时,随着社会的发展,个人信息也将起到越来越重要的作用。做好大数据背景下个人信息的保护,有利于实现私权的全面保护,有利于助推公权的有效实施[10]。因此,加强大数据背景下个人信息相关研究有其必要性与重要性。

而个人信息相关研究虽已受到学术界与社会的广泛关注,但对于大数据背景下个人信息保护研究的整体认识,以及如何更好地推进个人信息保护缺乏深入认识。基于此,本文借助文献计量法,基于CNKI 和Web of Science 数据库,对其中的相关文献分别进行计量分析,以期探究出该领域国内与国际的研究概况、研究热点。

1 研究方法和数据来源

文献计量分析是利用文献计量学原理对相关文献进行分析的一种文献分析方法,通过采用数学、统计学等计量方法,研究文献的分布结构、数量关系、变化规律[11]。绘制科学知识图谱即可视化图形,更加直观地反映各项数据间的复杂关系,便于分析不同领域的研究热点、发展动态等。当前,一些绘制科学知识图谱以用于文献计量分析的软件已被研发出来,如CiteSpace、VOSviewer、Pajeck、bibexcel等,本文主要采用CiteSpace和VOSviewer 等软件进行文献计量分析。CiteSpace 是由美国德雷克赛尔大学(Drexel University)信息科学与技术学院的陈超美教授开发研制的科学文献计量自动化软件[12],可以提供共线分析、类分析、突变词检测等功能。VOSviewer 是由荷兰莱顿大学的Nees Jan van Eck 和Ludo Waltman 共同开发的[13],可用于绘制密度视图等图像。

本文利用文献计量法,对大数据背景下个人信息领域的研究进行分析,制定基本框架。以不同数据库集的文献数据为研究对象,按照文献计量学的分析逻辑和方法,对文献中蕴含的信息进行挖掘和量化分析,进而通过数学和统计分析的角度,考察文献之间的外部特征和相互关系[14],揭示该领域的研究概况、研究热点,并分析其发展方向。

本文选取CNKI和Web of Science数据库作为数据来源。对CNKI数据库进行高级检索,以“大数据”和“个人信息”为主题,设定发表时间为2012年1月1日到2022年1月1日,成功检索6 520篇文献,剔除不相关文献(会议、新闻等),最终检索文献5 946篇;在Web of Science核心合集(WoS)数据库中以“Big Data”“Personal Information”为主题,发布时间为2012年1月1日至2022年1月1日,最终检索文献308篇。

2 大数据背景下个人信息保护研究的文献计量分析

2.1 基于CNKI的分析

2.1.1 发文量

大数据背景下个人信息相关问题逐年受到重视,发文量呈上升趋势,本文对中国知网数据库检索出的文献进行统计,结果见图1。可明显看出:发文量于2018年出现大幅增长,2018年前后,增长均较为稳定。图1中2022年为预测发文量,因2021年《民法典》的实施以及《数据安全法》和《个人信息保护法》的出台,社会对于个人信息有了进一步关注,故相较于2021 年,2022 年的发文量有一个较大的增幅,也说明了近年来,个人信息相关问题越来越被国家与社会所重视,该领域的相关研究也受到学术界越来越多的关注。

图1 CNKI中2012—2022年大数据背景下个人信息安全研究领域发文量

2.1.2 作者

本文统计了该研究领域的发文情况(如表1 所示),约有7 450 名作者,发文量位居前5 位的是陈兵(南开大学,10篇)、张涛(清华大学,10篇)、王利明(中国人民大学,7篇)、李仪(重庆理工大学,7篇)、张建文(西南政法大学,7篇)。

表1 CNKI中大数据背景下个人信息研究领域作者发文量排名前6的作者

为进一步分析作者之间的合作关系,本文制作了作者之间的合作关系网络图,发文量最高的9 个作者聚类团合作网络图谱如图2 所示。网络谱图中,每个研究团体分布都较为分散,多为3~6 人的小团体。且经进一步分析发现同一类团中的成员多为同一机构的,如宋慈团队中的5人均为中国矿业大学的,相丽玲团队中的3 人均为山西大学的。现阶段,国内学者在该领域的研究多局限于同机构内的合作,且合作对象以及小组内人数较为固定,即组内联系较为紧密。但是从全局来看,普遍缺乏组间合作。

图2 CNKI中该研究领域作者间合作网络图谱

2.1.3 关键词

关键词可以很好地体现论文主题,一个关键词出现的频次等于附有该关键词的学术论文的总数,关键词出现的频次越高,说明相关的研究成果数越多,研究内容的集中性就越强[15]。

首先,利用VOSviewer 进行分析,发现有效关键词13 650个,表2中为出现次数最多的关键词。绘制关键词密度视图(见图3),颜色由深至浅表示关键词共现的频次越来越高,即相关热度较高,由此可以看出,大数据背景下个人信息研究领域的研究热点主要集中在个人信息、大数据、个人信息保护隐私权、被遗忘权、大数据时代、信息安全等方面上。

表2 大数据背景下个人信息安全领域频次排名前15位的关键词

图3 CNKI中大数据背景下个人信息研究领域关键词密度视图

随着大数据背景下个人信息研究领域的热度不断提升,“大数据”“个人信息”逐渐成为研究热点。个人信息的保护则又涉及多项权利,如隐私权、个人信息权、被遗忘权等,在当今大数据时代里,如何合理有效保护个人信息也是我国大多数学者所探讨研究的问题,其中,法律相关的保护是研究中呼声最高也是讨论热度最高的。

其次,利用CiteSpace 对关键词进行聚类,根据网络结构和聚类的清晰度,提供模块值(Q值)和平均轮廓值(S值)两个指标,它可以作为评判图谱绘制效果的一个依据。一般而言,Q>0.3就意味着划分出来的社团结构是显著的;当S值在0.7时,聚类是高效率令人信服的;若在0.5 以上,聚类一般认为是合理的[16]。绘制聚类图谱,如图4所示。该聚类图的模块值为0.891 4>0.3,平均轮廓值为0.966 1>0.7,说明该网络聚类结构合理,效果较为显著。对聚类信息进行整理(见表3),容量代表了节点个数,剪影度即为紧密程度,代表了节点之间的联系程度。由表3 可知,此聚类内部紧密程度均在0.7 以上,且有22 个超过了0.9,说明聚类效果较好。

表3 关键词聚类一览表

图4 CNKI中大数据背景下个人信息研究领域关键词聚类图谱

从聚类结果来看,该领域的研究主要包括了对于大数据与个人信息理论的探讨,由个人信息涉及的隐私与人格权等问题、法律保护、个人信息泄漏原因、疫情防控中的权利让渡、保护原则等方面。继续进行进一步分类,可分为三大类,与大数据背景、信息相关、保护措施相关。

为了研究关键词之间的相互关系,本文运用VOSviewer对关键词进行了共现分析,并利用CiteSpace对关键词的中心度进行计算,中心度排名前8 位的见表4。“云计算”“大数据”“个人信息”3个关键词的中心度排名为前三,其中心度分别为0.41、0.39、0.34。这些词是较为关键的枢纽节点,在该领域的研究中也多次起到中介的作用。“个人信息”“大数据”等核心关键词之间联系较为紧密,在网络中占据核心地位。关键词共现图谱见图5。

表4 CNKI中大数据背景下个人信息研究领域中心度排名前8的关键词

图5 CNKI中大数据背景下个人信息安全研究领域关键词共现图谱

为更清晰地了解该领域不同阶段的研究趋势,利用CiteSpace 寻找其突变词。突现性关键词也称突现词,一定程度上可以反映一段时间内影响力较大的研究领域,即学界在一段时间内高度关注的研究主题[17]。随时间的发展,不同阶段研究的关键词是在不断变化的,关键词突现度则可以反映出一段时间内影响力较大的研究领域。图6为20个突变词列表。

图6 基于CNKI的20个突变词

由图6 可知:算法、隐私保护、云计算等关键词在2012—2022 年间不断成为突变关键词;仍在进行的研究热点有疫情防控、数字经济、算法、公共利益、算法歧视。大数据背景下个人信息研究领域检测出的突变词较多,体现该领域主题方向较多,较为多元、发散,研究热度也较高。

2012—2016 年,该阶段云计算、隐私、信息安全、互联网、社交网络、信息、隐私保护等词开始在该领域出现,该阶段是大数据背景下个人信息研究领域兴起的阶段,学者更多聚焦于该研究本身,对概念进行探讨,研究何为个人信息,大众常提的隐私与个人信息又有何种联系。另外,结合当时社会环境,开始关注互联网、社交网络对个人信息保护的影响。

2016—2020 年,新型网络犯罪开始兴起,电信诈骗等利用个人信息进行犯罪的案例层出不穷,国家出行相关法律进行保护。2017年10月1日实行的《民法总则》中第111 条规定“自然人的个人信息受法律保护”。传统的民法没有单独承认个人信息保护,只承认隐私权,这是民法第一次对个人信息进行保护,指出公民享有信息权。这一法律的出台将公众对于个人信息的相关讨论推上了高潮,因此,在此阶段电信诈骗、民法总则、信息权等词突现。

2020—2022 年,出现的突变关键词有疫情防控、数字经济、算法、公共利益、算法歧视。在这一阶段里,疫情暴发,为更好监控疫情,公民的个人信息权需要让渡,这也引起了更多学者的研究。例如:在疫情防控的背景下,个人信息保护的边界究竟在哪里,即虽然大数据在以新冠肺炎疫情为代表的突发公共卫生事件治理方面发挥了不可或缺的作用,但如何进行个人信息的有序采集和管理依旧悬而未决[18]。另外,此阶段也有学者开始研究算法在个人信息保护方面的应用以及对个人信息安全的一些影响。

2.2 基于Web of Science的分析

2.2.1 发文量

通过统计Web of Science 数据库中2012—2022 年发表的关于大数据背景下个人信息研究领域的相关文献(如图7 所示)发现。随着时间的推移,该领域热度逐渐提升,受到全球越来越多的学者的关注,发文量越来越多,在后期发文量逐渐保持稳定。

图7 WOS中大数据背景下个人信息安全研究领域发文量

2.2.2 国家

一个国家或者一个机构在某一个学术研究领域的地位取决于它的发文量和文章质量[19]。本文利用VOSviewer对大数据背景下个人信息研究领域的相关文献进行统计,绘制知识图谱(见图8),图中结点大小与频数成正比,结点与连线颜色对应不同年份,连线粗细代表合作强度。

图8 国家合作关系共线图

发文量排名前7 的国家如表5 所示。美国、中国、英国为研究的核心国家。发文量最多的是美国(103篇),其次是中国(50篇)、英国(29篇);被引次数最多的是美国(1 778篇),其次为英国(537篇)、中国(497篇),充分展现这些国家在该领域的研究较为深入,影响力也较大。美国在该领域的研究中占据着重要地位,其发文量及被引次数均最大,且中心性最高为0.71。中国发文量位居第二,但中心性仅0.15,说明国内学者在国际合作方面略有欠缺,需加强国际合作以进一步增强国际影响力。此外,英国的中心性也较高(0.33),在该领域的国际合作方面较为积极,有一定的影响力。

表5 发文量排名前7的国家

从整体来看,在研究早期,“美国-英国”“美国-意大利”是主要合作体,而在研究后期,“中国-美国”成为该领域研究的主要合作体,新加坡、印度等国家也逐渐加入到该领域的国际合作中去。

2.2.3 作者

本文统计了Web of Science 核心合集(WoS)数据库中该研究领域的发文情况(表6),由表6 可知,发文量最多的是澳大利亚的Deborah Lupton,总计发表5篇文章。作者合作关系共线图见图9。国内外共有953个学者在该领域发表过相关文章,作者人数高于发文量,由此可知,该领域学者多通过合作完成研究。与其他研究人员联系紧密的作者主要是英国的Patty Kostkova,其余研究人员主要通过Patty Kostkova 进行联系。同时,近几年Li Lan(英国)、David Novillo-Ortiz(丹麦)、Natasha Azzopardi-Muscat(马尔他)等人组成的合作团体逐渐形成。

表6 WOS中发文量排名前3的作者

图9 WOS中作者合作关系共线图

作者被引频次最高的为Deborah Lupton(澳大利亚),其次是Haejung Yun(美国)。由此可见,这些学者在该领域的国际研究方面的影响力较大,对大数据背景下个人信息研究领域做出了重要的贡献。而我国学者在国际研究上的影响力略有欠缺,在国际研究方面无明显领军人物。

2.2.4 关键词

对检索出的文献进行关键词分析,其中有效关键词共1 858个,出现频次较高的8个关键词列于表7中。同时,绘制出关键词的密度视图(见图10)。其中“big data”出现频次最多,共计148 次。该领域在国际研究中的热点主要集中在“big data”“privacy”“information”“trust”“management”等词上。

表7 大数据背景下个人信息安全领域频次排在前8位的关键词

图10 WOS中大数据背景下个人信息研究领域关键词密度视图

基于前期分析,为进一步判断不同阶段的研究前沿,利用CiteSpace检测2012—2022年该领域研究的突变词(见图11),至今仍在进行的研究热点有artificial intelligence。突现词的出现周期普遍不长,说明这几类热点更迭较快。

图11 基于WOS的5个突变词

3 讨论

在当今社会,大数据背景下个人信息受到越来越多人的关注,国内外学者对其的研究也是呈不断上升之势。进行基于WOS数据库核心合集的检索,可得早在20世纪30年代,便有了与“个人信息”相关的学术方面的研究,但个人信息研究真正受到大众关注却是在21 世纪。近10 年,大数据相关技术蓬勃发展,国内外学者开始研究大数据时代下个人信息的保护问题。2018年,全球公开披露的数据泄露事件达到6 500起,共涉及50 亿条数据记录。同年,GDPR 等个人隐私数据保护法出台,个人信息保护受到更多人的关注,国内外相关研究的发文量都于该年有一个明显的增长。

美国在大数据背景下个人信息研究领域中一直占据着核心地位,其总发文量、被引次数、中心性均位居第一。而我国在大数据背景下个人信息研究领域发文量与世界影响力不一致问题较为突出:一方面是发布的相关文章被引次数较少,另一方面是研究前期,我国在该领域的研究中参与的国际合作较少。作者层面,国内学者缺少具有显著影响力的人物即领军人物,且国内学者在研究时需突破机构的限制,因现阶段在该研究领域中,国内学者与国外相比,总体上研究较为独立,并多局限于同机构内的合作,且国内学者合作对象以及小组内人数较为固定,缺乏组间合作、国际合作,不利于日后该领域研究的交流与深入发展。

该领域的研究热点主要集中在“大数据”“信息”“保护”等方面,且中国与国际的研究热点较为一致,即大体方向相同。3个主要研究方面延伸出了较多的具体研究内容,其中包括了“隐私”“信息安全”“互联网”以及各个主要方面之间的关系等,而在不同的阶段,其具体的内容略有不同,研究前沿随着社会的发展不断变化。而在国内外各自的研究中,也存在着具体内容上的差异。以保护措施为例,国内在法律对于个人信息保护方面的研究较为深入,探究个人信息的界定,敏感个人信息,建立监管、救济与合规制度[20];反观国际,在此研究方向上却没有太高的热度。就国内而言,研究热点贴合我国国情,将个人信息相关研究融于社会现象之中去探索,且开始从宏观的问题转向特性、具体的研究,不仅是局限于对概念的探讨。

大数据背景下个人信息保护是一项重要且困难的工作,现有的研究也无法完全解决实际中遇到的各类问题。在学术方面,首先需加强学术交流,扩展视野,从合作中提供出更多思路,以进一步完善、深入各自的研究;其次,需探索更多的研究方向,不断拓展研究内容,即拓展广度与深度。在落实研究方面,需考虑多个方面,深入感受时代背景、大数据技术、个人信息的具体含义,善于学习他国经验。例如:有部分学者就在研究中提出,借鉴新西兰个人隐私保护制度加强多方保护[21];也有部分学者主张考察欧盟的数据保护立法改革进展与美国隐私保护相关法规[22]。另外,个人信息保护不仅要从立法入手,社会、企业、个人、政府等的努力也缺一不可,单一路径是无法为个人信息提供完善的保护[23]。另外,需结合实际,随着社会变化灵活调整政策。

4 结论

本文以CNKI数据库和Web of Science数据库为研究对象,利用CiteSpace、VOSviewer 等可视化工具绘制可视化图谱,以进行文献计量法分析,研究结论如下。

(1)个人信息相关研究越来越受到国内外的关注,关于大数据背景下个人信息研究领域的发文量总体上呈上升趋势,2018年于国内外学者而言都是一个转折点,我国大体上能够跟上国际研究趋势。

(2)澳大利亚的Deborah Lupton 在该领域中有着突出贡献;美国在大数据背景下个人信息研究领域占据重要地位;我国的发文量较高但中心性不高,在国际上的地位有待加强。在研究前期,“美国-英国”“美国-意大利”是主要合作体;而在研究后期,我国向国际靠拢,“中国-美国”逐渐成为该领域研究的主要合作体。

(3)近10 年,大数据背景下个人信息研究热点主要集中在“大数据”“信息”“保护”等方面,如何在大数据背景下更好地保护个人信息是研究的主要目的。国内相关研究大致分为3个阶段:第一阶段是宏观的、较为理论的探讨;第二阶段是对于对策以及相关法律层面的探讨;第三阶段是聚焦于疫情防控下的相关研究。

猜你喜欢
发文个人信息背景
如何保护劳动者的个人信息?
个人信息保护进入“法时代”
“新四化”背景下汽车NVH的发展趋势
《论持久战》的写作背景
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
警惕个人信息泄露
校园拾趣
爷孙趣事
以牙还牙
晚清外语翻译人才培养的背景