基于知识图谱的健康大数据背景下国内隐私保护研究

2022-02-19 05:25欧阳婷杨银凤王元茂谷宗运束建华
赤峰学院学报·自然科学版 2022年1期
关键词:隐私保护知识图谱可视化

欧阳婷 杨银凤 王元茂 谷宗运 束建华

摘 要:目的:探索健康大数据背景下隐私保护的研究现状、热点及趋势。方法:收集CNKI收录的国内2013-2020年本领域研究文献,筛选后下载导出,并利用CiteSpace V软件对作者、关键词分别进行可视化分析,绘制本领域的知识图谱。结果:共纳入有效文献401篇,2013-2020年发文量呈上升趋势,但核心研究团队欠缺,合作较为松散。研究热点是围绕隐私保护和患者隐私权,在技术应用和法律保障等方面进行拓展研究。研究历程可分为法律方面探讨→技术方面保护→全方位隐私保护三个阶段。结论:健康大数据背景下,从技术、法律、人文等角度为个人提供全方位的隐私保护是学者们未来研究的热点与趋势。

关键词:健康大数据;隐私保护;知识图谱;可视化

中图分类号:TP309  文献标识码:A  文章编号:1673-260X(2022)01-0036-05

自2012年,各国相继推出大数据建设计划。“大数据”旋风席卷了各个领域,医疗卫生领域也不例外。2020年,十九届五中全会公报指出国家在“十四五”期间要全面推进健康中国、数字中国建设[1]。数字化、大数据等技术在健康领域的应用将更加深入。健康大数据除了具有大数据的5V(Volume、Velocity、Veracity、Value、Variety)特点外,还呈现出持续性的特征。健康数据需长时间记录和监测才能达到预测及早期治疗的目的,在此过程中任何一个环节数据的泄露都可能威胁到个人隐私安全,隐私保护亟待重视。本研究基于知识图谱对CNKI相关文献进行定量分析,梳理健康大数据背景下隐私保护的研究现状、热点及趋势等,以期为今后的健康隐私保护及相关法律法规的制定提供参考。

1 数据来源及研究方法

1.1 数据来源

本研究以全球最大的中文数据库中国知网(CNKI)为检索来源,检索时间设定为2013年1月至2020年12月,检索方式选择高级检索,采用“主题”进行精确检索,检索策略为(“隐私保护”or“隐私安全”or“隐私风险”or“信息安全”)and(“健康大數据”or“医疗大数据”or“患者”)初步获得文献813篇,通过阅读题名、摘要及全文逐篇剔除与健康大数据背景不相关的文献,最终获得有效文献401篇,以“Refworks”格式进行导出。

1.2 研究工具

知识图谱(Knowledge Graph),即知识域可视化,利用可视化图谱展现知识资源及其载体的动态发展规律,为学科研究提供有价值的参考[2]。

1.3 参数设置

将导出的文档利用Citespace V(版本号5.7.R5W)自带的格式转换工具完成数据格式转换,转换后的数据重新导入Citespace V,Time slicing设置为2013年1月-2020年12月,Year per slice设置为“1”,Top N persliec设置为“50”,剪切方式选择“pathfinder”,节点类型分别选择作者、关键词,热点分析时对相关近义词进行合并,分别绘制知识图谱。

2 结果

2.1 时间分析

通过分析时间轴上文献发表数量的发布规律,可以反映出该领域的研究热度、规模及发展速度。对纳入的401篇文献进行年度数量统计,绘制年度发文量折线图(见图1)。

由图1可以看出相关研究发文量总体上呈上升趋势,大致可以分为两个阶段:第一个阶段(2013-2018年)为平稳增长期,年发文量平稳增长,2017年最多为49篇;第二阶段(2019-2020年)为快速增长期,发文曲线呈直线上升,2020年达到124篇。

2.2 作者分析

作者合作网络分析反映了作者之间的合作关系,每个节点对应一位作者,连线反映合作关系,本研究领域作者合作网络图谱见图2,图中突显了发文量超过2篇的作者,共有856个节点,1231条连线,Density值为0.0034,说明该领域已被广泛关注,但相互合作关系松散,研究较为分散,本领域的研究深度尚欠缺。本领域各研究团队发文量不多,尚未形成具有较高影响力的核心作者及团队,但团队已逐步稳定,综合分析各团队研究的方向略有不同,见表1。

2.3 关键词分析

2.3.1 关键词共现

关键词最能体现文献的核心,是对文献主题的概括和总结,关键词出现的越多,节点越大,说明该关键词受到的关注越多[3]。将相近、同义的关键词合并后分析得到高频关键词共现图谱,见图3。由图可见出现频次≥15的关键词共有15个,共得到节点数705个,连线1776条,密度Density=0.0072。

关键词的中介中心性也是测度该关键词在分析网络中重要性的指标之一,反映该关键词在共现图谱网络中媒介能力的强弱。一般认为,中介中心性≥0.1的关键词在网络中较为重要,被称为关键节点[2]。图3中高频关键词的中介中心性分析结果如表2所示。由表中数据可见本领域主要围绕患者隐私权、隐私保护、患者隐私、电子病历、健康大数据和互联网医疗等关键议题展开了多角度的研究与讨论,其中“隐私保护”及“患者隐私权”无论是出现频次还是中介中心度均较高,说明近几年该领域主要围绕这两个主题,在相关技术应用及法律保障等方面进行拓展研究。

2.3.2 关键词聚类

利用LLR算法对关键词进行聚类,形成关键词聚类图谱,见图4。由图中可以看出模块化Q=0.7558(>0.3)说明聚类是有效的,平均轮廓S=0.9173(>0.5且大于0.7)说明聚类一致性较高,结果合理且可信。一个色块代表一个聚类,聚类知识图谱中有多块聚类重叠,提示聚类与聚类之间联系紧密,对各聚类研究关键词进行归纳总结,具体分析见表3。

2.3.3 关键词突现

关键词突现是指通过频次的变化将特定时间段内的高频关键词突现出来,关键词突现分析可以在一定程度上反映某一时期该领域的研究方向、热点[2]。本领域的关键词突现如图5所示,从强度维度看,强度较大分别是患者隐私权、法律保护、电子病历、健康大数据;从时间维度来看,患者隐私的相关研究热度持续时间最长(2013—2016年),医患关系、健康大数据、人工智能成为该领域近几年的研究热点及趋势。

2.3.4 时间线分析

以Citespace提供的Timeline View对各个聚类文件的时间跨度进行分析,可得本研究领域的时间线图,见图6。由图可见,整体来说隐私保护、隐私权、隐私保护技术等方面研究的时间延展性、跨度都相对较好。隐私权、隐私保护、信息安全、电子病历的研究均从2013年开始,但隐私权及电子病历在2016-2018年研究热度有所降低,技术应用方面如大数据、区块链从2014-2020年持续研究热度,疫情防控从2020年开始成为研究热点。

3 讨论

3.1 研究现状

通过文献的发文时间分析发现,2013—2020年发文量总体呈上升趋势,发文高峰在2020年。究其原因,这与大数据技术在健康医疗领域应用的深入,新冠肺炎疫情暴发有着密不可分的关系,同时发现疫情防控中隐私保护问题已成为研究的热点问题。从作者及合作关系看,虽然关注该领域的作者较多,但发文量和合作度不高,较为松散,虽已基本形成较为稳定的研究团队但有影响力的核心团队及作者欠缺。总体上说,该研究领域虽发展速度不断加快,但研究深度有待加强。

3.2 研究热点

隐私保护是健康大数据背景下机遇与挑战共存的一个冲突命题,从聚类知识图谱中也可以发现聚类之间的重叠度较高,这表明在研究技术深入应用的同时也在持续关注隐私问题,这是因为健康大数据的深入应用和发展是建立在数据开放共享的基础上,而在此过程中不可避免的就是信息安全及隐私泄露的风险,“冲突”“矛盾”由此产生,归纳总结主要有三个主题:

(1)技术应用与隐私保护。健康大数据背景下会对数据进行全过程监测、管理,以保障数据质量。在此过程中各个环节都会给隐私带来风险,比如健康信息监测让人们的隐私无处躲藏、数据的整合挖掘使隐私信息在我们不知情的情况下被N次加工使用等[4]。为此大量学者不断从技术领域对隐私保护进行研究,如区块链技术、云数字取证技术、K-匿名、差分隐私等。

(2)个人隐私权与公众知情权。研究发现患者隐私权关注度较高,中介中心性最高为0.48。虽然大数据背景下隐私保护的立法已被广泛关注,但立法滞后于技术应用,相关法律法规不完善,均会导致职责不清、权责不明、维权困难等一系列问题,这也造成了隐私遭到泄露后,大部分的居民不愿用法律手段保障自己的合法权益[5]。2020年10月,全国人大法工委就《中华人民共和国个人信息保护法(草案)》公开征求意见[6],该法案一旦正式公布将会为个人信息保护提供更加有力和全面的法律保障。此外,个人隐私权和公众知情权的平衡与冲突也一直是学者们关注的热点。从时间上看,前期关注点主要在特殊疾病患者如艾滋病、严重精神障碍患者的隐私权和公众知情权上,近期研究热点主要集中在新冠肺炎疫情防控过程中,患者隐私权与公众知情权的冲突与平衡上[7-9]。如何在突发公共卫生事件处理过程中,平衡好应急指挥处理、公众知情权及患者隐私权的关系是未来一段时间的研究热点。

(3)用户行为与隐私保护。大数据时代,各种社交媒体如微博、朋友圈、公众号等都成为人们分享的平台。一方面医护人员利用这些平台进行科普、案例分享,另一方面个人也会在一些互联网平台分享自己患病过程及心得,这些过程都有可能导致隐私泄露。关键词聚类中“3#隐私”包含的关键词就有“科普微博”,微博科普具有开放性好、粉丝多、传播较快的特点,但是利弊共存,如何把握好尺度,平衡好医学科普与隐私保护的关系是值得思考的问题。健康大数据时代个人的分享亦是如此,正如“被遗忘权”概念提出者英国维克托教授所说,随着数字技术的应用,记忆与遗忘的模式发生了颠覆,人们更容易“记住”,而无法“遗忘”[10]。互联网平台上,尽管只是“碎片化”分享,但是会被积累、关联,也会最终导致隐私的泄露。

3.3 研究趋势

结合时间线图及关键词突现可以看出,隐私保護在不同时期,研究的侧重点有所不同,研究大致可分为三个阶段:法律方面对隐私权问题探讨→技术方面对隐私进行保护→全方位隐私保护。

第一阶段主要针对法律方面对隐私权探讨。从2013年开始隐私权问题就受到了研究学者的广泛关注,主要探讨个人应该具有的相关权利如知情权、隐私权该如何从法律法规的角度进行隐私保护。

第二阶段主要针对技术方面对隐私进行保护。随着医院信息化水平提高,电子病历、远程医疗等环节存在的信息安全问题日益凸显。关键词主要是区块链、访问控制、差分隐私、数据平台、去中心化、数据脱敏、防范机制等,集中讨论如何利用技术解决患者信息共享与隐私保护的冲突问题。

第三阶段主要探讨全方位隐私保护。随着大数据、人工智能、互联网医疗等在健康领域的深入应用,尤其是2020年新冠肺炎疫情的暴发让人们越来越认识到个人健康信息亟须全方位保护。未来可穿戴技术、人工智能技术、物联网技术的应用,将会为健康医疗信息的获取、处理提供越来越多的便利,越来越多的信息从线下“走向”线上,隐私信息的广度和深度都会有所加强,个人隐私权和公共知情权冲突也会越来越严重。在这样背景下,如何平衡好数据获取、共享、挖掘与隐私保护的关系,从技术、法律、人文等角度为个人提供全方位的隐私保护是学者们未来研究的热点与趋势。

4 结论

健康大数据越来越受到学术界的关注,在为医疗健康领域带来机遇的同时也带来了隐私保护问题。本研究以CNKI收录的2013-2020年相关文献进行可视化分析,从知识图谱的视角梳理该领域的研究现状、热点及趋势。研究发现该研究领域关注度较高,发展速度逐步加快,但研究深度有待加强。分析发现该领域研究热点主要体现在如何从技术手段、法律保障及伦理道德等方面加强隐私保护。研究历程大致可分为三个阶段:法律方面对隐私权问题探讨→技术方面对隐私进行保护→全方位隐私保护。

参考文献:

〔1〕中共十九届五中全会在京举行[EB/OL].(2021-02-25).http://cpc.people.com.cn/n1/2020/1030 /c64094-31911721.html.

〔2〕陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(02):242-253.

〔3〕陈萱,黄春娟.国外知识可视化研究的现状与启示——基于Citespace和Vosviewer的知识图谱分析[J].大学图书情报学刊,2015,33(04):93-99.

〔4〕王强芬.大数据时代背景下医疗隐私保护的伦理困境及实现途径[J].中国医学伦理学,2016,29(04):685-689.

〔5〕欧阳婷,杨银凤,束建华,等.健康大数据背景下患者隐私保护意识调查及伦理思考[J].巢湖学院学报,2020(06):91-97.

〔6〕个人信息保护法草案首次亮相[EB/OL].(2021-03-25).http://www.npc.gov.cn/npc/c30834/202 010/569490b5b76a49c292e64c416da8c994.shtml.

〔7〕李卓析,赵浩然.新冠肺炎患者隐私权与公众知情权冲突的社会心理分析与建议[J].黑龙江科学,2020,20(11):149-150.

〔8〕孙宇辉,徐海坤,杨飔羽.疫情管控下公民隐私权和公众知情权的界限研究[J].北京政法职业学院学报,2020,34(02):28-32.

〔9〕王力康.突发公共卫生事件中患者隐私权保护机制探析[J].河北工程大学学报(社会科学版),2020,37(01):108-112.

〔10〕维克托·迈尔—舍恩伯格.删除:大数据取舍之道[M].杭州:浙江人民出版社,2013.118-159.

猜你喜欢
隐私保护知识图谱可视化
数据可视化设计在美妆类APP中的应用
思维可视化
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
大数据环境下用户信息隐私泄露成因分析和保护对策
大数据安全与隐私保护的必要性及措施
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析