范廷钰,袁 科
(1.河南大学国际教育学院;2.河南大学计算机与信息工程学院,河南开封 475004)
大数据与云计算等新技术融合,信息的利用率得到极大提高,同时也引发大量的信息安全事件。大数据安全问题成为大数据学术研究的热点问题。
中国知网是国内最大的期刊全文数据库,在影响力、内容覆盖面、规范性、检索途径等方面具有明显优势[1]。本文以中国知网下的信息科技文献目录作为数据源,运用可视化数据分析工具CiteSpace,以发文量、核心作者、关键词、突现词为主题进行分析,总结我国大数据安全领域研究热点和前沿,为学者提供参考和借鉴。
数据来源于中国知网信息科技文献目录,以“大数据”“信息安全”“网络安全”“数据安全”“安全存储”作主题词,检索时间为2010-2019 年,去除与研究不相符的文献资料,最终获取822 篇高被引文献,将文献以Refworks 格式导出。
本文采用的可视化工具为美国费城德雷克塞尔大学信息科学与技术学院陈超美博士基于JAVA 平台开发的CiteSpace[2]。利用CiteSpace 将Refworks 格式文档转换成Web of Science(WOS)数据源导入CiteSpace 中[3]。对文献作者、作者合作关系、关键词、突现词进行可视化分析,并制作相关知识图谱,辅助分析我国在大数据安全研究方面的不足和可拓展的前沿领域[4]。
在进行数据分析之前,笔者对CiteSpace 的相关参数进行设置。“Time Slicing”(时间分隔)设置为2010-2019 年;“Years Per Slice”(最小统计时间)设置为1 年;“Term Source”(主题词来源)将其下的Title(标题)、Abstract(摘要)、Author Keywords(作者关键词)、Keywords Plus(拓展关键词)全部勾选;“TopN%”(频率选项)设置为20%。
一个领域的发展态势可以从发文量的多少得以展现[5]。对2010-2019 各年发文量进行统计,发现大数据安全研究发文数量自2012 至2019 年各年发文量分别为2、25、71、111、112、144、174、183 篇,呈现逐年上升趋势,如图1 所示。根据图1 将其分成两个上升阶段:第一个阶段(2012-2015),自2012 年大数据在学术界引起关注后,其安全性研究也逐渐在增加,这一阶段累计发表文献209篇,占研究样本的25.4%,平均增长率为28.1%;第二个阶段(2016-2019),随着云计算等技术的发展,大数据应用提升到新的阶段[6],这一阶段学者主要针对云安全以及云存储进行探讨,累计发表文献613 篇,占研究样本的74.6%,平均增长率为17.8%。
将“Node Types”(节点来源)设置为“Insulation”,调节Thresholds 为c(1,2,20)、cc(2,2,20)、ccv(4,3,20),得到研究机构合作共现网络(Nodes(节点)=87,Links(连线)=14,Density(密度)=0.003 7),如图2 所示。图2 列出研究机构合作分布情况,图中节点大小代表机构发文量多少,最大节点是“上海社科院信息研究所”,总计发文10 篇,其次较大的节点有“工业和信息化部赛迪智库”“中国信息安全测评中心”和“中国电子科技集团公司第三十研究所”,发文量分别为4 篇、3 篇和3 篇,这代表目前我国在大数据安全领域研究的第一梯队。
Fig.1 The number of articles published in the field of big data security from 2010-2019图1 2010 -2019 年大数据安全领域逐年发文量
Fig.2 Network map of cooperation and co-occurrence of research institutions in the field of big data security图2 大数据安全领域研究机构合作共现网络图谱
图2 显示有三组连线。第一组平均发文量最大的合作机构为“中国信息安全测评中心”与“中国移动通信集团公司”,均发文2 篇;其次的两组分别为上海大学图书情报档案系和中国商飞上海飞机设计研究院;上海交通大学、中国工程院和中国科学院研究生院,合作网络密度仅为0.003 7,表明各个机构节点之间的关系较为分散,各大机构之间尚未形成紧密的合作关系。
发文量多少在一定程度上反映学者的学术研究能力[7]。将“Node Types”(节点来源)设置为“Author”,调节Thresholds 为c(1,1,20)、cc(2,1,20)、ccv(4,3,20),得到大数据安全领域核心作者合作共现网络图谱(Nodes(节点)=131,Links(连线)=70,Density(密度)=0.008 2),如图3 所示。图3 列出部分核心作者及合作团队的结点信息。主要合作节点(合作团队)有张新刚、王保平团队,合作发文3篇,韩晓露、吕欣团队合作发文2 篇,其他作者之间单次合作较多。作者节点间合作密度较低,仅为0.008 2,表明目前相关领域科研人员比较分散,还没有形成真正意义上的合作关系。将累计发文数位于前20 的作者制成大数据安全研究高产作者表,如表1 所示。表1 显示2010-2019 年间,发文量为3 篇以上的作者仅有5 位,占这一领域全部作者的0.71%。由此分析大数据安全领域研究人员基数大,研究人员广泛关注,但从人均发文量看尚没有(中文期刊)高产量作者,表明目前这一领域的研究深度较欠缺。
Fig.3 Network map of core authors co-occurrence in the field of big data security图3 大数据安全领域核心作者合作共现网络图谱
Table 1 High-yielding authors in the field of big data security表1 大数据安全领域高产作者
关键词是对文献主旨内容与作者意图的概括,是文献的核心和精髓[8],因此对某一领域相关文献关键词的分析,有助于挖掘该领域研究热点[9]。将“Node Types”(节点来源)设置为“Keyword”,调节Thresholds 为c(1,1,20)、cc(3,2,20)、ccv(4,3,20),得到2010-2019 大数据安全研究主题词图谱(Nodes(节点)=70,Links(连线)=137,Density(密度)=0.056 7),如图4 所示。统计图谱中出现频次前20 的关键词,得到大数据安全领域高频词表,如表2 所示。
从图4 和表2 可知,近10 年来大数据安全研究围绕大数据(366)、信息安全(215)、大数据时代(144)、网络安全(58)、云计算(55)等议题进行了研究。
关键词出现频次最高的是“大数据”,其相关文献在中国知网信息科技数据库中高达6 万余篇。近年来,大数据隐含巨大的社会、经济、科研价值已引起各行各业的高度重视[10],数据正逐渐成为新时代下的原始材料,服务于国家安全、医疗健康、教育改革、产品效益等诸多领域[11]。
其次,频次出现排第二第三的分别是“信息安全”“大数据时代”。信息安全事关国家安全以及社会稳定,采取有效措施保证信息安全变得至关重要[12]。信息安全主要包括信息设备安全、数据安全、内容安全和行为安全,密码和网络安全是其关键技术[13]。
Fig.4 Co-occurrence map of keywords in the field of big data security from 2010-2019图4 2010-2019 年大数据安全领域关键词共现图谱
Table 2 High-frequency words in the field of big data security表2 大数据安全领域高频词
2.5.1 研究演进
特定时期关键词的爆发往往与研究人员特别关注的某一潜在话题息息相关,因此突发性检测可用于探索新兴趋势和转瞬潮流,利用CiteSpace 知识可视化软件可对关键词的突现性进行检测并可视化,有助于对相关领域内出现的历史热点和持续时间进行分析[14]。时区视图展示了领域文献的增长,某一时区的文献越多,说明这一时间段中发表的成果越多,该领域处于繁荣时期;某一时区中的文献越少,说明这一时段中发表的成果越少,该领域处于低谷时期。通过各时间段之间的连线关系,可以看出各时间段之间的传承关系[15]。利用CiteSpace 的“Burst”(突变系数),在Layout 中选择TimeZone,得到2010-2019 年大数据安全研究热点时区图谱,如图5 所示。
Fig.5 Time zone map of research hotspots in the field of big data security from 2010-2019图5 2010 -2019 年大数据安全领域研究热点时区图谱
为进一步了解每个阶段关键词的突现情况,按照图6设置关键词突现系数,得到10 个在10 年间出现突变的关键词,分别为开放数据、数据安全、数据处理、云安全、存储备份、个人隐私、云存储安全、个人信息保护、信息安全防护、防护策略,绘制出重点关键词突现表,如表3 所示。这些重点关键词突现情况直接反映了大数据安全领域研究趋势的转变。
Fig.6 Setting of keywords emergent coefficient图6 关键词突现系数设置
Table 3 Emergence of important keywords表3 重点关键词突现情况
通过热点时区图谱和关键词突现图谱,将大数据安全领域研究演进分为4 个阶段。
(1)数据安全的基础性探讨(2010-2012)。大数据出现就受到学者广泛关注。在中国知网数据库上,相较于21世纪初前10 年的508 篇论文,在第一阶段3 年之内,累计发表大数据论文就增至1 752 篇,与此同时也带来新的问题——数据安全性。这一时期,研究者主要从“大数据的数据结构”“数据工程”“数据处理”等方面对数据安全进行了基础性探讨。王珊等[16]针对大数据特征对数据架构进行分析,覃雄派等[17]对关系型和非关系型数据库优劣的研究,都表明这一阶段研究者对大数据的基础特征进行了深入探讨。
(2)云计算的安全性探讨(2013-2015)。IBM 公司于2007 年宣布云计算计划,经过多年的发展,云计算技术逐渐成熟。随着云计算逐渐走向专业化、规模化,云计算领域的安全问题成为其发展的关键。这一阶段,研究者从“云安全技术框架”“云安全标准”“云安全服务”等多个方面探讨云计算的安全性。林闯等[18]对云计算安全架构和机制的评估,王于丁等[19]对云计算访问控制机制的分析,都表明如何控制和保护信息资源不被非法获取和使用是研究的重点方向。
(3)信息安全保护探讨(2015-2016)。伴随着大数据以及云计算技术和服务的不断推进,全球信息安全治理体制变革逐渐完善,这一时期对信息安全进行了更为深入的探讨,从“信息安全”“网络安全”“信息安全政策”等诸多角度进行研究,由个人信息安全上升到国际间的信息安全防护。王世伟[20]阐述了“信息安全”“网络安全”和“网络空间安全”三者的联系与区别,龚俭等[21]对网络安全态势感知分析与研究,都显示这一阶段学者对信息安全防护管理和世界网络安全体制进行了多维度研究。
(4)信息防护策略探讨(2017-2019)。最后一个大数据安全领域研究增长极为2017-2019 年。在上一阶段影响下,人们对隐私保护有了越来越多的需求。随着云计算等计算模式的广泛应用,云平台的可信程度面临挑战。在这一阶段,区块链技术的出现为解决分布式环境下实体间信任建立提供了新的思路和方法[22]。董贵山等[23]对区块链中的隐私保护策略进行了分析,有些学者提出新的防护策略模型,如柳毅等[24]提出一种基于多层加密机制的内容中心网络隐私保护策略,高岭等[25]提出基于改进蚁群算法的防护策略选择模型等。由此可见,这一阶段防护策略成为学者关注热点。
2.5.2 前沿走向
研究前沿的识别与追踪能够为研究者提供学科研究最新动态,预测研究领域发展,识别需要进一步探索的问题。在研究中,前沿往往采用代表该研究内容的词汇或短语出现次数的变化进行分析[26]。根据大数据安全领域研究演进的变化规律和近5 年关键词突现情况,得出以下研究前沿热点走向。
(1)大数据信息安全防护。随着大数据的发展,越来越多的技术如物联网、云存储被应用到实际生活中,生成海量数据,这些数据包含社交网络用户信息、购物记录、身份特征等,通过整合这些相关数据便可获得更有价值的个人及社会的敏感信息[27]。目前,尚不完善的信息保护与存储方案、第三方平台的可信程度等都存在信息泄露风险。表3 显示在近5 年关键词中,“信息安全防护”与“个人信息安全”都具有显著的突现性。如何在大数据环境下对危险信息进行标记、在处理数据时设置严格的访问控制机制,以此保护个人信息不被非法访问和获取,是未来大数据安全研究的重点。
(2)大数据云存储安全。云存储迅猛发展,用户将文件资料存放在云端的同时也丧失了对文件的绝对控制权,从而造成隐私泄露等安全隐患[28]。为解决云存储存在的安全问题,学者通过属性基加密、可搜索加密等关键技术,改进与完善云存储系统,为数据建立索引,提升数据可用性,为云服务提供安全高效的共享环境。在表3 中,“云存储安全”关键词在近5 年中表现出突现性。随着技术的不断更新与发展,越来越多的安全方案被提出,“大数据云存储安全”研究对进一步推进大数据应用起到重要作用。
(3)大数据安全防护策略。区块链等技术的推进,为无信任网络结构提供了安全保证。与此同时,大数据将用户的隐私信息进行汇集,使得恶意获取用户信息的技术门槛不断降低[29]。因此,用户对隐私及信息保护提出越来越多的需求。在新兴技术背景下,通过应用新的网络架构和算法模型提出了许多新的防护策略,实现数据动态存储,从而极大增加攻击者访问数据的难度。表3 中,关键词“防护策略”在近3 年表现出较高的突现性。通过技术的不断创新与发展,提出更加优秀的防护策略,保证数据在高度聚合的前提下安全存储,是未来大数据安全领域研究方向。
从大数据概念的兴起,再到大数据应用以及服务的普及,大量的个人及社会信息作为数据存储,人们对信息数据的控制权逐渐被削弱。同时,大数据领域的新技术不断出现,带来的安全问题也日益明显,人们对隐私保护的需求也越来越多。如何在大数据不断发展的背景下提出和完善更加安全的防护模型,以应对非法获取和利用数据,是当前也是未来大数据安全领域的重要命题。
2010 -2019 年,由大数据及其相关技术所带来的信息防护、存储安全等相关问题一直贯穿整个大数据安全领域,研究方向也在研究进程中发生了转变,由最初对大数据概念、存储架构的基础性探讨,逐渐转向对更加安全的信息防护策略研究;从云计算的基础性结构评估,逐渐发展为应用各种加密算法及改进云存储系统。大数据安全领域理论研究为实践提供了标准,并且助推了更多安全系统模型与防护策略成果。
即使研究方向不断变化,大数据安全仍是历久常新的问题,需要综合应用多种新技术、新架构以此应对该领域的复杂性和多变性。
通过利用CiteSpace 对大数据安全进行研究分析得到如下结论:
(1)组建联合科研团队,集中解决领域难题。作者合作以及机构合作的网络密度均不高,表明国内并没有出现真正意义上的合作团队和机构。具有代表性的研究团队对领域发展起到引导作用,国内稀疏的合作关系导致高质量的文章较少,阻碍了大数据安全研究发展。因此,国内大数据安全领域研究学者以及研究机构应当组建联合科研团队,学习和借鉴不同技术和专业思想,紧跟大数据前沿发展步伐,针对信息安全、存储安全,结合当下的新兴技术提出适用的安全问题解决方案,从而形成具有影响力的研究合作中心。
(2)紧跟领域发展,做到有所发现与创新。从研究热点分布来看,关键词出现频次位于前三的分别是“大数据”、“信息安全”以及“大数据时代”,而近年具有较强突现性的关键词出现频次并不高,这体现出大数据领域研究发展过程中,大量的文章只侧重于研究大数据的基础部分,没有结合大数据当前的发展进程提出解决安全问题的新思路、新方法。部分文章仅泛泛地提出了大数据中关于信息安全的问题,同质化现象严重。随着研究进程的不断推进,研究应当顺应领域方向演进,从前沿角度提出更加新颖的问题和实践方案,仍停留在基础研究方向上对领域的发展和贡献都是没有意义的。
(3)开阔研究视野,拓展研究思路。大数据安全领域研究在10 年中共经历了4 次研究方向转变,平均每过两年就会发生一次研究演进。这一方面表明了大数据前沿的应用技术更迭较为频繁,随之带来了许多相关的安全性问题;另一方面也体现出大数据安全领域的发展与大数据实践应用之间有着密切联系。大数据在实际应用与服务之中离不开大数据安全领域研究成果支持,而新兴的大数据相关关键技术又为大数据安全领域提出了新的问题和挑战。因此,研究的视野不能只局限于安全领域的相关进展,应当主动了解学习应用于大数据领域的前沿实践成果,从而为研究打开新的思路和方向。