张文越
(北京印刷学院,北京 102600)
互联网的飞速发展促使各行业产生的数据量急剧增长,大数据技术被广泛应用在各个领域,成为社会关注的热点。 国务院高度重视大数据技术的发展和产业应用,发布了《国务院关于印发促进大数据发展行动纲要的通知》,积极支持大数据产业的发展。 工信部也先后发布了《大数据产业发展规划(2016-2020 年)》《关于工业大数据发展的指导意见》,积极推动大数据产业、工业大数据的发展。 新冠疫情爆发以来,大数据技术更是在疫情防控阻击战中发挥了巨大的作用,在通信行程卡数据、核酸检测信息等不同类型的数据的辅助下,疫情得到了有效的控制。
大数据技术的巨大社会价值也吸引了大量研究学者,他们运用文献计量学对大数据技术进行研究,试图分析和预判大数据技术研究热点和趋势。胡泽文等[1]基于共被引、共现和词频分析法等可视化分析方法分析了研究机构、团队合作情况以及国内外大数据研究的主题、前沿合著模式;赵蓉英等[2]构建了大数据研究领域的关键词图谱,对大数据相关的研究热点进行了充分的分析;孙鸿飞等[3]基于文献计量与可视化方法对国外大数据领域研究动态进行了深入研究。
在2015-2020 年大数据技术领域发表的研究论文中,出现频率最高的关键词是“互联网”(如表1 所示),互联网的快速发展,使得不同行业的网络数据快速增长,两者形成了密不可分的关系。 除此之外,“算法”“物联网”“云计算”和“通信技术”等在大数据技术论文中也有较高的出现频率。
表1 大数据技术领域2015-2020 年论文关键词Top15
研究采用文献计量学的方法,通过VOSviewer软件从关键词词频分析、关键词共现分析等技术手段对大数据技术领域的前沿热点进行分析预测,并对大数据技术研究提出相关建议,为大数据技术研究提供更有效的思路和角度,不断加强对大数据技术的相关研究,积极推动我国大数据战略的高质量发展。
1. 研究工具和研究方法
研究采用VOSviewer 文献计量学的方法,对大数据技术领域的研究文献进行计量分析和可视化呈现。 评价学领域邱均平教授对文献计量学[4]进行了如下定义:“以文献体系和文献计量特征作为研究对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术某些结构、特征和规律的一门学科”,文献计量法是研究学术成果的一种方法,对学术成果进行评价,并预测未来发展趋势[5]。VOSviewer 是进行文献专用图谱绘制的工具,由荷兰莱顿大学科技研究中心的Van Eck 和Waltman于2009 年开发的一款基于JAVA 的免费软件,该软件基于距离法,通过节点之间的距离来揭示节点之间联系的强度,典型的算法包括多维尺度法、VOS 布局、vxord、DrL、OpenOrd 等,其面向对象主要是文献数据以及对科学知识进行可视化呈现,业界学者利用该软件对大数据技术领域进行了充分的研究,为大数据技术的的前沿热点研究提供了思路和方向[6]。
2. 数据收集
研究数据来源于Web of Science 核心合集数据库中大数据技术领域2015-2020 年间的文献,检索时间为2015-2020 年,主题词限定为大数据技术(big data technology),通过对检索结果进行过滤和筛选,剔除与主题不相关的内容,共获得6261篇文献作为研究样本数据。
为清晰展示大数据技术领域的研究现状与热点,本研究绘制关键词共现图谱、关键词演化图谱、关键词项目密度图等来确定大数据研究前沿与热点,并进一步可视化,对热点与前沿内容进行深入分析,进一步把握大数据技术研究领域的核心内容。
共现知识图谱是对科学文献系统中知识单元间的共现模式进行抽取、简化和可视化的结果,对科学文献中所承载的学科以及研究领域的概念、知识和社会结构间的相互联系来构建知识单元的共现网络,由此来揭示科学研究知识单元和知识群体的网络结构与动态演变[7]。 共现知识图谱在于研究热点与趋势、学术共同体的发现、学科交叉融合的测度等,并且在大数据、人工智能和区块链等方面扮演着愈来愈重要的角色。 获取样本数据后,通过对不同格式和质量的数据进行预处理和清洗,并对作者、关键词、摘要以及高被引论文等知识单元进行提取和筛选,来选出核心知识单元,并进行知识网络的构建,对大数据技术进行可视化分析研究,对其潜在规律和前沿热点进行预测和探究。
通过对Web of Science 核心合集数据库中关于大数据技术领域相关研究文献的引用频次进行排序,得出了在2015-2020 年期间排名前10 的高被引论文,如表2 所示。 论文被引用的频次在一定程度上可以反映这一期间的研究前沿与热点,进而进行该领域的研究热点与前沿预测。 由表2 可以看出,这10 篇高被引论文与物联网[8]、云计算以及在医疗、农业和工业等具体领域的应用有关,说明这几个研究方向为2015-2020 年期间大数据技术领域关注的前沿方面。
表2 大数据技术领域2015-2020 年被引频次排名前10 位的高被引论文
研究通过构建共现知识图谱的方式来分析科学术语之间的共现关系,通过VOSviewer 软件将大数据技术领域2015-2020 年间发表的热点论文中出现的关键词进行聚类分析,并将发表过的文献的关键词进行词频排序,去除一些过于宽泛的词语(例如fact、thing 等),选出共现频率高于20 的关键词进行聚类分析,得到如图1 所示的聚类图谱。
图1 2015-2020 年期间大数据技术领域关键词共现图谱
图1展示了大数据技术热点主要集中在四个方面,聚类一(红色)是对大数据的处理与分析,聚类二(蓝色)是大数据在金融领域的研究,聚类三(绿色)是大数据在医疗方面的研究,聚类四(黄色)主要是云计算与“互联网+”中大数据技术的应用。 此外,由图1 可以看出,近年来大数据技术在医疗方面得到了广泛的应用,尤其是在疫情期间,大数据技术在疫情防控阻击战中积极发挥作用,通过“大数据+网格化”的方式来进行判断和分析,指导各地的工厂进行有序的复工,专家也通过大数据平台来对患者的分布情况以及疫情的实时情况进行监控和追踪,研发人员也通过遥感数据、卫健委发布的疫情数据、共享单车轨迹等数据制作疫情地图,为全国各地人们防控疫情提供了实时准确的疫情信息[9]。
项目关键词演化的视图如图2 所示,通过VOSviewer 软件制作出大数据技术领域关键词密度图,来展示出该领域的研究的重点和热点。 在VOSviewer 软件中,采用overlay 图谱进行大数据技术领域关键词的演化分析,关键词在图谱中对应节点的颜色代表的是关键词出现了平均年份,颜色越接近蓝色,代表关键词出现的时间越早,越接近黄色代表关键词出现的时间越晚。 由图2 可以看出,大数据技术领域2015-2020 年间关键词出现的时间集中在2018 年。 Algorithm(算法)、Internet(互联网)、以及IoT(物联网)等关键词出现在2018年,且受到了广泛的关注与研究。 storage(存储)、security(安全性)以及privacy(隐私)等热点关键词集中出现在2019 年左右,由此可以发现,大数据技术的监管环境发生了变化,也说明了在研究大数据技术上,大数据的安全与管理问题开始受到更广泛的关注。
图2 大数据技术领域关键词演化图谱
在项目密度图谱中,以网络可视化和覆盖可视化类似的方式,通过标签来表示项目,项目密度可视化中的每个点都有一个颜色,颜色是从蓝色再到黄色,指示该点处项目的密度。
当一个点附近的项目越多时,这个点的颜色就会越接近黄色;反之,一个点附近的项目数量越少,相邻项目的权重就会越低,该点的颜色就会越接近蓝色。 由图3 可以看出,人工智能、互联网、物联网、云计算以及大数据在医疗、金融等方面的应用是近些年来大数据技术领域最受关注的研究方向。
通过观察大数据技术关键词聚集密度图来观察与大数据技术相关领域的研究内容,启发新的研究发现点。 由图4 可以看出,不同颜色内的关键词具有一定的关联性,例如,未来可以对大数据技术与人工智能以及机器学习进行积极的应用研究[10]。
图4 大数据技术领域关键词聚集密度图
加强大数据技术与相关的人工智能以及机器学习方面的研究。 人工智能、云计算、物联网等是目前大数据技术领域研究的热点内容,相关研究内容较为丰富,但研究内容创新力度不足,并且随着科学技术的快速发展,相关研究的内容也要与时俱进,需要增加该领域研究的深度与广度,以取得更大程度的突破。
重视大数据技术在医疗、金融、交通等领域的应用研究。 目前大数据技术得到了广泛的应用,且对该领域的研究处在不断深化和多元化发展的过程之中,同时受到了业界和学界的广泛关注。 增加对大数据技术在医疗、金融等领域研究的深度,探索出更加高效的应用技术和平台,促使大数据技术获得更广阔的应用空间。
不断提升文献评判标准,开展大数据技术相关的定量研究。 目前,虽然针对大数据相关的研究成果较多,也取得了一些显著的成果,但相关定量研究内容较少,因此需要加强对其的量化研究,不断提升文献评判的标准,提高文献发表的水平。
加强大数据设计与算法模型相关的研究。 互联网的快速发展,带动了大数据技术在各行业广泛的应用,目前,关于大数据算法相关的研究成果相对较少,需要加强对大数据设计以及算法模型相关的研究,从而推动大数据技术的广泛应用。
本文使用文献计量的方法,结合VOSviewer 软件,对大数据技术领域2015-2020 年发表的研究文献进行梳理,并通过共现分析法、关键词演化分析法和关键词密度分析法对该领域整体研究状况、研究热点以及研究前沿进行分析研究,研究结论如下:
研究使用VOSviewer 密度视图的方法确定了大数据技术研究前沿,2015-2020 年期间大数据技术研究热点集中在互联网、人工智能以及云计算等方面,有关大数据技术的研究文献滞后于技术的发展,大数据技术在云计算领域的研究集中在2015-2016 年,人工智能研究则集中在2017-2018 年,在这之后主要是针对大数据技术监管方面的研究。大数据技术的应用主要集中在金融、医疗和交通等领域,未来大数据技术也会拥有更加广泛的应用领域,并以更加高效的方式发展[11]。
大数据研究的主题不断丰富,随着时间的发展,大数据技术的研究更加深入,并由对大数据技术的相关分析开始转向大数据技术的应用领域。本文通过对2015-2020 年间的大数据技术领域的相关文献进行的计量分析,利用对大数据技术领域关键词的可视化呈现,来揭示大数据技术领域的前沿热点,为后续进行大数据技术相关研究提供一定的参考价值。