谭珅 杨亚楠
摘要:在大数据时代背景下,数据可视化的应用的范围愈加广泛,重视程度更是在不断提高。本文通过对数据可视化研究领域发表的相关文献进行挖掘,借助社会网络分析方法,对数据可视化研究领域的主题演化和研究现状进行分析。
Abstract: Under the background of large data era, the application of data visualization is more and more extensive, and the degree of attention is constantly improving. In this paper, by mining the relevant literature published by domestic scholars in the field of data visualization, with the help of social network analysis method, the topic evolution and research status of data visualization research are analyzed.
关键词:数据可视化;社会网络分析;研究主题
Key words: data visualization;social network analysis;research topic
中圖分类号:TP311.1 文献标识码:A 文章编号:1006-4311(2018)36-0215-02
0 引言
新一代信息和互联网技术与社会各领域的深度融合,使得人类生产和获取数据的能力在以指数倍数增长[1],人类社会逐渐进入一个信息爆炸的时代[2]。当海量的数据充斥着世界,那么如何从海量的数据中甄别有价值的数据和垃圾数据[3],这就必然给信息处理技术带来了更高的要求。在此背景之下,数据可视化作为数据呈现和数据分析的理论和方法被各行业越发重视。对于海量的数据,传统技术无法直接进行分析,可视化技术借助计算机将原始数据、信息转换更易于人类理解和接受[4],能够更加快速的获得具有价值的知识[5];与此同时,在某些情况下数据挖掘技术会造成数据遗失,一些更具价值“小数据”很容易被大量的数据所淹没,如网络安全的黑客攻击、医疗数据的患者病例信息等,而将可视化技术和数据挖掘技术结合起来是更加有效地解决方法。总体上看,从数据的采集、数据的存储与管理、数据的分析与挖掘、数据展现与应用,可视化技术是作为大数据产业架构最终呈现环节,对于之前环节起到了至关重要的作用,可以说数据可视化决定了数据资源管理的水平的高低。
本文旨在通过对学者们在数据可视化领域的研究成果进行梳理,借助社会网络分析方法,呈现出我国数据可视化研究领域的研究现状,对学者们接下来的研究方向选择具有指导意义。
1 数据获取
本文选取中国知网(CNKI)为数据源,将主题、关键词、篇名、摘要的检索词设定为“数据可视化”,并且为精确模式,四者之间为或者关系;期刊来源选定为SCI、EI和CSSCI;检索时间设定为2002年到2017年,经检索获得642篇文献。发文量趋势线拟合方程为y=0.07x3-1.0131x2+4.1689x+18.533,其中R2=0.847,表明拟合程度较好,可信度较高。
2002年以来数据可视化的发文量比较稳定,每年50篇维持在以下,2014年发文量开始出现快速增长,反应出数据可视化的研究热度在不断升高。鉴于此,根据年发文量的变化,本文将数据可视化的研究划分为2002-2013年和2014-2017年两个阶段。
2 研究方法选择
本文使用主要社会网络分析方法对数据可视化技术研究情况进行探讨,借助BICOMB从原始文件挖掘出中数据,使用Pajek绘制出网络图后,对获取到的属性数据进行深入分析。考虑到网络中各衡量指标的特性,笔者选取接近度中心性作为网络图中的衡量指标,其计算公式为:
其中Cc(vm)表示节点vm接近度中心性,N表示节点数,dmn表示节点vm到vn的最短距离。
3 研究结果分析
3.1 主要关键词分析
借助BICOMB软件对从文献中提取到的关键词进行提取,并且对于同义、大小写等表达方式不同的关键词进行合并处理,最后按关键词进行排序统计。经统计,第一阶段获得关键词907个,频次大于等于2的关键词有118个,累计占比37.68%,前三位的是可视化、数据可视化、信息可视化;第二阶段共计获得关键词1093个,频次大于等于2的关键词数为120个,累计占比37.91%,频次位于前三位的是可视化、大数据、数据可视化。从位于前三位的关键词变化中可以发现,大数据在研究中地位得到突显,涉及信息可视化研究的在减少。
3.2 关键词中心性分析
通过计算两个阶段关键词的中心性,将中心性划分为三个层次:Cc(vm)≥0.60的节点为核心节点用;Cc(vm)≥0.50并且Cc(vm)<0.60的节点为中间节点;Cc(vm)<0.50的节点为边缘节点用。
第一阶段(2002-2013年):在本阶段,词频大于等于3的关键词共计41个,其中核心节点有两个分别是可视化和信息可视化,中心性分别为0.66和0.61;处于中间节点的关键词是数据可视化、数据挖掘、知识可视化和科学计量学,占总数的9.76%;边缘节点共计35个,在总数中为85.37%。对各层次节点的数量对比可以发现边缘层节点占比很高,这反映出在数据可视化研究较早阶段研究关注点比较分散。在边缘节点中,可视化分析、可视分析、空间分析等分析类词频和信息检索、信息资源、信息系统等信息类词频都较多,反应出数据可视化研究在这些方面的关注度较高。进一步分析,发现节点间连线粗细进行观察可以发现,数据可视化与大数据、数据新闻、数据挖掘和在线数据服务4个词关联度较高,反应出在初期阶段与数据可视化联系紧密的研究领域。
第二阶段(2014-2017年):本阶段词频大于和等于3的关键词共计49个,有2个核心节点分别为可视化和大数据,中心性分别为0.65和0.62;中间節点有7个,分别为信息可视化、数据新闻、数据可视化、可视分析、数据挖掘、社会网络分析、云计算,合计占比为14.29%;边缘节点共计40个,合计占比为81.63%。较第一阶段相比可以看出,中间节点的占比升高,数据可视化研究内容上有集中趋势;信息可视化由第一阶段的核心节点演化为第二阶段中间节点;数据新闻、可视分析、数据分析等逐渐成为变为中间节点,说明这些领域的关注度在不断升高;数据可视化领域研究内容的主要范围已经逐渐形成。此外,节点联系最为密切的是数据新闻和可视化两个节点之间,并且数据新闻和大数据与数据可视化节点联系度也较高。
3.3 网络特性分析
经计算得到两个阶段关键词网络的网络密度、平均度和集聚系数,如表2所示。通过数据对比发现,关键词网络的网络密度、平均度和集聚系数在不断升高,反映出数据可视化研究领域内关键词紧密程度和联系程度不断升高,并且研究内容整体上有集中趋势。
4 结论
我国的数据可视化研究虽然稍晚于国外,但是我国学者在这方面取得了许多研究成果,本文通过借助社会网络分析方法,从关键词词频、关键词中心性和网络特性分析等四个方面对2002-2017年间的数据可视化研究领域的研究文献进行梳理,梳理出以下结论:
①在研究初期学者们对数据可视化研究的关注度较低,较长时间内年发文量在50篇以下,但随着学者们对该领域关注度不断升高,发文量逐年上升,尤其是近年来增长迅速。
②数据可视化领域的研究主题呈现出由关注于数据挖掘和可视化呈现演化为关注于数据挖掘和基于可视化进行相关分析,如在第二阶段中数据分析、可视分析、社会网络分析等分析类词频热度较高,此外,大数据、云计算等具有时代特征的关键词被学者们较为关注。
③我国数据可视化的研究主题内容不断集中,核心节点之间的关联性在升高,边缘节点占比在降低,主要研究内容已经逐渐形成;并且网络密度、平均度和集聚系数等网络特性指标在升高,研究主题之间关系越发紧密。
参考文献:
[1]张金磊,张宝辉,刘永贵.数据可视化技术在教学中的应用探究[J].现代远程教育研究,2013(06):98-104,11.
[2]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(06).
[3]耿学华,傅德胜.可视化数据挖掘技术研究[J].计算机应用与软件,2006(02).
[4]HABER R B. Visualization idioms : A conceptual model for scientific visualization systems [J]. Visualization in Scientific Computing, 1990.
[5]孙秋年,饶元.基于关联分析的网络数据可视化技术研究综述[J].计算机科学,2015,42(S1).