戚陆越,吴 升(1.福州大学 空间数据挖掘与信息共享教育部重点实验室,福建 福州 350002;2.福建省空间信息工程研究中心,福建 福州 350002)
时间序列数据可视化研究综述*
戚陆越1,2,吴升1,2
(1.福州大学 空间数据挖掘与信息共享教育部重点实验室,福建福州350002;2.福建省空间信息工程研究中心,福建福州350002)
时间序列数据可视化综合了时间序列数据挖掘、数据可视化、计算机图形学、计算机交互技术等学科的理论和方法。从时间和数据两个角度分析了时间序列数据的特征;从用户的角度探讨了时间序列数据可视化的主要任务;综述了时间序列数据可视化从以人为中心到以计算机为中心,再到人机交互方式的发展历程;详细介绍了时间序列数据可视化的5类图表和5类表达方式。最后,对时间序列数据可视化研究进行总结和展望。
时间序列;可视化;交互
时间序列数据是按时间顺序排列的一系列观测值。与一般的定量数据不同,时间序列数据包含时间属性,不仅要表达数据随时间变化的规律,还需表达数据分布的时间规律。早期,人们将时间序列数据绘制在图纸上,以图形可视化的方法来发现时间序列数据的规律。计算机技术发展以来,涌现出许多基于时间序列数据的研究[1],例如相似序列搜索、降维、聚类、分类、模式分析、预测等,但主要是基于计算机进行数据挖掘和机器学习,对于人机交互可视化的研究较少。人的眼睛具有很强的模式识别能力,是辅助模式搜索、模式匹配、模式发现等数据挖掘任务的有力工具。如何将海量的时间序列中隐含的知识规律,以人们易于理解的方式进行交互可视化,是非常值得研究的问题。目前,数据可视化技术已被广泛地应用于呈现、探索和分析时间序列数据,并出现了一些可视化工具,如Treemaps[2]、ThemeRiver[3]、Spirals[4-7]等。时间序列数据可视化已成为数据挖掘的前沿研究领域,因为它将机器智能与人脑智能更加紧密地结合,让传统的“黑箱”挖掘过程变得清晰可见,让用户更好地参与到整个数据挖掘过程之中,因此具有广阔的应用前景。
时间序列数据的定义包含两个方面,一是数据与时间密切相关,并随时间变化;二是数据按时间的先后顺序排列。因而,时间序列数据的特征包含以下两个方面:
(1)时间属性[8]
时间具有特殊的语义结构,经过人为抽象划分为不同层次的时间尺度,例如分、时、天、周、月等。各层次间的包含关系有的是规则的(例如60分钟为一小时,7天为一周等),有的是不规则的(例如一个月可以是 30天或31天)。时间隐含内在的周期性特征,例如季节的更迭。时间还具有确定性和不确定性的特征,例如列车经过站点的时间有一定的规律,但也可因特殊情况晚点,导致时间不确定。
(2)数据属性[8]
按统计尺度分为定性和定量特征;按参照标准可分为非空间和空间特征;按变量个数分为单变量和多变量特征。
从用户任务的角度,时间序列数据可视化有以下几个基本目的:分类、聚类、查询、模式发现和预测;从用户分析进程的角度,概括起来有以下三个基本目的:探究分析、验证分析、分析结果表达。
(1)探究分析
探究分析的目的是洞悉数据,从时间序列数据中提取相关信息,并提出假设。即从问题出发,先分析数据,从数据中发现模式规律、异常值、离群值等,再从数据导出模型。
探究分析包含两个方面的任务:发现数值的规律和发现时间的规律。具体任务如表1所示。
表1 探究分析任务举例
(2)验证分析
验证分析的目的是证明或推倒假设(假设源于数据的探究过程或数据相关的模型)。
(3)分析结果表达
分析结果表达的目的是传递和分享数据分析结果。
计算机未出现以前,时间序列数据的可视化主要以手绘为主,例如AIGNER W[8]是现代统计图形的创建人,他用饼图、轮廓图、条形图、折线图等描述经济时间序列数据。JOSEPH绘制的人物传记图,用时间轴描述著名历史人物的寿命[8]。随着计算机技术和可视化技术的发展,时间序列数据的可视化在图表可视化方法、表达方式、交互方式等方面不断丰富与发展。
3.1时间序列数据的可视化图表
归纳起来,时间序列数据可视化图表主要有以下几类:
(1)传统统计图表
传统的统计图表是最简单而常见的时间序列数据的表示方法,例如折线图、条形图、金字塔图、雷达图[9]、星状图等。
(2)树图
树图[10]是一种层次数据的可视化方法。GOUTHAMI C[2]综合树图提供全局概貌和坐标轴统计图提供趋势特征的优势,设计了一种表示时间序列数据的树图可视化交互系统,并以微博数据、石油日产量数据等为例介绍树图表现时间序列数据的方法。
(3)热力图
热力图(heatmap)是时间序列数据进行聚类分析的有效方法,它采用颜色编码系统对数据进行可视化。主要有两类,一类为颜色矩阵图,用颜色值对二维阵列中的数值编码,如参考文献[11]用heatmap表示“9·11恐怖袭击事件”之后4个监测站点的9种多环芳烃浓度值的变化规律。另一类以地图为背景,叠加显示与地理位置相关的热点,生成热点图,像百度热力图。
(4)日历图
[4]提出基于聚类和日历图的可视化方法,可表现和识别多时间尺度(天、周、月)的单变量时间序列数据的模式和趋势。日历图可按日历的形式展示时间序列数据的全局特征,对于单变量的、特定的、已知时间尺度的时间序列数据表现效果较好,而对多变量、模式未知、无先验知识的时间序列数据的表现具有一定局限性。
(5)螺旋图
螺旋图有利于分析时间序列数据的周期特征。CARLIS J V等人[5]首次提出螺旋图的原型,用点、条形图的大小表示数值。之后,螺旋图在维度[6]、螺线形状模型[7]、交互[12]等方面的表达不断改进与发展。如参考文献[12]从视觉表达和交互两方面对传统的螺旋图进行改进,用双色着色编码方法和概括+细节的交互方式表现温度序列数据。
3.2时间序列数据可视化的表达方式
(1)隐喻表达法
隐喻表达法基于用户熟知的认知背景建立易于理解和使用的可视化环境。例如,ThemeRiver[3]用河流隐喻为时间,河流自左向右流动表示时间前进方向,河流的宽度、颜色等可视变量表示不同的主题对象和属性值。参考文献[13]用树的年轮隐喻为时间,圆心表示时间的起点,沿半径向外发散的射线表示其他属性。
(2)三维表达法
与二维表达相比,三维表达可能会遮挡或隐藏部分信息,没有二维表达直观,但可表现高维的时间序列数据。例如参考文献[14]提出时间隧道,将两种及以上不同的可视化视图叠加显示来分析数据的异同;参考文献[15]设计了一种基于网络图的三维交互可视化环境,以时间切片的方式对时间序列数据进行三维可视化。
(3)地图结合表达法
地图与其他可视化方式相结合可较好地呈现与空间位置相关的时间序列数据。时间序列与空间位置的关系包含两个方面,(1)位置作为时间序列的外部属性,单条序列的位置稳定,例如参考文献[16]将3D铅笔图标和3D螺旋图标配置到地图上,分别表达月度医疗时空序列在时间上的线性变化和周期变化特征以及空间上的分布特征。参考文献[17]基于GIS设计了圆环地图来表达25个邮政编码标识区域24周内的疾病时间序列数据。(2)位置是时间序列的内部属性,记录事件随时间的位置变化,如参考文献[18]将地图和折线图相结合建立时空立方体,表现实时运动对象的移动轨迹。
(4)邮票表达法
邮票表达法指基于某种可视化方法将时间序列数据按时间点生成一系列图表,并在一个视图空间内有序地平铺展示。该方法既可表示时间序列的全局概貌,又能以缩略图的形式呈现每个图表的细节,但在时间上缺乏连续性,对时间多维、高密度的时序数据及屏幕大小有一定的局限性。郭殿升等人[19]提出VIS-Stamp系统,按时间点平铺展现地图的缩略图,以对犯罪时空序列数据进行可视分析。
(5)动画表达法
动画表达法指在一个视图空间内逐帧地播放时序数据可视图表,动态、连续地展现时序数据的变化趋势。HANS R[20]提出Trendalyzer,基于交互的动态气泡图表现经济、社会等统计数据的变化趋势。ROBERTSON G[20]将Trendalyzer与两种静态表达法在趋势分析的效力方面进行对比,其结果表明,Trendalyzer虽然在表达上快速、生动,但在准确性和分析效果方面略逊一筹。
3.3时间序列数据的交互可视化
时间序列数据的交互可视化旨在将“黑箱”分析过程透明化,为用户提供可视、可控的分析环境。基本的可视化交互操作方法主要有[8]:选择、平移、缩放、查询、布局、编码、抽象/具体、过滤、画笔链接等。
常见的交互可视化模型有3种[8,21]:概括+细节模型、聚焦+上下文模型、对偶界面模型。概括+细节模型旨在解决用户在同一时间只能关注有限数据的问题,该模型首先提供数据的全局视图,通过放大、过滤等交互操作获得关注数据的细节图。聚焦+上下文模型可解决一个视图中无法显示所有数据的问题,该模型为用户呈现关注数据的细节并适度地展示上下文信息。对偶界面模型指对应于相同数据的不同视图之间相互关联,对其中任意一个视图的内容进行操作,其余视图的内容都随之变化,可充分利用多个视图协同呈现数据的不同特征。
本文主要从3个方面对时间序列数据可视化的研究进行归纳总结:(1)可视化呈现什么数据,需考虑时间属性和数据属性两方面的特征;(2)可视化完成什么任务,即用户需解决什么问题;(3)基于给定的数据和任务如何选择合适的图表、表达方式可视化及交互设计,以期为时间序列数据分析提供新的思路。
目前,时间序列数据的可视化面临多方面的挑战。随着计算机技术的发展,时间序列的数据量更为庞大,数据的周期模式更为隐秘,传统的时间序列数据可视化方法遇到许多瓶颈,亟需改进传统的时间序列数据可视化的表达方式;或结合多个视图建立交互式的分析系统,而如何实现多视图的交互操作是当前研究的重点和难点。将可视化技术、交互技术与时间序列数据分析方法更紧密地结合起来而不是独立地研究是探索和分析时间序列数据的趋势。
参考文献
[1]FU T C.A review on time series data mining[J].Engineering Applications of Artificial Intelligence,2011,24(1):164-181.
[2]GOUTHAMI C.Temporal treemaps for visualizing time series data[D].University of Maryland,2004.
[3]张龙飞,姚中华,宋汉辰,等.基于 Themeriver的可视化技术发展综述[J].系统仿真学报,2013,25(9):2091-2096.
[4]VAN W,VAN S.Cluster and calendar based visualization of time series data[C].IEEE Symposium on Information Visualization,San Francisco,1999:24-29.
[5]CARLIS J V,KONSTAN J A.Interactive visualization of serial periodic data[C].11th Anual Symposium on User Interface Software and Technology,1998:29-38.
[6]SIRIPATANAA,JAROENSUTASINEEK,PRUEKSAAROOM S,et al.The development of interactive 3D spring visualization for periodic multidimensional direction timeseries data sets[C].9th International Conference on Electrical Engineering,2012:1-4.
[7]CHENG S H,JIANG Z F,QI Q,et al.The polar parallel coordinatesmethod fortime-seriesdata visualization[C]. 2012 International Conference on Systems and Informatics,2012:11-14,161.
[8]AIGNER W,MIKSCH S,SCHUMANN H,et al.Visualization of time-oriented data[M].London:Human-ComputerInteraction Series,2011.
[9]杨婷,吴升.案事件时空联机分析处理与可视化[J].微型机与应用,2014,33(11):85-87.
[10]张昕,袁晓如.树图可视化[J].计算机辅助设计与图形学学报,2012,24(9):1113-1124.
[11]PLEIL J D,STIEGEL M A,MADDEN M C,et al.Heat map visualization of complex environmental and biomarker measurements[J].Chemosphere,2011,84:716-723.
[12]TOMINSKI C,SCHUMANN H.Enhanced interactive spiral display[C].Proceedings of the Annual SIGRAD Conference,2008:53-56.
[13]ESPER J.Influence of wood harvest on tree-ring time-series of picea abies[J].Forest Ecology and Management,2012,284:86-92.
[14]AKAISHI M,OKADA Y.Time-tunnel:visual analysis tool for time-series numerical data and its extension toward parallel coordinates[C].IEEE 8th International Conference on Information Visualization,2004:456-461.
[15]ITOH M,TOYODA M,KITSUREGAWA M.An interactive visualization framework for time-series of Web graphs in a 3D environment[C].14th International Conference on Information Visualization,2010:26-29.
[16]TOMINSKI C,SCHULZE-WOLLGAST P,SCHUMANN H. 3D information visualization for time dependent data on maps[C].Proceedings of International Conference on Information Visualization,2005.
[17]HUANG G,GOVONI S,CHOI J.Geovisualizing data with ring maps[J].ArcUser,2008,10(2):54-55.
[18]VINH P T,THI H N.Visualization cube for tracking moving object time-oriented[C].2011 International Conference on Information and Electronics Engineering,2011(6):258-262.
[19]Guo Dianheng,Chen Jin,MACEACHREN A M,et al.A visualization system for space-time and multivariate patterns(VIS-STAMP)[J].IEEE Transactions on Visualization and Computer Graphics,2006,12(6):1461-1474.
[20]ROBERTSON G,FERNANDEZ R,FISHER D,et al.Effectiveness of animation in trend visualization[J].IEEE Transactions on Visualization and Computer Graphics,2008,14(16):1325-1332.
[21]陈为,张嵩,鲁爱东.数据可视化的基本原理与方法[M].北京:科学出版社,2013.
Review on time-series data visualization
Qi Luyue1,2,Wu Sheng1,2
(1.Spatial Information Research Center of Fujian Province,Fuzhou University,Fuzhou 350002,China;2.Key Lab of Spatial Data Mining & Information Sharing,Ministry of Education,Fuzhou 350002,China)
Time-series data visualization integrated time-series data mining,data visualization,computer graphics,computer interaction technology,and theories of other disciplines.In this article,we summarized the features of time series data from time and data;we discussed the main task of time-series data visualization from the perspective of the users;we reviewed the visualization development of time-series data from the people-centered to the computer-centered,and to the man-machine interactive way;we introduced five kinds of charts and five types of expressions of time-series data visualization in detail.Finally,we summarized and prospected the research on time-series data visualization.
time-series;visualization;interaction
TP391
A
1674-7720(2015)12-0007-04
2014-12-16)
戚陆越(1991-),女,硕士研究生,主要研究方向:时间序列数据可视化与可视分析、信息共享与服务等。
国家“ 863 ”重大项目课题( 2012AA12A208 )
吴升(1972-),男,博士,教授,博士生导师,主要研究方向:时空数据分析与可视化、信息共享与服务、数字区域与智慧城市、应急信息系统等。