付长军,乔宏章
(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)
大数据可视化技术探析
付长军,乔宏章
(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)
大数据挖掘分析是未来大数据产业的重点和关键,可视化分析技术在自动化处理模型的基础上,将人的认知能力用于发现潜在知识和隐藏模式,已经成为大数据分析的重要工具之一。围绕大数据分析的本质,对大数据可视化技术的内涵进行了剖析,然后从人的视觉原理和可视化两个角度对可视化分析技术原理进行了综述,最后介绍大数据可视化在新闻传媒和态势感知两个领域的应用情况。
大数据;数据挖掘;可视化;数据分析
大数据技术经过最近十年的飞速发展,已经成为一门广泛应用的成熟技术。随着大数据产业链的日益完善,未来发展重点是大数据的挖掘分析与应用[1]。21世纪初由Jim Thomas教授提出的可视化分析是大数据挖掘分析与应用中不可或缺的一门技术[2],一方面将大数据中所包含的逻辑、结构等要素利用图形化的方法显示出来供人们理解和决策本身就是大数据应用的一个重要方面,另一方面通过图形化交互式界面将人脑擅长的认知能力融入到大数据分析过程中,能够解决传统自动化处理算法难以解决的问题。
可视化分析的处理过程可以看作是一个假设生成的过程,在可视化界面下用户可以看到数据的一些内在特性从而形成假设,进一步的假设验证既可以通过可视化方法来完成,也可以利用统计和机器学习等一些自动处理的方法来完成[3-4]。由于人脑在分析过程中的介入,可视化分析方法在非均匀数据和噪声数据的处理能力有明显优势,此外在分析推理过程中可以不依赖于任何先验模型。
可视化分析涉及脑认知、人机交互、数据分析、信息可视化几方面的内容,是一个典型的交叉研究领域[4-5]。虽然已经开发出了从入门级的Excel到专业的D3、Visual.ly等面向不同应用的各类可视化分析工具,但是如何针对具体数据设计出针对性的可视化方法仍无章可循,仍需工程人员创造力的注入。
本文从大数据可视化分析的内涵入手,介绍了可视化分析中经常利用的视觉原理,然后梳理出了不同维、不同类型数据的典型化分析处理方法,为读者在可视化分析的实践中提供一些程式化的设计思路和启发。
任磊等人认为:大数据可视化分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力(insight)[4]。归根到底,大数据可视化分析是从原始数据获取知识的一种手段,所采用的主要手段是自动化分析算法、可视化和人机交互。
如图2所示,数据分析的最终目标是发现原始数据背后所隐藏的信息,进而形成知识以纳入人们已有的知识结构中[6]。
图1 数据分析运行机制
为达到这一目标,主要依赖于人和机器的合作与互补,一种方法是将数据映射为形状、颜色、大小等视觉元素,通过视觉刺激和图形的交互来实现,该途径主要利用了人的理解力和创造力优势。另一种方法是利用机器学习等方法形成模型,得出结论,形成知识并纳入已有的知识结构,该途径主要利用机器的计算能力和存储能力优势。两种途径可以独立进行,又可以相互补充。通过可视化分析能够发现一些机器发现不了的潜在规律和结构,从而指导机器形成新的模型和学习方法;同样,通过机器学习得到的模型也会指导人们采用更加合理的可视化方法,更加有效地刺激人们的视觉感知系统。帮助人们发现数据中隐藏知识并归入到已有知识结构是大数据可视化分析的本质内容和根本任务,而不仅仅是“很炫地”显示出来。
理解和运用视觉原理的目的在于,可视化分析过程中映射成的视觉元素和设计生成的图形图像,能够被人们在最短时间内准确地将所包含的知识纳入到已有的知识结构中,尽可能避免引入不必要的干扰因素。由于对人的视觉原理尚未研究清楚,本文仅介绍在大数据可视化分析中影响较深的几个基本视觉原理。
2.1 潜意识处理
少数的视觉属性可以通过潜意识瞬间完成分析判断,换言之,不需要集中注意力即可以完成信息的处理。如图2所示,人们对颜色、体积、面积、角度、长度、位置等视觉属性非常敏感,可以在瞬间区分出差别,对位置差异性把握的尤其准确[7]。
图2 潜意识下不同视觉属性的处理精度
因此在设计中就可以把一些差异化的东西尽可能通过这些视觉特性表现出来,如图3(a)和图3(b)所示,2个数据集中的颜色/灰度和形状差异可以瞬间被人们发现,这样的数据呈现形式有助于发现数据中潜在的知识。然而,当数据呈现结果中同时采用了颜色/灰度和形状差异两种不同的视觉特性显示后,如图3(c)所示,观察者被混淆,无法准确快速地区分出来。因此,在可视化过程应该避免多种视觉特性的引入,以提高视觉认知效率。
(a)仅含灰度差异
(b)仅含形状差异
(c)含灰度和形状差异图3 潜意识下不同视觉属性的处理精度
2.2 格式塔视觉原理
格式塔视觉原理(Gestalt Laws of Perceptual Organization)认为[8]:距离相近的部位(相近性)、在某一方面相似的部位(相似性)、彼此相属倾向于构成封闭实体的部位(封闭性)、具有对称/规则/平滑等具有简单特征的图形(简单性)在一起时会被人们认为成一个整体,如图3所示。因此,在可视化分析中,为了让数据展示结果简单明了,可以利用以上特性,借助视觉欺骗通过孤立的部位把一个整体表现出来。从另一方面讲,在数据展示过程中,应该避免将不同属性的数据用相近性、相似性、封闭性或简单性的特征来加以描述,不然会引起视觉的混淆。
图4 格式塔视觉原理示意图
2.3 爱德华·塔夫特原则
作为信息设计先驱,耶鲁大学统计学教授爱德华·塔夫特(Edward Tufte)认为一个好的数据呈现应该简明、准确、高效、一目了然、充分反应出所包含的信息,要尽可能用最小的空间以最少的笔墨让受众在最短的时间得到最多的观点(即Data-ink maximzation),如图5所示,图(b)将图(a)中一些不必要的元素进行了删减,删减后图的可读性得到了明显提升。针对如何设计出一个好的数据呈现结果,爱德华·塔夫特教授提出了以下原则[9]:
① 明确对照物:在统计分析过程中,最基本的分析行为要回答清楚“与什么做比较?”;
② 明确因果关系:表明各个变量直接的关系;
③ 明确各种变化因素:世界是非常多元的;
④ 整合各种迹象:把文字、数字、图像和图表完全整合在一起;
⑤ 提供详细的标题:说明作者和发起人,数据来源,展示完整的测量比例,指出相关的问题;
⑥ 内容决定一切:分析结果的好坏最终还是看内容的质量、实用性和完整性。
(a)设计前的结果
(b) 设计后的结果
大数据可视化分析方法处理的数据类型涵盖一维、二维、多维、文本、网络图、代码/算法、时空数据等,采用的显示方法包括标准的2D/3D显示、图标化显示、图像化显示、堆叠化显示等,采用的变换技术包括投影、滤波、放缩、变形、填充等。此外,单一的数据呈现结果不足以反应数据潜在的全部信息和知识,还需要相应的交互技术根据用户的理解程度,适时调整数据呈现结果,达到将原始数据包含的知识纳入到用户已有知识体系结构这一最终目的。
对一/二维的数据通常采用的显示方法包括曲线图、折线图、散点图、饼图、柱状图、雷达图、热力图等。多维数据可视化分析的目标是发现多维数据分布规律,寻求不同维度之间的逻辑关系,分析过程中主要通过映射、投影、平行坐标等降维手段实现多维数据在平面上的显示,采用的方法包括[4]:几何图形、图标、像素、层次结构、图结构以及多种方法并举等形式。
文本是人们交流和记录的重要载体,占据了约80%左右的电子化信息,以新媒体、电子档案、电子记录等形式与人们的生活紧密相连,是大数据挖掘与分析的一项重要内容。文本可视化分析的目的在于通过词频、主题关联、动态演化等规律的展现,发现文本中蕴含的语义特征。常用的显示方法包括:标签云、语义结构树、气泡等,如图6所示[10]。
(a)标签云
(b)语义结构树
(c)气泡图图6 文本可视化案例
网络图直接体现了文件组织架构、网页地图、人际交流等现实问题中的关联关系。网络图的可视化分析旨在通过选择合理的层次结构、捆绑或删减不必要的边和节点、多尺度交互等手段,直观地展示潜在的模式和关联关系,常用显示手段包括H树H-Tree、圆锥树 Cone Tree、气球图 Balloon View、放射图 Radial Graph、三维放射图 3D Radial、双曲树 Hyperbolic Tree 等[3],如图7所示。
(a) H树
(b)圆锥图
(c)气球图
(d)放射图
基于人机交互的可视化技术能够让用户直接与数据呈现结果进行交互,可以在看到数据局部信息的同时又能了解到整体信息,也使得通过不同可视化分析方法进行原始数据分析成为可能。常用的方法包括动态投影(Dynamic Projections)、整体+详细技术(Overview+Detail)、交互式滤波(Interactive Filtering)、交互式缩放(Interactive Zooming)、交互式变形(Interactive Distortion)、焦点+上下文 (Focus+Context,F+C)等技术[4]。
大数据可视化引入了人的分析认知能力,将动态呈现与分析有机结合在了一起,在大规模非结构化数据分析中优势更加突出,被广泛应用于态势分析和新闻报道中。
数据可视化分析技术的引入增加了新闻传播内容的客观性和可信性[11]。《卫报》《泰晤士报》《洛杉矶时报》《纽约时报》《时代周报》、中央电视台等国内外著名媒体相继利用开发平台和公共数据,基于大数据可视化技术开展新闻报道。央视在2014年除夕前首次推出 “据说春运”系列报道后,相继推出了“据说春节”“据说两会”系列报道。《“据”说“两会”》系列报道中利用标签云显示方法,参照主播顾国宁的形象,成功地塑造了“数据哥”形象,实现了电视播报分格与信息可视化的紧密结合。将由老百姓最关注的热门词以喜闻乐见的新闻人物形象呈现在观众面前,让受众能在短时间即发现最关注的词汇有哪些、哪个关注程度高一些、与我最相关的内容是哪个等等,把评价和判断留给观众,新闻节目的意味更加深长,观赏性和科学性也得到进一步提升。信息可视化技术已经成为新闻媒体创新播放形式,提升观众吸引力的重要工具。
态势估计、分析和预测离不开数据可视化分析技术[12-13]。为掌握安全、舆论、对抗、环境等事件的宏观状况、形态和形势,并判断其强弱盛衰,需要对众多的数据综合起来加以理解,衡量各种因素对于达成目标的重要程度。由于潜在的模式千变万化,自动化的计算机处理模型无法应对所有场景,对态势的估计、分析和预测离不开人的认知能力。可视化分析技术在态势感知应用中,将各类环境数据、方法、概念、步骤等知识映射成视觉元素,充分利用视觉的信息处理优势,不仅为决策者提供强大便捷的态势感知手段,还与自动化处理方法共同识别和理解事件相关要素、关联关系和发展趋势。可视化分析已经成为各类态势感知的关键技术。
大数据可视化分析技术充分利用了机器和人的各自优势,在大数据挖掘、分析和应用中广泛使用,为此各大公司和研究机构开发了众多成熟的程式化制作工具帮助人们方便地解决面临的问题。然而人的视觉认知原理尚未认识清楚,如何实现计算机挖掘与人的认知之间的最优化协作,依然缺少以用户为中心的系统设计与方法论,用户往往看不懂可视化领域创新技术。面对具体的问题,一个好的可视分析解决方案仍然依赖用户的经验和创作灵感。此外,随着数据量的日益增大,受显示器尺寸的限制以及人单次处理信息能力的限制,面向可视化分析的自动化数据筛选和挖掘日益迫切。
[1] 乔宏章,付长军.大数据产业发展现状研究[J].无线电通信技术,2016,42(4): 1-4,28.
[2] Richard May,Pat Hanrahan,Keim Daniel A,et al. The State of Visual Analytics is and Where it is Going[C]∥2010 IEEE Symposium on Visual Analytics Science and Technology(VAST),2010:257-259.
[3] Herman I,Melancon G,Marshall M S. Graph Visualization and Navigation in Information Visualization: A Survey [J]. IEEE Transactions On Visualization and Computer Graphics,2000,6(1): 24-43.
[4] 任磊,杜一,马帅,等. 大数据可视分析综述[J].软件学报,2014,25(9):1909-1936.
[5] 曾悠. 大数据时代背景下的数据可视化概念研究 [M].杭州:浙江大学,2014.
[6] Keim D A. Information Visualization and Visual Data Mining[J]. IEEE Transactions on Visualization and Computer Graphics,2002,8(1):1-8.
[7] Colin W. Information Visualization: Perception for Design (Third Edtion) [M]. San Francisco: Morgan Kaufmann,2012.
[8] Barry S. Foundations of Gestalt Theory[M]. German:Philosophia Verlag Gmbh,1988.
[9] Tufte E R.The Visual Display of Quantitative Information [M]. USA:Graphics Press,1983.
[10]Koh K,Lee B,Kim B,et al. ManiWordle: Providing Flexible Control over Wordle [J]. IEEE Trans. on Visualization and Computer Graphics. 2010,16(6):1190-1197.
[11]常江,文家宝,刘诗瑶. 电视数据新闻报道的探索与尝试[J]. 采编谈艺,2014(5):74-79.
[12]李东海. 综合侦察系统一体化技术发展研究[J]. 无线电工程,2016,46(6):13-17.
[13]吴佳鑫,王健海. 基于态势感知理论的可视化感知模型[J].现代图书情报技术,2010(Z1):9-14.
DARPA推进“分散计算”计划,开发新型网络协议改善网络性能
美国国防高级研究计划局(DARPA)2017年6月19日宣布,已就其“分散计算”(DCOMP)计划与Vencore公司创新研究部门——Vencore实验室签订了基本合同。合同期到2021年,价值超过1 000万美元。
DARPA此前已与多家公司签订“分散计算”项目研发合同。此次Vencore将为DARPA开发创新的网络协议,特别关注了一种解决方案,利用可编程的网络元素,收集路径内网络数据,并借助可编程协议逻辑分析和使用这些分析数据,从而提高网络性能。
根据DARPA 2017年6月24日发布的“分散计划”项目跨机构公告,该项目旨在解决网络连通性和电能受限的恶劣作战环境中数据计算的成本和时延问题。项目包括三大技术领域:分散任务感知计算算法、可编程的节点和协议栈以及技术集成。
目前有大量计算需求的用户一般都是接入大型共享数据中心,将其图像、视频等文件送回数据中心处理。但在不同操作环境中,这种方式的费用和时延会带来问题,尤其是网络容量严重受限或用户应用要求近实时响应时。这种情况下,用户可利用当地可用的计算能力。
“分散计算”计划寻求一种创新的方法创建协议栈和算法软件,通过利用分散的计算系统资源,提高网络应用性能。计划寻求一种可伸缩的系统,这种系统可根据用户的竞争性需求,通过大量的异构计算平台,以任务感知的方式,实现计算设施安全和统一的任务分配,体系结构中可包括网元、无线电台、智能手机、带可编程执行环境的传感器以及便携式微云。
Study on Big Data Visualization Technology
FU Chang-jun,QIAO Hong-zhang
(The 54th Research Institute of CETC,Shijiazhuang Hebei 050081,China)
The big data mining analysis is the key issue in the future development of big data industry. Based on automatic processing model,the visual analysis technology uses people’s perceiving ability to discover the latent knowledge and hidden patterns,and it becomes one of the most important big data analysis tool. Based on the essence of big data analysis,the intention of big data visual analysis is analyzed. From the point of visual principle and visualization method,the principle of visualization analysis methods is summarized. At last,the application of big data visualization in news media and situation awareness is introduced.
big data; data mining; visualization; data analysis
2017-05-09
付长军(1981—),男,博士,主要研究方向:信号与信息处理,于2012年毕业于清华大学自动化系,同年在中国电子科技集团公司第五十四研究所参加工作,主要从事卫星通信、卫星导航与卫星遥感等空间信息综合系统的研制与生产,以及大数据、公共安全等相关系统与产品的论证和研究;目前在IEEE Transactions on Image Processing(TIP)、Data Compression Conference(DCC)等国内外著名杂志上发表论文近二十篇。乔宏章(1963—),男,高级工程师,所副总工程师,主要研究方向:信号与信息处理,于1983年在中国电子科技集团公司第五十四研究所参加工作,主要从事侦察设备、航天测控地面设备和信息系统的研制和生产;主持建设的项目或军队科技进步一等奖一项,2012年起作为集团“智慧城市”专家组成员,主持了“平安包头”“平安唐山”等项目的论证和建设工作,已发表学术论文十余篇。
10. 3969/j.issn. 1003-3114. 2017.05.01
付长军,乔宏章.大数据可视化技术探析[J].无线电通信技术,2017,43(5):01-05.
[FU Changjun,QIAO Hongzhang. Study on Big Data Visualization Technology [J]. Radio Communications Technology,2017,43(5): 01-05.]
TP912.3
A
1003-3114(2017)05-01-5