卢弘杰
摘要:以当前我们对人脑思维和认知的了解,抽象思维与形象思维是我们联系一切事物的根本。在计算机技术日益成熟的今天,大数据可视化是当代最为热门的话题之一,随着大数据时代的到来,大数据可视化技术与可视分析已逐渐成为科学发现与创新的重要方式。如何满足用户的应用需求,如何通过探索、研究和设计新的技术去引领人们的应用意识,是每一位从事相关内容研究工作人员需要深刻思考的问题。本文将对大数据可视化与可视分析进行论述。
关键词:计算机技术;大数据;可视化
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)08-0027-03
1 数据可视化简述
关于数据可视化的定义有很多,通常我们在大数据分析应用中所提到的可视化是指,利用包括图像和人机交互等在内的计算机技术,将已被采集的和需要被模拟的数据映射为更加直观的、满足人们需要的图形和图像。所以我们认为,“可视化”就是将人们感兴趣的信息数据转化为更加便于人们欣赏的图式化过程。显然更加侧重人对数据、信息和知识自上而下的加工处理过程。相对于繁杂的数据,图表不仅能更加简洁地表述信息,还适用于大量信息的描绘,即对大量数据的承载。这也是数据可视化成为大数据分析工具不可或缺的功能模块的主要原因。
数据可视化包含三个分支,科学可视化、信息可视化和可视分析,其中可视分析是本文主要所讨论的一个分支。可视分析是随着人工智能的兴起而出现的一个新学科,它被定义为由可视交互界面为基础的分析推理科学,将图形学、数据挖掘、人机交互等技术融合在一起,形成人脑智能和机器智能优势互补和相互提升。
2 大数据可视化分析方法
2.1原位交互分析技术
所谓原位交互分析是指,对那些存在于内存的大量数据进行可视化分析。运用此项技术对数据进行分析的主要原因在于,当面对体量非常庞大的数据时,特别是PB量级以上的数据,将数据存入磁盘后再进行分析是极为不合适的,这会大幅度增加I/O的开销,而在数据还在内存时就进行可视化分析,则有助于我们实现数据使用与磁盘读取比例的最大化。但在应用此项技术进行数据可视化分析时也容易出现一些问题,比如由人机交互减少而引起流程中断和因硬件执行单元不能高效共享处理器而导致的流程中断。
2.2大数据存储技术
大数据存储技术是在云服务的之后出现的,它主要是为解决云服务无法解决的问题而存在的,比如对EB量级的超大规模数据应用。大型企业之所以会痴迷于新技术的研发与应用,主要与数据的存储成本有关,起码到目前为止,私有集群中的硬盘存储成本还明显低于每千兆字节的云存储成本。而另一方面,基于云端数据库的数据传输始终会受到网络带宽的制约,这也就进一步坚定了人们应用大数据技术实现数据可视化的信念。
2.3可视化分析算法
在大数据可视化算法方面,我们不仅要考虑可视化数据的规模,还需要注意到视觉感知的高效算法,比如增加和创新视觉表现方式和与用户交互的方法。同时,为了满足使用者的喜好与需求,可视化还必须需要高度的输出适应性,以实现自动学习算法与需要的有机结合,这会在一定程度上增加控制参数搜索空间,在降低探索难度和减少数据分析成本的同时,也减少了搜索的时间。
2.4不确定性的量化
一般情况下,为满足数据分析的实时性要求,我们会在数据分析任务中引入数据亚采样,但这也增加更多不确定性,并且随着数据规模的不断扩大,直接处理整个数据集的能力也将受到很大限制。所以,对不确定性因素和元素的量化已成为科学工程领域里所要研究的重要问题之一。可视化技术可以为用户提供更加直观的不确定性因素视图,使用户能够更加直观地去了解已存在的这些“不确定性”,增加了用户选择正确参数的概率,降低了误导性结果产生的概率。
2.5并行计算
并行计算针对可视计算需要占用大量时间所提出的一种概念,它有助于我们实现数据分析的实时交互。并行计算的实现,有效减少了整个体系结构中单个核心所占有的内存量,提升了系统内的数据移动效率。但需要指出的是,若想充分发挥并行计算的优势,最大限度实现它所具有的功能,需要我们重新去设计可视化分析算法,重设计数据模型,必要时,还需要引入具有很强创新性的视觉表现手法和用户交互手段。
2.6用户界面与交互设计
随着大数据可视化技术的不断发展和应用,那些缺少最后可扩展性的可视化分析算法设计理念逐渐被淘汰掉了,与之相对应的,那些复杂算法和不易输出简明结果的算法也不再被用户使用,取而代之的是高度人性化的人际交互设计理念。因此在大数据的可视化分析中,用户界面与交互设计成为当前人们所研究的重点,新的理念设计需要考虑的问题有:用户驱动的数据简化、可扩展性与多级层次、异构数据融合、交互查询中的数据概要与分流、表示证据和不确定性、时变特征分析、设计与工程开发等。
3大数据可视化分析案例
大数据网络安全的可视化设计:
在白环境虫图可视化分析设计中,虽然数据量大大增加了,但用户的理解程度却提高了。用虫图对数据进行可视化分析的主要目的是监测访问内网核心服务器的异常流量,整體的图形结构将围绕内网资产和访问关系这两个核心点来展开布局(如图1)。
根据以往的经验,带有关系的数据一般使用和弦图和力导向布局图。最初我们采用的是和弦图,圆点内部是主机,用户要通过3个维度去寻找事件的关联。通过测试发现,用户很难理解,因此选择了力导向布局图(虫图)。图1中的第一个层级所展示的是全局关系,第二个层级是通过对IP或端口的钻取进一步展现相关性。
在优化图形环节,我们对去多地方都做了进一步调整,比如考虑用户对图形元素疏密程度的适应性,只将TOP N展示出来;元素风格与界面风格保持一致;IP名称超长时所省略处理;在交互方面,通过单击钻取到单个端口和IP的信息;鼠标滑过时相关信息高亮展示,这样既能让画面更加炫酷,又能让人方便地识别。
在检测环节,通过调研,用户对企业内部的流向非常清楚,视觉导向清晰,钻取信息方便,色彩、动效等细节的优化帮助用户快速定位问题,提升了安全运维效率。
4 大数据可视化所面临的挑战
随着大数据可视化技术的不断成熟,人们对它的使用也越来越广泛,过程中自然也就会产生一系列问题。
1) 视觉噪声
相关性极强的数据无法被分离成独立的对象来显示。
2) 信息丢失
在减少可视数据集的过程中,经常会丢失很多信息。
3) 大型图像感知
数据可视化不仅受限于设备的长度比及分辨率,也受限于现实世界的感受。
4) 高速图像变换
大数据可视化带给用户的感受是直观的,但过于快速的图像变换则会导致用户无法对数据强度的变化做出反应。
5) 高性能要求
在静态可视化中,设备性能优势体现的不算明显,因此我们常常会忽略掉它们对可视化效果的影响,但在动态可视化中,对性能的要求就会比较高,一旦满足不了动态可视化的要求,或者无法呈现出较高质量的效果,那么设备缺陷就会暴露无遗。
除上述内容外,可感知交互的扩展性也是大数据可视化面临的重要挑战,在大规模数据库中查询数据,会有很大概率产生高延迟,从而降低交互率。在多方面因素的限制下,人机互动下的大数据可视化将是未来可预见的重要挑战之一。
5大数据可视化技术的发展方向
5.1 可视化技术联系数据挖掘
表面上看,大数据可视化与数据挖掘相类似,甚至会让人产生一种错觉,即可视化技术就是数据挖掘,理由是,数学可视分析和数据挖掘的目标都是从数据中获取信息。但事实上,它们所应用的手段是完全不一样的。数据挖掘是利用计算机将那些隐藏的数据知识挖掘出来给予用户,而数据可视化分析则是将复杂、不易观察的数据转换成易于理解的图形符号,更倾向于探索性地分析数据。两者的相似点是我们推进可视化技术联系数据挖掘的基础,不同点则是我们进行整合研究的主要动力。
5.2 可视化技术联系人机交互
我们在研究计算机技术时,主要实现的内容之一就是用户与数据的交互,其目的是要使用户更好地掌控数据。从当前各个科技分支发展的方向和应用情况看,我们还无法真正做到完全掌控数据,所以,当我们在发展可视化技术时,在人机交互层面上取得重要突破,自然也就成为可视化研究的一个重要方向。
5.3 可视化技术联系大规模、高纬度、非结构化数据
大数据时代下,大规模和高纬度数据层出不穷,而且它们又多是非结构化的,将这样的数据用可视化形式完美地展现出来,其难度可想而知。所以,当我们在这样一个较为复杂的时代环境下发展可视化技术时,就必须想办法建立与大规模、高纬度、非结构化数据的联系,这也就成为我们进行可视化技术研究的一个重要方向。
6 结束语
大数据可视化与可视分析是一项较为复杂的研究课题,虽然它所表现出的直接效果看上去很简单,但在技术的研究设计上既需要工作人员站在用户的视角,尽可能满足人们的视觉需求,又要时刻注意技术之间的相互作用与联系。随着计算机技术的不断发展与人们需求的日益提高,我们大数据可视化技术还需要进行更进一步的探究,要做到用新的创意和技术去引领用户,而不是仅仅满足于迎合用户的实际需求。
参考文献:
[1] 陈镭,刘玉,杨琴.高校实验室大数据可视化平台研究[J].计算机时代,2020(11):43-46.
[2] 罗浩,汪鹏,赵浩宇.基于医疗大数据的可视化分析与应用[J].中国医疗设备,2020,35(11):122-124,128.
[3] 阳建中,陈慧蓉,姜愉,等.基于大数据的坭兴陶产品可视化方案选择[J].信息技术与信息化,2020(10):250-252.
[4] 李跃勇.大数据分析方法与关键技术研究[J].产业创新研究,2020(20):36-37.
[5] 沈雅.常用的大數据可视化分析工具[J].计算机与网络,2020,46(20):39.
[6] 李鸿奎,程昭龙,周蕾,等.智能变电站设备管控大数据分析系统研究[J].机械与电子,2020,38(10):72-76,80.
[7] 杨春波,凌松.基于大数据框架的智能电网分析和可视化应用[J].电子器件,2020,43(5):1004-1009.
[8] 李天辉.基于python的数据分析可视化研究与实现[J].电子测试,2020(20):78-79.
【通联编辑:闻翔军】