科学大数据云分析服务的性能优化技术

2019-11-30 12:49王琳
电子技术与软件工程 2019年1期
关键词:数据处理可视化领域

文/王琳

21世纪是科学技术迅猛发展的时代,大数据已走进我们的生活,在科学领域,爆发式增长的大数据为科研人员和社会发展带来了巨大的价值,而科学大数据的处理分析是一项技术要求高、浩繁的大工程。然而现在常用的大数据处理软件已不能满足当今时代大数据处理的要求,因此研究以云分析为代表的大数据处理分析软件就显得尤为必要。

1 蓬勃发展的科学大数据

大数据逐步走进人们的视线,其也越来越彰显其具备的优势,已被广泛应用至电子商务、卫星遥感、高能物理、现代新农业等领域,成为大国间博弈的心领域。大数据对人类日常生活及对当今世界的新理解的影响也更加明显。而作为大数据重要分支领域的科学大数据因具有复杂性、综合性、不可重复性、高维性及高度集成信息的内部特征及在数据内容、体量、分析等方面具有的传统数据分析无法比拟的外部特征。且其研究方向从单一学科向多学科并跨学科的转变,使得科学世界正因科学大数据的兴起而发生变化。因此,尽快开发并使用与之匹配的分析服务系统,给当今信息技术领域带来了新的挑战。

2 常用的科学大数据智能分析软件

2.1 单机环境智能分布软件

Matlab 因其在算法开发、数据分析、计算等领域提供了高级编程语言和交互式的环境,因此被广泛用于众多科学领域。R 语言、Weka是众多免费的单机环境智能分析软件的典型代表。R语言因可提供强大的统计分析功能,且用户可根据自身需要安装个性化扩展包而增强R功能,在统计分析和绘图语言中用途广泛。基于 Java 语言运用的Weka 数据挖掘平台因在可视化、拖拽式分析流程设计界面方面的强大功能,并在预处理和机器学习算法方面集成了大量数据。但因此类设计初衷为单机模式运行的软件系统,无法针对当前分布式存储的科学大数据进行处理,因此在处理科学大数据方面存在先天不足。

2.2 分布式环境智能分析软件

在分布式环境下Hadoop Mahout、Spark MLlib是分析软件的典型代表。通过使用这类代表性的软件,分布式并行挖掘方面的问题已经被研究人员解决,并提供了具有代表性的可供参考的的机器学习算法和模型。随着科技的发展,像Tensor Flow、CNTK等用于构建和训练深度神经网络模型并可用于分布式和异构计算的软件也被广大技术人员使用。但对于科研团队的科学研究工作,此类软件虽然在算法库和计算平台方面有一定的丰富度和高效性,但因编程开发程序的不足及系统配置的不完善,在分析较为复杂的科学问题上,存在先天性的不足。

2.3 云计算环境智能分析软件

当前,通过云平台对大数据进行智能分析的云计算智能分析软件的使用率逐步提升。高效实用机器服务的模式也被众多云平台厂商研究的热点方向。但这些系统在平台锁定和特定开发语言方面存在不足,用户无法自主性的对算法库进行扩充。现如今,一些科学家攻克了技术难题,开发了具有浏览器架构模式的分析软件,在数学建模,云数据计算和数字模拟方面具有革新性意义。这种软件系统以云平台部署为基础,为特定需求的大数据分析进行高速处理,并提供能够支持科学大数据分析服务的处理过程。

3 云分析服务性能优化方向

3.1 人工智能

随着时代的发展,人工智能等高新技术被应用到科学研究中的需求越来越强烈。当前,智能分析软件不仅需要在相关领域提供基础和传统算法运算,还被广泛应用于深度纵向学习、自然语言理解和构建生物图谱等新型人工智能方向的集成应用。为现代社会解析生命秘密、高通量测序等庞大系统的数据提供基础支持。

3.2 功能一体化

复杂数据的处理、分析以及对于靶向关键性数据的提取过程的软件因开发成本高昂,技术难度大,仍处于开发完善的过程中。当前对于庞大大数据处理的迫切需求,使得大数据分析服务软件急需在传统式编程开发技术的基础上,提供可视化的分析挖掘环境并为算法库和模型提供高质量、可复制的计算模式并实现囊括集成数据源、设计流程与执行和可视化等功能于一体的智能分析云软件。

3.3 云服务

云服务类的大数据分析软件不再像传统软件一样需要在本地进行安装,并需要定期升级维护,提高了软件应用的效率。同时,云服务提供的浏览器可为深层数据挖掘与分析、流程化的操作和管理提供统一的门户界面,增加软件的便利性。此外,通过在线API的形式对模型、算法等数据源进行复制、共享使用的“功能及服务”型功能也被视为未来云服务分析软件的重要特征。

3.4 个性化定制

因为分析模式在不同的科学领域范围内的需求千差万别,因此通用性、大众化的大数据分析软件显然无法满足对于特定领域进行研究并需要个性化处理的科学团队的要求。传统的大数据分析软件因无法提供在分析流程、可视化等方面的个性化分析功能也不被采用。随着科学研究的深入,理想的大数据云分析智能分析软件应该囊括分析流程、可视化等方面的分析功能,并能针对不同的研究方向、不同的数据处理需求提供个性化的分析服务,这也是当前技术人员重点研究的方向。

4 结语

本文在对当前常用大数据处理软件分析的基础上,提供了未来云分析服务性能优化的技术方向,旨在为开发适用于现代社会发展的云分析服务的科学大数据开发软件提供建议。

猜你喜欢
数据处理可视化领域
基于CiteSpace的足三里穴研究可视化分析
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于Power BI的油田注水运行动态分析与可视化展示
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于CGAL和OpenGL的海底地形三维可视化
领域·对峙
“融评”:党媒评论的可视化创新
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
新常态下推动多层次多领域依法治理初探
肯定与质疑:“慕课”在基础教育领域的应用