基于重型机械装备制造企业的大数据分析及可视化研究

2023-08-09 07:08汪忆钟世成王敏
计算机应用文摘·触控 2023年15期
关键词:大数据分析

汪忆 钟世成 王敏

摘 要:文章基于重型机械装备制造企业的大数据分析及可视化管理驾驶舱平台的建设背景,提出了大数据管理驾驶舱的建设需求,深入阐述了大数据分析及挖掘的概念、分析流程及分析工具,以及构建管理驾驶系统的可视化方法、常用图表及工具,得出了基于重型机械装备制造企业构建的管理驾驶舱系统平台形成的研究结果,旨在为相关的企业大数据分析及可视化管理驾驶舱系统平台的构建提供借鉴

关键词:机械装备制造企业;大数据分析;大数据可视化;管理驾驶舱系统

中图法分迷号:TP311 文献标识码:A

1 引言

1.1 研究背景

重型机械装备制造业是我国国民经济的主体,目前,重型机械装备制造企业面临数字化转型的诸多难题和挑战。通过简单、直观、多维的大数据分析结果帮助企业洞察经营状况并提升管理决策显得十分必要。在此背景下,本文通过对机械装备制造业大数据应用进行深入研究并实践,旨在实现从大数据分析需求到大数据系统分析、设计建模,以及从数据采集、数据加工、数据分析到数据可视化图形展示的全过程分析及可视化管理。

1.2 研究问题的提出

基于重型机械装备制造企业大数据管理驾驶系统的构建需求,本文提出研究问题,并对大数据分析及可视化方法进行深入研究。如何通过大数分析及可视化方法、工具及大数据相关技术构建开发管理驾驶舱系统是本文的核心研究问题。

2 大数据分析与挖掘

2.1 大数据分析

(1)大数据分析的概念。

大数据是传统数据管理工具无法存储或处理的大型、复杂和海量数据的集合。大数据分析是指分析大数据的相关性、隐藏模式、市场趋势和客户偏好等信息,以帮助做出基于数据决策的复杂过程。大数据分析通过多种不同的方式来帮助不同行业的企业和组织进行风险管理、产品开发和创新、制定战略决策、改善用户体验等。从业务的角度来说,大数据分析分为描述性分析、诊断性分析、预测性分析、规范性分析4 种类型。

(2)大数据分析的流程。

大数据分析流程往往包括收集数据、转换数据和对转换结果执行数据分析,大数据专业人员需要经历流程中的多个步骤。主要的5 个关键步骤如下。

①识别数据源并收集数据。在最初的步骤中,数据专业人员需要根据分析目标来选择可能包含原始形式的有用数据的数据源,尽可能从广泛的平台中选择数据源来收集数据,以提高数据分析的准确性。

②数据预处理。数据预处理对来自数据源的所有数据进行多方面的预处理。

③数据转换。数据转换步骤的主要目的是在运行分析算法之前将所有数据转换为可用的格式。

④数据分析和挖掘。这一阶段,利用数据分析知識对上一步输入的数据进行详细分析,并利用数据挖掘技术在收集的海量数据中发现隐藏和重要的模式。

⑤数据可视化。可使用诸如Power BI,Tableau,SmartBI 等商业智能工具或者开源的Python 工具库对数据分析的结果进行可视化呈现,并为不同级别的业务团队创建丰富的分析报告。

(3)大数据的分析方法。

很多学者和技术人员掌握了很多数据分析工具和技能,但依然做不好数据分析。遇到业务问题时,他们常常觉得无从下手。其实,掌握技能和工具只是第一步,掌握好大数据分析方法还必须有数据分析思维。数据思维具有框架性引导作用,能够确认分析角度、搭配分析方法、选择指标体系以及得出分析结论。常见的7 种数据分析思维包括对比法、象限法、漏斗法、二八定律、指数法、假设法及多维分析法。

做好大数据分析常常会用到统计分析方法,常见的统计分析方法有14 种,分别是描述统计分析法、驾驶检验分析法、信度分析法、列联表分析法、相关分析法、方差分析法、回归分析法、聚类分析法、主成分分析法、因子分析法、时间序列分析法、生存分析法、典型相关分析法、ROC 曲线分析法。在重型机械装备制造企业的大数分析过程中,可以选择以上大数据分析方法进行大数据分析。

(4)大数据分析工具。

开发人员根据大数据分析工具的功能和特性,以及开发环境的支持来确定和选择最合适的大数据分析解决方案。可以从流行的几个大数据分析并行编程模型(MapReduce、工作流、批量同步并行和类似SQL)的角度来了解并选择对应的大数据分析工具。

①基于MapReduce 编程模型的分析工具。MapReduce 是一种受函数式编程启发的编程模型。它基于map 和reduce 函数并行执行,用于设计大规模数据密集型应用程序。MapReduce 模型专为数据密集型应用而设计,如社交媒体分析、图像检索、科学模拟和网站爬取。在此类应用程序中,其复杂性主要与要处理的大量数据有关,MapReduce 允许充分利用数据的并行性,从而在分布式环境中实现高效执行。此外,它可以适应多种计算环境,包括多核、众核和多集群系统以及动态云平台和高性能计算系统。最常用的基于MapReduce 编程模型的开源框架是Apache Hadoop。基于Hadoop 平台的大数据分析可以帮助组织更高效地运营、发现新机会并获得更多的竞争优势。

②基于工作流的分析工具。工作流是一种定义明确且可能重复的模式,旨在实现数据的某种转换,可用于对复杂的数据分析场景进行建模,如分布式数据挖掘、机器学习和流分析应用程序。工作流任务可以按照不同的模式组合在一起,这使得输入、输出任务和依赖于其他任务的各种应用程序的高效建模与执行成为可能。流处理通常可以理解为对运动中的连续数据流进行实时计算和处理。

Apache Spark 是基于工作流的最流行的框架之一,用于机器学习、SQL 分析和图形计算。ApacheStorm 是一个用于实时流处理的开源分布式系统,能够处理大规模基础设施中的海量无界数据,具有高度可扩展性、容错性,并确保高速数据处理(每个节点每秒处理数百万个元组)和低延迟响应时间。

③基于批量同步并行模型的分析工具。批量同步并行是一种并行计算模型,是在图和矩阵、深度学习、机器学习和网络算法上执行海量计算任务最常用的模型之一。Apache Hama 是一个基于批量同步并行的开源框架,旨在执行小型基础设施中涉及基于矩阵和图的计算的复杂任务,主要用于开发利用批量同步并行模型进行高度迭代的图形处理应用程序。

Apache Giraph 也可以为开发高度可扩展的应用程序提供迭代图计算,其将Hadoop 作为资源管理器,主要被学术界和小型工业界用来在小型基础设施中运行图形处理应用程序。

④类似SQL 的分析工具。类SQL 系统试图将Hadoop 的有效性和查询能力与类SQL 语言的易用性结合起来,以便开发简单高效的数据分析应用程序。Apache Hive 是一种建立在Hadoop 上的数据仓库软件,用于读取、写入和管理大规模基础架构中的数据。它允许通过声明性的类似SQL 的语言,即Hive 查询语言(HiveQL),对大量数据进行可扩展和容错的管理。在Hive 中,每个数据操作查询都会自动转换为MapReduce 作业,从而无需编写复杂的MapReduce 程序即可轻松处理大数据。

2.2 大数据挖掘

数据挖掘是在大型数据集中提取和发现模式的过程,涉及机器学习、统计和数据库系统交叉的方法,是知识发现的分析步骤。有效的数据挖掘有助于企业规划业务战略和管理运营等,包括客户管理、供应链管理、欺诈检测、风险管理、网络安全规划和许多其他关键业务用例。它还在医疗保健、政府、科学研究、数学、体育等领域发挥着重要作用。一般来说,数据挖掘的过程包含预处理、数据挖掘、结果验证。而常用的跨行业数据挖掘标准流程定义了数据挖掘为业务理解、数据理解、数据准备、建模、评估、部署6 个阶段。

SPSS 是最流行的统计软件平台。该软件的高级功能提供了广泛的机器学习算法库、统计分析(描述性、回归、聚类等)、文本分析、与大数据集成等。此外,SPPS 允许用户通过专门的扩展并使用Python 和R 改进他们的SPSS 语法。

Pandas 是用于数据分析的库之一,它包含高级数据结构和以简单方式操作数据的工具,能够对多维和单维数据进行索引、检索、拆分、连接、重组。虽然Pandas 库提供了很多分析功能,但它依赖于Python 生态系统中用于数据处理的库,如NumPy,SciPy,Scikit?Learn,Matplotlib,它们配合使用并从大型数据集中得出结论。

NumPy 是一个用于数值计算和科学计算的Python 库。NumPy 提供了许多功能,可以在Python中对n 维数组和矩阵执行操作。它有助于处理存储相同数据类型值的数组,并提高对数组(及其向量化)执行数学运算的效率[1~2] 。

3 大数据可视化

3.1 可视化的方法及图表

大数据可视化是将信息转换为可视化的实践,使人脑更容易理解数据并从中获取见解,更容易识别大型数据集中的模式、趋势和异常值。该术语通常与其他术语互换使用,包括信息图形、信息可视化和统计图形。

大数据可视化往往超越了普通可视化中使用的典型技术,增加了更复杂或者组合的表示形式。大数据可视化需要强大的计算机系统来收集原始数据,对其进行处理并将其转化为人们可以快速得出见解的图形表示。这是因为图像通常比文字更快、更有效地传达正在发生的事情。大数据可视化技术利用了这一事实,它们以图表或图形来呈现数据,将数据转化为图片。这使得决策者可以一目了然地获得大量数据所包含的信息。

若要成功有效地展示数据,必须根据可视化项目的情况和对受众的了解来选择正确的图表。例如,如果要展示一组时间段内的变化,其中包含少量见解,那么折线图是一种有效的可视化方式。此外,线条使多个系列绘制在一起变得简单。

颜色将对可视化模型的整体成功产生显著影响,应在整个数据可视化中保持配色方案的一致性,使用清晰的对比来区分元素。同时,在构建有效的图形时,可以适当地添加文本让图形更易于理解。在数据可视化中最常见的文本元素通常是标题、标签、图例或工具提示。标题在图形或图表中占据顶部位置,它告诉用户在该视觉对象中能够找到什么信息。当涉及字幕时,应始终避免冗长,保持简短明了。描述太长的标签会拥挤视觉并使其难以理解。图例是图表的侧面部分,它显示并提供简要说明,以帮助用户理解所显示的数据。可以增加可视化工具提示,一旦用户将鼠标悬停在数据点上,就会显示额外的文本。大数据常用的可视化图表包括饼图、条形图、折线图、直方图、散点图、气泡图、热力图、雷达图、面积图、玫瑰图、甘特图、词云图、桑基图、树形图、漏斗图,根据可视化需要及丰富的图标显示特点,选择合适的一种或多种图形对分析主题进行可视化展示。

3.2 可视化的工具

(1)Excel。

Excel 是人们最常用的数据组织和处理工具,它提供了大量的内置图表,人们可以很好地利用这些图表来进行数据可视化。

(2)BI 工具。

商业智能(BI)工具是专有或开源应用软件,用于收集、處理、分析、排序、过滤和报告来自内部和外部系统的大量数据,目的是将原始数据转换为有用的信息商业。常见BI 工具有tableau,Power BI,SmartBI等。Smartbi 是国产BI 工具之一,提供数据处理、数据分析、数据挖掘、数据可视化等功能,在金融、制造、零售、地产、教育等行业获得超4 000 家行业头部客户认可,在Smartbi 的官网可以选择申请试用或选择Demo体验。

( 3)大数据可视化开源库。

Matplotlib 是一个在Python 中创建静态、动画和交互式可视化的综合库。Matplotlib 可用于Python 脚本、Python/ IPythonshell、Web 应用程序服务器和各种图形用户界面工具包。PyECharts 是一个Python 第三方库,用于开发生成可视化图表。Pyecharts 具有简单的API 设计, 支持主流Notebook 环境, JupyterNotebook 和Jupyter Lab,易于集成到Flask 和Django等主流Web 框架中。

4 重型装备制造业大数据分析及可视化

4.1 重型机械装备制造企业管理驾驶舱

本文通过深入研究相关大数据分析与可视化技术,按照面向对象的软件开发方法,开发了重型机械装备制造企业的管理驾驶舱系统平台。通过管理驾驶舱系统可视化大屏,企业高管及管理者可以快速查看订货合同金额计划完成率、报产产值完成率、销售收入完成率、货款回收完成率、合同金额、销售金额(销售收入)以及货款税收金额指标;还能查阅地理纬的省份、城市合同签订金额可视化结果;年度、产品分类的合同金额的桑基图;报产金额、报产重量、产品分类的词云图;库存柱状图以及责任制工资指标可视化图表,具体如图1 所示。

4.2 管理驾驶舱系统研究结果

整个管理驾驶舱系统功能分为8 个功能模块,包括管理驾驶舱总仓、销售指标、生产指标、采购指标、协作指标、财务指标、人力资源指标及系统权限管理。其中,管理驾驶舱总仓展示企业核心指标(KPI);销售指标、生产指标、采购指标、协作指标、财务指标、人力资源指标6 个功能模块分别从6 个业务方面进行指标数据查询、透视分析及仪表盘可视化展示;系统权限管理功能模块实现了人员、角色、权限及用户密码修改管理等系统管理。

管理驾驶舱系统Web 应用端采用Visual Studio2015,开发语言为C#和JS,数据库环境为MicrosoftSQL Server 2012。ETL 及大数据分析可视化工具采用SmartBI 工具;大数据底层采用开源hadoop 大数据平台。

5 结束语

本文从研究背景、研究问题的提出到具体大数据分析、挖掘及可视化的研究,阐述了大数据分析挖掘方法及工具、可视化的图标、可视化的工具,通过理论研究与实证研究,开发了基于重型机械装备制造业的大数据分析及可视化平台?管理驾驶系统,形成了本论题的研究结果。通过本论题的研究,为重型机械装备制造业管理驾驶系统的构建提供了参考思路。

参考文献:

[1] 王旭.资源管理驾驶舱的设计与实现[J].鐵路计算机应用,2023,32(1):46?51.

[2] 任政,祁建,陆晨亮.基于大数据分析可视化平台关键技术研究及供电服务指挥应用[J].微型电脑应用,2022,38(4):198?201.

作者简介:

汪忆(1981—),硕士,副教授,高级工程师,研究方向:大数据技术、人工智能技术、机械装备制造业信息化、高等职业教育。

猜你喜欢
大数据分析
基于大数据分析的低压台区降损系统研究及应用
大数据分析对提高教学管理质量的作用
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新