面向工业大数据应用的计算机实践课程设计

2022-03-23 06:42:28崔晓龙王建萍
实验室研究与探索 2022年1期
关键词:电费工业价值

崔晓龙, 刘 欣, 张 磊, 何 杰, 王建萍, 张 敏

(北京科技大学计算机与通信工程学院,北京 100083)

0 引 言

习近平总书记指出,要用好学科交叉融合的“催化剂”,加强基础学科培养能力,打破学科专业壁垒,对现有学科专业体系进行调整升级,瞄准科技前沿和关键领域,推进新工科[1]、新医科、新农科、新文科建设,加快培养紧缺人才。随着工业进入信息化时代,传统制造行业面临着巨大的挑战和机遇,工业互联网是构建工业生态系统、实现工业智能化发展的必由之路,而工业大数据作为工业互联网的核心,已成为新一轮产业革命的重要动力[2-3]。

工业大数据所涉及的核心技术、平台、工具等多种多样,需要针对各种典型的业务场景进行研发和优化。目前我国在工业大数据方面支撑人才匮乏,尤其是平台架构工程师、算法工程师等基础支撑人才严重不足,这必然会阻碍工业大数据的发展。所以面向计算机类专业,需要开展工业大数据方向的实践教学,培养致力于工业大数据挖掘分析的跨界复合型人才。然而高校计算机类专业课程中缺乏大数据教学内容,尤其是缺乏面向工业大数据应用的教学内容,因此需要对工业大数据平台、应用场景进行设计,构建满足工业大数据教学的支撑平台和应用案例,引导学生对工业互联网、工业大数据有更加深入的理解,并将通过大量的课程实验,让学生对涉及的应用场景有所认识,并能对解决问题所涉及的技术有深入实践[4-6]。

1 工业大数据应用的实践教学状况分析

1.1 缺乏对工业大数据知识体系的梳理

当前,工业互联网发展面临人才严重短缺的问题,高校作为人才培养的主要阵地,缺乏针对相关领域的课程,已有的云计算、大数据、人工智能等相关课程更多的是讲述与互联网领域相关的知识,学生实践也局限于互联网大数据层面,对于工业大数据领域从数据源头到数据应用的整个过程没有系统的总结,难以形成知识体系并进一步细化成课程内容。

1.2 缺乏面向工业大数据真实应用场景的实训环境

在大数据相关课程的教学中,教师首先要考虑的是实践环境的问题,因为大数据技术的实践在整个课程中起着举足轻重的地位,这就要求课程为学生提供良好的实践实训环境,另外,工业大数据场景往往不同于互联网大数据场景,与互联网大数据相比,工业大数据具有更强的专业性、关联性、流程性、时序性和解析性等特点,仅仅依靠传统的互联网大数据分析技术已无法满足工业大数据的分析要求。工业大数据所独有的这些特点决定了传统的大数据应用场景的变化,不能仅仅关注算法和工具,还得注重工业过程中逻辑清晰的分析流程和与分析流程匹配的专业技术体系。

工业大数据平台需要以“云-管-端”方式实现设备端数据采集和云端存储、清洗、展现,从而实现人、机、物的交互,同时提供安全、开放、生态、定制的物联网云平台解决方案,实时收集接入设备的状态数据与运行情况数据,并能够及时处理这些数据并及时反馈,为故障预测诊断、自愈控制、建模与优化决策、生产全流程一体化控制等方面提供数据平台和计算引擎。现有的大数据教学平台往往以大数据技术的使用为核心,脱离工业互联网这一特定的应用场景,无法为学生理解工业大数据的处理提供实训环境[7-8]。

1.3 缺乏合理的课程内容设计和学习路径规划

当前大数据课程大多以Hadoop技术为核心,围绕其进行展开,让学生理解该技术生态系统中的各种组件的原理及应用,而工业大数据场景下,则将侧重解决方案的设计,重点关注各种场景下数据分析及可视化问题,例如,面向订单/产品的加工过程的可视化,将各流程与数据绑定,并可进行人机交互。已有课程往往缺乏面向工业大数据应用场景的内容设计,同时针对众多不同的应用场景和大数据技术,缺少合理的学习路线让学生能够更加轻松地掌握要学习的知识点,例如,针对产品历史数据的分析,可考虑采用数据仓库技术,进行多维度分析挖掘生成数据报表,其中涉及的大数据技术会有HDFS、Hive、Spark MLlib等,要让学生理解工业大数据场景的同时学习到大数据常用技术,就需要精心设计实训案例,让学生能够理解不同应用场景下适合的技术,并能够进行技术选型[8]。

2 工业大数据理论与实践体系

工业大数据是工业数据的总和,涉及的范围较广,包含企业信息化数据、工业物联网数据以及外部数据等,作为智能制造与工业互联网的核心,本质上是将上述数据收集起来并通过促进数据的自动流动去解决控制和业务问题,实现控制过程和决策过程的智能化,以减少决策过程所带来的不确定性,并尽量克服人工决策的缺点。这样,整个工业大数据的流动过程就涉及从数据的收集到存储再到智能化分析最终应用于智能控制和决策,整个过程较为复杂。

要实现面向工业大数据应用的课程内容设计,需要首先理清工业大数据理论与实践体系,做到“理论有深度、技术有应用”,对工业大数据场景中涉及的知识点进行梳理,如图1所示[6]。

图1 工业大数据知识体系

(1)数据采集。工业大数据的来源多种多样,例如来自智能传感器设备、智能仪表、智能终端等产生的实时数据,需要考虑数据的自动采集和实时接入,而来自企业已有信息系统、管理系统等数据和一些外部数据,需要通过批量采集导入工业大数据平台,同时要考虑提供IoT接入方式满足定制化物联网数据导入,形成的多源异构数据给后续过程提出了较大的挑战。

(2)数据集成。将采集的多源异构数据进行数据预处理,此环节涉及数据质量监控的问题,将预处理后的数据存入各种不同主题的数据库,如产品相关、生产线相关等,然后重点将工业流程和流程中的数据关联起来进行可视化,提供与用户的交互功能。解决数据存储问题之后,对用户或系统提出的各种不同类型的计算任务提供数据访问接口。

(3)数据分析。考虑不同的应用场景,主要包含实时/离线计算、OLAP/OLTP类应用,在经过预处理的数据上构建仿真测试、流程分析、运营分析等分析模型,这就要用到数据挖掘、机器学习、知识库和统计分析等数据分析工具。

(4)数据应用。基于数据分析的结果,可支持工业生产中的多种应用,如最常用的可视化报表,可对历史数据进行分析找出产品质量与工艺、设备之间的关系,自动对生产过程进行优化。另外还可以由实时预警机制及时发现系统中的故障,通过时序数据分析进行预测以指导后续的决策,通过运行中的实时优化反馈给系统进行实时控制等。而这些过程中同样会产生大量的数据,又会被采集到工业大数据平台中,构成从数据采集到数据应用再到数据采集的闭环。

(5)运维管理、安全管理。大数据平台在生产环境下的部署、运行与维护,需要做到高可靠、简操作、易扩展,避免后期维护产生高昂成本。安全管理涉及设备安全、网络安全、数据安全、应用程序安全等诸多方面,需要考虑众多的影响因素,系统要能够安全的运行,不受来自系统内部、外部的攻击和非法访问,需要考虑多种防御手段共同来保证系统的安全。

3 工业大数据教学实践支撑平台

要面向工业大数据应用进行教学,必须结合真实应用场景设计相应的实践支撑平台,做到“互动体验、情景沉浸”。工业大数据平台建立在公司核心产品控制系统和信息系统的基础上,将运行的各种智能设备互联,同时使企业数据(如生产系统数据、客户相关数据、产品生命周期数据等)与运行数据互通,通过3个平台(计算平台、业务平台与可视化平台)对数据进行存储、分析与展示,最终面向企业、用户、市场等提供全方位的服务。工业大数据平台的基础架构见图2。

图2 工业大数据平台基础架构

其中工业大数据来源多种多样,主要分为管理系统数据、生产系统数据和一些外部数据,同时数据类型多种多样,包括关系表、文本、json、图像、xml等,面对如此庞大的多源异构数据,对于数据的汇聚和整合提出了非常大的挑战,企业首先需要设计通用可靠的数据采集机器,来满足不同数据来源的采集需求,例如对于管理系统和外部数据,往往是累积的大量历史数据,采用批量导入的方法导入工业大数据平台,而对于生产系统数据,往往是实时产生并且对时效性要求较高,需要实时接入工业大数据平台。对数据进行预处理后,往往要将数据接入工业大数据存储系统,该存储系统需要能支持TB~PB级数据的存储,并且以尽可能多样化的存储方式来适应各类不同数据的存储分析场景,即解决多源异构数据存储的问题。对存储在工业大数据平台中的数据通过多任务计算引擎进行处理,大数据系统通常需要能够支持多种任务,包括离线计算、实时计算、处理结构化表的SQL引擎、计算关系的图处理引擎和进行数据挖掘的机器学习引擎,其中面向SQL的分析主要有交互式查询、报表、复杂查询、多维分析等,另外分布式数据库中间件,可解决数据库容量、性能瓶颈和分布式扩展问题,提供分库分表、读写分离、弹性扩容等能力,适用于海量数据的高并发访问场景,有效提升数据库读写性能。借助于多任务计算引擎对工业大数据进行分析挖掘,将满足企业的各种不同需求,主要包括基于历史数据的分析挖掘、实时采集数据的分析预测以及时间序列数据的分析预测,为企业提供诸如实时监控、工艺优化、故障预测、商业智能等应用。

4 工业大数据课程实践内容

针对工业大数据场景下的需求重点,课程核心包含数据分析和可视化两部分内容,课程内容坚持以真实应用场景为主体,让学生从基础实验到综合实践,做到“循序渐进、掷地有声”。

4.1 课程总体设计

课程将介绍工业大数据的相关基本概念、处理架构和关键技术,并通过实验环节让学生掌握这些关键技术的基础使用方法,力求使学生对各常用技术的原理及应用场景有清晰的认知,然后将通过结合工业互联网实际案例与综合开发提高学生对工业大数据进行分析和实现可视化的能力。课程将主要以实践为导向,依托我校计算机与通信工程学院的设备和平台,让学生可以完成多种工业互联网实际场景下的案例实验,在实践中对工业大数据原理有深入的学习与理解。课程内容设计(32学时)如表1所示。

表1 工业大数据课程内容设计

4.2 实训内容展示

以2016年电网大数据助力2016CCF大数据竞赛的两个分析主题(客户画像和客户用电异常行为分析)为例设计实训案例[9-10]。

客户画像以电力用户的95 598工单数据、电量电费营销数据等为基础,综合分析电费敏感客户特征,建立客户电费敏感度模型,对电费敏感用户的敏感程度进行量化评判,帮助供电企业快速、准确地识别电费敏感客户,从而提供有针对性的电费、电量提醒等精细化用电服务。其中应收电费信息部分信息如表2所示,各列代表含义分别为应收年月、用户编号、供电单位编号、用户类别、用电类别、电费金额、总电量,其余信息数据格式与之类似,在此不展开详述[9]。

表2 应收电费信息表数据展示

该场景是典型的“基于历史数据进行分析挖掘的场景”,由学生对数据进行预处理、模型构建、分析和可视化,对用户进行画像以对客户价值进行评价。

4.2.1 数据预处理

(1)缺失值处理。针对行与列的数据进行缺失值处理,根据业务知识对相应字段采用删除或以最值或均值填充的处理策略。例如,将客户元组数据中指标缺失50%的数据找出,并建议删掉,如图3所示。

图3 行缺失值处理

(2)数据集成。首先利用相关系数求出各指标之间的相似度,将相关系数大于0.5或小于-0.5的定义为关联程度强。以用户编号为参考,合并用户所有特征,进而生成宽表。如图4所示,由于是利用外连结来进行合并的,故需要再次进行数据预处理。

图4 数据合并

4.2.2 模型构建

根据需求需要解决如下问题:

(1)找出当前价值、潜在价值的评价方法。想要知道当前客户的当前价值和潜在价值,由于不同的业务人员对同一个用户价值评价所侧重的指标不同,可通过Delphi法让专家来评价用户的当前价值、潜在价值[11]。

对所有用户构建三级指标并随机选取2 000名客户,下发给电网20位专家分别为其打上当前价值和潜在价值标签,当前价值与潜在价值分别分为优良中差4个等级。进而可以通过分类算法来学习专家评判用户当前价值和潜在价值的模式并构建当前价值分类器以及潜在价值分类器[12]。

(2)通过当前价值、潜在价值求出综合价值。根据当前价值分类器、潜在价值分类器对其余11 590名用户进行优良中差的评判。采用Topsis算法对当前价值和潜在价值用户进行各类别下评分,并将各类别下得分折射到相应区间,如表3所示。

表3 当前价值和潜在价值Topsis得分映射

利用二八原理,将当前价值和潜在价值进行加权求和,最终得出综合价值得分:

综合价值得分=0.8×当前价值Topsis得分+当求出综合价值后可通过等分法以25分为划分段,将综合价值得分逆向生成优良中差4个等级。

(3)根据综合价值进行增值服务建议。考虑所有的综合价值等级为优的用户的指标并不一定均是理想的,有需要提高的地方;所有综合价值等级为差的用户指标并不一定是最不理想的,有需要得到认可的地方。可采用K-Means对客户进行群分,通过对各簇进行分析,找出该簇中客户较为理想以及不理想的指标,基于该批指标,实现对客户的增值服务建议。

4.2.3 结果分析与可视化

确定当前价值的指标:由于上文中已经分析了指标之间的相关性,故可以将那种相关性超过0.9的指标进行归约,归约后分析用户的当前价值的指标为本季度购电量、本季度电费、企业占区域容量的比率、本季度平均月缴费时长、本季度月平均预付能力、本季度企业购电量贡献率、本季度企业购电量区域贡献率、当前用户规模、是否三方协议、是否分次划拨、负荷重要程度、季度谷用电比例、季度平用电比例、季度峰用电比例、所在行业、计量点数目、电源数目、受电点数目、电压等级、本季度与电力企业的交互情况、增容次数、增容容量占比、减容次数、减容容量占比、暂停次数、暂停容量占比、安全隐患次数、分次划拨签订次数以及无功用电率。

首先将所有数据按照3∶1分为训练集和测试集,将当前价值类别以及确定好的指标与Cart算法相结合构建分类器,结果如图5所示。

图5 决策树预测结果

利用R语言绘制决策树图像如图6所示。可见专家评价用户当前价值主要依靠本季度购电量和用户规模两个指标,将未参与训练但具有类别标签的测试数据代入该分类模型,预测的准确度高达90.2%,说明该分类模型较为理想。

图6 决策树模型——当前价值

同理,根据相关性指标将潜在价值指标进行归约,归约后潜在价值指标为季度前12个月用电量增长率、季度前12个月的电费、季度前12个月的购电量、电量增长额、电费增长额、购电量增长率、购电费增长率、电费回收准时度、统计时间内的违约用电次数、统计时间内的追补电量、统计时间内的追补电费、统计时间内的违约使用电费、统计时间内的与电力企业的交互情况、统计时间内的增容次数、统计时间内的减容次数、统计时间内的安全隐患次数、季度前12个月平均缴费时长、两年均没有电量、两年均没有电费、本年有电量去年没电量、本年有电费去年没电费。

利用决策树进行分析,同样将所有数据按照3∶1分为训练集和测试集,将潜在类别以及确定好的指标与Cart算法相结合构建分类器,结果如图7所示。

图7 决策树模型——潜在价值

可见专家评价用户当前价值主要依靠电费增长率和购电量增长率两个指标,将未参与训练但具有类别标签的测试数据代入该分类模型,预测的准确度高达95.61%,说明该分类模型较为理想。

根据二八原则,将当前价值和潜在价值所得分数分别赋予20%和80%的权重进行加和求得综合价值得分,并根据得分按照每25分一个档确定其分类。结果如表4所示。

表4 综合价值

根据分类结果,按照地区和行业查看一下各类用户的分布,其中按照地区查看用户的分布如图8所示,其中纵坐标为不同等级用户数量。

图8 各类用户地区分布图

可以发现城市1综合价值为优的用户最多,但同时差的用户最多,城市5优质用户最少,但差的用户也最少,城市3和城市4差距不大,但是相对来讲城市4优良用户总数要多于城市3且综合价值差的用户相对于城市3较少。

5 结 语

在传统互联网大数据的基础上引入工业大数据应用场景,对工业大数据领域的知识体系进行了梳理,将所涉及的知识和技术形成教学框架,然后在此基础上进行扩展后形成课程内容。为学生提供工业互联网领域中典型的应用案例和实训环境,让学生充分理解工业场景的情况下学习工业大数据的各种技术。通过学习该课程,使学生对工业互联网、工业大数据有更加深入的理解,为从事相关领域研究及工作打下一定的基础。

猜你喜欢
电费工业价值
基于ε-SVR模型的日电费回收预测
吉林电力(2022年1期)2022-11-10 09:20:40
工业人
黄河之声(2018年5期)2018-05-17 11:30:01
基于大用户电费回收的风险管控
中华建设(2017年3期)2017-06-08 05:49:29
一粒米的价值
“给”的价值
关于县级供电企业电费对账的研究
掌握4大工业元素,一秒变工业风!
Coco薇(2015年10期)2015-10-19 12:51:50
“工业4.0”之思考
第三方密码网银支付预收电费探讨
小黑羊的价值