基于数据挖掘的火电企业安全生产和技术监督评价系统

2021-10-28 07:14高腾飞门凤臣刘宝军宋敬霞
热力发电 2021年9期
关键词:数据挖掘专家水平

高腾飞,门凤臣,刘宝军,宋敬霞

(国家电投集团电站运营技术(北京)有限公司,北京 102209)

电力企业安全生产和技术监督是保证电力系统安全、可靠、经济运行和准确计量的重要技术手段[1-3],国家电力投资集团有限公司每年定期组织火电企业开展春、秋季安全生产和技术监督评价工作。传统评价工作模式存在信息共享度低、评价随意性大、报告规范性差、“事中事后”缺乏实时监控、数据综合分析手段不足等弊端,难以满足当今工作节奏快、效率高、机制新的管理态势,无法支撑实现自动化、科学化和精细化的管理。

基于上述原因,拟采用信息化手段,实现安全生产和技术监督评价工作的数据采集记录和传输存储。另外,评价准备阶段需要对大量历史数据进行分析处理,以对最优专家和重点评价内容做出正确的预测和评估。数据挖掘技术正是以积累下来的历史数据为研究对象,通过对数据的归类、分析、处理,从而找出隐藏在其中的有用知识[4-5]。面对数据处理难度的增加,本文研发了基于数据挖掘的火电企业安全生产和技术监督评价系统,为准备、评价、监督和决策提供数据基础。

1 相关技术

1.1 数据挖掘

数据挖掘指知识发现的过程,通常包括数据清洗、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。其采用数据源包括数据库、数据仓库、Web、其他信息存储库或动态流入系统的数据[6-7]。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别在于数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。所得到的信息(或知识)具有先前未知、有效和实用3 个特征[8-9]。

数据挖掘过程是以用户为中心,开展人机交互的探索。包含数据准备(data preparation)、数据挖掘以及结果的解释评估(interpretation and evaluation)3 个阶段,数据挖掘可以描述为这3 个阶段的反复过程。

1.2 移动协同

移动智能终端包括智能手机、笔记本、PDA 智能终端、平板电脑等设备。其拥有独立的操作系统,功能的扩展性极其灵活,当前市场中的移动智能终端支持数据存贮、信息管理、多媒体、GPS、GIS、无线通信等功能,在电力行业有着广泛的研究与应用[10-12]。

1.3 数据获取技术

传统的火电企业评价工作模式中评价标准往往通过结构化(Excel)或非结构化(PDF)形式存储,不便于评价流程步骤的电子化,不利于指标数据的量化体现。本文通过OCR 和POI 等相关数据获取技术彻底解决了上述问题,采用OCR 技术将扫描文本或基于图像内容的文本转换为可编辑的文本;采用POI 技术,提取数据基础信息进行统一管理,通过定义个性化模板,以模板为基准,对不同要素进行量化提取,使数据处理更加精细化、精准化。

2 系统设计与实现

2.1 系统架构设计

火电企业安全生产和技术监督评价系统研发遵循先进、健壮、灵活、稳定、开放、易维护、可扩展、低成本等要求,采用以J2EE 为核心的多层分布式架构[13-14],即在客户端、应用服务层、数据源层3 层结构基础上,将应用服务层细分为Web 服务层、界面服务层、业务逻辑层、数据访问层。客户端是通过移动智能终端或浏览器进行系统访问,实现人机交互;Web 服务层是通过HTTP 协议传输数据,为客户端提供对应用程序的访问,实现表现层逻辑封装;界面服务层为Web 服务层提供浏览、处理等服务,实现用户界面与各业务功能的隔离;业务逻辑层实现系统业务处理;数据访问层提供对数据库的链接、读写等操作服务;数据源层提供数据存储。这种成熟的B/A/S 结构不但有效缩短开发周期、降低系统维护成本、增强企业对象重复可用性,也大大提升了系统的延展性、执行效率、容错能力和负载平衡能力。多层分布式架构如图1所示。

系统后台及服务基于Java 开发,支持跨平台部署应用,移动端基于JavaScript 和html5 开发,Web容器采用Tomcat,数据库采用MySQL。人机交互界面简洁美观、功能命名直观通俗,便于用户自学习。

2.2 功能设计

火电企业安全生产和技术监督系统以集团公司发布的相关标准为基础,以历次电厂自查评价及集团专家评价实践经验为指导,以业务流转及数据监控为核心,提升公司安全生产和设备健康水平。

该系统根据评价工作需要,开发了PC 端和移动端,PC 端包含系统全部功能;移动端辅助PC 端,主要实现生产现场评价工作及业务流程审批工作。功能设计遵循科学的PDCA 循环管理思想[15],实现全方位、全过程动态监控管理以及闭环管理,系统功能模块划分如图2所示,专家评价和问题整改流程如图3所示。

图2 系统功能模块划分Fig.2 The division diagram of system function modules

图3 专家评价及问题整改流程Fig.3 The process of expert evaluation and problem rectification

实时的数据管理构建了PC 端和移动端的桥梁,利用数据挖掘技术提供强大的数据推送、检测推荐、评价匹配功能,面向管理层提供了实时的数据监控和管理手段,使管理者可以及时掌握现场工作及问题整改情况。系统的主要功能模块如下。

1)基础管理 对公司、资产、监督类别、专业、人员、设备、参考文件、职称、版本、参考标准等基础信息进行配置。

2)评价标准 对各个专业的查评项目、查评标准、评价指标、评价方法、查证方法、查评依据、标准分等评价相关标准进行统一管理。

3)任务执行 主要包含项目管理、项目执行、专家评价、自查评价、检查报告、任务修改。实现电厂依据标准自行寻找问题、专家开展诊断与指导、报告自动生成等功能。同时,支持标准以外问题的录入,发挥评价人员专业优势、弥补标准不足,也为后期标准升版奠定基础;移动端支持在线数据同步、离线数据执行、语音识别、现场照片同步上传、二十五项重点要求条款模糊查询等功能[16-18],增强现场实用性,提高评价效率,具有权限的管理者可实时跟踪评价进展与质量。

4)问题整改 依据重要程度,对问题先定级后整改,问题分为一、二、三级,分别对应集团公司、二级单位、三级单位验收;手动或自动开始相应整改验收流程。单位内部或上级单位对已验收的问题进行抽查,若不合格,则需重新整改。

5)统计分析 对评价报告中的数据进行整理分析,展现评价数据趋势图,为监督人员决策提供数据支持。

2.3 算法与模型设计

2.3.1 推荐专家规则排序算法

专家关联关系往往表现的比较模糊,本文通过对大量专家规则排序进行分析,发现在准备阶段新建项目设置小组时,会根据专家的所学专业、工作经验、职称、评价过的单位、历史发现的问题、整改建议、查评数据统计、整改方案有效率等,推荐最优专家,便于决策者更准确高效的决策。推荐专家规则排序算法流程如图4所示。

图4 推荐专家规则排序算法流程Fig.4 The process of recommended expert rule sorting algorithm

本文推荐专家规则排序算法大致包括以下几个步骤。

1)数据预处理 首先对文本进行关系词标注,其次对专家、任务、关系词进行识别,存入专家属性标签和任务属性标签中。

2)特征提取 建立特征库,将专家和任务的显著特征提取出来,便于后续规则匹配。

3)关联关系 首先建立关联关系规则库,如相似经验匹配规则、工作年限匹配规则、专业匹配规则等;其次,利用关联关系规则对特征提取过程产生的显著特征进行匹配;专家显著特征包含工作年限、岗位、专业、学历、经验等,任务显著特征包含任务重要性、紧急性、难易度、进度、专业、地域等,实现专家关系的初步匹配。

4)相似度匹配 对专家关系的初步结果放入容器中,并对该容器中的显著特征加权平均进行二次匹配,选取适合的专家。

5)最优专家确定 通过大规模的数据抽取,得到专家之间的所有关系后,最终通过权重占比,计算得分排序,确认最优专家。

2.3.2 基于数据挖掘技术的评价数据分析

基于数据挖掘技术的评价数据分析模型如图5所示。使用时,首先建立大数据体系,以系统积累的基础数据作为输入。如:评价类型、评价单位、监督专业、监督标准、查评得分、问题数量、问题重要程度、问题产生原因、整改情况、风险项等,经过评价数据分析模型,输出安全监督通病、关键评价单位、重点评价专业、专家服务能力评价、评价周期频次等信息。根据这些信息,在下一次监督评价工作中,可优先推荐重点关注的问题、重点关注的单位、重点关注的专业等信息,便于有效指导后续安全生产和技术监督评价工作。

图5 基于数据挖掘技术的评价数据分析模型Fig.5 The evaluation data analysis model based on data mining technology

基于数据挖掘技术的评价数据分析模型,将基础数据从单位评价水平、专业评价水平和其他相关水平3 个维度进行划分。

1)单位评价水平(U)

单位评价水平指待评单位存在隐患数量的多少、整改情况好坏的程度。其参考的基础输入要素有查出问题数量、查评得分、整改情况,由查出问题数量评分、得分率、整改率等数据进行衡量。查出问题数量计算公式为

式中,x为问题数量,y为问题数量对应的评分,系数b为评价满分标准,系数c为问题数量上限。其中系数a的绝对值越大,表示问题数量与得分的相关性越强。当x>c时,不得分。如可以设定评价标准为100 分,问题数量上限为50 个,当问题数量为0 个时,得分最高100 分,依次递减,问题数量超过50 个时,不得分。

得分率定义为所选评价项得分情况与所选评价项总分之比。整改率定义为累计整改问题项数与累计查出问题项数之比。单位评价水平高低由查出问题数量评分、得分率、整改率最终确定,计算公式为

式中d为累计整改问题项数。

单位评价水平U按照数值大小进行等级评定:≥85%为A,75%~85%为B,<75%为C。

2)专业评价水平(P)

专业评价水平指评价结果好坏的程度。依据问题的重要程度,评价结果可分为严重问题(含告警问题)、普通问题、轻微问题(及时整改)等。专业评价水平以累计查出问题数量评分为主要依据,以严重问题数量评分和普通问题数量评分稍作权重,共同决定。其计算公式为

式中,t为累计查出问题数量评分,g为严重问题数量评分,n为普通问题数量评分。

按照数值大小进行等级评定:≥85%为A,75%~85%为B,<75%记为C。

3)其他相关水平(O)

其他相关水平高低由专家对此次整体情况评价确定,如被评价单位对本次评价准备程度、配合程度等,属于灵活调整偏差值,同样设置A、B、C 3 个等级。

4)综合评价水平(S)

综合评价水平由单位评价水平、专业评价水平、其他相关水平三要素共同决定。设定三要素权重比为5:3:2,综合评价水平计算公式为

综合评价水平等级表现形式设定为AAA,其中,第1 个字母表示单位评价水平等级为A,第2个字母表示专业评价水平等级为A,第3 个字母表示其他评价水平等级为A,以此类推。综合评价水平如图6所示:横向维度(从左往右),当单位评价水平等级相同时,综合评价水平随着专业评价水平的降低而降低;纵向维度(从上往下),当专业评价水平等级相同时,综合评价水平随着单位评价水平的降低而降低。

图6 综合评价水平Fig.6 The comprehensive evaluation level

从大量的历史评价数据中,可以挖掘出相关评价规则,评价数据分析模型可依据这些属性,对评价工作进行分类和预测,系统智能推送安全监督通病、关键评价单位、重点评价专业、评价周期频次等,无需投入大量精力进行人工分析,加强了评价工作的针对性,有效提升了评价效率,提高了运行设备的安全性和可靠性。

3 系统应用

本系统已在多家火电企业开展自查评价和专家评价,指导生产运行,也成功支撑了国家电力投资集团有限公司2019年秋季安全生产和技术监督评价工作。涉及93 家火电企业三级单位、20 个监督专业、60 名专家成员,报告审批由线下改为线上,评价耗时由6~7 d/厂缩短至4~5 d/厂,效率提升20%以上,错误率低于1%,形成自查评价与专家评价报告近百份。

根据2019年秋季评价工作数据分析,系统应用前后的各项指标对比见表1。系统投入使用后报告自动生成,评价问题自动生成问题库且实时跟踪,加强了问题的闭环管理;实现监督过程流程化、现场操作电子化、数据管理信息化、问题治理闭环化,提升了工作效率,成为安全生产和技术监督评价工作有效辅助工具,受到使用人员的一致好评。

表1 系统应用前后的各项指标对比Tab.1 Comparison of indicators before and after the system application

4 结语

本文利用数据挖掘、移动协同、数据获取技术,设计推荐专家规则排序算法,构建评价数据分析模型,开发了火电企业安全生产和技术监督评价系统。该系统有效规范了火电企业安全生产和技术监督评价工作,实现了提质增效,确保评价任务新建、任务执行、报告自动生成、问题整改验收的全过程监控及闭环管理,相关数据查询、统计分析工作更为方便,形式更为灵活、直观,能够为火电企业的安全生产和技术监督评价工作管理、企业决策提供有力数据支撑。同时,有效降低了人力物力财力,保障了机组安全、可靠、经济运行,产生了较大的直接与间接经济效益、安全效益。

猜你喜欢
数据挖掘专家水平
改进支持向量机在特征数据挖掘中的智能应用
张水平作品
致谢审稿专家
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
作家葛水平
加强上下联动 提升人大履职水平
软件工程领域中的异常数据挖掘算法
请叫我专家
专家面对面