孟 亮
(新疆油田公司采气一厂,新疆 克拉玛依 834007)
新疆油田采气一厂建设了厂级实时数据中心,实现了4 个作业区秒级采集物联网数据的厂级统一管理,形成了一个每年TB 级别积累的数据资源池,是极为宝贵的数据资产。为充分发挥实时数据的分析价值,采气一厂从生产管理角度出发,在充分分析自身业务场景的前提下参考各行业数据分析挖掘技术[1-3],研究开发了一套涵盖数据提取、数据计算、数据管理全过程的后台服务体系,实现了生产管理数据在实时数据平台的自动整合分析,为气田大数据深化应用探索了一条可行的道路[4-5]。
本次研究基于对接实时数据采集平台的技术基础,通过任务配置、任务调度、数据拉取和数据处理的流程建立和管理[6],按业务场景、计划周期、算法类别等多种维度,实现了自动、及时、高效、稳定的实时数据提取与整合,为报表展示和自动化数据存储奠定了基础[7]。
本次数据挖掘的目的是将现场实时高频采集的数据进行数据计算、抽稀、过滤等处理,得到气田生产运行管理中所需的生产过程特征数据和生产分析决策关键指标,为生产运行管理提供准确的、唯一的、标准的、全面的数据服务[8]。其中,实时数据来源于天行实时数据平台(DATimsien),数据挖掘过程是通过实时数据抽取、报表定制、自动任务3 个转换引擎实现,各引擎分工不同,引擎之间无缝衔接。
实时数据抽取引擎通过任务配置、任务调度、数据拉取、数据处理等相关环节信息的配置,内置与实时数据采集高效、稳定的对接接口,实现定时从实时数据平台中按照一定的业务规则获取所需的生产实时监测数据,并进行必要的数据整合,从而得到报表统计及数据深度挖掘所需的生产数据,具体如图1所示。
1.1.1 任务配置
基于自动化数据采集点表信息和自动化数据管理系统(Database Management System,DMS)数据库库表结构,建立表字段与采集单元、采集点映射关系,配置数据导入模板,实现从实时数据库到DMS 数据库的自动提取。数据导入的配置文件包括:①通过定义数据类型字段自动生成时间标签,做到不同采集数据点进行数据处理后的时间对齐,为数据存储及后续数据应用调取提供规范的时间标准;②通过定义专有的函数字段快速生成生产对象名,完成实时数据库无对象化概念到生产数据库有对象化概念的转换,实现处理后的数据在生产数据库中的对象化管理;③通过映射采集单元、采集点,可以获取所需的实时数据,保证实时数据库到生产数据库数据的无缝转换;④通过定义不同函数字段,可以进行数据转换处理,实现生产数据特征值、数据抽稀、数据过滤等任务的量化设置;⑤系统自动将这些字段及值拼成结构化查询语言(Structured Query Language,SQL)并执行,无需数据管理人员根据业务规则人工编写SQL 语句,降低了对数据管理人员技术门槛要求的同时规避了人工编写SQL 语句带来的失误风险。
数据导入模板后,设定执行计划(周期、开始时间点),即可成功创建实时数据提取任务。
1.1.2 任务调度
在任务配置的基础上,通过任务调度机制,采气一厂可以实现任务的管理,包括按计划执行任务、手动执行任务,手动启停任务以及历年任务执行日志、任务执行状态等。当任务配置发生变化后,需要重新进行任务的执行部署,使最新配置更新到后台服务中,任务规则才能生效。
1.1.3 数据拉取
根据目标数据表及源采集单元建立业务关联规则,将任务中的数据请求进行自动拆分,按照系统资源剩余情况进行自动分批获取数据,对失败的任务支持重试机制,可以有效提高数据拉取的稳定性、时效性、准确性,确保为生产分析提供质量良好的数据。
1.1.4 数据处理
通过数据拉取获取到数据后,在数据入库前可以利用数据处理规则进行数据处理,包括无效数据的清洗、数据指标的计算等,在处理规则中,其既内置了四则运算、常规内置函数等快速定义处理规则的方法,又支持通过自定义函数处理复杂运算逻辑,能够满足繁杂的数据不同特征值计算规则及行业专业算法的应用需求。
运用报表定制引擎,可以在满足当前业务和管理需求多样性的同时,兼顾潜在的需求变化,提升系统报表管理灵活性。随着业务和管理上的调整,原有的固定报表格式、报表类型等可能需要进行相应改变,此时直接通过应用报表定制引擎,或者完善引擎很小部分的内容,就可以实现报表的优化调整及新报表的定制开发。
收集到的业务报表包括岗位报表、工艺装置报表、化验报表、综合管理报表等。分析报表模板及业务需求,技术人员专门开发了一套报表的定制开发机制,提供报表管理所需的各类功能属性配置,在此基础上,可以灵活定制开发各类个性化报表。
如图2 所示,报表定制包括数据源绑定、报表样式设计、操作交互设计、报表共享发布4 个主要环节。
数据源绑定:指定DMS 数据库中的数据表作为数据源,支持单表数据源及跨表数据源,通过设定条件筛选数据范围,指定要显示的具体字段,并对字段进行显示名称命名。
报表样式设计:定制引擎支持的开发配置属性包括筛选(时间、对象,支持多级对象间的级联关系配置,支持检索条件的自动模糊识别)、排序(指定排序列,可设置升序、降序)、样式(包括日期格式、小数点位数控制等)、显示/隐藏列、合并/拆分表头、列冻结、修改列名、显示位号行、计算函数、曲线等。
操作交互设计:支持数据查询、数据新增、数据修改、数据删除、数据审核、数据下载、数据分页、数据与曲线切换展示等。
报表共享发布:报表设计完成后,与系统功能菜单进行关联绑定,无须停止系统服务,系统菜单中即可看到相关报表。
自动任务的目标是实现数据整合过程的全闭环无人化干预,提高数据整合的稳定性、连续性、及时性,将技术人员的精力解放出来,从事更加重要的数据分析挖掘及生产管理工作。运用自动任务引擎,系统实现了多种类型的定时任务,包括实时数据导入任务和计算任务。
1.3.1 实时数据导入任务
根据设定的执行周期或时间点,自动任务引擎将根据所在服务器的时钟进行任务执行时间的自动检测与任务计划的自动制定,自动执行数据提取任务。当前系统中各作业区下的岗位报表,根据管理需要每日8 点和20 点自动执行获取动态数据的任务。
1.3.2 计算任务
计算任务定位于实现由实时任务得到的动态数据到日报数据、生产运行指标的定时提取与整合,该类任务一般按业务管理需要以天、周、月、年的频次进行数据的运算,为管理者提供特定的分析数据。目前,业务范围内涉及的计算任务有动态数据到日月报数据的提取、生产数据表内部字段关联计算、生产数据表跨表间数据关联汇总展示等。
全厂共4 个作业区,按照各作业区工艺流程的划分,实现了气井、集气站、深冷、浅冷、电力等生产工艺数据的整合任务配置与实施,打通了实时数据到特征数据的转换通道。
计算得到的特征值、生产运行指标等数据,是生产运行管理者评估现场运行动态的关键数据。当前,采气一厂第一次实现了跨网络平台下数据的自动提取整合,生产运行管理者在第一时间即可获取到最新的运行动态指标,辅助分析决策更加有据可依。
通过数据的自动提取及手动维护机制,生产过程数据得到了集中存储管理与共享,建立了完整的生产过程数据库,数据在各业务岗位之间的流转不再依赖于纸质文件,数据标准化程度和流转效率得到极大提升,真正实现了厂级生产数据的无纸化办公。
通过数据集中管理模式的搭建,采气一厂建立了唯一的生产数据分析来源,实现了生产数据指标的标准化计算,初步完成了由实时数据到特征数据的提取与应用,是后续各应用系统进行数据挖掘分析的重要数据来源。
(1)通过建立3 个数据服务引擎,采气一厂可以将物联网大数据转换为生产管理需要的报表,在使用时只需要定义好源字段与计算方法,配置服务运行规则,即可实现厂级生产管理报表的自动化推送。通过应用本文探讨的技术,采气厂可以提高数据利用率,系统可以将各类自动化采集的数据,按照统一标准、结构、格式进行集中管理,通过对数据进行综合对比、关联分析等,可以及时发现生产规律和存在问题。技术人员和管理人员通过浏览器随时查询生产自动化系统的实时数据、相关生产报表等,从而提高气田生产管理和决策水平。
(2)用户可以通过3 个服务引擎及配套系统进行数据及报表的可视化配置,降低数据挖掘的门槛,从而将业务需求与开发技术进行进一步融合,以适应未来越来越丰富的应用需求。通过数据关联、数据共享、数据分析等技术,并定制开发一系列功能模块,在工业大数据平台上快速高效地完成工业操作制度的决策与工业大数据的计算。
(3)通过对气田数据进行数据挖掘与应用分析,采气厂可以最大化挖掘数据潜在价值,形成数据模型,统一数据计算规则及数据分析来源,逐步实现气田智能化分析,降低气田数据管理投入成本,提高数字化管理水平。