查易艺,袁 烨,陶晔波
(1.国网江苏省电力有限公司信息通信分公司,江苏 南京 210024;2.江苏电力信息技术有限公司,江苏 南京 210024)
随着经济转向高质量发展,企业经营面临重大变革与挑战。2019年初,国家电网公司提出“三型两网、世界一流”的战略目标,加快推进泛在电力物联网建设与示范应用,充分运用“大云物移智”等新技术,实现电力系统各个环节的万物互联、人机交互,全面提升数据自动采集、自动获取、灵活应用能力,广泛连接内外部服务资源和服务需求,企业生产经营由“业务驱动”向“数据驱动”[1]转变,充分运用大数据时代“数据科学”[2]的理论,打造能源互联网生态圈。
数据中台在云平台统一协管资源的基础上,构建数据接入和存储计算能力,再以数据服务目录的形式实现安全、友好、可控的数据统一访问服务,提供Restful等各类形式的服务接口实现统一注册、管理和调度,为各个应用场景提供数据支撑。在打造企业数据中台、重构企业数据服务体系的征程中,亟需一套数据资产的管理方法与支撑工具[3]。
国网江苏省电力有限公司(简称江苏公司)以数据资产全生命周期管理体系[4]为基础,通过数据资产管理工具,全面实现公司数据资产精益化管理,逐步形成企业级统一模型标准[5],并将数据进行规整化处理。结合智能分析算法,构建数据应用场景微服务,基于统一数据服务支撑业务系统建设,实现“业务数据化、数据业务化”,以产品和服务优化为目的,通过数据驱动公司运营发展。
省级电网公司数据中心建设可追溯到2009年,2016年开始全面建设全业务统一数据中心。数据中台技术架构如图1所示。目前开展的数据中台建设,在数据互联互通、融合共享等方面取得了突破性进展,积累了大量业务数据,有效支撑了供电服务指挥、财务管控等重点项目建设。面对海量数据,怎样查、如何管、怎么用,成为亟待解决的问题。从应用视角看,仍存在数据中心技术门槛高、数据获取慢、数据共享难等问题。系统间集成关系复杂,完备的数据资源目录尚未形成,数据应用复用性不强,亟待培养数据管控分析团队对数据资产进行统一管理分析。
图1 数据中台技术架构
随着数据中心建设不断深入及业务系统的迭代更新,省级电网企业员工对于数据管理应用提出了各类需求。业务人员偏重于构建分析应用,快速获取数据资源访问权限,理清相关系统数据台账,支撑各类指标及上层分析应用可视化展现;系统运维人员负责闭环维护各类数据资源台账,当夯实底层基础台账后,自动生成链路信息,方便运维人员及时掌握故障及数据模型变更状况;数据管控人员需掌握数据中心全貌,维护数据台账,核查异动数据,对整体数据资产进行统计分析;各系统厂商负责协助业务部门开展分析应用及故障排查。目前各业务系统相对独立,各系统需加强对话及沟通。
江苏公司深耕数据管理与应用需求,打造专业化数据管控分析团队,在夯实底层数据台账与提升数据运维能力的基础上,优化数据应用服务,实现对公司数据资源“管控全覆盖、监测全方位、流程全自动、服务全支撑”的“四全”目标。整个数据一体化管控平台通过管理好数据后台,适配数据中台,从而支撑泛在电力物联网建设。企业数据管理主要包含资源台账管理、数据运维管理和数据应用服务三部分。
1.2.1 资源台账管理改进
数据管控人员和系统运维人员采集维护数据、接口、指标和应用四类台账信息,对公司数据资产进行全生命周期纳管,有效摸清家底。
1.2.2 数据运维管理改进
数据运维人员和系统厂商高效联动,共享数据支撑服务。包含数据模型版本化管控、数据链路全生命周期监测及数据血缘分析,并将其延展到指标及应用层面。同时,依据业务规则校验纳管系统数据质量,全面支撑数据治理等工作开展。
1.2.3 数据应用服务改进
依据客户画像,提供给业务人员及数据分析人员相应的数据资源门户,敏捷提供所关心数据资源的可视化展现。提供统一资源检索服务,按类别检索各类台账。同时,支持所有流程线上化处理,建立问题闭环管理通道。
数据一体化管控平台功能架构如图2所示。
图2 数据一体化管控平台功能架构
省级电网企业数据资源按类别划分为数据台账、接口台账、指标台账和应用台账四类。数据台账主要指系统的运行态数据字典和设计态数据模型;接口台账主要指系统间数据交互的映射关系及接口任务执行的情况信息,例如数据仓储技术(extract transform load,ETL)、OGG等;指标台账指由数据形成的指标信息;应用台账指基于数据建立的分析应用。资源台账信息是一个公司赖以生存和发展的数据基础,相关关系如图3所示。
图3 数据一体化管控平台资源台账管理
2.1.1 数据台账管理
在数据一体化管理平台里,形成所有纳管系统的信息全集。数据管控人员构建资源目录管理树形结构,按域进行系统的分级分类展示,叶子节点对应具体的应用系统,涵盖系统信息、数据源信息、运行态及设计态模型、映射关系、模型匹配和变更监测。该系统下所有信息及相关干系人能够快速定位,有利于对业务系统全方位管控分析。
当系统的基本信息维护完毕后,后台的消息通知机制会自动通知对应系统运维人员进行相关数据源的维护。通过字典筛选和采集操作获取该系统的运行态模型,支持ORACLE,Mysql,DB2等关系型数据库和大数据平台(HDFS/HBase/HIVE)的配置和采集,形成省级电网数据资源全纳管。
通过数据源关联,可纳管业务系统的运行态模型,按模型版本查看物理表的详细情况、字段信息、版本变更信息、表的“血缘”关系以及表样本数据。后续也可增加该表的脱敏规则、数据质量规则和数据标签等扩展信息。针对源端业务系统中信息缺失的情况,手动维护表或字段的中文描述和注释信息,不影响采集版本且便于他人理解和应用。当系统进行检修操作时,记录各版本间模型表的变更情况,做到检修可追溯。
业务系统在前期设计时的逻辑模型,称之为设计态模型。系统厂商向数据管控人员提交设计态模型的EA文件和XML文件,导入后可查看明细,进行版本比对和差异分析。单纯的设计态模型无法体现价值,但对于校验生产环境的运行态模型能够起到积极作用,可以有效协助各类人员理解数据及应用构建。
2.1.2 接口台账管理
数据在不同业务系统、数据中心之间流转,流转的路线和接口信息是数据全生命周期的重要组成部分。平台基于接口台账可以自动构建数据链路,有效监测数据流转状态,发现并解决各类流转故障。同时,还可以对数据的上下游进行影响性分析,进一步指导数据建设及运维工作。
通过获取数据采集工具的配置和日志等信息,实现实时同步类、离线数据类、大数据平台、web服务等接口工具映射关系和运行状态解析。按接口类型目录形成接口台账信息,为构建数据流转链路提供基础支撑。在建立完数据链路接口台账后自动进行关联匹配,支持由表级下钻到字段级查看映射关系,方便日常巡检,如图4所示。
图4 数据一体化管控平台数据接口管理
2.1.3 指标及应用台账管理
其次,由于高中实验难度较大,对学生的理论知识、实验技能有较高的要求,学生独立操作无法有效完成实验。在这种情况下,教师可以采取分组实验的方法,让学生以小组为单位进行实验任务的分配,充分调动小组内每位成员的积极性,保证实验人员配置的最优化,集思广益,取长补短,从而提高化学实验的操作效率,培养学生的合作意识。
万维网的创始人Tim Berners-Lee说过,数据才是珍贵的,它会比应用走得更远。在各大新技术迅猛发展的今天,数据才是核心竞争力。因此,需转变思维,从简单记录到数据分析、预测,将数据转换为业务,从目标驱动到业务驱动。运用指标分析,对企业评估经营绩效、制定战略决策意义重大。数据一体化管控平台将企业经营管理指标进行统一纳管,维护指标基础配置、指标维度、溯源关系等信息,自动生成指标溯源分析及指标影响分析。实现指标异常监测跟踪,全面支撑指标管控。同时,基于数据中心现有数据资源公司积极开展各类应用构建,包括可视化分析场景及数据报表等形式,统一维护管理应用场景可以实现对应用运行监测,保障应用正常运行;通过共享应用构建思路,为构建其他应用提供借鉴,促进分析应用的“百花齐放”。
图5展示的是应用溯源关系,通过对应用和指标的下钻,逐层构建出应用和指标的完整视图。每层间自动关联溯源链路,清晰反映应用和指标的构建原理。同时实时监测指标和应用链路的运行情况,确保关联的应用和指标的数据质量。另外,还可大大简化运维操作流程,有的放矢提升运维效率。
图5 数据一体化管控平台应用和指标
夯实底层基础台账后,需实现对模型、接口运行情况、数据质量等监测分析。通过发起在线工作流程,实现问题闭环处理,支撑运维工作开展。数据运维管理主要包含模型变更监测、模型符合度分析、运行态模型主题分析、业务异动数据监测、数据流程管理等。
2.2.1 模型变更管理
省级电网公司按域建立业务系统,满足现代信息化建设的各类需求。如若所有系统单独管控,数据没有建立闭环管理机制,对于后期数据分析及应用十分不利。当业务系统每一次发生检修时,都会对运行态模型产生影响。数据一体化管控平台对纳管系统模型进行周期性监测,当发现模型变化时,生成报告通知系统干系人。自动分析模型变化影响范围,提供受影响链路的跟踪视图,辅助相关人员及时处理变更带来的影响并阻止问题蔓延。
平台支持定期出具相关系统的变更统计及分析,通过检修频率、模型变更情况、检修内容符合度等信息对相关系统做更深层次的分析应用,辅助运维人员及管控人员更好地进行全生命周期管理。
2.2.2 运行态和设计态模型匹配
2.2.3 链路监测和出错处理
可视化由接口台账实时构建的数据流转链路视图实现,充分展示系统间的数据流转关系。通过不同颜色表示链路运行状态,故障信息标识红色。同时通过系统信息发送给干系人,推送具体告警信息。运维人员下钻查看具体接口详情和字段级链路视图,辅助进行溯源和故障影响分析。
2.2.4 数据质量管理
遵循企业架构设计中对数据架构设计方面相关要求,形成企业级整体数据架构设计。实现模型和数据的统一管理,消除数据冗余,避免数据“多处维护”,进行数据有效性、完整性、一致性、准确性和唯一性等方面验证[6]。数据一体化管控平台内以自定义校验场景的方式提供数据质量校验功能,支持校验对象和校验规则自定义的灵活选择,支撑数据质量检测的常态化开展,有效保障数据价值的充分发挥。
在数据资源管理和运维[7]的基础上,数据一体化管控平台通过提供对外资源门户和统一资源检索服务,结合线上管理流程,最大程度向业务人员开放及使用数据服务。
2.3.1 资源门户
针对差异化客户画像,提供不同的系统首页展示角色相关的数据概览和关键指标。对于数据运营角色,展示业务数据主题分布情况和数据质量校验相关指标;对于系统运维角色,展示系统变更和故障相关指标。用户可通过资源门户快速获得数据资源的全局信息视图及报表分析。
2.3.2 统一资源检索
为了高效、便捷利用公司所拥有的数据表、模型、接口等数据资源,打破数据共享壁垒,数据一体化管控平台对纳管的所有资源台账信息建立查询索引,为使用人员提供类似百度搜索的检索服务。通过构建资源类型、主题域等不同维度的多层级目录,方便用户在已知资源类别信息的前提下精确层级查找。
进入资源详情展示页面,分类别展示字典信息、关联关系、映射关系、链路信息等,方便用户全面了解掌握资源情况,支撑数据应用人员开展快速检索、自助获取和可视化分析。
2.3.3 数据管理流程线上化
为了保障信息数据安全,省级电网公司数据中心对数据权限有严格的管理制度,以优化数据共享和使用流程。建立数据共享负面清单管理机制,根据负面数据的范围,依托数据管理平台,落实负面清单。
以往业务部门有数据需求时,需要进行流程的线下审批。由需求业务部门与项目组沟通,梳理需求清单。通过与数据提供业务部门进行沟通,核实已有数据的表结构,并向互联网部提出数据接入需求。数据接入需求至信通公司后,按要求进行数据接入。由数据需求部门提出转换逻辑,进行贴源层、明细层、汇总层最终至集市层的结果展示。线下纸质流程的申请、确认、审批涉及复杂繁琐的流程。之后的流程审批工作都可以集成至平台流程管理模块进行线上操作,如数据接入申请、模型变更申请、数据停用申请、数据权限申请等,由业务部门线上审核共享的数据表及有效时限。从而极大地缩短了流程时间,实现闭环管理,提升服务水平。
数据线上管理流程如图6所示。
数据一体化管控平台作为有效展示窗口,高效对外提供数据中心的数据及服务。通过资源全景展示[8]与报表分析,实现全业务统一数据中心资源台账统计、流转链路监控、数据接入统计、数据中心资源统计、资源变更统计、应用场景统计等可视化展示,建立数据中心数据资源的全局信息视图。通过有效管控数据模型动态更新,对数据模型进行周期性监测。生成报告通知系统干系人,通过数据“血缘”自动分析影响范围,提供受影响链路的可视化跟踪视图,辅助相关人员及时处理。从业务视角理清模型的持续变更及数据的上下游关系,更好地夯实数据质量,支撑各类应用有效分析展示。
数据管控体系重点着眼于对外服务,实现数据价值的有效落地。该体系除了提供数据资源目录检索服务外,还提供数据资源申请的在线流程管控服务,由申请方在线描述数据资源需求、在线选择数据资源集合、流程化处理数据资源申请相关服务,对各部门所拥有数据资源权限进行纳管。此外,对外提供元数据服务,以接口方式实现第三方分析工具数据资源查询及分析入口,充分挖掘数据价值。以业务为核心,促进公司分析应用的高效构建。
为增强数据资产管理,江苏公司结合全业务统一数据中心建设成果,推进省级电网企业数据全面管控探索与应用,研究数据管理的方法和支撑工具。针对不同类型的数据用户,通过夯实数据资源台账、提升运维管理能力、优化资源应用服务,围绕公司数据资源“管控全覆盖、监测全方位、流程全自动、服务全支撑”的“四全”目标,全面实现公司数据资产精益化管理。充分运用领域知识及数据思维,重视与用户间交互及长远需求,运用数据驱动公司运营发展。