数据感知技术在电力物资供应链数据质量管理中的应用

2021-10-20 09:13宋志伟陈少兵贺绍鹏毛烨华李泽坤
科技管理研究 2021年18期
关键词:画像供应商物资

陈 广,宋志伟,陈少兵,贺绍鹏,毛烨华,李泽坤

(1.国家电网有限公司物资部,北京 100032;2.国网物资有限公司,北京 100120;3.华北电力大学电气与电子工程学院,北京 102206)

1 研究背景

随着现代信息技术的快速发展和应用,电力物资供应链与互联网、物联网深度融合已成趋势,数字化、智慧化成为现代供应链的显著特征[1]。现阶段,通过智能采购、数字物流、全景质控三大业务链,现代供应链逐渐部署数字化转型的新型实践,但数字化转型过程中的弊端也逐渐暴露,如供应链数据欠完整、欠规范、非结构化等。为了实现数据的统一管理和价值挖掘,国家电网有限公司(以下简称“国网公司”)投入了大量人力物力聚焦于数据治理、分析、应用等各环节的工作。然而,数字化引起的数据量激增将造成更多的人力资源投入,在此背景下如何实现供应链数据运营管理的自动化、智慧化是迫切问题。

数据感知以数据自动清洗、数据质量治理和数据价值挖掘为技术手段。Hu 等[2]和Korzun 等[3]分别研究了数据感知技术在信息处理和生物特性感知等领域的应用;Padulano 等[4]提出了一种适用于大型数据库,在不知道数据潜在概率分布的先验信息情况下还可以与其他非参数的、基于模式的方法相结合的数据清洗技术;Phan 等[5]提出了一种平稳型线性回归方法用于纵向数据的对比分析,并引出了数据感知技术在数据清洗中的进一步应用;Vujić等[6]针对传统电力大数据异常值检测算法存在检测精度低、检测效率差等问题,提出基于云计算的电力运行大数据异常值快速检测算法;Duan[7]在Vujić 等[6]的基础上提出利用模糊C-均值聚类算法分类识别处理电力运行大数据,快速检测其中的异常值。以上数据清洗和数据异常识别研究为数据感知技术积累了大量先期经验,为数据感知技术在电力供应链数据运营管理应用中提供了技术参考。数据清洗和质量治理旨在为数据分析挖掘提供完整有效数据集,使数据价值得以体现,因此数据感知技术亦包含数据的价值挖掘研究。目前,基于各企业对供应商评价的需求,用户特征画像已有部分研究,例如Li 等[8]和Li 等[9]主要研究了用户画像的不同技术框架;Li 等[10]对用户画像分类模型展开了进一步研究;Janostik 等[11]充分考虑企业数据的特殊性,提出针对非结构文本数据处理可建立企业敏感词库,针对短文本数据处理可结合字符、拼音以及词性等特征,以深度学习结合多层输入、权值共享技术实现企业供货特征提取与分析;Bonner 等[12]引入最大相关最小冗余准则进行用户特征选取,采用遍历法从原始特征集找到满足与目标类别相关性最大、相互间冗余性最小的优质特征集,基于此实现用户的画像特征分析;Molinillo 等[13]提出了一种基于层次树的回归方法(CHAID),通过对用户基本属性进行分类,从而构建用户画像。

随着现代智慧供应链体系建设发展,“五E 一中心”1)平台部署趋于成熟,电力物资供应链数据管理需求急切,上述研究为供应链数据质量管理提供了前期技术参考,但鉴于电力物资供应链具有数据种类繁多、异构性严重、数据分布分散、质量层次不齐等特点,前述研究在供应链数据中的应用仍有待因地制宜。进一步讲,目前电力物资供应链数据质量管理依托人工手段较多,在数据多源汇集、大数据沉积愈来愈严重的情况下,如何基于数据感知技术实现数据自动清洗、质量自动感知与治理和数据价值深度挖掘(供应商画像分析)等环节提质增效,是促使电力物资供应链由传统到现代智能化、电子化方向发展的重要挑战。基于此,本研究重点讨论了数据感知技术在电力物资供应链数据质量管理中的研究与应用,主要包括:(1)结合当前“五E 一中心”下电力物资供应链数据特点提出“数据感知技术”概念及核心组件,分析电力物资供应链数据质量管理技术需求;(2)基于电力物资供应链数据质量管理的现实和技术需求,提出面向现代供应链的数据质量管理体系架构,并结合“五E 一中心”的两级部署模式设计现代供应链数据感知实现框架;(3)基于电力物资供应链数据特点和实现框架提出数据感知的三大关键技术——基于时空相关性的多源感知数据清洗技术、基于隐藏规则挖掘的异构异常数据修复技术和基于供应商信息系统标识的全息画像认知技术,实现以供应链数据特点为基础,以完整有效数据集构建为手段,以供应链数据创新应用为目的的数据“清洗—校正—应用”全环节技术体系构建;(4)针对电力物资供应链生态圈全寿命周期管理的必然发展趋势,提出数据感知技术在“五E 一中心”全面建设的中后期需进一步延伸的技术内容和方向。

2 “数据感知”概念及需求分析

2.1 概念及技术组件

随着数据挖掘、人工智能和云计算等新兴技术的发展,大数据隐藏价值得到重视,数据感知技术应运而生。Rahman[14]、Weatherall 等[15]、Soleimani-Chamkhorami 等[16]提出数据感知技术范畴包含技术前期对数据的完整性、有效性、可用性等方面的研究。Turinsky 等[17]提出数据感知技术亦包含现阶段大数据背景下通过对数据的一些特征信息来描述数据本身的方法。根据电力物资供应链数据特征特点,本研究将数据感知技术细化为时空数据质量感知、异常数据感知和供应商信息系统标识感知。时空数据质量感知技术充分考虑数据的时间和空间特性,根据供应链数据出处、类目、记录等属性进行符合数据产出地特征的数据完整性修复,主要用于数据清洗环节。异常数据感知技术对供应链数据的异常情况进行识别,主要面向结构化数据的奇异值、突变点检测,面向非结构化数据,基于数据关联性、一致性等特征判别数据类目的对错。供应商信息系统标识感知技术对供应商信息进行归纳、统计、挖掘分析,构建供应商全息画像,实现数据价值应用。基于数据感知技术的现代供应链数据运营管理核心组件如图1 所示,主要包括:(1)采集物资及供应商主数据、采购批次及招投标数据、合同履约及仓储数据等数据资源;(2)基于数据感知技术对供应链数据处理与分析,形成有价值的数据集和应用结果;(3)基于价值数据集和数据分析结果,评估数据质量运营管理成效。

图1 现代供应链数据运营管理核心组件构成

2.2 数据感知需求

为实现电力物资智能采购电子化、数字物流网络化、全景质控可视化以及内外协同便捷化,以“五E 一中心”供应链平台为支撑的现代供应链体系正在逐步建设,包括企业资源管理系统(ERP)、电子商务平台(ECP)、电工装备智慧物联平台(EIP)、电力物流服务平台(ELP)、e 物资和供应链运营中心(ESC)2)。“五E 一中心”平台建设要求企业人财物设备信息、供货计划信息、电工装备物联信息、物流运输监控信息等多方数据汇入,但由于各平台部署部门作业标准、人员素质、工作制度差异,平台汇入数据存在冗余项、空值、奇异值、数据类目错位等问题,如何将这类欠完整数据转化为高质量、高价值的有效数据是国网公司需要面对的现实需求。对此,国网公司目前主要采用多级人工校核的方式,即:国网公司上级部门对下级部门提供的数据进行复审,下级部门配合上级部门核查数据并澄清有关问题,将问题数据溯源至产出部门。而受电网公司总部、省份、地市、县公司多级部署,多级人工校核的方式将极大地消耗人力物力,如何借助先进的数据治理、处理技术实现问题数据的自动纠错、提升数据质量是国网公司亟待突破的技术需求(见图2)。因此,通过数据感知技术,对供应链中大量冗余类标签、重复记录、无关标识、缺失项等问题数据进行清洗,对奇异值、错位项、矛盾项、不一致项等问题数据进行数据校正,对数据正负相关、离散性等特征进行数据分析,实现面向供应商的全息画像和供应网链全景可视,是解决电力物资供应链数据运营管理的有效办法。

图2 电力物资供应链数据质量管理的技术需求

3 电力物资现代供应链数据质量管理

3.1 数据质量管理体系

以Peikert 等[18]、Akca 等[19]、Parra 等[20]提出的典型数据质量管理体系为参考,电力物资供应链数据质量管理体系可为五大层级,包括数据资源层、数据清洗层、数据校正层、数据分析层和可视化交互层,其架构如图3 所示。其中,数据资源包括物资及供应商主数据、采购批次及招投标等业务数据、合同履约及仓储数据等数亿条数据,以此为基础展开数据清洗、异常数据校正、分析应用等环节。包括:

图3 电力物资供应链全面数据质量管理体系

(1)数据清洗。数据清洗针对原始电力物资供应链问题数据,例如Jiang 等[21]重点研究的重复数据、Lian 等[22]重点研究的无关数据、邹同华等[23]和Nugent 等[24]重点研究的缺失记录等冗余或不完整数据,采用时空数据治理感知技术查重补缺,使电力物资供应链数据集在数据清洗完成后能对现实中真实结果有更加清晰准确的描绘。

(2)数据校正。数据校正针对原始电力物资供应链中与现实相悖的离群数据,例如Abraham 等[25]重点研究错位项、姚鹏川等[26]重点研究奇异值等错误数据,本研究采用张永华等[27]和Wang 等[28]提出的异常数据感知技术构建面向离群值的状态估计模型,对离群值进行检测和剔除,实现错误数据的修复与校正,使电力物资供应链数据集在数据校正后能充分挖掘出正确知识和信息价值。

(3)数据分析。数据分析针对各供应链平台汇入的数据,从应用上将分为3 个阶段:时珊珊等[29]重点研究的数据集成阶段、浦雨婷等[30]重点研究的数据分析阶段、Cao 等[31]和Ma 等[32]重点研究的数据服务与应用阶段。数据集成将ECP、EIP、ERP、ELP 等平台数据进行有机集中,对通过联邦计算、数据仓库等技术手段实现数据融合及全面共享;数据分析主要面向供应链平台内开展项内数据趋势预测、项间数据关联分析,面向供应链平台间开展横向指标对比、质量结果统计等分析;数据服务与应用面向供应链全链主体,基于数据分析结果开展数据质量监察、供应产品的数字化服务等实践,形成对供应商信息系统标识的感知,实现供应商全息画像认知。

3.2 数据管理实现框架

现代智慧供应链两级数据运营体系基于全业务需求,通过“大云物移智边链”等技术,着力构建“五E 一中心”供应链平台,从物资合同一键生成、在线签署,到结算单据电子化、结算支付申请自动作业,以实现供应链全程电子化、网络化、便捷化,逐步打造“一级管控、两级运营”的数据管理方案。该方案以两级部署为核心,其中:电力物流服务平台、企业资源管理系统以及“e 物资”分别将本智慧作业系统的业务数据汇集到总部和省级数据中台,构建两级部署;电工装备智慧物联平台和电子商务平台分别将本智慧作业系统的业务数据汇集到总部数据中台,构建一级部署。其次,由总部供应链运营中心(ESC)和省级供应链运营中心从相应的数据中台获取常态化业务数据。最终实现两级数据贯通、内外协同、智能采购、全景智控的现代化智慧供应链两级数据运营体系。如图4 所示,描述了两级部署的现代智慧供应链数据感知实现架构,关键技术主要包括以下3 个方面:时空数据质量感知、异常数据感知、供应商信息系统标识感知。其中,时空数据质量感知和异常数据感知分别服务于省级部署下的供应链数据清洗和数据校正;供应商信息系统标识感知主要服务于总部和省级部署下的供应链数据分析与应用,具体包含数据集成、数据分析、数据质量督察、数据服务应用等。

图4 两级部署的电力物资智慧供应链数据感知实现框架

4 现代供应链数据质量管理的数据感知关键技术

4.1 基于时空相关性的多源感知数据清洗技术

电力物资供应链数据存在来源分散、同一件产品或设备数据存在全网链多供应商提供、抑或产品配件数据源自多厂商的特点,由于多厂商的人员素质、工作规范、产品质量因素等方面存在差异,对全生命周期供应链数据、物资配送过程管理或同一产出地的设备/配件检测、试运行等数据集进行数据清洗环节时,需要充分考虑数据产出地的时空特性。McKechnie 等[33]、Zhang[34]等、Ramos-Goñi[35]等认为时空数据质量感知技术主要面向供应链数据的时间相关性和空间相关性,通过明确数据产出场景,设定一个有限度的时空粒度,获得不同数据产地(或传感器)采集的数据相关性,以及相同产地的数据相似性特征,基于此构建数据时空相关性模型,实现对“脏”数据的清洗,构建完整数据集。

就杨飞跃等[36]分析的供应链多源数据特点而言,数据清洗过程不仅仅依赖线性插值、平滑预测等在时序数据上取得较好效果的传统方法,还需结合数据的时空相关性对数据进行分组,实现相似特征组数据单独清洗,例如装备生产、运检、全生命周期管理等时序数据,按照供应商生产标准、作业规范、场景判别阈值等差异构建时空相似特征组,并以产出地历史数据特征进行数据集填补、修复。电力物资供应链时空数据清洗框架如图5 所示,主要包括以下环节:(1)逐条遍历数据集,判断本条数据是否冗余,若冗余则删除该标签数据跳转下一标签数据,否则汇总到正确标签集,完成冗余标签筛选;(2)判断是否有重复记录,若重复则删除数据,否则汇总到正确数据集;(3)构建数据处理算法提取数据时空特征,应用李兢等[37]提出的分组方法进行特征分组,构建时空相关性模型,生成数据预测值对缺失数据填补,并应用张艺镨等[38]提出的评估方法来评估填补精度;(4)判断特征组内数据是否完整,若完整则对相似特征组数据进行组合,否则重新遍历清洗环节,最终构建完整数据集。

图5 电力物资供应链数据清洗流程

4.2 基于隐藏规则挖掘的异构异常数据修复技术

针对完整数据集中异常数据,如数据量级偏差、数据标签不符、数据突变、供应商信息矛盾等,需要进行异常数据检测和修复,以便构建有效数据集。电力物资供应链数据种类较多(包括设备出厂试验数据、采购订单数据、采购合同数据、基础运营数据等),汇集方式不同,记录和取样方式也有差异,存在多源异构的典型特点,因此,需要对结构化数据和非结构化数据单独治理。具体包括:

(1)就结构化数据而言,其异常数据修复可基于数据间的关联关系,采用残差分析、神经网络、聚类分析等方法对数据本身进行状态估计,提取数据的历史演变趋势和特征曲线,并根据算法阈值规则进行异常数据的检测与修复。

(2)就非结构化数据而言,非结构化数据的单一特征较难提取,需要构建面向待检测数据的关联数据集。首先,通过Jones 等[39]、袁宇等[40]提出的Apriori,以及冯宏伟等[41]、Sering 等[42]提出的FP-Growth 等关联规则算法获得相应的关联规则集;其次,结合供应链数据库历史记录对关联规则集进行优化,将待测数据进行类属性识别后的结果输入优化后的关联数据集,进行特征比对;最后,基于特征可行域和分类对异常数据进行识别。

上述结构化与非结构化异常数据识别方法在较多数据异常识别研究中应用,技术相对成熟,在“五E 一中心”建设前期,应充分应用该类方法以获得高质量、有效、完整的数据集;但随着数据汇入的体量激增,数据标签维度庞大,上述方法需进一步拓展,与大数据技术深度融合,从海量多维数据中发掘隐藏规律与特征提取,实现异常数据辨识与修复。技术路线如图6 所示,主要技术拓展内容包括:(1)数据驱动的自动规则感知,即通过自动深度学习、贝叶斯深度学习等的深度数据挖掘方法,为每组数据匹配最适合的规则,简化基于规则库的人工成本,提高效率;(2)多维海量异构数据隐性信息挖掘,通过对大数据的数据属性和数据关联分析进行深度分析,发掘前期规则库中忽略的类似类型数据,进行数据关联性的再次关联,弥补关联认知欠缺;(3)知识与数据协同驱动的异常数据检测,通过前期规则库的知识积累,与大数据驱动的隐性特征融合分析,实现异常数据检测并修复。

图6 基于数据感知技术的电力物资供应链非结构化数据剔除及修复方法

4.3 基于供应商信息系统标识的全息画像认知技术

供应商全息画像应用主要依靠于数据感知技术,以供应商的内部数据(如供应商的诚信度)和外部数据(如供应商是否涉及安全事件)为基础,核心是对供应商进行标签化处理,通过机器学习等技术对大量数据进行分析处理,抽象出一个虚拟供应商的特征全貌,从而基于对历史数据的推演作出归纳性的推理判断,并预测出未来一段时间供应商的某项指标的变化趋势,从而帮助国网公司全方位、多视角地了解供应商行为特征,实现面向供应商的产品个性化精准设计、定制、营销和精细化服务。针对供应商信息系统标识数据感知技术在数据分析环节的应用,Khanchi 等[43]、张永等[44]、陈真勇等[45]、Kock[46]认为关键在于构建供应商特征标签库,以实现对供应商全息画像的有效认知。具体可按照企业规模、信用口碑、供货连续性等进行标签分类,如图7 所示,其过程需要建立相关业务规则:一是标签库的建立;二是对应指标的选择;三是创建统一标签触发规则;四是标签数据匹配的问题。通过供应商信息系统标识数据感知技术,能够全方位地反映企业特征,从而构建供应商全息画像。

图7 基于数据感知技术的电力物资供应商全息画像认知实现流程

供应商全息画像主要可分为3 类:供应商群体画像、供应商个体画像与供应商指标画像。其中,供应商群体画像是指基于物资品类的画像,展现同类物资群体供应商数据表现情况和各供应商排名情况;供应商个体画像是指基于供应商的画像,展现供应商标签、物资品类和绩效情况;供应商个体画像是指基于供应商的画像,展现供应商标签、物资品类和绩效情况;供应商指标画像是指基于指标的画像,根据指标值对物资品类进行排名,展现单指标数据分布和物资排名情况。通过构建供应商特征标签库与供应商全息画像,能够对物资供应商进行良好的度量与区分。

5 “五E 一中心”建设中后期数据感知技术应用的发展方向

基于现代供应链管理与发展的基本理论,以“五E 一中心”供应链平台为支撑,实现电力物资供应链生态圈全寿命周期管理成为未来电力物资优化配置发展的重要趋势,而以数据感知技术为核心的全面数据质量管理体系也势必会促进物资、业务、数据的融合共享,激活全供应链数据流价值,高效灵活配置各类资源,推动物资链上下游的发展,例如,马春光等[47]提出的边缘侧数据感知技术、Tran 等[48]和Lyu 等[49]提出的基于区块链的共享信息感知技术等核心技术的全面应用等,这些应用与发展潮流催生了数据感知技术向跨行业数据和服务的互联互通、互补协同联动等方向的进一步延伸。在如图8 所示的总体技术架构中,数据感知技术在供应链数据质量管理中的发展方向主要体现为以下方面:

图8 数据感知技术在电力物资供应链数据质量管理体系中的发展方向

(1)从上下游对接、全链业务融合贯通及画像需求出发,结合数据感知技术构建电力物质供应链生态圈。针对上下游对接需求,依靠目前单一数据库无法满足海量数据存储与共享需要,下一步将通过如曹瑜等[50]提出的分布式清洗技术、Qiu 等[51]和Pal 等[52]提出的质量管控全息可视技术等实现多方高效协同;针对全链业务融合贯通需求,将通过多源信息处理技术实现供需双侧平衡以及全链业务融合贯通;针对画像需求,应通过供应商信用数据库,借助多源信息处理技术对供应商进行分类分级管理和精准化画像。

(2)基于数据感知技术的多源感知能力,实现电力物资供应链生态圈的信息全面互联共享。数字化是万物互联共享的基础,未来将通过建立电力物资供应链生态圈的数据中心以及信息共享云,将供应商、第三方服务商的信息与资源分别纳入供应链生态圈,实现信息、数据资产、技术资源、知识资源、信用资产等各类信息与资源的全面共享。下一步研究将以物联数据和业务数据为核心,集聚电力产业链上下游的生产要素资源,分别通过基于区块链的共享信息感知技术、边缘侧数据感知技术以及面向对象的数据感知技术来实现数据共享、数据分析服务、平台融合等需求,并充分挖掘电力供应链数据资产的价值,提升价值创造能力。

(3)智能制造是以精益生产、标准化和模块化理念为基础,通过融合数据感知技术,实现整个智能制造业价值链的智能应用与创新服务。其业务主要包含自动化数据管理、业务流程优化和创新第三方服务模式三大应用需求。就自动化数据管理而言,其不再局限于人工采集数据信息,而是通过基于区块链的共享信息感知技术实现智能化、电子化、自动化数据管理;针对业务流程优化,将进一步挖掘面向业务流数据的感知技术,实现全业务过程挖掘,促进业务升级;针对创新第三方服务模式,将进一步应用面向对象的数据感知技术实现组织模式、运作模式的创新发展。

6 研究结论

电力物资供应链数据质量管理是“五E 一中心”平台建设的重要工作,是构成数据中台物资域的重要环节,本研究针对电力物资现代供应链数据特点和现实需求,对数据感知技术在供应链数据质量管理中的研究与应用展开探讨,得到主要结论包括:

(1)通过基于时空相关性的多源感知数据清洗技术、基于隐藏规则挖掘的异构异常数据修复技术以及基于供应商信息系统标识的全息画像认知技术等三大关键技术,对供应链中大量冗余类标签、重复记录、无关标识、缺失项等问题数据进行清洗,对奇异值、错位项、矛盾项、不一致项等问题数据进行数据校正,对数据正负相关、离散性等特征进行数据分析,可实现面向供应商的全息画像和供应网链全景可视,是解决电力物资供应链数据运营管理的有效办法。

(2)以数据感知技术为核心的全面数据质量管理体系能够有效促进物资、业务、数据的融合共享,激活全供应链数据流价值,高效灵活配置各类资源,推动物资链上下游的发展。更深层次上讲,通过数据感知技术实现电力物资供应链生态圈全寿命周期管理,是未来电力物资优化配置发展的重要趋势。

注释:

1)“五E 一中心”是国家电网有限公司现代智慧供应链体系的平台架构,应用“大云物移智边链”技术,全面支撑智能采购、数字物流、全景智控三大业务链,促进国网公司内部跨专业深度合作、外部供应链高效协同,实现物资业务智慧决策。

2)限于篇幅,各平台汇集数据状况不在文中具体汇报,备索。

猜你喜欢
画像供应商物资
威猛的画像
募集52万件物资驰援东华大学
供应商和客户是否可以抑制企业在职消费?
“00后”画像
画像
ГОРОДА-ПОБРАТИМЫ ПОМОГАЮТ ХАРБИНУ В БЕДЕ俄友好城市向哈尔滨捐赠医疗物资
基于层次分析法的汽车备件供应商选择
电力企业物资管理模式探讨
海德威,最佳压载水处理解决方案供应商
救援物资