刘嫣然,汪亦星,倪 颖
(国网江苏省电力有限公司物资分公司,江苏 南京 210000)
随着信息网络的快速发展和深入变革,以及全球化市场的形成,能源企业在产业数字化的过程中既面临着发展的机遇,也面临着严峻的挑战。在此背景下,作为智慧供应链场景建设的重要组成部分——计划需求的智能化管理成为了能源企业数字化改革的重中之重。计划需求的智能化是将计划需求的审查要素、审查规则、审查过程等内容实现自动化、智能化的管理。
事实上,在电力行业,传统的计划管理手段与现代信息技术的融合度不高,仅在部分环节利用辅助工具。李振伟等人在对人工智能技术与智能电网综合应用的展望中提到采用人工智能技术对电网进行管理,有利于大幅度提高电网的管理效率。王岩通过采集项目计划储备库数据,借助全文检索技术、分词技术等技术,将待评价项目计划与历史数据进行智能分析与对比,构建了基于智能审核的电力建设项目评价模型。袁彰提出了一种基于自然语言处理技术及成票规则的智能配网工作票系统,实现了工作票工作指令及安全措施的术语标准性、完整性检查,从而提升了配网运行工作效率及保障电网安全稳定运行。
本项目针对需求计划组成部分中,审核要点多、出错率高、但结构相对固定的商务信息部分开展智能审查技术应用研究。探索基于多层次规则集的智能研判技术手段,对当前电网企业需求计划审查规则体系的适用性,运用该技术将现有商务审核要点中的复杂逻辑转化为可以计算机逻辑的可行性进行研究,进而明确实现需求计划商务信息智能化审查的有效路径以及可扩展应用的场景,推动需求计划管理向数智化方向转型发展,助力提升需求计划管理质效。
需求计划的智能化审核首先需要明确需求数据的特征。以下将分别从体量、质量、数据表达等角度对需求计划的数据特征展开解析。
从体量角度看,据统计,2021 年国网江苏物资公司全年共开展331 个物资(服务)批次计划审查工作,计划总条目共计47 292 条,而在工作量逐年攀增的同时,计划审查工作模式并未取得显著的智能化发展,仍停留在基本依赖人工审查的模式,这使得计划审查工作的效率和质量难以提升。
从质量要求角度看,主要是由于以下两点导致:一是计划条目多,审查任务重,在有限的审查会工作时间中难以逐点细致分析判断;二是计划审查要点逻辑复杂,主观判断规则多,且“资深”专家的“经验判断”很难向新专家传授。因此,亟待探索一种适用于需求计划审查体系的信息化智能审查技术,利用机器学习与数据科学工具的应用,实现计划信息的智能自动校验,为专家的人工审查提供智能化辅助方案,提升审查质效。
从数据表达角度看,根据《工程、服务类计划审核作业指导书》的要求,商务部分共定义了23 条规则,包括:计划批次规则、采购申请号规则等。目前,商务信息审查字段虽然已经做了结构化处理,但是结构化程度相对较低,只有招标金额、最高限价、概(预)算价、授权限额(万元)、线路长度(千米)、变电容量(兆伏安)、标段工期字段采用数值型信息表达,在计划开工日期和计划完工日期采用了日期型信息表达,与开展智能判定所需要的结构化数据要求差距较远。
基于对上述数据特征的解析,接下来将通过规则的设计和制定将文本解译成规则体系。依据计划需求中23 条商务信息审核规则,可定义成符号规则、真值规则、数据规则和复合规则,具体分类如下:
(1)符号规则:指基于特定符号体系的规则,这里的符号体系可以是人类语言的基础原始符号集合(如数字、字母、罗马字等),也可以是固定符号组合的集合。
例如:计划需求的商务信息中A01 计划批次规则要求:批次编号采用字母排序,如第3 批公开竞争性谈判,批次编号为10216C 中的C,该规则属于符号规则,其形式化表示方式通常为:
注意:为了表达基于时间或空间排列顺序关系的规则,通常依赖于某一种或多种具有特异排序特征表达的符号序列。例如,英文字符集ABC 也可以看作是对数序字符集0~9 的扩展。
(2)真值规则:指基于条件属性进行真值判定的规则,与数据规则类似,符合该规则的数据满足逻辑计算的规则,即满足各种布尔运算的规则。
例如:商务信息中A06 电压等级(4)规则要求:非电力工程项目及非电气性能试验检测填写无电压等级。这里的“非电力工程项目”和“非电气性能试验检测”即为真值规则,即:
若定义a=“电力工程项目”,则^a=“非电力工程项目”;同理,若定义b=“电气性能试验检测”,则^b=“非电气性能试验检测”;则电压等级c 可以形式化表达为:
其中∧即为布尔运算中的“与”运算,因此可见真值规则兼容布尔运算的规则。
真值规则的基本操作符有:“非”(not)、“与”(∧)、“或”(∨)、“条件”(→)。其中,“非”是一个一元操作符,它只操作一项(not P)。剩下的是二元操作符,操作两项来组成复杂语句(P ∧ Q,P ∨ Q, P → Q)。真值规则的逻辑真值表如表1 所示。表1 中的T 表示真,F 表示假,亦可以使用二进制的1 和0 来表示。以上操作兼容所有编程语言,只是在不同语言中使用的逻辑运算符号不同。
表1 真值规则的逻辑真值表
(3)数据规则:指基于数学符号体系能符合计算特征的规则,符合该规则的数据视为符合满足数学计算的规则,即满足各种算术运算的规则。
例如:A10 概预算价规则中约定:审核填报金额,计价单位是元,概预算价应准确,不得与招标金额相差过大,一般不得小于招标金额(考虑到税率的招标金额可适当高出概预算金额相应的税率百分点,一般6%左右)。
由上可知,若定义Vg 为概预算价,招标金额为Vz,则以上规则可形式化表达为一个数学计算式,此处可以利用不等式来表达,即:
此处的“>=”“<=”和“×”即为初等数学中定义的有理数域上的比较和求乘积运算。本研究中,不再对这些规则做额外详细定义。
(4)复合规则:指利用以上符号、真值及数据规则的多个混合组合才能约定的规则,基本组合关系包括但不限于非、与、或、异或等规则逻辑。符号规则兼容regex 标准支持所有主流编程语言,真值规则支撑的布尔运算虽然采用不同的符号体系,但也可以使用所有编程语言,数据规则的数学运算亦可以进行编程,因此复合规则的编程可实现性即规则逻辑的可实现性。
本研究中定义了三种复合规则逻辑,基本复合规则、模糊复合规则和智能复合规则。
基本复合规则使用文法系统约定的基本推导规则,该文法系统可以使用基于上下文无关文法的下推自动机实现。
模糊复合规则采用基于模糊集的推理规则,适用于模糊判定可以做出基本判定的场合。模糊推理系统基于用户自定义的模糊隶属函数以及模糊规则,将清晰的非模糊的原始输入映射为模糊输出集,然后对该模糊输出集使用去模糊化方法得出一个清晰非模糊的输出变量,一般为一个数字。基于该数字,模糊推理系统可以获得专家的意见或者是用户的主观喜好,从而做出相应的决策。
智能复合规则采用基于深度学习技术的推理规则,适用于基于模糊集的规则判定亦不能保证判定结果的场合。深度学习神经网络是一类包含卷积计算、以多层感知机为基本结构的深层神经网络,它能学习数据的局部特征。深度学习神经网络的核心在于卷积层和池化层的结构与参数设计,从而增加整个网络对规则判定的非线性能力,贴近人的智能判定结果。
规则的模糊化比对是商务信息智能推理的一个重要部分。以规则A03 为例,在该形式化规则中要求“审核项目名称是否包含公司名称、项目内容,避免出现‘××费用’‘合同’及投标人名称。”结合专家对该规则的解释“项目名称、工程名称和标段名称三个字段完全不一致需报警提示。”,即智能推理可以归纳为要求判断“项目名称”“工程名称”以及“招标项目标段名称”这三个字段是否具有一定的相似性,如果相似性较低,则需要报警提示。
基于上述对规则的理解,在对该规则进行预判时,可以综合使用编辑距离和模糊匹配方法。编辑距离是一种计算两个字符串间的差异程度的度量方法,即两个字符串在相互转换时所包含的修改、插入、删除等字符编辑的最少次数,其数学公式如下所示。
在借助编辑距离完 成三个字段的差异程度之后,形式化方法设计了如下的判断规则用于相似度的模糊匹配。具体为:①如果三个字段中两个字符串的逻辑距离在(0.8,1],则认为这两个字段具有较高的相似度;②如果三个字段中两个字符串的逻辑距离在(0.4,0.8),则认为这两个字段具有部分相似度;③如果三个字段中两个字符串的逻辑距离在[0,0.4],则认为这两个字段具有较低的相似度。具体如下:
通过逻辑距离计算和相似度的模糊判断完成规则A03 中“项目名称”“工程名称”以及“招标项目标段名称”三个字段的规则形式化后,即可根据实际结果给出预警提示。
由于商务信息内容往往涉及相关技术文档内容(比如技术规范书、工程量清单等)的综合研读,因此智能化推理同样是商务信息形式化的重要研究内容。
在规则A05“国网物料编码、扩展编码”中,要求“物料编码、扩展编码”的选择应与招标项目实施内容相对应。可用关键词在辞条库的扩展描述、扩展范围中检索,根据项目实际招标内容细致判断所选辞条及扩展是否合适、正确。专家对该规则的二次解读为:“根据‘工程规模与概况’和‘招标范围’两个字段的内容,反推‘国网物料编码’和‘扩展编码’是否正确。”
针对规则A05 的智能审查,首先需要借助自然语言处理中的分词算法,将文档内容中的词组进行分解。分词算法根据其核心思想主要分为两种:基于字典的分词和基于字的分词。基于字典的分词是按照字典中词组的固定搭配方式把语句进行切分;效果较好的序列标注模型是BiLSTM+CRF。借助分词算法提取出项目内容信息,然后比对所提取的项目内容信息与扩展描述对应内容以及物料编码、扩展编码所代表的内容是否一致,综合计算出两者的相似度,并给出预警信息。
需求计划商务信息智能审核根据商务规则的不同特性,可以将审核规则分为符号规则、真值规则和数据规则三个基本类和复合规则类。利用形式化方法建立的规则体系也因审核要求复杂度的不同分为命题和逻辑匹配规则、模糊规则和深度学习规则三大类,其中命题和逻辑匹配规则可以利用基于文法自动机的匹配方法进行匹配,模糊规则可以利用基于模糊判定的匹配方法进行匹配,而深度学习规则体系需要利用基于深度学习技术的匹配方法进行匹配。架构设计方案从需求分析出发,设计了一套适用于现有一体化平台的架构方案,并提供了核心算法的初步设计。方案整体设计如图1 所示。
图1 需求计划商务规则智能识别技术体系
根据以上方案,整体系统架构以需求计划商务规则的形式化结果为起点。第一部分,将命题规则体系和逻辑规则体系的需求计划商务规则利用基于文法自动机的匹配方向进行智能审核,对现有系统进行升级,包括多列数据比较、单列数据的唯一性验证、数据字典创建导入等。第二部分,引入第三方智能方案提供商(如百度智能、科大讯飞等)进行基础能力升级,开发实现需求计划智能审核模块的智能化升级。
升级后的智能审核模块,核心为智能规则集管理子系统,它负责所有智能规则的管理运行与部署;智能规则元素表示子系统提供规则所需的数据元素的互联互通与表示;规则匹配API 接口子系统赋能计划一体化平台的计划提报、计划审核、规则管理等功能单元,并提供必要的算力支撑。
全省需求计划审核工作采用地市内审与省公司集中审查相结合的方式,需求计划数量多、专业繁杂,且不同类型的需求计划管理要求不同,加上计划提报时效性和准确率要求高,计划专职及审查专家面临繁重的工作任务和压力。智能审核模块的部署可以将全人工审核升级为智能化审核,智能审核应用于审前、审中和审后环节,由单一的人工审核变为在审核各环节均由智能审核模块参与的“审算一体”模式,提高审核效率。
需求计划提报系统向各专业单位提供了提报需求计划的功能,在需求提报的功能中,需求信息包括项目单位等三十余填报项目,但提供弱类型验证(如项目单位、项目类型等被设置为必填)、填写限制(如电压等级为下拉选项)、部分自动填写(如服务主数据与物料描述、服务扩展编码、扩展描述等之间的关联)。智能审核模块在提报环节的应用是智能审核“审前”应用的延伸,目的在于最小化项目计划中不符合审核规则的填报项,减少需求计划的审核工作量,提高需求计划的流转速度,实现智能物流。