张俊超,马晓琴,严嘉正
(国网青海省电力公司信息通信公司,青海 西宁 810008)
为了适应国内外复杂的经济环境,加快发展方式的转变,国网公司积极探索建立电子凭证管理平台,统一原始凭证管理标准。以往依据人工统计方式,结合经验预测电子凭证售电收入资金,该方式受人为因素影响较大,无法有效地为资金预测提供精准数据。为此,有学者提出了基于视觉传达的电子凭证图像识别方法,通过阈值处理图像,获取凭证特征,以灰度变换为核心进行局部识别,能够最大限度保留局部图像信息[1];还有学者提出了基于神经网络的电子凭证图像识别方法,通过构建神经网络图像分类模型,对图像进行详细分类,结合误差反向传播算法实现图像识别[2]。然而,上述这些方法对售电收入资金预测研究内容较少,难以支撑当下企业战略制定的需要,导致使用这两种方法获取的数据与实际数据对比相差较大。
为解决上述方法中存在的问题,提出了基于特征提取的电力电子凭证图像识别系统。
基于特征提取的电力电子凭证图像识别系统,核心器件为FPGA 器件、采集板卡、多端口SDRAM控制器,硬件结构如图1 所示。
图1 中将CMOS 图像传感器和液晶显示器与开发面板相连。当电源加载后,通过SDATA 串行总线,由SCLK 时钟构成传感器I2C 组态传输到图像传感器中。该系统摄像控制模块也将25 MHz 的主时钟信号发送给图像传感器。然后图像传感器将获取的数据转换为RAW 的RGB 格式,并将其转移到RAM中。利用多端口SDRAM控制器建立完整的帧缓存[3]。将从SDRAM 装置所得到的数据传送到影像处理与辨识模组,以便处理。最终,LCD 控制器及数据请求模块向多端口SDRAM 控制模块传送数据请求[4]。
FPGA 是一种可编程逻辑器件,应用范围很广。该产品具有可编程功能,可根据FPGA 器件进行具体的数字电路设计。在FPGA 器件中,线路资源与FPGA 中的每一个单元连接,而线路长度和技术水平将直接影响到FPGA 器件中的信号传输能力和传输速度[5-6]。
FPGA 器件根据电力网络拓扑结构,自动选取与电子凭证相关的区域进行布线,导致网络资源被浪费[7]。因此,在装置中设置积分时钟和积分重置/设定模式,其结构如图2 所示。
图2 FPGA器件结构
FPGA 器件采用串口收发技术,满足通信总线与接口要求。
采集板卡采用IEEE1394 数字接口,利用数字变换技术,可获得与原始图像一样的非破坏性数据。采集板卡通过摄像机将采集光信号输入到计算机中,通过核心模块将其转换为数字信号的形式,并进行采集、存储、回放[8-10]。
SDRAM 是一种具有同步随机存储的芯片,能够随意读取和写入指定数据,并更新存储阵列,以保证数据的安全[11]。该芯片内部是多Bank 结构,当一个Bank 在充电过程时,另一个Bank 能立刻读取数据。在数据读取过程中,有效地提高了芯片存取速度[12]。
图像传感器设计中使用CMOS 器件结合CCD 技术,将器件芯片置于光刻表面,使每一像素块成为一种微透镜,再由入射光线共同构成感光元件,从而增加有效填充因子[13]。COMS 图像传感器是利用光电转换技术实现光像转换的装置,该方法可把光学图像分解成若干个微小的单元,并转换成有用的电子信号。
以电子凭证售电收入资金为主要指标,利用随机森林算法对指标进行预测,并将其用于特征提取,为电子凭证图像识别提供依据。月售电收入资金计算公式为:
式中,P总表示年度售电收入资金;T总表示年度天数;T分表示当年需调整天数。
在随机森林预测中,引入式(1)的计算结果,可防止由于预测过程的错误而影响预测的准确性[14]。通过对样本进行随机取样,共获取N个样本,重复以上步骤,得出M个独立的决策树,以获得新的分类效果。基于随机森林预测过程如下所示:
步骤一:从抽样空间中随机抽取K个特征,并依据所选择的样本特征构造决策树;
步骤二:获取M个独立决策树,并形成随机森林;
步骤三:对于待预测数据,经过M个独立决策树进行决策后,以确定用户历史用电行为、交费行为、资金到账规律[15];
步骤四:给定分类集合R1(α)、R2(α)、R3(α)、…Rn(α),根据输入的变量构建预测模型:
式中,α表示用户的历史用电行为、交费行为、资金到账规律特征变量的集合;β表示输入变量的正确电子凭证标签集合;χ表示预测结果出现错误的电子凭证标签集合;g(Rn(α)=β)表示输入变量α正确分类的平均分类数量;g(Rn(α)=χ)表示输入变量α错误分类的平均分类数量。
步骤五:为度量随机森林算法对输入变量预测结果出现的误差,可用如下公式来表示:
利用随机森林算法预测售电收入资金,提高预测数据的精准度,为电子凭证图像识别流程设计提供有效的资金预算支撑依据。
将基于特征提取的电子凭证售电收入资金预测结果应用到电子凭证图像识别过程中,不仅能够优化凭证流程,实现凭证自动化管理,详细过程如图3所示。
图3 基于特征提取的识别流程
由图3 可知,在认证业务处理过程中输入用户历史用电行为、交费行为、资金到账规律特征变量后,由请求受理器根据输入的变量查询数据库,获取相应的凭证数据。如果数据库中不存在相应数据,则向输送端发起反馈申请并存储到数据库中[16]。系统根据提交的图像数据和返回数据进行识别,设定阈值,根据阈值判断两种数据是否相似。如果相似则说明匹配成功,电子凭证结果有效,将该结果输出到认证处理阶段。否则匹配失败,电子凭证结果无效,无须输出识别结果[17-18]。
为了验证提出的基于特征提取的电力电子凭证图像识别系统设计的合理性,进行了实验验证分析。
以某省一年的用户用电量为研究对象,分析不同时间段下用户用电量情况,并获取电子凭证。用户在网上进行用电缴费的详细过程如下所示:进入缴费界面时,再点击【电费】,再点击右上角的【缴费记录】,点击缴费记录后看到【缴费账单】,找到想要开发票的具体时间,点击【电费】。点击电费后看到账单详情,再点击【查看缴费详情】。在缴费详情里面,点击【缴费凭证】,该缴费凭证是电子缴费的发票,也是回单。
将服务系统部署在阿里云服务器中,通过该服务器统计近1 年的售电收入资金,如图4 所示。
图4 近1年月售电收入资金时序图
由图4 可知,在近1 年中,9-10 月份为用电低谷,8-9 月份为用电高峰。
抽取2020 年9-10 月份10 个用户的月售电收入资金情况进行详细分析,电子凭证如图5 所示。
图5 9-10月份月售电收入资金电子凭证
由图5 可知,通过用户电费电子凭证,能够精准掌握每个用户的用电量。
基于上述实际数据,分别使用基于视觉传达的电子凭证图像识别方法、基于神经网络的电子凭证图像识别方法和基于特征提取的电力电子凭证图像识别系统,对比分析用户电费电子凭证图像识别结果,如图6 所示。
图6 三种方法电子凭证图像识别结果对比
由图6(a)可知,在序号3、4、5、6、7、8 处的图像识别效果不佳,尤其在5、6 处的图像识别效果较差,识别不出任何数据。在序号4、7 处出现了与实际用户缴费资金不一致的识别结果,分别相差2.5元和1.5 元。
由图6(b)可知,在序号5、6 处的图像识别效果不佳,尤其在5 处的图像识别效果较差,识别不出任何数据。在序号6 处出现了与实际用户缴费资金不一致的识别结果,相差2.0 元。
由图6(c)可看出,在序号4、5、6、7 处的图像识别效果一般,尤其在序号5、6 处出现了与实际用户缴费资金不一致的识别结果,均差1.0 元,其余识别结果与实际缴费资金一致。
通过上述分析结果可知,使用基于特征提取的电力电子凭证图像识别系统,能够精准识别电子凭证中的数据。
该文提出的基于特征提取的电力电子凭证图像识别系统,利用随机森林算法预测售电收入资金,改变以往人工预测模式,使预测结果不会受到人工因素影响,具有精准的识别结果,且科学性更强,能够有效支撑售电收入资金预算的计划安排。同时,对现有营销系统模块改造、对电力电子凭证图像识别流程进行优化,实现凭证自动化管理。