吴自博,王 波,3,陈 清,郭耀松,赵京虎,闪 鑫,3
(1. 南瑞集团有限公司(国网电力科学研究院有限公司),江苏省 南京市 211106;2. 国电南瑞科技股份有限公司,江苏省 南京市 211106;3. 智能电网保护和运行控制国家重点实验室,江苏省 南京市 211106)
调度系统作为现代电网平稳运行的基石,涵盖了输、配电等调度业务和对电网整体运行状态的监测、控制、管理等任务。调度员通过调度系统监控电网运行状况,分析电网故障信息,保障电网的安全与稳定。但随着电网规模的不断扩大、调度系统的迭代升级、操作程序的日趋复杂,调度员的工作量和工作负担也逐渐加重,尤其是调度员在调控系统上进行断面监视、负荷控制、方式调整及故障分析等工作时,往往需要花费大量精力在多个系统页面之间进行反复跳转、查找,以获取某个业务场景所需指标,或在特定页面上实施重复烦琐的操作流程,严重影响了调度员的工作效率[1-4]。因此,如何优化调度员的操作流程、简化调度员操作任务,对于减少调度员工作负担、提高调度工作效率具有重要意义,值得深入研究[5]。
随着大数据的普及和发展,近年来基于用户日志的数据挖掘和推荐技术日趋成熟,并在许多领域取得了成功应用。文献[6-7]通过分析用户在网站上的浏览路径,对网站的页面结构进行优化,方便用户快速到达其感兴趣的页面。文献[8-9]通过对用户的浏览记录进行聚类分类,实现对不同类型用户推荐不同内容的功能。文献[10]根据期刊的推荐业务需求,设计了数字期刊推荐系统的框架,实现期刊内容资源与用户需求的有效匹配。
在电网调度领域,目前鲜有对调度操作行为模式挖掘和推荐的技术研究,更多的是基于调度规程和人工经验的操作辅助决策。文献[11]指出了当前电网调度的一些业务模式及相应规范准则,但不涉及调度员操作模式挖掘及效率提升。文献[12]采用自然语言处理技术对线路跳闸的处理规程进行知识抽取,形成流程化的知识,用于协助调控人员完成故障处理。文献[13-14]提出通过构建调控领域的知识图谱,支撑调度员在故障处置、倒闸操作、对话问答等业务场景的辅助决策,有效地降低人工处置的风险。
因此,受互联网用户个性化推荐思路的启发,本文基于调度员的历史操作行为数据,采用机器学习技术与数据挖掘算法对调度员操作行为模式挖掘进行了深入研究,并在此基础上实现了基于操作模式挖掘结果的调度智能推荐,有效简化了调度员的操作步骤,节省了操作时间,提升了工作效率。
基于机器学习的调度操作行为模式挖掘与操作推荐总体框架如图1 所示,主要包括:数据采集、模式挖掘、实时推荐、交互界面4 个模块。
图1 电网调度行为模式挖掘及推荐框架Fig.1 Mining and recommendation framework for power grid dispatch behavior pattern
1)数据采集模块对不同用户在系统界面中的操作动作进行记录和管理。行为捕捉以内部埋点跟踪和事件触发的方式捕捉调度员的操作动作;行为处理将捕捉到的操作以行为日志和实时消息的形式生成相应结构化操作日志。如附录A 图A1 所示,操作日志通过预设标签标识用户名、操作时间、图形名称、操作内容等信息。
2)模式挖掘模块负责对历史操作记录中的调度员浏览和操作模式进行挖掘。其中,数据预处理用以将原始的调度员操作记录处理成后续模型需要的用户会话;聚类挖掘对用户会话进行挖掘分析获得相应的操作行为模式;关联规则模块以聚类分析出的模式为基础,构造该模式的频繁模式树(FPtree)并挖掘出频繁模式项作为后续的推荐数据源。
3)实时推荐模块通过实时跟踪用户页面操作序列,在线匹配识别用户所处操作行为模式,完成对后续操作的关联推荐、统计推荐等智能操作推荐服务。
4)交互界面负责操作推荐结果的实时展示与操作交互,提供即时推荐、热点排行、定时任务等多种操作推荐方式,并可通过快捷操作的交互方式实现对推荐内容的一键操作。
行为模式挖掘与操作实时推荐是整个技术框架的核心内容,下面将介绍其涉及的关键技术。
2.1.1 页面类型划分
在电网调度系统中,有的类型页面可以展示不同场站、设备的内容。例如所有“XX 变电站.fac”表示各具体厂站图,即厂站类型的页面。在操作模式挖掘中需将这样的页面进行归一化处理,避免将具体厂站、设备信息混杂在操作模式中,影响后续模式的聚类效果。
通常系统页面可分为应用系统图、厂站图、曲线图等不同类型。页面类型划分时,对于逻辑上具有唯一性的应用系统图,采用不同页面编号来划分定义;而对于具有不同页面实例的厂站图(如XX 变电站厂站图)、曲线图(如XX 设备有功功率今日曲线)等页面类型,按照其所属页面类型定义为相同的页面编号。
2.1.2 会话识别
调度员的操作行为记录是时间上连续的一串页面浏览序列,会话为按照不同调度业务从整串页面浏览序列中截取出的子序列,调度员通过浏览子序列中的页面完成某个任务。会话中的单个页面及其停留时长构成相应的一个页面实例。
本文采用时间窗口法进行会话识别[15]。时间窗口法认为两个连续页面之间的时间间隔大于某个阈值时,原会话截止,新的会话产生。在调度系统中,调度员连续操作页面进行跳转时,若某一页面与其下一页面的间隔时间大于设定阈值,则认为该页面与其下一页面分属不同的会话,通常会话识别默认阈值为300 s[16]。
在电网调度系统中,调控人员为了监视某些指标,经常在一些页面长时间停留,远超过300 s,会话并未就此断开。针对该特点,本文提出对于不同页面通过分析其页面实例停留时长的分布区间给出不同的会话识别阈值。具体地,定义页面实例停留时长的中位数为页面参考时长,当页面的参考时长超过300 s 时,则其会话识别阈值调整为默认阈值的2 倍,即600 s。
2.1.3 事务识别
在页面浏览序列中,根据用户浏览性质可将页面分为事务页和导航页。事务页是具有访问目的、调控人员感兴趣的页面,如电网负荷监视页;而导航页是调控人员在浏览过程中跳转性质的页面,如厂站目录页。所谓事务识别就是区分出页面浏览序列中的事务页。事务识别如图2 所示,其中N 表示导航页,C 表示事务页。
图2 事务识别示意图Fig.2 Schematic diagram of routine identification
页面实例的停留时长超过设定阈值时,该页面实例是事务页;反之该页面实例是导航页[17]。其中,阈值的设定通过分析典型事务页和导航页的页面停留时长分布状况给出。其设定过程同会话识别类似,根据二八原则,定义80%的页面实例不超过的停留时长为事务参考值。
经过上文数据预处理后,调度员的操作日志被分段逐条整理成经过编号的浏览序列,然后通过聚类算法将相似的浏览序列划分为一类,从而识别出调度员的浏览行为模式。本文采用近邻传播(AP)聚类算法进行模式挖掘[18]。该算法无须预先指定聚类的簇数,输入参数为两两会话之间的相似度,以解决多个会话向量维度无法统一的问题。
2.2.1 会话相似度计算
会话相似度计算的本质方法为余弦相似度的计算,首先根据0-0 匹配原则对2 个会话建立非零的会话向量[19],其过程如下。
建立2 个事务会话集a、b及a、b的并集c,a={a1,a2,…,an},b={b1,b2,…,bm},c={c1,c2,…,ck},其中,n、m、k分别为a、b、c中事务的个数。基于并集c可以将集合a、b转换为向量x、y的形式表示,即x=[x1,x2,…,xk],y=[y1,y2,…,yk],其向量元素xk和yk分别表示会话集a、b中第k个事务在事务并集c中出现的次数。
考虑到存在用户需要反复在几个事务页间切换的情况,事务页出现次数过高,会使得相似会话的相似度降低,影响分类结果。针对该问题,本文提出对会话向量中的元素进行频次加权处理:
如果经过若干次迭代之后保持不变或者算法执行超过设定的迭代次数,则算法结束。
聚类效果以轮廓系数为评价标准[21]。对于个体点其轮廓系数Si为:
式中:bi为第i个对象和不包含该对象的任意簇中所有对象的平均距离的最小值;ai为第i个对象到所属簇中所有其他对象的平均距离。
实时推荐时需要对用户操作序列和挖掘出的行为模式在线逐个匹配并计算置信度,因此,选取一种合适的数据结构缓存行为模式的相关信息对于提升匹配和推荐效率至关重要。本文采用频繁模式增长(FP-Growth)算法来建立FP-tree 数据缓存结构并挖掘关联规则[22]。
FP-Growth 算法通过对源数据进行2 次扫描,将数据信息存储至FP-tree,从而避免产生候选项集的步骤,减少了数据匹配开销。该算法由构建FPtree 和频繁项集挖掘2 个步骤组成。FP-tree 是一种扩展的前缀树结构,由频繁项头指针表和项前缀树构成,存储关于频繁模式次数的信息;频繁项集挖掘是通过头指针表生成条件模式基后,根据计数值判定该路径集合是否为频繁项,迭代重复上述步骤,递归地发现频繁项、条件模式基以及另外的条件树。其中,挖掘出的频繁项集是用户日常工作中的页面关联规则。在电网调控领域,用户的页面浏览顺序和业务背景有密切关系,但该频繁项集无法反应页面的浏览顺序。因此,本文参考历史会话中的页面浏览顺序对关联规则中的页面进行重新排序,筛选出包含关联规则中所有页面的最新历史会话,以最新历史会话中的页面浏览顺序作为该关联规则的页面顺序。
实时推荐以挖掘出的调度员行为模式为基础,结合调度员最近的操作行为序列推荐出后续操作,包括模式识别、关联推荐等,整体流程如图3 所示。
图3 实时推荐流程Fig.3 Process of real-time recommendation
2.4.1 模式识别
模式识别用于判断当前用户所处的操作模式。首先,通过在线跟踪捕获用户在系统页面上的操作,形成实时操作序列;然后,通过在线预处理获得调度员当前正在进行的会话事务序列;最后,遍历各行为模式的频繁项集,进行模式匹配。若实时会话序列和判定行为模式的频繁项存在交集,则该行为模式可能为当前实时会话序列的匹配模式,选取其中匹配度最高的若干行为模式作为模式识别的结果。
2.4.2 关联推荐
关联推荐以模式识别生成的当下模式和FPtree 为基础进行,分析出当前用户行为序列置信度最高的操作事务。首先,通过比对模式识别结果,生成备选事务;然后,对备选事务进行置信评估,获得发生概率最高的若干备选事务。具体地,搜索FPtree 逐个计算备选推荐事务的置信度,选取置信度前N名的事务项作为页面推荐内容。
本文采用某电力调度中心智能电网调度技术支持系统(D5000)中的调度员历史操作数据进行推荐应用与算法验证。
3.1.1 页面浏览统计
本节以浏览行为模式挖掘为例介绍算法验证情况。收集的数据时间范围为2020 年6 月1 日至6 月30 日。该时间段内共采集操作记录5 932 条,涉及页面241 个。对上述241 个页面进行浏览次数统计,排名前十的页面如图4 所示。从图中可以看出,调度员浏览次数最多的为“电网负荷监视.fac”、“自动发电控制(AGC)-运行监控.agc”、“系统首页.sys”等页面。
图4 页面浏览次数排名Fig.4 Pageview ranking
3.1.2 页面类型划分
以点击次数前10 的页面为例,其页面类型划分结果如表1 所示。其中,类型对应该页面在后续模式挖掘中的编号。
表1 页面类型划分示例Table 1 Example of page type division
3.1.3 会话识别结果
对研究样本数据通过前述会话识别、事务识别、页面类型划分后,梳理出有效会话196 个。以2020 年6 月1 日为例,选取发生的典型会话,如表2所示。其中,事务页序列为会话中事务页的页面类型划分编号。
表2 会话识别结果Table 2 Session recognition results
3.1.4 会话相似度计算
以表2 中的9448、9450、9465、9466 会话为例,计算对应相似度矩阵如表3 所示。矩阵中数字为该数值对应的行和列上的会话的相似度。
表3 相似度矩阵Table 3 Similarity matrix
3.1.5 聚类分类
以上文梳理出的196 个会话为对象进行聚类分类。以轮廓系数为评价标准,通过调整衰减系数λ获取最佳聚类结果。
如图5 所示,随着衰减系数λ的增大,聚类结果的簇数随之增加。轮廓系数在λ=0.3 时最大。随着聚类簇数的增大,单一点簇数增加,轮廓系数随之下降。综合来看,λ选取0.3 比较合适。
图5 最佳聚类结果分析Fig.5 Analysis of optimal clustering results
以衰减系数λ=0.3 时的聚类结果为例,获得聚类簇数19 个,限于篇幅原因,这里简要展示聚类结果如表4 所示,其中,会话集中的数字为该聚类包含的会话编号。
表4 聚类结果简要展示Table 4 Brief display of clustering results
3.1.6 模式分析
依据前述操作模式挖掘结果,结合实际电网调度业务工作情况,对相关模式进行分析。结果表明,挖掘的部分行为模式与调度员日常操作流程相吻合,验证了所提方法的有效性。
按照发生频率选取调度员经常进行的画面浏览行为模式挖掘结果,如表5 所示。
表5 典型行为模式挖掘结果Table 5 Mining results of typical behavior pattern
其中,行为模式2 对应调度员日常工作中联络线守护的操作模式。在该业务场景中,调度员通过查看电网负荷监视、联络线监视曲线确定联络线是否运行在考核范围内,如果超出范围则需要查看AGC 运行监控确认是否有机组可进行反向调节[23]。
行为模式8 为故障发生后进行故障预演的操作模式。调度员一般通过断面越限和独立计算等功能预演出故障发生后的断面状态数据,作为后续决策的参考依据。
行为模式12 为调度员监视新能源出力受阻情况的模式,经常在上午发生。09:00—10:00 处于新能源机组出力爬坡时段,此时调度员需要时常查看新能源受阻情况和新能源监视等图形监控新能源机组的运行情况,确保新能源的消纳能力[24]。
行为模式14 对应调度员进行调频、调峰的模式。水电站是比较经济高效的旋转备用电源,当调度员需要进行一次调频、深度调峰等操作时,通常需要查看直调水电站的水位曲线、出入库流量等数据,以判断水电站的调节能力边界[25]。
基于本文的行为模式挖掘与操作推荐技术研发的调度操作智能推荐软件,为调度员的日常系统页面浏览和操作提供个性化、智能化推荐,整体推荐效果如附录A 图A2 所示。该系统以独立插件的方式与D5000 系统人机界面实现集成,在使用时调度员点击调度系统页面的悬浮图标,推荐界面会以滑动窗口的方式在页面右侧显示,效果如图A2 右侧推荐软件界面所示。
以行为模式2 和14 为例,说明智能操作推荐的效果。如附录A 图A2 所示,当调度员进入“电网负荷监视图”后,智能操作推荐软件结合模式2 自动推荐出调阅“AGC-运行监视”“联络线监视曲线”等关联界面,结合模式14 自动推荐出龙羊峡等水电站水位曲线和“水情信息监视”等关联界面,点击按钮可以直接跳转到相应页面。
以此场景为例,简单对比使用推荐软件前后的操作效果差异。行为模式2 原有系统从“电网负荷监视图”页面完成上述关联页面的跳转至少需要6 步操作,分别为:1)打开“系统首页”;2)打开“实时监视”;3)打开“AGC-运行监视”;4)返回“系统首页”;5)打开“联络线考核主界面”;6)打开“联络线监视曲线”。而使用智能推荐功能只需要一键直接打开“AGC-运行监视”和“联络线监视曲线”画面,操作步骤由6 步简化至2 步,操作效率提升了约70%。
行为模式14 原有系统至少需要经过5 步操作才能完成上述操作,分别为:1)在龙羊峡水位数据上右键单击;2)在弹出的右键菜单上点击“今日曲线”选项,打开“龙羊峡水位曲线”画面;3)返回“系统首页”画面;4)打开“稳态监控”画面;5)点击水情信息按钮,打开“水情信息监视”画面。而使用智能推荐功能只需要一键直接打开“龙羊峡水位曲线”和“水情信息监视”画面,操作步骤由5 步简化至2 步,操作效率提升了约60%。
以上述调度会话为例,分析使用推荐工具带来的效率提升,如图6 所示。未使用推荐工具时完成会话需要的操作步数为1 778;使用推荐工具时完成会话需要的操作步数为1 116。通过统计分析,使用推荐工具时可以减少约37.2%的页面跳转流程,显著提升了调度员在调度系统上的交互效率和便捷性。
图6 工作效率对比Fig.6 Comparison of operation efficiency
此外,本软件系统还可提供依据操作热点统计的操作排行推荐、依据固定时段操作模式的定时操作推荐等多种操作推荐模式。例如对于行为模式12,推荐软件会在09:00—10:00 直接定时推荐出当下调度员需要执行的打开“新能源监视图”、查看“新能源机组负荷曲线”等操作,无须频繁跳转到相关页面进行操作,通过对定时操作的智能提醒与一键交互,可以高效地辅助调度员完成操作任务。
本文主要阐述了基于调度员的历史操作数据,结合机器学习、数据分析等方法对调度操作行为模式进行挖掘与推荐的技术。通过在实际调度系统中的验证分析,表明挖掘出的调度员操作模式与实际电网调度业务具有高度一致性,验证了该技术的有效性。此外,该技术采用了FP-tree 数据结构存储模式数据,并在此基础上通过在线匹配、置信评估等方法为调度员提供了准确的推荐服务和便捷的操作方式。
总的来说,调度员操作行为模式挖掘与推荐技术在改善调度员与调度系统交互方式、减轻调度员工作量、提高调度员工作效率等方面有显著的提升。但是本文提出的模式挖掘与操作推荐技术目前仍只适用于日常相对固化的流程性业务模式,在电网故障或异常等紧急场景下并不适用。当电网发生故障时,运行人员须结合电网运行数据、影响情况和处置经验进行针对性的处置,并且处置过程的部分操作不是通过系统而是通过电话或其他手段实施的,完整的处置记录很难准确获取。因此,在上述紧急场景下,如何结合电网运行情况和调度业务数据的复杂场景进行操作推荐,是后续研究的方向。
附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。