基于活动恢复集的有效低频行为分析方法

2024-08-17 00:00:00任紫薇王丽丽左殷恺
计算机应用研究 2024年7期

摘 要:低频行为识别是揭示业务流程重要信息和优化流程模型的方法之一,现有流程发现方法忽略了数据影响链对低频行为产生的影响,导致了一些低频行为被视为噪声直接过滤掉。针对这一问题,提出了一种基于活动恢复集的有效低频行为分析方法。首先根据事件日志中的行为重要性过滤日志,并构建初始流程模型;其次从事务日志中提取活动的输入输出数据项,并根据这些数据项构造活动影响链图,在此基础上获取每个活动基于迹的活动恢复集;最后根据活动恢复集来计算每条迹的行为容忍度以区分有效低频行为和噪声。实验结果表明,与其他方法相比,该方法能够有效区分有效低频行为与噪声,并且从拟合度、精度以及简单性方面提高了流程模型的质量。该方法考虑了由活动恢复集而导致的偏差情况,可以成功识别事件日志中的有效低频行为,从而优化了流程模型。

关键词:行为重要性; 有效低频行为; 数据影响链; 恢复集; 行为容忍度

中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2024)07-012-2005-07

doi:10.19734/j.issn.1001-3695.2023.11.0567

Effective infrequent behaviors analysis method based on activity recovery sets

Abstract:Infrequent behavior recognition is one of the methods to reveal important information about business processes and optimize process models. Existing process discovery methods have overlooked the impact of data influence chains on infrequent behavior, resulting in some infrequent behavior being considered as noise and filtered out directly. To address this issue, this paper proposed a novel infrequent behavior analysis method based on activity recovery sets. Firstly, it filtered the event logs based on the importance of behavior and constructed an initial process model. Secondly,it extracted input and output data items of activities from transaction logs, and constructed an activity influence chain graph based on these data items. It obtained activity recovery sets based on these graphs. Finally, it calculated the behavior tolerance of each trace using the activity recovery sets to distinguish effective infrequent behavior from noise. The experimental results indicate that, compared to other methods, this study effectively distinguishes valid infrequent behaviors from noise and improves the quality of the process model in terms of fitness, precision, and simplicity. This method considers the biases caused by the activity recovery set and successfully identifies valid infrequent behaviors in event logs, thereby optimizing the process model.

Key words:behavioral importance; effective infrequent behavior; data impact chain; recovery sets; behavioral tolerance

0 引言

随着工业互联网时代的到来,业务流程复杂性也随之增加,现在很多企业都开始通过业务流程管理来改进传统以人为中心的信息系统,从而提高企业工作效率。流程挖掘是业务流程管理的核心技术之一,主要是从复杂的事件日志中提取有用的信息,进而构建业务流程模型来促进企业发展。流程挖掘主要包含三个部分:流程发现,主要通过事件日志自动构建一个流程模型;一致性检查,主要分析已构建的流程模型与事件日志之间的差异;模型增强,主要通过事件日志来改进和增强流程模型。目前事件日志数据呈指数级增长,业务流程变得越来越复杂,事件日志随之也变得越来越复杂,生产制造中的突发情况、多场景业务融合等都会造成更多低频行为的出现,其中有些低频行为(如飞机的逃逸行为,保险赔付中的骗保行为)是由于某些难以满足的条件而导致其出现频次很低,但它们在现实系统的运行中往往起着至关重要的作用,这类低频行为是有效低频行为,正确识别有效低频行为对提高业务流程的建模质量尤为重要。近年来的研究考虑了低频行为,文献[1]提出一种基于全局事件日志构建日志自动机,根据给定阈值删除不频繁弧,从而过滤事件日志中不频繁的行为。文献[2]提出了一种基于最大概率路径的算法来分析活动的分布状态和行为之间的强转移关系。首先使用条件概率熵对不频繁的日志进行预处理,以去除轨迹中分布极不规则的单个噪声活动,然后基于活动的状态转移信息从日志中提取有效序列。文献[3]通过抽象低频行为来简化流程模型,即使用存储在事件日志中的静态历史数据无差别过滤低频行为。文献[4]进一步提出了一个事件处理器,能够从实时事件流中过滤掉低频行为,从而改善在线流程挖掘结果。文献[1~4]虽然研究了低频行为,但是他们都将这些低频行为直接识别为噪声删除,忽略了低频行为中的有效低频行为对业务流程产生的影响。

基于此,文献[5]提出了一个从流程模型中检索非频繁行为模式的算法—WoMine-I,该算法可以检测流程模型的不频繁子结构,进而通过这些不频繁子结构执行优化流程模型。文献[6]通过用流程树切的直接流图表示日志的行为关系,并与初始模型作匹配,发现所有的低频序列,计算日志与模型的行为距离向量,基于行为紧密度区分有效低频日志和噪声日志,优化事件日志。文献[7]提出了基于Petri网行为紧密度的有效低频模式分析方法,先根据事件日志建立流程模型,然后通过迭代扩展初始模式来发现流程模型中的所有低频日志序列,并在此基础上计算日志与模型的行为距离向量,最后利用日志与模型的行为紧密度找出有效的低频行为模式。

由于文献[5~7]主要是基于控制流视角考虑有效低频行为,但是忽略了数据流视角,数据流对有效低频行为的识别也尤为重要。文献[8]进一步提出了一种基于数据感知启发式挖掘算法(DHM),该方法利用数据属性通过分类技术将非频繁路径与随机噪声区分开来。文献[9]从控制流和数据流结合的视角来进行有效低频行为分析,利用频繁模式和交互行为配置文件找出低频行为,然后通过条件依赖概率分析了数据流信息对非频繁行为的影响强度,从而提出了一种基于数据感知的频繁模式的有效低频行为识别方法。

综上所述,现有研究虽然采用了数据流和控制流结合的视角进行有效低频行为分析,但忽略了由于数据变化引起的数据影响链产生的系列行为变化,进而产生低频行为,这些低频行为对有效低频行为识别与优化流程模型至关重要。因此,本文重点基于数据变化对流程活动执行产生的联动影响来分析有效低频行为,提出了一种基于活动恢复集的有效低频行为分析方法。第一步首先根据给定的事件日志计算迹变体直接跟随关系分数来筛选包含更多重要直接跟随关系的迹,然后通过筛选出的迹构建初始流程模型。第二步根据事件日志中迹的频率筛选出低频行为,然后根据事件日志的活动影响链图找出低频行为中每个活动基于迹的恢复集,最后计算每条迹的行为容忍度来区分有效低频行为与噪声。本文在业务流程执行中引入多视角一致性检查和有效低频行为识别,该方法将低频事件日志数据化,通过行为容忍度这一衡量标准来区分有效低频行为与噪声,并通过服装生产的数据集和公开数据集BPI Challenge 2017对其适用性进行了评估。实验表明本文方法不仅可以识别其他方法不能识别的有效低频行为,还可以在不显著降低精度的基础上提高流程模型的拟合度。其主要贡献如下:a)不同于基于频率过滤事件日志的方法,提出了通过计算事件日志中迹变体直接跟随关系得分以判断其行为重要性的方法,从而更好地获得初始流程模型;b)通过分析活动的输入和输出数据,提出了采用活动影响链图以分析数据流和控制流间的相互影响关系,为有效低频行为的识别提供了理论基础;c)基于活动影响链图,进一步提出了基于活动恢复集的行为容忍度计算方法,以实现有效低频行为的识别。

1 动机例子

当今,工业互联网迅速发展,与各个生产制造相结合促进生产业快速发展[10]。在智能制造的过程中,特定情况下的数据修改会对业务流程产生一系列影响,导致活动序列发生频次很低,进而在流程挖掘中被忽略。为了研究这些低频行为也会对流程挖掘产生影响,下面将用一个例子来进行说明。如表1所示,给出了一个服装生产的部分事件案例。其中A为订单开始,B为样品预生产,C为客户审核,D为输入订单规模,E为计算报价,F为制定生产计划,G为分配库存,H为请求采购, I为储备库存,J为开始生产,K为抽样检查产品,L为生产完成,M为输入交货地址,N为选择运输方式,O为计算运输成本,P为开始配送,Q为结束订单。

现实生活的生产制造过程中,客户可能会在工厂已经准备发货后由于一些突发原因修改订单的数量。虽然这种突发情况比较少见,但从现实角度思考它是非常合理的。如迹σ15表示这个订单在已经准备好库存后进行了订单数量的修改,因此在开始准备库存后重新执行计算报价和修改生产计划是合理的。即σ15虽然是一个低频行为,但是从实际角度出发它是一个有效的低频迹。表1中存在一些类似的低频行为,如σ11~σ16,如果仅考虑控制流视角来挖掘流程模型,这些低频迹会被当成噪声直接过滤掉以获得简单的业务流程模型,但这些低频迹中可能存在对业务流程有意义的有效低频行为。如果从控制流和数据流相结合的视角考虑,即在考虑控制流的基础上考虑活动之间的数据影响,这些低频行为可能会为业务流程提供更多有价值的信息。在服装生产销售实际流程中,会存在一些由于突然事件而造成的低频行为,如迹σ15,通过分析发现,这条迹在执行储备库存活动I之后又重新执行输入订单规模活动D,由于输入订单规模D的再次执行,导致执行计算报价活动E和制定生产计划活动F相继重复发生。后续重复执行的活动子序列〈E,F〉是导致迹σ15低频出现的关键子序列。现有的流程模型挖掘算法未深入分析由一个活动的偏差执行导致一系列活动相继偏差执行的原因,从而导致类似σ15这样的低频迹直接识别为噪声过滤,使构建的流程模型不能真实地描述系统运行的实际操作。图1是基于频次的归纳式挖掘算法[11]挖掘出的流程模型,可以发现σ15等一些低频迹无法在图1所示的流程模型上重演。

在实际业务流程中可以发现,σ15这条迹是具有现实意义的,对于σ15,当第二次执行输入订单规模D后会改变订单的数量,而订单数量这个数据项会影响后续以它作为输入的多个活动的发生,如〈E,F〉。因此一个活动发生偏差后可能会导致一系列活动受影响,如σ15中由于活动D的偏差执行,导致了活动子序列〈D,E,F〉重复发生,从而使得σ15低频出现。因此,针对这种由于某一个活动的偏差发生而引起一系列后续活动相继重复发生而导致的低频行为开展研究,并提出了活动恢复集的低频行为识别方法。

2 基本概念

Petri网是分布式系统的建模和分析工具,它可以描述系统中进程或部件的顺序、并发、冲突以及同步关系等,本文将使用Petri网对流程进行建模,本章给出了本文中使用的几个术语的基本定义。

可见,网PN=(P,T,F,C)的基本元素集合是P和T,在Petri网中,分别使用圆圈和方框表示。

在本文中,使用多重集DL表示事件日志L中的所有直接跟随关系。

3 基于恢复集的有效低频行为分析

本章主要介绍了基于活动恢复集来发现有效低频行为的方法,并给出相应的算法。该方法不仅可以解决现存流程挖掘技术只注重发现频繁行为而忽略低频行为的问题,而且通过将控制流和数据流相结合的视角来发现有效低频行为,实现了流程模型增强的目的。首先通过迹变体直接跟随关系分数筛选包含更多重要直接跟随关系的迹,并利用这些迹构建初始流程模型;其次通过判断事件日志中迹的频率是否小于阈值来发现低频行为;进而通过数据影响分析从事务日志中获取活动恢复集以分析低频行为,并从中识别有效低频行为,最后通过有效低频行为进行模型增强。该方法的研究框架如图2所示。3.1节给出了通过捕获事件日志中的重要行为来发现初始流程模型的算法,3.2节给出了一些相关定义和一个基于恢复集的有效低频行为识别的算法。

3.1 基于行为重要性过滤事件日志

流程发现是流程挖掘的主要分支之一,旨在发现一个流程模型,该模型能准确描述事件日志中的数据所捕获的底层流程[15]。本节通过捕获事件日志中的重要行为来发现流程模型[16],该方法可以在减少挖掘时间的同时,保证挖掘出的模型质量。

首先遍历事件日志L找到流程变体LT,然后遍历LT找到所有直接跟随关系,并将它们放入多重集DL。直接跟随关系a>Lb的频率F(a>Lb) 的计算方法如式(1)所示。本文将F(a>Lb)作为直接跟随关系a>Lb行为重要性的判别标准。

其中:|a>Lb|表示a>Lb这个直接跟随关系的数量;|DL|表示事件日志LT中包含的所有直接跟随关系个数之和。计算出每个直接跟随关系的频率后,遍历DL去除多重集DL中重复的跟随关系得到Dl,并按照每个直接跟随关系的频率从小到大进行排序。设置一个阈值θ,选出F(a>Lb)的直接跟随关系多重集集合P,其中P∈Dl。当阈值θ选择过大时,可能体现不出筛选重要跟随关系的作用,当阈值θ选择过小时,可能会丢失一些重要的直接跟随关系,从而导致发现的流程模型质量较差。本文主要通过实验对比挖掘过程模型的质量来选择一个相对最优的阈值θ作为基准阈值,具体步骤见第4章节实验部分。

例如:有一个事件日志L=[ADB3,ACDB2,EF,CADB4],LT=[ADB,ACDB,EF,CADB],DL=[A>LD,D>LB,A>LC,C>LD,D>LB,E>LF,C>LA,A>LD,D>LB],F(D>LB)≈0.33,Dl=[A>LD,D>LB,A>LC,C>LD,E>LF,C>LA]。

本文通过选择包含P中更多直接跟随关系的迹来挖掘初始流程模型。首先将每个迹变体直接跟随关系分数Sγi的初始值设置为0。如果迹变体包含P中的一个直接跟随关系,则将Sγi加1来增加其重要性。否则,如果迹变体包含不属于P的直接跟随关系,则将Sγi减1来降低其重要性。例如,对于迹变体γ=〈e1,e2,…,en〉,如果任意i∈{1,2,…,n-1},ei>L ei+1∈P,Sγ+1,否则为Sγ-1。算法1主要通过行为重要性过滤事件日志。其实现思想是根据日志L中所有迹变体的直接跟随关系分数从高到低对迹变体进行排序,然后从高到低选择迹变体添加到日志L′中,最后通过筛选后的事件日志L′得到一个初始流程模型,具体如算法1所示。

算法1 根据行为重要性筛选事件日志

第1、2行首先遍历事件日志L,得到流程变体LT,然后遍历LT得到所有的直接跟随关系的多重集DL;第3、4行计算多重集DL中每个直接跟随关系的频率F(a>Lb),在第5行遍历DL,去除多重集DL中重复的元素得到Dl;第6、7行按照每个直接跟随关系的频率从大到小进行排序,然后选择直接跟随关系频率大于θ的直接跟随关系多重集集合P;第8、9行初始化迹变体分数Sγi的初始值为0;第10~15行遍历所有迹变体,判断是否包含P中直接跟随关系,如果包含则令Sγi加上1来增加其状态,否则减1;第16~19行根据它们在LT中的分数从高到低对所有迹变体进行排序,然后从高到低选择迹变体, 并将选定的迹变体附加到子日志。通过对事件日志中的迹重要性进行判断,进而得出一个初始的模型,方便后文的有效低频行为分析。

3.2 基于数据影响分析有效低频行为

为了区分事件日志中的低频行为是有效低频还是噪声,本节基于数据影响分析提出识别有效低频行为的算法。

定义4 输入-活动-输出IAO[17]。IAO是一组三元组(in,Act,out),其中in,out∈Data_I∪{null},Data_I是一组数据项,即输入数据项in经过活动Act,输出对应的输出数据项out。

表2是本文第1章节中示例的部分IAO集。例如,订单ID是样品预生产(B)的输入数据,样品审核结果是样品预生产(B)的输出数据。

在日志移动时,检索由给定活动更改的所有数据项,通过数据影响分析识别可能受到这些数据项影响的所有活动[18]。为了方便对活动进行数据影响分析,通过表2画出部分事件日志的活动影响链图,如图3所示,每个灰色虚线框里面的活动表示受其对应活动更改的所有数据项的活动。例如〈客户审核、结束订单〉这两个活动会受到〈样品预生产〉这个活动影响。给定一个事件日志L,A表示事件日志L中所有的活动集合,给定一个活动e,用RS(e)表示受活动e影响的所有活动集合,本文称RS(e)为活动e的影响集。例如,从图3中可以看出RS(D)={E,F,G,H,I,N,O}。

根据事件日志的IAO集检索活动e更改的所有数据项,应用数据影响分析识别可能受到这些数据项影响的所有已经执行的活动。由于事件日志L中活动不会同时出现在同一条迹中,所以进一步给出了恢复集的概念。

定义6 恢复集[17]。给定一条迹σ,e是对齐γ中发生日志移动的事件。Aff(e)是受e影响的所有数据项的集合,e关于σ的恢复集定义为RC(e, σ)=∪d∈Aff(e)DI(d,σ)。

假设给定一条迹σ=〈A,B,C,D,E,F,G,J,K,Q〉,由于活动D的影响集为RS(D)={E,F,G,H,I,N,O},则活动D基于σ的恢复集为RC(D,σ)=〈E,F,G〉。定义6的恢复集表示,在迹σ中,由活动e的输出数据改变导致的后续受影响的发生活动集合。后续章节将采用活动恢复集来识别有效低频行为。

当检测到日志移动时,首先判断发生日志移动的活动a是否是由某个前驱活动b的数据影响而导致的移动,即判断活动a是否属于发生日志移动的前驱活动b的恢复集a∈RC(b, σ)。若是,说明活动b的偏差执行是由活动a导致的,因此活动b产生的日志移动成本代价将被忽略。引入活动恢复集的概念后,传统的流程模型于迹的偏差对齐计算方法将不再适用,定义7将进一步给出行为容忍度的概念,该定义在计算模型和迹的偏差对齐成本时考虑了由活动恢复集而导致的偏差情况。

定义7 行为容忍度。给定一个事件日志L={σ1,…,σm},σi表示事件日志L中的一条迹,则这条迹σi的行为感容忍度为

其中:Clog、Cmod、Crec、Cre分别表示这条迹对应的日志移动、模型移动、恢复移动,恢复集中未执行预期活动的成本代价;|Mlog|、|Mmod|、|Mrec|分别表示发生日志移动、模型移动、恢复移动的次数;|Mre|表示在回溯完整条迹后,尚未执行的预期活动RE列表中剩余所有活动的个数。日志移动表示流程模型中发生的活动在事件日志中没有发生而产生的移动;模型移动表示迹中发生的事件在流程模型中没有发生而产生的移动;恢复移动表示属于某个前驱活动的恢复集中的活动产生的日志移动;未执行的预期活动表示当整条迹已经分析完成,所有活动基于迹的恢复集中本该执行实际却未执行的活动。

以第1章动机例子的σ15〈A,B,C,D,E,F,H,I,J,D,E,F,K,M,N,O,P,Q〉为例,与图1所示的模型进行一致性检查,构建一条对齐[19],如表3所示,其中(D,>>)为日志移动、(>>,L)模型移动、{(E,>>),(F,>>)}为恢复移动、{ H,I }为未执行预期活动。

本文中将Clog和Cmod的大小设置为1。Crec为恢复移动的成本,恢复移动是基于某个前驱活动的恢复集而产出的移动,即此活动发生的移动是由前驱活动导致的偏差,因此,在计算偏差代价时,可以将其忽略不计,本文将其成本设为0。Cre为恢复集中未执行预期活动的成本,其表示在恢复集中本该执行实际上没有发生的活动成本,因此本文将其设置为1。设置阈值φ,如果一条迹的行为容忍度大于阈值φ,则认为这条迹是有效的。当阈值φ选择过大时,会将一些有效低频行为识别为噪声,当阈值φ选择过小时,可能会将一些噪声识别成有效低频行为。本文φ主要是基于实验数据,通过实验验证来进行选择,具体步骤见第4章节实验部分。算法2主要通过计算迹的行为容忍度来区分有效低频行为。该算法首先通过事务日志获取每个活动的输入数据项和输出数据项,然后通过数据影响分析识别和检查数据项对其他业务流程元素的影响,通过遍历事件日志,得到每个活动的恢复集,从而计算每条迹基于模型的行为容忍度,以实现有效低频行为的识别。

算法2 基于恢复集分析有效低频行为

第1~3行根据事件日志L中迹的频率选出低频日志L_inf;第4~13行将这些低频日志L_inf结合过程模型进行一致性检查,构造一个一致性对齐列表M,并根据规则求出每个活动的恢复集;第14行初始化RE为空集,其表示为一条迹上尚未执行的预期活动的集合;第16~29行表示在对齐M的基础上,动态更新尚未执行的预期活动的RE列表;第30~34行通过定义7求出每条迹的行为容忍度,将日志L_inf中的低频行为识别为有效低频和噪声。

4 实例分析

本章针对第1章中服装生产制造的案例和BPI Challenge 2017的公开数据集进行实验分析,并将本文方法与现有方法进行对比分析,并对结果进行讨论。首先将本文方法在区分有效低频行为方面与其他方法[7,20]进行比较,然后通过将不同级别的罕见行为注入到现实日志中时,评估发现流程模型的质量。实验运行环境是Intel i7-6500处理器和8 GB RAM。

4.1 服装生产案例实验分析

4.1.1 根据行为重要性构建流程模型

首先遍历表1中事件日志L,找到流程变体LT,然后遍历LT找到所有直接跟随关系的对象,计算直接跟随关系a>Lb在整个多重集中的频率F(a>Lb)作为选择标准,如表4所示。本文给定选择F(a>Lb)的阈值θ,从而选出符合阈值要求的直接跟随关系多重集集合P。阈值θ的选取会影响流程模型的拟合度以及发现此流程模型的时间,为了选择相对合适的θ值,本文设计一个实验来进行验证,实验结果如图4所示。从图4中发现拟合度和时间是随着θ增长而逐渐增加的,当阈值θ从0.9调整到0.95时,挖掘模型的拟合度只增加了0.005,然而挖掘模型所用的时间同比增加了31.78%,因此通过对比本文选择θ=0.9时的直接跟随关系多重集集合P更合适。

通过3.1节中的方法计算所有迹变体的分数之后,根据它们在LT中的分数从高到低对所有迹变体进行排序。最后,从高到低选择迹变体,并将选定的迹变体添加到日志L′。最后通过日志L′得到一个相对合理的流程模型,如图5所示,并计算出其流程模型的拟合度fitness(M)=0.953。与现有的流程挖掘算法相比,虽然构建的流程模型的拟合度不是最高的,但是在考虑时间因素的基础上,通过实验验证本文方法是相对最优的,实验结果如表5所示。

4.1.2 有效低频行为识别

首先,从表1的事件日志中选择频率低于阈值τ的低频行为,本文设置τ=0.2,因此将频率低于0.2的迹认定为低频行为,进而选出的低频事件日志{σ11,σ12,σ13,σ14,σ15,σ16},并按照实例数从多到少进行排序,结果如下:{〈ABCDEFGJKMNONOPQ〉13,〈ABCDEFHIJKLMNOMNOPQ〉11,〈ABCDEFHIDEFJKLMNOPQ〉10,〈ABCDEFHIJDEFKLMNOPQ〉8,〈ABCDEFHIHIJKMNOPQ〉6,〈ABCCEGMOQ〉3}。下面将低频迹与图5所示的流程模型进行控制流对齐,其中σ11的对齐结果如表6所示。

根据活动影响链图求出每个活动基于这条迹的恢复集,同样以σ11为例,通过图2得到活动N基于σ11的恢复集为RE(N,σ11)=〈O〉。根据每个活动的恢复集动态更新表5中的对齐,如果这个日志移动属于前面活动的恢复集中的活动,则将>>改为Ω,更新后的对齐如表7所示。

然后基于恢复集在构建的对齐表上进行重放,计算出迹σ11的行为容忍度DF(σ11)=0.941,同理计算出其他所有低频案例的行为容忍度分别为DF(σ12)=0.944,DF(σ13)=0.556,DF(σ14)=0.944,DF(σ15)=0.895,DF(σ16)=0.895。根据行为容忍的阈值判断出哪些低频行为是有效低频行为,阈值φ的选择会对模型优化的结果产生影响,根据上文计算的行为容忍度来观察,当φ的取值在0.6~0.9时均不影响优化结果。当φ取值大于0.9时,优化后模型的拟合度会低于当φ=0.85时优化后模型的拟合度,因为本文设置行为容忍度的阈值为0.85,从而判断出σ11,σ12,σ14,σ15,σ16为有效低频行为,而σ13可能是因为业务流程或系统原因而产生的噪声。利用σ11,σ12,σ14,σ15,σ16这些有效低频行为对图5所示的模型进行优化,优化后的模型如图6所示。

4.1.3 方法评估

针对第1章动机例子的数据,本节通过将本文方法(DAR)与LFB[7]、MP算法[20] 对比,来评估本文方法识别有效的低频行为的能力。对比结果如表8所示,从表8可以看出本文方法在识别有效低频行为上优于其他方法,而MP可能将不正确的低频行为(噪声)识别为有效的低频行为,并且通过实验验证了采用本文方法(DRA)进行优化后的模型质量优于其他两种方法。为了更全面地研究使用该方法对有效低频行为分析的影响,本文向服装生产事件日志注入5%、10%、15%的噪声,考虑在迹中的随机位置添加随机活动、随机删除活动以及在迹中交换活动这三种方式来添加噪声,然后分析不同阈值大小下拟合度、精度、简单性角度不同方法对比的结果,实验结果如图7~9所示。

从图7、8发现,在拟合度方和精确度方面,本文方法优于另外两种方法,首先因为这两种方法均没有考虑到数据视角,导致会把一些有效低频行为误认为噪声,进而使优化后的模型拟合度和精度相对较低。本文方法在注入5%、10%、15%噪声下的事件日志挖掘出的模型质量虽然有所下降,但对比另外两种方法仍然具有一定优势。在简单性方面,如图9所示,本文方法优于MP,与LFP相差不多。因为MP主要基于最大概率路径分析活动分布状态和行为间强传递关系来区分噪声活动和有效序列,导致一些噪声被识别成有效行为,进而导致挖掘的流程模型相对复杂。

实验结果表明,在对本文实验事件日志添加噪声之后,本文方法仍然表现出较好的有效低频行为识别能力,降低了假阳性的出现。所以利用本文方法识别出的有效低频行为对流程模型进行优化,在大部分情况下都是优于其他两种方法的。

4.2 公开数据集实验分析

为了证明本文方法具有一定的泛化能力,本节使用BPI Challenge 2017公开数据集进行实验分析。该数据集与荷兰金融机构的贷款申请流程有关,包含2016年通过在线系统提交的所有申请及其后续事件,具有31 509条迹,1 202 267个事件,26个活动。实验结果如图10所示。

通过图10可以发现,针对BPI Challenge 2017的事件日志,本文方法具有一定的优势。在拟合度方面,本文方法明显优于另外两个方法,这是因为LFB只是基于控制流考虑了子序列间的行为紧密度来进行识别有效低频行为,而MP方法同样只考虑了控制流,主要根据最大概率路径分析活动分布状态和行为间强传递关系和区分有效低频行为。在简单性方面比LFB这个方法差一点,可能是因为本文方法考虑的数据过于细致,导致挖掘出的流程模型相较于LFB方法复杂。

综上所述,本文方法在大部分的情况下都是优于其他两个方法,从而验证了其有效性。通过本文方法优化的模型具有较高的模型质量,说明基于活动恢复集来区分有效低频行为具有较高的准确性, 主要因为本文考虑活动输入输出数据的改变对此活动以及其后继活动产出的影响链,进而增加了有效低频行为的识别质量,然后通过计算迹的行为容忍度来区分有效低频行为和噪声,同时降低了噪声被识别为低频行为的可能性。

5 结束语

为了更好地区分有效低频行为与噪声,本文提出基于活动恢复集的有效低频行为识别方法。首先从事务日志中提取每个活动的输入输出数据项,其次根据活动输入输出数据项表构造活动影响链图,再从活动影响链图中得到每个活动的影响集,然后在考虑活动恢复集的基础上构建对齐,从而计算每一条迹的行为容忍度来区分有效低频行为和噪声,并且通过识别出的有效低频行为对初始模型进行优化。最后,本文使用合成和真实的事件日志进行评估,结果验证了本文方法可以识别其他方法不能识别的有效低频行为。同时本文方法可以在不显著降低精度的基础上提高发现流程模型的拟合度。在未来的工作中,考虑将本文方法应用到更多的工业互联网领域,以更好地验证提出方法的泛化能力,同时可以进一步结合机器学习等方法来优化数据影响链图。

参考文献:

[1]Conforti R, Rosa M L, Ter Hofstede A H M. Filtering out infrequent behavior from business process event logs[J]. IEEE Trans on Knowledge and Data Engineering, 2017, 29(2): 300-314.

[2]Sani M F, Van Zelst S J, Van der Aalst W M P. Improving process discovery results by filtering outliers using conditional behavioural probabilities[C]//Proc of International Conference on Business Process Management. Cham: Springer, 2018: 216-229.

[3]Chapela-Campa D, Mucientes M, Lama M. Understanding complex process models by abstracting infrequent behavior[J]. Future Gene-ration Computer Systems, 2020, 113: 428-440.

[4]Van Zelst S J, Sani M F, Ostovar A, et al. Detection and removal of infrequent behavior from event streams of business processes[J]. Information Systems, 2020,90: 101451.

[5]Chapela-Campa D, Mucientes M, Lama M. Discovering infrequent behavioral patterns in process models[C]//Proc of International Conference on Business Process Management. Cham: Springer, 2017: 324-340.

[6]郝惠晶, 方贤文, 方娜, 等. 基于Petri网的业务流程低频行为挖掘与优化分析[J]. 计算机集成制造系统, 2020,26(6): 1660-1667. (Hao Huijing, Fang Xianwen, Fang Na, et al. Low-frequency behavior mining and optimization of business process base on Petri net[J]. Computer Integrated Manufacturing Systems, 2020,26(6): 1660-1667.)

[7]郝惠晶, 方贤文, 王丽丽, 等. 基于Petri网行为紧密度的有效低频行为模式分析[J]. 计算机科学, 2019,46(2): 321-326. (Hao Huijing, Fang Xianwen, Wang Lili, et al. Analysis of effective low frequency behavior patterns based on Petri net behavior choseness[J]. Computer Science, 2019,46(2): 321-326.)

[8]Mannhardt F, De Leoni M, Reijers H A, et al. Data-driven process discovery—revealing conditional infrequent behavior from event logs[C]//Proc of International Conference on Advanced Information Systems Engineering. Cham: Springer, 2017: 545-560.

[9]Wang Lili, Fang Xianwen, Asare E, et al. An optimization approach for mining of process models with infrequent behaviors integrating data flow and control flow[J]. Scientific Programming, 2021, 2021: e8874316.

[10]Li Jianqiang, Yu F R, Deng Genqiang, et al. Industrial Internet: a survey on the enabling technologies, applications, and challenges[J]. IEEE Communications Surveys & Tutorials, 2017, 19(3): 1504-1526.

[11]Leemans S J J, Fahland D, van der Aalst W M P. Discovering block-structured process models from event logs containing infrequent beha-viour[C]//Proc of International Conference on Business Process Management. Cham: Springer, 2014: 66-78.

[12]Smirnov S, Weidlich M, Mendling J. Business process model abstraction based on behavioral profiles[C]//Proc of International Confe-rence on Service-Oriented Computing. Berlin: Springer, 2010: 1-16.

[13]Taymouri F, Rosa M L, Dumas M, et al. Business process variant analysis: survey and classification[J]. Knowledge-Based Systems, 2021, 211: 106557.

[14]Fani Sani M,Van Zelst S J,Van der Aalst W M P. The impact of biased sampling of event logs on the performance of process discovery[J]. Computing, 2021,103(6): 1085-1104.

[15]Pasquadibisceglie V, Appice A, Castellano G, et al. PROMISE: coupling predictive process mining to process discovery[J]. Information Sciences, 2022, 606: 250-271.

[16]Wang Mimi, He Xudong, Zhao Peihai. Process model enhancement through capturing important behaviors and rating trace variants[J]. IEEE Access, 2021, 9: 1zsdjK2vpPAr15BR51DgnmQ==43634-143660.

[17]Tsoury A, Soffer P, Reinhartz-Berger I. How well did it recover? Impact-aware conformance checking[J]. Computing, 2021, 103(1): 3-27.

[18]白少康, 方贤文, 钱陈婧. 基于数据影响的业务流程一致性检查方法[J]. 计算机应用研究, 2024, 41(2): 540-547. (Bai Shaokang, Fang Xianwen, Qian Chenjing. Business process conformance checking method based on data impact[J]. Application Research of Computers, 2024, 41(2): 540-547.)

[19]王丽丽, 向小阳, 方贤文. 基于日志聚类构造行为子集的近似一致性方法[J]. 计算机应用研究, 2022, 39(6): 1872-1878. (Wang Lili, Xiang Xiaoyang, Fang Xianwen. Approximate consistency method for constructing behavior subsets based on log clustering[J]. Application Research of Computers, 2022, 39(6): 1872-1878.)

[20]Lu Ke, Fang Xianwen, Fang Na, et al. Discovery of effective infrequent sequences based on maximum probability path[J]. Connection Science, Taylor & Francis, 2022, 34(1): 63-82.