基于BERT的多视角事件日志修复

2024-03-05 00:14张振虎王丽丽袁永旺
计算机应用研究 2024年2期

张振虎 王丽丽 袁永旺

收稿日期:2023-06-20;修回日期:2023-08-07  基金項目:安徽理工大学高层次引进人才科研启动基金资助项目(2022yjrc87);安徽省煤矿安全大数据分析与预警技术工程实验室开放基金资助项目(CSBD2022-ZD03);深部煤矿采动响应与灾害防控国家重点实验室开放基金资助项目(SKLMRDPC22KF12)

作者简介:张振虎(1997—),男,安徽亳州人,硕士研究生,主要研究方向为Pertri网理论及应用、过程挖掘;王丽丽(1982—),女(通信作者),安徽安庆人,副教授,硕导,博士,主要研究方向为Petri网、过程挖掘等(64460112@qq.com);袁永旺(1996—),男,安徽六安人,硕士研究生,主要研究方向为Petri网.

摘  要:在业务流程执行过程中,由于信息系统故障或者人工记录出错等问题导致事件日志中数据的丢失,从而产生缺失的事件日志,使用这种缺失日志会严重影响业务流程分析结果的质量。针对这种缺失日志的修复问题,现有研究大部分仅从数据视角或者行为视角进行展开,很少从数据和行为相融合的视角开展事件日志的修复工作。提出了一种基于BERT模型的多视角事件日志修复方法。该方法利用双层BERT模型,从数据和行为融合的视角训练模型,通过BERT模型的预训练任务((masked attribute model,MAM)和(masked event model,MEM))以及Transformer编码块的注意力机制捕获输入属性的双向语义信息和长期依赖关系,使用微调策略进行模型训练,以预测的形式修复事件日志中的缺失值。最后,通过公开可用的数据集进行评估分析,结果表明,该方法在修复事件日志方面表现良好。

关键词:缺失日志;数据和行为融合;多视角修复;双层BERT;微调策略

中图分类号:TP391    文献标志码:A

文章编号:1001-3695(2024)02-029-0515-06

doi:10.19734/j.issn.1001-3695.2023.06.0253

Multi perspective event log repair based on BERT

Zhang Zhenhua,Wang Lilia,b,c,Yuan Yongwanga

(a.College of Mathematics & Big Data,b.State Key Laboratory of Mining Response & Disaster Prevention & Control in Deep Coal Mines,c.Anhui Province Engineering Laboratory for Big Data Analysis & Early Warning Technology of Coal Mine Safety,Anhui University of Science & Technology,Huainan Anhui 232001,China)

Abstract:During the execution of business processes,data loss in event logs due to information system failures or manual recording errors and so on,resulting in the generation of the missing event logs,the use of such missing logs can seriously affect the quality of business process analysis results.Aiming at the problem of repairing missing logs,most of the existing research focus on data or behavioral perspective,and there is little work on repairing events log from the perspective of integrating data and behavior.Therefore,this paper proposed a multi-perspective event log repair method based on the BERT model.This method trained the model using a two-layer BERT model from the perspective of data and behavior fusion,and captured the bidirectional semantic information and long-term dependencies of input attributes by the BERT models pre-training tasks(masked attribute model (MAM) and masked event model(MEM))and the attention mechanism of the Transformer encoding block.Then it used fine-tuning strategies for training the model to repair missing values in the event log in a predictive manner.Finally,it carried out evaluation and analysis on publicly available datasets,and the results showed that the proposed method performs well in repairing event logs.

Key words:missing logs;data and behavior fusion;multi perspective repair;double layer BERT;fine tuning strategy

0  引言

流程挖掘是一门新兴信息研究科学领域,它为改进各种应用领域(如企业流程分析、医疗流程管理和制造业流程管理)中的过程提供了新的方法。流程挖掘包括流程发现、一致性检查、检查偏差、预测延迟、支持决策预定等[1]。流程挖掘允许分析人员利用业务流程的历史记录执行日志,以提取有关这些流程实际性能的见解。其中,自动化流程发现是最广泛研究的流程挖掘操作之一,通过将事件日志作为输入,自动生成业务流程模型[2],从而捕获日志的执行过程,这促使很多学者对如何准确、快速地通过分析事件日志发现流程模型作出了很多研究[3~6]。流程挖掘通过事件日志中记录的活动,自动识别事件日志中活动的执行序列,解释流程实际执行的过程,从而发现流程模型。近年来,现有研究大多数致力于如何通过结构良好的事件日志发现精确、可读的过程模型[7,8]。然而,来自现实世界业务流程的许多事件日志在高度灵活的环境(如医疗保健、预测监控、决策控制)中包含相当复杂的工作流程,这导致即使发现了业务流程,也是不可读的,对于最终结果的分析显然也是比较困难的。最终业务流程的分析与事件日志的质量亦是密不可分的,现有的流程发现方法都是依赖于完整的事件日志,然而在现实生活中是不现实的,一旦事件日志包含缺失的数据,对于发现准确的流程模型来说是异常困难的。因此,修复事件日志中的缺失数据就成了流程挖掘的一个重要研究项目[9~12]。

已有的事件日志修复包含基于模型的修复[13~17]和不使用模型的修复[18–21]两种类型,这些方法或是从行为的视角出发,或是从数据属性的视角出发,修复事件日志中缺失的各种属性。因此,现有方法仅限于从单个视角修复事件日志的缺失值。本文提出了一种基于双层BERT的事件日志修复方法,从属性和行为融合的视角,利用属性之间的关联性以及事件之间的依赖关系修复事件日志中的缺失值。

1  背景介绍

事件日志的质量问题最早是在过程挖掘宣言[22]中研究的,其中将事件日志的质量分为5星,不同的阶段对应过程挖掘的不同操作,例如:流程挖掘分析可以应用于处于3、4或5星的事件日志。迄今为止,针对事件日志质量的研究分为事件日志维度的框架[23~25]和提高事件日志质量的方法[26~28]两大类。本文研究的目标是第二类,通过修复事件日志来提高事件日志的质量。事件日志修复无非从从数据流的视角和行为(即控制流)的视角两个方面进行研究。

从行为的视角修复事件日志,即利用事件日志行为依赖性修复日志。文献[11]针对的是每个迹中有一个缺失活动的日志,通过迹相似的方法将日志进行迹聚类,将缺失迹归类为最相似的子日志并考虑缺失迹的频率,从而弥补缺失的数据以得到更完整的流程模型。針对活动的行为关系,文献[12]还考虑了顺序和并发关系,将事件日志转换成一个继承关系矩阵,使用与文献[11]相同的SOM算法将事件日志聚类成不同的子日志,通过将不完整迹分配给与之最相似的子日志对不完整迹进行修复,以确保修复结果的准确性。文献[13]通过结合随机Petri网、对齐和贝叶斯网络修复日志中缺失的事件,通过广义随机Petri网的迹变体的对齐问题计算路径概率来确定日志中可能丢失的事件,利用贝叶斯网络计算可能插入事件的时间戳。文献[29]提出了基于过程分割和轨迹分割的启发式算法来精简搜索空间,使用有效的启发式方法和迹重放寻找最优对齐,从而提高搜索效率。文献[30]提出了基于LSTM的神经网络模型来预测缺失事件,将缺少活动标签的事件的前缀和后缀作为输入,并利用其他属性来提高性能。文献[31]提出了一种结合行为特征的卷积神经网络模型,根据活动之间的行为关系将业务流程中的事件日志转换为图像矩阵,继而通过卷积神经网络模型训练预测缺失的活动标签。

事件日志除了行为之间有依赖性,属性之间也是有相关性的,因此从数据流的视角修复事件日志也是修复日志的主流视角。文献[14]基于时间和数据的视角,使用随机Petri网,对齐并将其转换为贝叶斯分析来修复事件日志,从而提高过程挖掘模型的性能。文献[18]通过检测和修复给定事件数据的异常行为修复事件日志,通过检测在特定环境中活动发生频率的概率,检测并删除异常行为,没有考虑行为关系。文献[19]的目标是重建必须发生但未记录事件的时间戳的边界,将流程用例分解为在共享事件下同步的案例和资源的token轨迹,通过使用标记轨迹上的线性规划导出为观测事件的时间戳。与前面技术不同,文献[21]提出了一种基于自编码器的方法在事件日志属性级别检测异常值并重建缺失值,在编码过程中学习输入数据的隐藏分布,而在解码过程中利用编码时发现的参数重新获得输入数据,并且不需要任何关于生成日志过程先验领域知识。然而它在重建时间戳方面的性能表现的很差,针对这个问题,文献[32]描述了一组基于时间戳的指标,用于检测和修复事件日志中的事件顺序缺陷问题。文献[33]提出了一种自动纠正业务流程事件日志中同一时间戳错误的方法,该方法首先检测具有相同时间戳的事件的正确顺序,然后根据流程活动持续时间的多模态分布,为每个重新排序的事件分配新的时间戳。

2  基本概念

2.1  基本定义

定义1  事件和属性。业务流程中任一事件e是其对应的活动a∈A在某个时刻的执行步骤,每个事件e的执行包含案例id、事件id、活动名称、时间戳、资源、成本等,被定义为e={case id,event id,activity,timestamp,resource,cost…} ,其中case id为e所属流程实例,event id为事件e的编号,activity为e执行的活动名称,timestamp为执行的时间戳。本文把这些称为事件e的属性。

定义2  迹和事件日志。迹σ是若干事件组成的有序序列,记为σ=〈e1,e2,…,en〉,其中n为迹σ的长度。事件日志L是迹σ的集合,记为L=〈σ1,σ2,…,σL〉。

如表1为一个完整的事件日志片段案例,其中包含三条迹,每条迹有不等数量的事件,共计19个事件,每个事件包含case id、event id、activity等六个属性。

定义3  缺失属性和缺失事件。令事件e=〈attr1,attr2,…,attrn〉为迹σ的一个执行事件,若存在attri∈e为空,则称事件e为缺失事件,attri为缺失属性。

定义4  缺失迹和缺失日志。令σ=〈e1,e2,…,e|σ|〉为业务流程中事件日志的一条迹,若存在事件ei∈σ为缺失事件,则称迹σ为缺失迹,而事件日志L=〈σ1,σ2,…,σL〉为缺失日志。

如表2为表1完整日志的一个缺失案例,其中迹1为缺失迹,事件35654424、35654425、35654426为缺失事件,属性activity和resource为缺失属性。

2.2  BERT模型

BERT是一个预训练的表征模型,同时在11个NLP(natural language processing)领域取得了最先进的成果[34]。它改变了传统的采用单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,缓解了单向语言模型对预训练表征的限制。采用新的双向Transformer语言表征模型,缓解了单向性约束。与传统的左右语言模型只能获得单向上下文信息不同,BERT模型采用新的预训练目标MLM(masked language model)进行,能够融合左右上下文的信息,生成包含上下文信息的深度语言模型。

BERT模型的架构如图1所示。词嵌入、分割嵌入和位置嵌入三个嵌入特征的总和构成了BERT模型的输入,BERT的模型架构采用的是双向Transformer编码器,多头注意力机制使得BERT能够在不同层次提取关系特征,进而更全面反映了句子语义。因此,BERT更彻底地捕获了基于所有级别的左右上下文句子中的长期双向依赖关系。BERT的本质是一个自监督的语言模型。首先,在大型语料库上采用预训练任务训练BERT模型,以获得上下文信息和释义。然后,根据数据对模型进行微调,根据目标任务转移到下一个任务模块。

3  基于BERT的事件日志修复方法

可以发现,由于系统故障以及记录错误等原因,很难保证现代信息系统中复杂事件日志的完整性,一旦事件日志中缺失数据,那么对于流程发现,一致性检测、偏差分析等的结果将会造成一定的偏差。所以,确保事件日志的完整性对于过程挖掘来说至关重要。

本文提出的修复事件日志的方法主要包括以下几个步骤:a)预处理事件日志,将事件日志分为训练集和测试集,并且将训练集的各个属性输入到嵌入层以转换成向量表示;b)利用属性之间的关联性在第一层BERT中学习属性之间的关联关系;c)基于上下文信息预测事件日志的属性缺失值;d)在自注意力层提取事件特征向量,并为不同类别属性分配权重;e)在第二层BERT中学习事件之间的依赖关系;f)基于上下文预测事件日志中缺失事件。修复缺失日志的框架如图2所示。

3.1  数据预处理

给定一个事件日志,首先需要将事件日志拆分为训练集和测试集,本文将事件日志的80%数据集作为训练集,用于模型训练,20%的数据集作为测试集,用来验证模型的有效性。

为了将数据集输入到模型中,必须把数据集输入到嵌入层,将事件日志转换为向量形式。本文将事件的各种属性通过embedding编码为向量表示。图3为本文的编码形式,由token embeddings、segment embeddings和position embeddings三个embedding组成。编码结构如图3所示。

1)attribute embeddings  attribute嵌入层的作用是将输入文本转换为固定维度的向量表示形式。attribute向量化是使用一种word piece token化实现的,通过开始([CLS])和结束([SEP])两个额外的token将分类任务的输入分割为一个一个的文本段。如表1事件日志中的迹1部分输入的attribute embeddings为(“[CLS]” “1” “35654423”“register request” “30-12-2010:11.02” “Pete” “50” “[SEP]” “1” “35654424”… “[SEP]”)形式的一个128维向量。

2)segment embeddings  字段嵌入层的作用是处理多个输入的分类任务,目的是区分输入文本中是否是语义相似的。如表1中迹1的5个事件,第一个事件的各个attributes赋值为0,第二个事件的各个attributes赋值为1,依此类推。结果为(0000000011…)形式的128维向量。

3)position embeddings  位置嵌入层的作用是確定输入文本编码序列的顺序性,例如:表1中迹1的第1和2个Pete应该用不同的向量表示,在这里第1个Pete应该是位置1,而第2个Pete是位置5。

三个嵌入层最终的形式都应该是(1,n,128)的向量表示形式,最终的向量是将三个嵌入层的向量按元素相加,相加总和即是BERT编码层的输入。

3.2  修复事件日志

BERT模型是一个多任务处理的神经网络模型,包含MLM(masked language model)和NSP(next sentence prediction)两个预训练任务。本文主要研究如何通过预训练任务预测事件日志中缺失的属性和事件。本文提出的整体模型架构如图4所示,建立了双层BERT模型,分别从数据和行为的视角学习属性之间的关联性和事件之间的依赖性。

第一层BERT模型针对修复事件日志属性制定了预训练任务MAM(masked attribute model),通过输入中的三个嵌入特征总和,学习属性的语义信息,基于双向Transformer训练一个深度双向模型。因为双向条件语言模型允许每个属性间接“看到自己”,并且该模型可以在多层上下文中轻松预测缺失的目标属性。同时,MAM可以捕获输入属性的双向信息和属性之间的长期依赖关系。预训练任务的遮蔽属性模型架构如图5所示。针对MAM预训练任务的,该模型使用了预训练任务MLM中传统的80%-10%-10%的掩码([Mask])策略,掩码策略是在识别输入的属性中被mask的数据后,将80%的属性直接替换为[Mask],10%的属性替换为任意的属性,剩余10%的属性保持不变。表3为日志片段中mask属性可能的掩码情况。从表3中本文可以看出,黑色加粗部分是预训练任务中被随机masked的部分。第一个事件没有被mask,而第四个事件的activity和resource被替换为[Mask],第二个事件的Sue被替换为了第四行的Sara,而第三个事件的check ticket和第五行的35654427保持不变。

完成BERT的预训练任务MAM的事件日志可以应用于业务流程管理的许多下游任务中。修复事件日志的缺失值在过程挖掘领域中有着至关重要的作用,完整的事件日志有助于更准确地解决过程挖掘问题。本文通过微调策略,将完整预训练任务MAM后的BERT模型转移到预测事件日志缺失属性的模型进行训练建模,如图6所示。

该任务从事件日志的历史数据中提取事件,例如以下为表1中事件日志案例片段的一个事件:〈1,35654423,register request,30-12-2010:11.02,Pete,50〉。该事件包含案例id、事件id、活动名称、时间戳、资源、成本等属性。首先将每个属性输入到嵌入层,使用属性嵌入将每个属性转换为嵌入向量,并且同时利用字段嵌入和位置嵌入将每个事件属性的语义信息和位置信息编码成特征向量。然后将三者的总和输入到双向Transformer模型中,以学习属性间的依赖关系以及上下文信息。最后,在BERT模型中转入到预测缺失值的模块。

预测缺失值模块的任务首先是将输入向量传递到全连接层以组合向量表示,连接层的输出包含属性值的信息以及输入属性上下文的信息。最终将连接层的输出输入到softmax层,使用softmax激活函数计算缺失值出现的概率,选择概率最高的属性值修复缺失事件。softmax激活函数定义如下:

softmax(xi)=exp(xi)∑j exp (xj)(1)

为了训练神经网络模型,采用反向传播算法寻找最优可训练参数。此外,还采用交叉熵作为损失函数。

第一层BERT是从数据的角度修复事件日志缺失值,然而,在业务流程中,不仅是数据之间有关联性,行为之间同样有着紧密的联系。因此,本文除了从数据的角度修复事件日志,还考虑了从行为的角度修复事件日志。本文将在第二层BERT中描述在数据的基础上融合行为视角修复事件日志。

在添加第二层BERT模型之前添加一层自注意力层,第一层BERT模型输出属性的特征向量输入到自注意力层,通过属性之间的依赖权重提取事件的特征向量,以事件流的形式将事件日志的事件输入到第二层BERT模型中。

在第二层BERT模型中,针对修复事件日志的缺失值制定了一个新的预训练任务MEM(masked event model),该预训练任务的输入同样是三个嵌入特征的总和,包含事件的文本信息、语义信息和位置信息,并且与第一层BERT不同的是,可以直接从迹的层面获取上下文信息。将嵌入特征传递到双向Transformer层训练一个深度双向模型,即MEM可以捕获输入迹的双向信息以及事件之间的长期依赖关系。预训练任务架构如图7所示。预训练任务MEM同样采用了传统80%-10%-10%的掩码策略,将被mask部分中80%的事件替换为[Mask],10%的事件替换为随机事件,10%的事件保持不变。被掩蔽的事件可以通过上下文信息和第一层BERT中学习到的属性的前后文信息,轻松地预测出目标中的缺失值。

与第一层BERT类似,在完成预训练任务MEM之后的BERT模型转移到预测缺失事件的下游模块中,预测缺失事件的模型架构如图8所示。

与第一层BERT不同的是,该模块的输入是在自注意力层提取的事件的特征向量,而不仅仅是属性的特征向量,它包含了事件携带的各种属性。同时是包含了各属性的文本信息。将事件的嵌入特征输送到双向Transformer层,学习事件之间的关系以及上下文信息,以预测事件日志中的缺失值。

同样,预测缺失值模块的任务首先是将输入向量传递到全连接层以组合向量表示,连接层的输出包含输入事件的信息及其上下文的信息。最终将连接层的输出输入到softmax层,使用softmax激活函数计算缺失值出现的概率,选择概率最高的属性值修复缺失事件,并且采用反向传播算法寻找最優可训练参数,采用交叉熵作为损失函数,以便更准确地修复事件日志的缺失值。

4  实验评估

4.1  实验数据及设置

为了验证本文方法能够准确修复事件日志中的缺失值,在本节进行实验验证。总体而言,本文进行了两组实验,第一组实验对比了本文方法与现有方法修复事件日志中缺失值的性能。第二组实验进行了进一步的分析,验证了本文方法的有效性。

为了评估本文方法的性能,使用成功率作为评估指标。它衡量了成功修复的缺失属性占所有缺失属性的比例。式(2)定义了修复成功率。

accuracy=corrnumalldata(2)

其中:corrnum为修复成功的属性数量;alldata为所有缺失属性的数量。

本节实验使用了六个公开的数据集,数据集的详细信息如表4所示。Receipt是调查荷兰不同城市的几个过程之间相似性的事件日志。BPIC 2013是沃尔沃IT中事件管理过程的事件日志。BPIC 2017与BPIC 2012类似,但其记录的每个申请可以包含多个报价并进行跟踪。Helpdesk是意大利某软件公司售票管理过程的事件日志。production process是某工厂生产过程的事件日志。Sepsis是包含处理医院中脓毒症患者流程的事件日志。基于这些数据集的设置在不同的实验中略有不同,这在后续章节中将详细说明。

4.2  实验结果

在第一组实验中,将本文方法与MIEC[9]进行比较,由于MIEC与本文方法都是使用公开数据集进行评估的,所以可以直接将本文结果与使用相同数据集和相同设置的结果进行比较。

1)与现有方法修复成功率对比

遵循文献[9]中的数据准备方法,本次实验使用production process事件日志进行评估,对该事件日志的活动、资源和属性进行修复。为了获得缺失的事件日志,以5%的间隔随机取5%~30%的比率随机生成缺失值,每次修复进行100次迭代,通过式(2)计算成功率。评估结果如表5和圖9所示。

结果显示本文方法修复的成功率在0.87~0.98,这表明本文方法可以修复绝大部分的事件日志,并且从与MIEC的对比结果表明本文方法在很大程度上优于MIEC方法,缺失率为5%和20%时略低于MIEC,但也达到了0.982和0.857,能够在很大程度上修复事件日志。同时,从图9可以看出,随着缺失率的不断增加,本文方法具有更高的修复稳定性。

此外,将本文方法与CNN[31]进行了比较,对比了CNN中同样使用的事件日志BPIC 2013的实验结果,随机获取不同比率的缺失值,表6为两者对比结果。表6和图10给出了本文方法和CNN方法的比较结果,本文方法的成功率均在0.8以上,明显优于CNN方法。

2)对比两层BERT修复成功率

为了进一步分析本文方法的性能,第二组实验用了六个事件日志,通过将只从数据流视角修复事件日志的结果与从数据流控制流融合的视角修复事件日志的结果进行比较,即将只用第一层BERT的数据视角与用双层BERT融合数据和行为视角的结果作对比。每个事件日志随机取15%,20%,25%,30%的缺失率,每次实验进行100次的迭代。评估结果如表7所示。为了更加清晰地展现本文方法在各个数据集上的修复效果,实验在每个数据集中选取了四个属性进行日志修复工作,包括case id、activity、resource以及一个额外的附加属性。

表7显示了使用数据行为融合的方法在BPIC 2017和Sepsis日志上对事件日志的修复成功率提升起到显著作用,在其他事件日志上修复成功率同样比只从数据流视角修复事件日志效果好。尽管随着确实比例的增加,修复成功率有一定的下降,但也下降很少,影响并不显著。结果表明本文方法能够准确地修复事件日志。

5  结束语

本文提出了利用多视角融合的方法修复缺失的事件日志。该方法借助BERT的模型原理实现本文思想。通过探索BERT模型的预训练任务MAM和MEM捕获事件日志中属性以及事件之间的长期依赖关系,并通过微调策略转移到预测日志缺失值的修复模型中。借助该思想,本文提出了用两层BERT模型实现修复目标。首先在第一层BERT从数据流视角出发学习属性之间的依赖关系,捕获事件日志中缺失属性的上下文信息,第二层BERT在第一层BERT的基础上添加行为视角,通过中间一层自注意力层提取事件的特征向量,得到事件的特征向量作为第二层BERT的输入,以捕获事件之间的行为关系,从而达到以数据和行为融合的方式实现事件日志的修复。

实验结果表明,本文方法在修复事件日志上有良好的效果,并且通过进一步分析可以发现,使用数据与行为融合的方法修复缺失的事件日志,比仅从数据流的角度修复事件日志效果要好,从而验证了本文方法在修复方面的有效性。

值得思考的是,针对时间戳这个重要属性,本文没有作出相应的措施。未来的工作中,将针对时间戳属性作进一步的研究分析,提高修复事件日志的性能。另外还计划利用多头注意力的可解释性对本文的模型作进一步可视化处理。

参考文献:

[1] Van der Aalst W M P.Process mining:discovery,conformance and enhancement of business processes[M].Berlin:Springer,2011.

[2]Augusto A,Conforti R,Dumas M,et al.Automated discovery of process models from event logs:review and benchmark[J].IEEE Trans on Knowledge and Data Engineering,2019,31(4):686-705.

[3]Van der Aalst W M P,Reijers H A,Weijters A J M M,et al.Business process mining:an industrial application[J].Information Systems,2007,32(5):713-732.

[4]Fahland D,Van der Aalst W M P.Repairing process models to reflect reality[C]//Proc of International Conference on Business Process Management.Berlin:Springer,2012:229-245.

[5]Leemans S J.J,Fahland D,Van der Aalst W M P.Discovering block-structured process models from event logs—a constructive approach[C]//Proc of International Conference on Application and Theory of Petri Nets and Concurrency.Berlin:Springer,2013:311-329.

[6]Conforti R,Dumas M,García-Bauelos L,et al.Beyond tasks and gateways:discovering BPMN models with subprocesses,boundary events and activity markers[C]//Proc of International Conference on Business Process Management.Cham:Springer,2014:101-117.

[7]Weijters A J M M,Ribeiro J T S.Flexible heuristics miner[C]//Proc of IEEE Symposium on Computational Intelligence and Data Mining.Piscataway,NJ:IEEE Press,2011:310-317.

[8]Sun Yaguang,Bauer B.A novel heuristic method for improving the fitness of mined business process models[C]//Proc of International Conference on Service-Oriented Computing.Berlin:Springer,2016:537-546.

[9]Sim S,Bae H,Choi Y.Likelihood-based multiple imputation by event chain methodology for repair of imperfect event logs with missing data[C]//Proc of International Conference on Process Mining.Pisca-taway,NJ:IEEE Press,2019:9-16.

[10]Song Wei,Xia Xiaoxu,Jacobsen H-A,et al.Heuristic recovery of mis-sing events in process logs[C]//Proc of IEEE International Confe-rence on Web Services.Piscataway,NJ:IEEE Press,2015:105-112.

[11]Xu Jiuyun,Liu Jie.A profile clustering based event logs repairing approach for process mining[J].IEEE Access,2019,7:17872-17881.

[12]Liu Jie,Xu Jiuyun,Zhang Ruru,et al.A repairing missing activities approach with succession relation for event logs[J].Knowledge and Information Systems,2021,63(2):477-495.

[13]Rogge-Solti A,Mans R S,Van der Aalst W M P,et al.Repairing event logs using timed process models[C]//Proc of OTM Confederated International Conferences “On the Move to Meaningful Internet Systems”.Berlin:Springer,2013:705-708.

[14]Shahzadi S,Fang Xianwen,Shahzad U,et al.Repairing event logs to enhance the performance of a process mining model[J].Mathematical Problems in Engineering,2022,2022:article ID 4741232.

[15]De Leoni M,Maggi F M,Van der Aalst W M P.An alignment-based framework to check the conformance of declarative process models and to preprocess event-log data[J].Information Systems,2015,47:258-277.

[16]Xia Xiaoxu ,Song Wei,Chen Fangfei ,et al.Effa:a proM plugin for recovering event logs[C]//Proc of the 8th Asia-Pacific Symposium on Internetware.New York:ACM Press,2016:108-111.

[17]王琦,聞立杰,邓雅方,等.基于过程模型约束的轨迹乱序事件修复方法[J].计算机集成制造系统,2021,27(9):2491-2500.(Wang Qi,Wen Lijie,Deng Yafang,et al.Trajectory out-of-order event repair method based on process model constraint[J].Computer Integrated Manufacturing Systems,2021,27(9):2491-2500.)

[18]Fani Sani M,Van Zelst S J,Van der Aalst W M P.Repairing outlier behaviour in event logs[C]//Proc of International Conference on Business Information Systems.Berlin:Springer,2018,320:115-131.

[19]Denisov V,Fahland D,Van der Aalst W M P.Repairing event logs with missing events to support performance analysis of systems with shared resources[C]//Proc of International Conference on Application and Theory of Petri Nets and Concurrency.Cham:Springer,2020:239-259.

[20]Song Wei,Jacobsen H A,Zhang Pengcheng.Self-healing event logs[J].IEEE Trans on Knowledge and Data Engineering,2021,33(6):2750-2763.

[21]Nguyen H T C,Lee S,Kim J,et al.Autoencoders for improving quality of process event logs[J].Expert Systems with Applications,2019,131:132-147.

[22]Van Der Aalst W,Adriansyah A,De Medeiros A K A,et al.Process mining manifesto[C]//Proc of International Conference on Business Process Management Workshops.Berlin:Springer,2012:169-194.

[23]Bose R P J C,Mans R S,Van der Aalst W M P.Wanna improve process mining results?[C]//Proc of IEEE Symposium on Computational Intelligence and Data Mining.Piscataway,NJ:IEEE Press,2013:127-134.

[24]Gal A,Senderovich A,Weidlich M.Challenge paper:data quality issues in queue mining[J].Journal of Data and Information Quality,2017,9(4):1-5.

[25]Jans M,Soffer P.From relational database to event log:decisions with quality impact[C]//Proc of International Conference on Business Process Management.Cham:Springer,2018:588-599.

[26]Lu Xixi,Fahland D,Van Den Biggelaar F J H M,et al.Handling duplicated tasks in process discovery by refining event labels[C]//Proc of International Conference on Business Process Management.Cham:Springer,2016:90-107.

[27]Tax N,Alasgarov E,Sidorova N,et al.Generating time-based label refinements to discover more precise process models[J].Journal of Ambient Intelligence and Smart Environments,2019,11(2):165-182.

[28]Koschmider A,Ullrich M,Heine A,et al.Revising the vocabulary of business process element labels[C]//Proc of International Conference on Advanced Information Systems Engineering.Cham:Springer,2015:69-83.

[29]Song Wei,Xia Xiaoxu,Jacobsen H-A,et al.Efficient alignment between event logs and process models[J].IEEE Trans on Services Computing,2017,10(1):136-149.

[30]Lu Yang,Chen Qifan,Poon S K.A deep learning approach for repairing missing activity labels in event logs for process mining[EB/OL].(2022-03-18).https://arxiv.org/abs/2202.10326.

[31]劉旺成,方欢,张顺.基于图像数据的缺失活动日志修复CNN方法[J/OL].计算机集成制造系统.(2023-02-24).http://kns.cnki.net/kcms/detail/11.5946.TP.20230223.1521.012.html.(Liu Wangcheng,Fang Huan,Zhang Shun.CNN repair method for missing activity log based on image data[J/OL].Computer Integrated Manufacturing Systems.(2023-02-24).http://kns.cnki.net/kcms/detail/11.5946.TP.20230223.1521.012.html.)

[32]Dixit P M,Suriadi S,Andrews R,et al.Detection and interactive repair of event ordering imperfection in process logs[C]//Proc of International Conference on Advanced Information Systems Engineering.Cham:Springer,2018:274-290.

[33]Conforti R,La Rosa M,Ter Hofstede A H M,et al.Automatic repair of same-timestamp errors in business process event logs[C]//Proc of the 18th International Conference on Business Process Management.Berlin:Springer-Verlag,2020:327-345.

[34]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24).https://arxiv.org/abs/1810.04805.