基于离群点检测和自适应参数的三支DBSCAN算法

2024-08-17 00:00:00李志聪孙旭阳
计算机应用研究 2024年7期

摘 要:针对经典的DBSCAN算法存在难以确定全局最优参数和误判离群点的问题,该算法首先从选择最优参数角度出发,通过数据集的分布特征生成Eps和MinPts列表,将两个列表中的参数进行全组合操作,把不同的参数组合依次进行聚类,从而寻找准确率最高点对应的参数。最后从离群点角度出发,将三支决策思想与离群点检测LOF算法进行结合。该算法与多种聚类算法进行效果对比分析,结果表明该算法能够全自动化选择全局最优参数,并提高聚类算法的准确性。

关键词:DBSCAN算法; 三支聚类; 自适应参数; 离群点检测

中图分类号:TP393.09 文献标志码:A 文章编号:1001-3695(2024)07-011-1999-06

doi:10.19734/j.issn.1001-3695.2023.11.0569

Three-ways DBSCAN algorithm based on outlierdetection and adaptive parameters

Abstract:Aiming at the problems of the classical DBSCAN algorithm that it is difficult to determine the global optimal para-meters and misjudge the outliers, the algorithm firstly started from the perspective of selecting the optimal parameters, generated the Eps and MinPts lists by the distribution characteristics of the data set, and then carried out the full combination operation of the parameters in the two lists, and then performed the clustering of the different combinations of the parameters in order, so as to search for the parameter corresponding to the point of the highest accuracy rate. Finally, from the perspective of outlier, the three-branch decision-making idea was combined with the outlier detection LOF algorithm. This algorithm was compared and analysed with a variety of clustering algorithms, and the results show that this algorithm can achieve the fully automated selection of the global optimal parameters as well as improve the accuracy of the clustering algorithm.

Key words:DBSCAN algorithm; three-ways clustering; adaptive parameters; outlier detection

0 引言

互联网的快速发展导致每天都会产生海量的数据,如何从海量数据中准确地找出有价值的数据,是当今研究的方向之一[1]。聚类分析是数据挖掘与机器学习领域中的一个重要技术,已经广泛地成功应用于多个领域,其中包括图像处理[2]、统计学[3]、知识图谱[4]、医疗健康[5]等。

传统的DBSCAN聚类都属于硬聚类,即对象要么确定属于某个类,要么确定不属于某个类,传统聚类结果中类簇之间必须具有清晰的边界。当处理具有不确定性的数据对象时,硬聚类会强制地将其中的数据划分到某一个类中,通常会导致聚类结果出现较高的错误率。为了解决上述存在的问题。H-ppner等人[6]将模糊集思想与聚类分析相结合,提出了模糊聚类方法。Lingras等人[7]提出粗糙集思想并应用到聚类中,通过粗糙集的正域、边界域和负域的概念来表示聚类的最终结果。对于三支聚类方法,是将三支决策理论[8]融入到了聚类方法中。对于相同的类簇,将确定的对象划分到核心域中,将不确定的对象划分到边界域中,这样划分有效地降低了聚类过程中的错误率。

针对数据集中判断离群点的问题,许多学者也提出了相应的研究方法。Shaith等人[9]在具有混合属性数据集中提出有关离群点检测的方法。该方法主要根据数据对象属性的质心以及分类属性的频率来判断数据之间的差别,但该方法需要再一次研究并定义新的距离度量方式,来判断不同数据之间的差异性。邹云峰等人[10]提出了LDBO算法,该算法使用了强K近邻点和弱K近邻点的方法来处理具有异常数据分布的离群点问题。但是,基于密度的离群点判断则需要复杂的距离计算公式,在高维数据中,该算法的效果并不理想。缑鹏飞等人[11]提出了ANGOD算法,该算法根据计算节点的距离度量,构造出自适应邻居图并提取数据特征,进而识别数据集中的离群点,但其存在处理某些结构化数据集准确率不理想的问题。虽然许多算法对离群点检测LOF算法都进行了改进,但依旧强制性判断数据对象是否为离群点,这对于数据集中不确定信息的判断是不准确的。依据上述判断不确定性信息的问题,本文将三支决策思想融入到LOF算法中,利用边界域来对具有不确定性的离群点作进一步的判断,提高针对判断离群点的准确性。

由于DBSCAN聚类算法依赖两个参数才能实现聚类的全过程,参数的选择要人为输入,所以参数的选择具有主观性,不同的参数会导致聚类结果的不同,自适应选取参数也是聚类研究的方向之一。周治平等人[12]提出的AF-DBSCAN算法是根据k距离的曲线、描述数据对象的全局分布,该方法会存在一定的误差。Hu等人[13]依据反向最近邻和影响空间的判断条件,提出了KR-DBSCAN算法,该算法根据条件判断不同密度间的相邻类簇。Yu等人[14]利用缩放函数,将距离矩阵进行规范化操作,并将改进的DBSCAN算法与三支决策理论相结合,提出了3W-DBSCAN算法。王光等人[15]提出自适应选择参数的方法并应用到DBSCAN算法中,得到KLS-DBSCAN聚类算法。该算法根据数据集中数据的分布特点计算出参数范围,再根据聚类内部度量的最大值来确定全局最优参数值,但该方法对于多密度的数据集聚类效果一般。申秋萍等人[16]提出基于局部半径的三支DBSCAN聚类算法,虽然该算法自适应Eps参数,但是仍然需要人为手动输入MinPts参数和近邻次序k。兰红等人[17]提出HODG-DBSCAN算法,使用高阶差分算法自动获取聚类参数,并利用网格划分方法构建索引。该算法虽然实现了聚类全自动化并提高了聚类算法的效率,但针对多密度的数据集,依旧存在准确率较低的问题。

依据上述问题,本文提出一种基于离群点检测和自适应参数的三支DBSCAN聚类算法,本文简称为AL3W-DBSCAN算法。该算法首先根据数据对象的分布特点来计算相应的参数列表,对于列表中的待选参数进行全组合的操作,目的是增加参数选择的可能性,以便找出全局最优参数。其次是针对DBSCAN算法中判断离群点的问题,将三支决策思想与离群点检测算法相结合,利用三支决策中的边界域来存放不确定性的离群点,从而进行进一步的判断。本文算法实现了聚类参数的自适应选择,并提高了聚类算法的准确性。

1 相关工作

1.1 LOF算法

2000年由慕尼黑大学的Breunig等人[18]提出有关LOF离群点检测算法的思想。LOF算法的核心思想为:通过算法将数据集中的每一个数据对象都赋予一个孤立程度的数值。下面将介绍LOF算法的有关基本概念,如图1所示。

定义1 p的第k距离。对任意的正整数k,定义对象p的第k距离为p与某个对象q之间的距离,记为k-distance(p),用d(p,q)表示对象p到对象q的距离,则对象q要满足存在至少k个对象q′∈U\{p},满足d(p,q′)≤d(p,q)。

定义2 p的第k距离邻域。已知数据对象p的第k距离k-distance(p),满足与对象p之间的距离小于等于k-distance(p)的所有数据对象的集合,即

Nk(p)={q∈U|d(p,q)≤k-distance(p)}(1)

定义3 p与q的可达距离。是指对象p与q之间的距离和对象q的k-distance(p)之间的最大值,其中对象q∈Nk(p),即

reach-dist(p,q)=max{q∈U|k-distance(p),d(p,q)}(2)

定义4 p的局部可达密度。定义对象p与它的Nk(p)内各对象的平均可达距离之和的倒数,即

定义5 局部异常因子(LOF)。表示对象p在k-distance(p)邻域内的孤立程度,即

iVMh1/TFpwWIHcpgGUjkoA==通过LOF算法计算得到的孤立程度越大,表示数据对象越有可能是离群点。孤立值越小,表示数据对象的孤立程度越小,越不可能是离群点。

1.2 DBSCAN聚类算法

DBSCAN算法[19]是一种基于密度的经典聚类方法,该算法通过将符合一定密度条件的数据对象分配到一个类簇中,其具备挖掘任意形状的类簇以及对离群点不敏感的优势。DBSCAN相关概念如图2所示。

定义6 p的Eps邻域。对象p的Eps邻域NEps(p)是指以对象p为圆心,在d维空间内小于等于Eps参数的所有数据对象的数量,即NEps(p)={q∈U|dist(p,q)≤Eps},其中U为数据集,对象p和q之间的距离用dist(p,q)表示。

定义7 核心数据对象。根据参数Eps和MinPts,如果p的Eps邻域内对象数量满足 |NEps(p)|≥MinPts的条件,则称p为核心对象。

定义8 直接密度可达。数据集中存在任意数据对象p和q,如果对象q满足q∈NEps(p)且|NEps(p)|≥MinPts,则称q是从p根据参数Eps、MinPts直接密度可达的。

定义9 密度可达。数据集中存在任意数据对象q和p,如果数据对象排列符合p1,p2,…,pn∈U,其中p1=p,pn=q,并且pi+1是根据pi直接密度可达的条件,则称对象q是从对象p密度可达的。

定义10 密度相连。在数据集U中,假设对象a为起点,存在对象p和q都是与对象a密度可达的,则认为对象p和q是密度相连的。

1.3 三支聚类

Yao[20,21]在决策粗糙集和概率粗糙集的假设中提出了三支决策理论,理论核心思想是将决策项扩展为正域、边界域和负域。正域中的规则称为正规则,表示接收。边界域中的规则称为边界规则,表示不做或推迟决定。负域中的规则称为负规则,表示不接收。

Yu等人[22]将三支决策理论结合到聚类方法中,提出了三支聚类方法。三支聚类分别利用三个互不相交的区域Cpi、CBi和CNi代表类簇i的核心域、边界域以及琐碎域。核心域中的数据对象代表确定划分到类簇i,边界域中的数据对象代表不确定是否划分到类簇i,而琐碎域中的数据对象代表确定不划分到类簇i。

与硬聚类的表示相比,本文用二元集合来表示三支聚类C:

C={Co(C),Fr(C)}(5)

CoreRegion(C)=Co(C)FringeRegion(C)=Fr(C)

TrivialRegion(C)=U-Co(C)-Fr(C)(6)

如果x∈CoreRegion(C),则对象x只属于类簇C;如果对象x∈FringeRegion(C),则对象x可能属于类簇C;如果x∈TrivialRegion(C),则对象x不属于类簇C。

三支聚类中所有类簇都满足以下性质:

此外,通过上述公式了解到,使用核心域和边界域就能表示一个完整的类簇。

在三支聚类结果中的核心域和边界域需要满足不同的条件,具体满足的条件如下:

条件1描述所有类簇的核心域必须含有数据对象。条件2描述数据集合U中的数据对象要么属于某个类的核心域,要么属于某个类的边界域。条件3描述类簇之间的核心域不能出现交集,不同核心域中不能存在重复的样本对象。根据上述的三个条件,得出三支聚类结果表达式为

C={(Co(C1),Fr(C1)),…,(Co(Ck),Fr(Ck))}(9)

二支聚类与三支聚类的区别如图3所示。

1.4 自适应确定参数

在DBSCAN聚类算法过程中依赖Eps和MinPts两个全局参数,人工指定的Eps和MinPts这两个参数具有主观性。因此,DBSCAN聚类算法对参数的选择十分敏感,参数选择的不同会导致不同的聚类结果。

目前,国内外许多学者对DBSCAN参数选择进行了研究,Yue等人[23]提出基于数据统计信息确定Eps参数的算法,以MinPts参数固定为4作为前提,在较大的范围内寻找合适的Eps参数。Jahirabadkar等人[24]依据对象在每个维度的密度情况,相应地确定Eps参数,但MinPts参数仍然需要人为确定。Kim等人[25]提出AA-DBSCAN聚类算法,利用四叉树来描述数据集中每个维度的密度,但该算法仍没有实现自动化。

2 AL3W-DBSCAN算法

2.1 算法设计

2.1.1 Eps参数列表

引入自衰减项的K-平均最近邻法[26]来计算生成Eps参数列表,该算法的过程要计算数据集中数据对象到第K个最近的数据对象之间的欧氏距离,然后依次将Eps矩阵的每一行按照从小到大进行排序。第i列表示数据点p距离最近的第i个距离值;对第i列求平均数,再将求出的第i个Eps平均距离添加到Eps参数列表中,即

通过上述步骤得到Eps参数列表DEps,然后将自衰减算法对Eps参数列表进行处理。自衰减公式为

其中:λ为自衰减系数,取值是0≤λ≤1,本文中令λ为0.5。自衰减算法处理后的Eps列表将其作为最终候选Eps参数列表,如下所示:

Eps_list={EpsK|1≤K≤n}(13)

2.1.2 MinPts参数列表

依据生成的Eps列表DEps,利用每个Eps参数值计算对应邻域范围内对象的数量以及数学期望,得到的MinPts列表再用自衰减对上述步骤提出新的公式,对MinPts列表进行处理,即

其中:n为数据集中数据对象的总数;λ表示自衰减系数,0≤λ≤1;Pi为第i个数据的Eps邻域内的数据个数。通过计算得到最终MinPts参数列表,表示为

MinPts_list={MinPtsK|1≤K≤n}(15)

基于自衰减的理论可以有效地缩小MinPts参数值的范围,从而得到更优的MinPts参数列表。

2.1.3 自适应选择全局最优参数

根据自衰减生成的Eps_list参数列表依次选择不同的K值(K=1,2,…,n)所对应的参数值,本文提出依次与MinPts_list参数列表中的参数进行全组合操作,得到更多的参数组合,提高算法找到最优全局参数的可能性。

将第i个Eps参数与MinPts_list列表中所有参数的组合称为第i轮参数组合,将每一轮的参数组合依次输入到DBSCAN算法中进行聚类。算法会记录每轮聚类最高的准确率数值,共记录n个准确率数值,根据最高的准确率数值找到相应的全局最优参数。

图4为记录n个准确率数值的曲线图,其中横坐标表示为不同参数组合的序号,纵坐标表示在不同参数条件下聚类的准确率。从图中可以看出准确率数值的最高点,此点对应的Eps和MinPts参数则为所有参数组合中的最优参数。

2.2 基于三支决策的LOF算法

本节将介绍三支决策思想运用到LOF离群点检测算法的过程。将数据集中的孤立程度用三个集合Co(U)、Fr(U)和Tr(U)表示,分别是核心域、边界域和琐碎域。本文通过一对阈值(a,b)来判断离群点,且a≥b。核心域中的数据对象表示确定是离群点,边界域中的数据对象表示可能是离群点,而琐碎域中的数据对象表示肯定不是离群点,基于离群点检测评价函数s(x),即

Co(U)={x∈U|s(x)>a}Fr(U)={x∈U|b≤s(x)≤a}Tr(U)={x∈U|s(x)<b}(16)

改进后的LOF算法判断数据对象是否为离群点时,当对象x孤立值小于阈值a,则表示对象x周围的对象分布较为紧凑,排除是离群点的可能。当对象x孤立值大于阈值b,则表示对象x周围的对象分布较为分散,对象属性之间差距较大,则改进后的LOF算法认为该对象不属于任何类簇,并且将对象x标记为离群点。当对象x的孤立值介于阈值a和b之间,改进后的LOF算法不会立即作出判断,当聚类结果与真实结果进行比较的时候,算法会对边界域中的对象作进一步的判断,这样可以减少算法对数据的误判风险。

将三支决策思想与LOF算法相结合,很好地优化了判断离群点的条件,降低了决策的错误率,能够提高聚类结果的准确率,解决了传统LOF离群点算法强行判断数据对象是否为离群点的问题,针对数据集中的不确定信息也作进一步的判断,提高了判别离群点的准确性,从而提高了聚类整体的准确性。

2.3 AL3W-DBSCAN算法

本文首先提出了自适应确定全局最优参数的方法,实现全自动化聚类过程,用于解决经典DBSCAN算法对于参数依赖的问题。在自适应确定参数的基础上考虑将三支决策思想分别与DBSCAN聚类算法和LOF离群点检测算法相结合,并提出AL3W-DBSCAN聚类算法思想。

AL3W-DBSCAN聚类算法不需要人工输入最少点数MinPts、全局半径Eps和近邻次序k,解决了聚类算法对参数的依赖。首先用基于三支决策思想的LOF算法对数据集中计算所有数据对象的孤立程度,然后利用自适应确定的参数输入到基于三支决策思想的DBSCAN聚类算法中,聚类时根据三支决策思想将数据集分为不同类簇,每个类簇由核心域、边界域和琐碎域区域组成。此时聚类结果不能作为最终结果,如果数据集中有离群点q,则根据数据对象q的孤立程度属性作进一步的推断。如果孤立程度大于阈值a,确认对象q为离群点。如果孤立程度介于阈值a和b之间,则将对象q划分到最近类簇的边界域。如果孤立程度小于等于阈值b,则将对象划分到最近类簇的核心域中。当聚类过程结束后,输出最终结果数据集C。

算法1 AL3W-DBSCAN算法

3 聚类评价指标

为了更细致地评价聚类算法的优劣,本文参考了二支聚类评价指标和三支聚类评价指标,分别对DBSCAN、3W-DBSCAN以及AL3W-DBSCAN算法进行实验数据对比。

3.1 硬聚类评价指标

a)准确率ACC(accuracy)是一种判断聚类算法优劣的经典指标。这个评价指标就是依据聚类结果与真实情况作对比,ACC的值越高说明聚类结果评价越好。

定义11 ACC。

其中:N表示数据对象的个数;Ci表示类簇i的正确数据对象个数;k表示类簇个数。本文评价三支聚类的结果是利用核心域中的数据对象加边界域中正确的对象来计算的。

b)F1分数(F1 score)是一种衡量聚类结果精确度的指标,它兼顾了精确率和召回率的评价指标,F1 score取值为0~1,数值越大表示聚类结果越好。

定义12 F1 score。

其中:precision表示精确率;recall表示召回率。计算三支聚类结果是用核心域加边界域中正确的对象来计算的。

c)调整兰德系数(ARI)是一种常见的聚类外部评价指标,通过计算在真实数据情况和聚类结果中被分配在不同类簇的数据个数来进行聚类效果的评价。

定义13 ARI。

其中:n为样本总个数;nij表示数据对象被划分到正确类簇中的个数;ai表示被划分到类簇i的数据对象个数;a表示被划分到不同类簇的对象总个数;bi表示类簇i中实际数据对象的个数;b表示在实际相同类簇被划分为不同类簇的对象总个数。

3.2 软聚类评价指标

由于硬聚类评价指标的提出较早,所以软聚类评价指标较少,现在仍有许多用硬聚类评价指标来评价三支聚类结果。本文引入软聚类方法对聚类结果进行更细致的评价。

第一个软聚类评价指标是由Maji等人[27]提出的,其公式的定义为

其中:n代表数据对象的个数;c代表聚类的个数;|Cpi|代表的是第i个类的核心域中数据对象的个数。式(20)表示所有类簇中核心域的平均质量,计算的结果与聚类效果正相关。

第二个评价指标是由Zhang[28]提出的两个评价指标,其公式的定义为

其中:c代表类簇的个数;|Cpi|表示第i个类的核心域中对象的个数;|Cpi|表示第i个类簇边界域中对象的个数。式(21)(22)分别表示第i个类簇的平均效果和整体效果,计算结果与聚类效果成正相关。

4 实验结果与分析

AL3W-DBSCAN聚类算法得到的实验结果与其他算法的聚类结果进行比较,对比方式采用ACC、F1和ARI硬聚类评价指标和引入的软聚类评价指标进行度量。

4.1 人工数据集实验结果

依据本文中自适应确定参数方法,下面将列出各个算法在不同数据集中所需的参数。具体内容如表1所示。

图5为AL3W-DBSCAN聚类算法与其他聚类算法在不同数据集上的对比图。AL3W-DBSCAN算法在聚类结果的准确性上有着不同程度的提升,同时也很好地解决了数据对象被错误地判断成离群点的问题。

从图5可以看出,本文算法有效地缓解了错误判断离群点的问题,从而提高了聚类算法的准确率。同时为了验证AL3W-DBSCAN算法对于其他聚类算法的优势,本文利用在人工数据集上的聚类结果数据作对比,通过数据表明本文算法在不同人工数据集上的效果均优于经典的DBSCAN聚类算法和3W-DBSCAN聚类算法。详细的硬聚类评价结果数据如表2所示。

4.2 UCI数据集实验结果

本文将AL3W-DBSCAN算法和其他算法对UCI数据集进行聚类分析。由于UCI真实数据集中的数据分布情况复杂,从而导致传统聚类算法在真实数据集的效果较差。AL3W-DBSCAN聚类算法在真实数据集中的效果提升显著。在wine真实数据集中,依据ACC准确率的评价指标,AL3W-DBSCAN算法准确率比经典DBSCAN算法准确率高将近20%。在其他数据集方面,本文聚类算法的评价指标结果也有不同程度的提高,表明本文算法在真实数据集中优势更加明显。其中评价指标的数值越接近于1,表示聚类算法的结果越准确。聚类结果硬聚类评价指标信息如表3所示。

AL3W-DBSCAN聚类算法将一些误判为离群点的样本重新划分到某类簇的边界域或者核心域,会影响软聚类的聚类效果,但对于硬聚类效果来讲是整体上升的,这也说明了本文算法的有效性。聚类结果软聚类评价指标信息如表4所示。

4.3 本文算法与其他算法比较研究

本文分析对当前领域其他最新算法的总结,介绍了其他算法的优缺点。在人工数据集flame、aggregation和UCI数据集iris、wine的基础上,表5中的数据均借鉴文献中其他最新聚类算法的实验数据与本文算法的数据进行对比。其中对比的最新算法包括AF-DBSCAN、KR-DBSCAN、KLS-DBSCAN和LE-DBSCAN。通过对比发现,本文算法在ACC和ARI评价指标上,绝大部分都优于表中的其他算法,证明了AL3W-DBSCAN聚类算法的有效性与优越性。但在aggregation数据集中,聚类效果最优的是KR-DBSCAN和LE-DBSCAN算法。详细对比数据如表5所示。

4.4 实验结果分析

通过上述聚类结果图和聚类结果的对比发现,AL3W-DBSCAN算法在人工数据集和UCI数据集上都是优于经典DBSCAN和3W-DBSCAN算法的。虽然在软聚类评价方面3W-DBSCAN算法优于本文算法,但软聚类是以核心域的数据数量来计算的,在三支决策思想中是把核心域和边界域作为一个类。整体来说,AL3W-DBSCAN算法依旧优于3W-DBSCAN算法。通过与借鉴文献中最新方法的数据作对比,除了在aggregation数据上KR-DBSCAN和LE-DBSCAN算法最优的情况,其余情况AL3W-DBSCAN算法聚类效果最好。如今许多聚类算法存在对高维数据聚类效果不好的问题,通过本文的实验发现,所对比的算法在高维数据聚类效果不好,是因为高维数据本身分析更加复杂,并且高维数据集都是真实数据集,数据对象分布不具有规律性。但是AL3W-DBSCAN算法在判断离群点的过程中,利用三支决策在LOF算法上的改进,提高了算法判断离群点的准确性,同时也提高了算法整体的准确性。因此AL3W-DBSCAN聚类算法相较其他算法具有在高维数据集聚类的优势。

AL3W-DBSCAN算法在聚类的过程中能够选择符合数据对象分布特性的全局最优参数,克服了传统算法需要人工输入具有主观性参数的问题,以及实现了聚类过程全自动化的过程,并在多维度数据方面也具有良好的表现。本文算法利用三支决策的思想有效地处理了数据集内不确定信息的聚类问题,对聚类后产生的离群点作出了进一步的判断,使得聚类的准确率有着明显的提高。

5 结束语

经典的DBSCAN算法具有挖掘任意形状的类簇以及对离群点不敏感的优势,但DBSCAN算法存在依赖人为输入Eps和MinPts参数,以及误判离群点的问题。针对上述问题,AL3W-DBSCAN聚类算法利用自衰减项以及ACC评价指标来寻找全局最优参数,同时将三支决策理论与离群点检测LOF算法结合,完善了在判断离群点时的条件。通过实验结果表明,AL3W-DBSCAN算法有效地解决了上述问题。但是在三支决策思想上阈值的选择还有待讨论,如何有效选取最优阈值是今后工作研究的重点。

参考文献:

[1]Agudelo-Castaeda D M, Teixeira E C, Braga M, et al. Cluster analysis of urban ultrafine particles size distributions[J]. Atmospheric Pollution Research, 2019,10(1): 45-52.

[2]Xu Chaoyang, Lin Renjie, Cai Jinyu, et al. Deep image clustering by fusing contrastive learning and neighbor relation mining[J]. Know-ledge Based Systems, 2022, 238: 107967.

[3]Brown D, Japa A, Shi Yong. A fast density-grid based clustering method[C]//Proc of the 9th IEEE Annual Computing and Communication Workshop and Conference.Piscataway,NJ: IEEE Press, 2019: 48-54.

[4]Huang Jinjing, Chen Wei, Liu An, et al. Cluster query: a new query pattern on temporal knowledge graph[J]. World Wide Web, 2020, 23: 755-779.

[5]Xu Zhaozhao, Shen Derong, Nie Tiezheng, et al. A cluster-based oversampling algorithm combining SMOTE and K-means for imba-lanced medical data[J]. Information Sciences, 2021, 572: 574-589.

[6]H-ppner F, Klawonn F, Kruse R,et al. Fuzzy cluster analysis: me-thods for classification, data analysis and image recognition[M].[S.l.]: Wiley, 1999.

[7]Lingras P, West C. Interval set clustering of Web users with rough K-means[J]. Journal of Intelligent Information Systems, 2004, 23: 5-16.

[8]Yao Yiyu. An outline of a theory of three-way decisions[C]//Proc of International Conference on Rough Sets and Current Trends in Computing. Berlin: Springer, 2012: 1-17.

[9]Shaikh S A, Kitagawa H. Top-k outlier detection from uncertain data[J]. International Journal of Automation and Computing, 2014,11(2): 128-142.

[10]邹云峰, 张昕, 宋世渊, 等. 基于局部密度的快速离群点检测算法[J]. 计算机应用, 2017, 37(10): 2932-2937. (Zou Yunfeng, Zhang Xin, Song Shiyuan, et al. Fast outlier detection algorithm based on local density[J]. Journal of Computer Applications, 2017, 37(10): 2932-2937.)

[11]缑鹏飞, 宋承云. 基于自适应邻居图的离群点检测方法[J]. 计算机应用研究, 2023, 40(11): 3309-3314. (Gou Pengfei, Song Chengyun. Outlier detection method using adaptive neighbor graph[J]. Application Research of Computers, 2023,40(11): 3309-3314.)

[12]周治平, 王杰锋, 朱书伟, 等. 一种改进的自适应快速 AF-DBSCAN聚类算法[J]. 智能系统学报, 2016, 11(1): 93-98. (Zhou Zhiping, Wang Jiefeng, Zhu Shuwei, et al. An improved adaptive fast AF-DBSCAN clustering algorithm[J]. CAAI Trans on Intelligent Systems, 2016, 11(1): 93-98.)

[13]Hu Lihua, Liu Hongkai, Zhang Jifu, et al. KR-DBSCAN: a density-based clustering algorithm based on reverse nearest neighbor and influence space[J]. Expert Systems with Applications, 2021,186: 115763.

[14]Yu Hui, Chen Luyuan, Yao Jingtao, et al. A three-way clustering method based on an improved DBSCAN algorithm[J]. Physica A: Statistical Mechanics and its Applications, 2019, 535: 122289.

[15]王光, 林国宇. 改进的自适应参数DBSCAN聚类算法[J]. 计算机工程与应用, 2020, 56(14): 45-51. (Wang Guang, Lin Guoyu. Improved adaptive parameter DBSCAN clustering algorithm[J]. Computer Engineering and Applications, 2020, 56(14): 45-51.)

[16]申秋萍, 张清华, 高满, 等. 基于局部半径的三支DBSCAN算法[J]. 计算机科学, 2023, 50(6): 100-108. (Shen Qiuping, Zhang Qinghua, Gao Man, et al. Three-way DBSCAN algorithm based on local eps[J]. Computer Science, 2023,50(6): 100-108.)

[17]兰红, 朱合隆. 基于高阶差分和网格划分算法的DBSCAN参数自动选取算法[J]. 计算机应用研究, 2020, 37(11): 3347-3352. (Lan Hong, Zhu Helong. DBSCAN parameter setting based on higher-order difference and grid partition algorithm[J]. Application Research of Computers, 2020,37(11): 3347-3352.)

[18]Breunig M M, Kriegel H P, Ng R T,et al. LOF: identifying density-based local outliers[C]//Proc of ACM SIGMOD International Confe-rence on Management of Data. New York:ACM Press, 2000: 93-104.

[19]Ester M, Kriegel H P, Sander J,et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining. Palo Alto, CA: AAAI Press,1996: 226-231.

[20]Yao Yiyu. Three-way decisions with probabilistic rough sets[J]. Information sciences, 2010, 180(3): 341-353.

[21]Yao Yiyu. The superiority of three-way decisions in probabilistic rough set models[J]. Information Sciences, 2011, 181(6): 1080-1096.

[22]Yu Hong, Chu Shuangshuang, Yang Dachun. Autonomous knowledge-oriented clustering using decision-theoretic rough set theory[C]//Proc of the 5th International Conference on Rough Set and Knowledge Technology. Berlin:Springer, 2010: 687-694.

[23]Yue Shihong, Li Ping, Guo Jidong, et al. A statistical information-based clustering approach in distance space[J]. Journal of Zhejiang University-Science A, 2005, 6(1): 71-78.

[24]Jahirabadkar S, Kulkarni P. Algorithm to determine ε-distance parameter in density based clustering[J]. Expert Systems with Applications, 2014, 41(6): 2939-2946.

[25]Kim J H, Choi J H, Yoo K H,et al. AA-DBSCAN: an approximate adaptive DBSCAN for finding clusters with varying densities[J]. The Journal of Supercomputing, 2019, 75(1): 142-169.

[26]万佳, 胡大裟, 蒋玉明. 多密度自适应确定DBSCAN算法参数的算法研究[J]. 计算机工程与应用, 2022, 58(2): 78-85. (Wan Jia, Hu Dasha, Jiang Yuming. Research on method of multi-density self-adaptive determination of DBSCAN algorithm parameters[J]. Computer Engineering and Applications, 2022,58(2): 78-85.)

[27]Maji P, Pal S K. RFCM: a hybrid clustering algorithm using rough and fuzzy sets[J]. Fundamenta Informaticae, 2007,80(4): 475-496.

[28]Zhang Kai. A three-way C-means algorithm[J]. Applied Soft Computing, 2019, 82: 105536.