基于K-means聚类的城市生活用水水质异常特征检测算法

2023-07-03 11:35黄小英

化工设计通讯 2023年6期

黄小英

（福建水利电力职业技术学院，福建永安 366000）

随着城市化进程以及经济发展速度的不断加快，世界水资源均面临着较为严峻的局势。同样我国水资源局势也较为紧张。我国人口基数较大，水资源占有量较少，且随着经济的发展导致的众多水体污染问题层出不穷，水体恶化等现象十分严重。其中，城市生活用水质量的优劣直接关系我国居民的生命健康问题。因此，保护水资源不被污染已成为民生问题。水质的污染威胁人民群众的生命和健康，且严重影响社会经济的稳定发展。为此，城市生活用水水质的保证是保护居民健康生活的关键。城市生活用水异常检测成为维持水体健康的关键手段。城市生活水质是一个或多个水质参数的明显变化情况，在一段时间内的保持状态，通过对其中污染物质参数的检测，判定城市生活用水水质的异常[1]。为此，相关研究者对城市生活用水水质异常特征检测方法进行了很多研究，并取得了一定成果。

文献[2]方法提出一种基于lightgbm 模型的水质异常行为检测方法。该方法主要解决水质异常检测时间开销较大的问题。该方法提升了水质异常检测的效果，但针对的研究参数较少，存在一定局限性，需要进一步地改进。文献[3]方法提出一种不同空间分布水体的高光谱特征差异分析方法。该方法检测的物质较为准确，但检测成本较高，不适于大面积地使用。方法提出基于嵌入式粒子群-遗传算法的水质COD检测特征波长优化算法。该方法专注于方法的研究，与实际检测中的条件等存在一定差异，需要进一步地完善。

为解决上述方法中存在的不足，本文设计了一种基于K-means 聚类的城市生活用水水质异常特征检测算法，实现水质特征的检测。

1 基于K-means聚类的城市生活用水水质异常特征检测算法设计

1.1 城市生活用水水质特征提取及污染物质含量确定研究

根据提取的城市生活用水水质特征数据，为了进一步确定城市生活用水水质问题，本文借助常用的荧光法进一步对水质中的污染物质进行确定。首先设置生活用水中的发光参数为荧光量子产率以及荧光寿命，当荧光停止运动时，水中的荧光强度将变短，这是其使用寿命，荧光分子在激发态中的平均寿命表示为：

其中，di代表发射的速率变化值，L代表检测中衰变的过程。

当确定了荧光的平均寿命后，需要进一步确定量子产率的变化，其计算公式为：

其中，Yi代表量子产率。

根据上述确定的发光参数，完成水质中不同污染物质含量的确定，即：

其中，φ(x)代表最终取得的含量。

1.2 基于K-means 聚类的城市生活用水水质异常特征检测实现

在上述预处理后的城市生活用水水质特征基础上，对其中异常特征进行检测。在本次检测中采用K-means 聚类算法进行，将城市生活用水水质的pH，氨氮、耗氧量、色度以及浑浊度作为这些特征数据中的异常值，根据这些参量在水质中存在的含量判定城市生活用水水质特征是否异常。在此检测中，pH、氨氮、耗氧量、色度以及浑浊度参数在生活用水中的标准含量不认为此时水质存在异常，若发现这些物质含量超过标准值，则视为异常。因此，本文通过基于K-means 聚类算法将这些数据进行聚类，然后根据聚类结构进行检测，实现异常检测研究。

城市生活用水水质异常特征检测中，将所有的城市生活用水水质特征汇集到一个集合中，表示为：

其中，e代表集合的单个组成因子，既可能是正常特征数据，也可能是异常特征数据。

K-means 聚类算法的核心要义是确定相邻的两个水质特征数据之间的距离，通过距离的确定进一步恒定数据的差异。因此，首先计算城市生活用水水质数据之间的信任关系，将其视为一种信任度，将计算的相邻的水质特征数据的评分相似度视为二者之间的信任度，其计算公式为：

其中，s(a,b)代表两个水质特征数据共同评分，z(ea,eb)代表计算后的信任度值。该值的确定关系到水质异常特征的判断，将其进行约束条件的设定，得到：

其中，q1代表水质特征该数据之间的评分绝对值。该值决定了不同特征数据之间的信任程度。

根据上述确定的水质特征数据之间的信任关系，通过K-means 聚类算法计算不同信任程度数据之间的不同距离。计算水质特征数据簇之间簇距离。最短簇距离的计算公式为：

其中，u代表簇的中心点。

在此基础上，设置ci代表水质特征数据之间的类，那么其与簇中心的距离为：

其中，gi代表水质特征数据。

在此基础上，构建城市生活用水水质异常特征检测模型，得到的结果为检测的结果，其模型公式为：

其中，ωi代表模型检测的最终结果，mh代表识别的特征数据的数量。

通过K-means 聚类算法计算特征数据之间的信任度以及数据簇距离，并构建城市生活用水水质异常特征检测模型，设置限定条件，判定城市生活用水水质特征是否异常，完成城市生活用水水质异常特征检测。

2 实验分析

2.1 实验方案

为验证所提方法有效性，进行实验分析。实验中以某城市一地区的生活饮用水为研究对象，确定水质的异常。实验中将采集的样本城市生活水体经过过滤后，分成100组进行避光保存，并通过专业荧光法对生活用水中的物质进行确定，证明水体样本汇总包括pH、氨氮、耗氧量、色度以及浑浊度，且存在一定异常的水体。将采集的水质特征数据进行训练，形成训练集合，作为此处实验分析的关键数据。

2.2 实验指标设计

实验通过对比本文方法、文献[2]方法以及文献[3]方法的形式进行，选择实验样本指标为水质异常特征检测精度、水质污染物含量计算误差，通过这个指标的设定确定城市生活用水中的污染物质以及异常的检测。实验中选择的样本参数如表1所示。

表1 样本水质参数

2.3 实验结果分析

2.3.1 不同方法水质异常特征检测精度分析

水质异常特征检测精度是衡量方法有效性的关键指标，因此，实验对比了本文方法、文献[2]方法以及文献[3]方法对样本生活用水的水质异常特征检测精度进行分析，得到的结果如图2所示。

图2 不同方法水质异常特征检测精度分析

分析图2中实验结果可以看出，采用本文方法、文献[2]方法以及文献[3]方法对样本生活用水的水质异常特征检测精度存在一定差异。其中，本文方法对样本生活用水的水质异常特征检测精度始终保持在90%以上，而其他两种方法的检测精度低于本文方法，验证了所设计方法的检测精度更高。

2.3.2 不同方法水质污染物含量计算误差分析

实验进一步分析了本文方法、文献[2]方法以及文献[3]方法对样本生活用水的水质污染物含量计算误差，得到的结果如表2所示。

表2 不同方法水质污染物含量计算误差分析（%）

分析表2中实验结果可以看出，采用本文方法、文献[2]方法以及文献[3]方法对样本生活用水的水质污染物含量计算误差存在一定差异。其中，本文方法对样本生活用水的水质污染物含量计算误差最低约为0.15%，而其他两种方法虽然误差也较小，但相对之下本文方法的计算误差更低，验证了本文方法的有效性。

3 结束语

针对现有水质异常特征检测方法中存在的检测精度低、水质污染物含量计算误差大等问题，提出设计一种基于K-means 聚类的城市生活用水水质异常特征检测算法。该方法通过构建城市生活用水水质特征提取系统，采集城市生活水质特征数据，将城市生活用水水质的pH、氨氮、耗氧量、色度以及浑浊度作为特征数据中的异常值，通过K-means 聚类算法计算特征数据之间的信任度以及数据簇距离，并构建城市生活用水水质异常特征检测模型，设置限定条件，判定城市生活用水水质特征是否异常。本文方法具有以下优势。

1）采用所提方法检测城市生活用水水质异常特征的精度较高，始终高于90%.

2）采用所提方法检测城市生活用水水质污染物含量计算误差较小，最小约为0.15%.