基于模糊聚类的核电工程数据分析与处理方法研究

2022-09-02 06:24李英
电子设计工程 2022年16期
关键词:超平面核电聚类

李英

(上海核工程研究设计院有限公司,上海 200233)

为了优化核电工程物项数据采集管理问题,可以基于目前较成熟的模糊聚类技术处理数据[1-9]。提取数据的主要方法有傅里叶变换、经验模态分解、小波变换和局部特征分解;数据分类方法主要有智能诊断专家系统、神经网络、树状分析、支持向量机(SVM)等[10]。在数据特征提取方面,短时傅里叶变换对数据的变化并不敏感[11],这主要是由于小波变换的窗口有限,可能会遗漏部分数据。因此该文采用希尔伯特-黄变换,利用经验模态分解方法将数据信息分解成众多有意义的固有模态函数分量[12-13],从而解决了专家知识库更新较慢,难以跟随最新信息调整的问题[14-16]。该文提出了一种基于模糊聚类的核电工程数据分析与处理方法,该方法可以突出不同采购物资的样本特征,在内核空间进行聚类,实现高效的工程采购管理。

1 理论基础

1.1 模糊聚类方法

每种隶属度类型的样本范围在0~1 之间,其中接近1 的值表示样本出现的可能性极低,接近0 的值表示样本出现的可能性较大。与普通的数据分类方法相比,通过模糊聚类后,训练样本的数量有所减少,从而有效提高了训练率与分类算法的精度。

原始空间样本集下,x=(x1,x2,…,xl),xi∈Rn(i=1,2,…,l)的非线性映射是β:x→β(x)。若在高维特征空间中使用欧氏距离,模糊聚类算法的公式为:

其中,uij是成员,C是模糊组别的数量,vi是第i组的中心,ϕ(vi)是核空间的中心,m∈(1,∞)是模糊权重指数,K(xj,vi)是核公式,是样本到中心点的距离。

根据KFCM 优化方法,成员的计算公式为:

为了最小化目标函数,则需要计算K(xj,vi),其为空间中心的函数,且有K(xj,vi)={ϕ(xj),ϕ(vi)}。

1.2 模糊聚类的步骤

模糊聚类算法基于统计学习理论,使用有限的样本信息来平衡模型复杂性和学习能力,并寻找出分离超平面最优分类的过程。在保持分类精度的同时,两侧的最大超平面空白空间就可以实现最优分类,然后再通过线性分类来划分类别边界。由于一般的线性可分最优超平面样本可以分为两种类型,因此,若从最近样本到超平面的距离被最大化,那么最优超平面的构成问题就被转化成了基于约束条件的优化问题。

在这一约束条件中,b是阈值,(xi,yi)是样本,ω是最优超平面法向量。将拉格朗日乘数应用于上述问题,设αi是拉格朗日乘数,则目标函数可以写作:

模糊聚类方法的目的是通过最大化两个对立类之间的边际来解决分类问题。在训练之前,聚类算法将其数据在最大程度上简化为训练样本,使用隶属度来确定类型。为了小于给定阈值,聚类算法的中心值选择隶属度,然后将该学习放入训练集中。

基于KFCM 隶属度步长的算法步骤如下:

1)选择0~1 之间的一个随机数初始化隶属矩阵u,并且使矩阵满足约束条件。那么通过计算C 聚类中心就可以计算出新的u矩阵;

2)在这些初始聚类中心vi上使用迭代KFCM 算法后,设置模糊指数m、迭代次数阈值t以及迭代停止条件;

3)计算样本对聚类中心的隶属度uij;

4)重新定义集群中心的种类ϕ(vi),计算新的K(xj,vi)和K(vi,vi),并更新成员uij为;

6)聚类算法结束后,u输出按隶属度排序且样本小于80%Aoutput的数据;

7)对输出样本进行训练,依次用数据集的初始分类来检验其有效性。

2 核电工程数据处理算法

2.1 数据聚类

在进行采购数据管理系统设计之前,需要根据不同的应用功能对数据类别进行区分。

1)信息共享功能。采购数据共享是系统最主要的应用之一,设计符合采购信息、合同核对、仓库储存信息交换的模块功能业务需求,可以与现存财务管控信息、项目管理模块、厂家信息以及内容管控相结合。从而确定这些功能模块和采购流程的逻辑衔接,实现物资信息的共享。

2)物项信息管控。核电工程建设的物项信息数据库较大、种类繁多,甚至有上百万类,包括器材、设备、电力部件、工器具和备品等。物项主数据的准确性尤为重要,决定了物资信息的可使用度。为了方便掌握物资的信息情况,对每个物项设定唯一编码并通过编码区分类别,对应采购合同的性质以及时间节点。

3)合同管控。在国外通常使用SRM 系统来管控采购合同,但国内类似的应用案例较少,尤其是对于体量庞大的工程,这种准确管理的实现要求较为繁琐,不符合现场实际。若强行推行SRM 系统可能会导致无效数据的混杂,这需要核电工程项目在管控方式、技术方案上有所创新。

4)仓储管控。仓储资料包括核电工程建设的新建和扩建验收、入库、出库、移交等中间阶段的信息,在物资最终登记为固定资产前,仓库中的流通信息量十分庞大。目前的仓储管控系统通常负责物资从“到货”开始到被领用出库的全部信息,管控系统的建立则有助于实现设备和材料等物资信息的充分利用。对于多个种类的物资,仓储管理需要实现物资的精确关联。

5)财务管控。财务是资产采购的关键环节,但现有财务管控方法存在对前端业务部门的信息了解相对缺失、数据信息浪费的问题。例如合同进度款的汇总计算和支付等信息细化程度不合理,对判断物资最终归属造成困扰,且财务管控依赖于大量人工劳作,对竣工决算和资产转移等信息处理效率低下,计算效率和精确度均有待提升。

2.2 改进核C聚类均值算法

在基于模糊聚类的工程数据处理建模方法中,核C 聚类均值算法(KFCM)适合用于第一步优化中。首先计算出聚类中心xc,KFCM 算法先用φ(x)映射输入数据x到高维特征空间,然后进行模糊C 均值聚类,其目标函数为:

其中,uik(i=1,2,…,c且k=1,2,…,n)是第k个样本对第i种类型的隶属度,满足uik∈[0,1]和归一化条件=1,∀k=1,2,…,n。

对于高斯核函数K(xk,vi),有:

将上式代入目标函数表达式,并归一化约束条件的隶属度,再通过以下迭代公式来最小化目标函数:

由上述方法可以得出基于核模糊C 均值的模糊聚类核电工程数据分析与处理算法流程,如图1所示。

图1 模糊聚类算法流程

3 聚类算法效果验证

该文以核电工程采购管理数据为研究对象,基于模糊聚类算法验证了上述方法的有效性。基于经验模态对数据类型进行分类,将前10 个模态分量作为样本矩阵。将特征矩阵奇异值分解得到奇异值特征向量,并划分为初始训练集和测试集,再根据基于KFCM 隶属度的模糊聚类算法和认证算法对128 个样本值进行分类和验证。

模糊聚类数据处理流程如图2 所示。利用模糊聚类的思想,通过MATLAB 软件为实验平台编写测试程序。通过对数据的多次迭代,计算出各类的聚类中心,得到的待测样本与各模型曲线聚类中心幅值的对照如图3所示。图3(a)表示待测样本,图3(b)为标准状态,从图中可以看出待测样本与标准状态差异较大,且数据走向也有较大差异。MATLAB 软件中记录的测试时间的显示结果与曲线分析结果一致,模糊聚类的类型是一致的,验证了所提算法的准确性。

图2 模糊聚类数据处理流程

图3 聚类算法处理样本数据

该文使用奇异值分解对实验样本数据进行分解。首先将训练样本数据的列向量构成一个矩阵,然后对其进行奇异值分解,得到训练样本的一个特征矩阵,再通过该文算法计算价值函数,生成新的隶属度和聚类中心。最后,在整个成员矩阵中随机选择成员,并将小于样本输出数80%的数据作为新的训练集进行聚类算法训练。该文实验的测试样本数量为128 个,分类结果如表1 所示。

表1 分类结果

实验结果表明,KFCM 具有更优的特性且分类精度和速度均有所提高,且当训练样本线性不可分时,其保持了良好的可行性。

4 结束语

该文提出了核电工程数据改进的核C 值模糊聚类算法,考虑了实际工程量的规模和现场应用的可行性,实现将采购物资信息清单与系统数据准确、可靠地对应。最后通过初始训练集和测试集128 个样本的校验,证明了所提基于模糊聚类算法的核电工程数据分析与处理的有效性和可行性,为后续关联整合核电工程信息数据推广应用奠定了基础。该文所提出的采购全过程数据信息化方案可为核电工程的新建、扩建数据处理提供数据支持。

猜你喜欢
超平面核电聚类
基于非线性核的SVM模型可视化策略
全纯曲线正规族分担超平面
有限维Banach空间中完备集的构造
第四代核电 高温气冷堆
百年初心精神 点亮核电未来
2020年核电活动安排
核电链接
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法