刘 均, 宫子栋, 吴 力
(1. 东北石油大学 电气信息工程学院, 黑龙江 大庆 163318; 2. 大庆油田有限责任公司 天然气分公司培训中心, 黑龙江 大庆 163453)
在现代工业环境中, 随着数据采集设备不断地进行更新迭代, 采集的数据通常具有高维特征, 致使机器学习算法出现两个问题: 1) 随着维数的增加, 计算量会呈指数倍增长, 降低了算法的计算效率[1]; 2) 维数灾难增加了评估数据间相似性的难度, 影响算法性能. 通过将数据采用维数约简算法进行处理, 减少数据的维度冗余[2], 是解决上述问题的有效方法, 已广泛应用于图像识别[3]和高维数据可视化[4]等领域.
维数约简方法一般可分为线性降维算法[5-6]与非线性降维算法[7]. 线性降维算法基于线性映射进行降维, 仅可处理线性数据集. 例如, 目前广泛使用的主成分分析(PCA)方法[8], 目的是找到最优投影方向, 使数据在投影方向上的方差最大且相互正交. 非线性降维算法通过非线性映射或局部线性变换处理复杂流形, 常见的算法有核化线性降维(KPCA)[9]、 等距特征映射(Isomap)[10]和局部线性嵌入(local linear embedding, LLE)[11-12]等, 其中LLE算法利用局部线性重构权重系数表示局部结构, 能保留数据的本质特征, 且算法参数选择较少, 计算复杂度相对较小、 易实现, 因此被广泛应用[13-16].
在LLE算法中, 构建最优邻域进行低维重构是保持数据拓扑结构不变的关键, 而邻域的结构挖掘取决于空间距离度量方法[17]. Daza-Santacoloma等[18]提出了一种相关诱导度量, 使用类标签作为额外信息估计近邻点, 以减轻距离差异给近邻点选择带来的影响; Liu等[19]提出了一种快速识别k近邻的方法, 通过求取相对方差和均值差形成表征相邻点数据分布的空间相关指数, 得到最佳k值选择邻域; 文献[20]提出了一种cam加权距离, 具有方向和尺度自适应性, 能充分利用原型间关系的相关信息. 上述算法在对空间度量方式的改进方面都取得了显著成效, 但目前在实际工程应用中, 由于采集到的大多数是非对齐数据, 当采用欧氏距离[21]度量非对齐数据时, 过于关注特征数据间的对应关系, 故受数据位置差影响较大, 难以构造最优邻域结构, 从而影响了算法的计算精度.
为解决上述问题, 本文利用信息熵度量[22]统计每个样本点的概率分布[23], 得到数据的混乱程度, 排列后进行近邻点选择, 构造最优邻域. 实验结果表明, 基于信息熵度量的局部线性嵌入(ILLE)降维效果更好, 分类更精确, 聚类效果更紧凑.
局部线性嵌入是将高维数据通过局部的线性关系表示, 即将高维数据样本点X映射到低维空间中进行重构, 如图1所示.实验结果表明, 局部线性嵌入在图像或其他不封闭流形上降维效果均较好.
图1 局部线性嵌入示意图Fig.1 Schematic diagram of local linear embedding
首先需要确定近邻点样本个数以线性表示中心样本点, 假设该值为k, 通过欧氏距离度量选择某个样本的k个最近邻.在寻找某个样本xi的k个最近邻后, 再求出xi与这k个最近邻之间的线性关系, 即找到线性关系的权重系数, 从而变为一个回归问题.假设有m个n维样本(x1,x2,…,xm)用均方差作为回归问题的损失函数, 即
(1)
其中Q(i)表示i的k个最近邻样本集合.对权重系数wij做归一化的限制, 即权重系数需满足:
(2)
将式(2)代入式(1)中矩阵化为
(3)
其中zi=(xi-xj)T(xi-xj),wi=(wi1,wi2,…,wik)T.然后利用Lagrange乘子法, 对式(1)求解如下:
(4)
其中1k表示k维全1向量.利用wij重构向量y, 使得最小化二次型J(y)为
(5)
引入约束条件:
令M=(I-w)T(I-w), 则式(5)可转换为
J(Y)=tr(YMYT).
(6)
计算M的(m+1)个特征向量, 构成LLE的新低维嵌入坐标.
信息熵解决了信息的度量化问题. 信息熵越大表明样本数据分布越分散(分布均衡), 信息熵越小则表明样本数据分布越集中(分布不均衡). 针对LLE在特征提取中使用欧氏距离选择近邻点时存在受非对齐样本位置差影响过大的问题, 本文提出一种基于信息熵度量的局部线性嵌入算法. 给定一个高维数据集X=(x1,x2,…,xN)∈D×N, 其中xi(i=1,2,…,N)表示任意样本点, 具有D个特征,xi=(xi1,xi2,…,xiD)∈D×1, 其中D表示特征数目.为选择样本xi的邻域, 首先需求出xi中每个特征xij出现的概率P(xij)(j=1,2,…,D), 然后计算出特征集xi的信息熵值E(xi):
(7)
Ixij=log2Pxij,
(8)
由于信息用二进位编码, 故log对数函数底数取2. 根据式(7),(8)计算出的原始数据集X中所有的样本点的信息熵值表征每个样本点的特征混乱程度.将样本xi的熵值与数据集X中其他样本点的熵值做差, 表示为
θ=E(xi)-E(xl),l=1,2,…,N.
(9)
按式(9)计算结果, 选择前k个最小差值对应的样本点构造局部邻域.根据xi的k个近邻点, 计算重构权重系数:
(10)
ILLE算法描述如下.
输入: 高维样本集X=(x1,x2,…,xN)∈D×N, 低维维数d, 近邻点个数k;
输出: 样本集X对应的低维嵌入结果Y;
步骤1) 利用式(7),(8)计算xi(i=1,2,…,N)的信息熵值;
步骤2) 根据式(9)计算熵差, 从小到大排列后选出前k个差值所对应的样本点构造xi的邻域;
步骤3) 根据式(10)计算样本数据的局部重构权重;
步骤4) 通过在低维空间中保持权重系数不变, 利用式(5)计算出原始数据集X对应的低维嵌入结果Y.
ILLE算法参数选择方法如下:d为低维维数, 从低维到高维逐渐增加;k为近邻点数目, 值越大计算量越大.ILLE算法流程如图2所示.
图2 ILLE算法流程Fig.2 Flow chart of ILLE algorithm
为验证本文方法的有效性, 在标准轴承故障数据集和从实际操作台上采集的轴承数据集上进行可视化结果分析、 量化聚类分析、 不同度量方法的对比实验及精度对比实验, 并分析各项实验结果.
实验采用的数据集1为国美凯斯西储大学(CWRU)轴承数据中心网站上的应用于故障诊断基准数据的数据集, 该轴承数据集包括正常状态、 滚珠状态、 内圈故障和外圈故障4种类型的数据, 其中每种数据包含100个样本. 故障轴承直径为0.017 78 cm, 采样频率为12 kHz, 电机转速为1 720 r/min, 截取1 024个特征作为样本数据, 即维数为1 024.
数据集2(DATA2)为东北石油大学智能仪器研发中心实验室自采数据集, 振动信号由加速度计和模拟量采集模块采集, 如图3所示. 采样频率为1 kHz, 电机速度为1 400 r/min, 数据维数为1 024.
图3 数据采集平台Fig.3 Data acquisition platform
第一组实验将ILLE算法与局部切空间排列算法(LTSA)、 LLE算法和主成分分析算法(PCA)3种降维算法在CWRU数据集中进行可视化比较, 实验结果如图4所示, 其中红点表示正常数据, 绿点表示内圈故障数据, 蓝点表示滚珠故障数据, 黑点表示外圈故障数据.
图4 不同降维方法的可视化结果Fig.4 Visualization results of different dimensionality reduction methods
由图4可见, LLE和LTSA算法在特征选择上有较大重叠, 而PCA算法虽然分类效果显著, 但是类内距离较大, 聚类效果较差. ILLE算法综合结果优于其他3种算法, 在聚类和分类效果上都有更好的表现.
本文使用Fisher准则[24]对所提方法进行定量分析. Fisher判据是一种比较两个变分级数方差的静态方法, 其定义如下:
其中Sb和Sw分别表示类间和类内的距离.F值越大, 对应算法的性能越好.
本组实验选取LLE算法、 LE(Laplacian Eignmaps)算法、 线性判别分析(LDA)算法和PCA算法与ILLE算法作为对比算法, 分别在CWRU数据集和DATA2数据集上进行性能比较, 实验结果列于表1, 其中F1表示通过CWRU数据集评测的结果,F2表示通过DATA2数据集测评的结果. 由表1可见, ILLE算法的F1值在CWRU数据集上远大于其他4种对比算法, 具有良好的聚类效果. 在数据集DATA2中, PCA算法F2值大于LLE,LE和LDA算法, 但略低于ILLE算法. ILLE算法在两个数据集上都具有良好的聚类效果, 证明了本文方法的有效性.
表1 定量聚类评价结果
实验对比LLE算法在使用各距离度量方法上的差异, 并与信息熵度量进行比较, 实验结果如图5所示. 由图5可见: 在使用Manhattan距离和Chebyshev距离度量时, 数据的聚类和分类效果均较差, 数据分散且混乱; 在采用欧氏距离时, 虽然聚类性有所提高, 但分类情况也不是很好, 有较多的重叠情况; 而使用信息熵作为度量, 分类性和聚类性均优于其他算法, 适合特征提取, 证明了本文算法的有效性.
图5 不同度量方法的实验结果对比Fig.5 Comparison of experimental results of different measurement methods
在本组实验中, 分别在CWRU和DATA2两个数据集上进行算法性能对比. 先将数据集通过预处理后得到的29维特征作为原始输入, 然后引入ILLE算法中实现特征的降维, 最后利用SVM构建故障诊断模型, 实验结果如图6所示. 由图6可见, 在CWRU数据集上通过与PCA和LLE算法相比较, 发现在任何特征数目下, ILLE算法都是识别精度最高的; 而在DATA2数据集上, 虽然ILLE和PCA算法在特征数目为26~29时, 识别精度非常接近, 但整体上ILLE算法的识别精度非常稳定并较好, 表明经过ILLE方法降维后的特征可较好地表现原始高维输入.
图6 不同维数约简算法在CWRU数据集(A)和DATA2数据集(B)上的识别精度对比结果Fig.6 Comparison results of recognition accuracy of different dimension reduction algorithms on CWRU dataset (A) and DATA2 dataset (B)
综上所述, 本文提出了一种基于信息熵度量的局部线性嵌入方法, 通过统计每个样本的类混乱程度构建样本邻域结构, 该方法避免了非对齐数据给邻域选择带来的影响. 将本文算法应用到CWRU数据集和东北石油大学的自采数据集中, 得到的结果与其他降维算法进行比较, 具有更直观的可视化结果和更高的类间类内比, 证明了本文算法的有效性.