基于相关系数与决定系数的数据去重方法研究

2019-10-10 03:58田申琳唐梦南
数字制造科学 2019年3期
关键词:决定系数原始数据监测数据

田申琳,陈 涛,唐梦南,杨 立

(武汉理工大学 机电工程学院,湖北 武汉 430070)

随着大数据、物联网和云计算等新兴技术在制造业的应用不断深入,加快了制造业自动化进程,促进了各种远程监测方法的产生,推动了制造业智能化的发展,人类已经由以机械化为特征的工业化社会走向以智能制造为特色的工业4.0时代[1]。这也导致数据的规模以惊人的速度不断增长。因此,为了促进更好、更智能的生产,研究人员必须获取蕴藏在这些数据中有价值的信息。然而,实际加工生产过程中的信息多以正常状态为主,这往往会造成冗余数据,不利于研究人员的分析,造成存储成本的增加。因此,需要通过一个“剧烈”的过程将大数据转换为小数据[2],探索一个数据处理的创新方法以降低对存储空间的依赖,提高去重率,缓解分析压力。

针对去重问题,国内外学者进行了大量研究。罗恩韬[3]等设计了多维数据去重的聚类算法。Wegener等[4]等利用Web数据挖掘技术获取有用信息,依靠数据分组和表间关联性对数据进行分组,降低数据冗余度。Kang[5]等提出结合函数依赖和多值依赖来解决数据冗余性问题。但是,目前仍缺少针对机械领域特性的监测数据去重方法研究。

1 相关系数与决定系数

大数据时代的到来使统计学得到了创新与发展,在进行数据处理与一些模型评估时,相关系数和决定系数得到了广泛的应用。

相关系数由英国统计学家Pearson首创,因此称为Pearson相关系数,它是依据积差方法计算的,因此又称为积差相关系数或积矩相关系数,一般以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间的相关程度[6],其计算公式(二元相关)为:

(1)

相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常认为0.8~1.0极强相关,0.6~0.8强相关,0.4~0.6中等程度相关,0.2~0.4弱相关,0.0~0.2极弱相关或无相关。

决定系数与相关系数相比除掉|r|=0和1的情况,决定了相关的密切程度,同时也可以防止对相关系数所表示的相关做夸张的解释。它构造一个不含单位,可以相互进行比较,而且能直观判断拟合的优劣。因此,在判断模型拟合效果中应用广泛。其计算公式为:

(2)

2 数据去重方法流程设计

2.1 常用数据清洗方法

数据清洗的主要任务就是对缺失值的处理和噪声数据的过滤[7]。

目前,缺失值处理方法分为4种:①删除法,即将缺少的记录删除。该方法简单、易行,但是会造成样本量损失,容易丢弃隐藏信息,削弱统计功效。②均值插补法。当数据为数值型,用平均值插补缺失值,当数据为非数值型时,用众数插补缺失值。该方法简单,快捷,但前提是建立在完全随机缺失的假设上,会造成变量的方差和标准差变小。③回归插补法。利用回归函数拟合数据从而对缺失值进行插补。该方法利用尽可能多的信息,得到的缺失值可信度高,但是必须假设缺失值所在变量与其他变量存在线性关系,大多数这种关系是不存在的[8]。④极大似然估计法。通过观察数据边际分布推出未知参数。该方法的估计值具有一致性和有效性,但是很大情况下难以求解或写不出有限形式的解。

噪声数据过滤方法分为4种:①回归法。用函数拟合数据,通过回归后的函数值替换原始数据值。需建立在稳定数据变量基础上,在分析多因素模型时去噪效果好,但易产生“伪回归”。②均值平滑法。针对具有序列特征(正弦时序列)的变量,通过邻近的数据均值来替换原始数据。该方法简单、快速,但易导致信号的细节和边缘模糊。③离群点分析。通过聚类的方法筛选离群点,并将其删除。在数据和检验类型充分的条件下才检验有效,不能确保所有离群点被发现。④小波法。运用函数逼近问题,根据标准找出对原始数据的最佳逼近。具有较好的时频特性,去相关性,并能很好地展示信号的非平稳特征[9]。

2.2 数据去重流程

在实际运用中,由于生产设备会长期处于正常工作状态,导致监测数据蕴含的信息重复率高,数据价值密度低,对存储设备的消耗大,难以保证数据处理的时效性。并且机械大数据不仅仅具有大数据的共性,更有本领域的专业性,因此,设计了一种新的数据去重处理流程,如图1所示。在进行数据冗余量去重前,先进行缺失值和噪声数据的处理。在信号采集过程中运用低通滤波技术,可以很好地除去噪声数据,而采集的数据是机床主轴振动信号,数据间的线性关系差,故选均值插补法对缺失值进行填充。

图1 数据去重流程框图

而通过决定系数R2对数据进行初步清洗与提取所获得的新数据集Tfi仍有很高的重复性。因此,先利用生成新数据的R2值对各个数据集进行降序排序,然后选出最优数据集Tfa(Tfa为R2最大的数据集),使最优数据集Tfa依次与其他数据集Tfi(i≠a)进行相关系数r计算,其判定值设为0.8,r>0.8表示测试数据集与该数据集重复性过高,则删除数据集Tfi。再选择第二优的数据集Tfb与余下的数据集Tfi(i≠a,b)进行相关系数r的计算,重复以上步骤,直至最后一个数据集。这样通过R2被保留的大量数据中最优的被选择出来,重复性多的被剔除,同时需要进一步观察研究的数据集也一并筛选出来。

2.3 应用案例

某机械制造公司在生成过程中需要监测机床、刀具及其他设备的运行状态,迫切需要一个压缩、筛选数据的预处理方法,为完成产业升级做准备。为了解决该企业数据预处理问题,采用笔者提出的基于决定系数与相关系数相结合的数据处理方法,为验证该方法的可行性,按采集单位时间对机床主轴空转振动数据进行切片,并提取其中的6组数据进行试验分析,具体数据如表1所示。其中:T11∽T16为1号传感器数据集,T21∽T26为2号传感器数据集。

对6组数据分别进行决定系数R2值计算,试验结果如表2所示,从整体结果上看均满足新数据的生成条件,但是第二组与第三组的R2值较低,是因为在切片处理时对其采用了均值填充法,补充的缺省值过多。这类方法是通过把完整数据的算术平均值作为缺失数据的值,原理是在正态分布下,样本均值是估算出的最佳的可能取值。而应用均值填充法将会影响缺失数据与其他数据之间的相关性,进而导致决定系数R2值的下降。

利用T1i和T2j原始数据集的均值生成新的数据集Tfi,如表3所示。将生成的新数据集分别对原数据集进行决定系数R2值计算,从表2可和新数据集与原数据集的相关性很高,可以替代原始数据集。实现了将两组数据合并成一组数据,同时节省了存储空间。

表2 R2值计算结果

表3 生成的新数据集

通过决定系数R2值对6组数据进行降序排序,如表4所示。发现第一组的数据Tf 1为最优数据,作为相关系数式(1)中的x值,依次按顺序将Tf 6,Tf 5,Tf 4,Tf 3,Tf 2作为式(1)中的y值。通过计算得出,Tf 1与Tf 6、Tf 3的相关系数r值约为1,Tf 1与Tf 5、Tf 4、Tf 2的相关系数r值约为0.9,均大于设定值0.8,因此可以用数据集Tf 1代替其他5组数据集,从而将2 880条数据降低到480条。原始数据集1与原始数据集2在6个连续单位时间内的均值分别为0.045 009与0.044 991,而新数据集扩展6个连续单位时间后的均值为0.045 003,偏差量很小,该方法可行性强。

表4 排序结果

应用实例表明,基于相关系数与决定系数相结合的监测数据去重方法针对特定条件下监测数据冗余情况,可高效地解决数据去重、筛选问题,进一步减少了对存储空间的依赖,降低数据筛选难度,减少分析压力。

3 结论

为了解决机械生产过程中监测数据冗余,重复性高的问题,提出了基于相关系数与决定系数相结合的监测数据清洗方法,并以某机械制造企业数据去重问题实例进行试验验证。结果表明,在机械生产监测特定的条件下,基于相关系数与决定系数相结合的数据筛选方法能够高效地解决数据去重、筛选的难题,减少对存储空间的过分依赖,降低分析压力。由于该方法对监测环境以及数据采集系统的精确度要求苛刻,因此,在将来的工作中,将对该方法进行完善,使其面向更广泛的应用场景。

猜你喜欢
决定系数原始数据监测数据
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
日本乌贼(Sepiella japonica)形态性状与体质量的相关性及通径分析
受特定变化趋势限制的传感器数据处理方法研究
不同规格香港牡蛎壳形态性状对重量性状的影响
2种贝龄合浦珠母贝数量性状的相关与通径分析
GSM-R接口监测数据精确地理化方法及应用
基于颜色读数识别物质浓度的数学模型研究
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
环评中引用大气现状监测数据的研究
GPS异常监测数据的关联负选择分步识别算法