低质量数据驱动的支持向量机的发展与应用

2019-07-19 05:47赵兴章
活力 2019年8期
关键词:支持向量机机器学习

赵兴章

【摘要】低质量数据驱动的支持向量机主要的作用是机器学习和模式识别。它在机器学习和模式识别方面具有理想的性能和特有的优势。

【关键词】低质量数据;支持向量机;机器学习;机器学习

引言

支持向量机是机器学习与模式识别领域最优秀的成果。SVM以统计学理论为基础,研究小样本情况下的机器学习规律,考虑渐近性能要求,并追求有限信息条件下的最优结果。SVM采用了新型的统计学VC维理论,并运用结构风险最小化、间隔最大化、核函数等相关技术。SVM具有坚实的数学理论基础,有效地解决了有限样本条件下高维数据模型的构建问题,并具有泛化能力强、收敛到全局最优、维数不敏感等优点。SVM模型及相关理论已经被成功地应用于众多领域,如:文本归类、图像处理、语言分析、人脸识别、生物信息辨识等。这也说明了SVM在机器学习和模式识别方面具有理想的性能和特有的优势。目前,SVM是机器学习与模式识别领域最热门的研究方向之一。

一、支持向量机在各个领域遇到的问题

SVM理论在工业领域已有的应用存在着一些问题。第一个方面的问题是已应用的SVM理论不完全符合工业数据的低质量驱动特性。一个不可忽略的事实是从工业现场获得的工业数据属于低质量数据。这里的“低质量”表达了多个方面的含义,我们以工业钢表面缺陷分类识别为例说明。第一个方面,低质量数据表示缺陷样本的标记信息存在噪声。表面缺陷数据采集于钢铁企业生产线,其人工标记的群体一部分来自专家,另一部分来自一线工人。专家的缺陷标记质量能够得到可靠的保证,但是一线工人的标记质量差异较大,存在错误标记的情况。第二个方面,低质量数据表示缺陷样本的特征存在噪声。缺陷特征噪声主要源于工业生产线恶劣环境的影响,以及设备与采样的错误。这些影响与错误造成了同类型缺陷不同样本的特征差异,引起特征噪声。查阅已应用SVM理论的钢表面缺陷识别的文献发现,大部分文献都假设钢表面缺陷是标准质量数据,少部分文献对具有噪声、不平衡的缺陷数据进行了分析,但只从样本权重上进行解决。

第二个问题是已应用的SVM算法不满足工业数据持续学习的要求。一个不可忽略的事实是工业数据的获取是一个持续的过程。一般来说,工业数据都源于实际的产品生产线,这些产品生产线在运行的过程中会持续产生新的数据。这些新的数据对于学习与识别而言,可以作为原有的训练数据的补充。因为这些新的数据一方面解决了原有训练数据的不充足问题,另一方面对于不同时期的工业产品提供了最新的训练数据。因此,工业数据的获取、分析、学习需要以更新的方式实现。比如说,工业钢表面缺陷检测系统就被安装在实际的钢生产线上。检测系统实时的分析、学习与识别钢制产品,并使用这些新的数据在线更新检测系统。因此,对于钢表面缺陷的学习与识别算法要求具备增量学习的能力。已应用SVM算法的钢表面缺陷识别的文献很少涉及在线更新,也很少使用具有增量学习的SVM模型。也就是说,这些文献都采用一个固定的训练数据集,获得一个固定的学习模型,忽略了后续获得的新数据。

第三个问题是SVM最新理论没有被及时的应用于工业领域。查阅相关的文献发现,工业领域对于SVM的应用还停留在标准SVM及改进的SVM理论上。近几年,随着对SVM标准模型研究的深入,又出现了一批新的SVM模型,如:孪生支持向量机、弹球损失函数支持向量机、孪生超球体支持向量机、非平行支持向量机、未确知支持向量机等。我们把这些新型的SVM模型统称为新生类SVM,它们主要在效率、精度、推广性能与泛化性能上具有优势。这些新生类SVM模型很少被应用到工业数据的机器学习与模式识别,如钢表面缺陷检测、工业故障诊断等。

二、低质量数据驱动的支持向量机

针对低质量数据的两种情况:M分布不平衡和噪声的问题,研究新的鲁棒性分类模型。首先研究样本分布不平衡,将两类样本尽量正确分开。以下有很多方法第一基于采样的方法,基于数据层面的方法被广泛应用基于SVM不平衡数据分类算法中,在训练SVM模型前通过使用各种数据预处理方法使训练样本达到平衡,这些方法包括随即向上/向下采样法,这种方法不仅有效地减少对SVM的训练时间,而且能提高分類器的性能。其次是基于核调整的方法通过核调整函数来改善SVM对不平衡数据集的分类性能。当训练样本包含大量噪声样本时,基于单一稀有类训练出来的模型,通常与基于两类样本得到的模型具有良好的性能。可以使用模糊集理论和决策树等方法解决不平衡数据分类问题。这种方法的优点可以解决大量噪声的样本的效果比较好。最后,是噪声问题噪声,主要包括标签噪声和特征噪声主要解决的就是特征噪声问题,特征噪声可以采用二次损失函数和弹球(pinball)损失函数的SVM,主要从全局的角度降低了分类器对噪声的敏感性。

结语

作为一种新型的机器学习方法,低质量数据驱动的支持向量机具有很强的理论基础,能够解决低质量数据的数学问题与实际问题,主要适用于模拟的函数、回归分析和数据分类领域。与基本的支持向量机相比它的适应性更好、速度更快。

猜你喜欢
支持向量机机器学习
基于改进支持向量机的船舶纵摇预报模型
基于词典与机器学习的中文微博情感分析
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
机器学习理论在高中自主学习中的应用