李清霞
摘 要: 传统支持向量机挖掘方法可以对领域数据实现挖掘,但在复杂多变环境下数据挖掘离散程度较大。提出海量数据的支持向量机优化挖掘方法,构造静态粒子空间,局限海量数据挖掘离散程度,形成小规模的、多簇团的粒子挖掘数据集;将单粒子挖掘数据进行离散性拟合,以多簇团粒子整合离散运算,保证挖掘计算进行周期性运行;对同轨挖掘计算进行条件约束,实现小离散程度的数据挖掘。仿真实验验证结果表明,支持向量机优化挖掘方法在复杂多变环境下具有较高的稳定性,并且挖掘离散度小、挖掘信息精度较高。
关键词: 海量数据; 支持向量机; 多簇团粒子; 数据拟合; 整合运算; 挖掘离散; 优化方法
中图分类号: TN911?34; TN913 文献标识码: A 文章编号: 1004?373X(2018)06?0137?04
Abstract: The traditional data mining method based on support vector machine (SVM) can mine the domain data, but has high data mining dispersion degree in the complex and changeable environment. Therefore, an SVM?based optimization mining method of massive data is proposed to construct the static particle space, limit the data mining discrete degree, and form the small?sized and multi?cluster particle mining data sets. The discrete fitting is carried out for the single?particle mining data, and the multi?cluster particles are integrated for discrete operation to ensure the periodical operation of mining calculation. The conditional constraint is performed for the one?orbit mining calculation to realize the data mining with low discrete degree. The simulation experimental results show that the optimization mining method based on SVM has high stability in the complex and changeable environment, low mining discrete degree and high information mining accuracy.
Keywords: massive data; support vector machine; multi?cluster particle; data fitting; integration operation; mining dispersion; optimization method
0 引 言
支持向量机是近年来广泛受到关注的机器学习与分析方法,广泛应用于函数估计、模式识别、图像处理和生物信息学等诸多领域。传统的支持向量机挖掘方法可以对领域内数据进行挖掘,但在复杂多变环境条件下,存在挖掘离散性较高的问题。根据以上问题,提出海量数据的支持向量机优化挖掘方法。实验结果表明,海量数据的支持向量机优化挖掘方法,在多变复杂的环境下具有良好的稳定性,在较小的离散性下保持较高的数据挖掘精度。
1 海量数据的支持向量机优化挖掘技术
1.1 构建静态粒子空间局限离散程度
对单个数据单元进行离散性提取,将具有同一性的数据进行归一化处理,利用核函数的计算,将反应同一性的参数进行粒子运算,海量信息计算提取的同一性数据定义了初始化群的离线性质[1]。对定义后的初始化群粒子进行离散度约束,形成静态粒子空间。通过静态粒子空间,删除失真数据,在空间粒子离散度受到空间的局限。在进行粒子的整合运算时[2],将粒子数据整合,挖掘数据会按照局限进行同轨运行计算,周期计算存在一定的偏差,运行偏差较大时会加大离散程度,因此需要重新认定挖掘数据[3?4]。偏差度为零或者较小时可将挖掘数据进行输出。本文设计的海量数据的支持向量机挖掘流程图如图1所示。
1.2 离散性拟合计算
离散数据拟合计算是根据定义的初始化群粒子的特性,进行离散度的整合计算。将离散度高的数据进行拟合计算,剔除原有数据属性,成为新的具有合理性粒子的挖掘数据,拟合计算过程用粒子整合离散中的拟合属性,对数据超过平均浮动的粒子进行剥离[5?6],对超过5倍浮动的粒子进行规律性的删除,对平均方差为3~5倍的粒子进行比例拟合整合[7?8],保证单个粒子的计算精度。其离散数据拟合过程如图2所示。
粒子通过离散数据拟合计算,形成多簇团粒子空间,对多簇团粒子空间进行粒子整合,粒子模拟整合[9]可分为点动整合和线动整合两种。其多簇团粒子整合示意图如图3所示。endprint
点动整合是大部分多簇团粒子呈线性分布,而在整合曲线上出现单簇团或多处簇团偏离呈现。将偏离整合曲线的簇团进行合理移动,其最大移动值不能超过簇团局限数据,离散数据拟合整合前的最大值是移动的最小值[10],实现多簇团周期规律运行。线动整合是较多的簇团粒子呈无规律分布,且数据挖掘呈偏离状态,整合曲线连接多簇团粒子代表性差。因而进行整合曲线的调整[11],即线动整合。整合曲线的调整必须满足有[12]的粒子在整合曲线外,且整合曲线上的粒子不能代表所有多簇团粒子的计算值。整合曲线移动原则要尽可能地连接所有多簇团粒子,连接具有代表性以及规律性。对不能连接所有多簇团粒子的,先进行线动整合后,再进行点动整合,使挖掘数据具备周期性。
1.3 实现低离散度数据挖掘
对多簇团粒子整合运算后,进行数据的同轨挖掘运算,海量数据的支持向量机挖掘方法,具有一定的数据代表性,但数据代表性需进行挖掘伴随性验证,验证成功后对挖掘数据进行输出,其同轨运算选用偏正挖掘数据与负偏挖掘数据,实测挖掘数据能够进行同轨计算,保证运行正负偏差固定,以保证同轨挖掘运算的稳定性。其数据挖掘同轨框架图如图4所示。
通过MySQL,Share,Nothing,MySQL nab计算方法,根据数据挖掘特点,进行不同对象的挖掘计算,伴随同轨挖掘计算周期运行。其同轨运行算法的离散程度与偏离数据如表1所示。
通过周期挖掘计算的同轨运行,稳定地挖掘数据信息,利用硬件设备进行数据传递,对不稳定的挖掘数据、离散较大的数据进行重新粒子拟合、多簇团粒子的整合运算。重新拟定同轨计算,保证对每组挖掘数据的结果不带有离散性,从而实现海量数据的支持向量机数据挖掘。
2 仿真实验与测试
为了验证解决支持向量机的挖掘方法的有效性,本文采用传统数据挖掘方法与海量数据支持的向量机数据挖掘方法进行对比实验,利用支持向量机的离散程度测试和斜方差分析验证支持向量机的挖掘方法的有效性。
通过仿真模拟实验,对特定实验对象进行数据挖掘不少于10万次或2 h。采用两种支持向量机的挖掘,记录标记数据点,利用计算机系统生成离散程度分布图,如图5所示。
根据离散程度分布图可以看出,传统数据挖掘方法的数据挖掘能力的浮点率较高,离散程度较大。并且存在个别失真点,数据不确定性。具有3处挖掘数据集中心域,一次为零偏差范围,其他两次分别存在正偏差和负偏差。
方差分析是调节协变量对因变量的影响效应,对实验进行统计控制的一种综合方差分析和回归分析的方法。通过综合方差分析与回归分析,得出斜方差分析图,如图6所示。
图6中:[Σx]代表稳定值;[Σy]代表离散值。[Σx]小于2代表稳定,[Σx=0]代表测量值恒定最稳定。[Σy]小于4代表离散现象可以忽略不計,[Σy=0]代表测量值无离散现象。基于斜方差分析图,对[Σx]与[Σy]进行测定,其传统数据挖掘方法的稳定性为[Σx=1]、离散性为[Σy=3],海量数据的支持向量机数据挖掘方法的稳定性为[Σx=0.3]、离散性为[Σy=1]。通过离散程度测试、变异系数测试和斜方差分析实验的结果。说明海量数据的支持向量机数据挖掘方法具有良好的离散性、数据可靠性。
3 结 语
通过静态离粒子空间的构建,以及粒子的多重去离散性运算,优化挖掘方法,经实验验证结果表明,海量数据的支持向量机优化挖掘方法,在复杂多变的环境下,具有较小的离散性、良好的稳定性以及挖掘精度。
参考文献
[1] 肖白,聂鹏,穆钢,等.基于多级聚类分析和支持向量机的空间负荷预测方法[J].电力系统自动化,2015,39(12):56?61.
XIAO Bai, NIE Peng, MU Gang, et al. A spatial load forecasting method based on multilevel clustering analysis and support vector machine [J]. Automation of electric power systems, 2015, 39(12): 56?61.
[2] 王宁,谢敏,邓佳梁,等.基于支持向量机回归组合模型的中长期降温负荷预测[J].电力系统保护与控制,2016,44(3):92?97.
WANG Ning, XIE Min, DENG Jialiang, et al. Mid?long term temperature?lowering load forecasting based on combination of support vector machine and multiple regression [J]. Power system protection and control, 2016, 44(3): 92?97.
[3] 焦卫东,林树森.整体改进的基于支持向量机的故障诊断方法[J].仪器仪表学报,2015,36(8):1861?1870.
JIAO Weidong, LIN Shusen. Overall?improved fault diagnosis approach based on support vector machine [J]. Chinese journal of scientific instrument, 2015, 36(8): 1861?1870.
[4] 王瑜,苑津莎,尚海昆,等.组合核支持向量机在放电模式识别中的优化策略[J].电工技术学报,2015,30(2):229?236.
WANG Yu, YUAN Jinsha, SHANG Haikun, et al. Optimization strategy research on combined?kernel support vector machine for partial discharge pattern recognition [J]. Transactions of China electrotechnical society, 2015, 30(2): 229?236.endprint
[5] 薛浩然,张珂珩,李斌,等.基于布谷鸟算法和支持向量机的变压器故障诊断[J].电力系统保护与控制,2015,43(8):8?13.
XUE Haoran, ZHANG Keheng, LI Bin, et al. Fault diagnosis of transformer based on the cuckoo search and support vector machine [J]. Power system protection and control, 2015, 43(8): 8?13.
[6] 张玉欣,程志峰,徐正平,等.参数寻优支持向量机在基于光声光谱法的变压器故障诊断中的应用[J].光谱学与光谱分析,2015,35(1):10?13.
ZHANG Yuxin, CHENG Zhifeng, XU Zhengping, et al. Application of optimized parameters SVM based on photoacoustic spectroscopy method in fault diagnosis of power transformer [J]. Spectroscopy and spectral analysis, 2015, 35(1): 10?13.
[7] 李霄,王昕,郑益慧,等.基于改进最小二乘支持向量机和预测误差校正的短期风电负荷预测[J].电力系统保护与控制,2015,43(11):63?69.
LI Xiao, WANG Xin, ZHENG Yihui, et al. Short?term wind load forecasting based on improved LSSVM and error forecasting correction [J]. Power system protection and control, 2015, 43(11): 63?69.
[8] 梁礼明,钟震,陈召阳.支持向量机核函数选择研究与仿真[J].计算机工程与科学,2015,37(6):1135?1141.
LIANG Liming, ZHONG Zhen, CHEN Zhaoyang. Research and simulation of kernel function selection for support vector machine [J]. Computer engineering and science, 2015, 37(6): 1135?1141.
[9] SHAO Y H, HUA X Y, LIU L M, et al. Combined outputs framework for twin support vector machines [J]. Applied intelligence, 2015, 43(2): 424?438.
[10] GUI G, PAN H, LIN Z, et al. Data?driven support vector machine with optimization techniques for structural health monitoring and damage detection [J]. KSCE journal of civil engineering, 2017, 21(2): 523?534.
[11] THARWAT A, HASSANIEN A E, ELNAGHI B E. A BA?based algorithm for parameter optimization of support vector machine [J]. Pattern recognition letters, 2017, 93(7): 13?22.endprint