基于Scikit-learn的支持向量回归分析

2019-09-10 07:22潘兴广牛志忠张明贵
现代信息科技 2019年6期
关键词:回归分析

潘兴广 牛志忠 张明贵

关键词:Scikit-learn;支持向量;回归分析

中图分类号:TP18     文献标识码:A 文章编号:2096-4706(2019)06-0009-03

Keywords:Scikit-learn;support vector;regression analysis

0  引  言

支持向量回归(Support Vector Regression,SVR)是AT&T BELL实验室的Vapanik提出的基于结构风险最小化原理的统计学习理论。它的基本思想是让维数(泛化误差)的上限最小化,从而使经验风险最小化,最终使训练数据的误差最小化[1]。支持向量回归是一种新的机器学习方法,它是基于统计学习理论和优化理论发展起来的,它利用结构风险最小化原则,把问题表述为一个二次凸规划及其对偶问题来简化问题,并且这个凸规划问题的解是全局最优解。通过构造损失函数和选取适当的正则参数来处理回归问题,利用核函数把非线性问题转化为在高维特征空间求解线性问题。

支持向量回归(SVR)是一种广泛使用的回归技术。与SVC类似,SVR也使用核函数将数据映射到高维空间,它将数据映射到更高维空间[2,3]。SVR引入核函数后,使其具有处理非线性问题的能力。但使用核函数带来了时间复杂度高的问题,虽然Joachims和Plattet等提出了有效的训练方法,但在大规模数据集上使用核函数做回归仍是个悬而未决的问题。

目前已经有很多研究领域证明了SVR具有十分可观的应用前景,但是基于SVR的回归预测结果仍然有很大的提升空间,还可以对SVR进行改进,使算法的性能有较大的提升。国外对SVR算法的改进已经做了很多工作,提出了一新改时算法。但国内对于SVR的研究還是局限于应用创新,缺乏理论创新。因此,SVR在国内外还有很大的研究空间,以后的工作中应加快理论方面的研究。

1  支持向量回归技术

三个模型在Boston数据集的拟合性能如表3所示,可以发现,在SVR中使用不同的核函数,它们在Boston、breast cancer和iris三个数据集上的拟合性能是不一样的。RBF核的SVR拟合性能最好,多项式核的SVR的性能次之,线性核的性能较差。

因此,在实际应用中,应该考虑选择RBF核的SVR,把数据映射到高维的特征空间,然后再做回归分析,这样可以得到较好的拟合效果。

5  结  论

支持向量回归机(Support Vector Regression,SVR)是一种非常有效的回归学习方法,具有很好的数据拟合性能,可以针对不同的应用场景,选择不同的核函数,可以得到较理想的拟合效果。随着数据挖掘和数据分析技术的发展,SVR在未来一定有很好的应用前景。

参考文献:

[1] 吴炜编.基于学习的图像增强技术 [M].西安:西安电子科技大学出版社,2013.

[2] 王方成.混合型参数的支持向量回归机建模及优化研究 [D].河南:郑州大学,2018.

[3] (美)Nello Cristianini,John Shawe-Taylor.支持向量机导论(第1版) [M].北京:电子工业出版社,2004.

[4] http://archive.ics.uci.edu/ml/index.php,UCI data set.

作者简介:潘兴广(1979.11-),男,苗族,贵州黄平人,实

验师,硕士,研究方向:机器学习、数据挖掘;牛志忠(1897.11-),

男,汉族,江苏淮安人,助教,硕士,研究方向:模式识别、人工智

能;张明贵(1986.11-),男,穿青人,贵州织金人,讲师,硕士,研究方向:图像处理,数据挖掘。

猜你喜欢
回归分析
社会保障支出与GDP之间的关系研究
基于CGSS2003数据关于住房影响因素的报告
基于CGSS2003数据关于住房影响因素的报告
溶血标本对生化检验的准确性干扰及纠正性回归分析
中国经济发展状况与大学生就业情况的相关性研究
北京市旅游产业与经济增长的实证分析
城乡居民医疗费用的相关性与回归分析
基于变形监测的金安桥水电站坝体稳定性分析
森林碳汇影响因素的计量模型研究
河北省城镇居民人均可支配收入与消费统计分析