王闪
[摘 要] 支持向量机是借助于最优化方法解决机器学习问题的新工具,它最初于20世纪90年代所提出,近年来在其理论研究和算法实现方面都取得了突破性进展,开始成为克服“维数灾难”和“过学习”的有力手段。文章基于对支持向量机的理解,整理了在SAS软件中支持向量机的不同应用的研究文献,以期对信息管理方法研究提供参考。
[关键词] SAS 支持向量机 核函数 信息管理 管理科学
中图分类号:TP391.42 文献标志码:A
随着科学技术的发展,人们的学习与生活方式发生了很大变化。如何将数以万计的数据转换为有价值的信息,正逐渐受到各个行业研究者的重视。那么怎样从大量的数据中挖掘到有用的信息,则成为巨大的挑战。在数据统计分析的方法中,支持向量机已经被应用到多个领域,支持向量机在解决高维及非线性模式问题中有着显著的优点,而SAS系统具有完备的数据处理、分析、呈现及开发功能,能够进行市场调查、统计分析、预测和质量控制。
一、相关知识
(一)SAS系统简介
SAS系统(Statistics Analysis System)是大型的集成化信息系统,产生于1976年。发展至今,SAS的功能渐进完善并被大家所认同,使用领域遍及医疗、工业、运输、教育科研等。SAS由多个功能模块构成,最基本的模块是BASE SAS模块。SAS可以绘作统计图,进行统计分析,提供各种统计函数,用户也可以根据需求进行数据的处理和统计研究。
(二)支持向量机简介
支持向量机(Support Vector Machine, SVM)是一种在最小化原则上建立起来的机器学习方法。它能够在复杂性模型和学习能力之间找到最优解,避免陷入局部最优解的问题中,也能防止出现神经网络算法的“过学习”状况。支持向量机有一个主要的函数-核函数,它实现了将非线性转换成线性的功能,所以它能够有效地处理线性和非线性的回归问题。目前,应用最多的有人脸识别、文本分类、计算机视觉及石油化工等领域。图1为支持向量机的实施步骤。
二、实际案例中支持向量机与SAS的结合应用
支持向量机与SAS的结合使用是一种新的综合方法,但可以参考的文献较少,本节对已有的文献进行简单阐述,以期为之后的研究学习提供理论基础。
(一)交通行业交通流预测——基于SARIMA和SVM模型的短时交通流预测
支持向量机将完备的学习能力和SAS的统计分析进行结合,对交通流进行了预测。交通流具有周期性和随机性,选用了SARIMA模型进行建模,对构建模型过程中的模型识别、参数估计、诊断检验、模型优化等步骤分别进行阐述,并使用SAS软件编程实现了预测。
本研究一开始就对时间序列分析之前的两种检验(平稳性检验、随机性检验)、序列非正态性及残差异方差性进行了介绍,之后选用了SARIMA模型进行建模,对构建模型过程中的模型识别、参数估计、诊断检验、模型优化等步骤分别进行了阐述,最后将支持向量机与SAS进行了结合使用,实现对短时交通流的预测分析[1]。
(二)工业工程领域——结合回归分析与改进GASAR的风机噪声预测
SAS有着强大的数据处理和分析能力,利用SAS可以计算出条件指数和方差膨胀因子,对样本进行统计分析,可找到数据的异常点,提高预测的精度。之后与支持向量机回归进行了结合使用,判断共线性问题,保证了数据的精准性和有效性。本研究应用线性回归(SAS)和遗传算法(支持向量机回归)相结合的方法对风机的噪声进行了预测[2]。
此外,本研究针对传统的GA-SAR模型进行改进,选用回归分析,并且对样本数据实现了降维处理,建立了预测分析模型。
(三)医学研究领域——基于支持向量机模型预测结直肠癌根治术预后风险
本研究运用SAS对样本进行统计分析,对数据进行了描述;使用卡方检验方法对数据的分化程度、类型、分期、是否化疗/放疗进行了差异性分析,把差异性因素做了回归logistic处理。
支持向量机预测模型的基本原理是先对于多分类的问题设置训练个数,且SVM要找到一个最优的分类平面,将两类样本分成两个平面。但一般情况下,数据有所重叠,这时需要运用支持向量机的核函数,核函数可以将样本点映射到高维空间,实现数据的分离,最后得到两个完全的分类平面[3]。
(四)用户行为偏好——基于支持向量機的移动互联网用户行为偏好研究
本研究对数据进行了统计分析,采用离散选择模型分析了变量之间的关系,对有显著影响的用户行为因素进行了解释,之后运用支持向量机模型对用户行为的偏好进行了分类处理,寻找出最优的参数组合,对比不同核函数和参数分类的效用。
本研究运用SAS系统进行了预测分析,采用Fisher评分优化法,得到一个二元模型,从而可以得到用户行为的偏好。SAS系统还可以生成最大似然估计值分析表、优比估计值表、预测概率和观测响应的关联表,得出相关的研究结论[4]。
(五)医学统计研究应用——核主成分回归方法在特征提取和预测方面的研究及其在医学中的应用
本研究运用支持向量机的核函数进行了数据的主成分分析,对复杂的样本数据进行了特征提取,并运用混沌时间序列对非线性数据进行了回归分析,由线性扩展到了非线性。本研究使用SAS、MATLAB和LIBSVM等软件分析了医学案例,对比其他提取特征值的预测方法,最后将核函数的主成分分析方法应用至医学研究中,为医学的统计研究找到了新的研究思路[5]。
(六)图像信号应用——统计方法在由心电图判别疾病中的应用
本研究主要探讨统计方法在心电图疾病判别中的应用。首先对数据进行预处理,通过WFDB软件检测波QRS的边界,使用SAS系 统软件截取心拍数据进行相关特征的计算。分类方法涉及三类:支持向量机、马氏距离判别分析及逻辑回归。
在实际应用中,可以使用SAS系统进行数据的判别分析和方差检测,从而根据检测结果选择广义的距离公式。选用逐步判别方法的基本思想和理论方法,对有显著识别能力的特征变量进行识别[6]。
(七)预警技术应用中——浙江省流感预警技术研究
本研究整理了流感的相关疾病信息和各类气象信息,对两者进行关联分析,找到发生流感的关联因素,使用多元线性回归模型和支持向量机算法建立流感预警模型,之后通过历史流感数据对新模型进行验证分析。本研究采用Excel对数据进行了整理,采用SAS系统进行相关分析和多元线性分析,采用Matlab软件进行支持向量机预测模型的建立[7]。
三、结语
SAS系统对初学者来说是一款容易上手的统计软件,是国际上标准的统计分析软件,编程代码简单,功能健全强大,堪称统计分析、数据挖掘方面的巨无霸软件。而支持向量机有很强的机器学习能力,能够有效避免出现局部最优解和过度学习的状况。支持向量机与SAS系统的结合使用,可更高效地对数据进行统计分析,这两种方法正逐渐被更多的研究者认可,可为今后在实际案例中的研究学习提供新的研究思路。
参考文献:
[1]陆海亭.基于SAR IMA和SVM模型的短时交通流预测[D].南京:东南大学,2010.
[2]余金,何山,程静,等.结合回归分析与改进GA- SAR的风机噪声预测[J].中国科技论文,2015(23):2805- 2809.
[3]杜成风,胡敏,何晶晶,等.基于支持向量机模型预测结直肠癌根治术预后风险[J].重庆医科大学学报,2016(25):14- 15.
[4]董正浩.基于支持向量机的移动互联网用户行为偏好研究[D].北京:北京邮电大学,2014.
[5]李立科.核主成分回归方法在特征提取和预测方面的研究及其在医学中的应用[D].太原:山西医科大学,2010.
[6]黄荣.统计方法在由心电图判别疾病中的应用[D].上海:华东师范大学,2014.
[7]卢汉体.浙江省流感预警技术研究[D].杭州:浙江大学,2015.