聂茹佳, 黎文泽, 赵为华*, 张日权
(1. 南通大学理学院, 江苏 南通 226019; 2. 上海对外经贸大学统计与信息学院, 上海 201620)
支持向量机(support vector machine, SVM)是由Vapnik等在统计学习理论的基础上提出并于20世纪90年代快速发展起来的一种新的机器学习算法[1].作为一种监督学习方法, SVM被广泛应用于分类问题, 因其同时考虑了经验风险和模型复杂度并结合VC(Vapnik-Chervonenkis)维理论, 所以SVM在解决非线性、有限样本、高维数等实际问题中表现出良好的预测能力[2], 使其备受关注, 也涌现出大量的理论研究成果[3-6].当前支持向量机已经广泛应用于解决回归问题(响应变量是连续型情形), 并称其为支持向量回归.回归分析旨在探寻解释变量和响应变量之间的关系,而分位数回归[7](quantile regression, QR)通过最小化一个非对称绝对误差和来获得响应变量的条件分位数估计, 它不仅能够了解响应变量分布的中心趋势, 而且能学习到响应变量分布的尾部趋势, 从而比条件均值函数更全面地反映了响应变量的分布情况.支持向量分位数回归(support vector quantile regression, SVQR)是支持向量回归与分位数回归两种方法的结合, 不仅能够充分发挥支持向量机利用核函数处理解释变量与响应变量之间潜在的非线性关系的能力,而且能够通过分位数回归完整刻画响应变量条件分布特征.特别地, 当解释变量和响应变量之间潜在的关系是非线性时, 支持向量回归能够通过一个非线性映射将低维空间中的数据映射到高维特征空间中做线性回归,因此这种方法有别于强调降低维数的传统方法,其基本原理在于升高维数, 而核函数在处理这类问题时具有较大的优势.Shim等[8]在支持向量回归框架下提出基于加权二次损失函数研究SVQR模型; Xu等[9]提出一种新的支持向量加权分位数回归方法, 并验证了所提方法的有效性; Choi等[10]基于支持向量回归思想研究十分位数回归问题, 并提出基于迭代加权最小二乘法获得参数估计的方法.同时, 为获得非交叉分位数函数曲线的估计,在单调性的约束条件下, 已有一些研究者提出基于多个分位数水平的同时估计方法[11-14].众所周知, 在回归模型中, 稀疏性是一个非常理想的属性, 而稀疏回归模型使用较少的训练数据点来构建回归函数, 在预测测试数据点的响应方面具有很高的时间效率.由于SVQR模型缺乏稀疏性以致于所有的训练数据点都对经验风险有贡献, 故为了提高SVQR模型的泛化能力, 须有效利用“ε-不敏感”方法将稀疏性带回模型中.然而, 想要得到一个真正意义上的“ε-不敏感”弹球损失函数以获得对现有SVQR 模型的预测效果有显著的改进仍然比较困难.
Anand等[15]将一种新的损失函数应用到支持向量分位数回归模型中, 使模型在具有稀疏性的同时能有效地提高其稳定性, 具有更好的泛化能力.另一方面, 在实际数据分析中常遇到数据间存在非线性关系且数据的维度较高, 为避免回归建模中的“维数灾难”现象,统计学家提出了许多降维建模方法.变系数模型是一种常见的多元降维模型且能捕捉响应变量与解释变量之间的动态非线性交互关系, 因而受到统计应用者的广泛关注.Yoshida[16]研究了变系数模型的极值分位数回归问题; Shim等[17]提出一种支持向量分位数变系数回归模型, 并使用二次规划和迭代加权最小二乘两种方法获得非参数函数估计, 但未将稀疏性带入到变系数SVQR模型中.本文拟基于不对称“ε-不敏感”的分位数损失函数提出分位数回归估计方法, 并通过数值模拟研究新方法的有限样本性能.
变系数模型的一般形式为
基于凸二次规划理论可构造拉格朗日函数
(1)
代入式(1), 得最大化对偶优化问题
(2)
根据Karush-Kuhn-Tucker(KKT)条件, 满足约束条件
将对称的“ε-不敏感”与非对称的弹球损失函数结合起来, 则损失函数为
图损失函数Fig.1 Asymmetric ε-insensitive loss function (u)
对于分位数回归问题, 给定分位数τ∈(0,1), 上述损失函数亦可表示为
此时, SVQR模型为
进一步可以改写成
有
其中自定义参数ε≥0.值得注意的是, 当ε=0时, 该模型即可简化为普通的SVQR模型.同样, 为了有效地解决原问题, 须推导出它的对偶问题, 通过引入拉格朗日乘子,得到原问题的拉格朗日函数
将上述问题代入拉格朗日函数即可得原问题的对偶问题
且满足条件
(3)
为了比较SVQR模型及不对称“ε-不敏感”的SVQR模型的模拟效果, 分别生成一个样本容量n=300的训练数据集和验证数据集及100个容量为300的测试数据集.在模拟数据集的基础上, 使用两种SVQR方法对不同条件分位数函数进行估计, 主要步骤为: 1) 根据广义近似交叉验证(generalized approximate cross validation, GACV)准则在训练数据集上寻找得到模型的最优参数[18]; 2) 对测试数据集运用SVQR模型预测出系数函数的条件分位数值, 并与真实的条件分位数函数值进行比较, 利用评价指标求出均值, 得到相关结论.
表1 不对称ε-SVQR模型在测试数据集上的RMSE平均值
图3 系数函数βi(u)的τ=0.5分位数估计曲线Fig.3 The estimation curve with τ=0.5 of coefficient function βi(u)
从图3可以发现,u在[0.4,0.7]区间时系数函数β1(u)为负, 说明从六月到八月这3个月中, 随着温度的升高,人们对租赁自行车这种交通方式的需求减少, 且大约在七月前后的某个时间点, 温度对租赁自行车总数的负相关性最强, 而在其余时间,即春、秋和冬3个季节中, 系数函数β1(u)均为正, 即温度越高, 租赁自行车总数越高, 此时温度对租赁自行车总数起着正相关的作用.系数函数β2(u)和β3(u)总为负, 说明湿度对租赁自行车总数起着负相关作用,即湿度越高, 租赁自行车总数越低, 且大约在u=0.8时(九月中下旬)负相关性最强.同样, 风速对租赁自行车总数也起着负相关作用,表明风速越大,租赁自行车总数越低,且九月中下旬的负相关性也最强.
表2为分位数τ分别取不同值时不对称ε-SVQR、SVQR和线性分位数回归(linear quantile regression, LQR)模型下关于租赁自行车总数的RMSE值.结果表明,τ分别取0.1至0.9时, 使用不对称“ε-不敏感”SVQR模型得到的RMSE值总比SVQR模型得到的RMSE值小, SVQR模型得到的RMSE值总比使用线性分位数回归模型得到的RMSE值小, 说明在ε的非零值上取得了较好的RMSE值, 实例结果验证了所提方法的有效性.
表2 不同模型在共享单车数据上的RMSE值
运用支持向量分位数回归既能发挥支持向量机的优势有效地模拟系统中的非线性结构, 又能拥有分位数回归完整描述响应变量的条件分布特征的能力, 本文提出了变系数模型,并通过数值模拟对比了SVQR模型及不对称“ε-不敏感”SVQR模型的模拟效果.结果表明, 不对称“ε-不敏感”SVQR模型的模拟效果更好.下一步工作将继续对非交叉分位数的问题进行讨论, 寻找更优秀的解决方法, 如在小样本情形可考虑贝叶斯方法研究支持向量回归问题.