罗博炜 洪智勇 王劲屹
摘 要: 以多元线性回归统计模型为基础,用Python语言对美国部分地区房价数据进行建模预测,进而探究提高多元回归线性模型精度的方法。先对数据进行探索性预处理,随后设置虚拟变量并建模得出预测结果,再使用方差膨胀因子对多重共线性进行修正,从而提高模型精度与稳健性,使回归结果在很大程度上得到优化。
关键词: 多元线性回归; 多重共线性; 虚拟变量; 方差膨胀因子
中图分类号:TP3-05 文献标识码:A 文章编号:1006-8228(2020)06-51-04
Abstract: Based on the multiple linear regression statistical model, this paper built the model to predict the house price by utilizing some parts of the United States data, and then explores methods to improve the accuracy of the multiple linear regression model. Firstly, the data were preprocessed, and then the dummy variables were set up for modeling to obtain the predicted results. After that, the multicollinearity was modified by variance inflation factor so that the accuracy as well as robustness of the model was improved, and the regression results were optimized largely.
Key words: multiple linear regression; multicollinearity; dummy variable; variance inflation factor
0 引言
多元线性回归具有非常广泛的应用范围,但在实际预测中对存在类别变量设置不充分或多重共线性问题,导致统计模型缺乏精度和稳健性。由此,本文对如何精准且高效的排除多重共线性影响,并合理地将分类变量转化为虚拟变量,提升多元线性回归模型精度作了进一步探索,并将其应用于房价预测上。
1 多元线性回归模型
一个因变量与两个或更多的预测变量之间的联系被称为多元相关。在这种情况下做出的预测被称为多元回归。线性关系指因变量与自变量之间存在一次方函数关系。多元线性回归模型如下:
其中y为因变量;为自变量;β0,β1,β2,…,βm-1是m个未知参数;ε是均值为零,方差为σ2>0的不可观测的随机变量,稱为误差项,并通常假定ε~N(0,σ2)。
多元回归模型初步建立后,是否真正解释了预测变量和因变量的关系,还要进行显著性检验。
1.1 回归方程的拟合优度检验
判定指数R2描述了由自变量的线性函数值所能反应的Y的总变化量比例。结果在0-1间,越大说明拟合效果越好,判定指数公式如下
其中,MSE表示均方误差,SSE被称为残差平方和。SSR则被称为回归和,反映了自变量的线性函数在各组观测值出取值的离差平方和;SST则被称为总离差平方和,用于度量y自身的差异程度,即数据总的变动。
1.2 回归系数的显著性检验
t检验是分别检验回归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显著影响的因素。检验时先计算统计量ti;然后根据给定的显著水平α,自由度n-k-1查t分布表,得临界值tα或tα/2, 若t>t-α或tα/2,则回归系数bi与0有显著差异,反之,则与0无显著差异。统计量t的计算公式为:
2 虚拟变量的转换
常见的变量类型有定量变量与定类变量两种,其中定类变量也被称为属性变量,即该变量的分数是属性,或是可分类的(如房价预测中的房屋类型)。但在房价回归分析中不宜直接使用定类变量,因为对定类变量所赋与的离散值之间的相等间距掩盖了不同类别之间的差异(如房屋朝向),虚拟变量是解决该问题的经典做法之一。任意一个具有k个属性皆可定义成一组k个取值为1或0的虚拟变量。表1以房屋朝向为例,举例构造虚拟变量。值得注意的是,转化需要舍弃一个虚拟列,才能得到满秩矩阵[1]。
3 多重共线性与VIF
3.1 多重共线性
多元线性回归模型的主要假设之一是自变量彼此不存在强相关,否则会出现多重共线性问题。多重共线性的一个主要问题在于,它会导致多元线性回归系数的显著性偏离真实方向。要判断是否有多重共线性,最常见的办法是借助方差膨胀因子来修正[2]。
3.2 方差膨胀因子
方差膨胀因子(Variance Inflation Factor,VIF)是指解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。VIF越大,显示共线性越严重。自变量x的方差膨胀因子记为VIF,它的计算方法为:
经验判断方法表明:当0 4 案例分析 本文选用2019年美国波士顿地区房价作为示例数据集(6028条),已经剔除各属性过高或过低的异常值,并专注于多元线性回归分析,通过实例数据验证回归分析的结果,并使用方差膨胀因子对模型中可能存在的多重共线性进行修正,进一步提高了模型的精度与泛化能力。示例数据集属性说明见表2。 随机预览5条数据如表3所示。 4.1 房价影响参数分析 正式建立模型前,使用探索性数据分析(Exploratory data analysis以下简称EDA)来查找数据集中变量的分布、模式、关系或异常情况,可以对数据集本身有一个快速直观的了解,并且会在很大程度上为后续建模提供便利。Python作为一门强大的编程语言,在数据可视化方面为客户提供了如Matplotlib,Seaborn等强大的第三方库[3]。EDA结果如图1所示。 图1散点图矩阵可以看出:不论房屋样式如何,房屋的价格与占地面积、房间数量等都呈现不同程度的正相关关系;占地面积与房间数量的关系亦如此。 4.2 建立模型 Python的统计学库 statsmodels 可以很好的处理预测变量和因变量,输出自变量系数的同时亦能给出每个回归系数的显著性检验,置信区间,以及模型的精度情况取定量变量area,bedrooms,bathrooms作为预测变量,房屋价格price作为因变量,来初步建立多元线性回归模型,得到表4。 表中各自变量的显著性检验结果(P>|t|)项表明:对变量bedrooms与bathrooms来说,我们只能保留零假设,证明无显著统计性,面积则具有显著统计性。 4.3 多重共线性的检测 观测自变量bedrooms与bathrooms二者的系数时,不难发现:在模型其他变量不变的情况下,预测变量bedrooms每增加一个单位,因变量房屋價格会随之减少2925.81美元,这就与EDA中散点图的预期截然相反,见图1。 散点图是检测是否出现多重共线性的其中一个方法,本身不够精确,而Python的第三方支持库 patsy 与 statsmodels中的方差膨胀因子函数,可很好的解决该问题。当建立的多元线性回归模型中有存在多重共线性的风险时,statsmodels 库会在运行结果后自动打印 Warnings 信息作为提醒,具体检测结果如表5。 可清晰看出自变量bedrooms与bathrooms的方差膨胀因子均大于10,因此,存在显著的共线性,选取最大的方差膨胀因子变量为多余变量,将其剔除再重复上述多元回归模型的建模步骤,重新计算自变量系数、截距及方差膨胀因子,结果如表6、表7。 结合表5和表7可以看出,删除最大膨胀因子变量bedrooms后,模型精度变强,且方差膨胀因子也回到正常水平,由此证明初步模型存在多重共线性问题。 4.4 设置虚拟变量 上述建模步骤均是将定量变量作为自变量,未能辨析街区及房屋样式等定类变量对房价的影响。此时需要给分类变量设置虚拟变量。Python的pandas库中的get_dummies函数可以快捷设置虚拟变量,见表8。 4.5 优化后的多元线性回归模型 自变量:area,bathrooms,A,B,lodge,ranch 因变量:price 优化后的模型在运行过程中,并没有出现多重共线性的警告,稳健起见,再次进行方差膨胀因子检验,结果见表10。 综上所述,可得知以下信息。 ⑴ 多元线性回归模型结果为: ⑵ 判定指数R2 91.9%所反映的价格变动,可由基于占地面积、住宅区、住宅风格和卧室数量这四个变量来解释,经过优化后的模型拟合效果较好,预测结果更加可靠; ⑶ 各自变量的p值均小于1%,呈现出较强的显著性; ⑷ 其他条件不变的情况下,一间住宅每增加一个卧室,预测其价格会增加5386美元; ⑸ 其他条件不变的情况下,预测C住宅区的房价要比A住宅区的房价少88美元,住宅区B则比C要多524400美元; ⑹ 其他条件不变的情况下,预测大农场式房屋 ranch 比维多利亚住宅价格要多6224美元。 5 结论 本文以多元线性回归为基础和前提,在因变量房价与多个自变量的实际观测值建立了多元线性回归模型;分析并检验各个预测变量对因变量的综合线性影响的显著性,并尽可能的消除多重共线性的影响,筛选出因变量有显著线性影响的自变量,对基准模型进行优化,并对各自变量相对重要性进行评定,进而提升了回归模型的预测精度。 参考文献(References): [1] 曹志祥.回归分析中虚拟变量的系数转换[J].统计研究,1994.11(1):69-71 [2] 肖琳,何大卫.Pls回归在消除多重共线性中的作用[J].山西医科大学学报,2002.3:228-231 [3] Mckinney W.利用PYTHON进行数据分析[M].机械工业出版社,2014.