房价大数据分析模型检验方法

2017-04-22 12:25陆红
教育教学论坛 2017年17期
关键词:检验方法分析模型大数据

陆红

摘要:大数据分析模型构建完成后,最重要的是对模型进行检验,如何检验是困扰我们的一个难题,本文围绕房价大数据分析模型,介绍几种大数据分析模型的检验方法,供从事大数据分析研究的人员借鉴和参考。

关键词:大数据;分析模型;检验方法

中图分类号:G712 文献标志码:A 文章编号:1674-9324(2017)17-0082-02

一、引言

房价大数据分析模型通过机器学习方法构建,模型建立完成后需要对模型进行检验,房价大数据模型需要检验拟合的情况,欠拟合说明模型对数据的覆盖程度不够,过拟合无法反应模型的通用性。通过回归诊断,诊断残差情况,残差是反映真实值与假设值之间的差,希望模型残差尽量小,假设值极大地逼近真实值。通过检验可以剔除奇异数,剔除一些干扰项。

二、回归诊断

1.房价大数据分析模型。price1<-data.frame(price=c(130,140,150,135,200,220,210,280,300,320,350),size=c(50,55,60,55,80,90,90,110,120,130,140),room=c(1,1,1,1,2,2,2,3,3,3,3));tline<-function(){plot(price~room+size,data=price1,pch=16,col='red');model1=lm(price~room+size,data=price1);)tline();summary(model1)。模型構建采用最小二乘算法进行机器学习,经过训练数据训练,训练出房价大数据分析模型。通过summary(model1)函数,生成模型检验数据,检验模型拟合情况、残差数据、正态分布情况、方差检验、奇异数检验,通过模型检验数据分析模型是否需要进一步优化。

Residuals:

Min 1Q Median 3Q Max

-7.5556 -2.6667 -0.2222 3.5556 8.6667

残差最小是-7.5556,最大是8.6667,中值是-0.2222。估计的值与真实值存在一定的误差,通过求极值算法使之最小。

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 43.7778 5.7061 7.672 0.000256 ***

size 1.5111 0.2461 6.140 0.000855 ***

room 15.7778 10.7282 1.471 0.191782

Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘.‘ 1

Residual standard error: 5.837 on 6 degrees of freedom

Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932

F-statistic:582.3 on 2 and 6 DF, p-value: 1.346e-07

2.模型参数。采用最小二乘法算法,经过机器学习,训练出模型参数,构成房价大数据分析模型:房价大数据分析模型为y=aX1+bX2+C,其中:X1=size(面积),X2=room(间数),y(总价)。经过机器学习得到模型以下参数:Size=1.5111;Room=15.7778;截距=

43.7778;y=1.5111*X1+15.7778*X2+43.7778,此函数为房价大数据分析模型。

3.显著性检验。

Estimate Std. Error t value Pr(>|t|)

(Intercept) 43.7778 5.7061 7.672 0.000256 ***

size 1.5111 0.2461 6.140 0.000855 ***

room 15.7778 10.7282 1.471 0.191782

Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘.‘ 1

残差自由度为6的残差标准误差为5.837,p-value:1.346e-07,P值很小说明无自相关性,残差项之间独立。自变量与应变量相关性,截距和size显著性均为三颗星***,说明截距和size与Y相关性显著;room没有星,说明room与Y房价相关性不显著。

4.拟合情况分析。

通过数据可视化,观察房价大数据散点图,可以看出房价大数据训练样本呈直线分布。可以用线性回归进行房价大数据分析模型的构建。

通过残差与拟合图,观察和分析模型对训练数据集拟合程度,从上图拟合线(红线)对数据的拟合情况看,基本上拟合了大多数数据。没有发生欠拟合或过拟合。Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932,从这两个数据可以看出拟合达到99%以上,拟合程度很高。

5.假设性检验。从正态Q-Q图上可以看出,数据分布在45°直线周围,标准残差成正态分布,满足正态性假设。

6.方差检验。同方差性,若满足不变方差假设,位置—尺度图纵坐标为标准化残差的平方根,残差越大,点的位置越高。从图中可以看出经过对残差处理为标准化残差的平方根,拟合的总体趋势还可以,个别点可以看出远离拟合线如“点5”、“点7”,奇异点已经显露。

7.奇异数检验。从残差与杠杆图中可以看出离群点和影响强度。Cook's distance值衡量强影响点的强度,从图中可以看出“点7”这个点Cook's distance值超过0.5是所有数据中Cook's distance值最高的数据,它是目前的强影响点。杠杆值高的数据是离群点,目前“点4”杠杆值也较高,它也是离群点。

三、交叉验证

从训练数据集中提取一部分数据作为验证数据,将验证数据代入房价大数据分析模型,得出的结果与真实数据进行比较。如果与真实值很接近,说明分析模型预测房价比较准确;如果模型得出的结果与真实的房价相差较大,需要优化房价大数据分析模型算法。

猜你喜欢
检验方法分析模型大数据
基于BERT-VGG16的多模态情感分析模型
新形势下对变造文件检验的新认识
层次分析模型在结核疾病预防控制系统中的应用
全启发式语言分析模型
IFC4结构分析模型应用技术