王尚政 车财旺 琚斐扬
摘 要:随着现代社会的高速发展,互联网的运用越来越广泛,“拍照赚钱”是移动互联网自助式服务模式,其正在逐渐取代传统的市场调查方式。从两个角度考虑,一是从定性的角度,构建经度-纬度-定价三维散点图,结合K-means聚类的方法从任务的位置分布、任务完成情况与定价三方面之间的关系考虑,定性的得出项目的定价规律。二是从定量的角度考虑,采用多元线性回归的方法,以任务区域等分下会员数与任务数之比、样本点与中心点之间的距离以及会员信誉值为自变量,以定价为因变量,构建多元线性回归方程,从而定量的得出其定价方案,然后再将二者结合,得出总的定价规律。从得出的定价规律、任务分布位置以及会员数量三方面因素考虑,得出任务未完成的原因。
关键词:任务定价;回归;K-means聚类
一、问题分析
研究这个问题必须对数据进行分析,得出一个旧项目的任务定价规律,分析任务未完成的原因。在分析定价规律时,可以从定性和定量两方面考虑,考虑到每个项目的经纬度坐标及定价,通过绘出所有完成与未完成任务点的散点图,定性得出定价规律,再通过研究经纬度、会员信息和定价之间的定量关系,得出定价规律,定性与定量结合分析任务未完成的原因。
二、问题求解
经过分析,从任务的位置、定价以及任务的完成情况来分析项目的定价规律,首先根据所给的经纬度坐标对这些位置点进行K-means聚类[1],得到位置相近的中心点,随后分析任务的完成情况,得出任务点的位置与定价的定性分析规律。然后运用多元线性回归[1]的方法,多元线性回归分析是确定2种或2种以上变量间相互依赖的定量关系的一种统计分析方法,建立以定价为因变量,以任务区域等分下任务数与会员数之比、任务点与中心点的距离以及会员的信誉值为自变量的定价规律模型,完成对定价规律的定量分析,最后根据以上综合得出的定价规律、任务点位置分布情况以及任务完成情况分析,得出任務未完成的原因。
对数据进行预处理,运用SPSS软件把不合格的数据进行筛选与剔除,可以将原始数据的第588的这个数据点清除,随后将处理之后的数据运用软件构建以经度-纬度-定价的三维曲线的散点图。
横向对比,完成的任务点大多分布在市中心区域,而偏僻地区的任务完成量比较少,纵向对比,任务所给价格高的,相对而言任务完成量高,而任务价格低的,任务完成量少。还有任务的分布越密集,周围的任务数量越多,任务的分布越稀疏,周围的任务数量越少。
可以利用K-means聚类的方法,将样本点利用SPSS软件聚成以下5个类别:
由上表可知,该5个类别的样本中心点经纬度坐标分别为(22.9432,113.7531)(23.0064,113.1004),(23.5832,113.5959),(22.6612,114.0520),(23.1694,113.3122),接着利用matlab软件做出以下该5个点周围任务完成情况示意图:
第四类样本点周围分配的任务大多被完成,而第二类样本点任务大多未完成,其它三类样本点任务完成与未完成一样,同时结合上面的任务位置分布图,可以得出距离上面样本中心点的间距越远,那任务的定价就相对而言要要高,而距离样本中心点的越近,则任务的定价要低。
接下来开始对定价规律作定量分析,可以采用多元线性回归的方法,即以任务区域等分下任务数与会员数之比(整个任务分布区域化为50份,每一份任务数与会员数之比,任务区域纬度范围(20.3351,33.6521),经度范围(106.2391,116.9705))、任务点与样本中心点的距离(由欧式距离可得)以及会员信誉值为自变量,分别记为,以任务定价为因变量,记为y,可以构建以下的多元线性回归模型:
其中为回归系数,为常数项,为随机误差,服从正态分布,
可以利用最小二乘法来求解上面的回归系数,结合matlab软件可以计算得到该多元线性回归方程为:
然后开始对上述方程进行检验,首先进行拟合优度检验,记拟合优度为,可以通过以下公式来计算R2:
可以得到R2=0.9138,该方程的拟合优度比较好,
然后进行F检验,对该回归方程进行显著性检验,可以通过计算得到F检验的观测值为0.1,可以得到在该自由度下F检验的临界值为0.01,则0.1>0.01,显著性水平为0.05,所以可以据此得到该回归方程具有显著意义。
然后进行t检验,也就是对该方程的回归系数进行检验,利用软件计算可以得到该t检验的观测值为9.2562,可以得到在该自由度下临界值为2.9711,则9.2562>2.9711,显著性水平为0.05,因此该方程的回归系数检验通过,回归系数有显著意义。
接着就是对该方程的残差进行分析,为残差,即为对总体回归函数的随机扰动项的干扰。
经过上述检验,可以得出该模型为,也即为该项目的任务定价规律模型。
由以上模型可以得:
·任务数与会员数之比越高,则该项目的任务定价越低,而任务数与会员数之比越低,则该项目的任务定价越高。
·任务点与样本中心点的距离越大,则任务的定价越高,而任务点与样本中心点的距离越少,则任务的定价越低。
·该项目的会员信誉值越高,则任务的定价越低,而会员信誉值越低,则任务的定价就会越高。
三、结论
由上面的分析可以得知,任务未完成的原因有以下几个方面:
·会员数量不够,而项目所设的任务数又相对较多,会员数与任务数不成正比;
·有些任务点定价比较高,但所处地区较为偏僻,完成量较少;
·任务点位置分布有的太过集中,有的又太过分散,分布不够匀称。
参考文献
[1]王朝信. K-Mean聚类分析对第18届世界杯足球赛各参赛队进攻能力的研究[A]. 中国体育科学学会.第八届全国体育科学大会论文摘要汇编(一)[C].中国体育科学学会:中国体育科学学会,2007:1.