“拍照赚钱”的任务定价规律及其完成情况研究

2018-10-26 10:08王圣鸣杨文国陈燕刘东阳
科技资讯 2018年16期
关键词:层次分析法

王圣鸣 杨文国 陈燕 刘东阳

摘 要:“拍照赚钱”本质上是一种新兴的基于移动互联网的自助式劳务众包模式。本文选取计算任务点与最近会员的距离、周围会员数、任务聚集程度等指标,并通过多元逐步回归,得出定价与上述因素的关系,进而通过Logistic回归,得出任务完成情况和各指标的关系模型;再用层次分析法对建立的各项指标建立3个判断矩阵和3个对应的定价模型,并以提高任务完成概率、降低平台出价总和为依据,最终采用的打包方案是按编号顺序,确定一个任务位置的圆心和半径,将圆内出现的各任务,视为一个打包发布,以包内所有坐标的均值表示其经纬度坐标。

关键词:逐步回归 Logistic回归 层次分析法 功效系数法

中图分类号:F71 文献标识码:A 文章编号:1672-3791(2018)06(a)-0244-05

“拍照赚钱”是移动互联网下的一种自助式服务模式,实际上是一种新兴的基于移动互联网的自助式劳务众包模式,它能够为企业提供各种商业检查和信息搜集,且相比传统的市场调查方式可以大大节省调查成本,并有效地保证了调查数据的真实性,缩短调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。本文主要解决定价机制问题。

1 模型的假设及符号的使用

1.1 模型的假设(本论文基于2017年全国大学生数学建模B题而作,附件是B题所连带的。)

假设附件二中,会员的经纬度信息是附件一中任务发布时刻的经纬度。

假设附件三中,任务发布时会员的经纬度等信息不发生改变,和附件二相同。

假设交通、天气等环境因素和社交因素对会员选择任务干扰性很小,可以忽略。

假设每个会员拍照任务的复杂程度相同。

1.2 符号的使用及说明

为处理问题方便,将文中常用量设置符号如表1所示。

2 模型的准备

根据Google地图提供的公式模型,通过两地经纬度来确定其直线距离,见公式(1):

其中,、表示第一、二个点的纬度,、表示第一、二个点的经度,6378.137表示地球半径(单位:km)。下文涉及到求两点距离的,均使用该公式,其误差不超过0.2m,满足本题的要求。

3 问题的求解

为处理问题方便,将文中常用量设置符号如表1所示。

3.1 问题1

任务的定价是一个系统性的问题,单纯研究附件一中任务的地理位置过于简单,利用附件一、二提供的信息,找出以下相关关系:任务点与距离其最近会员之间的距离、任务的聚集程度、周围会员数、任务点周围会员的信誉均值。再从这些因素中,分析研究定价规律。

3.1.1 周围会员数的计算

首先定义周围人数:对每个会员而言,都有距离其最近的一个任务地点可选择,每当一个任务点成为一个会员最近的任务点,该任务点附近的会员数就累加1,直到该任务点对任何会员都不是最近任务点为止,最终累加形成的值即周围会员人数,见公式⑵。

, (2)

且当时,;当时,,其中:表示第个任务点到第个会员的距离,表示会员到所有任务点的最短距离。

3.1.2 任务点与距其距离最近的会员之间的距离

表示第个任务到第个会员的直线距。表示附件一给出的各任务点的任务号码,在[1,835]中取整;表示附件二给出的各个会员的会员号码,在[1,1877]中取整;求解第个任务点与距离其最近的会员之间的距离, 并将结果存在835行1列的矩阵中,公式表示见公式⑶(其中:且):

(3)

3.1.3 任务聚集程度

发布的任务集中或分散,当某任务与其他任务较分散时,说明其位置偏僻,此时定价,若和任务相对聚集处任务的价格相似,就可能很难吸引会员前来完成。因而,以任务聚集程度来表示任务的这种空间分布特征。

原理:选定一个任务作为原点,划定一个距离(单位:km)作为半径,计算周边其他任务的个数,见公⑷。

, (4)

且当时,;当时,,其中表示第个任务点到第個任务点的直线距离。

显然的取值会严重影响每个任务点对应该值的大小,因而在后续编程计算时,我们会多次取值。为更好地理解该变量,我们令,其中表示人的行动速度,单位为。通过对进行不同的取值,可以得到不同的半径范围。事实上,人的行动速度不可能过快,根据资料,我们将的范围限定为,即V8到V23。

3.1.4 周边会员信誉度

根据会员人群在任务的周边密集程度,对每个任务点同所有会员的坐标进行匹配,利用距离公式,以同一任务为中心,利用sort()函数对所有会员进行距离升序处理,将最近、次近等会员归类,求出会员的信誉度均值。在进行后续步骤前,我们还分别计算了周边5~20个会员的信誉度均值,即均5~均20。

3.1.5 建立多元线性的逐步回归模型并发现定价规律

在本题中, 我们希望从对因变量y有影响的诸多变量中,选择全部或者一部分变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程,以便预报或控制因变量。

在研究定价规律的这部分中,因变量即任务标价,可能影响定价的因素即前文提及的四个主要因素和不同取值(包括v不同取值下的任务聚集程度等)。通过Spss软件可以很快得出系数并进行检验,结果见表2。

四个指标都通过了检验,由此得到附件一中定价规律适用的逐步回归模型:

3.1.6 通过Logistic逐步回归探究影响任务完成情况的因素

本题中的任务完成度为最典型的0-1二值因变量,可运用Logistic回归模型,以附件一中任务完成度为因变量,4个指标和实际标价为解释变量。因为四个特征值经过逐步回归处理过,Logistic回归时也应进行逐步处理。通过Spss软件得出结果见表3。

⑴在步骤1中输入的变量:周围人数;⑵在步骤2中输入的变量: 任务标价,得到Logistic回归模型:

通过上述式子,不难发现任务完成情况与5个解释变量中的周围会员数成负相关,与价格成正相关。将附件一中完成度为1、0的数据分为两组观察结果,见表4。

表4中的数据大小差异与Logistic模型中解释变量的系数正负相关一致,可以用于分析任务未完成的原因:(1)未完成的任务其定价较低;(2)未完成的任务其周围的会员数较多;(3)可能会存在一些特殊情况,产生随机误差。

3.2 问题2定价模型的建立及比较

3.2.1 运用层次分析法建立定价模型

根据问题1的结果可以看到,从会员的角度来说,在任务发布后,该任务最终完成与否,只和该任务的定价及该任务地点周边人数有关。任务周边人数是随着任务发布,由周边会员地理信息位置直接决定的,定价则和商家的定价模型如何有关。因而定价的模型对任务完成与否有着重要影响,由此对已有的定价模型进行改进。

已有的模型实际上已经考虑到了前文的4个因素,我们通过层次分析法及其判断矩阵,分别给四个因素赋予权重,通过∑权重·权数给定价格,并选出满足“任务完成概率提高,且给出价格之和降低”的方案。根据前文,确立定价体系,见图1。

构造判断矩阵,构建矩阵时首先要明确两个指标相比,谁比谁重要,由问题一的结论分析定下以下原则:周围会员数和任务聚集程度同等重要且程度最高,最小距离的重要程度稍次,周边会员的信誉度均值最次。由此可以构建3个判断矩阵,如下所示:

通过运算后的结果见表5。

3.2.2 使用功效系数法对数据进行标准化

每个任务发布后,求出来的四个参数值的大小差异可能非常巨大,因此通过使用功效系数法,对每一个数据进都进行标准化,结果如下:

其中分别表示指标的最大值和最小值,此时取值范围是[0,1],表示附件一中第个任务的标价。

3.2.3 定价模型的确立

将各个标准化后的指标值与其权重相乘求和,可以得出定价模型:

其中为指标的编号,取1,2,3,4依次表示周边会员数、最小距离、任务聚集程度、周边会员信誉度。

3.2.4 与原方案进行比较

由问题1得到完成情况的Logistic回归模型:

Logistic回归实质为发生概率除以没有发生概率再取对数,可以将其进行logit转换:

得到第件任务完成的概率如上。

一般,以50%为界限,当>50%,判断此时的任务完成情况更可能为1,用>50%的任务个数占总任务数比来表示不同定价方式下的任务完成情况,即有百分之多少的任务被完成的可能性在50%以上。某个定价方案被确定后,如果在此方案下,总的定价和小于附件一给出的定价总和,且任务完成概率高于附件一的完成度,则说明此方案优于原方案,其具体情况见表6。

由表6结果发现矩阵下的定价方式>50%的任务数占比最高,且它的总定价最低,选取由矩阵构造的权重所组成的定价模型,新的定价方式为:

3.3 问题3的求解

图2中十字星即表示任务,每个圈都是以一个任务为中心,根据标准划分打包,一个圈里的任务群即最后打包成的一个任务。该思路以贪心算法为思路,每次选取此任务周围最符合距离限制条件的任务进行打包。

注:有一个及以上表示此包内除选定的圆心点外,还有一个及以上的其他点,其他依此类推。

根据上述表7的数据分析可知,由不同的任务作为起始点、按照不同顺序对任务进行依次分析对最后的结果虽有差距,但对得出的几组未参与打包任务进行排序:723 689 681 656 655,其平均差值为17,平均数为680.8,出错率为2.497%,在可接受范围,则表明选取起始任务点与依次参与任务的顺序对最后的结果无太大影响,可以忽视。最终我们选取按序号升序作为打包标准。

当某几个任务被打包发布时,原则上就将这几个任务看成是一个任务,此时根据原有的这几个任务的经纬度,转换为一个新的经纬度,以此表示这个被打包发布的任务的经纬度。转换方法如下:

其中,表示第i组被打包发布任务的纬度和经度,表示第组中第个任务的纬度和经度,表示第组被打包的发布任务中包含的任务个数。

根据上述打包方法,并对每组的经纬度用上面的方法重新计算,可以得到一组新的任务排列,当定价通过定价模型确定后,再利用的logit转化值,求出任务完成情况的概率,问题即得解见表8。

由表8结果发现矩阵下的定价方式>50%的任务数占比最高,且它的总定价最低,选取由矩阵构造的权重所组成的定价模型,新的定价方式为:

最终完成情况为,97.09%的任务被完成的可能性在50%以上,优于第二问中的定价方案和原始定价方案。

3.4 问题4的求解

通过问题3的分析,可以发现将任务打包发布能够明顯提高任务的完成情况。因此,将附件三中的任务也进行打包处理,其打包方法同问题3。

根据问题三打包方法,并对每组的经纬度用上面的方法重新计算,可以得到一组新的任务排列,当定价通过定价模型确定后,再利用的logit转化值,求出任务完成情况的概率,问题即得解见表9。

由表9结果发现矩阵下的定价方式>50%的任务数占比最高,且它的总定价最低,选取由 矩阵构造的权重所组成的定价模型,新的定价方式为:

实施效果:

(1)此方案明显提高任务的完成情况,所有的任务都有50%以上的可能性被完成。

(2)此方案价格控制的较为合理,在三个指标体系中价格最低。

4 模型的验证

在问题1中得到定价规律模型后,代入每个任务的、、、值,可以反向计算出附件一中每个任务的理论定价,对理论定价和实际定价进行方差分析,得到结果见表10~表11。

P两组数据无显著差异,证明了问题1中的发现定价规律符合实际情况。

5 模型的改进

(1)利用“Google地球”,所有任务集中分布在广州、东莞、佛山、深圳.在解决问题1时,可以在问题1中,我们将每个任务的经纬度按城市分成四类。按每个城市的经济水平(如将四个城市2016年GDP总量,比值归一化),设置一个新的参数,重新进行定价关于五个因素的多元逐步回归和完成情况、关于六个因素的Logistic回归,得到新的定价规律。

(2)关于附件二中提到的预定任务限额和预定任务开始时间,考虑到这两个因素都是由会员信誉值参考得出的,所以选择影响定价和完成概率的四个指标时,未纳入预定任务限额和预定任务时间这两个因素,仅考虑会员的信誉值。而实际情况中,不应只简单地考虑信誉值,任务限额和开始时间也应进行分析。

参考文献

[1] 刘震,吴广.Spss统计分析和应用[M].北京:中国中医药出版社,2016.

[2] 刘仁权.Spss统计分析教程[M].北京:电子工业出版社, 2011.

猜你喜欢
层次分析法
微电子科学与工程专业评价指标体系研究
基于AHP—GRA的工程施工项目进度风险管理研究
基于模糊综合评价模型对道路拥堵的研究