李昊哲
摘 要:文章研究了K-means聚类分析下的“拍照赚钱”任务定价方案设计。“拍照赚钱”是移动互联网下的一种自助式服务模式。用户注册为会员,从APP上领取需要拍照的任务,赚取APP对任务所标定的酬金。对任务数据进行预处理,去除不合理数据,之后将任务地点经纬度转换为实际距离,建立一个包含所有任务的区域。对区域中的任务,计算以任务为中心,半径10 km范围内所有会员的归一化后的配额、信誉度、距任务点的平均距离。对3组数据及其任务对应的定价进行多元线性回归分析。通过K-means聚类分析,将任务打包,得到80个任务包的质心。将得到的80个任务包視为80个新任务。其质心视为新任务地点。距离质心最近的任务价格和任务包的任务数的乘积视为任务包价格。获得任务包周围会员配额、会员信誉度及会员距任务地点的平均距离后,将价格与该3个因素进行多元线性回归,可得任务打包情况下的价格函数。
关键词:拍照赚钱;K-means聚类分析;多元线性回归;定价;任务包
1 问题简述
“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式,可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此,APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败[1]。
基于一组已结束项目的任务数据,包含了每个任务的位置、定价和完成情况;会员信息数据包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额也就越大(任务分配时实际上是根据预订限额所占比例进行配发);一组新的检查项目任务数据,只有任务的位置信息[2]。
2 模型假设
(1)假设每个会员愿意接单的最大距离为10 km。
(2)假设影响每个任务点信誉指数的有效半径为10 km。
(3)假设打包后每个会员愿意接单的最大距离为15 km。
(4)假设不考虑街道的影响,即会员到任务点的距离为直线距离。
3 模型的建立与求解
3.1 数据预处理
由于记录的误差,给定的数据存在一定的错误,故对于给定的3组数据,通过Matlab求出各列的均值μ与方差σ2,将与μ之差超过3σ2的数据剔除,从而处理掉过大与过小的数据。
3.2 原始定价规律
3.2.1 完成任务的能力指数A
假设每个会员愿意接单的最大距离为10 km,故我们以任务所在位置为圆心,10 km为半径做一个圆,圆所覆盖的区域为可能会被该会员接单的区域。每位会员都能做出相应的圆,由于每位会员的分配任务配比不同,故定义a为完成任务的能力指数,则第i个任务点的完成任务能力指数Ai的计算方法为Ai=Σaij,其中aij表示第i个任务点10 km范围内第j个会员的预定任务限额,即某一点完成任务的能力为覆盖该点所有圆的会员任务配额之和。
3.2.2 会员信誉指数R
以任务所在位置为圆心,10 km为半径做一个圆,圆所覆盖的区域为该任务点被接单会员的信誉程度。圆所覆盖的所有会员的信誉之和定义为会员信誉指数,即Ri=Σrij,其中Ri表示第i个任务点会员信誉指数;rij表示第i个任务点10 km范围内第j个会员的信誉值。
3.2.3 距离指数D
以任务所在位置为圆心,10 km为半径做一个圆,圆所覆盖的区域为可能会被该会员接单的区域。圆所覆盖的所有会员距离任务点距离的均值定义为距离指数,即,其中Di表示第i个任务点的距离指数;dij表示第i个任务点10 km范围内第j个会员的距离任务点的距离,n表示该任务点10 km范围内的会员人数。
3.2.4 多元线性多项式回归
由于影响响应变量y的3个变量的单位不一致,故先求出各变量的最大值max与最小值min,利用公式将三变量归一化为量纲相同的变量。
根据新的得到的三变量完成任务的能力指数A、会员信誉指数R、距离指数D和所给任务标价y建立多元线性回归方程,通过函数拟合求得方程为:
yi=λ+ζ1Ai+ζ2Ri+ζ3Di
其中yi为第i个任务点的任务定价;ζ1、ζ2、ζ3为回归系数,λ为常系数。
3.2.5 模型的求解
利用Matlab计算求得各任务点的三变量的值。由多元线性回归命令regress求得多元线性回归方程为:
yi=61.18-5.87Ai-0.44Ri+15.16Di
回归结果如表1所示。
由于p≤0.01,故拒绝原假设H0,认为样本的结果具有高度统计学意义,即回归方程通过显著性实验。
3.3 打包定价方案
在实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,考虑将这些任务联合在一起打包发布。利用K-means聚类分析法,以欧氏距离作为相似度测度,求出对应某一初始聚类中心向量最优分类,使得评价指标J最小。故将所有任务的经纬度坐标输入,将分散的任务点组成一个总的打包任务点。通过计算其中所包括任务点的距离等参数,选出具有代表性的一个任务点作为参考任务点。
由于任务的打包使得每个任务的收益变大,故每个任务所能吸引的会员数会增加,故而能增大会员愿意接单的范围半径。假设参考任务点的完成任务的能力指数A为该任务点方圆20 km内所有会员预定任务限额的总和,会员信誉指数R为该任务点方圆20 km内所覆盖的所有会员的信誉之和,距离指数D为该任务点方圆20 km内所覆盖的所有会员距离任务点距离的均值。
通过K-means聚类分析将836个任务点打包变为80个任务点,计算出这80个任务点的Ai、Ri、Di 3个变量。将聚类分析所得每一类中所有任务点的价格叠加,所得结果为该类任务的任务标价,即Yi=Σyij,Yi表示第i类任务的标价,yij表示第i类任务中第j个任务点的标价。
将影响任务点标价的3个参数计算范围变为15 km,利用Matlab的regress进行多元线性回归,所得回归方程为:
yi''=252.90-18.78Ai-94.55Ri+78.42Di
其中yi''为第i个任务点的任务定价。
依据该模型,首先将任务进行打包处理,形成206个任务包,通过计算第i个任务点的完成任务能力指数Ai,即某一点完成任务的能力为覆盖该点所有圆的会员任务配额之和,第i个任务点10 km范围内第j个会员的信誉值,即半径10 km圆所覆盖的所有会员的信誉之和Ri,以及第i个任务点10 km范围内第j个会员的距离任务点的距离Di。
利用该模型的回归方程,将三变量代入,即可得到各个任务包的标价。
部分标价如表2所示。
由于该模型充分考虑了会员完成任务的能力程度、会员的信誉、会员与任务的距离,且将已完成的任务所回归的方程作为优化价格函数。分析结果显示,具有高度统计学意义,故该定价应具有普遍适用性,即对于不同的任务项目,该模型都可给出合适的任务标价。
[参考文献]
[1]王勇,唐靖,饶勤菲,等.高效率的K-means最佳聚类数确定算法[J].计算机应用,2014(5):1331-1335.
[2]杨连武.“拍照赚钱”任务影响因素相关性分析[J].中国新通信,2015(6):1475-1482.