K—means聚类分析下的“拍照赚钱”任务定价方案设计

2019-05-22 09:27李昊哲

无线互联科技 2019年4期

李昊哲

摘要：文章研究了K-means聚类分析下的“拍照赚钱”任务定价方案设计。“拍照赚钱”是移动互联网下的一种自助式服务模式。用户注册为会员，从APP上领取需要拍照的任务，赚取APP对任务所标定的酬金。对任务数据进行预处理，去除不合理数据，之后将任务地点经纬度转换为实际距离，建立一个包含所有任务的区域。对区域中的任务，计算以任务为中心，半径10 km范围内所有会员的归一化后的配额、信誉度、距任务点的平均距离。对3组数据及其任务对应的定价进行多元线性回归分析。通过K-means聚类分析，将任务打包，得到80个任务包的质心。将得到的80个任务包視为80个新任务。其质心视为新任务地点。距离质心最近的任务价格和任务包的任务数的乘积视为任务包价格。获得任务包周围会员配额、会员信誉度及会员距任务地点的平均距离后，将价格与该3个因素进行多元线性回归，可得任务打包情况下的价格函数。

关键词：拍照赚钱；K-means聚类分析；多元线性回归；定价；任务包

1 问题简述

“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP，注册成为APP的会员，然后从APP上领取需要拍照的任务（比如上超市去检查某种商品的上架情况），赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台，为企业提供各种商业检查和信息搜集，相比传统的市场调查方式，可以大大节省调查成本，而且有效地保证了调查数据真实性，缩短了调查的周期。因此，APP成为该平台运行的核心，而APP中的任务定价又是其核心要素。如果定价不合理，有的任务就会无人问津，而导致商品检查的失败[1]。

基于一组已结束项目的任务数据，包含了每个任务的位置、定价和完成情况；会员信息数据包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额，原则上会员信誉越高，越优先开始挑选任务，其配额也就越大（任务分配时实际上是根据预订限额所占比例进行配发）；一组新的检查项目任务数据，只有任务的位置信息[2]。

2 模型假设

（1）假设每个会员愿意接单的最大距离为10 km。

（2）假设影响每个任务点信誉指数的有效半径为10 km。

（3）假设打包后每个会员愿意接单的最大距离为15 km。

（4）假设不考虑街道的影响，即会员到任务点的距离为直线距离。

3 模型的建立与求解

3.1 数据预处理

由于记录的误差，给定的数据存在一定的错误，故对于给定的3组数据，通过Matlab求出各列的均值μ与方差σ2，将与μ之差超过3σ2的数据剔除，从而处理掉过大与过小的数据。

3.2 原始定价规律

3.2.1 完成任务的能力指数A

假设每个会员愿意接单的最大距离为10 km，故我们以任务所在位置为圆心，10 km为半径做一个圆，圆所覆盖的区域为可能会被该会员接单的区域。每位会员都能做出相应的圆，由于每位会员的分配任务配比不同，故定义a为完成任务的能力指数，则第i个任务点的完成任务能力指数Ai的计算方法为Ai=Σaij，其中aij表示第i个任务点10 km范围内第j个会员的预定任务限额，即某一点完成任务的能力为覆盖该点所有圆的会员任务配额之和。

3.2.2 会员信誉指数R

以任务所在位置为圆心，10 km为半径做一个圆，圆所覆盖的区域为该任务点被接单会员的信誉程度。圆所覆盖的所有会员的信誉之和定义为会员信誉指数，即Ri=Σrij，其中Ri表示第i个任务点会员信誉指数；rij表示第i个任务点10 km范围内第j个会员的信誉值。

3.2.3 距离指数D

以任务所在位置为圆心，10 km为半径做一个圆，圆所覆盖的区域为可能会被该会员接单的区域。圆所覆盖的所有会员距离任务点距离的均值定义为距离指数，即，其中Di表示第i个任务点的距离指数；dij表示第i个任务点10 km范围内第j个会员的距离任务点的距离，n表示该任务点10 km范围内的会员人数。

3.2.4 多元线性多项式回归

由于影响响应变量y的3个变量的单位不一致，故先求出各变量的最大值max与最小值min，利用公式将三变量归一化为量纲相同的变量。

根据新的得到的三变量完成任务的能力指数A、会员信誉指数R、距离指数D和所给任务标价y建立多元线性回归方程，通过函数拟合求得方程为：

yi=λ+ζ1Ai+ζ2Ri+ζ3Di

其中yi为第i个任务点的任务定价；ζ1、ζ2、ζ3为回归系数，λ为常系数。

3.2.5 模型的求解

利用Matlab计算求得各任务点的三变量的值。由多元线性回归命令regress求得多元线性回归方程为：

yi=61.18-5.87Ai-0.44Ri+15.16Di

回归结果如表1所示。

由于p≤0.01，故拒绝原假设H0，认为样本的结果具有高度统计学意义，即回归方程通过显著性实验。

3.3 打包定价方案

在实际情况下，多个任务可能因为位置比较集中，导致用户会争相选择，考虑将这些任务联合在一起打包发布。利用K-means聚类分析法，以欧氏距离作为相似度测度，求出对应某一初始聚类中心向量最优分类，使得评价指标J最小。故将所有任务的经纬度坐标输入，将分散的任务点组成一个总的打包任务点。通过计算其中所包括任务点的距离等参数，选出具有代表性的一个任务点作为参考任务点。

由于任务的打包使得每个任务的收益变大，故每个任务所能吸引的会员数会增加，故而能增大会员愿意接单的范围半径。假设参考任务点的完成任务的能力指数A为该任务点方圆20 km内所有会员预定任务限额的总和，会员信誉指数R为该任务点方圆20 km内所覆盖的所有会员的信誉之和，距离指数D为该任务点方圆20 km内所覆盖的所有会员距离任务点距离的均值。

通过K-means聚类分析将836个任务点打包变为80个任务点，计算出这80个任务点的Ai、Ri、Di 3个变量。将聚类分析所得每一类中所有任务点的价格叠加，所得结果为该类任务的任务标价，即Yi=Σyij，Yi表示第i类任务的标价，yij表示第i类任务中第j个任务点的标价。

将影响任务点标价的3个参数计算范围变为15 km，利用Matlab的regress进行多元线性回归，所得回归方程为：

yi''=252.90-18.78Ai-94.55Ri+78.42Di

其中yi''为第i个任务点的任务定价。

依据该模型，首先将任务进行打包处理，形成206个任务包，通过计算第i个任务点的完成任务能力指数Ai，即某一点完成任务的能力为覆盖该点所有圆的会员任务配额之和，第i个任务点10 km范围内第j个会员的信誉值，即半径10 km圆所覆盖的所有会员的信誉之和Ri，以及第i个任务点10 km范围内第j个会员的距离任务点的距离Di。

利用该模型的回归方程，将三变量代入，即可得到各个任务包的标价。

部分标价如表2所示。

由于该模型充分考虑了会员完成任务的能力程度、会员的信誉、会员与任务的距离，且将已完成的任务所回归的方程作为优化价格函数。分析结果显示，具有高度统计学意义，故该定价应具有普遍适用性，即对于不同的任务项目，该模型都可给出合适的任务标价。

[参考文献]

[1]王勇，唐靖，饶勤菲，等.高效率的K-means最佳聚类数确定算法[J].计算机应用，2014（5）：1331-1335.

[2]杨连武.“拍照赚钱”任务影响因素相关性分析[J].中国新通信，2015（6）：1475-1482.