基于Logistic回归的“拍照赚钱”APP定价方案设计

2019-04-10 01:08尚舒敏陈家慰胡锦帆王志勇

实验科学与技术 2019年1期

尚舒敏，陈家慰，胡锦帆，王志勇

(电子科技大学数学科学学院，四川成都 611731)

移动互联网的发展产生了“拍照赚钱”这一自助式服务模式，用户成为APP上的会员即可领取拍照任务，从而赚取APP对任务标定的酬金。APP的任务定价是平台正常运行的核心要素，若定价不合理，会出现无人领取任务的现象，因此，定价方案直接影响了项目实施情况。

基于已结束项目的任务数据，解决下述问题：

1)通过研究已完成项目得到任务定价规律，并分析未完成任务的出现原因；

2)为已完成项目制定新的定价方案，并与原方案进行比较；

3)由于实际情况中可能出现多任务位置集中导致用户争抢现象，一种解决方案是将这些集中任务打包发布。根据这种解决方案修改定价模型，并分析改进后的定价方案对最终的任务完成情况的影响。

1 定价规律分析与模型建立

1.1 基于K-means的因素分析

为了直接观测到不同定价的任务的时空分布特点，首先对已完成的拍照任务的定价进行K-means聚类[1]将任务按定价分为3类对每一类别的任务进行影响因素分析，分类结果及对应分值如表1所示。

表1 K-means聚类结果

其中，类1和类2分值之间间隔均为0.5。

首先根据任务点地理位置即经纬度x(i)，对每一个任务划分一个d邻域，即以任务点为圆心d为半径的经纬度范围的圆，得到：

Oi=O(x(i),d)=‖x(i)-x‖,∀x∈Rn

(1)

该邻域中包含了第i个任务点周遭的会员分布，用ni表示该邻域内的会员数，直接反映的是人口对任务定价的影响。

进一步地，针对该邻域内的会员，对每个邻域会员的预定任务限额求和得到该邻域内会员能够领取的总任务数，一般来说，邻域内限额总数越多，该任务被选择完成的概率越大，任务定价较低。

在其余条件一定的情况下，定价规律受人口分布和预定概率即限额总数的影响比较显著，然而数据会出现不能仅由这两个主要因素解释的定价任务点，这可能由于任务点所在地理位置的地形或任务本身的难度等原因决定的，引入一个可变参数θi，表征任务i的其余因素对定价的影响[2]。

1.2 会员数与平均价格的对数回归模型

首先考虑附近会员数对价格的影响，在取搜索邻域为d=0.02(以任务点为圆心0.02为半径的经纬度范围的圆)可见，随着任务附近会员数的增多，其对应的价格也具有下降趋势。同时注意到，价格为80元和价格为85元的任务与其他任务的差异较大，应单独考虑。

为了更直观地表明任务附近会员数与任务价格的关系，可考虑相同会员数情况下的平均任务价格。在忽略任务价值为80元和85元的前提下，任务附近会员数可在[0,44]内离散地取整数值，共有38种会员数情况，分别计算不同会员数时任务价格的平均值发现随着附近会员数的升高，任务的平均价格不断升高。

采用对数回归模型[3-4]进行拟合,利用所给数据(ni,vi),ni=1,2，…,38，ni表示第i种会员数，vi表示第i种会员数对应的任务平均价格，通过最小二乘法得对数回归模型为：

v=70.978-1.698 lnn

(2)

式中，v是平均价格，n是会员分布数。

取显著性水平α=0.01，对模型进行显著性检验,t检验和F检验的P-value均小于显著性水平0.01，拟合优度为0.866 1,模型通过显著性检验且较为准确。

由以上分析可知，任务附近会员的数量会对任务的价格造成较为明显的影响，其主要体现在平均价格符合对数回归模型，因此可认为随着任务附近会员数的增加，任务的价格在总体上会降低。事实上，任务附近会员数与任务价格的更为复杂，无法直接通过任务附近会员数得出任务的价格，因此还需要考虑更多因素，这些因素在会员数的基础上，进一步对任务施加影响，从而确定任务实际的价格。

1.3 基于决策树的定价规律分析

将任务点的分布与会员的分布绘图对比，得到任务的分布与邻域内会员总人口数存在相关关系，会员越密集的地区，任务价格相对较低[5-7]，因此第一类任务的定价较大程度上取决于邻域的人口数量，取d=0.02，得到任务点邻域(经纬度起伏范围为d的区域)的人口数，针对第一类任务邻域的人数取平均值，做第一类任务定价与其中每个价位的人口分布平均值做一元线性回归，得到：

y=68.427 642-0.204 265x

(3)

式中，y表示第一类任务的价格，其取值为65～68之间的间隔为0.5的离散值，x为任意定价价格对应的d=0.02的左右邻域人口的平均值。

第2类和第3类分布与人口分布的关联并不那么显著，第二类定价的任务更偏向于人口密集地区分布，那么考虑第二类与会员的任务预定限额有关，将这两个因素作为决策族建立决策树模型，结果如图1所示。

图1 决策树可视化结果

该决策树经检验错误率为21%，认为有不错的表征效果,其中第1和第2类任务受人口数量和预定限额影响较大。

1.4 任务完成情况的Logistic回归模型

一般情况下，一线城市这类城市人均收入较高、消费水平也高的城市，往往居民不会去接一般定价的任务，导致任务完成率较低，直接造成的现象是该处出现聚集性的任务未完成现象，定义任务完成率为：

(4)

通过求解分析各城市间的任务完成率情况，得到任务完成的区域性差异，进而说明未完成的可能原因。

可假设任务的完成情况满足0-1分布。对于0-1分布的随机变量，可用Logistic模型[8-10]将其进行分类处理，将影响任务完成的因素作为自变量，任务的完成情况作为因变量，可得到二分类模型。利用Logistic模型，可以进一步分析出导致任务未完成的原因。

要确定Logistic模型的自变量，需要考虑影响任务完成情况的因素。首先比较已完成任务与未完成任务的数据，得到主要数据如表2所示。

表2 任务完成情况的结果

由上表可见，以上因素对于任务完成情况S均有一定的影响，考虑到模型二中会员数与平均价格的关系以及会员限额与平均信誉值均与会员数有关，为了减少各自变量的相关性，仅考虑价格v、会员平均限额l、会员平均信誉值cr和附近任务数b作为自变量。

根据经纬度进行定位，高定价的任务出现原因一般为比较难完成的任务，比如较为偏僻的地方、危险的地方和需消费才能进入的地方等，对会员要求较高，故定价较高，这时受人口分布和限额的影响较小，可见难度系数θi是权重最大的因素。在层次模型中，特殊地区应在第1类与第2类定价基础上考虑难度然后增加定价。

计算Logistic模型的极大似然法的估计值可得：

(5)

式中，v表示任务的价格，l表示任务附近会员的平均限额，cr表示任务附近会员的平均信誉值，b表示任务附近的任务数。

改变训练数据，计算多组参数，确定一个合适的阈值pl，使得以测试数据的错误率达到最小，利用枚举法，以0.01的为步长，搜索阈值，计算可得一个大致的阈值为pl=0.5。于是有：

(6)

通过多组测试数据，以pl=0.5为阈值，可计算测试数据的平均错误率，计算得为平均错误率为36.9%，其中最小错误率为29%，最大错误率为43.5%，因此可得此分类模型有一定的准确性和合理性。

1.5 任务未完成原因分析

任务的完成情况受到价格、附近会员限额、附近会员信誉值以及任务难度的影响，一个任务未完成的原因主要有以下6种可能：

1)任务处于消费水平和工资水平较高的城市，而定价无特殊性，对会员没有吸引力；

2)任务的价格较低，会员完成任务的积极性降低；

3)任务附近的会员限额较高，会员在同时接受多个任务时，没有时间和精力做完每一个任务，导致任务未被完成；

4)任务附近的会员实际信誉值较低，会员经常不完成任务会影响其信誉值，总体上来看，低信誉值的会员完成任务的可能性更低；

5)任务附近任务数量较多，会员在选择时可能会忽略某些任务；

6)任务的难度较高，任务可能处难以到达的位置[11]，这主要体现在中高价格的任务上。

2 优化的定价方案

2.1 对预定任务限额的优化

预定任务限额影响会员配额，故对会员的预定任务限额进行分析。会员i的预定任务限额值应受到其地理位置、附近会员的信誉值影响。以会员附近任务总数与会员附近其他会员的平均信誉值C作为自变量，建立限额模型。

L=β0+β1Q+β2C+ε

(7)

考虑附近信誉值对任务完成的影响，可将会员临近信誉值C进行恰当变换，使其在(100,1 000]增长更为平缓。计算得变换函数如下：

(8)

将C*带入多元线性模型中替换C，即得到优化后的限额函数。最终的结果为：

L=4.918 300 410 5+0.000 294 303 3Q+
0.002 548 307 1C*

(9)

2.2 基于Logistic函数的价格模型

Logistic价格模型[12]可以通过价格、附近会员限额和附近会员信誉值计算出一个任务完成的概率p(y=1|v,l,cr,b)，对于n个任务，需要使得每个任务的平均完成概率pi最大，且要使任务总金额限制在一个范围里，设最大总金额为vmax，模型为：

(10)

(11)

进一步地，考虑任务点所处城市水平的差异引入水平参数φ，另外加上各种地区带来的任务难度提升的定价θ。

同时兼顾新会员的利益，应当为新会员的任务完成提供机会，但碍于老会员信誉值和限额的双高现象，为了增加新会员的积极性，增加时间递增参数τi，τi随着任务发布时间递增，经过对数据的分析，每3 min更新一轮，从6∶30-8∶00进行任务的选择，由于新会员开始选择时间落后，将任务定价适当提高以增加新会员的积极性。综上所述，改进的价格模型为

(12)

对于任务i，根据任务附近会员限额li、任务附近会员信誉值cri与任务附近会员数bi，以0.64为平均最佳概率计算初始价格为：

vi=73.047 0+0.067 5li-0.003 0cri-0.069 0bi

(13)

2.3 基于逐步聚类的任务打包模型

任务打包方案基于任务的聚集程度而定，基于这个想法，设定一个邻域值d，在此基础上，进行逐步聚类，将在d-邻域内的所有任务聚为一类。具体步骤如下：

1)根据经纬度计算各任务点两两之间的距离得到距离矩阵D；

2)设定邻域长度d，从第一个任务点开始依次查找与其余任务点的距离，以对于任务点i为例，找到满足距离小于d的且任务i与任务j之间的距离distij距离最小的任务点j，将其与任务点i归为一类，即将任务j的列名明明为i，循环全部任务点得到第一次聚类结果；

3)判定距离矩阵D的类别，将存在的类别进行进一步聚类，对于第i类任务，选定其余任务点距离中与第i类中的所有任务的距离最大值不超过给定邻域范围d的任务点归入i类，即需满足条件：

maxdistij=‖xj-xi‖,xi∈ci

s.t.distij

(14)

式中，x表示任务，ci表示第i类，distij表示任务i和任务j的距离，d为给定的邻域范围；

4)重复步骤3)，直至不存在满足邻域范围内的dist为止，完成最终聚类，得到结果。

取打包范围为0.02，打包后，任务共有446组，其中有68组包含3个任务，253组包含2个任务，125组包含一个任务。以此方法对任务完成打包分类，将打包后的任务视为一个发放任务，借用模型二，进行新的定价求解。

2.4 修正的定价模型

由于将临近的任务进行了打包发布，临近任务数对价格的影响被大大削弱，同时也提高了任务的完成率，为了保障商家利益，应当对打包订单的单价进行适当降低，因此引入下降参数γ，γ随着订单内任务的数量应作出适当改变，不妨取：

γi=bi-1

(15)

式中，bi表示订单i内任务总数。即随着订单内任务总数的增加，单个任务难度越低，因此任务单价下降越多。改进的订单单价求解模型为初步修改后的Logistic模型为：

(16)

借助这个模型，可以得到所有任务的基准价格，以价格乘以任务数作为总价，得到每个订单的基准价格。即基准价格的获得模型为：

(17)

对任务打包后建立与上文相同的定价模型，取平均完成概率为0.65，得到结果为：

(18)

式中，l为任务附近会员限额，cr为任务附近会员信誉值。

在计算价格时，先将整个打包任务作为整体，将每个任务的会员限额和信誉值取平均值，利用定价模型计算出一个平均价格。

具体定价方案如下：

2)若vi<60，取vi=60，若vi>80，取vi=85；

4)若考虑时间因素影响，可按照价格增加规律按时间增加价格。

3 结束语

优化后的新方案的定价具有更低的方差，平均价格有所提高，理论平均完成概率提高了10%。考虑进时间因素后，理论完成概率提高了20%。新方案在增加总成本的情况下，调整了价格，总体上任务价格有所上升。从平台的角度考虑，此类定价更能吸引新用户，对于拥有较多新用户的该平台有较高的可行性。而考虑时间因素时，理论上，成本提高较多，然而预定时间较晚的用户往往是信誉值较低的新用户，最终的价格仅针对这部分用户，由于其限额较低，在实际情况下平台成本不会提高过多，具有可行性，考虑了新用户的利益。进一步地，对于任务打包方案，将多个任务视为一个任务，顾及到了所有会员的利益，更有利于低限额的会员完成任务，从而有利于平台的长远发展。在商家成本较为充足时，打包任务的定价方案效果最佳。这是一种对新会员友好的模型，有利于平台的持续性发展。