“拍照赚钱”软件任务定价建模及算法

2018-10-22 06:09
长春师范大学学报 2018年10期
关键词:定价会员阈值

张 静

(吉林建筑大学城建学院,吉林长春 130011)

1 研究背景

随着电子商务的发展,众包平台成为了一种新的发展趋势,“拍照赚钱”软件便是众包平台中的一大核心。它通过此平台造就个性化用户数据,并显著地降低成本和缩短市场调查周期。当任务的完成成本较高时,定价却较低,以致用户没有动力接受任务。当任务的参与者过多时,单个用户的期望收益便会降低,从而导致任务完成率下降。因此,如何在降低劳务成本并节省时间的同时保证任务的完成率是一个急需解决的问题。

刘晓钢[1]通过实证的方法研究众包网站上任务发布者制定的任务最终悬赏金额与任务属性及市场竞争的关系,从而得出成功的出价策略。吴俊[2]从创新程度和技术含量两个维度对众包任务进行分类,通过选取任务特征观测指标建立众包任务类别与交易方式匹配分析框架。吴瑞杰[3]设计了一个分布式的协作框架,用来实现任务计划的动态调整,内部模块包括一个N-best算法和一个反馈策略。

经过资料分析,之前的研究主要针对任务计划调整方面,对交易数据的任务定价研究很少。任务定价是此APP的核心要素,如果定价不合理,任务就会无人去完成,导致任务失败。本文针对此背景下存在的任务和用户资源“供需匹配”问题,利用JAVA和SPSS软件,通过对深圳市、广州市、佛山市和东菀市四个区域的已结束项目任务数据和会员信息数据,建立多元线性回归模型来衡量各区域不同时间段的“供需匹配”程度,同时应用JAVA软件设计算法,计算四区域定价容错阈值内的正确率确定合理的任务定价方案。

2 建立搜索范围内的任务定价模型

2.1 模型的建立

任务定价模型需建立一定的指标来反映任务定价“供需匹配”的程度。首先将所得数据中每个任务的定价、GPS经度、纬度和完成情况四个数据提取出来,结合空间数据得到地点分布图;其次通过智能交互地图和聚类算法,得到深圳市、广州市、佛山市和东菀市四个区域及区域中心;然后在某个区域内,求解每个任务位置和中心的距离[4],通过MATLAB编程得到距离与任务定价的规律,即可对某个区域衡量任务定价的对应指标进行分析;应用Excel和SPSS辅助完成数据处理,分析任务未完成的原因。

利用MATLAB编程得到四个区域的任务位置空间分布图如图1所示,横坐标为任务经度,纵坐标为任务纬度。在图1中,圆圈显示835个任务位置分布,未完成拍照任务的位置集中在左上方和右下方区域,完成拍照任务的位置集中在中间区域。从图1可直观看出任务主要集中在四个区域,未完成的任务区域分布也比较集中,可能有地理因素,这些区域均为山脉地形,任务完成难度可能较大。

图1 四个区域的任务位置空间分布图

本文针对原始数据集,对四个区域任务分布情况进行聚类分析,确定广州市、佛山市、深圳市、东莞市四个区域的中心位置。聚类算法[5]可简要描述如下:

(1)T可以认为是一个阈值,A为数值属性。

(2)给定区域的任务位置集合S,所选择的阈值需要使划分得到的基尼系数最小,基尼系数的度量为:

(3)对每个划分的阈值过程进行递归,直到满足用户给定的某个终止条件。

聚类结果:四个区域的中心位置为广州市(22.6° N,114.1° E)、佛山市(23.05° N,113.7° E)、深圳市(23.1° N,113.3° E)、东莞市(23.05° N,113.1° E)。

2.2 模型求解与结果分析

在四个区域内,求出每个任务位置和中心的距离表,通过MATLAB编程拟合得到距离与任务定价的关系曲线。

Step1:由于不同变量常常具有不同的单位和不同的变异程度。为了消除量纲影响,以及变量自身变异大小和数值大小的影响,分别把四个区域的每个任务位置到区域中心的距离数据标准单位化,把任务定价标准单位化;Step2:猜想在四个区域中,每个任务离到最近的任务密集点的距离与任务定价之间存在着一定的线性关系,利用SPSS22.0软件进行相关性分析。结果显示,广州市任务位置到中心距离与任务定价的相关性为0.478,但是在任务位置空间分布图中,广州市未完成拍照任务的情况比较多;深圳市任务位置到中心距离与任务定价的相关性为0.280,但是在任务位置空间分布图中,广州市完成拍照任务的情况却非常好。所以假设每个区域任务位置到中心距离与任务定价存在如下关系:

Y=a×x3+b×x2+c×x+d.

其中,Y是任务定价,x是任务位置到中心距离。

算法思想如下:(1)运用MATLAB,调用for循环,对任务坐标的数组进行遍历;(2)如果x(i)

广州市:y=0.0044x3-0.0209x2-0.6148x-0.0335,

佛山市:y=0.0513x3-0.3520x2+0.3991x+0.2474,

深圳市:y=0.1250x3-0.0364x2-0.1397x-0.0967,

东莞市:y=-0.0652x3-0.2281x2+0.2991x+0.1598.

原始数据中距离单位为千米,定价单位为人民币元,将原始数据标准化,得到图2。在图2的四个区域的拟合结果中,发现每个区域都有小部分经纬度范围内散点距离函数曲线较分散,且比较杂乱,可能存在以下原因:(1)可能与价格有关,部分价格不合理。假设函数的容错范围下限价格为3元,如果价格在距离对应的函数价格容错范围外,可能难度较大。(2)部分区域显示地理位置偏僻,人数稀少,地势险峻。山脉、湖泊可能就无人问津。广州市的小部分范围内,显示有大面积的高尔夫球场和山林公园。高尔夫球场占地面积较大,人烟稀少,且大多为高消费的娱乐场所,可能执行任务的概率很低。山林公园为山地环境,地势较险,导致无法完成。(3)中间东莞市和佛山市的经济条件相比另外两个区域不太发达,地图显示农村占领的区域较大,交通不便利导致任务无法完成。

图2 四个区域的拟合结果

3 建立改进的任务定价模型

结合所分析出的任务未完成原因进行研究,设计新的定价方案,以达到任务定价的最优化。准确合理的任务定价,依赖于完善高效的定价辅助分析模型。任务定价的影响因素如下:(1)任务发布位置。优良的任务发布位置需具备交通便利、人流密集等条件。此条件可以让用户更好地完成任务以提高任务完成率,对任务定价起到积极的作用。(2)任务执行情况。任务执行情况的优良决定了未来在此地点进行任务投放量的大小,执行情况越好,未来的任务量投放越大,对任务的定价也会越合理。(3)会员位置。会员位置的选取位于同一区域时,就要考虑会员之间的竞争关系,判断该区域内的会员竞争的激烈程度,避免恶性竞争。同时考虑会员所处位置和任务发布位置之间的距离长远,以将会员的时间成本与经济成本降到最低,以达到任务定价的合理性。(4)预定任务开始时间。任务开始时间的预定应把“会员所处的位置距任务发放位置的长远”和“会员的信誉值”这两方面进行综合考虑后设定,设定出任务完成的最优任务期限,任务期限设定得越长,任务定价就越高。(5)信誉值。用户信誉值越高则可以越早开始预订任务且任务预定量越大,可采取量大价低的方式进行定价。

会员表属性有预定任务限额、预定任务开始时间、信誉度。以被完成的任务为中心,运用JAVA软件求离最近距离的会员与任务之间的距离。嵌套for循环,输入:外层循环为任务地点的坐标(经纬度),内层循环为所有会员的所在位置,定义一个变量为min的函数,输出:每个任务到会员的最短距离。Java程序控制台部分生成的数据截图样式如图3所示。

图3 每个任务到会员的最短距离

图3显示了Java程序运行的835个任务到会员的最短距离和会员编号。然后将已完成项目的任务表和会员信息表进行链接,来处理数据。运用数据库可视化,建立主键为会员编号,对任务表与会员表进行自然连接。

信誉度大约与开始预定时间、配额存在正相关的关系。配额是某一会员在一天当中能完成的任务数量,可以作为影响任务的能力值。距离被认为是会员是否愿意接任务的一个指标。当距离过远时,会员的对接收这个任务的期望可能会大大减小,是一个负相关。假设期望值为信誉度与距离的比值,然后以任务定价为因变量,以期望值和配额度为自变量,先对数据进行标准化处理,然后运用SPSS 22.0做线性回归,得到线性关系式:

Y=-0.055m+0.067n+71.445.

其中,m为期望值,n为预订任务限额。

描述性统计量反映数据的定价集中在70元左右,标准偏差较小,说明离散程度小。系数相关图反映出预定任务限额和信誉度的相关性较大。由模型汇总与Anova图分析得出,决定系数r2为35%,说明在因变量y的全部变异中,能够通过回归关系被自变量解释的比例为35%。统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,拟合的回归直线没有意义,相反若概率值(SPSS中以sig表示)越小越好,在这里F=0.063说明拟合较好。综上分析得出该模型较良好。

4 任务定价模型检验

应用JAVA软件,分别计算四区域定价与所求得的定价容错阈值内的正确率,当每个区域的阈值正确率高于70%后,则认为任务定价方案较合理。算法思想如下:

(1)输入:期望值、预订任务额、最小距离、任务定价、拟合任务定价、开始预订时间;

(2)循环条件:abs(拟合任务定价—任务定价)≤3;

(3)输出:若满足循环条件,输出结果为1;若不满足循环条件,输出结果为0。

本文设置任务定价的容错率(阈值)为3。拟合任务定价采用下面的四个区域的拟合方程。检验容错率的部分Java代码如图4所示。

图4 检验容错率的部分代码

改进的任务定价模型统计结果为:广州市、佛山市、深圳市和东莞市四个区域的任务定价模型正确的概率值分别为67.21%、72.59%、79.04%和74.35%。决定系数r2=0.9243,显著性检验值P≈0,高度显著。

5 总结

本文首先建立了搜索范围内的任务定价模型,通过MATLAB编程得到每个区域的任务位置与中心的距离,分析任务位置与定价的关系得到项目的任务定价规律。其次,在此基础上,结合会员信息数据,选取任务与会员的最小距离、预定任务限额和信誉值三个指标建立多元线性回归模型来衡量各区域不同时间段的“供需匹配”程度。应用JAVA软件,分别计算四区域各时间段的定价与所求得的定价容错阈值内的正确率,当每个区域的阈值正确率高于70%后,则认为任务定价方案较合理,可进一步参考最小距离、预定任务限额和信誉值等指标设计合理的任务定价方案。

猜你喜欢
定价会员阈值
30万元的MPV搅局者来了!传祺M8宗师系列为什么定价贵?
会员之窗
会员之窗
会员之窗
会员之窗
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
利用Fabozzi定价模型对房地产金融衍生品定价的实证分析
比值遥感蚀变信息提取及阈值确定(插图)
基于分层Copula的CDS定价研究