基于会员行为的"拍照赚钱"任务定价研究

2018-08-22 19:31万军杰
科学与财富 2018年21期

摘 要:近年来,随着互联网与经济全球化的迅速发展,越来越多的企业开始在互联网上寻 求提供各种商业检查和信息搜集的途径,逐渐的形成了一种新型的商业模式。《连线》 杂志记者 Jeff Howe 于 2006 年6月第一次正式提出了 Crowdsourcing 这个英语复合名词,用来描述这种新型的商业模式,称之为众包。在众包平台中,如何为任务制定合适的价格是该平台运行的核心。

关键词:任务定价 动态定价模型 非线性最小二乘法 决策树模型

一、问题重述

1.1 问题提出

随着社会的发展,众包模式收到各行各业的关注,这种平台不仅能快速有效的为企业提供各种商业检查和信息搜集,而且能减少企业成本。随着众包模式的发展,任务定价成了众包平台最核心的问题。过高或者过低的定价都会对任务的完成情况造成影响,而对于企业来说,完成的任务越多越好,那么如何给出任务合适的定价,使得企业在考虑经济的情况下得到更大的完成比例,使我们亟需解决的问题。因此,给出合适的任务定价,对企业和众包平台来说都有很重要的指导意义,我们通过分析数据和查阅文献,建立模型研究了以下问题。

(1) 研究附件 1项目的任务定价规律,分析任务未完成的原因。

(2) 为附件1中的项目设计新的任务定价模型,并与原定价方案进行比较。

(3) 将临近的任务集中打包,通改进问题2制定的定价模型,确定打包任务的价格并计算任务完成情况。

(4)利用问题 2和问题3建立的新定价模型,给出新项目的定价方案,并评价该方案的实施效果。

二、问题分析

针对问题(1),要求研究附件一中的项目的任务定价规律,并分析任务未完成的原因。我们通过分析数据,确定了影响任务定价的因素是该任务周围的任务数,通过建立统计模型,得到了定价规律,并运用决策树模型分析了任务未完成的原因。

针对问题(2),建立了任务的动态定价模型,模型主要考虑距离任務临近的会员数、根据会员预订限额所占比例进行配发的任务数、会员对价格和任务的敏感度以及会员的信誉模型。任务的范围设定在一个最大范围 K 之内,将任务价格按等级排列,将距离按照价格等距分类,并将会员分为两类,距离敏感型和价格敏感型,针对两种不同类型的人,动态的决定某项任务的价格。

针对问题(3),通过计算任务之间的距离 D,给定 d=1 km,当任务之间的价格 D

针对问题(4),对新项目给出任务定价方案,可以考虑三种方案,第一:运用第一 题中的定价规律,将任务价格和其周围的任务数量联系起来,给出价格;第二:运用第二题建立的模型,给出定价;第三:将小于某距离的任务打包,运用修订过的第二问的模型,计算价格。最后分别统计他们的完成情况,分析实施效果。

三、模型假设

1.假设所有的会员均在 APP 上同时在线,均可以随时看到发布的各项任务;

2.0~T 时间段内将所有任务发布完;

3.假定所有会员都愿意完成拍照赚钱任务;

4.不考虑会员选择任务后不做任务的情形;

四、符号说明

五、模型的建立与求解

5.1 任务定价规律及任务未完成的原因

基于互联网的众包平台可以快速且有效的解决企业问题,这种新型的商业模式得到了各行业的广泛关注,逐渐成为了研究热点。而给予任务合适的定价是众包领域中最核心的问题,过高或者过低的定价都会对任务完成情况造成一定的影响。

任务的定价规律是针对任务定价的一种策略,通过考虑某个或某几个可能影响任务价格的因素来制定价格。对于一项任务而言,这项任务周围的任务分布和数量、周围任务的价格以及周围的会员数都有可能影响这项任务的定价,而要根据附件一中的数据,针对某一特定的任务,我们分别考虑在这项任务周围3公里、5公里、8公里和 10公里以内其他任务的数目,根据周围任务的数目来确定某项特定任务的价格。

针对未完成的任务,结合附件一和附件二分别计算其3公里以内的会员数、3公里 以内的任务数、3公里以内的会员的平均开始预订时间以及平均限额,运用决策树模型,定性结合定量的分析任务没有完成的原因。

5.1.1 对任务完成情况的描述性统计分析

针对附件一中的数据,根据不同任务的标价及其完成情况,将价格区间分为三个段位,然后统计了不同价位下的任务完成情况。其任务完成比例如图1所示:

由图一可以看出,低价位的任务完成比例为 54.12%,中等价位的任务完成比例为74.40%,高价位的任务完成比例为 77.97%。从低价位到高价位,任务完成比例依次递增,即任务价格越高,完成情况越好。

5.1.2 任务的定价规律

附件 1 中给出了任务的位置、价格以及完成情况,针对某一特定的任务,我们分别考虑在这项任务周围 3公里、5公里、8公里和10公里以内其他任务的数目,通过非线性最小二乘法拟合任务的定价与该任务周围的任务数的关系。

1.非线性最小二乘法的原理

非线性最小二乘法就是针对自变量为x1 , x2 ,...,xn,因变量为y的一组数据,选定一组已知的函数 f i ,(i = 1, 2,...n),构造回归方程,寻找一组系数θi ,(i = 1, 2,..., n) ,

使得各组数据的回归值与真实值之间的残差平方和最小,即求使得式(1)

(1)

达到最小的 ,则 为最小二乘估计值。用迭代算法求解最小二乘估计值的步骤为:

Step1:给出初始猜测值θ ,并置迭代步数 i=1。

Step2 :确定一个向量 v 作为第 i 步的迭代方向。

Step3:用寻优的方法决定一个标量步长 ρ。

Step4 :检查停机规则是否满足,如果不满足,则将 i 加 1 再从 Step2 开始重复;如果

满足,则取 为所求估计值。

2.任务的定价与其周围任务数目的关系

根据上面的讨论,我们利用 MATLAB 软件利得到了以某项特定任务为圆心,距

离R为半径的周围所有任务的数目与该任务的关系,其中 R 分别取值 3,5,8,10。

其中,拟合函数为N R =a * Pb, NR表示以某项特定任务为圆心, R为半径的圆周内所有任务的数目, P表示这项特定任务的价格。参数输出见表 1,数据拟合状况见图 2—图5

由表 1 中的参数可以分别得到某项任务的价格和一定范围内任务数的关系, 当半径 R=3 时;

N R = 9.33*1080 * P-42.87 (2)

当半径 R= 5 时,

N R= 8.40 *10 76 * P-40.43 (3)

当半径 R = 8 时,

N R= 1.14*1072 * P-40.43 (4)

当半径 R = 10 时,

N R = 2.43*1069 * P-36.04 (5)

其中, N R = a * Pb ,两边同时取自然对数,得

(6)

由(6)式可看到,取对数之后的任务价格与其周围的任务数呈线性关系,无论是周围 3 公里、5 公里、8 公里还是 10 公里,该任务的价格和它周围任务数的关系大致 不变的。即取对数后,任务价格随着其周围的任务数的增加而线性增长,并且曲线拟合的 R2 >0.95,从相对水平上看,模型至少能够减少因变量(任务价格)95%的方差波动,拟合程度较高,所以针对众包平台而言,任务的定价是由该任务附近的任务数决定的, 附近的任务数越高,平台就提高价格来吸引会员完成任务;相反的,该任务周围的任务 数较少的时候,平台可以适当的降低价格,从而以较低的价格完成任务。

3.误差分析

我们用P1表示经模型预测的任务价格,P表示众包平台实际给出的价格,定义绝对误差 ei :

(7)

相对误差 rei :

(8)

因为任务价格和 3 公里内的任务数、5 公里内的任务数、8 公里内的任务数、10 公里内的任务数的关系一致,因此,我们仅已 R=3 时,计算根据拟合曲线得出的任务价格与实际任务价格的误差。

除了最后两个高价的残差较大,大部分相当残差都小于2%,表明我们制定的定价策略和附件一中的任务定价规律是吻合的。

5.1.3 任务未完成的原因

企業通过众包平台将自己的任务发布出去,在价格可以接受的范围内,希望任务完 成的越多越好。但由于任务分布的位置、任务周围会员的数量、信誉和限额以及周围任 务的平均价格不尽相同,导致有的任务可以完成而有的任务不能完成。任务的执行情况 是已知的,它是多个因素作用的结果,现在我们要由结果反推不能完成的原因。基于这类特性,我们选择利用决策树模型对任务没有完成的原因进行探讨。

结合附件一和附件二的因素,由问题 1 的模型,我们考虑半径为 R=3km 的范围内 其他任务的信息和会员的信息并结合任务本身的价格,我们选择了七个因素(任务的价 格、3km 内的任务数目、3km 内的任务平均价格、3km 内的平均限额、3km 内的会员开 始选定任务的时间、3km 内会员的平均信誉和 3km 内的会员数量)进入了决策树模型, 为了便于分析,将会员选定任务的开始时间投影到(1,1000)的区间内。

1.决策树模型和分类思想

决策树模型是一种简单但很有效的多变量分析方法,就原理来说,决策树模型是一 类基于学习的数据挖掘系统方法,它利用一种树状结构表现各变量的影响程度,并利用树上各级结点的分支自动确认和评估各个类别,从而可以从大量的原始数据中提取隐含的、事先未知的信息和规律,并可以由结果反推原因。

决策树是一个分类模型,他代表的是对象属性和对象值之间的一种映射,决策树模型的基本逻辑在于空间划,即通过递归算法等方式把关于自变量的 m 维空间划分为不重叠的矩形。具体而言,我们需要从数据样本的大量属性变量中选取一个最能区分样本类别(最具有区分度)的属性变量作为算法的根节点,并以该根节点为分类标准将训练样本集划分为相应的几个类别,接下来,再分别在对应的样本类别中选出区分度最大的属性变量作为第二层节点对数据进行第二次划分和归类,并依此类推直到某一层全部叶节点都仅包括一类样本时终止,所形成的树状图形即为决策树。

2.建立决策树模型

我们选择任务的执行情况作为根结点,将任务的价格、3km 内的任务数目、3km 内的任务平均价格、3km内的平均限额、3km内的会员开始选定任务的时间、3km 内会员的平均信誉和 3km 内的会员数量七个因素作为分类属性,根据附件一和附件二的信息,利用 SPSS 软件,建立决策树模型,分析在这些因素的影响下,任务没有被完成的原因。决策树如图 5 所示,并得到了各个变量相对于因变量(任务的完成情况)来说的重要次序。

3.决策树模型的结果

结合决策树和变量的重要性程度,我们可以分析任务没有完成的原因,总结如下:

●该任务周围3km员数太少,即任务的位置和会员的位置相差太远,会员不愿意去做。

●该任务3km内会员开始预订的时间太晚,任务发布,但会员没有资格预订,导致任务不能完成。

●3km内的其他任务的平均价格高,导致此项任务的相对价格较低,距离相似,会员会选择钱多的任务去做,不做这项任务。

●任务标价,价格较低,会员不愿意做。

●3km内会员的限额较小,会员想做但做不了。

●3km内的任务数目多,会员可供选择的空间大,导致某些任务不能完成。

4. 决策树模型的验证

检验分类预测模型最常用的方法,它将样品分成两部分,一部分为训练集,一部分为验证集,训练集和验证集均有不同类别的独立样本。模型的建立和验证过程会重复多次来保证每个样品都能作为训练或者测试的样本。在本题中,我们选择样本群数为10的交叉验证和重新代替的方法对决策树模型进行验证,结果如下:

由样本结果输出表,可以看到交叉验证错误的概率是0.246,即有24.6%的被错分类。重新代替错误的概率为0.227,即有22.7%的样本被错分类。

5.2 建立模型制定新的定价策略

附件一中原有的定价方案只和这项任务周围的任务数有关,没有考虑会员的信息, 有一定的不合理性。我们将任务的信息和会员的信息联系起来,通过分析数据和参考文 献,确定影响某项任务定价的因素是任务周围的会员数、任务和会员之间的距离,会员的信誉度和预订限额。将任务和会员的距离等分为 m 个区间,相应的价格依次为p1 , p2 ,..., pm ,且 p1 < p2 < ... < pm,针对落在某个区间内对距离敏感的会员和对价格敏感的会员分别给出不同的价格。

5.2.1模型准备

(1)数据中的任务价格 P={65, 65.5,..., 75,80,85},为了便于设计新的定价方案,我们对价格划分等级,一个价格为一个等级,得到 m 个价格等级,价格等级集合为 p ={p1, p2 ,..., pm} ,其中 m = 23 ;

(2)假定所有会员只对 K 公里以内的任务感兴趣;

(3)将 0~K公里分成 m 个区间,统计位于每个区间的会员数目 n1, n2 ,..., nm ;

(4)将因为离给定任务距离较远的会员要完成相应的任务需花费较多的时间,因 此,m个区间内的价格依次定为 p1 , p2,..., pm(如下图所示);

5.2.2模型的建立

1.模型的算法

Step1:考虑到企业花费的成本多少,对给定的任务优先分配给离给定任务较近的会员完成。

Step2 :每个区间内的会员可以随机地分成 2 类,α j 表示第 j 类人数所占总人数的

比例, 。一类是对距离较为敏感的会员,占会员总数的

比例是α1 ,共有

[α1*n1]个;另一类是对价格较为敏感的会员,占会员总数的

个。假定α1 =0.5时,若该区间的人数大于 1,该区间内必有一个或者以上的对距離敏感的会员,故将该任务的价格定为 pi (i = 1,2,..., m) 。其中,多个满足条件的会员优先安排信誉度高的和限额高的会员。

Step3:从第 i (i= 1,2,..., m) 个区间开始,若第 i 个区间内的会员数为 0,则该任务将分配给第 (i +1) 个区间内的会员完成。若第 i 个区间的会员数等于 1,那么该会员随机的 可能为对距离敏感的会员,也可能为对价格敏感的会员。若该会员为对距离敏感的会员, 则将该任务的价格定为 pi ;若该会员为对价格敏感的会员,则将该会员移到第 i +1 个区间内。

2. 模型的算法流程图

5.2.3 新旧定价方案的比较

由表 4 可以看出,动态定价模型较原模型任务完成的比例提高15%,平均价格降低3.7。

5.3任务打包时的价格制定和方案比较

5.3.1 制定打包发布的任务的合适价格

当某项任务比较集中时,可以考虑将任务打包当作一个任务分配给某个会员。首 先,定义任务和任务之间的距离 D,给定一个特定的常数 d,当 D

集中,考虑打包发布。仍然利用问题 2 的模型,但对打包后的价格要重新定义,假定将 x1 个任务打包在一起,x1 个任务中的最低价为 P1min ,则打包后的价格:

PA = x1* P1min (9)

由表 5 可以看出,动态定价模型较原模型任务完成的比例提高14%,平均价格降低2.3,打包后的动态定价模型较原模型任务完成比例提高21%,平均价格4.3。

5.4 为新项目提供任务定价方案

针对附件3中的新项目,我们可以给出3中定价方法。

第一,利用附件中原有的定价规律,通过该任务附近的任务数来确定其定价。

第二,利用问题2建立的模型,考虑任务周围的会员数、任务和会员之间的距离,会员的信誉度和预订限额来确定合适的任务定价。

第三,利用问题3的模型,考虑任务与任务之间的距离,将距离较小的任务打包成一个任务发布,可能在节省支出的同时得到更高的完成比例。

新型目的运行结果如下:

由表6可以看出,打包后的动态定价模型优于动态定价模型,动态定价模型优于统计模型。打包后动态定价模型较动态定价模型的任务完成的比例提高18%,平均价降低3.1。

六、模型的评价与改进

6.1模型优点

1.结合数据分析出了原有的任务定价规律,利用决策树模型,很好的反推出了影响任务没有完成的原因,为提出更好的任务定价策略做了铺垫。

2. 根据实际将会员分成距离敏感性和价格敏感性,可以为实际的定价策略提供很 好的参考。

3.动态定价模型不仅考虑了会员的分类,而且考虑了任务临近的会员数目、会员 的预订限额、临近的任务数目和会员的信誉,模型可以为企业和众包平台定价提供重要 的解决思路。

6.2模型的缺点

1. 模型没有考虑会员违约的情形;

2. 在模型建立过程中,由于缺乏实际的会员和任务所在地理信息和相关商业信息,可能會使模型的推广受到限制;

参考文献:

[1]郭英之, 陈芸, 黄剑锋,等. 基于多维交互决策树模型的赴日旅游意愿研究[J].旅游学刊, 2015, 30(01):42-53.

[2]王滋. 基于决策树的个人住房抵押贷款信用评估模型的应用[D]. 湖南大学, 2014.

[3]林素芬. 基于众包参与者网络的众包绩效提升研究[D]. 华侨大学, 2015.

[4]孙信昕. 众包环境下的任务分配技术研究[D]. 扬州大学, 2016.

[5]邓宏宇. 基于众包模式的历史文献数字化系统研究[D]. 大连理工大学, 2016.

[6] 向林. 互联网众包对现代企业管理模式创新的启示[D].北京邮电大学,2015.

[7]肖勇波, 陈剑, 刘晓玲. 基于乘客选择行为的双航班机票联合动态定价模型[J].系统工程理论与实践, 2008, 28(1):46-55.

[8]戴南. 基于决策树的分类方法研究[D].南京师范大学,2003.

[9]叶伟巍, 朱凌. 面向创新的网络众包模式特征及实现路径研究[J]. 科学学研究, 2012, 30(1):145-151. 012

[10]谭婷婷, 蔡淑琴, 胡慕海. 众包国外研究现状[J]. 武汉理工大学学报(信息与管 理工程版), 2011, 33(02):263-266.

[11]王姝. 网商平台众包模式的协同创新研究[D]. 浙江大学, 2012.

[12]冯小亮. 基于双边市场的众包模式研究[D]. 武汉大学, 2012.

[13]夏恩君, 王文涛. 企业开放式创新众包模式下的社会大众参与动机[J]. 技术经济, 2016, 35(1):22-29.

[14]马杰 , 陈晨 . 众包模式在图书馆管理与服务中的应用 [J]. 图书情报工作 , 2013(s2):118-120.

注:附件1等相关数据请见2017年本科组数学建模B题

作者简介:

万军杰,甘肃农业大学,此论文获得过,2017年全国大学生数学建模本科组省二等奖。