, , *,
(安徽财经大学 a金融学院;b.会计学院;c.统计与应用数学学院,安徽 蚌埠 233030)
随着我国经济的快速发展,互联网及智能手机的普及,能够充分利用网络资源,帮助企业节省资金的“劳务众包”模式也就快速发展起来。而“拍照赚钱”则是在此概念下衍生出来的,企业为有效低廉进行商品检查和信息搜集而利用手机用户完成相关任务的APP。该平台的核心要素是任务定价。任务定价是否合理,决定了任务的执行情况以及该平台的收益情形。如果定价不合理,有的任务会无人问津,而导致商品检查的失败,以及由此而带来的平台信誉受损。因此,研究任务定价的相关规律具有十分重要的意义。“拍照问题”APP任务定价问题是一类复杂的聚类分析与回归分析问题。合理的定价方案应该在完成任务消耗成本尽可能低的情况下完成尽可能多的任务。在处理此问题时,设计合理定价方案并综合考虑位置、会员等情况对定价产生的影响,建立模型判断新定价方案下任务的完成情况是否发生变化,然后通过对任务完成度和消耗成本的变化,比较两种定价方案的优劣。
数据来源于2017年全国大学生数学建模竞赛B题。为了便于解决问题提出如下假设:(1)会员对于任务的选择只受地点和价格影响,排除天气与个人因素影响;(2)假设企业将调查任务全部发给平台且资金到位;(3)假设平台对于各个企业的任务发布等级平等且不存在拖欠用户资金问题。
首先绘出任务价格梯度散点图直观地分析任务定价与位置的关系,发现价格分布具有明显的分区特征;接着运用K均值聚类分析,将所有任务点分成三个区域,并求出中心点坐标,得到各区域的任务点的价格分布具有相似规律;最后运用回归分析,构建各区域任务点价格与距中心点距离的函数模型,即价格-距离曲线。结合计算和图像分析,推断任务未完成的原因。
K均值聚类算法是先随机选取K个对象作为初始的聚类中心[1]。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化[2],误差平方和局部最小。
首先采用K-均值聚类分析,设各区域的中心点坐标为
将所有任务点分成三类,运用MATLAB求出各区域中心点坐标(详见表1)。
表1 中心点坐标
接着,运用回归分析[3],分别构建各个区域内任务点定价与其区域中心点距离的函数,从而得到各区域内的任务定价规律。中心点m1区域内定价与位置的关系如图1所示,其回归方程为。
p1=a[sin(x-π)]+b[(x-10)2]+c
图1 价格——距离回归图
最后,将数据带入回归方程中进行验证,发现大多数数据点比较靠近回归曲线,并且波动情况相似或在回归曲线附近波动情况相似,因而拟合程度较好,可以用该回归方程对任务未完成的原因进行结果分析[4]。
图2 会员及任务完成度分布规律
(红色——会员分布,黄色——未完成任务,蓝色——已完成任务)
由图2可知, 大部分未完成任务的地区距离中心点远,而且这些地区定价普遍较低,推断任务未完成的原因是任务定价不合理。
考虑到会员密度对定价方案有影响,建立密度与距离之间的关系。将纬度均分为三个区间,在每个分段区间中,剔除分散的数据点,剩余区间根据经纬度坐标转换成距离[5],计算每一段距离对应的人数,即会员密度;由聚类分析和回归分析得出密度与距离的关系。将上文中定价与距离的关系,转化为定价与密度的关系;最后运用SVM模型[6],根据任务是否完成进行分类,将会员密度,地点的经度,地点的纬度,任务定价作为各指标变量;将会员信息数据的80%作为测试样本[7],剩余的作为训练模型来预测新方案的有效性并与原方案进行比较[8]。
首先,建立会员密度与经纬度的回归方程。首先计算每一段距离对应的人数,即会员密度。由聚类分析和回归分析得出密度与距离的关系。其中,中心点密度为d1时密度与距离的关系如图3所示,其回归方程为
d1=a×[sin(s-π)]+b×[(s-10)2]+c
b=33.06×(-56.15,122.3)
图3 会员-密度距离图
其次,由于会员密度因距离存在关系,所以密度与任务定价也存在着关系。假设会员密度与任务定价关系为p=g(m),通过MATLAB得出各中心点会员密度与任务定价的关系如图4所示,其回归方程为
p=a[sin(d-π)]+b[(d-10)2]+c
a=0.1106×(-0.84,1.061)
b=0.000786×(0.000331,0.0001219)
c=3.703×(2.722,4.683),R2=0.06106
图4 定价-密度图
首先对训练模型与测试样本进行正向归一化处理
选取高斯核函数sigmoid和参数c,g;参数c,g的取值范围为[4.365×10-6,6.244×10-6],步长20.5,构造最优化问题模型:
分类函数表达式:
如图5所示,新建立的模型对应的新方案任务完成度为86.7%而旧方案的任务完成度为62.5%,由此可见新方案比原方案任务完成度更高。
图5 第一区域内的任务定价方案检测图
首先运用最短路径法将会员点分在三个区域内;然后通过MATLAB模拟计算出每一个会员中心点所在的一定区域,并将其中任务的个数作为一个打包任务,价格进行折扣计算;最后运用SVM模型对新的定价模型进行预测评价[9],得出新的模型任务完成度更高。
首先根据最短路径法,将队员分别划分到三个中心点所在的范围[10]。其中中心点密度为d1时距离与密度的关系:
p1={a×[sin(d-π)]}+b×[(d-10)2]+c}×80%
a=0.03919 (-0.2328,0.3112)
b=9.394×10-7(4.365×10-6,6.244×10-6)
结合定价与距离的关系式,可得打包后定价新方案:
f(x)={p1*x+p2}*85%
p1=-0.0002778 (-0.0003126,-0.0002429)
再利用SVM模型,对新的定价方案进行检验,如图6所示得出打包之后完成度为94.3%,相比原方案有所提高[11]。
图6 打包后的任务定价方案检测
所述模型是定义在具有一定理想性的假设下,对于实际任务定价的指导仍具有不完全适合性。但是模型求解后的R2在误差允许的范围内,对实际问题具有一定参考性;在建立模型的过程中引用了聚类分析以及回归方程模型等经典的数学模型并加以改进,大大减轻了建模过程的工作量[12];建模方法从简单到复杂,变量从单一到丰富,容易入手,利于理解,便于推广;价格梯度模型可以用于许多众包类型的实际问题;SVM模型在验证与识别、分类、图像处理等领域拥有广泛的应用。