李宇鹏
摘要: “拍照赚钱”是一种新兴的自助式服务模式,用户下载注册APP,并领取需要拍照的任务,完成任务后领取佣金,因此APP中的任务定价又是其核心要素,本文通过聚类分析和向量机的方式,给出定价的随机模型。
Abstract: "Photographing and making money" is a new type of self-service model. Users download and register APP and receive tasks that need to be photographed. After the task is completed, they receive commissions. Therefore, the task pricing in APP is also a core element. This paper uses cluster analysis and the vector machine approach to give a stochastic model of pricing.
关键词: 随机正态分布;“随手拍”;动态定价模型
Key words: random normal distribution;"snapshot";dynamic pricing model
中图分类号:TP274 文献标识码:A 文章编号:1006-4311(2018)12-0201-02
0 引言
通过研究广州市一些APP的定价与任务完成情况,研究相关项目的任务定价规律,分析任务未完成的原因,同时对于内部不同的会员给予相关的优惠并重新设计新的任务定价方案,并和原方案进行比较。在实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,可以考虑将这些任务联合在一起打包发布,那么该如何修改前面的定价模型,并考虑对任务完成情况的影响。
1 条件假设
在实际问题中,为了方便分析不妨假设:
①假设完成任务的难度相同。
②假设每个地区的人们对拍照赚钱的认知度和热情不变。
③假设不存在短时间大规模会员加入或减少的情况。
2 问题分析
首先对所选取的数据进行初步的筛选工作,排除个别的异常点,将数据进行降序排列,选取数据主要聚集的地区,从而对其进行研究,利用聚类分析的方法,对具体地区任务分布及完成情況进行研究,探究影响其分布及价格的因素。
3 模型建立与检验
模型一:多元回归模型,不妨直接将问题简化为简单的线性问题,通过建立多元线性回归方程,认为定价的价格与任务的位置、任务完成情况线性相关,通过spss的聚类分析可以求出理想聚类中心的数量,针对不同中心的实际情况通过引入任务的经纬度,以及任务的完成情况作为自变量,任务的定价作为因变量,基于以上考虑建立三元线性回归模型,首先对三个变量进行标准化处理,然后借助spss软件可以求得函数的表达式。但是在数据检验中,R2的值较大,并且引入对聚类中心的距离后,R2改善的并不明显,因此分析可能是存在不可预测性因子,或存在其他未知函数关系的影响,所以直接引用并不适用。
模型二:插值与数据拟合模型,参考彭芳瑜的基于插值与逼近的复杂曲面拟合[1]因此可以尝试使用插值与逼近相结合的曲面拟合思路,构造由初始曲面拟合到曲面逼近,及曲面细化3个步骤组成的曲面造型方法。实践表明该种方法能较好地解决原始数据点分布不均匀的造型问题。由模型一可以得到任务定价与人物经纬度具有相关性,考虑到任务完成情况的不可控性,所以消除该因子对价格的影响,可以利用MATLAB软件对数据进行最小二乘的线性拟合,又分别进行多项式拟合。可以得到任务定价函数表达式为:
f(x)=?琢0+?琢1x1+?琢2x2+?琢3x3+…+?琢nxn(n为多项拟合次数)
将具体数据代入后,可以求出插值与数据拟合模型表达式,对模型进行可靠性分析,通过随机抽样的方式将已知的数据代入原方程,将预测值与实际值进行比较,结果表明该插值方法结合最小二乘思路所得模型真实有效。相比较原来的方案,该方案的定价大大提高了任务的完成度,并充分考虑了经纬度对价格的影响。
模型三:向量机模型,支持向量机是数据挖掘中的一项新技术,是借助于最优化方法来解决机器学问题的新工具,最初由V.Vapnik等人[2]提出,近几年来在向量机理论研究和算法实现等方面都取得了很大的进展,开始成为克服“维数灾难”和学习困难的强有力手段,它的理论基础和实现途径基本框架已基本形成。
基本原理:根据给定的训练集
T={(x1,y1)(x2,y2),…,(xt,yt)}∈(X*Y)t其中xi∈=Rn,X称之为输入空间,输入空间内的每一个点xi都由n个属性特征组成。寻找Rn上的一个实际值函数g(x),以便用分类函数推断任意一个模式下x相对应的y值问题。通过选取已知数据的一部分作为训练集,作向量机模型,余下一部分可以作为对方案的检验集,建立模型后误判率为28.73%,说明任务定价不够合理,也就是说准确性为71.27%,但较之多元线性回归模型和插值模型已有很大改进。
模型四:混合博弈模型,包含合作与对抗博弈,其中合作博弈的实质是通过调整任务发布方与会员之间的资源优化配置,使得任务交易系统逐步逼近均衡状态,从而实现资源总收益的最大化。而对抗博弈过程的实质是会员以各种自身优势(信誉度、任务限额、距任务远近)为调节杠杆,向其最大优势利用率逼近的方式来实现资源收益的最大化。
在实际情况下,多个任务可能会因为位置分布比较集中,导致用户会争相选择,可以考虑将这些任务联合在一起进行打包发布,对于众包问题来说要把握的几个原则:①价格临近性,②位置聚拢性,③打包后定价少于打包前个任务累计价格。
参考基于忠诚度的众包模式下用户参与意愿影响因素分析[3],信誉值就可以作为衡量忠诚度的主要因素。大众主要是出于一时兴起而参与众包,用户的主要参与动机是获得收益,就如BRABHAM所认为的。最后得出用户满意度和参与意愿是影响其信誉值的两个主要因素。
而从会员信誉值分布表可以明显看出大部分会员还是处于低信誉值区间,说明,虽然有较多的会员注册数量,但大都积极性不高,仅仅是由于一时兴起注册了该类APP,从验证了上述分析。
所以站在用户视角发现当打包任务相互之间联系越紧密(距离近、同一类任务)时,再加上合理的定价方案,才可以大大提高用户参与度,从而提高任务成功率。
综合比较多元线性回归模型、混合博弈模型。支持向量机模型,可以试建立随机正态分布的动态定价方案。
模型函数表达式如下:yi=rand(m,1)*20+65+f(ti)
m表示任务数目,由于最低价65~最高价85之间可分为20个1,该模型还可以用于支持向量机模型中,进行多次迭代选取任务成功率最高的定价方案。如此一来必然可以大大提高任务完成度。
4 模型评价
4.1 模型优点
①在数据处理方面,通过Google earth批量发乳经纬度,求出各任务及会员分布情况,能更好地排除异常点及孤立点数据,再进行函数拟合,从而提高模型拟合优度。
②多元回归模型:虽然可以人工添加交叉项、二次项再做线性回归分析。插值与数据拟合模型:抽取一定数量的样本对模型理论结果与实际值进行检验统计分析,增强了结果的可信度。支持向量机的模型,确保了模型的可操作性,使算法更接近于实际应用。
③从线性和非线性两方面分别进行对比建模分析,避免了只采用一种模型时所带来的片面性、局限性,大大增强了说服力。
④最后我们建立了基于正态分布的多次迭代求n组任务定价,再利用MATLAB中支撑向量机函数,对定价结果进行筛选,从而得出最优的任务定价方案。
4.2 模型缺点
①多元回归分析中相关性R2仍旧在0.2以下徘徊,又考虑到存在不可控因子(任务完成度),所以该类问题并不适用于多元回归分析。此外多元线性回归缺乏对非线性情况的讨论,存在局限性。
②對数据进行数据处理时,采用了分层抽样的方式,因而没有对全部数据进行统计分析,这样会对实验结果产生一定影响。
参考文献:
[1]彭芳瑜,周济,周艳红,周云飞.基于最小二乘法的曲面生成算法研究[J].工程图学学报,1999(03):41-46.
[2]卢新元,龙德志,陈勇.基于忠诚度的众包模式下用户参与意愿影响因素分析[J].管理学报,2016,13(07):1038-1044.
[3]郭明玮,赵宇宙,项俊平,张陈斌,陈宗海.基于支持向量机的目标检测算法综述[J/OL].控制与决策,2014,29(02):193-200.