软件众包的实例研究

2018-08-07 08:05马悦张楠
科教导刊 2018年12期
关键词:数据挖掘

马悦 张楠

摘 要 软件众包平台,这种基于移动互联网的自助式劳务众包平台不仅能够快速为企业提供各种商业检查和真实有效的信息搜集,还能够为用户带来可观收益。平台的良性运转取决于平台两端企业和用户,且企业与用户无法直接沟通,因此只能依靠平台对任务发布规则和任务标价去促成双方最大程度的满意。依据已结束项目的数据聚集位置在地图上的呈现,市与市之间因为地形、河流不同导致城市规划的区别,这也就导致了不同市之间定价的函数类型一致,但具体的函数却不尽相同。除了位置与距离,更应结合生活状况考虑到会员分布、城市规划、人口流量、经济发展能力这些客观因素对定价的影响。在只有已结束项目完成情况做数据挖掘的情况下,第一代定价模型只能在任务经纬度和任务标价这三者之间进行发掘。

关键词 软件众包 分区定价 数据挖掘 K-means聚类

中图分类号:F270 文献标识码:A DOI:10.16400/j.cnki.kjdkx.2018.04.030

Software Crowdsourcing Case Study

MA Yue, ZHANG Nan

(College of Science, Yanbian University, Yanji, Jilin 133000)

Abstract The software crowdsourcing platform, which is a self-service labor-based crowdsourcing platform based on mobile Internet, can not only provide enterprises with various business inspections and real and effective information collection, but also can bring considerable benefits to users. The benign operation of the platform depends on the enterprises and users at the two ends of the platform and the enterprises and users cannot directly communicate with each other. Therefore, the platform can only rely on the task publishing rules and the task price to promote the maximum satisfaction of both parties. According to the presentation of the data aggregation location of the completed project on the map, the difference between the city and the city due to different terrain and rivers leads to the difference in city planning, which leads to the same type of function of pricing among different cities, but the specific function is not exactly. In addition to location and distance, the influence of objective factors such as membership distribution, urban planning, population flow, and economic development capacity on pricing should be taken into account in conjunction with the living conditions. In the case of data mining only when the completion of the project has been completed, the first-generation pricing model can only be excavated between the task latitude and longitude and the task price.

Keywords software crowdsourcing; partition pricing; data mining; K-means clustering

0 引言

“拍照賺钱”是时下非常火热的一种自助式服务模式,这种基于移动互联网的自助式劳务众包平台不仅能够快速为企业提供各种商业检查和真实有效的信息搜集,还能够为用户带来可观收益。用户通过下载APP,注册成为会员,便可以领取拍照任务,上传任务照片后赚取相应酬金。“拍照赚钱”APP的核心要素是任务定价。如果定价过低,用户完成任务所获得的“利润”不能满足预期,就会导致有些任务无法完成;如果定价过高,企业和APP平台的利益无法得到最大的保障,因此要综合考虑任务区域的经济状况、任务的位置、会员的位置、会员的人数、信誉度等因素以确保三方的利益都能够得到满足。

1 问题及分析

图1(部分数据)是一个已结束项目的任务数据,包含了每个任务的位置、定价和完成情况(“1”表示完成,“0”表示未完成);研究图1中项目的任务定价规律,分析任务未完成的原因。

图1

问题要求研究图1数据信息得出任务的定价模型的同时分析任务未完成的原因,基于大量任务的经纬度信息,采用GEOQ软件进行任务的地点标示,并通过数据挖掘去深度挖掘任务地点与任务标价的关系,从而建立定价模型。

发掘前对数据进行预处理,去掉噪声数据,而后按区分类进一步对数据进行筛选,以得到尽可能准确的定价模型。每区的任务聚集分布很集中,且有些定价的分布呈现一定的环带状沿城市道路分布,因此通过K-means聚类找到每一区的中心点,按照任务地与聚类中心的距离与任务定价来拟合曲线,进而得到定价模型。

首先对数据进行预处理,去掉噪声数据后显示大部分任务发布在广东省的深圳市、广州市、东莞市以及佛山市四市。再将筛选后的数据导入GEOQ,以定价为区分标准做出任务定价分布图。经分析,在对一些数据进行模糊处理的情况下,可以将任务定价模式看做是四个同心环且四个环的大小不一致。四个环心的位置大致居于四市中心,因此可以将任务分为四类,每类任务的具体定价函数都不相同。理想情况是以四市的边界线作为划分任务类别的标准,但考虑到环心的形状以及操作的便捷性,将四市的边界理想化,结合网上查询获得市区大致的经纬度范围划分为四个矩形区。将任务进行分类,筛除不属于四个区的任务,对四个区的任务定价规律分别建立数据模型。

以一区为例,一区是广州市的理想化矩形,对一区内任务进行经纬度的二维K-means聚类,将得到的位置视为一区的任务中心,根据一区内各个任务距任务中心的距离(为便于计数方便,距离值统一采用欧式距离的平方值)及该距离对应的任务定价,进行二维k-means聚类分析得到22个分段点,通过分段点与任务定价两者进行拟合获取该区的任务定价模型。其他三区的任务定价模型与一区获得方式一致。

模型假设:假设每一区有一个聚类中心、假设广州、深圳、东莞、佛山等市囊括了所有定价标准的任务、假设可将广州、深圳、东莞、佛山四市的边界理想化为矩形。

符号说明:

x 表示任务地点与中心位置的欧式距离的平方

y 表示任务的标价

2 模型建立与求解

项目定价规律:针对图1中的数据,首先进行预处理去除噪声数据,根据构造的任务分布图将整个任务区域划分为以四个市为主要区域的一区、二区、三区、四区。对每一区进行经纬度的二维K-means聚类(k=1),直接得到该区的任务中心坐标,因为每个区的定价模型都以自身所在区的中心位置和该区任务到中心位置的欧式距离有关,因此每一区的定价模型都不一致。每区的经纬度范围及中心位置具体坐标见表1。

x=(a-c)2+(b-d)2

调用编写的MATLAB函数[s]=distance(B,C,n),其中B是表示某区的所有任务地的经纬度及相应定价的三维矩阵,C是该区的中心位置,n则表示B矩阵的行数,函数返回值是每一个任务到中心位置的距离x及对应定价的大小为n*2的矩阵s。因为价格有23个标准,因此对矩阵s进行二维k-means聚类(k=22)分析得到22个分段点,对聚类得到的22对距离与定价的数据进行拟合,从而得到任务定价模型如下:

将信息导入GEOQ系统,观察发现在一区(广州市)任务完成率为50%左右,二区(东莞区)任务完成率可视为100%, 三区(深圳市)任务完成率大约为0,而四区(佛山市)任务完成率小于50%。

将一区放大并结合该区城市规划进行具体分析。未完成任务主要聚集在该区的右上角,而此地的主要规划为生态公园、森林公园、郊野公园等生态旅游区域以及高速干线,再结合该区的人口分布和人口流量图可知,该区域的人口流量虽大,但是常驻人口很少,该区域的会员数也较少。因此,对于大多数会员来说,完成该区域任务的利益远远小于完成一区左下角商业区和住宅区,所以该区右上角的任务执行情况很差,而左下角执行情况良好。

二区城市规划错落有致,没有集群现象,任务分布较为均匀,任务地点可接受范围内都有会员的分布,且该区域的交通发达,因此任务定价对会员的影响不大,该区的任务执行情况最好。

三区毗邻香港地处珠江三角洲,且是中国改革开放建立的第一个经济特区,故而消费水平与经济发展能力较高。且深圳市是热门的旅游城市,区内大多数地方为风景区,且人口数量少,会员聚群分布。三区具体任务执行情况与城区规划和城市经济发展的交叉图。除左下角的南山区之外,会员聚集分布在繁华地带,可以得知会员的经济水平较高,任务定价的标准小于这些会员的期望,因此完成情况很差。而南山区是深圳市的高新技术产业基地、高等教育基地等,此处社会阶层复杂,存在对任务定价敏感的会员,因此南山区的任务执行情况良好。

四区的中心区域即佛山市的禅城区任务执行情况差,其他地方情况良好。禅城区是佛山市五个行政辖区之一,是有名的文化发源地和国家历史文化名城,是闻名的武术之乡、成药之乡、民间艺术之乡,因此此地经济发展程度高,任务定价对会员的影响不大。

3 模型评价与推广

问题中针对图1数据建立的模型是基于k-means算法得到离中心距離,任务标价二维矩阵,通过软件进行拟合获取模型。该模型将经纬度与任务标价囊括其中,对任务分布区域进行集中分区处理,并模糊边界,形成四个规整矩形区。这样的好处在于清晰地显示了各区的任务定价规律,直观简便。但是也存在一定问题,首先是K-means算法的弊端,它是一种应聚类算法,指定聚散中心个数,在事先不知道聚类的种类的前提下,会带来一定误差。其次,该算法需要不断地进行样本分类调整,运算时间长,不利于高效获取数据。线性拟合获取模型的同时,并没有进行定量的数据分析,验证模型的合理性。在应用方面缺乏实际证据证明模型的效性。

参考文献

[1] 肖慧,滕丽.基于GeoDA的广东省地级市经济发展水平空间差异研究[J].中国市场,2017(7):39-41,44.

[2] 翁艺丹,千庆兰,陈颖彪,韩富状.广州人口空间均衡特征与经济关联研究初探[J]. 广州大学学报(自然科学版),2015.14(6):84-91.

[3] 毛夏,徐蓉蓉,李新硕,王煜,李程,曾波,何宇华,刘锦泉.深圳市人口分布的细网格动态特征[J].地理学报,2010.65(4):443-453.

[4] 郝伟.佛山市总部经济发展的SWOT分析[J].佛山科学技术学院学报(社会科学版),2012.30(1):25-28.

[5] 冯振华.基于DBSCAN聚类算法的研究与应用[D].江南大学,2016.

猜你喜欢
数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势