基于大数据及高斯过程的价格预测分析

2019-09-24 02:00田大伟陈其强
电脑知识与技术 2019年19期
关键词:回归分析大数据

田大伟 陈其强

摘要:近年来,随着机器学习及大数据技术的飞速发展,网络商品的价格预测分析也逐渐成为研究的热点。本文主要针对网络商品的价格预测问题,提出利用高斯过程对商品价格进行建模,根据商品的历史销售数据,提取影响价格的特征向量,结合高斯过程回归方法预测未来商品价格。将该方法用于实际的母婴产品销售数据并进行回归分析,实验结果表明,基于高斯过程的价格预测方法对于实际商品的价格预测具有一定的指导意义。

关键词:大数据;高斯过程;回归分析;价格预测

中图分类号:TP391     文献标识码:A

文章编号:1009-3044(2019)19-0024-03

Abstract: Recently, with the rapid development of machine learning and big data technology, the price prediction for the electronic business has been a focus gradually. With respect to the price prediction problem, we model the product price using Gaussian process, construct the features about the price according to the historical sale data, and estimate the future price by Gaussian process regression. Applying the proposed method to the real maternal and child products, the results show that, the price prediction method based on the Gaussian process makes sense for the real product price prediction to some extent.

Key words: big data; Gaussian process; regression analysis; price prediction

1研究背景

1.1價格预测研究背景

随着云计算等新兴技术的高速发展,大数据时代也正式到来,预测分析作为其核心在商业和社会中得到了广泛的应用[1]。在科技与全球化飞速发展背景下,传统的营销方式已发生变革,由消费者购买行为堆砌成的大量数据被作为原始数据,在计算机科学与统计学的基础,原始数据被整理、挖掘并得出一定规律,企业根据其规律做出未来的价格预测,并在此基础上做出准确的营销决策,这就是价格预测的本质[2]。因此,在这没有“秘密”的消费时代,现代企业要想让营销策略更精确,日常经营更有效,竞争优势更强劲,就必须首先进行价格预测,这是必不可少的一步,价格预测为企业未来发展奠定了最坚实的基石[3]。

1.2价格预测方法介绍

随着人们对价格数据复杂性的认识不断深入,数据处理技术不断发展,价格预测方法也随之得以迅速发展。经研究发现,依据研究对象的不同,预测方法系统可以分为两大类别,第一类是单一预测方法;第二类是组合预测方法体系。

1)单一预测方法

该类方法主要运用在石油、农产品等敏感商品价格研究,主要包括:(1)传统计量经济与统计分析方法,如多元回归分析、时间序列分析等。这些方法最大的优点是方法简便且更新发展很快。但该方法使用时由于难以对数据进行全面分析,直接使用时容易产生误差,影响预测的精度。(2)后期发展的现代预测方法,如灰色理论模型、马尔科夫链、小波分析以及人工神经网络模型等[4]。这些模型对数据复杂性特征的刻画能力较强,通常不需要对数据进行预处理即可直接用于价格预测。同时,它们也存在一定的问题,就是方法更为复杂。

2)组合预测方法

组合预测方式是在单一预测方法的基础上发展起来的,充分利用单一方法的优点,追求更高的预测精度。然而也有证据表明部分组合方法的预测精度要比一些单一预测方法要低,这就显示出恰当选择对组合方法体系构建具有突出重要性,但恰当选择的难度性较大,实际操作更为复杂。

本文以母婴商品为例,运用高斯过程对商品价格进行建模,结合高斯过程回归方法对未来价格进行预测。将该方法用于淘宝商品的价格预测,通过抓取母婴商品6个月的数据进行分析,实验结果表明,本文所提出的方法在母婴商品的价格预测上有一定的指导意义。

2高斯分布

高斯分布(Gaussian distribution)又称正态分布(Normal distribution),是一个在各数理领域中最广泛运用的一种分布,对统计学有着重要的影响作用。

在高斯分布中,考虑随机变量的均值随着变量数量的增加,当增加到足够大时,变量均值就越接近于高斯分布,因此二项分布在[N]趋近于无穷大时也就会变成高斯分布,从几何学角度来看,高斯分布中二次多项式的形式:

[Δ2=(x-μ)TΣ-1(x-μ)]

[Δ]为[μ]从到[x]的马哈拉诺比斯距离(Mahalanobis distance),当[Σ]是单位阵的时候可以规约为欧几里得距离(Euclidean distance)。若高斯分布中任意元素的均值为[0],那么只考虑协方差矩阵。

3方法研究

3.1  问题建模

1) 对价格进行追踪,对其历史数据进行抓取,在此基础上对影响其价格的数据进行分析,构建影响价格的特征向量为[x]:[x]包括市场平均价格、价格方差、最低价格、最高价格等。其向量表示为:[Φ(x)=[?1(x),?2(x),…,?n(x)]],这里假设[y]是商品价格,目标是构建[x]和[y]之间的映射函数,对未知数[x]估计其[y]值。

2) 在该问题中,为了对未来商品进行估计,前提是对影响价格的相关因素进行量化,假设在[t]时刻,价格因素向量为[xt],则目标是根据[xt]估计下一个时刻[t+1]的价格[yt+1]。因此,在该问题中,根据 [xt]去估计[yt+1],为了描述方便,将[t+1]时刻的价格标记为[yt]。

3) 该问题的难点是对价格特征的合理提取及量化,即[Φ(x)=[?1(x),?2(x),…,?n(x)]]。

3.2基于高斯过程的价格预测方法

1) 设数据集[S=x1,y1,x2,y2,......xn,yn],其中[xn]为多维的输入矢量[5],[Φ(x)=[?1(x),?2(x),…,?n(x)]] 为多维的输入矩阵,[yn]则为相应的输出变量,该模型主要任务就是用输入[x]与输出[y]之间的映射关系,预测出与新测试点[x*]对应的最有可能的输出值[y*]。

2)设高斯过程中任意元素的均值为[0],协方差为[k(x,x*)],且选取高斯核函数:[σ*Exp-x-x*2/2],其中[σ]是最大协方差[6]。

3)根据以上假设,则[y=N0,k],其中

[k=kx1x2…kxnx1???kx1x…kxnxn]

4)令所估计的对象为[y],其所对应的协方差向量为:

[K*=kx*x1,kx*x2,kx*x3……kx*xn][K**=Kkx*x(n)]

5)将[y]与[y*]写成联合分布的形式[7],则[y*y=Νk*k-1y,k**-k*k-1kT],其中[k*k-1y]为[y*]的估計均值,[k**-k*k-1kT]为[y*]方差。

4实验分析

为了验证算法的有效性,将本文所提出的方法用于淘宝母婴商品的价格预测。数据集来自于淘宝母婴商品的真实数据,实验中的商品的销售数据是从2015年1月1日到2015年的6月30日,并随机选取两类商品——意大利代购进口BONOMELLI蜂蜜橙子茶以及婴儿多功能收纳包。

实验过程中利用某一日期前七天的历史数据进行价格特征因素的提取,主要包括当前天的价格[cp]、当前天的销量[cs]、前七天的平均价格[avgp]、前七天的平均销量[avgs]、前七天的最高价格[maxp]以及前七天的最高销量[maxs]。假设当前为第[t]天,则历史信息的特征向量为[xt=[cp,cs,avgp,avgs,maxp,maxs]T]。拟利用前七天的历史数据所提取的特征向量对第二天商品的价格进行预测,则与[xt]所对应的实际输出为第二天的价格[yt+1]。

图1和图2分别是对两件商品的价格预测结果,其中横坐标是天数(因为需要选择前7天的数据进行特征提取,因此图中横坐标0表示是2015年1月7日,之后以此类推),纵坐标表示商品价格。图中离散的十字星——“+”表示的训练样本,实线表示的测试样本(其中前156个样本与训练样本一致,后20个样本为新测试样本),阴影面积表示95%的价格置信区间。从图1可以看出,方法对于蜂蜜橙子茶的价格预测还是比较理想的,无论是训练集还是测试集,商品的实际价格都是处于95%的置信区间的价格区间中,并且方法对于后20个新测试样本也具有较好的预测性能。而对于婴儿多功能收纳包的价格预测,从预测曲线上看,预测准确度要弱于对于蜂蜜橙子茶的价格预测,这主要是由于在婴儿多功能收纳包的销售数据中存在一定的具有较大价格变化的噪点数据(可能是由于商家的促销而导致价格及销量的变化),而方法对于其中价格波动较小的数据还是具有较好的预测性能。因此,基于两个商品价格的预测分析,本文所使用的基于高斯过程的商品价格预测方法对于实际商品价格的预测还是具有一定的指导意义。

5结论

本文主要针对商品数据的价格预测问题,提出利用高斯过程对商品的价格进行建模,并利用高斯过程回归对商品价格进行回归分析,对未来商品价格进行预测。在问题求解过程中,将过去七天的销售数据作为对未来价格预测的历史信息,并给予该历史信息进行特征提取,主要包括当前天的价格、当前天的销量、前七天的平均价格、前七天的平均销量、前七天的最高价格以及前七天的最高销量。

将基于高斯过程的价格预测方法用于实际的淘宝商品销售数据,实验结果表明,该方法对于实际商品的价格预测具有一定的指导意义。但是,本文所提出的特征提取方法相对比较简单,没有考虑相关类似商品的价格变化对于所预测商品价格的影响,且所利用的历史数据量较少,因此,下一步的工作考虑如何有效地对历史信息特征数据进行提取,提高价格预测的准确性。

参考文献:

[1] 诶里克·西格尔. 大数据预测[M]. 北京: 中信出版社,2014.

[2] Costonis M. Big Data[J]. Best's Review, 2012, 113(1): 36-115.

[3]  李国杰. 大数据研究的科学价值[J]. 中国计算机学会通讯, 2012, 8(9): 8-15.

[4] 范晓. 我国价格预测方法文献研究[J]. 财政与金融, 2014, 5: 105-109

[5] 何志昆, 刘光斌, 赵曦晶,等. 高斯过程回归方法综述[J]. 控制与决策, 2013, 8: 1121-1129.

[6] 朱齐丹, 李科, 张智,等.改进混合高斯自适应背景模型[J]. 哈尔滨工程大学学报, 2010, 31(10): 1348-1353.

[7] 傅启明, 刘全, 伏玉琛,等. 一种高斯过程的带参近似策略迭代算法[J]. 软件学报, 2013, 32(1): 66?72.

【通联编辑:梁书】

猜你喜欢
回归分析大数据
城乡居民医疗费用的相关性与回归分析
大数据环境下基于移动客户端的传统媒体转型思路