王会娟
摘 要: 实时竞价中,准确预测展示机会的中标价能有效指导代表广告主利益的需求方平台制定竞价决策和分配广告预算,从而优化广告活动绩效。目前的主流方法是在全部样本上训练单一预测模型,忽略了不同样本之间的差异。论文提出了基于展示机会细分的中标价预测方法。根据展示机会对应的用户、媒体、广告特征,该方法首先通过聚类将展示机会的历史竞价记录细分成多个子集,针对每个子集,分别训练预测模型并进行合理组合,从而提升其预测性能。基于真实的实时竞价数据进行仿真实验,与主流方法进行对比分析,验证了该方法的有效性。
关键词: 中标价预测;展示机会细分;实时竞价
中图分类号:F 713.8
文献标志码: A
Abstract: In real-time bidding, predicting the winning price of an impression opportunity accurately can effectively guide the Demand-side Platform , which represents the advertisers benefits, to make the bidding decision and allocate advertising budget, so as to optimize the performance of advertising campaigns. The mainstream methods are to train a single prediction model on all data samples, ignoring the differences between different samples. A winning price prediction method based on impression opportunity segmentation is proposed. According to the user features, publisher features and advertising features of impression opportunities, the method divides the historical bidding records of impression opportunities into several subsets by clustering. The prediction models are trained respectively for each subset, and combined reasonably to improve the prediction performance. Simulation experiments on real-time bidding datasets and a comparative analysis with mainstream methods have verified the effectiveness of the proposed method.
Key words: winning price prediction; impression opportunity segmentation; real-time bidding
实时竞价中的关键参与方包括广告主(Advertiser)、媒体(Publisher)、用户(User)、需求方平台(Demand-Side Platform, DSP)、供应方平台(Sell-Side Platform, SSP)、广告交易平台(Ad Exchange, Adx)以及数据管理平台(Data management platform, DMP)等。SSP帮助媒体(广告展示机会的拥有者,例如各种网站)出售广告展示机会,DSP代表广告主参与实时竞价购买展示机会用于广告投放。当网络用户访问网页时,网页上的广告位要展示的内容还未确定,SSP将此次展示机会及相关特征通过Adx发送给DSP,并发起竞价请求;DSP根据展示机会的相关特征评估其对广告主的价值并决定是否参与竞价,如果参与,则将出价和广告创意发送给Adx;Adx采用二价拍卖机制决定获胜方,通知获胜方支付费用,并将获胜方的广告投放到广告位上;最终,用户看到展示广告。
实时竞价中投放展示广告按照展示付费,因此赢得展示机会来投放广告需要付出成本,付出的成本就是赢得此次展示机会的中标价。广告活动有预算约束,中标价作为赢得广告展示机会的成本,是DSP代表广告主制定竞价决策时的重要影响因素。此外,中标价也能反映展示机会的市场价值以及市场竞争的激烈程度。因此,准确预测展示机会的中标价,能有效指导DSP制定竞价策略和分配广告预算。展示机会的中标价是归并数据(censored data),现有研究大多是对数学模型进行改进,再使用全部训练样本训练单一的预测模型。考虑到不同展示机会的价值差异,本文将具有相似特征的展示机会聚类,進行细粒度建模,并将子模型的预测结果合理组合,提升了预测效果。
1 文献综述
实时竞价中展示机会的中标价预测通常是从DSP的角度,使用展示机会的历史竞价记录训练模型,预测新的展示机会的中标价或中标价分布。Ghosh等(2009)为了在给定预算下赢得一定数量的展示机会,假设每次展示机会的中标价是独立同分布的,采用探索和利用的思路,先学习中标价分布,再根据得到的经验分布进行出价。Li等(2014)认为为了以最低的成本获取最匹配的广告展示机会,需求方平台必须准确估计中标率和中标价。他们首先用逻辑回归模型对中标率进行建模,然后将中标率模型的导数作为中标价的分布,并计算中标价分布的期望值作为中标价的估计。以上研究是从数学模型的角度出发,没有深入考虑展示机会的中标价与具体特征之间的关系。Wu等(2015)最早根据每次展示机会的数据特征直接预测其中标价。他们考虑到中标价是归并数据,预测出每次参与竞价的获胜概率作为权重,将线性回归模型和经典归并回归模型(Tobit模型)结合起来,实现了比线性回归模型更好的预测效果。Tobit模型是基于正态假设的,Zhu等(2017)通过对中标价分布的观察,使用伽马分布代替正态分布,对归并回归模型进行改进。随着深度学习的发展,Wu等(2018)提出一个通用的框架。在该框架下,可以假设中标价服从各种不同的分布进行建模,并采用深度学习方法求解参数。以上研究考虑到了数据特征对展示机会中标价的影响,但基于数据特征在全部样本上建立单一中标价预测模型,使用单个权重衡量某个特征对所有样本的影响有些片面。
实时竞价过程中会产生海量数据,在全部样本数据上训练单个模型是粗粒度的建模,大量样本共享同一个建模结果,难以保证预测效果。细粒度的建模通常能提升预测效果。Cui等(2011)研究了广告活动中标价的分布。他们首先根据每个广告活动的定向特征取值的不同组合,对展示机会的历史记录进行分类,在子数据集上实现细粒度的中标价分布估计,最后利用混合对数正态分布对细粒度的估计情况进行聚合,得到广告活动的中标价分布。Lee等(2012)根据用户、媒体和广告等三方面不同层次的特征组合将数据分组,构建弱估计器,并使用逻辑回归模型将弱估计器组合起来预测展示广告的转化率。潘书敏等(2017)根据用户特征将广告点击记录通过聚类划分为多个子数据集,在每个子集上训练逻辑回归模型,将子模型的预测结果进行组合,提高了广告点击率预测效果。这种先通过分类或聚类将数据细分,再进行细粒度建模和预测的思路在其他领域也被广泛应用。董毅等(2010)提出了基于支持向量机的先分类、再回归的预测方法,在粮食产量预测中实现了很好的预测效果。夏利等(2014)提出了基于k均值聚类和支持向量机的先聚类再回归的预测方法,并应用于机场噪声预测,提升了预测精度。
在前人研究的基础上,本文从DSP的角度进行中标价预测研究。在实时竞价中,展示机会的中标价不仅受用户特征影响,还受到媒体和广告等方面特征的影响。本文以特征对展示机会中标价的影响为着眼点,根据用户、媒体和广告等方面的特征,使用聚类算法对展示机会进行细分,再在子数据集上进行细粒度的回归模型训练,最后将子模型的预测结果组合起来,提升了预测效果。
2 展示机会的中标价
归并数据是指对于每一次观测,都能观测到解释变量X的取值,但由于某些经济机制或自然机制,有时能观测到被解释变量Y的取值,有时无法观测Y的取值,只知道Y大于某个数或者小于某个数。由于数据的特殊性,常见的机器学习算法不适用于归并数据,通常使用Tobit模型对归并数据进行回归和预测。
实时竞价采用二价拍卖机制,参与竞价的DSP若想赢得某次展示机会,需要预测竞争对手们的最高出价。对DSP而言,它的中标价(winning price)就是竞价过程中竞争对手们的最高出价。对DSP而言,若在某次竞价中获胜,则赢得此次广告展示机会,并支付中标价给媒体;若某次竞价失败,只能知道中标价大于等于自己的出价。因此,从DSP的角度看,展示机会的中标价是归并数据。例如,在针对某次展示机会的竞价中,共有A、B、C三家DSP参与。A、B、C的出价分别是50、100和150,那么A和B的中标价都是150,因为它们的竞争对手的最高出价是150。对C来说,中标价是100,因为它的竞争对手的最高出价是100。最终,C赢得展示机会,支付100给媒体;而A和B竞价失败,无法获知竞争对手的最高出价,因此也不知道此次竞价中自己的中标价。
2.1 真实中标价
本文借鉴Wu等(2015)对展示机会中标价的设定,在此进行简要说明。假设在某次展示机会竞价中,共有J家DSP参与,记作D1,… ,DJ。不失一般性地,本文站在D1的立场展开研究。表1是研究中涉及的变量及说明。
3 基于展示机会细分的中标价预测
3.1 模型构建思想
中标价预测是从DSP的角度,使用展示机会的历史竞价记录训练模型,预测新展示机会的中标价。每次展示机会都有用户、媒体、广告等方面的多个特征,展示机会的中标价与这些特征密切相关。用户多、活跃度大的知名媒体广告价值高,用户少的媒体广告价值低;消费能力强、兴趣广泛的用户更可能点击或购买,因此有更高的广告价值。媒体和用户的广告价值越高,对应的展示机会的中标价也就越高。此外,展示机会对应的广告位在媒体页面上的位置越好,越容易引起用户关注,中标价也就越高。在全部历史竞价记录上,训练单个预测模型是粗粒度的建模方法,忽略了不同用户、不同媒体、不同广告间的价值差异,大量样本共享同一个建模结果,模型的预测精度比较低。因此,应该根据特征相似性将历史记录细分成不同子集,实现细粒度的建模。
基于上述分析,本文的模型设计思路如图1所示。对于历史竞价记录,提取用户、媒体、广告等方面的特征,通过聚类进行展示机会细分,每个子数据集内部的展示机会相似性较大,不同子数据集中的展示机会差异性较大。在聚类得到的各子数据集上,分别训练Tobit模型作为子预测模型。新的广告展示机会到來时,使用各子模型预测其中标价,并计算新展示机会被划分到各子数据集的概率作为权重,加权平均得到最终的预测结果。
由于展示机会的历史竞价记录数据量大,包含的数据特征多,本文采用高斯混合模型刻画历史竞价记录的分布。使用高斯混合模型,将展示机会的历史竞价记录根据用户、媒体、广告等方面的特征划分为k个子数据集,在每个子集上,训练一个Tobit模型作为子预测模型。对于新到来的展示机会,提取特征放入k个子预测模型中,得到k个中标价预测值。为了得到中标价预测的最终结果,需要将k个中标价预测值进行合理组合。通过聚类,同一个子数据集内部的展示机会相似度较大,不同子数据集中展示机会的差异较大。通过高斯混合模型聚类得到的k个子数据集各自对应一个混合成分,根据公式(9),可以计算新的展示机会由每个混合成分采样生成的后验概率,本文用这个后验概率表示新的展示机会与每个子数据集中展示机会的相似度。在线性模型中,展示机会间的特征相似度越大,中标价越接近,因此不同子模型的预测结果在最终结果中所占比重取决于新展示机会与每个子数据集中展示机会的相似度。基于该假设,本文用计算的后验概率作为权重,对k个中标价预测值进行加权平均,作为最终的预测结果。
4 实验结果与分析
4.1 实验数据及数据特征处理
4.1.1 实验数据介绍
由于商业隐私,广告实时竞价方面的公开数据集很少。2013年,知名DSP厂商iPinYou发布了一批真实的实时竞价数据,包含三个不同时期的展示机会历史竞价记录、展示记录、用户点击记录和转化记录。每一条数据记录有用户、媒体、广告等方面的多个特征。这是实时竞价领域内较为权威的公开数据集,很多学者使用该数据集进行了相关研究。
iPinYou发布的竞价数据中,第二时期数据(2013年6月6日至6月12日)包含的数据特征最为完整,因此本文实验采用第二时期的数据。iPinYou是一家DSP,其竞价数据集中的中标价是归并数据,竞价失败的数据记录观测不到真实中标价,只能观测到真实中标价的下界,即自己的出价。然而为了评估模型预测效果,本文需要用到测试数据集中每一条竞价记录的真实中标价。因此参考过往研究(Wu等,2015;Zhu等,2017),本文基于历史竞价记录中所有的获胜记录,通过模拟出价生成一批数据记录用于仿真实验,具体过程如下:
(1)选取所有获胜的历史竞价记录,记作数据集W。
(2)将数据集W中每一条记录的出价乘以缩放因子0.5,得到新的出价。
(3)将数据集W中每一条记录新的出价与中标价对比,若新的出价大于中标价,标记为获胜记录,否则标记为失败记录。对每一条记录进行处理,得到用来训练模型和评估预测效果的仿真数据集。
4.1.2 数据特征处理
实验使用的数据特征见表2,Hour表示该次竞价发生于一天中哪个小时;Operationsystem是指用户访问媒体网站时使用的操作系统;Adslotwidth和Adslotheight表示广告位的宽度和高度,各自取特定的几个整数值,因此本文将这两个特征看作离散型特征;UserTags是用户标签集合,每个标签对应一个用户特征,例如标签“10063”代表“个人关注娱乐”,本文进行实验前将UserTags字段划分开,得到43个用户特征;其余数据特征的含义详见Liao等(2014)。
由于模型的训练需要数值型数据作为输入,因此需要将离散型特征转化为数值型数据。对于除Domain之外的离散型特征,本文采用独热编码进行处理。独热编码是机器学习中常用的离散型特征处理方式,它能将有N种取值的离散型特征转化为N维二进制特征。由于Domain这一离散型特征的可能取值过多,采用独热编码处理会导致数据维度过高,给预测模型的训练带来困难,因此本文采用业界常用的频数编码方式对Domain字段进行处理。对Hour这一连续型特征,本文采用最大最小归一化进行处理。
4.2 实验设计与评估指标
为了评估本文方法的有效性,本文选取了中标价预测的两种主流方法进行对照实验,分别是Tobit模型以及Wu等(2015)提出的混合归并回归模型。实验数据中包含5个广告活动,分别属于不同行业,因此本文对每个广告活动分别进行模型训练和评估。在线广告竞价相关研究中(Gummadi等,2011;Chen等,2011;Zhang等,2014),普遍假设每次展示机会的特征向量都是从同一个分布中独立生成的。因此,针对每个广告活动的仿真数据集,本文随机抽取2/3作为训练集,使用剩余的1/3作为测试集。实验使用均方误差MSE作为预测效果的评估指标,均方误差是预测值和真实值对应误差的平方和的均值。
本文所提出的基于展示机会细分的中标价预测方法在模型训练阶段确定聚类个数时,针对每个广告活动的训练数据集,以2到12作为聚类个数进行聚类,计算对应的贝叶斯信息准则BIC作为聚类效果的评价指标进行比较,选定每个广告活动的聚类个数。
4.3 实验结果与分析
4.3.1 中標价随特征变化规律
本文以实验数据中的广告活动3386为例,说明中标价随不同特征的变化规律。图2展示了每个小时内展示机会中标价的平均值,7:00—23:00展示机会中标价的平均值明显高于1:00—6:00。图3展示了中标价平均值随用户特征的变化规律。对于同一个用户特征而言,是否具有该特征会影响相应展示机会的中标价;对于不同用户特征而言,具有不同用户特征的展示机会的中标价平均值也不同。此外,当展示机会处于页面第一屏(即头版头条)时,中标价的平均值为108.01,远高于处于页面其他位置时的中标价平均值75.79。以上结果表明展示机会的中标价受到特征取值的密切影响,因此根据特征对展示机会进行相似性划分,在相似样本集上进行训练和预测,将有助于提高中标价预测的准确率。
4.3.2 不同方法的预测结果分析
表3展示了每个广告活动对照实验上三种方法预测的均方误差以及本文方法相比于两种对比方法的误差降低百分比。其中,本文方法是指本文提出的基于展示机会细分的中标价预测方法,Mixed是指Wu等(2015)提出的混合归并回归模型。混合归并回归模型组合了线性回归模型和Tobit模型的预测结果,其中训练线性回归模型只使用获胜的历史竞价记录,训练Tobit模型使用全部历史竞价记录。
从表3可知,在五个广告活动的对照实验上,本文方法都实现了最小的预测误差。对每一组对照实验上本文方法和两种对比方法的预测结果进行配对样本t检验,P值都为0,说明预测误差的降低在统计学意义上是显著的。混合归并回归模型的预测误差最大,这是由于本文实验使用的仿真数据集中竞价失败记录占有一定比例,并且失败记录的中标价往往显著高于获胜记录的中标价。本文方法在每组对照实验上的预测效果都优于单一Tobit模型,这表明先对展示机会通过聚类进行细分,再在相似样本集上训练模型进行预测,能够有效提升预测效果。
5 结语
实时竞价是互联网展示广告主流的交易方式。从DSP的角度,预测展示机会的中标价作为每次参与竞价的成本参考,对于设计更高效的竞价策略、实现更好的广告活动绩效具有重要意义。本文考虑到特征的不同取值对展示机会中标价的影响,基于特征相似度将展示机会的历史竞价记录聚类细分成多个子集,以Tobit模型为子模型,实现细粒度建模和预测,以此提升展示机会中标价的预测精度。实验结果表明,本文方法相比于单一Tobit模型和混合归并回归模型实现了更好的预测效果。
参考文献:
[1] GHOSH A, RUBINSTEIN B I P, VASSILVITSKII S, et al. Adaptive bidding for display advertising[C]// International Conference on World Wide Web. ACM, 2009: 251-260.
[2] LI X, GUAN D. Programmatic buying bidding strategies with win rate and winning price estimation in real time mobile advertising[C]// Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer International Publishing, 2014: 447-460.
[3] WU C H, YEH M Y, CHEN M S. Predicting winning price in real time bidding with censored data[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015: 1305-1314.
[4] ZHU W Y, SHIH W Y, LEE Y H, et al. A gamma-based regression for winning price estimation in real-time bidding advertising[C]// 2017 IEEE International Conference on Big Data (Big Data). IEEE, 2017: 1610-1619.
[5] WU W, YEH M Y, CHEN M S. Deep censored learning of the winning price in the real time bidding [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 2526-2535.
[6] CUI Y, ZHANG R, LI W, et al. Bid landscape forecasting in online ad exchange marketplace[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2011: 265-273.
[7] LEE K C, ORTEN B, DASDAN A, et al. Estimating conversion rate in display advertising from past performance data[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Ming. ACM, 2012: 768-776.
[8] 潘书敏, 颜娜, 谢瑾奎. 基于用户相似度和特征分化的廣告点击率预测研究[J]. 计算机科学, 2017, 44(2): 283-289.
[9] 董毅, 程伟, 张燕平,等. 基于SVM的先分类再回归方法及其在产量预测中的应用[J]. 计算机应用, 2010, 30(9): 2310-2313.
[10] 夏利, 王建东, 张霞,等. 聚类再回归方法在机场噪声时间序列预测中的应用[J]. 数据采集与处理, 2014, 29(1): 152-156.
[11] 陈强. 高级计量经济学及Stata应用[M]. 2版. 北京: 高等教育出版社, 2014: 239.
[12] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 206-211.
[13] LIAO H, PENG L, LIU Z, et al. IPinYou global RTB bidding algorithm competition dataset[J]. ACM, 2014.
[14] GUMMADI R, KEY P B, PROUTIERE A. Optimal bidding strategies in dynamic auctions with budget constraints[J]. IEEE, 2011: 588.
[15] CHEN Y, BERKHIN P, ANDERSON B, et al. Real-time bidding algorithms for performance-based display ad allocation[C]// Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Ming. ACM, 2011: 1307.
[16] ZHANG W, YUAN S, WANG J. Optimal real-time bidding for display advertising[C]// In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2014: 1077-1086.