周亲 吴运辰 吴俊坤
摘 要:本文使用某电商公司提供的广告点击日志流,构建基于用户画像的互联网广告点击率预测xDeepFM模型。研究发现:xDeepFM模型对预估准确率提升明显;用户画像系统可以很好的解决深度模型对高维稀疏特征的学习问题,有效提高预估准确率。
关键词:互联网广告;用户画像;xDeepFM模型;点击率预测
中图分类号:TP274 文献标识码:A DOI:10.3969/j.issn.1003-6970.2021.02.052
本文著录格式:周亲,吴运辰,吴俊坤.基于用户画像的互联网广告点击率预测模型研究[J].软件,2021,42(02):171-174
Research on Prediction Model of Internet Advertising Click through Rate Based on User Portrait
ZHOU Qin, WU Yunchen, WU Junkun
(School of economics, Nanjing University of Posts and telecommunications, Nanjing Jiangsu 210023)
【Absrtact】:This paper uses the click log stream provided by an e-commerce company to build the xDeepFM model of Internet advertising click rate prediction based on user portrait. The results show that: xDeepFM model can significantly improve the prediction accuracy; user portrait system can solve the problem of learning high-dimensional sparse features from depth model, and effectively improve the prediction accuracy.
【Key words】:internet advertising;user portrait;xDeepFM model;click through rate prediction
0引言
21世纪以来,随着智能手机与互联网技术的逐渐成熟,互联网广告成为日常生活中最常见的广告形式。同时,互联网广告以其精准度高、互动性强以及营销成本相对较低等显著特性,成为互联网公司最为稳定的一种营收模式。
广告点击率是衡量互联网广告投放效果的重要指标。互联网公司想要用户愿意点击弹跳出来的广告,就要投放符合其“胃口”的广告。因此需要使用更精确科学的模型对广告点击率进行预估,准确的估算广告被前端用户点击的可能性,帮助广告供应方在有限的预算下获得更多的点击机会,从而带来更大的收益。在此背景下本文使用某电商公司提供的广告点击日志流,构建基于用户画像的互联网广告点击率预测xDeepFM模型,进行深入研究。
1研究现状
1.1关于用户画像的研究现状
目前普遍接受的用户画像(Persona)的定义是由交互设计之父Alan Cooper提出的,他认为用户画像是真实用户的虚拟代表,是根据一系列用户的真实数据而挖掘出的目标用户模型[1]。
用户画像被应用于各个行业。在营销方面,王冬羽[2]将用户画像系统的分为用户静态信息画像和用户动态信息画像,设计了用户画像系统,有效提高了用户流量、增加了新用户数;在图书馆应用方面,都蓝[3]通过精确的构建用户画像,帮助图书馆更加直观地了解到读者阅读倾向,便于馆员开展精准化阅读推广服务。
1.2关于广告点击率的研究现状
点击率(CTR)是指某一内容被点击次数与被展示次数的比,一般用于描述内容被用户点击的概率[4]。目前CTR预估研究方向主要分为两个类别,即模型选择层面和特征提取层面。从模型选择层面来说:吴文伟[5]基于分布式逻辑回归模型进行分析,最終使广告点击率系统的训练速度得以明显提升;Rendl等[6]提出一种能够自动进行特征组合的模型——因子分解机。从特征提取层面来说:华盛顿大学教授Domingos[7]曾说,使用什么特征是很多机器学习项目成败的关键因素。周永[8]基于真实广告点击数据发现,基于GBDT特征优化技术的LR模型能有效提高传统LR模型的预测准确率;宋益多[9]通过LDA模型输出用户査询的主题词向量,最后基于深度神经网络的预测模型进行分析。
2数据说明及预处理
2.1数据说明
本文所述的广告点击率预估方法来源于实验室合作项目,数据来源自某电商公司提供的广告点击日志流,可以基于该组数据来衡量网站上广告的吸引程度。本文数据具体时间范围2020年3月1日至2020年3月8日共计八天。为保证用户的相关隐私,所有数据均做脱敏处理。本文选取了日志流中的三个数据集进行后续广告点击率预测模型拟合,如表1所示。
首先,在该电商网站上随机抽样114万用户近8天(2020.3.1-2020.3.8)内的点击日志,并选取合适的维度,共计2600万记录,构成样本骨架数据集,数据集内的字段说明如表2。
其次在该电商网站上提取样本骨架数据表中包含的广告基本信息,数据集内的字段说明如表3。
再提取样本骨架数据表中114万用户的基本信息,构成用户信息表,字段信息如表4。
2.2数据预处理
通过对数据随机抽取查看发现,可能由于电商平台数据存储的失败、存储器破坏或者历史局限问题,数据中存在缺失值和异常值。为进一步分析数据并保证数据的完整性和可靠性,使用多重插补方法对数据预处理。
3 xDeepFM模型求解
3.1特征编码
数据集通过数据预处理后依旧是比较脏乱,因为数据中存在各种非数字特殊符号,比如中文等,而实际上机器学习模型需要的数据是数字型的,只有数字类型才能进行计算。因此,对于各种特殊的特征值,需要通过one-hot编码对其进行量化。
3.2 xDeepFM模型参数优化
xDeepFM要学习的参数主要包括线性FM部分的系数、Embedding层的系数、CIN中各层的系数和DNN中各层的系数,通过反向传播算法即可求解各个系数。但是传统的求解使用梯度下降进行参数权重更新,每一轮迭代都需要使用全部的数据来计算平均损失函数,对于本文大数据集的情况,计算效率较差,考虑相关优化方法进行求解,随机梯度下降使用单个数据点的损失来代替整个数据记得平均损失,可以很好地解决梯度下降带来的计算问题,但是容易带来模型不收敛问题,同时使用单个数据点的损失来衡量平均损失也存在一定的误差;小批量梯度下降使用一批数据来计算平均损失,代替整个数据集的平均损失,是计算速度和计算准确性之间的折中方法,因此,本文使用小批量梯度下降进行参数求解。
最终模型的预测结果还与模型各预设参数相关,如学习率、batch_size、batch_norm、layer_size、layer_shape等,不同参数的调优过程是一个NP问题,一般使用网格搜索来进行最优化,根据各参数的不同设定,可以求得模型的AUC值,最终选取拟合效果最好的参数组合来构建模型如表5。
3.3预测结果检验与分析
使用网格搜索求得的超参数组合进行模型训练,损失函数变化图像如图1所示。可以看出,在训练的初始阶段,损失函数跳跃严重,无法收敛,而在经过7000多轮迭代后,损失函数趋于平缓,最终稳定在一个固定的值附近,代表模型收敛。
训练完毕,使用tensorboard对网络结构进行可视化导出,可以看到最终的网络构架如图2所示。这表明使用训练好的xDeepFM模型,在测试集上进行预测,通过ROC曲线计算AUC值以及召回率来衡量模型的拟合优度,最终计算得到AUC为0.8532,召回率为0.9217,模型拟合较好,针对广告点击率预测具有实质性作用。
3.4模型优化:用户画像系统
已经构建的xDeepFM模型能够很好的拟合互联网广告点击问题的特征,同时可以预测用户对于不同类型广告的喜好程度、点击概率,但是依然存在可优化点,例如原始特征中“User_id”这一字段为高维稀疏特征(两千七百万维),xDeepFM无法处理这一特征,如果直接对该特征进行热独编码处理、使用,经过DNN模块的特征交互,会使得最终学习的模型过于关注重复出现的User_id,弱化一般User_id的权重,在实际场景中,某个User_id反复出现并点击互联网广告,很可能是刷流量等作弊行为,因此将其视为无效特征,不予使用。但是,不使用用户唯一标识特征会带来新的问题,这就意味着放弃用户历史数据,也就是放弃xDeepFM模型对用户的记忆能力,这在实际生产环境中是难以取舍的问题,另一方面,不使用用户标识特征会带来严重的冷启动问题。
为解决上述问题,考虑使用历史数据构建用户画像系统,用户画像系统使用用户历史行为数据,如用户历史点击广告类型、用户IP位置、点击终端等特征,可以构建性别、年龄、兴趣标签,基于用户画像系统的结果,可以将每一个User_id映射到对应的用户类别中,最终作为新的特征添加到模型的输入变量中,用户画像系统的输出经过热独编码处理会变成低维变量,满足xDeepFM模型学习的基础,不会带来维度灾难、聚焦问题,同时可以充分使用已有数据,保留模型对用户行为的记忆能力。
用户画像系统可以作用于互联网广告点击的召回阶段,也可以作用于特征生成阶段,本文将用户画像应用于特征生成阶段,衍生出新的特征进行后续学习,使用用户画像系统后的ROC曲线如图3所示。根据模型训练、预估结果发现,在相同的训练集、测试集上,用户画像系统可以使模型性能得到进一步提升,主要体现在AUC和Recall上,其中AUC提高5-6个百分点,Recall提高1个百分点。因此,可以得出结论:用户画像系统能够优化xDeepFM模型,提高模型的拟合优度,从而提升广告点击预测的准确率。
4结论
通过对本文所选的互联网广告数据的建模分析发现:(1)相对于其他模型(如逻辑回归、神经网络等),xDeepFM模型有其特有的优势;(2)xDeepFM模型中的CIN架构可以学习数据集中的历史关系,其中的DNN架构可以自动化学习特征高阶(二阶及以上)交互关系,均对预估准确率提升明显;(3)基于海量用户数据所构成的用户画像系统,可以完美解決深度模型对高维稀疏特征的学习问题,有效缓解过拟合,提高模型的拟合优度,同时可以提供模型的记忆能力,缓解冷启动问题、提高预估准确率。
参考文献
[1] 徐芳,应洁茹.国内外用户画像研究综述[J].图书馆学研究,2020(12):7-16.
[2] 王冬羽.基于移动互联网行为分析的用户画像系统设计[D].成都:成都理工大学,2017.
[3] 都蓝.基于用户画像的高校图书馆年度阅读报告研究[J].图书馆杂志,2019,38(4):27-33+40.
[4] 刘冶,刘荻,王砚文,等.基于多源融合特征提取的在线广告预测模型[J].计算机工程,2019,45(1):178-185+191.
[5] 吴文伟.基于分布式逻辑回归模型的广告点击率预估系统[D].北京:北京交通大学,2018.
[6] Rendle S.Factorization Machines[C].Proceedings of the 2010 IEEE International Conference on Data Mining. Washington DC:IEEE Computer Society,2010:995-1000.
[7] Pedro Domingos.A few useful things to know about machine learning[J].Communications of the ACM,2012,
55(10):78-87.
[8] 周永.基于特征学习的广告点击率预估技术研究[D].哈尔滨:哈尔滨工程大学,2014.
[9] 宋益多.基于用户特征的搜索广告点击率预测研究[D].哈尔滨:哈尔滨工程大学,2016.