邬 彤,于莲芝
(上海理工大学 光电信息与计算机工程学院,上海 200093)
随着互联网进入Web2.0时代,信息逐渐从匮乏变得过载。推荐系统[1]能够在海量的信息中找到满足用户个性化需求的信息。在推荐系统中,信息需要经过召回和排序等几个阶段,而点击率(Click Through Rate,CTR)预估就是对信息进行排序的前提。
目前,CTR预估模型在个性化推荐、信息检索、在线广告等多个领域都有广泛应用。该模型通过对用户点击项目的概率进行预估、排序,从而最大化整个推荐系统的点击数。用户的点击行为涉及很多特征,但是这些特征数据非常稀疏。原始特征相互作用会产生隐性的交叉特征,这对点击率预估非常重要。这种交叉特征可以通过人工提取或者机器学习自动捕获。考虑到人工提取特征耗时耗力,且不能提取到训练数据中看不见的一些交叉特征,因此让机器自动学习捕获交叉特征具有一定的意义。
在机器学习和数据挖掘中,支持向量机(Support Vector Machines,SVM)是最常见的预估模型之一。但是对于CTR预估而言,在数据高维且稀疏的情况下,SVM不能在核空间学习到超平面,无法发挥其重要作用,故而需要考虑稀疏数据及交叉特征,建立有效的机器学习模型。本文提出了一种新的基于深度学习的可用于CTR预估的模型。
在推荐系统中,CTR预估起着重要作用。除了本文提到的逻辑回归(Logistic Regression,LR)模型、因子分解机相关模型外,CTR预估还提出了基于树的模型[3],可帮助构造特征转换[5]。CTR预估还提出了关于在线学习的模型[7],可帮助处理大规模稀疏数据场景的问题。
与传统推荐模型相比,基于深度学习的推荐模型能够帮助推荐系统更好地反映用户和物品之间的联系[9]。本文提到的Wide & Deep Network[10]模型、DeepFM(Deep Factorization Machine)[11]模型以及Atte-xDeepFM模型等均基于多层感知机MLP(Multi-Layer Perceptron)。推荐系统中的深度学习方法还包括基于自编码器的模型、基于卷积神经网络(Convolutional Neural Network,CNN)的模型、基于循环神经网络(Recurrent Neural Network,RNN)的模型、基于深度语义相似性的模型以及基于限制性玻尔兹曼机的模型[12-19]。
文献[20]于2010年提出了FM(Factorization Machines)模型。FM模型结合了SVM和因式分解模型的优点,在数据高维稀疏的情况下,通过嵌入向量的内积来实现特征之间的交互。在实践中,由于FM高阶特征交互的复杂度较高,因此FM通常只对二阶特征训练。在FM的基础上,文献[21]提出了FFM(Field-aware Factorization Machines)模型,增加了field的概念,将相同性质的特征都归属到同一个field。FM和FFM都是针对低阶的特征组合,而Higher-order factorization machines模型[22]采用线性方式拟合高阶特征,可以对任意阶特征进行训练。文献[23]提出的AFM(Attentional Factorization Machines)模型,将注意力机制的思想加入到FM中,通过区分不同特征的重要性来改进FM。这些模型用于处理高维稀疏的二进制特征可取得较好的效果,但是其对处理高阶特征的提升效果仍较为有限。FNN(Factorisation Machine supported Neural Network)模型[24]和PNN(Product-Based Neural Networks)模型[25]都是用FM去除特征稀疏性,再分别用神经网络结构捕捉高阶交叉特征,能够高效地处理高阶特征。但它们的缺点也是过多地关注高阶特征。文献[10]提出的Wide & Deep模型能够同时实现模型的记忆能力和泛化能力。DeepFM[11]、DCN(Deep& Cross Network)[26]等模型则基于Wide&Deep模型的思想。DeepFM模型[11]结合了因子分解机FM和深度神经网络DNN的特征学习的能力,能够同时学习低阶和高阶的特征交叉。DCN模型[26]将Cross模型(Cross Network)和Deep模型(Deep Neural Network)联合训练。Cross Network引入新的交叉网络,将FM参数共享的思想从一层扩展到多层,能够有效捕捉有界度的特征交互。NFM(Neural Factorization Machines)模型[27]将FM的二阶交叉特征通过Bi-Interaction Layer(Bi-linear Interaction)结构处理后输入到DNN中,使交叉特征能够更好地被DNN学习。对比Wide & Deep、DeepFM和DCN模型,NFM模型结构简单、参数少且学习训练速度快。在2018年,文献[28]提出了xDeepFM(eXtreme Deep Factorization Machine)模型。该模型基于FM的vertor-wise思想,提出了新的CIN(Compressed Interaction Network)网络结构,并基于DCN的思想,用CIN替换掉DCN中的交叉网络,提高了特征交互的能力。
本文提出的Atte-xDeepFM模型基于极端深度分解机(xDeepFM)模型,其目的是以更有效的方式捕捉低阶特征,并以区分重要性的方式有效捕捉更多的交叉特征。该模型将xDeepFM模型的LR部分改为FM,在不改变模型复杂度的同时提高了模型捕捉低阶特征的能力。另外,考虑到xDeepFM中CIN特征交互的复杂性以及CIN的池化操作将丢失大量的空间信息,模型对CIN的输入层进行了Dropout,在CIN的池化层加上注意力网络,通过区分不同特征交互的重要性来进一步改进CIN。
Atte-xDeepFM模型的整体结构如图1所示,模型输入的特征包括连续型和离散型。首先对特征进行one-hot编码向量化;然后将离散型特征one-hot后的高维稀疏特征乘以embedding矩阵,得到稠密特征;再将得到的稠密特征和类别型特征进行拼接,共同作为FM层、Atte-CIN层、DNN层的输入。这种特征共享输入的方式能够使模型同时学习低阶和高阶交叉特征,并提高模型泛化能力。
如图1所示,CIN部分和注意力网络是串行结构。该部分将CIN的最后一层的结果作为注意力网络的输入,经过注意力网络得到串行结构的结果。本文将这部分串型结构称为Atte-CIN。FM部分、Atte-CIN部分和DNN部分是并行结构。本文中,将各部分分别计算结果后,在输出层进行融合。
图1 Atte-xDeepFM模型的整体结构Figure 1. The overall structure of the Atte-xDeepFM model
本章节将对FM模型、Atte-CIN模型、DNN模型基础算法的推导过程以及各个模型和所提出的Atte-xDeepFM模型关系进行描述。
在Atte-xDeepFM模型中,将xDeepFM模型的LR线性模型替换为FM因式分解机,在线性模型的基础上,还能自动构造二阶特征叉乘[20]。相比LR模型,FM除了考虑到单个变量对输出的作用,还考虑到变量之间的相互作用。FM的模型方程为
(1)
(2)
从计算式可以看出,FM模型通过LR线性模型和交叉特征的组合来判断特征向量之间和目标变量之间的关系,且FM模型表达能力明显强于LR模型。FM模型的复杂度是O(kn),与LR模型相同。综上所述,本文选择FM模型代替LR模型作为线性模型来捕获低阶特征。
CIN的目的是以一种显示、可控且高效的方式自动构造有限高阶交叉特征[28]。在Atte-xDeepFM模型中,对xDeepFM模型的CIN的池化层进行了改进。CIN的模型为
(3)
图2 压缩交互网络的整体架构对比图(a)CIN整体架构 (b)Atte-CIN整体架构Figure 2. Comparison of the overall architecture of the compressed interaction network(a)The overall architecture of CIN (b)The overall architecture of Atte-CIN
由图2可知,图2(a)中原本的CIN对所有的特征映射进行了池化操作,再将池化向量进行一个拼接。池化前,CIN的第k层输出表示为一组向量,如式(3)所示。图2(b)中,改进后的Atte-CIN通过对交互特征进行加权求和,将注意力机制应用于特征交互。Atte-CIN模型为
(4)
(5)
(6)
式中,W∈Rt×k,b∈Rt,h∈Rt是模型参数;t是注意因子,即注意力机制中隐藏层的大小;激活函数为ReLU。
在Atte-CIN层,模型学习了显示的特征交互。而在DNN层,模型将学习到隐式特征交互。式(7)为DNN模型
(7)
综上所述,各部分模型输出分别是式(1)、式(4)和式(7)。Atte-xDeepFM模型的总式为
(8)
对于二元分类,模型的损失函数为
优化目标最小化目标函数为
J=L+λ*‖θ‖
(10)
式中,L为模型损失函数,如式(9)所示;λ*‖θ‖部分为防止过拟合的L2正则化函数。
实验基于Tensorflow深度学习框架。模型的学习率为0.000 4,正则化系数为0.000 002,嵌入层维数为固定值16。采用Adam优化算法,设置训练轮数为5,批次大小为4 096。默认状态下,所有DNN的网络深度为3,神经元个数分别为512、256、128。CIN的网络深度为2,每一层大小分别是128和128。初始化模型参数,通过调整各个超参数得到模型最佳得分。
Avazu数据集和Criteo数据集均来源于Kaggle针对点击率预估展开的赛题。这两个数据集在推荐系统中广泛使用。Avazu数据集是移动广告DSP公司Avazu在2014年发布的。该数据集包含了10天的Avazu的广告点击数据,总数据量达到了4 000多万条。Criteo数据集是Criteo Labs在2017年发布的,包含了连续7天的Criteo广告展示数据,有数百万的广告功能值和广告点击数据。
实验数据集的具体信息如表1所示。对于表1中数据集,随机选择70%数据作为训练集,其余30%数据作为测试集。
表1 实验数据集具体信息Table 1. Specific information of experimental data sets
实验选择AUC(Area under curve)和LogLoss作为模型的评价指标。其中AUC是评估二分类模型性能的常见指标。在CTR预估中,通常用AUC来衡量模型的排序能力。AUC值越大,表明模型区分正负例的能力越强。Logloss是评估模型预测准确性的常见指标,其值越小,表明模型的推荐结果越准确。
本文将AFM[23]、NFM[27]、DeepFM[11]、CIN、xDeepFM[28]方法与Atte-CIN、Atte-xDeepFM模型进行了对比实验。考虑到Atte-xDeepFM模型和CTR预估、深度学习密切相关,故选择推荐系统CTR领域常用的算法模型来说明Atte-xDeepFM模型在稀疏数据集上的性能。
各模型方法在Criteo和Avazu数据集上的实验结果及得到整体性能的AUC、Logloss对比结果如表2所示。
表2 各模型的整体性能对比Table 2. Overall performance comparison of each model
由表2可知,Atte-xDeepFM模型在这两个数据集的AUC和Logloss5指标均优于其他模型,且Atte-CIN模型优于CIN模型。比较各模型可知,AFM模型和NFM模型比单个CIN模型效果都要好,说明CIN特征交互的能力没有传统模型好。但是DeepFM模型和xDeepFM模型的性能都优于其他传统模型,说明CIN模型和DNN模型配合能够学习到更优的特征交互。Atte-xDeepFM模型一方面添加了FM模型,另一方面在改进的CIN模型的基础上配合DNN模型。通过对比实验可知,在特征输入相同的情况下,Atte-xDeepFM模型的AUC值和Logloss值高于其他模型。具体可以看到,在Avazu数据集上,本文模型的AUC值比xDeepFM模型提升了0.506%;在Criteo数据集上,本文模型的AUC值比xDeepFM模型提升了2.27%。因此在本文的数据场景中,Atte-xDeepFM模型的性能对比其他模型有所提升。
本文提出了一种新的基于深度学习的CTR预估模型,简称为Atte-xDeepFM模型。该模型能够解决特征稀疏问题,有效学习特征之间的交互关系,不需要手动提取特征工程中的有用信息。在xDeepFM模型的基础上,该模型通过添加FM模型捕捉低阶特征;通过改进CIN模型,更有效地学习高阶特征交互。本文改进的Atte-CIN模型采用Dropout思想降低CIN复杂度,用注意力网络使CIN能够更有效地学习高阶特征交互。本文在Avazu数据集、Criteo数据集上分别进行了对比实验,结果表明,相比其他CTR预估模型,Atte- xDeepFM模型可以达到更好的推荐效果。
本文的研究仍存在不足之处,具体为:(1)本文只是用Dropout降低了CIN的复杂度,而Atte-CIN结构的池化层使用注意力网络,导致复杂度仍然较高;(2)Atte-xDeepFM模型的各子模型是并行结构,只在输出层进行简单融合。在下一步的工作中,将进一步优化模型的整体结构。