融合辅助文本信息的项目冷启动推荐研究

2018-06-13 07:52吴婷
现代计算机 2018年13期
关键词:冷启动卷积神经网络

吴婷

(重庆大学计算机学院,重庆 400044)

0 引言

随着信息的存储和传输技术的进一步发展,各式各样的多媒体资源服务平台应运而生。这类服务平台凭借其内容多样性及便捷性吸引了大量的互联网用户,但是频繁更新的海量内容往往使用户很难迅速准确地定位到目标内容,因此,能主动对无关内容进行筛选的推荐系统具有重要的实用性。传统的推荐系统可以通过用户、项目的历史记录来学习到用户、项目潜在属性特征。但是对于刚进入市场的新项目,因为没有或缺乏足够的历史记录信息,传统的推荐系统就会遭遇经典的项目冷启动问题。为了完善项目冷启动推荐,挖掘新项目的属性特征并实现个性化推荐具有重要的现实意义。

项目冷启动问题根据相关项目历史记录是否完全为0划分为完全冷启动问题(Complete Cold Start,CCS)和非完全冷启动问题(Incomplete Cold Start,ICS)[1]。冷启动问题一直是推荐系统研究领域的重要分支。对于非完全冷启动问题,何明等[2]融合进类别信息及用户兴趣度来缓解稀疏并进行推荐。张玉芳等[3]选用了分步填充方法来对原矩阵进行填充。潘涛涛等[4]在协同过滤的基础上,进一步融入物品的可预测性,并进行矩阵填充。对于完全冷启动,因为可供利用的信息过少,传统的方法大都是基于专家系统,即当商品进入市场时,通过专家系统或者手工标注为新商品添加标签,但是这种方法往往会耗费大量的人力物力。Wei等[5]提出一种融合协同过滤和深度学习的项目冷启动推荐方法,他们选用了SDAE来提取辅助文件中的特征。然而SDAE是基于词袋模型,忽略了文本中的上下文信息。

矩阵分解[6]是推荐系统中的经典算法,除了具有高准确性之外,该模型的易扩展性使其可以便捷地与其他信息进行融合。现领域具有重要突破研究的模型timeSVD++[7]、HFT[8]、TopicMF[9]等都是基于该模型。为了应对当前项目冷启动领域的局限,本文选用卷积神经网络来对项目的文本信息进行挖掘,并将其成功地融入到矩阵分解模型中。

1 矩阵分解与文本特征提取

1.1 矩阵分解

在现实生活中,每个用户有自己独特的兴趣偏好因子,每一个项目有自己的属性因子。用户对一个项目的评价往往就是看用户兴趣偏好因子与项目属性因子的匹配程度。矩阵分解方法便是基于这一事实。

矩阵分解模型的基础是潜在因子模型,它将用户和项目的信息映射到一个维度为k的潜在因子向量中,用户和项目的交互被建模为这两个向量的内积。与用户潜在因子高相似的项目会被推荐给用户。假设现在有N个用户、M个项目及一个用户-项目的历史评分记录矩阵R∈RN×M,则用户u对项目i的预估评分可通过如下公式计算:

其中,pu∈Rk,qi∈Rk分别表示用户和项目的潜在因子向量。给定一个训练集T,可以通过以下目标函数来对用户、项目的潜在因子向量进行学习:

其中,λ是控制正则化尺度的参数,通常通过交叉验证决定。这个最小化函数通过可以通过梯度下降方法或交替最小二乘法来执行。

这种最简单的矩阵分解模型能够很好地捕捉用户与项目间的交互,但是评分信息很多时候还与用户与项目各自偏移值有关。例如,有的用户本身倾向于比其他用户给出更高的评分,而有些项目倾向于比其他项目得到更高的评分,这种偏移值对进一步对评分进行建模是至关重要的。故Koren等[6]对评分进行进一步建模:

其中,μ为全局平均分,bi是项目自身评分相对于平均分的偏移,bu是用户自身评分相对于平均分的偏移。该模型可以通过如下目标函数学习:

该模型充分考虑了影响评分的各个因素,是推荐系统中的经典方法之一。除了优秀的准确性之外,该模型具有良好的可拓展性,故本文将其选作模型的基本模型。

1.2 文本特征提取

对于项目冷启动研究,比较有研究意义的方向便是对项目的辅助信息进行挖掘。对于多媒体资源,随着项目上线,一般都会有项目的相关简介文本,故本文重点研究将这类文本中蕴含的项目属性特征与矩阵分解融合起来。

本文选用卷积神经网络来对文本进行信息提取。卷积神经网络是一种深度前馈神经网络,专门用来处理具有类似网络结构的神经网络。它凭借能够产生局部特征的卷积层和简洁表示数据的池化层区别于传统的神经网络。

本文选用Kim等[10]提出的卷积神经网络来对项目描述文本进行特征提取。该模型结构主要包括四层:嵌入层、卷积层、池化层和输出层。模型结构如图1所示。其中,嵌入层是通过词向量嵌入将每个项目的文本表示为一个密集矩阵作为输入。特别地,一个项目的文本由它所有相关的描述文本自然连接而成,记:

Di=x1:n=x1⊕x2⊕…⊕xn

其中,⊕表示自然连接。x1:n表示从词x1到词xn的级联。

卷积层是选用共享权重来从词窗口上生成特征。例如,从h个词的窗口从词xi:i+h-1上生成的上下文特征为:

c=f(w*xi:i+h-1+b)

其中,w为共享权重,b为偏差,f为非线性函数ReLu。一个共享权重只能对一种类型的上下文信息进行捕捉,故在模型中选用了多个共享权重,定义,有第j个共享权重生成的特征为cj为:

随后,利用最大池化操作捕获每个特征映射中最重要的特征。通过池化操作,不同长度的文档都被转化为固定长度的特征向量,这样便可以设计输出层了。输出层将池化层的特征按照特定目标任务进行转换。于本文,目标任务便是从对应项目中提取能充分表示项目的特征,我们选用常规的非线性投影来得到输出:

其中,为投影矩阵,f为投影中间维度,为偏置向量,θ为得到的文本特征向量。为了将该向量与项目向量连接在一起,我们取θ的维度为k。

该模型一方面利用了卷积神经网络,相较于传统的词袋模型,能够更好地捕捉文本中的上下文信息。另一方面,预先嵌入的词向量是可以随着神经网络的训练而不断优化的,故文本特征提取的性能更高。

图1 卷积神经网络

2 冷启动推荐模型

2.1 完全冷启动项目推荐:TECCS

对于完全冷启动的项目,它们完全没有相关的历史记录,所以矩阵分解无法对项目特征进行学习,无法对该类商品实现准确推荐。本文在建立模型的时候,考虑到矩阵分解优秀的评分预测能力,将其作为参考模型,为了能对完全冷启动项目进行推荐,将模型的预测评分修正如下:

其中,θi为使用卷积神经网络提取到的文本特征,整个函数的变量只与用户相关,所以该模型适用于对完全冷启动的项目推荐中,模型图见图2。

模型的目标函数定义为:

2.2 非完全冷启动项目推荐:TEICS

本文在构建非完全冷启动项目推荐系统的时候,除了对显式的用户-项目历史交互记录进行挖掘之外,进一步融入项目描述文本中的信息,将其作为项目潜在因子特征的补充,模型结构如下:

图3 非完全冷启动项目推荐模型

在完整矩阵分解的基础上,本文将待优化目标函数定义为:

其中,项目属性qi一方面受评分矩阵的约束,一方面受提取的文本特征约束。

对该目标函数的优化应该分两步,对用户、项目的相关向量的优化可以通过梯度下降法。但是卷积神经网络的结构权重参数等无法通过梯度下降得到,不过当将用户潜在因子向量视为固定的时候,卷积神经网络应该满足如下目标函数:

故而,可以根据目标函数,以反向传播的方法对卷积网络中的权重进行优化。

3 实验设计

3.1 数据集

本文选用了一个开源的数据集Movielens。Movielens是一个非商业化的个性化电影推荐网站,它包括用户对电影的历史评分信息及电影的名称上映时间等。本文使用OMDB API根据电影的名称、上映名称等从IMDB网站上爬取电影的内容简介文本。为了配置两种不同的冷启动环境,我们仿照Wei等的工作,选出最晚接收到评分的500部电影的所有记录作为完全冷启动项目的测试集。对于非完全冷启动,将这500部电影的各自前10个评分记录加入训练集。最终我们使用的数据集统计信息如下:

表1 Movielens数据集信息

表2 训练集、测试集分割

3.2 预处理

预处理主要是对电影情节文本的处理,我们参照Kim等人的工作,对文本做如下预处理:

(1)取文档的最大长度为300;

(2)根据停用词列表去除停用词;

(3)为剩下的词计算每个词的TF-IDF值;

(4)根据计算得到的TF-IDF值,去除文档相关的停用词,即文档出现频率高于0.5的词;

(5)在剩下的词中选择8000个出现最频繁的词;

(6)使用Glove模型进行词的向量化表示,使得初始向量之间尽可能多地蕴含语义和语法信息。

3.3 评价标准

本文通过评分预测性能来评价模型,我们选用通用的评价方法RMSE(Root Mean Square Error,平方根误差),其具体定义如下:

其中,N是测试集中测试项的总数,是测试项的预测评分,rui是测试项的真实评分。

3.4 对比实验

本文选定分别为两个模型选择两种对比方法,来比较我们提出的推荐系统的性能:

完全冷启动:UA(User Average):使用用户之前的所有评分的平均值作为对未知项目的预测评分;ToU[5]:将文本相似度作为项目相似度,利用相似度公式来计算未知项目的预测评分。

非完全冷启动:UA(User Average):使用用户之前的所有评分的平均值作为对未知项目的预测评分;LMF[6]:只考虑用户与项目交互的潜在因子模型;MF[6]:完整的矩阵分解模型。

3.5 实验结果

(1)TECCS推荐性能

从结果可分析:UA方法是直接利用用户所有的历史评分的平均值作为预测评分,从实验结果看,该方法的预测准确性最差。对于ToU和TECCS方法,本文先选择一个使用初始权重赋值的卷积神经网络来提取文本特征,从结果可以看出,ToU方法只简单使用了用户历史评分过的项目与待评分项目的文本特征,准确性并没有显著提高。TECCS将文本特征融合进矩阵分解模型中,通过训练学习到用户关于电影情节文本的偏好兴趣,利用这个偏好兴趣与位置项目文本特征的耦合度做出推荐,故TECCS模型相较于对比方法取得了更好的结果。

图4 完全冷启动项目推荐性能比较

(2)TEICS推荐性能

由实验结果分析,TEICS综合考虑了评分矩阵中的蕴含的信息,并且进一步使用卷积神经网络来提取文本中的信息,并将其作为项目属性特征的补充,最后取得了最好的效果。MF模型综合考虑了用户和项目的交互,并且同时考虑了用户、项目的偏移值信息,最后取得了第二好的效果。LMF因为只考虑用户项目交互信息,最后取得了第三好的效果。UA仅仅使用用户历史评分的平均分作为预测评分,效果最差。

图5 非完全冷启动项目推荐性能比较

4 结语

本文提出了两个针对不同冷启动环境的项目推荐框架:首先考虑到矩阵分解模型的高准确性和易拓展性,两个模型都以基本的矩阵分解模型为基础。其次,在矩阵分解模型的基础上,利用卷积神经网络从项目文本中提取文本特征,并将其融入到两个推荐模型中,作为项目属性特征的约束。实验结果证明,本文提出的模型较对比实验取得了更好的效果。未来计划进一步将时间因素、项目相关性因素融入到框架中。

[1]Zhang,D.,Hsu,C.H.,Chen,M.,Chen,Q.,Xiong,N.,&Lloret,J.Cold-start Recommendation Using Bi-clustering and Fusion for Large-Scale Social Recommender Systems.IEEE Transactions on Emerging Topics in Computing,2014,2(2):239-250.

[2]何明,肖润,刘伟世,等.融合类别信息和用户兴趣度的协同过滤推荐算法[J].计算机科学,2017,44(8):230-235.

[3]张玉芳,代金龙,熊忠阳.分步填充缓解数据稀疏性的协同过滤算法[J].计算机应用研究,2013,30(9):2602-2605.

[4]潘涛涛,文峰,刘勤让.基于矩阵填充和物品可预测性的协同过滤算法.自动化学报,2017,43(9):1597-1606.

[5]Wei J,He J,Chen K,et al.Collaborative Filtering and Deep Learning Based Recommendation System For Cold Start Items[J].Expert Systems with Applications,2016,69:29-39.

[6]Koren Y,Bell R,Volinsky C.Matrix Factorization Techniques for Recommender Systems[J].Computer,2009,42(8):30-37.

[7]Koren,Yehuda.Collaborative filtering with temporal dynamics[J].Proc Kdd,2009,53(4):447-456.

[8]Mcauley J,Leskovec J.Hidden Factors and Hidden Topics:Understanding Rating Dimensions with Review Text[C].ACM Conference on Recommender Systems.ACM,2013:165-172.

[9]Bao Y,Fang H,Zhang J.TopicMF:Simultaneously Exploiting Ratings and Reviews for Recommendation[C].Twenty-Eighth AAAI Conference on Artificial Intelligence.AAAI Press,2014:2-8.

[10]Donghyun Kim,Chanyoung Park,Jinoh Oh,Sungyoung Lee,Hwanjo Yu.2016.Convolutional Matrix Factorization for Document Context-Aware Recommendation.In Proceedings of the 10th ACM Conference on Recommender Systems(RecSys'16).ACM,New York,NY,USA,233-240.DOI:https://doi.org/10.1145/2959100.2959165.

猜你喜欢
冷启动卷积神经网络
轻型汽油车实际行驶排放试验中冷启动排放的评估
基于递归模糊神经网络的风电平滑控制策略
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
基于PEMS试验的重型柴油车冷启动 排放特征研究
基于学习兴趣的冷启动推荐模型
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析