基于机器学习的电影评分预测研究

2021-11-08 14:13李香君肖小玲
电脑知识与技术 2021年27期
关键词:支持向量机

李香君 肖小玲

摘要:本文依据电影是人们日常生活中重要的娱乐方式之一,用户在选择观看一部电影前,通常会想通过已观看过用户对电影的评分或是评论来了解这部电影的是否值得观看的需求。评分预测(rating prediction)在个性化推荐研究领域中可以被理解为:被用来作为预测用户对那些尚没有评价过的电影的评分的研究问题。本文工作首先对电影数据集进行数据预处理,随后重点研究了支持向量机(SVM)回归预测对电影评分进行预测,实验结果MAE的值表明支持向量机(SVM)回归预测在电影评分预测中取得较好的预测。

关键词:支持向量机;MAE;回归预测

中图分类号:TP311文献标识码:A

文章编号:1009-3044(2021)27-0109-03

Abstract: In this paper, the film is one of the important ways of entertainment in people's daily life. Before people choose to watch a film, they usually want to know the quality of a film through film rating or comments. In the field of personalized recommendation research, rating prediction can be understood as a research problem that is used to predict users' ratings of movies that have not been evaluated. This paper first preprocesses the movie data set, and then focuses on the support vector machine (SVM) regression prediction to predict the movie score. The experimental results show that the MAE value of support vector machine (SVM) regression prediction achieves better prediction in the movie score prediction.

Key words: Support vector machine; MAE;Regression prediction

1引言

現如今随着影音、书籍等垂直网站的快速发展,已经购买或观看过的用户对产品或服务的评分评价,已经逐渐发展成了一种重要的信息载体的趋势,据有关视频网站上的数据表明,借助社交媒体平台表达自己观点和想法的用户数量有呈指数增长的趋势,并且越来越多的用户会在观看电影前都会先关注电影的评分以及其他用户对此电影的评价,以此来作为是否观看电影的有力依据。通过对电影评分的直观查阅,这是一种可以帮助用户在是否观看此电影的决策过程中提供其他用户意见的一种快速有效的方式。

由于电影的评分预测相对来说难度较大,缺乏一套成熟并科学的预测方法。在为了实现对电影评分的准确预测需求上,本文在进行了相关电影推荐学习中评分预测研究的基础上,结合影响用户评分的特征实际情况与基于机器学习算法进行建模预测-基于支持向量机(SVM)回归预测模型,主要目的是构建预测效果较好的分类模型来预测用户对电影的评分。

2相关技术

本文基于机器学习算法进行建模预测-基于支持向量机(SVM)回归预测模型。首先我们对SVR模型进行初始化,将训练组数据输入到带有贝叶斯调参的10折交叉验证程序中进行训练,再将得到的最优超调参数带入到处理过的预测组数据输入进行预测,计算其MAE值。

2.1余弦相似度

余弦相似度,实现过程如下:先计算两个向量夹角的余弦值,然后用计算的夹角余弦值对这两个向量的相似度进行评估。在数据挖掘的研究中,余弦相似度通常会被作为集群内部凝聚力的一种度量。

应用在文本中,首先需要将两段文本进行分词的操作,再依据这两个文本中的词建立两个向量,然后计算这两个向量的夹角余弦值,通过余弦值得到这两个文本在统计学方法中的相似度情况。依据余弦值范围来判断相似度:若求取的范围落在[-1,1]之间:余弦值如果越趋近于1,则是代表这两个向量的方向呈现越吻合,表现为越相似;余弦值如果越趋近于-1,这两个向量的方向就呈现越相反;若接近于0,则表示这两个向量近乎于正交。

2.2 SVR

SVR支持向量回归,这是一种“宽容的回归模型”,宽容的支持向量回归(SVR)模型[1]的模型函数是一个线性函数:y=ωx+b。

SVR支持向量回归,算法的实现是通过在线性函数的两侧制造一个“间隔带”,是否将样本计入损失函数与样本与间隔带的关系有关,若样本是落入间隔带中间将不会被计入损失函数;若样本落入间隔带之外则会被计入损失函数。最优化模型问题,是通过最小化间隔带的宽度和总损失解决的。在落在隔离带边缘之外的,或者是落在隔离带边缘上的,才会被计入最后的损失中。

3支持向量回归的电影评分预测实验

3.1数据源

本文采用movies、ratings、tags等数据集。由于数据集过大,本论文中只选取前10000条进行研究。调用pandas库读取三个数据文件并保存为CSV文件。采用用随机分配的方式对测试集和训练集进行划分,确定训练集与测试集的比例为7:3。通过pandas中read_table函数读取数据文件,并为其关键字命名。其中数据文件包括ratings.dat、tags.dat、movies.dat。

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究