马宇洲 陆世翔 王喆
摘 要:电视节目是陪伴人们从小到大的娱乐项目,以前在电视机前收看节目,随着科技的进步,大家现在纷纷用智能手机或者平板在APP上收看想看的节目,方便易得。与此同时,大数据也慢慢兴起,如何根据人们搜索记录和观看记录等信息去自动为人们匹配可能感兴趣或愿意收看的节目,也逐渐成为热门研究之一。
本文中,我们利用python对附件一的数据进行异常值检测、去重等预处理。基于预处理的数据,初步对附件二中所给的数据与人们对各种类型的电视节目的感兴趣程度的相关性。
根据已知数据中用户所观看的节目名字,利用python爬取到节目所属的一级类别,贴上一级标签,然后对爬取的电视节目信息进行切词,提取关键词并计算关键词的信息熵,排序贴上二级、三级、四级标签。对附件一经标签处理后的节目以及观看时长进行量化,建立用户的偏好模型,对用户的偏好进行打分排序,然后根据协同过滤推荐模型把产品推荐给用户,并计算出每一个产品的推荐指数,选取TOP20 的推荐给用户。
关键词:TFIDF;K-means文本聚类;协同过滤推荐模型
一、挖掘目标
本次建模目标是利用产品信息描述和用户观看记录,对观众的观看偏好进行挑选整合,以便于更好的针对他们的收视偏好制定营销方案,对用户进行个性化推荐产品。我们首先对数据进行预先分析处理,挖掘数据变化的特征和规律,对用户偏好和产品之间的相似度建立模型,并检验模型的可靠性。然后用协同推荐过滤模型计算每一类的产品对相应用户的推荐指数,为用户量身定做符合偏好的个性化推荐。
(一)数据爬取
由于题中所给数据均是影视节目,仅给出节目名无法对用户的喜好进行判断,所以需要继续获取用户看过的节目的详细信息,本文利用python进行网络爬虫,将数据进行了补充,并且获取到了每个影视节目所属类别。对产品和用户贴标签。
获取网页后构建正则表达式,目标是对电影天堂进行搜索提取数据,并持续抓取数据。
(二)用户个性化词云标签
由于我们以家庭作为单位,所以用户的个性化词云标签是多维的。根据之前爬取用户观看节目的信息内容,对用户所有的观看节目的信息写入文档,对此进行切词特征提取,并计算词频。
然后可视化用户肖像,然后根据用户的肖像对用户进行贴标签:
以上是用户10853的用户个性化词云,从中抽取超时空男臣,蜡笔小新,寄生兽,少女魔幻,舌尖上的中国等类型的节目,给用户贴标签:剧情、搞笑、奇幻、文化、美少女。
由用户的标签可以推断这个家庭中有个小女孩喜欢看搞笑、奇幻、美少女类的节目,同时这个家庭里的大人也喜欢看搞笑、剧情类的节目以及还喜欢看舌尖上的中国、日本樱之味,文化美食类的节目。因此在个性化推荐过程中可以向10853这个用户推荐兔小贝故事、淘气爷孙、小猪佩奇、魔卡少女樱、桃花运等节目。
(三)中文切词,去停用词
在自然语言处理过程中,为了能够更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性。在这里我们利用python中的jieba库以精准模式对文档进行切词操作,筛选文档中的中文停用词并将其删去。
二、推荐模型
(一)算法流程
1.收集用户的观看偏好,对不同行为进行分组,然后对不同分组进行加权计算用户的总喜好。
2.计算相似用户(基于用户推荐),以及计算相似节目(基于节目推荐),关于相似度计算有很多种方法:余弦夹角相似度、欧几里德距离度量、皮尔逊相关系数等,本文我们采用欧几里德度量,表示相似度如下:
在计算用户相似度时,我们将一个用户对所有物品的偏好作为一个向量,而在计算节目相似度时,将用户对某个物品的偏好作为一个向量,在得到相似度以后,然后计算相似用户。
3.基于用户推荐兴趣最相近的K个用户所喜欢的物品,计算如下:
其中,p(u,i)表示用戶u对物品i的感兴趣程度,S(u,k)表示和用户u兴趣最接近的K个用户,N(i)表示对物品i有过行为的用户集合,Wuv表示用户u和用户v的兴趣相似度,Rvi表示用户v对物品i的兴趣(这里简化,所有Rvi都等于i)
然后利用矩阵计算推荐结果,得到物品之间的相似度,ItemCF通过如下公式计算用户u对物品j的兴趣:
基于节目的相似推荐最相近的K个节目,计算如下:
这里N(u)是用户最喜欢的集合,S(j,k)是和物品j最相似的K个物品的集合,Wji是物品j和i的相似度,Rui是用户u对物品i的兴趣。(对于隐反馈数据集,如果用户u对物品i有过行为,即可令Rui=1。)该公式的含义是,和用户历史上感兴趣的物品越相似的物品,越有可能在用户的推荐列表中获得比较高的排名。
为了减少热门节目的权重,给相应的节目加上惩罚因子,因此减轻了热门节目和较多节目相似的可能性。
4.混合推荐,在度量用户A和B相似度时,加上时间权重。在计算某用户对某种节目的偏好程度时,加上这个用户观看此节目的总时长权重。
(二)模型结果
根据网络爬虫将用户可得大致分类:
将产品可大致分类:
参考文献:
[1] 任 品.基于置信用户偏好模型的电视推荐系统[D].清华大学,2014
[2] 黄建宇、周爱武、肖 云、谭天诚等.基于特征空间的文本聚类[D].安徽大学,2017
[3] 华秀丽、朱巧明、李培峰等.语义分析与词频统计相结合的中文文本相似度量方法研究[D].苏州大学,2012