基于多态信息挖掘的电影用户画像研究

2020-06-19 04:43胡亚娇刘思维谢志峰丁友东
现代电影技术 2020年6期
关键词:画像标签预测

胡亚娇 刘思维 谢志峰 丁友东

(上海大学上海电影学院,上海200072)

在大数据和社交媒体的背景下,现代电影互联网平台通过分析用户信息和用户行为下潜在的偏好,将平台信息对用户进行个性化推广。用户画像,即用户信息标签化,是基于一系列真实数据的目标用户模型。用户画像作为推荐系统的一个主要部分,通过挖掘用户个性特征和用户之间的个体差异,广泛地被使用在电商商品推荐、广告商广告投放等商业领域。在用户画像作用下,用户得到更好的体验,平台也可以吸引更多的流量。用户画像可以用 “贴标签”的方式将用户数据分析和加工,最终按照社会属性、生活习惯和消费行为的分类标注用户。本文主要研究基于电影用户多态数据的用户画像模型的构建。

现代大数据背景下,电影信息的规模爆发式增长。在电影产量、内容、题材极大丰富的现代,用户的需求对电影产量起到了刺激作用,对未来电影拍摄有极大的导向作用。用户需求是电影市场的重点内容,研究电影用户的需求是电影产业经久不衰的强有力推手。

电影用户画像是基于电影大数据的用户画像的构建。在电影系统中,根据用户观影史、评论集等信息可以构建出用户的电影爱好、观影习惯等可以体现用户观影特征的用户模型。电影用户画像的构建结合了用户画像建模、机器学习、自然语言处理、社会学等知识于一体,实现了电影用户的属性由部分到整体的挖掘。

1 相关技术

1.用户画像

近年来用户画像随数据的爆发式增长的研究越来越深入,用户画像的数据来源都是基于网络海量的用户大数据。21世纪初Xiong R 等进行了用户画像的初探,在论文[1]中提出一种基于用户历史数据的用户信息图形化表示方法,将用户汇集到一个可视化图表中以达到用户之间信息互通的目的。Huang K H 等在 [2]中对社交互动、体验和跨平台服务设计相关的三项不同的设计研究进行反思,提出在设计研究中识别直接用户和隐形用户的多种方法,此外,还讨论了用户画像的研究方法和属性。Zhang M 等人在论文 [3]中提出用户画像的一种基于移动内容的图像搜索的搜索模式。在社交媒体用户的研究方面,Wang L Y 等人在 [4]中通过在线调查的方式搜集用户个性数据,并以此为基础研究了用户个性类别与平台的用户社交等状态做了关联分析。

1.2 评论文本信息挖掘

用户画像融合了统计学、数据挖掘、社会学多方面的学科知识,在用户画像标签建模中用到许多人工智能的方法。影评主题和观点的提取已经被前人研究过,Liu X J等人在 [5]中,提出一种结合LDA 与Text Rank 的关键词抽取模型,并在中短型文本数据集Huth2003和长文档数据集DUC2001上进行实验,结果表明了该方法的有效性。Ma T F等人在论文[6]中,提出一种基于中心理论的方法来提取新闻评论语句的主语。首先使用NLP 工具LTP根据句法规格将句子划分为隐式语句和显示语句,再用候选主语和维基百科概念向量的方法分别提取两种句式的主语,最后用中心理论根据排序和上下文信息选出语句的主语。Huang S L 等人在[7]中提出通过分别归纳出一套电影评论POS模板和一套汽车评论POS模板,来提取评论语句中的意见短句并从意见短句中提取观点情感得分,并用短句中的词汇得分的总分作为情感分数。深度学习也可以被应用于情感分析,Tang J L 等人在 [8]中针对高频词汇过度关注的注意力机制进行改进,用掩盖高频词汇的多次迭代的方式进行训练,让词汇具有平等的关注度。

2 研究内容与方法

2.1 研究内容与流程

本文目的是用户画像在电影方面的构建,通过结构化数据和非结构化文本的分析,构建适用于电影用户的用户画像标签库,最终勾勒体现观影特性的完整电影用户画像,并进一步研究电影群体用户画像。

根据电影用户基本数据,可以将电影用户数据归类到基本属性、社交属性、观影偏好以及个性特征四个领域中,将每个领域的数据分别对应到电影用户四个领域的标签。用户画像的构建结合了用户画像建模、聚类分析、分类算法、自然语言处理、社会学等知识。

如图1,用户画像模型构建过程分为三步:第一步是数据采集,大数据是用户画像的基础,首先要收集海量用户在电影社交平台内主动记录或被动留下的静态数据和动态数据作为用户画像标签的初始数据;第二步是行为建模,这一步基于采集到的用户基础数据,通过数据挖掘的技术手段进行用户行为建模,首先根据采集得到的散乱的初始数据预测出能够得出的用户标签,然后将这些标签进行统筹和结构化,得到标签之间的层级关系,构建出电影用户画像标签体系;第三步是标签挖掘,这一步根据体系中的用户属性结构,由已知用户数据层层递进,并选择合适的数据挖掘方式,最终挖掘出标签体系中未知的的一系列用户标签。

多态信息的挖掘主要集中在结构化数据的标签挖掘和非结构化文本数据的挖掘。

2.2 研究方法

2.2.1 XGBoost分类算法

图1 用户画像构建流程框图

结构化数据挖掘常用机器学习分类算法,XGBoost是一种常用的处理监督学习中的分类和回归问题的机器学习模型。

假设有K 棵CART 树,则集成的预测结果为:

其中,f∈F,代表第K 棵树的集成结果。

则XGBoost的目标优化函数为:

其中l为损失Loss,第二项为树的复杂度。

目标优化函数的第一项为训练损失,第二项为树模型的复杂度,也是优化函数的正则化项。XGBoost包含的CART 树的确定包括两个部分:树的结构、叶子节点分数,如果树的结构确定,模型的正则化项也设为各个叶子节点值的平方和,就可以使用梯度下降或随机梯度下降来优化目标函数。

XGBoost目标函数的优化采用的是加法训练,这是一种启发式算法,运用加法训练,首先优化第一棵树,之后再优化第二棵树,直至优化完k棵树。

t棵树不断训练以后,再加以惩罚项避免过拟合就得到模型的预测值。

2.2.2 中文影评属性级情感分析

2.2.2.1 词向量

Word2Vec是一种神经网络词向量模型,它主要利用词汇在文本中的上下文关系,经过训练后输出词语的权重。Word2Vec主要机制是CBOW (通过附近词预测中心词)、Skip-gram (通过中心词预测附近的词)。

然而Word2Vec只考虑词汇在文中的局部信息,没有考虑到词汇与局部之外词汇的关系,这也是在中文长文本中需要避讳的问题。

Bert (Bidirectional Encoder Representations from Transformers)是一种深度学习双向语言模型。Bert 用Transformer 实现了双向模型的搭建。

Bert模型如图2所示,当输入词汇为Ei时,模型可以同时处理词Ei之前的词汇和之后的词两部分信息,即双向信息,得到模型的每一层输出。其中,在处理每一个词汇的双向信息时,Bert模型都使用了MASK 方法即随机遮掩一些词的方法进行训练。

图2 Bert模型示意图

Bert的核心部分是预训练,训练的两个任务是预测MASK 掉的词汇和预测句子的关联性。预训练之后的Bert词向量可以直接输出词汇的768维词向量。

基于Bert的优点,使用Bert词向量中文预训练模型,可以在长文中比较准确地预测中文词汇的词向量。

2.2.2.2 kNN 分类算法

k NN (k-Nearest Neighbor)分类算法是十分常用的一种数据挖掘分类算法,k NN 算法通过观测与预测数据距离最近的K 个训练数据的分类,来推测测试数据的分类。具体步骤为:(1)计算预测数据与各个训练数据的距离; (2)将距离递增排序;(3)选取距离最小的K 个点;(4)确定这K 个训练数据的所属分类;(5)选择K 个点出现最多的分类作为预测数据的分类结果。

3 电影用户画像体系构建

3.1 用户画像体系

用户画像的标签是描述用户数据特征的符号,标签体现用户某一种属性。它根据用户画像目标任务、数据特征分析制定并进行。

按照图1 中标签体系对标签进行定义和预测。标签的挖掘通过四种方式构成用户画像标签:

(1)用户采集原始数据经过处理直接当做用户标签。比如:图3中一级标签用户所属地区的划分,经过两条原始数据用户居住地和用户同城活动,正则匹配地址后填充空值以后,匹配省市库的归属地表,直接将用户归类为某一个城市为其常居地。进一步还可以将地址划分一线城市、二线城市等。

(2)用户原始数据经过统计学方法,得到用户标签。比如:图3中一级标签社交情况,可以根据用户在平台的被关注数和关注数经过分类获得。

(3)用户原始数据经过分类模型获得标签。比如:图3中一级标签观影频次的预测,由用户历史观影频次加时间轴经过XGBoost模型预测得到。

(4)用户评论文本原始数据使用NLP观点提取后加以统计分析得到标签。比如图3中用户观影偏好标签,经过文本的句法分析,获得评价的主语和观点,得到用户偏好数据。

标签体系中其他的上层多级标签也按照以上四种方式处理下层标签进行挖掘,最终得到用户画像的模型。

图3 用户画像标签体系

3.2 多态信息采集

用户画像中的用户数据搜集通常可以通过约谈、调查问卷、网络采集的方式获取社交媒体网站信息。访谈或约谈模式搜集信息最直接,但是消耗大量人力物力,对于大量用户不适用;调查问卷模式主要是通过调查页面的构建,然后利用互联网手段进行分享和传播,缺点是耗时大,信息无法保证真实;社交媒体的获取模式比较适合大批量用户信息的获取,用户信息真实性比较高,而且在一个社交媒体中,用户的性格趋于稳定性,所以基于社交媒体的用户信息采取要保证只使用一个社交媒体。

从互联网各大平台中,通过主动的方式采集电影平台用户信息,用户的信息收集包括基本属性、购买能力、行为特征、兴趣爱好、社交网络、心理特征六大模块。从六个方面分析需要的数据,然后针对性采集。

图4 数据采集流程框图

网络爬虫技术是目前科研项目中大数据的主要获取方法,网络爬虫的流程图如图4 所示。首先,使用request模块向URL列表地址服务器发出请求并获取服务器返回的HTML (超文本标记语言)文本,即前端文本;然后使用Pyquery 技术或者Xpath技术的固定语法格式可以解析HTML 文本,并按照HTML 中的标签结构或者属性等,快速有效地定位到需求语句,从中匹配内容或者属性等;最后按照表格的方式将采集的用户数据存储到MongoDB数据库中。

网络爬虫技术需要Multiprocess (多进程)的支持才可以高效地采集大量有用信息。多进程是使用多个CPU 来使多个任务并行处理的技术。多进程的子进程之间资源独立,子进程和父进程之间可以互相传递信息。

采集后的数据存储为4张表格:(1)根据用户主页链接对用户基本信息进行采集,包括用户常居地、网站注册时间、自我介绍、关注数、被关注数、关注人链接、同城活动,将基本信息存于MongoDB数据库的用户基本信息表中;(2)访问用户的影评页面,对用户影评信息进行采集,包括用户评分、影评时间、影评标题、影评内容、影评有用数、影评无用数、是否剧透,将影评信息存于MongoDB数据库的影评表中;(3)访问用户的观影信息页面,对用户观影标签进行采集,包括用户已看电影标签及数量、正在看电影标签及数量、想看电影标签及数量,用字典的形式存放于MongoDB 数据库的用户观影表中;(4)访问电影详情页面,对电影属性进行采集,包括电影标题、电影类型、拍摄地区、拍摄年代、电影时长、电影评分、主演,存放于MongoDB的电影信息表中。

3.3 多态信息挖掘

3.3.1 用户活跃度分析预测

图5 用户活跃状态预测

用户活跃状态预测的流程如图5所示。用户的影评时间由用户影评日期和用户影评时刻两部分组成。

(1)用户影评日期

提取用户影评的日期,使用XGBoost对用户的活跃度进行预测,对用户的影评量进行不同时间偏移的聚合,分别使用1 个月、2 个月、3 个月、1年、上年同月的评论数量和用户的关注数、被关注数的社交情况对用户未来7天的活跃情况进行预测,预测出未来一个月用户月影评量。

(2)用户影评时刻

提取用户影评的时刻,对用户影评数量按每小时进行聚合,得到用户活跃观影时刻标签,然后比较求得一天24小时中,用户最活跃的3个小时,作为用户活跃时刻标签。

3.3.2 用户观影偏好分析

用户影评的属性级情感分析是电影用户画像的重要预测,用户的影评长文本体现了用户对电影细粒度品质的关注点,比如角色、演技、背景、主题、类型等,通过用户情感得分的分析,可以直观地看出一部电影在大众审美中的具体的优点和缺点,在具体到每一个用户的个性化推荐中,在电影的细粒度品质选择中,择优而推。

传统的属性级情感分析多使用形容词、副词、名词、动词等词语得分相加的方法获得句子评分。现阶段属性级别的情感分析多使用深度学习的方法进行分类预测,可是大多适合英文文本或者中文短文本等特征较为明显、易于提取属性词及情感词的文本处理。

中文长文本具有一语多义、网络术语解读性差等特点,中文影评长文本还具有个性化色彩浓厚、句式复杂等特点,用传统方法和深度学习方法去分析,都不一定能达到预期的效果。

属性级情感分析分为属性词提取和情感分析两个步骤。第一步是从用户影评文本中提取多个电影相关属性词;第二步是预测句子中每一个属性词对应的情感得分。

本文中用户观影偏好分析采用Bert词向量结合关键词提取技术和机器学习分类算法对用户影评长文本进行分析,如图6所示。

图6 用户观影偏好分析

3.3.3 用户所属地区分析

用户所属地区分为省、市、县等级,等级越低越难以统计用户情况,无法体现观影人群的地区分布。从中国省市县三级分布表中依次匹配用户的所属地区,得到用户所在的省级行政区。

具体步骤如图7所示。

图7 用户所属地区分析

4 实验结果

实验中,使用网络爬虫技术从电影社交平台共采集了17486位用户的相关数据,采集到的这些用户的中文影评长文本一共329697条。数据采集从平台中22种电影类别中的每个电影分类下抽取等量的用户,使用户的个性化具有全面性,而且,在分析用户数据时,用户的特征具有代表性,从而可以清晰地看出整个电影市场用户的特征分布。

4.1 用户活跃状态预测结果

实验结果表明可以预测到未来一个月内用户月影评量,实验结果如表1所示:

表1 用户活跃度预测结果

图8为用户最活跃时刻图,宏观上看,即对用户群体来说,在即将午夜时电影用户的活跃人次最多。微观上看,即对用户个体来说,每个用户最活跃的时刻都有所不同,在用户最有可能观看电影的时间段进行广告投放,个性化推荐,可以达到最佳效果。

图8 用户最活跃时刻分布图

4.2 用户地区分析

用户地区分析如图9所示。可以选择在一线城市如北京、上海,或者沿海地区发展较快的省市内电影市场多投入电影的制作和发行,因为这部分区域电影受众人群多,日常生活中比较偏爱电影。

图9 用户地区分析

4.3 用户观影偏好分析

在用户的情感得分预测中,为设置文本设置(1,2,3,4,5)五种情感得分。

图10是LR 逻辑回归测试数据的预测结果。误差设置在0.5之内时,测试数据的预测结果的准确率为0.76。

图10 LR 预测情感得分结果图

图11是k NN 分类测试数据的预测结果。准确率为0.45。

图11 k NN 预测情感得分结果图

模型在一定程度上准确地体现了用户的情感等级,通过用户情感得分的分析,可以直观地看出一部电影在大众审美中的具体的优点和缺点。在个性化推荐中,在电影的细粒度品质选择中,择优而推。

5 结论

本文针对现存的不够完善的电影用户画像提出了一种电影用户画像构建方法。首先构建了电影用户画像标签体系,然后基于本文的多态原始用户数据从多个角度分析,挖掘了多种电影用户标签,尤其是在中文影评文本的属性级情感分析方面使用Bert模型和分类预测对比获得了较为精准的电影用户细粒度情感预测,分析出用户对于电影属性的情感打分,还用XGBoost预测了用户未来的活跃趋势。这在电影市场用户行为和偏好方面的研究取得前所未有的进展。

猜你喜欢
画像标签预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
画像
画像
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签
莫尼卡的画像
画像背后藏着活人
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!