基于数据挖掘的书画类短视频个性化推荐方法设计

2022-05-25 13:21:42刘佳章健

常州工学院学报 2022年2期

刘佳，章健

(1.安徽师范大学新闻与传播学院，安徽芜湖 241000；2.安徽师范大学创意产业发展研究中心，安徽芜湖 241000；3.安徽云轩教育科技有限公司，安徽芜湖 241000)

0 引言

近年来，短视频平台作为新兴产业逐渐脱颖而出，与现有的视频平台相比，短视频平台越来越受到现代人的喜爱[1]。这主要是因为短视频平台更贴合用户的生活，在短视频平台中，用户既可以观看现有视频平台收录的长视频，也可以观看传统视频平台未收录的短视频[2]。同时，短视频也更贴近现代人瞬息万变的生活方式，其种类非常丰富，包括美食视频、美妆视频、搞笑视频、旅游视频等。

目前，个性化推荐是一个热门研究方向。随着互联网的飞速发展[3]，通过互联网观看视频已成为公众学习和娱乐不可或缺的手段。在大数据时代，海量数据是视频平台提供精准推荐的基础。

文献[4]中设计了融合视频内容与弹幕分析的短视频推荐方法，该方法在分析短视频弹幕文本的基础上，利用LDA模型划分弹幕文本的主题类别，然后利用深度学习方法分析短视频的内容特征，再根据用户最近的浏览记录产生相应的候选视频推荐列表。然而在实际应用中发现，该方法存在平均召回率偏低的问题，导致其推荐结果不理想。

用户画像在用户数据分类中具有重要意义，用户画像可以记录用户的日常行为变化、使用习惯和潜在兴趣。数据挖掘技术可以根据用户画像信息提取用户兴趣偏好等信息，做出精准的营销推荐[5]。使用用户画像的方法可以对用户播放视频的数据进行细化和统一，准确地描绘和勾勒出用户的画像，实现精准推荐，提升用户体验。书画类短视频一般具有时间长、内容丰富、背景简单的特点，其制作门槛低、发布渠道多样，这些特点扩大了其传播力度和传播范围。在传统文化越来越受欢迎的当下，书画类短视频对推广传统文化，促进创作更多导向鲜明、底蕴深厚的文化产品具有较强的作用。因此，针对传统的短视频推荐方法推荐精确度低、平均召回率得不到保证的弊端，本文基于数据挖掘和用户画像设计了新的书画类短视频的个性化推荐方法。

1 个性化推荐方法设计

1.1 构建短视频推荐框架

在构建短视频推荐框架时，需要将短视频分类视为二分类问题。在二分类问题中，如何构造分类所使用的特征是解决该类型问题的核心。传统的LDA主题特征分类法虽然可以捕捉一定的隐含语义信息，但是利用LDA模型得到的主题特征无法反映短视频的时效性和热搜性等特点。为此，本文在短视频推荐方法中引入外部指数特征，构建了基于融合外部指数特征的LDA主题模型，向用户推荐公众关注度比较高的短视频。短视频推荐框架结果如图1所示。

图1 短视频推荐框架

由图1可知，该框架主要包括短视频数据集分析、短视频特征提取、分类器构造和短视频推荐方法预处理。该框架的重点是分析和提取符合用户个性需求的数据，再根据数据特点，统一进行个性化推荐。因此，这种方法可有效地提高短片推荐的及时性，改善用户无法实时收到推荐信息的缺点。

在预处理书画类短视频数据集时，首先需要剔除不合要求的数据，即使用数据开放API及时将不符合推荐条件的视频信息剔除，并获取包含用户查询信息的各种数据。因此，特征提取分析是短视频框架最重要的特点，是基于现有的短视频主题特征构建的，具有整合外部特征和外部索引的功能。

在用户观看视频时，LDA主题模型通常会将视频分成不同的类型。短视频可以按类型进行区分，区分后需要给短视频打上标签，以体现不同用户的特征。这些标签可以是不同的类型，可以通过数据库对关键词进行排序，并将其数字化分成不同的类型。推荐系统也为短视频个性化推荐奠定了基础。

短视频平台的视频数量较多，需要通过短视频的主题来提取关键词，并划分词库，每个关键词对应相应的视频，关键词也代表了用户对短视频的偏好，除此之外，用户对短视频的喜爱度还可以通过用户观看的视频数量来考虑。记录用户的点赞数据，可以在满足用户需求的同时，增加用户的体验，激发用户观看短视频的兴趣，利用用户潜在兴趣爱好来实现精准推荐。因此，还需要构建书画类短视频用户画像。

1.2 构建书画类短视频用户画像

用户画像的构建核心是利用用户的基本属性信息、行为信息、潜在兴趣等信息进行归纳总结。然后通过获取、计算、读取，构建最终的用户模型。其中，用户定性画像主要以用户的各种基本信息特征、兴趣和行为特征为主。

在构建用户画像的过程中，需要对信息进行重新标注并赋予正确含义。用户标签是用户画像的核心，计算机可自动统计并将视频平台的用户重新分类，形成不同类型的标签。形成标签后，首先需要将标签中的信息与用户的行为进行关联。其次，预测用户未来的行为偏好，形成用户画像，根据用户画像进行个性化推荐可以极大提升用户的体验感。

本文设计的书画类短视频用户画像构建过程如下：

1)提取用户信息，包括用户的年龄、姓名、职业、性别等基本特征。在这一过程中，使用本体收集用户标签，再进行重新排序、分析。在创建本体的过程中，需要了解用户的需求，并在固定的范围内重新定义。因此，在收集用户信息后需要进行预处理，再读取与用户相关的数据，将数据分析整理后，以表格的形式保存，为本体构建准备基础数据；

2)提取用户浏览短视频、点赞短视频、评论短视频等用户行为；

3)利用数据挖掘技术挖掘用户的兴趣偏好，再确定用户的定性画像来深入挖掘用户的潜在兴趣，通过提取文本表征和关键词预测用户未来喜欢的视频类型，从而构建用户兴趣画像和默认属性画像，并作出前瞻性判断。

1.3 基于数据挖掘处理书画类短视频数据

在对短视频日志数据预处理方面，主要的清洗工作包括对用户的去重，对重复数据的清洗，筛选优质短视频用户，对短视频播放日志和用户行为日志进行文本分类以及词性标注等，具体的过程如图2所示。

图2 数据处理流程

由图2可知，在数据去噪时，首先需要使用数据挖掘算法对整个视频数据集进行过滤，去除重复的短视频描述信息，填充缺失值，保持数据的唯一性[6]，降低噪声，计算公式为

(1)

式中：Pdens代表降噪数据指数；Pdist代表降噪率；S代表数据密度。

其次，对数据中出现的重复语义噪声进行数据清洗，去除用户观看时间比例低的数据，过程为

(2)

式中：σ(0,S)代表清洗后数据的范围；s代表清洗后数据的最小值；d代表数据差值。这些统计数据也记录了用户观看短视频的比例，如果用户观看短视频的数据噪声占总数据的比例不到5%，则代表这些数据是无用数据，需要利用数据挖掘技术将其剔除，如式(3)所示。

(3)

式中：f代表剔除后数据的分布数值，根据该数值可以筛选优质用户。对短视频用户而言，本文将每周观看3天或3天以上短视频的优质用户和每周播放1天短视频的非优质用户区分开[7]。周用户是指在一周内观看短视频的用户。优质用户的平均每小时观看率高于非优质用户，每天变化很小，研究其耗费的时间也较少，而劣质用户几乎每小时都在变化，研究其耗费的时间较长[8]。因此，本文选择短视频优质用户进行推荐。

1.4 实现书画类短视频的个性化推荐

在书画类短视频个性推荐过程中，短视频的历史点击率是一个非常有效且非常重要的特征[9-11]。影响视频点击率的重要因素之一就是用户搜索匹配度。为了提高匹配度，本文通过搜索关键词和视频标题计算相似度，得到关键词和视频的匹配特征。

假设用户标签为u，书画类短视频标签为z，对全部的用户标签和书画类短视频标签进行余弦相似度计算，得到同一类别内二者之间的相似度如下：

(4)

式中，u*、z*分别表示二者的评分。为了使书画类短视频与用户具有相同偏好，需要预设一个阈值e，令e

2 实验

由于短视频个性化推荐面对的是广大不同类型的客户，这些客户在不同时间的选择结果会存在一定差异。因此，需要构建一定数量用户集合来验证本方法的有效性，并将其与传统的推荐方法(融合视频内容与弹幕分析的短视频推荐方法)进行对比，实验如下。

2.1 实验准备

为验证本方法的有效性和稳定性，搭建了一个检测平台，测试2种方法对书画类短视频的推荐效果，选取来自微博平台、抖音平台、快手平台的400个短视频为实验短视频，共分为5组，选取15位接受实验的测试人员，记录这些测试人员在实验日期内生成的数据。实验采用平均召回率等指标来衡量实验方法的有效性，得到的混淆矩阵如表1所示。

表1 混淆矩阵

根据混淆矩阵，设计此时平均召回率、准确率、F值的计算公式，如式(5)、(6)、(7)所示。

(5)

(6)

(7)

式(5)、(6)、(7)中：Pr为准确率；Re为平均召回率；F为F值；TP、FP、FN、TN与表1一一对应。

2.2 实验结果与讨论

根据式(5)、(6)、(7)，计算本文设计的书画类短视频个性化推荐方法与传统的个性化推荐方法的平均召回率，实验结果如表2所示。

由表2的结果可知，本文设计的书画类短视频个性化推荐方法的平均召回率更高，能够证明本文方法的推荐精确度高，可大大提高推荐效果。

表2 两种方法的平均召回率

3 结语

在数据挖掘的基础上，本文根据用户行为及用户画像，设计了书画类短视频个性推荐方法，对实现用户动态推荐、保证用户体验感和推荐精准度具有重要意义。