基于用户画像的学习资源推送服务模型

2023-03-05 09:37
江苏工程职业技术学院学报 2023年4期
关键词:特征向量关联聚类

刘 波

(南京工业职业技术大学计算机与软件学院,南京 210023)

在互联网快速发展的背景下,网络学习成为人们获取知识和技能的重要方式。然而,由于网络学习资源的丰富性和复杂性,用户面临的主要问题是如何快速地找到适合的学习资源。通过分析用户的兴趣和行为向用户推荐相关的学习资源,可以提高用户的学习效率,但传统的推荐系统存在推荐结果精度不高、推荐信息过载等问题,影响推荐系统的实际应用效果。基于用户画像的推荐方法能提高推荐系统的精度和效率。[1]用户画像是指根据用户的行为、偏好、兴趣等信息对用户进行特征提取和描述,进而建立用户模型。基于用户画像的推荐系统能够更好地理解用户需求和行为,并能够更准确地向用户推荐相关的学习资源。本文提出了一种基于用户画像的学习资源推送服务模型,旨在提高学习资源的推荐精度和效率。

1 面向学习过程的推荐策略

在学习前的冷启动[2]阶段,推荐系统中没有用户行为习惯的历史数据,必须通过收集用户的个人信息和偏好等数据(如年龄、性别、学科、兴趣爱好等)来建立用户画像,并根据用户画像为之推荐适合的学习资源。其中,适合度可以通过计算学习资源与用户画像之间的相似度来确定,常用的相似度计算方法包括余弦相似度[3]、皮尔逊相关系数[4]等。学习过程中用户产生行为习惯后,推荐系统可以根据用户的行为数据(如点击、收藏、评分等)来分析用户的兴趣和偏好,并为用户推荐更符合其兴趣和偏好的学习资源。此时,推荐系统可以采用协同过滤、基于内容的推荐等算法来进行推荐。因此,要提高推荐效果和用户满意度,学习资源推送服务需要根据用户学习前和学习中的不同需求采用不同的推荐策略。基于此,本文采用了两阶段推荐服务策略。

1.1 基于关联规则的推荐策略

第一阶段主要采用基于关联规则的推荐策略。推荐服务需要根据用户的注册信息、学科领域、兴趣爱好等信息,根据预置推荐规则为用户提供一系列适合他们的学习资源,帮助用户制定学习计划和提前准备学习所需的知识和技能,提高学习的效率和质量。而关联规则是一种在大规模数据集中发现项之间关系的方法。首先,通过关联规则算法找到一些项之间频繁出现的关系,[5]并将这些关系转化为推荐规则,然后生成用户特征向量和学习资源向量,随后进行相关度计算,最后根据计算结果生成推荐结果。

这一阶段,由于系统中缺乏用户学习行为的既有记录,主要依据学习档案中的用户信息和资源数据库中的资源特征信息来进行推荐,故需要构建匹配映射服务模型,采用基于关联规则的推荐服务策略为用户推荐定制的学习资源。具体步骤为:

1) 规则集构建。规则集构建需要根据学科知识点逻辑和层次结构分析不同用户特征,制定一系列相关的规则集。本文规则集构建方法如下:设有学习资源数据库D,用户学习档案P,阈值min_sup,规则集合R。①为每个学习资源d(d∈D)抽取特征向量fd,其中包括学科领域、难度、知识点等信息。②根据用户学习档案P生成特征向量fp,其中包括用户的学科偏好、难度偏好、学习时间等信息。③初始化规则集合R为空。④对于每个学科领域c,执行以下步骤:先从学习资源数据库D中找到所有学科领域为c的学习资源Dc。计算每个学科领域c中的学习资源d(d∈Dc)与用户学习档案P的相关度sup(d,P),见式(1)。

式(1)中n是特征向量的长度,wi是特征向量中第i个特征的权重,fd,i和fp,i分别是学习资源d和用户学习档案P中的第i个特征向量。本文采用余弦相似度计算用户特征向量和学习资源向量之间的相关度。余弦相似度是一种常见的用以比较两个向量相似程度的计算方法,计算式见式(2)。

式(2)中A和B是n维空间的两个向量,A= (x1,x2,…,xn),B= (y1,y2,…,yn),θ表示向量A和B在向量空间中的夹角。通过计算θ的余弦值可得到向量A和B的相似度值,用于度量它们之间的相似程度。当cosθ值接近1 时,表示两个向量非常相似;当cosθ值接近0 时,表示两个向量相似度较低;当cosθ值接近-1 时,表示两个向量完全相反。然后,对每对学习资源d1,d2∈Dc进行判定,如果sup(d1,P)>min_sup、sup(d2,P)>min_sup,且d1和d2之间存在某种关联规则,则将该关联规则加入规则集合R中。⑤对规则集合R进行整理和优化,最后得到更新后的规则集合R'。

2) 生成用户信息的特征向量。依据学习档案中的用户信息(如注册信息、学科领域、兴趣爱好等)生成用户的特征向量。[6]采用向量空间模型生成特征向量,即将每个用户特征映射为一个特征维度,将用户特征用向量形式表示。本文生成用户特征向量的方法如下:①定义特征空间。根据用户信息确定特征空间,即将每个用户特征映射为一个特征维度。假设特征空间的维度为n。②构建“用户—特征”矩阵。将学习档案中的用户信息表示为一个“用户—特征”矩阵M,其中每一行代表一个用户,每一列代表一个特征维度。假设用户数量为m,特征的数量为n,则M的大小为m×n。③计算特征权重。计算每个特征维度i在所有用户中出现的频率df(i),即文档频率(document frequency),并计算该特征维度的idf(i),即逆文档频率(inverse document frequency),idf (i) = ln。特征维度i的权重w(i)用TF-IDF(term frequency-inverse document frequency,词频—逆文档频率,简称TF-IDF)算法计算,即w(i)= tf(i,j)×idf(i),其中tf(i,j)表示用户j中维度i的出现频率。④生成特征向量。先将“用户—特征”矩阵M转置为“特征—用户”矩阵M'。其中,每一行代表一个特征维度,每一列代表一个用户。再对每个用户根据特征维度上的权重w(i)组成一个向量,表示该用户在所有特征维度上的权重向量,该向量即为用户的特征向量。 具体地,若特征维度的数量为n,用户特征向量的长度为m,则用户u的特征向量为vu= [w1,w2,...,wm],其中wi表示用户n在特征维度i上的权重。

3) 生成学习资源的特征向量。从学习资源库中抽取内容属性进行加权,并用向量表征。学习资源的内容属性可以包括标题、作者、描述、标签等。加权采用TF-IDF[7]等方法,将重要性较高的内容属性赋予更高的权重,生成学习资源特征向量。对于学习资源数据库D,假设抽取的内容属性集合T,则本文生成学习资源特征向量的方法如下:①针对每个学习资源d∈D,构建对应的特征向量vd。②对于每个抽取的内容属性t∈T,计算这一属性在d中出现的频率f(d,t)以及在D中出现的文档频率df(t)。③使用TF-IDF 加权方法对f(d,t)进行加权,得到属性权重w(d,t),见式(3)。

式(3)中tf(d,t)为学习资源d中属性t出现的频率,idf(t)为属性t的逆文档频率,,其中N为学习资源库D中的总文档数。④将所有属性的加权结果w(d,t)组成一个向量vd,即vd=[w(d,t1),w(d,t2),…,w(d,tn)],其中n为属性集合T的大小。⑤将vd归一化,即除以向量长度‖vd‖,得到归一化后的学习资源特征向量vd_norm,即。⑥将归一化后的学习资源特征向量vd_norm加入特征向量集合V中,输出特征向量集合V,其中每个学习资源d对应一个特征向量vd_norm。

4) 相关度计算及推荐结果生成。根据设定好的规则,计算用户特征向量和学习资源向量的相关度。在推荐系统中,当计算出用户特征资源与学习资源之间的余弦相似度后,可以将相似度最大的学习资源推荐给用户,作为该用户可能感兴趣的学习资源。最后,将计算出来的相关度进行排序,选取前几个相关度高的学习资源,生成推荐列表向用户展示。

1.2 基于多维度关联的推荐策略

在第二阶段,采用基于多维度关联的推荐策略对推荐结果进行更新和优化。多维度关联推荐策略是指将多个维度的信息进行整合,从而提高系统的推荐精度和效率。多维度关联推荐策略包括基于用户兴趣偏好、时间因素、社交网络等维度的推荐。基于用户兴趣偏好的推荐是指根据用户的历史行为和偏好,向用户推荐类似的学习资源。[8]多维度关联推荐策略的目标是整合多个维度的信息,从而提高推荐系统的准确性和效率。这种策略需要根据不同的场景和应用,选择合适的维度和算法进行推荐。具体来说,需要进行学习行为记录和用户档案更新,以及用户和资源的聚类和分类,最后根据聚类和分类结果进行推荐结果生成和优化。这一阶段,推荐系统会根据用户的学习活动和评价反馈更新用户档案和学习行为记录,以便更好地了解用户的个性化需求[9]和学习兴趣。推荐系统将用户行为和反馈信息存储到学习行为记录数据库中,并将这些信息用于调整用户模型和资源模型,以便更好地为用户提供个性化的推荐服务。

1) 学习行为记录和用户档案的更新。将新的学习行为和反馈信息添加到学习行为记录数据库中,并使用这些信息来更新用户档案和学习行为记录。例如,记录用户观看的视频或完成的任务,根据这些行为分析用户喜好和偏好,以更好地理解他们的学习需求和兴趣。在本文中,用户数据的更新过程为:①通过推荐系统的前端页面,实时监测用户在学习平台上的行为,例如观看视频、完成练习等情况。②将用户的行为记录下来,包括观看的视频名称、视频的播放时间、完成的练习名称、练习的得分等。③通过对用户行为的记录进行分析,获取用户的兴趣和偏好,例如用户偏爱哪些类型的视频,在哪些练习上表现更好等。④将用户的个人信息和学习行为记录整合到用户档案中,包括用户的基本信息(年龄、性别、学习能力等)和学习行为记录(观看历史、评价记录等),并更新这些信息。⑤将用户的行为记录和档案信息存储到学习行为记录数据库中,以便后续分析和推荐服务使用。⑥基于用户的学习行为记录和个人信息,更新用户模型,以便更好地理解用户的个性化需求和学习兴趣。使用机器学习算法分析用户的行为记录,预测用户在未来可能感兴趣的学习资源,并对用户的兴趣和偏好进行分类和聚类。

2) 用户聚类和资源分类。聚类算法是将具有相似特征的用户或资源归为同一组的过程,对于用户的聚类,可以使用基于行为的聚类方法,将具有相似学习行为的用户归为同一组。本文主要采用K-means聚类算法,它是一种无监督学习算法,用于将一组数据分成K个类别,基本思想是通过最小化每个数据点与其所属聚类中心的距离来划分数据。K-means 聚类算法的公式为:,其中J为聚类效果的评估指标,K为聚类的个数,Si为第i个聚类,x为数据点,ci为第i个聚类的中心点。使用K-means 聚类算法对用户的浏览历史、学习记录和评价记录进行聚类,从而将具有相似学习行为的用户归为同一组,这样可以更好地理解用户的兴趣和需求,使推荐系统能提供更精确的推荐服务。

分类算法是将用户或资源分为不同的类别,本文主要使用朴素贝叶斯算法对学习资源的文本内容进行分类,以便对相似的资源进行推荐。具体的分类步骤如下:①收集学习资源的文本内容数据,并划分为训练集和测试集。②对训练集中的文本内容使用中文分词工具Jieba[10](结巴分词)进行分词处理,去除停用词和标点符号,得到词语列表。③根据训练集中的分类标签,计算每个类别下各个词语的出现频率,得到每个类别的词语频率列表。④根据训练集中的分类标签,计算每个类别的文档数量、总文档数量以及每个词语在所有文档中出现的总次数和总词语数。⑤根据贝叶斯公式,计算每个词语在每个类别下的条件概率,并计算每个文档属于每个类别的概率。⑥对测试集中的每个文档进行分词处理,根据概率值将文档分至最有可能的类别里。⑦根据分类结果推荐与测试集中文档相似的资源给用户。

3) 推荐结果生成和优化。根据用户聚类和资源分类的结果,可以针对不同的用户和资源群体生成不同的推荐结果。对于具有相似学习行为的用户群体,可以推荐具有相似内容的学习资源。对于具有相似内容的资源群体,可以推荐给具有相似兴趣爱好的用户。推荐系统将根据用户的反馈信息持续优化推荐结果,当用户对推荐结果进行评价时,根据评价信息对推荐结果进行调整和优化,以进一步提高推荐服务的准确性和个性化程度。同时,推荐系统将对用户的反馈信息进行分析,进一步了解用户的需求和兴趣,以提供更加有针对性的推荐服务。

2 试验与分析

2.1 数据集

本文使用了Coursera[11]在线学习平台的公开数据集,其中包含用户的个人信息、学习行为记录和学习资源的属性信息,并从中选取了10 万条学生行为数据和1 000 个课程资源作为训练数据。

2.2 试验结果

对基于关联规则和基于多维度关联的推荐服务策略的效果进行对比试验,结果见表1,其中用户行为数据是指用户的学习行为(包括资源点击率、观看时长、学习资源类别偏好),用户反馈数据是指用户对推荐结果的评价和满意度。由表1 可知,实验组B(基于多维度关联的推荐策略)相较于实验组A(基于关联规则的推荐策略),在点击率、观看时长和满意度等指标上表现更好,故基于多维度关联推荐策略的推荐服务能够根据用户的学习行为和反馈信息更准确地提供个性化的推荐结果。

表1 基于关联规则的和基于多维度关联的推荐策略对比试验

3 结语

本文所提出的模型可以应用于各种在线学习平台、教育培训机构、企业内部培训等场景,帮助用户快速找到符合自己个性化需求的学习资源,提高学习效率和学习兴趣,后期可以通过不断改进和优化提高推荐的准确性和效率。

猜你喜欢
特征向量关联聚类
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
一类特殊矩阵特征向量的求法
奇趣搭配
基于DBSACN聚类算法的XML文档聚类
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于高斯混合聚类的阵列干涉SAR三维成像
智趣