摘 要:【目的】传统基于相似度计算的个性化信息推荐系统因算力要求过高、推荐时滞过长等问题,致使其无法在中小型新闻图情领域得到广泛的普及。为了帮助中小型新闻图情机构以较低的成本开展个性化信息的精准推荐服务,构建了一套基于主题概率分布模型的个性化信息推荐系统。【方法】通过数据采集技术实现原始数据语料的采集;通过LDA模型训练实现原始文本信息的分类;通过将用户信息代入LDA模型训练获取用户主题画像;将用户主题画像与文本信息分类相结合实现个性化信息推荐。【结果】经试验验证,该系统推荐时效强,可达毫秒级。通过与用户阅读记录进行比较,该系统的推荐结果均符合用户兴趣主题,具有较高的推荐精准度。【结论】该基于主题概率分布模型的个性化信息推荐系统,能够帮助中小型新闻图情机构以较低的成本开展个性化信息精准推荐服务,具有一定的应用价值。
关键词:LDA主题模型;主题概率分布模型;个性化信息推荐;系统设计与实现
中图分类号:TP391.3 文献标志码:A 文章编号:1003-5168(2024)15-0012-05
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.15.003
Research on Personalized Information Recommendation System Based on Subject Probability Distribution Model
DOU Zhilei1 JIN Jiejie2
(1. Luohe Vocational Technology College, Luohe 462000, China;
2.Luohe Medical College, Luohe 462000, China)
Abstract: [Purposes] The traditional personalized information recommendation system based on similarity calculation can not be widely used in the field of small and medium-sized news picture because of the high requirement of computing power and time delay of recommendation. This paper constructs a personalized information recommendation system based on subject probability distribution model to help small and medium-sized news organizations to carry out personalized information accurate recommendation service with lower cost. [Methods] The data collection technology was used to collect the original data corpus; LDA model training was used to classify the original text information; the user's subject portrait was obtained by substituting user's information into LDA model training results; the personalized information recommendation is realized by combining user subject portrait with text information classification. [Findings] the experimental results showed that the system had a strong recommendation time, which could reach the millisecond level. Compared with the reading records of users, the recommendation results were in accordance with user's interest topics, and had a high recommendation accuracy. [Conclusions] The personalized information recommendation system based on topic probability distribution model can help small and medium-sized news picture and information organizations to develop personalized information accurate recommendation service with lower cost, which has certain application value.
Keywords: LDA subject model; subject probability distribution model; personalized information recommendation; system design and implementation
0 引言
随着数字化和网络化的普及,信息产生的速度远超人们处理信息的能力。人们不仅要面对来自传统媒体的新闻、广告,还要应对社交媒体、博客、论坛等平台上不断更新的内容。信息过载不仅会导致人们难以找到真正有价值的信息,而且会引起人们陷入信息恐慌、信息焦虑。随着生活水平的提高,人们对于个性化和定制化服务的需求也越来越高。用户希望无论是在生活方面,还是娱乐方面等,都能获得符合自己兴趣、偏好和需求的内容。在数智时代,伴随着大数据、云计算、人工智能等技术快速发展,个性化信息推荐系统应运而生,并在社会的各个领域,特别是电商、新闻、咨询领域得到了广泛的应用。通过构建个性化推荐系统,可以很好地解决信息过载问题,帮助用户从海量的数据中快速找到所感兴趣的内容,提升用户体验,进而缓解信息过载与用户个性化信息需求之间的矛盾。
1 传统个性化推荐算法
1.1 协同过滤算法的基本原理
协同过滤算法是一种在个性化推荐系统中最为广泛应用的算法,其核心思想在于“物以类聚、人以群分”,即利用群体的智慧(兴趣相投或拥有共同经验的群体喜好)来为用户推荐感兴趣的内容[1]。其通过分析用户的行为数据,如购买记录、浏览历史、评分等,找出与当前用户兴趣相似的其他用户,或者找出与当前用户喜欢的物品所相似的其他物品,然后基于这些相似性进行个性化信息或物品推荐。
协同过滤算法的原理主要基于两点:一是相似性计算,二是推荐生成。首先,算法需要收集用户的行为数据,并通过计算用户之间的相似性(基于用户的协同过滤)或物品之间的相似性(基于物品的协同过滤)来找出相似度较高的用户或物品。相似性计算通常使用余弦相似度、皮尔逊相关系数等方法[2]。其次,基于计算出的相似性,算法会为用户生成推荐列表。在基于用户的协同过滤中,算法会找到与目标用户最相似的k个用户,并推荐这k个用户喜欢的、但目标用户尚未接触过的物品。而在基于物品的协同过滤中,算法会找到与目标用户喜欢的物品最相似的物品进行推荐。
1.2 协同过滤算法的特点与不足
协同过滤算法的特点主要体现在个性化推荐、易于实现和可扩展性上[3]。首先,协同过滤算法能够根据用户的历史行为数据进行个性化推荐,满足不同用户的个性化需求;其次,协同过滤算法的原理相对简单,易于实现和部署,适用于各种规模的推荐系统;最后,协同过滤算法具有很好的可扩展性,可以应用于各种领域和场景,如电商、视频、音乐等。通过不断收集用户的行为数据,协同过滤算法能够不断优化推荐结果,提高用户的满意度。
尽管协同过滤算法具有很多优点,但也存在一些不足之处。一是数据稀疏性问题[4]。由于用户的行为数据通常是相对稀疏的,即大部分用户只对少数物品产生了行为,这可能导致算法难以找到足够的相似用户或物品,从而影响推荐的准确性。二是冷启动问题。协同过滤算法一定程度上依赖于用户的历史行为数据,当推荐系统刚刚启动或者新加入了用户或物品时,由于缺乏足够的历史数据,协同过滤算法很难进行准确的推荐[5]。三是响应时滞问题。随着用户和物品的增加,协同过滤算法的计算复杂度会呈指数级增长。由于协同过滤算法需要不断计算用户之间或项目之间的相似度,因此会造成其在大规模数据集上的性能下降,致使系统出现延迟甚至崩溃,无法满足用户实时性响应的要求。
1.3 传统个性化推荐算法普及的主要障碍
响应时滞问题是影响协同过滤算法无法得到广泛普及的主要障碍。对于大型企业而言,可以采用一些分布式计算技术,如MapReduce、Spark等来提高算法的可伸缩性和处理大规模数据集的能力,保障基于协同过滤算法的个性化推荐系统能够顺利运行。但通过提高算力来解决个性化推荐系统需要持续投入大量的人力、技术、设备和金钱。从经济方面来看,上述投入远远超过了中小型新闻图情信息服务机构的可承受范围,致使个性化推荐系统在中小型新闻图情信息服务机构中并未得到普及。基于此,本研究另辟蹊径,采用LDA模型构建了一套基于主题概率模型的个性化信息推荐系统,以期能够帮助中小型新闻图情机构以较低成本开展个性化信息精准推荐服务。
2 主题概率分布模型——LDA主题模型
2.1 LDA主题模型简介
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是当前最为常用的主题概率分析模型,由David M.Blei、Andrew Y.Ng、Michael I.Jordan于2003年提出[6]。其结构包含三层贝叶斯结构(文档层、主题层和单词层),并通过贝叶斯概率公式来推断每个文档中包含哪些主题,以及每个主题中包含哪些单词,从而实现对文本复杂主题结构的有效表示。LDA主题模型具有以下特点:一是自动发现隐藏主题[7]。LDA能够自动从大量文本数据中识别并提取出隐藏的主题结构,而无须人工定义或标注。这使得它能够处理大规模数据集,并发现数据中可能存在的未知或难以直接观察到的主题。二是可解释性强。LDA生成的主题分布模型具有良好的可解释性,每个主题由一组相关的单词或短语组成,这些单词或短语能够清晰地反映主题的内容。这使得人们可以直观地理解数据的主题结构,从而更好地进行文本分析和解读。三是降维与简化。LDA基于词袋模型,能够忽略词序和语法,专注于文本的主题内容,将高维的文本数据转换为低维的主题分布表示,从而实现数据的降维和简化。这有助于降低计算的复杂性,提高处理效率,并且便于后续的数据分析和可视化。四是适应性强[8]。LDA对于不同的文本数据具有较好的适应性,既可以处理各种类型的文本数据,如新闻、社交媒体帖子、学术论文等, 处理数量从几篇文档到数百万篇文档均可。又可以与其他自然语言处理技术相结合,如词嵌入、命名实体识别等,以进一步提高文本分析的准确性和效率。五是支持个性化推荐。LDA通过联合构建用户画像和文档主题分布模型,实现信息的精准个性化推荐。
2.2 LDA主题模型的应用
LDA模型的输出结果主要包括文档—主题分布(Doc—topic)、词汇—主题分布(Word—topic)和主题—词汇分布(Topic—word)。这三个分布相互关联,共同构成了LDA模型的核心。文档—主题分布描述了每个文档在各个主题上的概率分布,告诉我们每个文档是由哪些主题混合而成的。词汇—主题分布则描述了每个单词在各个主题上的概率分布,揭示了单词与主题之间的关联关系。而主题—词汇分布则描述了每个主题在词汇表上的概率分布,告诉我们每个主题是由哪些单词组成的。通过分析这些输出结果能够帮助我们理解和分析文本数据中的主题和词汇之间、文档和主题之间的关系,进而实现各种应用功能。
正是基于上述特点以及其在处理文本数据时展现出强大的能力,LDA主题模型已广泛应用于信息检索、文本分类、文本聚类等领域。在信息检索中,LDA模型可以提高搜索系统的相关性,通过理解文档和查询背后的主题,提高搜索结果的质量;在文本分类中,LDA模型可以通过分析文档的主题分布,将文档划分到不同的类别中;在文本聚类中,LDA模型则可以将相似的文档分到一起,形成簇,从而揭示文档集合中的主题结构;在个性化推荐中,LDA可以将用户近期阅读的信息合并成一篇长文档,并使用该文档的主题分布作为用户画像,结合文本分类结果,实现信息的个性化推荐[9]。
2.3 LDA主题模型的实现过程
LDA主题模型的实现步骤如下:①数据预处理。对文本数据进行分词、去停用词、去除标点符号等预处理操作,以便后续的分析;②构建语料库。将预处理后的文本数据构建成LDA模型所需的语料库形式,包括文档集合和词汇表等;③确定主题数。根据实际需求和研究目的确定LDA模型中的主题数;④训练LDA模型。使用训练数据对LDA模型进行训练,得到文档的主题分布和每个主题下的词汇分布;⑤应用LDA模型。将训练好的LDA模型应用于实际的文本分析任务中,如文本分类、话题发现等。LDA常用的训练工具包括gensim和tomotopy等,均可实现对LDA主题模型的高效训练和业务处理。
3 基于LDA主题模型的个性化推荐系统的设计
3.1 系统的总体设计
利用LDA主题模型构建个性化推荐系统的主要思路如下:首先,通过训练LDA主题模型将文本信息实现分类;其次,将用户的各类属性信息和近期阅读的信息合并成一篇长文档,并使用该文档的主题分布作为用户画像,获取用户信息偏好(代入训练结果获取用户的文档主题分布);最后,结合用户兴趣偏好与文本分类结果,按照预定规则实现信息的个性化推荐。系统的总体设计流程如图1所示。
3.2 系统实现的关键环节
文本信息分类、用户兴趣建模和内容推荐是实现基于LDA主题模型在个性化推荐系统的关键环节。
3.2.1 文本信息分类。文本信息分类是基于主题概率分布模型个性化信息推荐系统实现的基础。信息作为推荐的最终对象,其分类的准确与否直接影响个性化推荐结果的质量。通过对LDA主题模型训练结果中的文档—主题分布进行分析,可以得到原始语料库中每一条语料的最大概率主题分布(即该条原始语料属于哪个主题的概率最大),进而明确该原始语料属于某一主题分类。主题明确后,在原始信息数据库中针对该语料信息进行唯一主题分类标注,以供个性化推荐阶段与用户兴趣主题分布进行匹配和检索[10]。
3.2.2 用户兴趣建模。个性化推荐系统需要理解用户的兴趣以便提供相关的推荐。LDA可以用来分析用户的历史行为数据(如浏览历史、购买历史、评分等),从而挖掘用户的潜在兴趣主题。具体来说就是将用户的交互项目(如商品、文章、电影等)视为文档,项目中的特征(如商品描述、文章内容、电影情节等)视为单词,使用LDA模型对这些文档进行主题建模,得到每个用户的兴趣分布。
3.2.3 内容推荐。在得到用户的兴趣分布后,系统根据用户兴趣主题分布从已分类的文本信息数据库中按照一定规则检索、查询相关的主题内容来为用户进行个性化信息推荐。例如,如果一个用户的兴趣主题表明该用户对科技新闻感兴趣,那么系统会推荐与科技相关的新闻文章。此外,针对一些实时性较强的新项目,如国际要闻、新商品上架等,LDA可以分析待推荐新项目的内容,将其也表示为主题分布,通过比较用户兴趣分布和新项目内容分布,从而确定该新项目是否应该推荐给用户,以解决实时性较强的新项目的个性化精准推荐问题。
3.3 系统的试验与结果验证
本研究采用爬虫技术,从新浪、搜狐等网站采集新闻标题共20多万条作为原始语料,通过分词、删除停用词、构建词袋模型、利用困惑度确定主题数、进行模型训练等步骤,实现了基于LDA主题模型的文本信息主题分类。同时随机选择了10条信息作为假设用户的阅读记录,并将这些记录作为文档,代入已经训练好的主题模型中,获取用户专属的文档—主题分布,完成用户兴趣偏好主题分析。根据用户兴趣偏好主题,按照一定推荐规则(如以主题归属概率大小作为推荐顺序等),从已分类的文本信息中推荐50条信息作为推荐结果。经与用户阅读记录比较,这些推荐结果均符合用户兴趣主题。经验证,本研究设计的基于LDA主题模型的个性化信息推荐系统具有较强的可行性和实用价值。
为了提高推荐工作的实时性,特别是在数据规模较大的情况下,可以通过预生成模式,对模型进行预训练。在进行个性化推荐时,仅需计算用户兴趣偏好分类,进行相似信息内容概率匹配,即可完成个性化信息推荐。推荐响应时间可以达到毫秒级,具有较高的时效性。同时,为提高系统推荐结果的精准度,可以采用迭代训练的方式,在上级文本分类结果的基础上,对分类子集进行再训练和细分,循环往复,直至实现推荐信息的精准度达到系统的使用要求[11]。上述扩展方法在试验阶段也得到了验证,进一步丰富和扩展了该个性化信息推荐系统的适用场景。
4 结论
本研究设计和实现的基于主题概率分布模型的个性化推荐系统,无论是在模型训练阶段,还是在个性化推荐阶段,均使用LDA主题概率模型作为基础算法,方法相对统一,避免了多种算法的混合开发,降低了系统开发难度,更有利于系统的设计与实现。同时,基于主题概率分布模型的个性化推荐系统避免了大量用户之间的相似度计算比较造成的大量计算资源消耗,降低了个性化推荐系统使用的门槛,让中小型新闻图情机构也能以较低的成本实现个性化信息推荐,有利于提升服务质量和服务层次,达到了预期目的。
参考文献:
[1]王红霞,温绍洁.基于聚类和奇异值分解的协同过滤推荐算法[J].计算机应用研究,2020,37(S2):369-371.
[2]包岩,张红岩.基于长短期偏好特征的图书个性化推荐系统设计[J].兰台内外,2024(19):70-72.
[3]翟梅.个性化新闻推荐系统研究综述及探讨[J].计算机与现代化,2024(4):12-20.
[4]林宁,张亮.基于联邦学习的个性化推荐系统研究[J].科技创新与生产力,2024,45(4):27-30.
[5]何婕君,李阳.基于时空视角的舆情反转事件情感演化特征研究[J].信息资源管理学报,2022,12(2):88-100.
[6]杜利明,郭文艳,崔蕾,等.基于LDA的电商平台用户评论挖掘与情感分析研究:以京东商城App为例[J].江苏科技信息,2024,41(12):125-129.
[7]王浩,方俊涛.基于LDA模型对国家海洋博物馆游客在线评论的主题分析[J].科技和产业,2024,24(12):224-230.
[8]申菲.改进LDA模型在影视作品推荐中的应用研究[J].微型电脑应用,2024,40(6):61-64.
[9]李鑫,韩一冰,李祥飞.基于LDA主题模型的我国医疗健康政策特征分析[J].中国公共卫生管理,2024,40(3):311-315,310.
[10]呼和木其,王文婷.LDA模型下的高校图书馆微信公众平台阅读推广主题热点及策略研究[J].情报探索,2024(6):102-109.
[11]王勇,安仲禹,梁凯.我国网络谣言研究的嬗变与趋势:基于文献统计及LDA模型的主题挖掘分析[J/OL].昆明理工大学学报(社会科学版):1-10[2024-07-08].https://doi.org/10.16112/j.cnki.53-1160/c.2024.04.261.