基于协同过滤的智能推荐方法在电子商务中的应用研究

2023-09-11 17:20葛欣然张瀚文张金冰

中国商论 2023年17期

葛欣然张瀚文张金冰

摘要：随着电子商务用户量、信息量和商品量的不断增多，大众定制化需求和商品多样化供给间的矛盾更加凸显，这对电子商务中的推荐系统提出了更高要求。基于协同过滤技术的智能推荐方法既能结合用户的个人偏好、习惯等精准进行个性化推荐，又可以通过推荐系统发掘并展示长尾商品，加速商品的利用与转化，顺应市场多元化发展。首先，本文基于挖掘用户历史行为并判断用户偏好的目标，分析协同过滤算法的实现原理。其次，针对电子商务平台需求特征，构建包括数据预处理、相似度计算、推荐生成和评估在内的智能推荐方法步骤。最后，针对现有算法提出实现条件。

关键词：电子商务；智能推荐系统；协同过滤；多元化；数字化

本文索引：葛欣然，张瀚文，张金冰.<变量 2>[J].中国商论，2023（17）：-120.

中图分类号：F713.36 文献标识码：A 文章编号：2096-0298（2023）09（a）--04

根据中国互联网络信息中心发布的第51次《中国互联网络发展状况统计报告》，截止到2022年12月，我国网民规模达10.67亿，互联网普及率达75.6%。在此背景下，信息化、数字化手段逐渐渗透消费的各个领域。截至2022年6月，国内使用网络进行购物的用户规模已达到8.41亿，在网民整体中达到80%的较高比重，而在2013年，中国使用网络购物的用户规模仅占全体网民的48.9%。

电商行业领域信息量的快速扩张，使得消费者对高效商品推介的诉求持续攀升。面对电子商务网站中纷繁复杂的信息资源，高效的智能化数据处理技术成为处理信息的关键。传统引擎检索不能针对不同用户及不同环境的个性化需求提供差异化的结果；智能推荐系统则不需要用户详细描述自己的需求，而是通过用户的历史数据探索兴趣偏好，针对用户个性化信息进行筛选服务，并将预测结果反馈给用户，使用户购物体验和商家销量效率得以有效提高。因此，本文引入现阶段运用比较成功的协同过滤算法，应用于电子商务智能推荐实践，可以协同客户的反馈、评价和意见等，对海量的电子商务信息进行过滤，契合电子商务问题的癥结点，对电子商务的发展有十分深远的影响。

在电子商务平台中，智能推荐系统发挥着必不可少的作用，国内外企业及学者针对电子商务中运用的智能推荐问题进行了深层次的研究，众多个性化推荐的方法应运而生，也使得亚马逊、携程、阿里巴巴等在推荐领域取得了诸多应用成果。但与国外相比，我国对电子商务智能推荐技术的研究仍处于跟随模式，新思路、新方法和新技术与电子商务的契合度仍较弱，如推荐策略较简单、推荐方法的选择未跟随环境变化而改变，且国内推荐算法大部分用在面向客户推送，而针对企业产品和产品评价推荐算法的相关研究相对较少。

1 协同过滤算法原理分析

总体而言，协同过滤算法是分析具有相似兴趣的群体行为，找到用户或物品间的相似性，再通过相似性进行推荐。基于模型的协同过滤算法主要包括三类：基于用户的协同过滤、基于项目的协同过滤和基于模型的协同过滤。

1.1 基于用户的协同过滤算法

基于用户的协同过滤（User-based CF）主要思想是相似的用户可能具有相似的喜好，即“人以群分”，这样便可以依据用户对项目的历史行为发掘与之兴趣相投的用户，再把这些确定的相似用户对物品的评分数据估算成目标用户对这一物品的未评分数据值，逻辑示例如图1所示。

图1中，箭头从用户指向项目表示用户对该项目是有兴趣偏向的，而项目指向用户的反方向箭头表示最终对用户推荐该项目。图1中假设用户a和用户c都喜欢物品A和物品C，用户b喜欢物品B，说明用户a和用户c具有相似的偏好，而用户b与另外两个用户的偏好有较大差距，所以根据推荐的原则，物品D作为用户c的喜好但用户a没有评分的物品，可以推荐给用户a。

1.2 基于项目的协同过滤算法

基于项目的协同过滤（Item-based CF）主要思想是同个用户可能喜欢的是相似的物品，即“物以类聚”。该算法通过分析用户的行为喜好找到相似的项目，而与项目本身的特点无关，再根据用户对项目的偏好程度向其推送类似或相关的物品，逻辑示例如图2所示。

假设用户a与用户b喜欢的共同项目是物品A和物品C，可以认为物品A与物品C比较相似，喜欢物品A的都喜欢物品C，所以会把物品C推荐给喜欢物品A的用户c。

1.3 基于模型的协同过滤算法

基于模型的协同过滤算法一般针对部分用户对部分物品有评分数据，而其余部分没有评分记录，这是要用已知部分稀疏数据来预测那些空白的用户和物品之间的评分关系，再将预测的高评分物品推荐给用户。

基于模型的协同过滤算法与上述两种算法有着本质区别，前者是在寻找关联的邻居前建立用户偏好模型，再后使用训练好的模型分析用户喜好的实时信息，预测用户与物品间的喜好关系，最终确认喜好程度高的物品并推荐给用户。基于模型的协同过滤算法离线训练算法模型，运用机器学习与数据挖掘等技术，并使用训练的模型在线预测未知商品的得分，这种算法的优势是预测精度较高、节省训练空间且预测速度快，但是不足之处是其训练模型花费较长时间。建立模型常见的方法有聚类算法、关联算法、矩阵分解、回归算法等。

1.4 三类协同过滤算法的适用性

基于用户的协同过滤向用户推荐兴趣相似的人也喜欢的物品，而基于项目的协同过滤给用户推荐与其以往喜欢的物品类似的物品。从两种算法的原理可以看出，基于用户的协同过滤推荐的结果更多是反映与用户兴趣相投的群体中的热门产品，具有较强的社交特性，这样的特点适合用户少、商品多、实效性强的情况。另外，使用该算法还可以令用户发现更多的惊喜，其为用户推荐的物品是与之兴趣相同的用户喜好所在，可能使其找到以往未察觉的兴趣，从而产生更大的惊喜感。基于项目的协同过滤推荐的结果反映更多的是用户的历史兴趣，具有更加个性化的特性，所以该算法更适用物品少、用户多且用户兴趣较为稳定，物品更新速度较慢的场景，维持用户的兴趣传承。

基于模型的协同过滤是在当以上两种算法出现需要使用较大内存计算相似度时，利用模型直接计算预测值，而不需要将商品及用户信息全部放在内存中计算，解决了基于用户与基于项目的协同过滤算法中内存不足或计算复杂等问题产生的影响。

2 电子商务平台的需求导向

2.1 商品评价缺乏参考统一性

在电商平台中，不同用户或不同方式的评分数据可能处于不同的评价范围，如常见的包括5分评价制、百分评价制和星级评价制，且在不同评价方法内，消费者对商品的描述依据更加多元，使得传统比对方法无法提取不同类型用户或不同类型商品的特征信息，造成参考性不强。

2.2 客商匹配缺乏选择专业性

现有电商平台往往没有足够的专业技术评估客户和商家之间的匹配度，如客户实际需求与商家产品特点和服务优势间未形成最高效衔接。原因在于电商平台的技术规则不能充分考虑到不同行业、不同类型的客户和商家之间的差异性，使得客户和商品的分类特征总结不全。这可能导致一些商家无法展示其独特的产品和服务，以及一些客户无法得到满足其专业需求的服务。

2.3 商品推介缺乏精准过滤性

电商平台商品种类和数量的快速增加使得客户获取的商品质量、价格、功能等产生偏差，算法可能将某些群体的商品需求视为次要需求，导致这部分用户缺乏相应商品的推荐。此外，一些商家往往通过付费排名、促销活动等方式引导用户购买特定商品，甚至有可能利用大量虚假评价和吹嘘营销手段来骗取消费者信任。这种商家引导的方式会极大影响用户的消费决策和购物体验。

3 面向电子商务的协同过滤算法实现

针对电子商务平台的现存问题，三类协同过滤算法能够实现较好的解决。电子商务智能推荐系统的总体结构如图3所示。

在电商平台实行推荐的实际应用中，协同过滤算法包含更多需要考虑的因素，比如数据预处理、相似度计算、推荐生成和评估等步骤。其中，数据预处理是确保数据质量的关键步骤；而相似度计算则是识别出和目标用户兴趣相似的其他用户或商品的关键环节；推荐生成和评估则是确保推荐结果准确性和有效性的重要步骤。

图3 电子商务智能推荐系统的总体结构

3.1 数据预处理

针对评价缺乏参考统一性的问题，推荐系统在收集完用户的行为信息后，需要对这些复杂的数据进行预处理，其中包含两个关键的步骤：（1）减噪。目的是去除用户数据中的异常值或干扰项，以保证计算相似度时得到的结果更加准确。（2）归一化。目的是将不同维度的数据统一到同一尺度上，以消除量纲和单位的影响，使得不同维度之间相似度有可比性。

需要通过数据的归一化将不同用户的评分数据映射到0～1的区间内，从而保证计算出来的相似度更加准确。再将预处理过的数据构成一个用户-商品评分矩阵R，如式（1）所示：

其中，横向代表用户对商品的评分；纵向代表商品获得的用户评分。m表示用户；n表示项目；mi表示第i个用户；nj表示第j个项目；Rminj表示第i个用户对第j个项目的评分，其中数值的大小代表用户对商品的兴趣程度。

3.2 相似度计算

针对客商匹配缺乏选择专业性的问题，系统将构建的矩阵中每一行抽取出来，即代表每個用户对所有商品的喜好程度；而将矩阵中的列向量抽取出来，代表的是所有用户对一种商品的评价值，再计算出每两个行向量或列向量之间的相似度，便等同于基于用户和基于项目的相似度评价值。计算相似度最常用的方法有杰卡德相似系数、余弦相似度及欧式距离等。以余弦相似度为例，其原理为衡量向量间的夹角大小，夹角越小，余弦相似度越大，即用户或商品的相似度越大，定义如式（2）所示：

其中，u和v可以为两用户或两商品向量。计算出相似度后将用户或商品进行排序，利用k最近邻算法思想，选取相似度最高的前K个邻居组成最近邻集合。

3.3 电子商务智能推荐结果

针对商品推介缺乏精准过滤性的问题，选取用户或商品的近邻集合后，根据相似度权重预测近邻集合中包含商品的评分，计算得出商品的预测评分并按照降序排序，最后采用Top-N方法向目标用户推荐前N个商品。在基于用户的协同过滤推荐算法中，用户i对商品j的预测评分见式（3）：

其中，U为用户i在商品j上有评分的最近邻集合；k为集合中的一个相似用户；Rk，j为用户k对商品j的评分。基于项目的协同过滤推荐算法与之类似，将用户的近邻集合及用户间的相似度换为商品的相关数据即可。

需要注意的是，在预测过程中，由于用户行为的不确定性，算法可能存在误差，因此需要根据实际情况对预测结果进行一定的评估和优化，以提高推荐算法的准确性和推荐效果。

4 电子商务协同过滤推荐算法的实现条件

虽然基于协同过滤的推荐技术在电子商务中应用的可行性较高，但是随着电商规模的扩大发展及数据量的增长，协同过滤技术在实际运用中仍需满足以下条件。

4.1 冷启动条件

冷启动问题一般为新项目或新用户面临的问题，对于商品而言，一个新的商品投入电商平台，如果没有任何关于用户对它的评价数据，那么这个商品就不可能被推荐给用户；对于一个新用户而言，由于未在该电商平台留下评价、收藏和购买等相关偏好记录，推荐系统就不知道新用户的兴趣所在，无法为其推荐喜欢的商品，这就令电子商务平台因无法为新用户提供准确的推荐而导致用户流失。解决冷启动问题最直接的方法就是直接询问用户相关偏好信息，以获得为其推荐的支撑数据，现诸多平台会在新用户注册时采用这种方法获取他们的喜好信息。

4.2 数据稀疏性条件

稀疏性条件是影响推荐系统质量的重要因素，随着使用电子商务平台用户数的增多，大量商品随之涌现，用户评价的项目数据只占总数据的一小部分，这样得到的就是非常稀疏的用户-项目评分矩阵。据统计，在一个实际应用的推荐系统中，用户对项目的评分数据通常低于1%，因此在计算用户或项目的相似性时，精确率会随之降低，导致最终的推荐质量大幅度降低。商品存在的评分越多，推荐的质量就越高，所以热门的头部商品很容易找到大量的相似物品，稀疏性问题会令没有交互的或较低交互的尾部商品无法实现推荐。解决稀疏性问题可以使用空值填补、结合内容过滤、降维等方法，它们从不同的角度增加计算相似性的可考虑因素，以改善数据稀疏引起的问题。

4.3 扩展性条件

大数据时代下，电子商务平台的数据量增长迅速，使得推荐系统的可扩展性问题成为一个重要的关注点。数据的急剧增长会阻碍算法计算用户或项目的相似度，尤其是当面对系统庞大的数据时，推荐系统的计算效率急剧减慢，难以实时计算出准确的推荐结果。矩阵分解、聚类和数据集缩减等方法都是用来解決扩展性问题的常见方法，它们的主要原理是通过降低用户-商品评分矩阵的维度或减小近邻搜索范围，以提高推荐的效率。在解决扩展性问题时需要注意，在保证准确性的前提下，尽量提高算法的效率，以平衡算法的效率和准确性。

4.4 信息利用条件

协同过滤的特点是仅利用用户与物品的交互信息，而与物体或用户自身的属性无关。此特点使推荐系统更简单高效地进行推荐，但也带来了不足，因为未运用如用户年龄、用户性别、商品种类等用户及商品的特征，导致这些有效信息的遗漏，不能充分利用各个方面的特征数据。为解决这个问题，推荐系统可以采用逻辑回归等机器学习模型来综合不同类型的特征，从而提升推荐效果。

5 结语

随着电子商务中数据量爆炸式的增长，电商平台需要针对不同用户做出个性化推荐的推荐技术来提升电商服务水平及效率，智能推荐技术还可以为买家快速选择所需商品提供了更为快速准确的途径。电商平台运用协同过滤推荐算法构建电子商务推荐系统，并结合不断增大的信息数据规模，针对算法实现的困难与挑战，需从多维角度创造实现条件。

参考文献

王娜.基于某电商平台用户行为的个性化推荐[D].兰州：兰州财经大学，2021.

李加军.基于协同过滤的电子商务智能推荐方法研究[J].微型电脑应用，2022，38（3）：70-72.

朱枭帅.基于混合方法的电商推荐系统的设计与实现[D].西安：西安电子科技大学，2020.

崔春生，杜柏瀚，王雪.基于分层序列的移动电子商务推荐系统策略研究[J].数学的实践与认识，2020，50（8）：12-21.

于宏礼.电子商务环境下消费者在线购买意愿的影响因素研究[J].中国商论，2022（6）：72-74.

陈勇.基于协同过滤算法的旅游推荐系统的设计[J].价值工程，2022，41（30）：160-162.