陈雪婷
(贵州师范大学,贵州 贵阳 550025)
在电子商务领域中,基于协同过滤的推荐算法核心概念是:对于相似用户而言,在兴趣爱好上同样存在一定的相似性。可以尝试通过对目标用户兴趣相似用户进行搜寻的方式,根据最邻近用户的评分对目标用户相对于某项目商品的评分制进行预测,并将预测评分最高的部分商品面向目标用户进行推荐。在当前技术条件支持下,大量国内外研究学者尝试对协同过滤推荐算法的应用思路与操作步骤就那些改进与优化,提出了包括基于神经网络、基于矩阵降维以及基于聚类的协同过滤操作方法。以下尝试将分层聚类准则引入电子商务领域的协同过滤个性化推荐算法中,对该算法操作思路进行研究与分析,并通过对实验数据的应用验证该算法应用于电子商务领域的可行性与可靠性。
当前技术条件支持下,电子商务领域中基于分层聚类原则的协同过滤推荐算法的将数据集划分为层次数,所涉及到的常见形式包括两大类,第一类为凝聚,第二类为分裂。其中,前者是指在数据集中,每个数据均可遵循从下至上基本原则合并形成相似类,直至满足一定条件完成合并为止;后者则是指在数据集中所涉及到的相关对象均属于同一个类,在此基础之上遵循自上而下的原则进行分类,形成若干小类,所有小类均包含一定元素。但在电子商务领域对协同过滤个性化推荐算法进行实际应用的过程当中发现,传统意义上基于分层聚类原则的个性化推荐算法存在一定的不足,主要体现在两个方面:第一,在基于分层聚类原则的个性化推荐算法应用中,没有通过数学计算的方式确定个性化推荐所依赖的聚类准则,加之分层过程具有不可逆的特点,这也就意味着一旦对聚类的选取出现误差,则无法退回上一步骤重新进行选取,且后续操作中无法进行弥补,最终对推荐效果产生一定程度上的影响;第二,在基于分层聚类原则的个性化推荐算法中,对聚类中心的选择考虑数据集相邻区域,导致个性化推荐效果缺乏整体性。
以下以对电影影片的推荐为例,对经过改进后的基于分层聚类的协同过滤个性化推荐算法流程进行简要阐述:假定对于用户1#而言,需要系统面向其喜好推荐5部影片,且该用户当前有10条历史观看记录。该情况下,可以尝试与其他系统用户进行对比,将观看电影数量相同这一条件作为分层标准,引入聚类概念,即对于2#用户而言,历史观看记录中有8条与1#用户相同,对于3#用户而言,历史观看记录中有6条与1#用户相同,则可以基于用户1#构建聚类中心,并基于2#以及3#用户向外进行分层,以没有与用户1#存在相同观看记录为停止标准。但此情况下,并不意味着与1#用户相同观看记录以外的其他影片都需要面向其做推荐,在进行影片推荐前还需要满足围合数的概念。在此过程中对最大围合数的基本定义为:通过当前所有比对用户数量与当前所有比对层数和相除的方式,将其作为确定数,直至某部影片出现次数高于确定数,此情况下确定将所对应影片推荐给用户1#。换句话来说,在分层聚类协同过滤个性化推荐的过程当中,对于第1层而言,在推荐影片数量不足5部的情况下则需要转移至第2层进行比对。对于3#用户而言,剩余4部影片有一定机会被推荐给用户1#。在个性化推荐算法中,此情况下还需要引入基数计算方法,即将第1层影片数量与第2层影片数量相加,得到当前比对的所有电影数量,并与所有层数相除,所得到的结果进行根号处理,在算值低于3的情况下的,仅对第2层电影数量进行计算。换言之,此情况下对于3#用户而言,若剩余4部影片中有3部电影的出现次数高于前一步骤中所计算的最大围合数结果,则将这3部影片推荐给1#用户。在尚未推荐完毕的情况下,其他步骤按照相同方法进行处理。
各相关行业领域对协同过滤技术的应用一直备受业内人士的关注与重视。但由于协同过滤算法自身存在一定的局限性,即在数据信息相对稀疏且冷启动的情况下会对个性化推荐效果产生一定程度上的影响。因此,相关人员开始尝试基于分层聚类准则,对常用分层聚类算法存在的问题进行改进,将优化改进后的分层聚类协同过滤个性化推荐算法应用于电子商务个性化推荐实践中,实现了基于用户推荐与基于项目推荐的良性融合,体现了协同过滤个性化推荐算法的整体性以及组合性特点,并通过对一系列实验数据的应用证实,经改进分层聚类准则优化后的协同过滤电子商务个性化推荐算法能够更加精确的把握相似性,达到显著提升推荐效果的目的。
以GroupLens 项目组收集MovieLens 为本次实验基础数据,用于对改进分层聚类准则条件下协同过滤个性化推荐算法质量水平的验证实验。基础数据共100000条,纳入研究的评分用户评价电影条数高于20条。实验过程中评分标准为MAE,以该参数代表用户1#相对于已经给出评分向项目的偏差度量,所关联的系数包括项目数、预测评分、实际评分,MAE 值可用于对评分结果准确性的预测,将该参数作为标准,在该值偏小的情况下意味着具备良好的推荐效果,在该值偏大的情况下的则意味着个性化推荐效果不理想。
实验结果如下所示:
在系数取值0.1的情况下,所对应的MAE值为0.7272;
在系数取值0.2的情况下,所对应的MAE值为0.7228;
在系数取值0.3的情况下,所对应的MAE值为0.7199;
在系数取值0.4的情况下,所对应的MAE值为0.7186;
在系数取值0.5的情况下,所对应的MAE值为0.7188;
在系数取值0.6的情况下,所对应的MAE值为0.7205;
在系数取值0.7的情况下,所对应的MAE值为0.7238;
在系数取值0.8的情况下,所对应的MAE值为0.7286;在系数取值0.9的情况下,所对映的MAE值为0.7349。以上数据反应了系数取值相对于MAE 值得影响,结合以上数据可见,在系数取值为0.4的情况下,基于改进分层聚类准则的协同过滤个性化推荐算法推荐效果达到最佳状态。在此基础之上,与传统协同过滤算法以及传统聚类协同过滤算法就推荐效果进行对比,对比结果同样显示:基于改进分层聚类准则的协同过滤个性化推荐算法MAE 值始终维持在较低水平,以此种方式验证经改进后的个性化推荐算法具备更为理想的推荐效果。
本文上述分析中基于最大限度降低个性化推荐偏差,提升个性化推荐效果的目的,对基于分层聚类的分层准则进行改进与优化,以弥补传统意义上分层聚类算法在个性化推荐方面存在的不足。经改进后的协同过滤个性化推荐算法实现了对基于用户推荐以及基于项目推荐两种模式与思路的融合,以经过改进的分层聚类住着呢为基本原则。通过对相关实验数据的分析发现,经改进分层聚类住着呢的协同过滤个性化推荐算法在推荐准确度方面得到了明显的提升,在MAE 值方面明显优于传统协同过滤推荐算法以及聚类准则协同过滤算法,提示后续工作中可以尝试将该算法实践应用于电子商务推荐系统中,并对推荐效果做进一步观察。