基于证据理论的网络数据不确定推荐方法

2019-03-07 05:22马丽娜

电脑知识与技术 2019年35期

摘要：随着互联网与数据处理技术的迅速发展，网络信息的与日俱增，增加了用户从网络中快速获取有用信息的难度，而个性化推荐可以根据用户的自身属性与历史行为数据，为其推荐可能感兴趣的信息或商品，对人们日常生活产生了深远影响。本文在基于证据理论的置信协同推荐算法的基础上，改进组合规则，建立改进置信推荐模型，选取Epinions评分数据进行测试，并对不同改进模型的准确度进行检验。

关键词：推荐系统;证据理论：不确定评分

中图分类号：TP393 文献标识码：A

文章编号：1009-3044（2019）35-0207-03

网络平台中的购物推荐搜索引擎为用户提供可能感兴趣的商品，但海量信息存在使得搜索结果中往往会包含一些用户不期望的冗余信息。个性化推荐在这种需求背景下应运而生，它为人们提供了一种全新的获取信息模式。推荐方法是一种信息过滤系统，用于预测用户对物品的“评分”或“偏好”。推荐的物品包括：电影、音乐、新闻、书籍、学术论文、搜索查询以及其他产品。本文基于证据理论的置信协同推荐算法，引入软评分方法，用软评分机制度量用户对物品评价的不确定性，结合K邻近算法计算用户的近邻用户圈，用改进证据组合规则将圈中用户的商品评分进行融合，建立改进证据组合规则的置信协同推荐模型，最后将融合后评分高的物品推荐给目标用户。最后用数据Epinions验证改进模型的有效性。

1 相关理论基础

定义1设Θ={θ1，θ2，…θn}表示X所有可能取值的完备集合，且Θ内的所有元素是两两互斥的，称Θ为X的辨识框架。证据理论是建立在幂集2Θ={A：A∈Θ}上的。

定义2设Θ是X的辨识框架，则从集合2Θ到[0，1]的映射m为2Θ上的基本信度分配（BBA）函数，如果满足：

式中m（A）是事件A的信度分配，表示对A的信任程度。对空集中分配的基本信度代表了辨识框架的不一致性和不完整性。

定义3（D-S证据组合规则）设m1和m2是辨识框架Q下的两个证据E1和E2相对应的BBA，焦元为A，∈Θ，则合成规则为：

定义4（Dubois和Prade合成规则）设m1和m2是辨识框架Q下的两个证据E1和E2相对应的BBA，焦元分别为Ai和Bj，则合成规则为：

定义5（Smets合成规则）设m1和m2是辨识框架Q下的两个证据E1和E2相对应的BBA，焦元分别为A1和A2，则合成规则为：

2 基于改进证据组合规则的置信协同推荐算法

近年来，许多研究表明，在利用D-S合成规则进行证据推理时，会出现不符合常识的结论，直接影響推理决策的正确性和可靠性。为了更好地融合不同用户对物品的评分，改进合成规则，引入DP合成规则和Smets合成规则，建立改进证据组合规则的置信协同推荐算法。其步骤如下：

1）软评分生产机制：根据偏概率模型（Partial probabilitymodels）和幂集方法（Power set approach），将传统“硬评分”数据转换成“软评分”。

2）社区挖掘：通过用户关系网利用标签传播算法（LPA）对用户进行社区分类，在各社区中分别计算用户的相似度，利用改进的KNN算法筛选近邻用户。

3）信息融合：用不同的证据组合规则将近邻用户的物品评分进行融合，将融合后评分高的物品推荐给待推荐的用户。

3 实例分析

本文选取Epinions数据集，其中包含硬评分和用户关系两个部分组成。在硬评分部分，评分值由低到高为1到5，步长为1，每个用户都至少评价了20个物品，并且在用户关系网中，每个用户至少认识10位其他用户。该测试的数据集一共有40163位用户，评价了139738件物品，一共产生了664824条评分记录。这40163位用户的信任关系有487183层。

3.1 D-S合成规则下的推荐过程

利用标签传播算法（LPA）将40163名用户划分为4个社团。不同社团的部分用户展示在表1中。

利用D-S证据理论对各个物品的评分进行融合，得到表2物品推荐表。

计算平均绝对误差（DS-MAE）和混淆矩阵（DS-Recall）值评价推荐模型的准确度。DS-MAE值越小说明出错的概率越小，也就是测评的结果越好，准确度越高。在实验结果中，期望较高的回收率，DS-Recall值越大时，说明准确度越高。

先将数据分为10组，再分别计算出结果准确度，10个测试组的平均绝对误差（DS-MAE）的平均值为0.7748，回收率（DS-Recall）的平均值0.5335。

3.2不同合成规则下改进推荐算法的结果对比

对证据理论的置信协同推荐模型进行改进，引入DP合成规则和Smets合成规则，建立改进证据组合规则的置信协同推荐模型。在模型改进的基础上分别计算不同合成规则下推荐结果准确度，并与D-S组合规则结果进行对比分析。

利用Smets合成规则得DS-MAE的平均值为0.680，DS-Recall的平均值为0.547，使用Smets合成规则以后DS-MAE减少，DS-Recall增加，这说明整体的准确度也会增高。

DP合成规则的DS-MAE的平均值为0.477，DS-Recall的平均值为0.577，使用DP合成规则以后DS-MAE明显减少，DS-Recall增加，这说明通过DP的合成规则，推荐的准确度有了大幅度的提高。

表3展示了使用不同的合成规则以后得到的DS-MAE值和DS-Recall值，通过比较可以发现，使用DP合成规则之后整体的准确率得到提高。

4 结论

社交网络的不确定性信息处理方法是推荐系统研究的热点和难点。本文在证据理论框架下，引入软评分系统，结合了社团识别算法和K近邻算法，提出ECR算法，对物品进行推荐并对数据的灵敏度进行检验。考虑到传统D-S组合规则的局限性，本文引入新的合成规则和推荐算法ECR-Sm和ECR-DP来提高推荐准确度。在这些算法的研究基础上，对数据集Epinions进行测试并评估测试准确度，结果表明改进的合成规则推荐模型的准确率得到提高。

参考文献：

[1]Shafer G A.Mathematical Theory of Evidence [M]. Princeton，New Jersey： Princeton University Press，1976.

[2]Wickramarathne TL et al.CoFiDS：A belief-theoretic ap-proach for automated collaborative filtering[J]. IEEE Transac-tions on Knowledge and Data Engineering. 2011，23（2）：175-189.

[3]江涛.基于DS证据理论的信息融合算、法[J].计算机科学，2013（40）：120-124.

[4]雷蕾，王晓丹.结合SVM与DS证据理论的信息融合分类方法[J].计算机工程与应用，2013，49（11）：114-117.

【通联编辑：唐一东】

收稿日期：2019-08-20

基金项目：陕西省教育厅专项科学研究计划（19JK0330）

作者简介：马丽娜（1986-），女，研究生学历，西安财经大学行知学院，讲师，研究领域为统计数据分析。