张松兰(芜湖职业技术学院,安徽芜湖 241006)
智能推荐算法研究综述
张松兰
(芜湖职业技术学院,安徽芜湖 241006)
随着网络技术和信息技术的不断发展,网络中的信息资源大量增长,如何在海量的信息资源中找到用户需要的信息成为一大研究热点,智能推荐技术为此问题提供了便捷手段。本文概述了智能推荐系统组成,重点介绍了几种智能推荐算法及其优缺点,最后对该领域的发展方向进行了展望。
智能推荐;协同过滤;关联规则
随着互联网的广泛应用,网络化和信息化技术不断推进,网络中的信息资源呈爆炸性增长[1],同时计算机、移动终端及多媒体技术也在不断更新,人们可以便捷地利用电脑或手机访问网络获取自己想要的信息资源。丰富的信息资源为人们带来极大便利的同时,一方面产生了信息的严重过载问题[2],另一方面用户很难从众多的网络资源中及时准确地获取所需要的信息。如何帮助用户快速高效地在浩瀚的网络资源中找到有用信息,缩短查询时间,提高效用性价比,智能推荐技术为解决此问题开辟了新途径,为用户提供自动“信息找人”的便捷通道。
推荐技术分为主动式推荐和被动式推荐[3]。被动式推荐的技术有分类浏览和关键词搜索。分类浏览用树型结构表示商品或信息的分类,如果商品或信息分类不唯一或不易准确归类,用户使用这种推荐方式查询信息花费时间多、推荐效率低。关键词查询需要用户给出待查找的关键词,在系统范围内寻找与关键词相匹配的内容,如果关键词选择不当,推荐出来的商品或信息量会很大,因此这种方法对关键词的准确度要求较高。被动式推荐自动化程度低,不易发现不同用户的内在需求;针对性差,要求用户具备相应的技能。主动式推荐,又称智能推荐技术,实质上是一种信息过滤技术,从众多信息中提取出有用的信息,以数据挖掘理论为工具,通过收集用户的行为日志,分析用户的偏好并向其推荐感兴趣的信息,为用户和信息生产者双方提供便利。
2.1 智能推荐系统组成
智能推荐系统一般由三个部分组成[4],即信息存储、信息处理和智能推荐。(1)信息存储:记载用户登录网站的相关信息,如登录信息、浏览内容、操作信息等。(2)信息处理:从信息存储部分得到数据内容进行数据预处理,包括数据清洗[5]、数据过滤、数据选择、数据集成等,并将清洗后的数据整理成符合要求的数据记录,根据研究问题的需要选择是否导入数据库。(3)智能推荐:把处理后的数据按照推荐算法实施推荐过程并将结果反馈给用户。在整个系统中智能推荐算法是系统的核心,对推荐的结果起着至关重要的作用。
2.2 智能推荐算法
智能推荐算法主要有基于关联规则的推荐、协同过滤推荐、基于内容的推荐、基于效用的推荐等算法[6]。
2.2.1 基于关联规则的推荐
关联推荐法,在数据分析的基础上为寻找数据集间的相关性,首先找出事件中频繁发生的项目之间的关联性,形成X→Y形式的关联规则,得到用户感兴趣的事件,然后进行智能推荐,关联推荐法属于无监督的学习方法。
如果某一规则同时满足最小支持度(事件X和事件Y同时发生的概率称为支持度)和最小置信度(在发生事件X的基础上发生事件Y的概率称为置信度),则称此规则为强规则。
关联规则推荐过程:首先设定最小支持度和最小置信度,然后从数据集中找到不低于最小支持度的频繁项集,再利用前一步中得到的高频项集来产生满足最小置信度的强规则,最后根据强规则实施推荐[7]。关联规则挖掘的相关算法有以下3种。
2.2.1.1 Apriori算法
Apriori算法是挖掘关联规则频繁项集的典型算法,其核心思想是基于两个阶段频繁集的递推。首先基于先验知识设定最小支持度和最小置信度,通过扫描事件集找出所有的频繁1项集,在此基础上找出频繁2项集,如此迭代找出满足最小支持度的所有频繁集,由频繁集产生强关联规则,然后使用前面找到的频繁集产生满足最小置信度的强规则,从而推荐出用户感兴趣的事件。在数据集比较大时使用递推方法扫描数据集会比较耗时,效率比较低,另外在实时多变的知识推荐中可能难以产生规则,这是Apriori算法的两大缺点。
2.2.1.2 基于划分的算法
为避免Apriori算法扫描大数据集的低效问题,Savasere等设计了基于划分的算法。该算法先把整个数据集分为相互无交集的多个小块,每次仅扫描其中的一个块生成频繁集,再组合前面所产生的频繁集,最后计算这些项集的支持度。该算法是一种并行算法,一个处理器扫描一个子块产生频繁集,处理器之间相互通信来产生全局的频繁项集。此算法中处理器间的通信及处理器生成频繁项集制约算法的效率。
2.2.1.3 FP-树频集算法
在频繁项集产生过程中,J.Han等采用分而治之的策略,提出了FP-树频集算法。基本思想为:在第一次扫描数据集之后,将数据集中的频繁集压缩到一棵频繁模式树(FP-tree)上,再按决策树的思想将FP-tree分解成一些条件子树,每个子树与一个长度为1的频繁集相关,最后对这些条件树进行挖掘。此算法对长度不同的规则适应性比较强,同时,效率也较Apriori算法高。
2.2.2 协同过滤推荐
协同过滤推荐算法的基本思想为:通过研究用户的网络行为,寻找有相似行为的用户或有共同兴趣的事件,找到用户或事件间的关联性,然后根据相关性实施推荐[8]。协同过滤算法主要分为基于用户的协同过滤算法、基于项目的协同过滤算法和基于模型的协同过滤算法[9]。
2.2.2.1 基于用户的协同过滤
基本思想为:利用用户对商品或事件的评分来计算出不同用户间的距离,将彼此间距离小的用户定义为最近邻来寻找有相似兴趣的用户,然后根据目标用户的最近邻来预测目标用户可能感兴趣的商品或事件,最终完成推荐过程。基于用户的协同过滤技术的推荐步骤[10]如下。
步骤一:计算不同用户间的距离或相似度。用户上网对商品或事件的关注程度用距离这一参数来表示,选定的距离阈值会影响推荐系统的准确性,这是此算法的一个关键参量。计算相似度的方法有:首先对各隐性或显性评分进行量化处理,选择欧式距离、皮尔逊相关系数或余弦相似度作为向量模型的距离;选择Latent Semantic Analysis(LSA)、Probabilitistic Latent Semantic Analysis(PLSA)、Latent Dirichlet Allocation(LDA)方法作为主题分析方法的距离。
步骤二:形成最近邻。对目标用户根据第一步计算出的距离找出其兴趣相近的最近邻集合。
步骤三:实施目标推荐。根据目标用户的最近邻集合预测目标用户对不同商品或事件的评分,取其前N个较高的商品或事件反馈给目标用户完成推荐过程[2]。
2.2.2.2 基于项目的协同过滤算法
此算法中,用户规模比较大时,相似度计算会呈非线性增加,计算的时间复杂度也会增加,得到的用户间相似度稳定性较差。Sarwr[11]于2001年改进了相似度的计算方法,提出了基于项目的协同过滤算法,其区别在基于项目的协同过滤算法的相似度计算环节中,计算的是项目之间的相似度。
2.2.2.3 基于模型的协同过滤算法
此算法不需要借助评分数据进行相似度计算和评分预测,而是利用机器学习、数据挖掘等算法对评分数据进行挖掘建立评分预测模型,再根据模型完成目标用户对目标项目的评分预测。常用的基于模型的推荐算法主要有:(1)基于奇异值分解方法,将用户—项目评分矩阵中的用户和项目投影到一个低维空间上,在这个低维空间上计算相似度并进行推荐。(2)聚类算法,按照物以类聚的思想,将相似的用户(或项目)进行聚类,在同一个类别中预测目标用户的评分进行推荐。
UA-DLLME用超声处理代替了DLLME中传统的分散剂,实现了更为高效和绿色的萃取过程。实验操作程序如下:准确移取待测元素标准工作液置于10 mL具塞离心管中,然后加入适量络合剂,充分摇荡后调节酸度,加入萃取剂,用纯水定容至10 mL,充分摇匀后超声振荡5 min,以3 000 r∕min的转速离心5 min。待水相和有机相完全分离后,弃去水相,用注射器小心抽取有机相10 μL注入非水相CVG反应器进行测定。
协同过滤推荐算法适用于复杂的非结构化信息,但如果系统出现了新用户,由于没有该用户信息无法计算与其他用户间的相似度,从而不能完成推荐工作。随着系统规模扩大,系统复杂度和开销也会越大,可扩展性较差,因而存在“冷启动”、稀疏性等问题。
2.2.3 基于效用的推荐
基于效用的推荐建立在对用户使用项目的效用情况上,其关键问题是如何为用户创建一个效用函数,因而推荐模型很大程度上依赖于效用函数。此推荐方法的优点是能把非产品的属性考虑到效用计算中,不存在冷启动和稀疏问题,对用户的偏好变化敏感。
2.2.4 基于内容的推荐
基于内容的推荐不需要根据用户对项目的评价意见,而是利用机器学习方法根据用户评价对象的内容来学习用户的偏好,计算其与待预测项目的相似程度,从而实施推荐,推荐过程所用的机器学习方法有决策树、神经网络等。
基于内容推荐方法的优点:(1)不需要其他用户数据,不存在冷启动问题和稀疏问题。(2)可以为有特殊兴趣爱好的用户或新项目进行推荐。(3)对推荐出的项目具有可解释性。
缺点是要求内容能抽象成有意义的特征,且特征内容结构性较好。
基于知识的推荐交互性很强,可理解成是一种推理技术,用一种个性化方法在大量潜在候选项中找到用户感兴趣或有用的物品。它不需要用户评分数据,也就不存在启动问题。基于知识的方法因所用的功能知识而异,效用知识是项目如何满足特定用户的知识。用户信息可以是任何能支持推理的知识结构、已规范化的查询或更详细的用户需要表示。其特点是能将用户需求映射到产品上,并能考虑非产品属性,但推荐是静态的。
网络技术和移动终端技术快速发展,互联网呈现出资源过剩,智能推荐技术在网络信息中的运用表现在如下几个方面。
3.1 智慧城市
徐小奇[12]在城市公共交通中利用数据挖掘和数据库技术开发智能推荐系统,为乘客推荐空驶出租车的地点,为出租车司机快速推荐乘客的位置。蒋鸿玲[13]则利用MapReduce算法跟踪出租车的GPS位置信息,为出租车司机或乘客推荐最佳停靠点,实现自适应实时路况的优化推荐。
3.2 广播电视媒体
陈都、苗方[7]等在广播电视媒体中根据用户历史行为以及对媒体和应用内容的效用评估,将用户信息与内容信息进行关联匹配,通过智能推荐引擎技术预测用户可能感兴趣的内容,输出个性推荐列表返回给用户,并保持推荐结果新颖性和多样性。
3.3 电子商务
吴振涛[2]针对电子商务资源的信息过载问题,开发基于商品评论的智能推荐,使用户能够从电子商务网站中快速、准确、有效地选择满足其需要的商品。在电子商务常用的推荐技术中,引入社会关系因素,对协同过滤方法进行优化,提高智能推荐的准确度和可信度,同时提高了信息的使用效率。
3.4 智慧旅游
黄连盛[14]在旅游产业中运用云计算、互联网等来实现对旅游信息的搜集与发布,运用智能推荐技术发挥智慧旅游管理系统的优势作用,方便客户通过网络与移动设备实现对旅游资源与相应服务信息的有效获取。
3.5 网络课程教学图书管理
滕薇、王光明[15]针对学习者社群的特征,将学习者的学习兴趣作为主要属性,利用自适应共振理论神经网络进行聚类,然后通过关联规则产生个性化的课程推荐,智能化地为学习者进行在线选课提供参考。徐杰[16]在网络教学中根据需要和学生兴趣搜索、选择学习资源,完成网络教学的智能推荐,实现个性化教学,探索网络教学模式的改革。
杨建平[17]利用现有的图书管理销售系统中用户对图书借阅、收藏或者购买的记录,通过关联规则的原理,分析图书之间的关联度。根据分析结果向管理者提供图书之间的关系,向借阅者推荐相关图书,增加借阅量或图书销售,使用户快速发现相关的书籍。将智能推荐技术运用于互联网图书销售,可为用户提供更加便捷、有效的图书获取手段。
3.6 网络广告
史雯昱、马辉民[18]等根据用户的偏好、兴趣和行为,将智能推荐技术用于网络广告中,针对RSS广告的个性化推荐,设计了一种基于RSS的个性化网络广告推荐系统,识别潜在的广告用户,将符合用户需求的广告传递给用户。
智能推荐技术在电子商务、智慧城市、智慧旅游、广播电视媒体、图书管理销售系统及网络广告等方面得到了广泛的应用,有效地为用户提供了个性化推荐服务,提高了网络信息资源的利用效率。
随着网络技术和信息技术的不断发展,网络中的信息资源呈爆炸性增长,如何在海量的信息资源中找到用户需要的信息,智能推荐技术为网络用户提供了便捷手段。本文概述了智能推荐系统组成及智能推荐算法,而如何根据用户特征准确、有效地为用户推荐所需信息仍需要进一步研究。
[1]戎袁杰.基于深度挖掘的个性化智能推荐方法研究[J].信息技术与信息化,2016(7):108-111.
[2]吴振涛.基于社会关系的智能推荐技术在电子商务中的应用研究[J].中国商论,2016(15):56-57.
[3]魏衍君,楚志凯.电子商务智能推荐技术研究[J].商丘职业技术学院学报,2011(2):41-44.
[4]许梦妮,刘晶晶.基于智能推荐的网络购物系统的设计研究[J].软件工程,2016(4):46-48.
[5]张晗,潘正运,张燕玲.旅游服务智能推荐系统的研究与设计[J].微计算机信息,2006(3):170-173.
[6]李俭霞,孙建.智能推荐技术在电子商务中的运用[J].中国电子商务,2010(10):2-3.
[7]张勇杰,杨鹏飞.基于关联规则的商品智能推荐算法[J].现代计算机,2016(4):25-27.
[8]陈都,苗方,金立标.广电智能推荐系统的应用研究[J].电视技术,2016(1):102-105.
[9]付加星,孟佳娜,沈杭春,等.基于智能推荐的电子商城购物系统设计[J].计算机时代,2015(6):39-41.
[10]刘树栋,孟祥武.一种基于移动用户位置的网络服务推荐方法[J].软件学报,2014(11):2556-2574.
[11]黄传飞.基于项目的协同过滤算法的改进[D].南昌:江西师范大学,2015.
[12]徐小奇.基于海量出租车轨迹数据的智能推荐系统研究[J].电子制作,2016(18):27-28.
[13]蒋鸿玲,张楠.基于MapReduce的出租车停泊点智能推荐算法[J].计算机应用与软件,2016(2):254-258.
[14]黄连盛.智慧旅游管理与智能推荐技术[J].旅游纵览,2016(4):64.
[15]滕薇,王光明.基于Web的网络课程智能推荐机制[J].鞍山科技大学学报,2006(3):274-277.
[16]徐杰,丁振凡.基于搜索引擎结果由教师过滤的个性化教学推荐[J].电脑知识与技术,2010(6):9692-9694.
[17]杨建平.基于关联规则的图书智能推荐系统的算法改进[J].信息通信,2014(10):13.
[18]史雯昱,马辉民.基于RSS的个性化网络广告推荐系统[J].武汉理工大学学报:信息与管理工程版,2009(4):569-572.
Algorithm Survey on Intelligent Recommendation
ZHANG Song-lan
(Wuhu Institute of Technology, Wuhu Anhui 241006, China)
With development of internet and information technology and substantial growth of internet resource. How to find needful information on internet resource is one problem. Intelligent recommendation provides convenient method for this question. The constituent of intelligent recommendation system is introduced. Special stress is laid on several kinds of intelligent recommendation algorithm and their merits and drawbacks. Finally, the development tendency is prospected.
intelligent recommendation; collaborative filtering; association rules
2017-03-16
安徽省教育厅自然科学重点项目“基于大数据挖掘的电力系统稳定性研究”(KJ2016A767);芜湖职业技术学院重点科研项目“基于网络化视频的智能推荐技术研究与应用”(Wzyzrzd201707)。
张松兰(1973- ),女,副教授,硕士,从事人工智能、复杂系统建模与仿真研究。
TP301
A
2095-7602(2017)06-0051-04