纪文璐,王海龙,苏贵斌,柳 林
1.内蒙古师范大学 计算机科学技术学院,呼和浩特010020
2.内蒙古师范大学 教务处,呼和浩特010020
伴随互联网、云计算、大数据以及移动技术的迅猛发展,其产生的数据已呈现爆炸式增长[1]。由于数据规模庞大、繁琐,重叠信息过多等问题,导致用户对数据利用率不高,无法准确提取有价值的数据。因此,从繁杂的数据海洋中捕获有效数据,为用户提供高质量信息,成为推荐系统领域的研究目标[2]。例如大型电子商务平台亚马逊的个性化产品推荐、潘多拉播放器的音乐推荐、Facebook社交网络的好友推荐以及YouTube网站的视频推荐等著名的推荐系统以及其他各类个性化领域[3],它们从各自擅长的角度提供不同领域的内容推荐,运营商在获得可观的利润的同时也为广大用户提供便利。开心的时候适合听什么样的歌曲,刚有宝宝的父母喜欢什么商品的可能性更大等一系列问题的解决,都使得被推荐用户得到更好的体验[4]。由此可见,推荐系统已经成为现代化社会一种极其有效解决用户需求的方式[5]。推荐系统的本质是从一堆毫无条理的原始数据中,通过提取用户数据的特征属性、兴趣爱好,和对用户的偏好挖掘来进行相似的信息推送,从而完成构建。推荐系统是以推荐算法为核心,融合各类模型以及通过建立用户与项目之间的数学二元组关系,并利用存在的相似性来判断并分析数据,进而挖掘每个用户潜在的感兴趣物品。不仅可以让用户在繁杂的内容中发现所中意的信息,也会将兴趣度高的信息展现给用户,同时应用各式推荐方法[6-8],达到优质推荐的目的。
推荐系统的概念最早在1992 年的邮件过滤系统[9]中被提出,目的是为了解决邮件过载问题。文中首次使用了协同过滤的概念,之后被广泛引用,它通过用户使用的历史记录以及各物品之间的相似程度,进而深入挖掘用户潜在的感兴趣物品[10]。推荐系统的主要构成内容包括用户、物品和推荐算法,其中推荐算法的高效性、鲁棒性都决定着推荐系统性能的优劣[11]。传统的推荐算法一般可以分为三大类,即基于内容的推荐算法[12]、协同过滤推荐算法[13]以及混合推荐算法[14]。
由于传统推荐算法中未能考虑到物品与物品之间的深层关系,IBM 公司于1993 年首次提出了关联规则模型后,Manchanda等人[15]紧接着于1999年在实际的商业交易数据应用中指出,消费者在多选项场景下,一个共同主线上所供选择的项目之间可能以某种特殊的关系进行关联,即用户会在不同情况下做出不同选择。例如在购物时,一个类别选择的结果会影响到另一个类别,因为这两者之间可能使用关系互补(如面粉和酵母),也可能因为购买周期相似(如啤酒和尿布),或者更多无法被容易发现的深层规则。因此在实际应用中,研究人员将关联规则技术运用到推荐算法中来提高推荐性能,从而弥补传统推荐算法的不足[16]。
通过归纳总结一些学者在推荐算法中使用关联规则技术的研究结果,分别从不同角度来分析和解决传统推荐算法在推荐过程中存在的各类问题。例如缓解基于内容推荐中的冷启动问题,消除协同过滤推荐中的数据稀疏问题以及扩展当下热门的社交网络推荐中用户友好匹配的问题,进而从介绍、分析、实验的角度将关联规则技术引入到各类模型中去解决问题,并在研究过程中指出其优缺点、研究结果以及未来的研究热点方向。
自协同过滤(Collaborative Filtering,CF)算法被提出之后,推荐系统就成为一类新兴的、有较高实用价值和关注度的学科被广大学者进行深入研究。推荐系统的核心就是推荐算法,传统的推荐算法主要由三类组成,协同过滤算法、基于内容的推荐算法以及混合推荐算法。
协同过滤推荐算法的核心思想就是充分利用与目标用户兴趣偏好相同的用户群体喜好来进行高精度推荐。其中协同过滤推荐算法主要有两种形式,分别是基于用户[17]的推荐和基于项目[18]的推荐,推荐方式如图1、图2 所示,两者当中基于用户的推荐出现较早,但二者的推荐原理基本相同。基于用户推荐的基本原理就是通过提取所有用户在使用过程中产生的历史数据特征值,去发现他们对某一种或多种项目的偏好程度,然后经由算法对数据进行相似度处理,最后根据邻居用户数据组的历史偏好信息向目标用户进行高效且精确的推荐[19]。基于项目的推荐则是将基于用户推荐中用户之间的相似度计算变成了项目之间的相似度计算,据此来获得相应的预测结果,并将排名结果较好的项目信息反馈给用户,从而获取高质量推荐。由于协同过滤主要是根据用户的历史行为数据发掘偏好,因此它在推荐过程中产生的优缺点也非常明显,详见表1。为解决数据稀疏等问题[20],广大学者通过研究用户矩阵对其进行改进[21],以缓解由于数据稀疏导致的推荐效果不佳等问题。
图1 基于用户相似的推荐
图2 基于项目相似的推荐
基于内容的推荐是一种极其经典且重要的推荐方法,应用较为广泛[22],其原理就是通过对比目标用户的中意项目元数据,根据内容相似程度为目标用户产生新的推荐。例如常见购物网站的“猜你喜欢”功能,便是使用基于内容的推荐算法来为大家推荐感兴趣的商品。在电子商务模式下,推荐系统会根据目标用户的兴趣喜好来对商品的特征进行提取,构建一个用户兴趣特征向量,之后根据提取的特征值对商品进行比对,从而为目标用户推荐优质商品。虽然基于内容的推荐原理简单,但与协同过滤相比,新项目“冷启动”[23]和“数据稀疏”[24]问题的缓解是其重要优势。另外一个优势就是用户间的独立性。因为每个用户的兴趣描述模型仅仅基于该用户本身的经历,所以用户之间不会相互影响[25],但同时也存在新用户的冷启动以及无法处理其他类型数据等问题,详见表1。
表1 传统推荐算法分析比较表
混合推荐是通过组合多种推荐技术来解决各单体算法模型的不足。文献[26]提出一种基于特征变换和概率矩阵分解的混合社交网络推荐算法,该方法针对数据稀疏和冷启动问题,以概率矩阵因式分解方法作为框架,将社交网络中用户的信任特征作为推荐的有效依据,其中各类特征值在推荐系统中所占权重还需研究改善。根据用户需求和兴趣特征,文献[27]提出一种基于学习风格和个性化的混合推荐策略,通过获取学习者不同的学习兴趣和风格,对不同的学习风格进行聚类处理,使用关联规则算法挖掘学习者的频繁序列,对学习者的兴趣进行分析,最后通过评级来完成个性化推荐。该方法做出了个性化的推荐引导,但对于如何准确获取学习者的特殊学习情况与需求,仍需更加深入地发现和获取。文献[28]针对新用户冷启动问题较为严重的情况,提出一种综合评分和对稀疏边缘降噪以及矩阵模型分解相结合的混合推荐算法,以用来提高推荐精度并对冷启动问题做出相应改善,但是冷启动问题依然存在,如何使用改善的混合方法模型去优化推荐效果将会是下一个研究任务。文献[29]总结了6 类混合推荐算法,分别是加权混合、交叉调和、特征混合、瀑布型混合、特征扩充以及元模型混合推荐算法,但仍有更为针对性和特定条件下的混合算法等待研究者的发现。
所谓关联,即反映一个事件与其他事件存在一定程度上的依赖或者关联,并可以根据相关规则进行预测。关联规则[30]是一种使用较为广泛的模式识别方法,例如购物分析、网络分析等,其中购物分析典型的应用场景就是在商场中找出共同购买的集合。关联规则用于表述数据内隐含的关联性,一般用三个指标来衡量关联规则,分别是置信度、支持度和提升度。支持度表示规则中两者同时出现的概率,且无先后顺序之分;置信度表示A 出现,同时B 出现的概率;提升度描述了关联规则中A 与B 的相关性。其定义分别如下所示:
定义1 设I={i1,i2,…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集,事务T 是一个项目子集,每个事务对应项目上的一个子集,即T ⊆I 。关联规则就是形如X ⇒Y 的逻辑蕴含关系,其中X ⊆I,Y ⊆I 且X ∩Y=∅。
定义2 支持度(Support),是指规则中A 与B 同时出现的概率,如果两者同时出现的概率小,则关系不大,若同时出现的概率非常频繁,则说明A、B 是相关的,即:
定义3 置信度(Confidence),展示当A 出现时B 也会出现的概率,若置信度为100%,则AB 可以捆绑推出,否则将不考虑将AB 置为关系亲密,即:
定义4 提升度(Lift),表示包含A 同时包含B 的比例,与包含B 的比例的比值。提升度大于1 且越高,正相关性越高,提升度小于1且越低则相反,即:
通常使用这三个指标来对一个关联规则进行衡量,根据三个“度”筛选出满足使用条件的关联规则。特别的,满足最小支持度和最小置信度的规则被称为强关联规则,此条件下如果提升度大于1则是有效的强关联规则,提升度小于1则是无效的强关联规则,提升度等于1则表示两者相互独立无关系。
数据挖掘指从大量数据中经算法来搜索潜藏信息的过程[31],它是用来获取关联规则属性筛选数据的一种重要方法,优质关联属性的获取也为基于关联规则推荐算法提供较好的基础支撑。数据挖掘属于一种决策支持过程,主要基于人工智能、机器学习以及模式识别等,还可以与用户或知识库进行交互。挖掘对象也不局限于某类型的数据源,可以是关系数据库,也可以是数据仓库、文本、多媒体数据等包含半结构化数据甚至异构性数据的数据源。
对数据挖掘[32]而言,其目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。最著名的算法是1993年Agrawal等人提出的Apriori算法[33],其算法思想是:首先找出频繁性至少和预测最小支持度相同的所有频集,然后由其产生强关联规则,最小支持度和最小可信度是为发现有意义的关联规则而预先设定的两个阈值。文献[34]对上述算法进行优化研究。文献[35]针对挖掘效率的不足,提出一种基于时间戳和垂直格式的关联规则挖掘算法,用于解决效率较低的问题。
关联规则反映了事物之间的相互依赖性和关联性,关联规则技术则是将数据资料中产生的高关联性项目组进行收集处理,然后构建起一定的规则。它本质上是根据大量的数据来发现项与项之间存在的有趣而密切的相关关系,根据定义又可归纳为大于或等于最小支持度阈值和最小置信度阈值的规则,被称作为强关联规则,而关联规则技术的最终目标就是为了寻找强关联规则并应用它。具体步骤为:根据历史记录准备数据,计算项与项之间支持度、置信度以及提升度的主要指数,随之产生可信的有效关联推荐。
在运用关联规则技术对数据进行处理的过程中,所处理的变量可分为布尔型和数值型。其中布尔型基本都是离散化和种类化的数据,而这些恰恰可以反映出变量之间的关联规则。例如在沃尔玛购物时,首先使用关联规则挖掘技术对交易资料库中的数据进行挖掘,并且设定Support 和Confidence 两个最小阈值,符合需求的关联规则应同时满足这两个条件。例如经过挖掘获取了关联规则「啤酒,尿布」,满足两个阈值后,便可以获得「啤酒,尿布」的关联规则,且该关联规则行为将会被记录,由此商品的推荐行为则根据相应的关联规则进行。另外关联规则技术对数据的处理分类除变量类别外,还有数据的抽象层数以及维数。
传统推荐算法一般情况下并不会考虑两者间被推荐前存在何种深层关系,推荐质量的提升因此会受到一定影响,而基于关联规则的推荐算法则可以发现被推荐物品两者间的深层关系[36],将数据进行归类处理,并可以处理复杂的非结构化数据等,准确率也会随着数据积累不断提高[37]。本文将会围绕关联规则推荐算法在国内外的研究现状以及进展,将数据的规则处理问题以变量类别、抽象层次、数据维度三个角度分析并应用关联规则技术,从传统推荐算法和社交网络推荐[38]中寻找存在问题的解决办法,并对研究方法进行总结。
关联规则处理数据的变量类别有布尔型和数值型两种。布尔型关联规则处理的值都是离散化、种类化的,可以显示变量之间的某种关系。而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理。例如:性别=“男”=>职业=“教师”,是布尔型关联规则;性别=“男”=>age(年龄)=33,涉及的年龄是数值类型,因此是一个数值型关联规则。数值型和布尔型的关联规则在推荐过程中广泛存在,例如非结构化数据领域应用的推荐以及电子商务推荐等。
推荐依靠的数据通常是根据目标用户的兴趣偏好获得,并通过与预测物品之间的数据分析匹配,从而完成基于内容推荐的效果。该方法虽可以直接获取推荐结果,但是由于方法简单,只考虑数据信息等问题,会导致推荐结果的多样性下降,同时还伴随着新用户的冷启动问题。为解决冷启动问题,Osadchiy等人[39]建立了一种独立于个人用户兴趣的集体偏好模型,该模型无需复杂过程进行评分,而是通过成对的关联规则标准来进行推荐。实验表明了基于成对关联规则的推荐在对抗冷启动问题上有较好的推荐效果。同时,多媒体等非结构化数据的处理在推荐过程中表现不佳,因此尝试将数值型关联规则技术融入其中,根据数据之间存在的相关规则对其进行挖掘,通过相互的关联特征进行更为准确的和高效的推荐。例如文献[40]提出了一个智能音乐系统,系统根据用户先前的收听模式风格、当前播放等数据内容对用户可能更喜欢听的下一曲进行预测。为了计算更精确的音乐相似性,文中使用关联规则技术来挖掘发现用户的收听模式,从而进行预测。伴随音乐发现服务,利用音乐收听模式信息和音乐数据相似度来对新歌进行推荐,研究结果充分展示了系统以及推荐效果的可行性。
伴随着项目数据的不断积累,稀疏性加剧,为使用关联规则技术解决协同过滤的数据稀疏等问题,文献[41]提出一种基于关联规则的协同过滤改进算法。针对由于协同过滤算法过分依赖用户历史数据集的交易数据而导致的数据稀疏性问题,该算法首先使用Apriori 算法将规则进行拆分,得到一对一或者多对一形式的规则,在形成不同的关联规则匹配方法后根据相似度阈值的大小选择对应的算法进行推荐,将高评分项目推送给用户。实验证明,基于关联规则的协同过滤改进算法在一定程度上缓解了数据稀疏性问题,提高了推荐精度,但是推荐作用的提升还需要取决于推荐项目之间的关联性多少。因此发掘项目之间更多不同层次之间的关联关系,匹配更多的关联规则将会从另一个方向来提高推荐准确性,变量类别推荐方法目前已被运用到音乐推荐、电子商务等个性化推荐中,并取得了不错的成效。
基于变量类别的推荐方法,主要推荐机制是根据用户对数据的使用情况,发掘用户与数据之间的关联规则。使用关联规则算法对使用情况进行预测,对其获取的关联规则进行拆分整合,并形成对应的规则形式,在此基础上根据对支持度、置信度的约束获取推荐效果的改变。这样的方法虽可以在一定程度上缓解传统协同过滤算法中的数据稀疏和冷启动问题,但是只考虑用户对数据的使用则会影响推荐的覆盖面和准确度。因此,将变量类别的关联规则技术与传统推荐算法相结合虽可以缓解经典推荐问题,应用于一些领域中进行高效推荐,但在研究中仍需要更多考虑相关用户及数据的潜在关联内容和规则特性,使其可以得到充分发掘,并据此进行合理高质量的推荐。
关联规则中数据的抽象层次分为单层关联规则和多层关联规则,但是在单层关联规则中所有变量未考虑它们的层次不尽相同,具体表现在协同过滤推荐中最重要的用户与物品相似度关系。例如:联想笔记本=>华为笔记本,是一个细节数据上的单层关联规则;但计算机=>华为笔记本,是一个高层次和细节层次之间的多层关联规则。
文献[42]提出一种基于多层关联规则的推荐算法,主要目的是为了解决当下传统推荐算法存在的数据稀疏性问题和可扩展性问题。该算法通过挖掘多层关联规则条件下用户对商品的兴趣偏好,对用户建立预测模型。文章通过建立一套基于关联规则的电商推荐系统,将系统的规则挖掘分为两个核心部分:一部分以多层关联规则模型为基础获取可靠规则并写入规则库;另一部分则是通过用户的使用操作来实时产生推荐结果,并将结果以特定的形式反馈系统。实验证明,对比协同过滤推荐而言,多层关联规则推荐有效地缓解了协同过滤中数据稀疏和可扩展性的问题。
刘君强等人在文献[43]中将关联规则中的一种分类标准以单层关联规则和多层关联规则进行划分。其中单层关联规则挖掘算法为经典Apriori 算法,但在多层关联规则中却并不能较优地使用,因此产生了针对于多层关联规则的挖掘算法,但该方法无法对关联规则进行跨层挖掘。文章由此定义了一种跨层扩展频繁项目图Clefig,并据此提出相应算法用来高效地挖掘单层、多层特别是跨层之间的关联规则。实验结果表明,该方法在多层、跨层以及支持率阈值较小的单层挖掘中有较大的算法优势,并且可以进一步推广到数值型的跨层关联规则挖掘中。
协同过滤推荐一般是依靠用户评分和存在的大量历史数据集,由此便会存在数据稀疏和冷启动问题。基于该类问题,研究学者将关联规则技术引入协同过滤推荐中,在协同过滤计算相似度的过程中加入了多层关联规则推荐技术,使得数据稀疏和冷启动问题得到一定程度上的缓解,并且增强推荐的拓展性。对于兴趣相似度问题,文献[44]就电影推荐提出了一种针对产品特征进行Vague值提取与表示的方法,由于通常需要根据产品特征属性的相似度对产品提前分类,因此又引入了产品分类树的概念,经过将产品分类树、关联规则、特征提取与相似度分析结合,得出了多样化的推荐效果。实验结果表明,该方法与传统推荐方法相比,无论在推荐精度还是推荐多样性上都更为有效。通过研究发现[45],在基于内容的推荐中使用抽象层次的关联规则技术可以发掘物品之间存在的隐含关系,从而挑选大量高质量的规则,并快速匹配用户浏览记录和关联规则数据库,提高关联规则的推荐效率,以此来更好地为海量在线用户形成实时推荐。
基于抽象层次的推荐机制主要是通过发现被推荐内容之间更为隐含的不同层次知识,并且根据发掘的用户与物品的深层次偏好,通过相似度的计算来获取更为优质的推荐内容。但通常情况下,单一层次的规则结构往往伴随着准确度不足等问题,因此更多的研究指向多层次的规则发现,并由此获取更为多样的关联规则,挖掘出隐藏于表层之下的丰富知识,为用户实现高质量的信息推荐需求。综上分析可知,基于抽象层次的关联规则推荐,也可以有效地缓解由于数据稀疏、用户相似度带来的一系列问题,而且还能够提高算法的可扩展性和多样性,对预测未评分待推荐的高质量物品提供了一个全新的高效的展示平台。相比于变量类别的方法,抽象层次的推荐方式将使得隐含知识和推荐内容更为丰富。但是单一层次的规则化推荐对于推荐的准确性仍力不从心,而多层规则的使用算法则需要继续从数据挖掘精度和算法运算速度等方面进行改进,以此来获取更高质量的规则内容和推荐效果,为实际的使用带来更多的研究空间。
现实存在的大部分数据,例如商品购置等通常只能涉及到一个维度的数据关联,在处理和推荐社交网络等不同环境下多属性和多维度的数据时,关联规则技术的优势就会凸显。例如:性别=“女”=>职业=“医生”=>年龄“28”=>爱好=“旅行”,这条规则就涉及到多种维度的各类字段信息,是几个维度上的一条共同关联规则。
王俊红等人在文献[46]中提出了一种基于多维概念格的关联规则发现方法,目的是为了在引用多维数据序列对概念内涵进行不同维度描述的过程中,同时使用关联规则提取方法,由此来发现最大频繁多维数据序列与不同维度属性数据之间的紧密关系。实验结果表明,在同样的算法作用但不同的数据属性背景下,获取的规则也不尽相同,多维概念格所获得的规则不单单描述了概念格之间的关系,也显示了各不同属性背景彼此之间的关系。因此,多维度的关联规则更容易发现内容丰富的高质量信息。同时协同过滤算法在推荐过程中将用户-项目评分矩阵作为数据的获取来源,导致推荐时无法准确发现用户与项目属性之间的关联关系。黎丹雨等人在文献[47]中提出了一种运用于推荐算法系统的多层多维数据模型,该模型在挖掘数据多维序列之后输出关联规则,并用得到的关联规则进行评分矩阵的修改,从而对原有用户与项目之间的关联关系进行多维改进。实验结果表明,该模型对推荐系统的性能有较大的提升,由此证明用户与物品属性之间的多维规则对推荐系统的影响不容忽视,但该模型在挖掘多维关联规则时由于“祖先”关系,会存在一定的冗余规则,如何更好地发现冗余规则仍需要探索研究。
通常社交网络中产生的部分用户数据都会是多维度下的一条关联规则,基于社会网络的推荐可以完美地模拟现实,并且通过好友的推荐增加彼此信任度。由于移动设备以及互联网的兴起,更多的人希望通过社交平台来拓展自己的人际关系,但同样社会化的推荐也存在一定的缺陷。例如由于不是根据共同兴趣爱好而匹配在一起的好友,他们的兴趣爱好也会不尽相同,导致算法的准确率偏低,也存在数据稀疏等问题。于是将多维度的关联规则技术融合进社交化推荐当中,用来保证推荐品质。
部分学者通过分析社交网络中的兴趣类别推荐和交换差异数据,运用不同手段将关联规则技术融合到社交网络的推荐过程中,其中最重要的切入点就是兴趣相似点的发掘和使用。文献[48]提出了一种碎片信息相似度的计算方法,随着信息方式的快速变化发展,长文博客减少,传播信息的主要方式变为通过碎片化进行。但由于没有上下文作为参考,使用句子相似度来判断其是否为一类信息则是最为显著和有效的办法。相似度包含了多种维度的数据关联属性,根据多维数据条件下获取的关联规则便可以更为全面地匹配好友信息。胡文江等人[49]提出了一种基于关联规则的社会网络改进好友推荐算法,利用关联规则算法建立用户关系矩阵,获取关系矩阵下的多维关联规则后计算并且排列结果,同时对用户之间的友好关系以及用户标签相似度进行改进,以提高推荐效率,增加推荐权重。文献[50]指出,用户兴趣是社交媒体分析的重要组成部分,而兴趣则由多个不同维度属性的数据构成一个完整的用户兴趣数据集,作者通过对其捕捉和理解来发现社交媒体网站的独立用户通常属于多个不同的兴趣社区,并且他们的兴趣随着时间而不断变化。因此,建模和预测动态用户兴趣,对社交媒体分析研究中的个性化推荐提出了一个巨大的挑战。通过研究基于时间加权关联规则挖掘的时间重叠社区检测方法,提出了一种针对该研究问题的新颖解决方案,并使用Movie Lens 和Netflix 数据集进行了实验。实验结果表明,该方法在推荐精度和多样性方面优于几种现有方法。
用户社交网络中产生的推荐对用户可以快速匹配好友,使得好友圈子更加丰富,虽然在关联规则技术的运用下,多维社交化网络的推荐日益成熟,但对于用户使用而言,有关用户隐私安全的保护[51]仍然是值得关注和解决的一个重要内容。李学国等人[52]针对社交网络中大量隐私数据的保护问题,提出了一个基于有损分解来保护隐私数据的策略,通过对数据特征重构、分散存储、随机干扰、设置密码保护等方式,将社交网络隐私保护的关联规则数据挖掘工作进行实现。黄海平等人[53]则从图结构入手,针对现在研究中对于社交网络图数据隐私保护采取无权值的方法做出改进,提出了一种基于非交互的差分隐私保护模型的带权值的社交网络图扰动方法。该方法通过添加扰动噪音、根据权值将边划分等步骤,获得较好的运行效率和数据效用,从而有效保证了用户数据的隐私安全,但该方法更适用于数据量较为庞大的社交网络数据分析,具有一定局限性。
运用处理数据维度较多的关联规则技术,主要是发掘更多的属性特质,从而获取更丰富的高质量信息内容。其一方面在社交网络推荐的使用中能有效解决推荐时所产生的稀疏性问题,提高推荐精度,增加用户兴趣好友的获取质量,同时保证用户的数据使用得到安全保障。另一方面相比于上文其他的两种推荐方法,多维度数据属性下的关联规则发现和使用,会发现更多用户与项目属性、项目与用户属性之间的丰富关联关系和内容知识,这将极大地保证推荐效果的品质,提升推荐的多样性,以及拓展更为便捷的推荐服务。如此,基于关联规则的推荐方法将会以现有传统推荐方法为基础,更好地完善推荐的种类、效果、覆盖面以及丰富度。
但是数据维度推荐方法中同样存在着一些重要的问题,例如单维度的规则并不会对更多的新内容提供丰富的支持,因此推荐效果也会大打折扣;而多维度的关联规则也并非最优方法,还需从评分矩阵或用户相似度方面着手改进,亦可将抽象层次和多维度数据进行结合,构建多层模型并融入多维数据序列,以寻求更为准确和丰富的用户推荐使用方法。
本文基于关联规则中三种不同的推荐方法,通过分析和总结部分研究学者对关联规则技术的运用,来阐述关联规则技术在推荐中可以解决的相关问题以及仍存在的相关问题,详细优缺点对比及相关内容见表2。在推荐算法中使用关联规则技术,不仅仅可以更深入地发现被推荐内容彼此之间的关联,并且对于传统推荐算法消除存在的缺陷及其他问题的改进都有一定程度的提升,但存在的部分问题也迫在眉睫,仍需要做出更多的研究和改进,以谋求对推荐结果准确性的提升和丰富度的保证。
上述的三种基于关联规则的推荐方法虽然在推荐过程中各具优势,但是它们的局限性也是有目共睹的。第一,使用变量类别的推荐方法虽可以缓解传统算法中的经典问题并应用于非结构化个性推荐中,但其过分地依赖用户历史数据是一大问题,并且研究中发现仅使用简单的关联规则算法获取的成对规则效果单一,并没有更丰富的属性和关联,因此推荐效率不高,应用范围有限。第二,使用抽象层次推荐方法较上一类方法性能有所提升,并对算法的可扩展性有所帮助,也可以发现物品之间的深层次隐含关系,但对于单层次规则和部分数据属性而言,它的局限性也较为明显,例如单层次规则提取准确度较低,从而导致推荐的精度下降,也存在由于无法正常跨层获取和处理内容导致的推荐效果不佳,因此存在方法的局部使用局限性。第三,在数据维度推荐方法中,虽可以更好地执行推荐,但单维规则不能较好地获取新内容中隐含的规则知识和属性,同时用户相似度和不同背景下发掘的海量属性也会对推荐结果造成不小的影响,关联属性值的过多获取对于推荐效果而言也并非多多益善,因此如何获取有效的、关键的、非冗余的多维数据规则属性将会是改变推荐效果局限性的主要办法之一。
经过几十年的发展,推荐系统凭借其可以高效、独特地为用户获取信息的特性,已成为诸多领域中不可或缺的重要因子,其研究已经体现出了重大的社会价值、经济效益以及技术创新,同时对推荐技术不断更新的研究也是现代社会用于有效解决信息科学的中心问题之一。尽管基于关联规则的推荐算法在几个方面已经取得较好的研究成果,但其应用研究在取得长足发展的过程中仍然面临着诸多的挑战和新的难题,值得深入调研。
(1)基于关联规则的推荐虽然可以较好地缓解数据稀疏性和冷启动的问题,但它们仍将是推荐算法的难题,虽使用了不同的方法去改进,但问题依然存在。如何通过抽取强规则来获取用户特征,提高推荐性能,挖掘多领域之间的复杂关系,并由此给出更好的推荐,将会是未来一个重要的研究方向。
(2)虽然基于关联规则的推荐解决了许多传统推荐算法的局限性难题,但是其性能评价标准以及可扩展性问题,包括用户对算法的敏感度、适应度、优化规则以及质量效果都应该成为研究的重要目标和方向。
(3)当前数据流在推荐算法运行过程中普遍存在算法安全性较差和推荐精确度较低的情况,现对其安全性的主流研究主要通过对用户使用的行为数据进行分析和处理,以此来改善算法存在的问题。例如文献[54]使用数据挖掘、频繁项集等方式将用户属性内容与蚁群算法进行融合,将蚁群收敛路径判断为安全隐患路径,并由此去除异常值,再根据挖掘算法获取频繁项集,基于频繁项集计算用户相似度,最终获得最符合用户使用的安全数据流。还有部分研究根据对用户数据的拟合来对算法的安全性和推荐的准确性做出相应改善,但仅对用户数据的属性进行分析仍存在着一定的研究局限性。因此保证算法更加安全可靠,从而为用户提供高效准确的推荐环境一直都是极其重要的研究方向。在改进时,可以从算法模型优化、用户的模糊聚类等方面进行考虑,不过分地追求用户属性的详细情况,使其通过更合适的聚类方式进行相似度计算,为用户获取更准确的数据流。还可以引入使用频率较高的差分隐私机制数据保护方法,在推荐过程中保证数据流具有更高安全性的同时,保证推荐结果高效和准确。
表2 关联规则技术处理的三种方式在推荐算法中的使用
(4)规则化数据在数值处理过程中会出现由于数值的离散化导致关键信息丢失的现象,从而影响关联规则推荐的准确性。过往主流研究通常通过平均数、中位数、随机值等相关值或预测模型来获取丢失的关键信息,对于更多的规则化数据,则将其映射到高维空间进行缺失值的处理,它会保留数据的原始全部信息,但同时也存在较大的缺陷,譬如计算量较大,并且需要在数据样本规模较大时效果才显著。在未来的对于数据处理时由于离散化导致关键信息丢失的研究中,可以从几个方面来寻求改进。例如为丢失数据信息引入区别于已有数据属性值的特殊值对其进行虚拟标记,通过其独特的表征来发现数值的缺失并进行相应的补全;或对数据使用过程中无关紧要的丢失值选择性地忽略不处理;或根据欧式距离计算缺失数据值样本周围的k 个数据,并通过k 个值的加权平均值来预测丢失值的具体内容信息等方法,都将会在一定程度上保证对关键数据信息的获取和保护,从而提升推荐效果。
关联规则及其相关研究已经逐步从互联网电子商务走向复杂程度更高的非结构化数据等处理当中,迎来更多新的研究方向。基于关联规则推荐算法的研究一直以来有着较大的科学研究价值和社会经济效益,备受应用者与研究者的关注,学者们纷纷就基于关联规则的推荐提出不同的见解和研究结果。本文通过不同的研究角度对基于关联规则的推荐算法进行了综述,并总结和展望了发展趋势,以便更好地被研究使用以及进一步提高推荐质量,未来也将会有更为深入的研究内容等待着探索。