大数据与推荐系统研究

2018-02-24 13:55金铭

电脑知识与技术 2018年34期

金铭

摘要：在大数据时代下，互联网信息呈井喷式爆发，信息过载问题的严重性越发凸显。目前，最直接、有效缓解信息过载的方法是使用大数据推荐系统，关于大数据推荐系统的研究越来越被信息行业所重视。文章关于推荐系统与大数据进行了具体分析，并对大数据环境下推荐系统的核心技术展开了详细探索，同时也丰富了该领域的理论研究成果。

关键词：大数据;推荐系统;协同过滤

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）34-0253-02

随着移动终端和移动应用在各个行业的大力普及，推进了互联网信息数量的不断增长，大数据也因此引起了社会各界高度关注。仅仅在2009年，Google公司就为美国贡献了将近540亿美元的GDP值，因此，大数据技术的不断进步对社会各个领域的影响不容忽视[1]。

科技在丰富人类生活的同时，也出现了弊端，比如造成信息过载现象，人们如何高效地从大量数据中提炼出满足自身需求、有价值的信息则是目前信息领域中的热点问题。当今处理信息过载问题首选办法为推荐系统，但是传统集中式推荐系统在处理海量数据、异构数据时会出现不同问题：例如处理大规模的数据时，推荐系统性能发挥不全;推荐系统缺少实用性和即时性;推荐系统其算法的扩展与改进问题;指导理论的发展有待提升等。

目前在大数据背景下，针对推荐系统的研究工作已取得一定进展，但尚未形成一套有效的支撑理论，同时期技术尚未成熟。为了更好地推进研究工作的发展，筆者关于大数据与推荐系统展开了具体分析和探索。

1 推荐系统与大数据

1.1传统推荐系统

传统概念中的推荐系统在推荐环节主要由数据预处理和数据生成构成。在数据预处理过程中，推荐系统首先要汇总大量数据的特征，征集数据用户的个人倾向和偏好以完成数据预处理;在数据生成过程中，推荐系统结合用户兴趣搜索，在推荐算法中得出推荐项目数据集合[2]。

偏好获取技术的定义是借助数据信息跟踪用户兴趣、选择倾向、性格特点等信息，以便做到实时向各个用户发出不同的网络需求服务，同时依据用户需求的变动适时做出调度[3]。传统用户偏好获取技术根据建模及启发式的两种形式来搜集用户偏好信息和数据，以显性获取或是隐性获取的两类原则执行相关任务。启发式数据用户获取法通过其他简约的方法来获得用户需求，比如相似度计算等方法和建模式法则等，而建模式法则是借助引入机器学习技术获得一个模型。推荐系统根据用户偏好及时间迁移，研究得出自适应法，比如遗传计算法、神经网络技术法可以充分解决以上问题。

以信息过滤的角度来分析，传统意义上的推荐系统具体细分为混合推荐系统、内容推荐系统和协同过滤推荐系统。在移动终端大量普及的时代，推荐系统也因此诞生。

1.2 大数据的概念和特征

在短期中应用常规软件对其内容和数据进行获取、处理的集合项被称作是大数据。大数据技术可以从各个不同种类的数据中直接、快捷地获取有价值信息。下述几大应用技术均可采取大数据技术，比较常见的可扩展存储系统、云计算平台等[4]。

大数据的显著特征众多，信息领域的学术界将大数据特征归纳后统称作“5 V模型”，具体为：价值大密度低、难识别等。

1.3 传统推荐系统与大数据推荐系统的不同

传统推荐系统与大数据推荐系统二者之间存在显著差异，具体如表1所示。

2 大数据研究文献的统计

我们国家针对“大数据”的了解与探索迟于西方国家。在20个世纪80年代时候，知名学者阿尔文·托夫勒便在《第3次浪潮》中将大数据誉为“第3次浪潮的华彩乐章”。截止到目前，西方发达国家关于“大数据”的探索和运用一直遥遥领先于全球其他国家，沃尔玛、甲骨文等全球物联网紧紧抓住大数据打来的商业机会。

纵观我国，“大数据”领域的研究成果一直较少，其中比较有代表性的为韩青青等人发表的《我国大数据领域研究论文的计量分析》，该著作分别从文献、关键词和作者3个层面探讨了我国大数据，并得出下述结论：近年来，我国大数据研究表现出快速发展的水平，并成为当今研究领域热门课题，并渐渐发展成完善的文献研究机构，但是研究力量依然有待提升。

3 大数据环境推荐系统核心技术

3.1 选择分布式文件系统管理数据

传统意义上的推荐系统技术主要负责对少量数据计算、小容量文件的储存，同时其属于面对服务器的架构。中心服务器会对用户消费、浏览等数据进行搜集和整理，并对这些数据进行计算以此得出满足用户个性化需求的推荐。但是一旦数据规模超过其可处理的容量时，服务器难以实现对全部数据的下载和存储，此时会采用外存置换算法及多线程技术，但是I/O上的性能瓶颈仍然存在，最终系统处理大量的数据时效率下降，推荐结果生成时间延长。因此总结出传统集中式的中心服务器难以有效、高速的应对和处理海量用户、海量数据，无法适应推荐系统新的发展需求。

大数据推荐系统实质上由分布式文件系统管理数据构成，而在这些数据构成上主要是借助集群技术来实现的。大数据推荐系统其系统框架可满足大数据高效、及时处理海量数据和数据可扩展等要求，系统架构为处理大数据创造了有利条件[5]。Hadoop的分布式文件系统（Hadoop distributed file system， HDFS架构是其中的典型。大数据推荐系统其文件系统主要采用网络多台节点存储的方式，和传统文件系统有着明显区分，数据文件存储打破了传统意义中其在本地单一节点的存储模式，可以在互联网环境下存储在多个节点中。除此之外，文件的位置索引管理通常为一个或者若干个节点来处理，用户端通过集群来实现数据的读取与录入：利用中心节点得到文件存储的具体方位，接下来和集群中的节点进行通讯操作，最后以网络形式把节点内数据进行读取存于本地。上述过程中出现的冗余数据存储、文件切分、数据出错恢复及中间网络通信等各个环节均由HDFS负责管理，实现形式是将客户端的HDFS接口进行调用。

3.2 借助集群技术处理的分布式计算架构

通过集群来处理分布式计算的框架比较常见，典型的有Hadoop软件的MapReduce功能属于分布式计算框架，可看作开源计算框架的一种。MapReduce算法的关键点为“分而治之”，在读取大量数据集的处理方面，通过以由主节点负责的各个分界点来实现，接下来利用对各个分界点中间结果的统一处理，得出计算结果。MapReduce架构可以解决编程过程中分布式存储、容错均衡和网络通信等各种问题，并将处理过程化作两个函数：map和reduce。Map宗旨是完成主任务的细分，将其分成多个小任务;reduce主要是对分解之后多任务处理结果的統一整合[6]。

3.3 推荐算法并行化

越来越多的集团式上市企业或大规模企业对可处理海量数据的推荐算法有着强烈需求，所需处理的海量数据甚至可达到TB级乃至PB级的存储量。典型的案例有：腾讯Peacock主题模型分析系统则要对十亿文档、百万主题以及百万词汇开展主题模型训练，单是百万词汇乘以百万主题的算法矩阵，其数据存储量已达3TB，百万主题和十亿文档相乘的矩阵，则高达3 PB的数据存量。达到TB级乃至PB级的数据存储量不能采用传统串行推荐算法，因为串行算法在处理海量数据时性能低下，耗费时长过多，不适应大数据处理的需求。而大数据集的推荐系统则采取分布式文件系统以及并行算法，该并行化技术满足了高效处理海量、分布式、异构数据等的要求。

参考文献：

[1] 孟祥武，纪威宇，张玉洁. 大数据环境下的推荐系统[J]. 北京邮电大学学报，2015，38（02）：1-15.

[2] 刘海鸥. 面向大数据知识服务推荐的移动SNS信任模型[J]. 图书馆论坛，2014，34（10）：68-75.

[3] 刘海鸥.面向云计算的大数据知识服务情景化推荐[J]. 图书馆建设，2014（07）：31-35.

[4] 刘进，胡大权，陈家佳.面向海量数据的推荐系统的研究[J]. 现代电子技术，2016，39（12）：59-61+65.

[5] 岑凯伦，于红岩，杨腾霄.大数据下基于Spark的电商实时推荐系统的设计与实现[J]. 现代计算机（专业版），2016（24）：61-69.

[6] 米可菲，张勇，邢春晓，蔚欣.面向大数据的开源推荐系统分析[J].计算机与数字工程，2013，41（10）：1563-1566.

【通联编辑：唐一东】