柳益君 何胜 李仁璞 吴智勤 武群辉
摘 要 为了满足大数据环境下高校图书馆用户对于结果多样性的个性化推荐服务的需求,提出高校图书馆大数据应用策略和应用方案。将大规模网络分析、大数据挖掘和Hadoop云计算技术作为沟通应用需求和用户行为大数据应用的核心方法和重要技术工具。在基于Hadoop云平台的应用方案中,使用大规模网络分析方法发现用户的多样主题兴趣,使用大数据挖掘方法发现用户的多样情境兴趣,进而提供结果多样性的個性化推荐服务。
关键词 高校图书馆 大数据 个性化推荐 多样性
分类号 G250.76
The Research on the Application of University Library Big Data for Diverse Personalized Recommendation Services
Liu Yijun, He Sheng, Li Renpu, Wu Zhiqin, Wu Qunhui
Abstract In order to meet the needs of university library users in the big data environment for the personalized recommendation services with diverse results, the application strategy and application scheme of university library big data are proposed. The large-scale network analysis, the big data mining and the Hadoop cloud computing technology are used as core methods and important technical tools to connect the application requirements and the application of user behavior big data. In the application scheme based on the Hadoop cloud platform, the users diverse topic interests are discovered by the method of large-scale network analysis and the users diverse interests are discovered by the method of big data mining to provide the personalized recommendation services with diverse results.
Keywords University libraries. Big data. Personalized recommendation. Diversity.
1 高校图书馆知识服务中的多样性个性化推荐问题
1.1 个性化推荐系统的多样性评价指标
目前,个性化推荐系统已经广泛应用于电子商务、电影和视频网站、图书馆电子资源服务等领域,用以解决信息过载问题。用户满意度、准确率是推荐系统的重要传统评测指标。用户是推荐系统的重要参与者,他们的满意度是推荐系统最重要的评测指标。但是,用户满意度不能离线计算,只能通过用户调查或者在线实验获得。预测准确率是推荐系统最重要的离线评测指标,该指标指示推荐系统或推荐算法预测用户行为的能力。但是高准确率并不能保证用户的高满意度。近年来,为了全面提高用户满意度,学者们提出了多样性、覆盖率、新颖性、惊喜度等评测指标。用户的兴趣是多样的,在教学视频网站中,用户可能既喜欢看《数据结构》一类的计算机类课程,也喜欢《高等教育学》一类的教育类课程。为了满足用户广泛的兴趣,推荐列表需要能够覆盖用户的多样兴趣,即推荐结果需要具有多样性[1]。结果多样性的个性化推荐成为推荐系统领域的研究热点。
周涛[2]指出,推荐的多样性与准确性存在两难困境,但也有研究者设计算法时便考虑到两者,使两者都得以明显提高。多样性和准确性之间尽管存在竞争,但是两者之间关系错综复杂,在实践中可以彼此平衡、共同提高。要提高推荐结果的多样性而不失准确性,不仅需要提取用户的显性兴趣,还需要发现用户的多样隐性兴趣和广泛深层需求。
1.2 高校图书馆多样性个性化推荐服务的需求
高等院校是国家知识创新、科技创新系统的重要组成部分。随着大数据时代的来临,高校图书馆知识服务与管理进入新的发展阶段,需要数据分析和应用模式变革以及应用软件更替,以满足广大用户日益多样化、多元化的知识需求。王连喜[3]指出,调查发现准确率高的个性化推荐系统并不能保证用户有较高的满意度,图书馆个性化推荐服务在追求准确性的同时,还需要保证推荐结果的多样性。例如,一位学生借阅了一本清华大学严蔚敏教授的《数据结构》,之后一段时间内推荐系统便只给他推荐数据结构类书籍,虽然推荐结果的准确率很高,但是多样性不足。学生会觉得自己的其他需求,如对于数据库、算法设计、软件工程类书籍的需求,并未得到满足。好的高校图书馆个性化推荐服务应该不仅能够准确预测用户的行为,而且能够满足用户多样性的深层需求,帮助用户发现那些他们可能会感兴趣但却不那么容易发现的文献,扩展用户的视野,更好地服务于高校的教学科研和知识创新。
大数据环境下,为了提供高质量个性化的知识服务,保证用户有高满意度,推动知识创新,面向多样性个性化推荐服务的高校图书馆大数据应用策略和方案研究具有重要意义。
2 大数据环境下图书馆个性化推荐服务研究现状和分析
2.1 大数据环境下图书馆个性化推荐服务研究现状
2.1.1 用户行为大数据是个性化推荐的关键资源
在数据资源方面,用户行为大数据是提供个性化推荐服务的关键资源。图书馆要提供高质量的个性化推荐服务需要充分利用用户行为大数据。互联网技术的发展给图书馆带来了革命性的发展,数字图书馆已经在迈向互联网+图书馆。智能手机、平板电脑、个人数字助理等移动终端的广泛应用为图书馆带来了充足的用户流量,挖掘用户行为特征可以发现从文献等资源信息,以及年龄、专业等用户基本信息中无法发现的潜在语义。通过读者信息行为的数据挖掘,结合读者的专业、研究方向,发现潜藏的隐性行为规律,精准定位读者的需求,进行个性化阅读推荐[4][5]。陈臣[6]基于读者行为大数据分析构建了图书馆个性化智慧服务体系。何胜等[7]将利用用户行为日志库提取用户兴趣,进而在图书检索服务中为用户提供个性化推荐。Rui Li等[8]对用户借阅行为记录大数据采用协同过滤算法建立推荐模型,取得了良好的准确率。
2.1.2 大数据挖掘和大规模网络分析是重要方法
在应用方法方面,大数据挖掘和大规模网络分析方法近年来受到广泛关注,成为高校图书馆充分利用大数据,进而提供高质量个性化推荐服务的有效手段。
(1)大数据挖掘方法的应用
李艳等[9]认为大数据挖掘可以为构建高校图书馆个性化服务提供技术支撑,并设计了大数据挖掘与决策分析体系架构模型,为用户提供“大数据+微服务”模式的个性化推送等服务。关联规则、聚类等都是重要的数据挖掘方法。He Ping等[10]使用关联规则分析图书馆大数据,挖掘读者借阅模式,取得了良好的准确性和覆盖率。Punit等[11]提出一种基于标签聚类的数字图书馆推荐系统,为文献的管理和使用提供了便利。王敏等[12]提出一种模糊聚类和模糊识别相结合的推荐方法,建立用户聚类推荐模型,取得了良好的用户满意度。柳益君等[13]讨论了大数据挖掘在高校图书馆个性化推荐中的应用,认为采用聚类挖掘可以提升文献推荐结果的新颖性。
(2)大规模网络分析方法的应用
何胜等[14]针对大数据时代高校图书馆提供个性化知识服务和学科知识服务面临的困境,提出依据用户基础信息构建社会网络模型,在Hadoop云平台上通过大规模网络分析来发现显性和隐性知识。Monika等[15]认为,图书馆用户的浏览、点击、搜索等隐式反馈行为对发现用户兴趣非常重要,并基于用户的隐式行为建立演绎社会网络来分析用户的兴趣,进而进行资源推荐。
2.2 研究现状分析和结论
分析大数据环境下图书馆个性化推荐服务研究现状可以发现,国内外学者关注图书馆个性化推荐服务,注重利用用户行为数据,提出利用大数据挖掘、大规模网络分析等方法来发现用户兴趣,关注推荐结果的准确性,但是对于图书馆的多样性个性化推荐缺乏方法论分析和实践研究。因此,本文以提供多样性个性化推荐服务为目标,研究高校图书馆用户行为大数据的应用策略及相应的应用方案,为进一步提高高校图书馆的数据服务质量提供参考。
3 面向多样性推荐的高校图书馆大数据应用策略
3.1 面临挑战及应对策略
高校图书馆多样性个性化推荐服务在大数据应用模式和实现技术两方面都面临着挑战。在应用模式方面,需要解决用户行为大数据整合、用户多样兴趣发现及表示、多样性个性化知识推荐三个层次的问题;在实现技术方面,需要面对高校图书馆计算机硬件设备资金投入有限以及实现用户行为大数据高效分析和挖掘的挑战。对于高校图书馆多样性个性化推荐的大数据应用面临的挑战,本文提出图1所示的应对策略。
图1 高校图书馆多样性个性化推荐服务面临的挑战和应对策略
大规模网络分析和大数据挖掘一方面作为图情领域用户兴趣发现和知识发现的重要方法,可以从用户行为大数据中发现用户隐性、深层的多样兴趣,提高推荐的多样性;另一方面和Hadoop云计算技术结合,可以实时高效地分析、挖掘用户行为大数据,进而构建便于与知识库互操作的用户本体模型。将大规模网络分析、大数据挖掘和Hadoop云计算技术作为沟通高校图书馆多样性个性化推荐服务应用需求和用户行为大数据应用的核心方法和重要技术工具,有内在必然性。
3.2用户多样兴趣发现的方法
提高推荐多样性的方法诸多,近年研究表明,充分利用用户的行为大数据,以及应用大规模网络分析和大数据挖掘方法,可以发现用户的多样隐性兴趣和广泛深层需求,从而提升推荐的多样性而不失准确性,使用户具有高满意度。
3.2.1大规模网络分析方法提升推荐结果的多样性
安维等[16]指出,社会化网络分析有助于提高推荐多样性。大规模网络分析用于分析用户行为及相互关系、挖掘用户隐性兴趣,对提升推荐的准确性和多样性都有作用。Hao Wu等[17]通过基于大众分类的社会系统来发现用户之间的社会关系,挖掘用户的隐性兴趣,提升推荐的多样性和新颖性。Qiong Wu等[18]提出一种基于心理学社会好奇的推荐模型,在社会网络中发现用户偏好和用户好奇,实验结果显示该推荐方法在准确性、多样性和覆盖率上都有良好表现。
3.2.2大数据挖掘方法提升推荐结果的多样性
作为一种重要的大数据挖掘方法,聚类在保证推荐准确性的同时显著提高了多样性。Tevfik等[19]通过物品聚类,以准确性微小下降的代价显著提高了推荐多样性。Joan等[20]通过领域对象的语义聚类来适应用户的多样化偏好,同时保持良好的准确性。Xianfen Xie等[21]基于用户行为和主题关系进行两步聚类,实现网页推荐,实验结果表明该推荐方法在准确性和多样性方面均有优势。
3.3 图书馆大数据处理相适应的本体建模
为了整合图书馆用户行为大数据以及表示所发现的用户多样兴趣,需要进行用户建模。用户建模有本体建模方法和非本体建模方法。隨着大数据时代的来临,为了方便海量知识数据的共享,以本体为核心的关联数据技术被引入图书馆知识资源服务[7][22][23]。何胜等[7]将用户行为本体建模和大数据挖掘相结合为用户提供个性化服务,利用用户日志库提取用户显性兴趣和隐性需求本体,在数据挖掘技术上实现了Hadoop+MapReduce大数据处理框架与基于本体的用户行为日志分析的无缝结合,使得海量数据分析更加实时高效。与非本体建模相比,用户本体建模方便与海量图书库及知识库的互操作,在图书馆大数据处理方面更有优势。
3.4 高校图书馆适用的开源Hadoop软件平台
高校图书馆大数据具有数据量大、种类多、数据增加迅速以及高价值的4V特征。4V特征给大规模网络分析和大数据挖掘带来的挑战是数据输入输出交换和数据移动的代价高,以及分布式建模和模型分析。高校图书馆用户行为大数据的分布式、并行处理和分析需要新的云计算基础构架支撑。
高校图书馆大数据服务的开展面临着资金投入受限的阻碍[14]。诸多云计算设施中,开源云计算软件平台Hadoop可以在一般配置的普通电脑所组成的集群上搭建,软硬件成本较低,适合硬件购置经费紧缺的高校图书馆采用。它采用分布式文件系统HDFS(Hadoop Distributed File System)實现可靠数据存储服务,并利用MapReduce映射/规约技术和Spark内存计算技术提供高容错性、高扩展性、高可靠性的大数据处理服务,为用户提供一个高效的大数据分析和处理平台。同时,运行在Hadoop平台上的软件产品诸多,形成完整的生态系统。例如,开源数据挖掘和机器学习库Mahout包含了聚类、分类、推荐过滤、频繁子项挖掘等多种广泛使用的数据挖掘算法,可以方便地扩展到云中,对高校图书馆大数据进行全面、灵活的分析和处理。
4 面向多样性推荐的高校图书馆大数据应用方案
4.1 应用方案设计
根据图1所示的高校图书馆大数据应用策略,本文提出以满足用户多样性要求的个性化推荐服务为目标的高校图书馆大数据应用模式,以及与之相适应的基于Hadoop云计算平台的技术实现路径,形成面向多样性个性化推荐的高校图书馆大数据应用方案,见图2。依据大数据理念,以大规模网络分析和大数据挖掘为用户多样兴趣发现的核心方法,以用户行为本体的构建、用户兴趣本体的构建和应用为主线,应对用户行为大数据整合、用户多样兴趣发现及表示、多样性个性化知识推荐三个层次的挑战,形成多样性个性化推荐的应用模式体系;同时,应用相关工具和大数据最新技术手段,形成应用模式的技术实现路线,最终基于Hadoop大数据处理平台实现高校图书馆多样性的个性化推荐服务。
图2 面向多样性个性化推荐的高校图书馆大数据应用方案
4.2 用户行为大数据整合
用户行为大数据分为显式反馈和隐式反馈。印鉴等[24]指出,充分利用大规模隐式反馈数据是大数据时代核心价值取向的体现。王智圣等[25]在Hadoop+MapReduce分布式计算框架下基于隐式用户反馈构建推荐系统,在推荐准确性和多样性、冷启动适应能力等多方面都具有优势。因此,以大数据理念为指导,全面收集用户行为数据,不仅收集显式反馈,如借阅、下载、评分等,而且收集大规模隐式反馈,如点击、浏览、检索等。对不同格式数据,如用户基本信息数据、用户服务日志等,进行统一用户行为本体建模,经过数据分类和清洗,融合成格式一致、结构清晰、扩展性好的基础数据,完成用户行为大数据的整合。应用云平台上SQL关系型数据库和NoSQL非关系型数据库HBase等数据库技术实现用户行为大数据的基础收集和存储,以及RDFS/OWL本体模型的存储、检索和应用。
4.3 用户多样兴趣发现及表示
以构建多样兴趣本体、建立多样兴趣本体数据库为目标,分析和处理基于用户行为本体模型的用户数据。构建用户兴趣本体需要提取用户显性兴趣本体和用户隐性兴趣本体。用户显性兴趣是情感的一种显性表达,如概念、关键字等,可以通过用户日志的分析统计获取,以克服情感缺失问题。提取用户隐性兴趣是为了满足用户的深层情感需要,解决多样兴趣发现问题。在方法上,利用大规模网络深度分析和大数据挖掘方法,全面深入地分析和挖掘用户行为大数据,发现用户的多样隐性兴趣和深层需求。在技术上,基于Hadoop+MapReduce/Spark开源云计算框架实现数据处理和分析,借助开源大规模网络图分析工具JGraphx实现大规模网络分析,借助开源大数据挖掘工具Mahout实现大数据挖掘。
4.3.1 通过大规模网络分析来发现多样隐性主题兴趣
主题兴趣属于用户的中长期兴趣。依据读者的借阅信息、专业等基础数据,将用户按某类属性抽象成图节点,属性之间的联系为边,构建各类大规模社会网络分析模型,应用图深度分析和学习算法发现网络中的社区、专家、关键人物,研究各种知识的转移和共享模式,发现不同学科不同时期用户感兴趣的主题等隐性兴趣,并分析演化规律和发展趋势。
4.3.2 通过大数据挖掘来发现多样隐性情境兴趣
情境兴趣是用户的短期、动态兴趣。情境对于推荐系统的重要性已经得到了众多学者的普遍认可[26]。Panniello等[27]指出,若合适地融合情境因素,可以在情境推荐中取得准确性和多样性的良好平衡。聚类、神经网络等数据挖掘方法皆是挖掘情境兴趣的有效手段。翟丽丽等[28]提出一种基于情境聚类优化的协同过滤算法,采用k-means算法对用户进行情境聚类。吴书等[29]指出,情境大数据能更细致地刻画用户行为背景,并使用循环神经网络进行时序情境建模。采用大数据挖掘方法挖掘两种情境兴趣:环境情境兴趣和用户情境兴趣。
(1)采用神经网络建模预测环境情境兴趣。时间和位置是两种重要的环境情境信息。分析不同学科用户检索、浏览等数据特征,加入时间、位置等情境影响因素,对用户偏好进行神经网络非线性建模,预测用户的动态环境情境兴趣。其中,时间情境信息可以通过服务日志中的时间戳数据获取,地理位置情境信息则可以通过手机等终端设备采集。
(2)采用聚类结合协同过滤、关联规则等基础推荐算法,挖掘用户情境兴趣。用户情境包括年龄、性别、年级、专业、学习阶段等。通过情境聚类将用户群体划分成多个不同用户集合,同一集合内的用户具有相似情境,不同集合间的用户情境相差较大。对用户大数据进行多层聚类,采取合适的聚类层数有利于发现多样用户情境兴趣。以图书推荐为例,图3是基于两层用户情境聚类和协同过滤的用户情境兴趣挖掘示意图。发现A类用户与C类用户都喜欢《大数据时代》与《大数据思维与决策》,具有相似的用户情境兴趣,便为A类用户推荐C类用户喜欢的图书《深度学习方法及应用》,即将该图书提取为A类用户的隐性用户情境兴趣。
图3 基于两层用户情境聚类和协同过滤的用户情境兴趣挖掘
4.4 多样性的个性化推荐
根据用户多样兴趣本体,分析用户的兴趣,准确定位用户需求,通过个性化检索、首页推荐、e-mail、移动短信推送等途径,提供多样性的知识推荐服务,满足用户对高质量个性化知识服务的需求。利用本体和云平台上关联数据技术,结合海量书目库、专利库、知识库实时检索,应对知识迷航,为用户提供实时性、交互性的推荐服务,实现高校图书馆多样性个性化推荐服务。
5 结语
本文针对大数据环境下高校图书馆提供满足用户多样性要求的个性化推荐服务面临的挑战,提出应对策略并设计应用方案。在应用方案中,不仅提取用户的显性兴趣,而且提取用户的多样隐性兴趣,采用大规模网络深度分析方法发现用户中长期的多样主题兴趣,采用大数据挖掘方法发现用户短期的多样情境兴趣,并在Hadoop大数据处理平台上借助于相关开源工具实现,最终实现高校图书馆的多样性个性化推荐服务。本文的研究对图书馆数据服务的应用模式创新和应用方法创新有一定借鉴意义,可以帮助高校图书馆提升个性化服务的质量,推进高校知识创新。
参考文献:
[1] BOIM R, MILO T, NOVGORODOV S. Diversification and refinement in collaborative filtering recommender[C]// ACM International Conference on Information and Knowledge Management. ACM, 2011:739-744.
[2] 周涛. 个性化推荐的十大挑战[J]. 中国计算机学会通讯, 2012, 8(7):48-61.
[3] 王连喜. 图书馆个性化推荐面临的问题与挑战[J]. 现代情报, 2013, 33(6):3-5.
[4] 叶莉, 凌征强. 基于数据挖掘的高校图书馆信息服务[J]. 图书馆工作与研究, 2017(5):70-74.
[5] 何波, 章宏远. 大数据下的图书馆个性化推荐研究[J]. 新世纪图书馆, 2017(6):62-63.
[6] 陈臣. 图书馆个性化智慧服务体系的构建[J]. 图书馆建设, 2014(11): 37-45.
[7] 何胜, 冯新翎, 武群辉, 熊太纯, 李仁璞. 基于用户行为建模和大数据挖掘的图书馆个性化服务研究[J]. 图书情报工作, 2017, 61(1):40-46.
[8] LI R. Simulation research of university library recommended system based on big data and data mining[C]. 3rd International Conference on Machinery, Materials and Information Technology Applications, 2015, 202-206.
[9] 李艷, 吕鹏, 李珑. 基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识, 2016(2):60-68.
[10] PING H. The Research on Personalized Recommendation Algorithm of Library Based on Big Data and Association Rules[J]. The Open Cybernetics & Systemics Journal, 2015, 9(1):2554-2558.
[11] GUPTA P, JHA R S. Tagging Based Evolving Recommendation System for Digital library System[C]. 4th International Symposium on Emerging Trends and Technologies in Libraries and Information Services, 2015, 139-142.
[12] 王敏, 嵇绍春. 基于模糊聚类和模糊模式识别的数字图书馆个性化推荐研究[J]. 现代情报, 2016, 36(4):52-56.
[13] 柳益君, 何胜, 冯新翎, 武群辉, 熊太纯. 大数据挖掘在高校图书馆个性化服务中应用研究[J]. 图书馆工作与研究, 2017(5):23-29.
[14] 何胜, 熊太纯, 周冰, 柳益君, 武群辉. 高校图书馆大数据服务现实困境与应用模式分析[J]. 图书情报工作, 2015, 59(22):50-55.
[15] AKBAR M, SHAFFER C A, FAN W, et al. Recommendation based on deduced social networks in an educational digital library[C]// Digital Libraries. IEEE, 2014:29-38.
[16] 安维, 刘启华, 张李义. 个性化推荐系统的多样性研究进展[J]. 图书情报工作, 2013, 57(20):127-135.
[17] WU H, CUI X C, HE J,LI B, et al. On improving aggregate recommendation diversity and novelty in folksonomy-based social systems[J]. Personal and Ubiquitous Computing, 2014, 18(8):1855-1869.
[18] WU Q, LIU S Y,MIAO C Y, et al. A Social Curiosity Inspired Recommendation Model to Improve Precision, Coverage and Diversity[C]. 2016 IEEE/WIC/ACM International Conference on Web Intelligence, 2016, 240-247.
[19] AYTEKIN T, KARAKAYA M ?. Clustering-based diversity improvement in top-N recommendation[J]. Journal of Intelligent Information Systems, 2014, 42(1):1-18.
[20] BORRAS J, MORENO A, VALLS A. Diversification of recommendations through semantic clustering[J]. Multimedia Tools & Applications, 2016:1-37.
[21] XIE X F, WANG B H. Web page recommendation via twofold clustering: considering user behavior and topic relation[J]. Neural Computing and Applications, 2016:1-9.
[22] 任武.基于本体查询的图书推荐方法研究[J].新世纪图书馆, 2017(9):48-51.
[23] 何胜,熊太纯,柳益君,叶飞跃,赵小荣.内存计算框架下的图书馆文献服务及案例研究[J].图书馆论坛,2017.
[24] 印鉴,王智圣,李琪,苏伟杰.基于大规模隐式反馈的个性化推荐[J].软件学报,2014,25(9):1953-1966.
[25] 王智圣,李琪,汪静,印鉴.基于隐式用户反馈数据流的实时个性化推荐[J].计算机学报,2016,39(1):52-64.
[26] 谭学清,何珊.用户情境下基于信息增益和项目的协同过滤推荐技术研究[J].情报杂志,2014,33(7):165-170.
[27] PANNIELLO U,TUZHILIN A,GORGOGIIONE M. Comparing context-aware recommender systems in terms of accuracy and diversity[J]. User Modeling and User-Adapted Interaction, 2014,24(1):35-65.
[28] 翟丽丽,邢海龙,张树臣.基于情境聚类优化的移动电子商务协同过滤推荐研究[J].情报理论与实践,2016,39(8):106-110.
[29] 吴书,刘强,王亮.情境大數据建模及其在用户行为预测中的应用[J].大数据,2016, 2(6):110-117.
柳益君 江苏理工学院计算机工程学院副教授。江苏常州,213001。
何 胜 江苏理工学院计算机工程学院副教授。江苏常州,213001。
李仁璞 江苏理工学院计算机工程学院教授。江苏常州,213001。
吴智勤 江苏理工学院图书馆馆员。江苏常州,213001。
武群辉 江苏理工学院图书馆副研究馆员。江苏常州,213001。
(收稿日期:2017-08-10 编校:谢艳秋)