陈 军,谢卫红,陈扬森
(1.广东工业大学管理学院,广东 广州 510520;2.广东工业大学大数据战略研究院,广东 广州 510520)
国内外大数据推荐算法领域前沿动态研究
陈 军1,2,谢卫红1,2,陈扬森1
(1.广东工业大学管理学院,广东 广州 510520;2.广东工业大学大数据战略研究院,广东 广州 510520)
大数据时代下,信息过载问题日益突出,使得大数据推荐算法研究显得尤为重要。 本文基于Web of Science和中国知网的大数据推荐算法期刊文献数据,运用文献计量、共词分析和社会网络方法,从高频关键词共现、关键词主题演进、研究动态等方面对大数据推荐算法领域的总体情况进行量化比较研究。结果显示,国外大数据推荐算法在理论和应用的研究上都领先于国内,特别是在应用上的广度和深度是国内大数据推荐算法需要加强研究的方向。大数据推荐算法朝着个性化教育、个性化医疗、个性化社会网络服务等应用领域发展。本文对促进中国大数据推荐算法理论的纵深研究、深层次的应用研究以及向着国际化发展具有一定的指导意义。
大数据;推荐算法;SNA;文献计量;研究趋势
随着大数据时代的来临,信息数据呈现爆发式增长。大数据一方面记录着大量的信息,却也让互联网用户在面对大量信息时难以把握自己所需要的信息[1]。大数据携带大信息却让人们对信息的使用率降低,这也是所谓的信息过载问题[2]。解决这一问题非常有用的方法就是推荐算法[3]。Anderson[4]在其著作《长尾理论》中给出这样的论断:“我们即将离开检索进入到推荐的时代”。推荐系统正取代信息检索,成为互联网上最受重视的应用。而随着电子商务商品个性化推荐的进一步发展,基于大数据的推荐算法受到了越来越多的关注[5]。
大数据推荐算法最早源于国外对于Hadoop系统的算法优化,Pessemier[6]在2011年便着手研究在Hadoop系统和Mapreduce框架下的推荐算法,推荐算法也第一次在大数据环境下进行相关理论研究和数据测试。Joldzic[7]致力于Hadoop集群上大型数据集的分布式处理和推荐模型的研究。而在国内,孙远帅[8]在其著作中探讨了大数据的推荐算法,并从相似度计算、基于项目层次相似度的推荐算法、矩阵并行化等角度具体阐释推荐算法如何在大数据中得以运用。孙天昊等[9]在Hadoop分布式计算中改进聚类协同过滤推荐算法。至此,国内基于原有算法的改进推荐算法的研究逐渐火热。
为了更好地把握国内外大数据推荐算法的发展情况,本研究运用共词分析和社会网络等方法致力于解决以下几个问题:①国内外大数据推荐算法领域研究热点;②国内外大数据推荐算法研究的主题演进;③国内外大数据算法的演进。
本文基于中国知网(以下简称CNKI)和Web of Science(以下简称WOS)两大权威文献数据库,对大数据推荐算法相关文献进行深度分析与挖掘。
(1)国内数据来源。国内选取CNKI数据库,全面反映大数据推荐算法在国内的研究状况。CNKI检索策略:(主题=‘大数据’+‘推荐算法’),学术界一般将2012年视为大数据元年,故检索时间跨度设为2012—2016年,检索时间为2016 年10月15 日。检索结果为学术期刊112篇。
(2)国外数据来源。国外选取WOS的核心子库,以“big data”and“recommendation algorithm”作为主题检索词,时间范围选取2012—2016年,检索时间截至2016年10月15日,检索结果114篇文献作为国际学术论文的研究样本。
本文主要运用文献计量方法和社会网络分析方法(Social Network Analysis,SNA),以CNKI和WOS两大数据库的期刊文献为数据源。运用多种文献计量和SNA的工具,对现有国内外研究大数据可视化的文献进行深度挖掘。
(1)文献计量法。文献计量分析法是利用研究性论文发表的规律,以数理统计等定量研究方法为基础,以可视化分析法直观地说明不同研究范畴间的内在联系,特别是对关键词、核心作者群以及各类共现的可视化,从而科学有效地预测科学研究的发展动向与趋势。
本文利用文献计量方法主要探究大数据可视化国内外时间序列文献分布特点、国内外对大数据可视化文献研究的学科分布特点、国内外对大数据可视化文献研究的期刊分布特点、国外对大数据可视化文献研究的国家分布特点。
(2)社会网络分析方法。社会网络分析用于描述和测量行动者之间的关系或通过这些关系流动的各种有形或无形的东西,如信息资源等。笔者借用社会网络分析的思想,将大数据可视化为主题的期刊文献视为一个整体网络,通过共词分析,将关键词共现网络直接展现出来。同时利用社会网络中心性和结构洞等相关概念对关键词进行分析与深度挖掘,以主题词构建大数据可视化领域研究热点和发展趋势。
从表1可知,国内期刊对于大数据推荐算法的研究主要集中在协同过滤、大数据、推荐系统、Hadoop、推荐算法等。而国外期刊对于大数据推荐算法的研究主要集中在big data(大数据)、collaborative filtering(协同过滤)、system(系统)、recommendation system(推荐系统)、mapreduce等。比较而言,国内外对于大数据推荐算法的研究都出现了协同过滤、大数据、推荐系统等词汇。显然,两大数据库在期刊文献上对于大数据推荐算法的研究方向与前沿上是具有相似性的。
表1 大数据推荐算法文献高频关键词
基于统计的高频关键词,本文利用SNA中个体在整体网络中的中心性概念,构建两大数据库的高频关键词中心性表。根据社会网络分析方法[12]中度数中心度的定义,在一个社会网络中,如果两个行为者之间的联系越多,那么该行为者的度数中心度越高,将处在中心位置。弗里曼[13]强调,网络中的行为者度数较低却有着很强的中介作用,中间中心度值越大其桥梁作用越强,该行为者在网络中越重要。若一个关键词在网络中处于结构洞的位置[14],说明与该关键词相联系的其他关键词之间没有任何联系,其他关键词都需要依附于该关键词而形成网络,即非冗余关系。本文参考伯特[15]给出的结构洞指数中限制度指标作为结构洞指数,构建以度数中心度、中介中心度、结构洞三个指标为核心的关键词中心性表(见表2),以表征高频关键词的重要性程度,并为后文基于共现的关键词主题演进的探究打下基础。
高频关键词中心度与关键词出现频次并没有绝对的排序联系。CNKI中心度、中介中心度、结构洞都较高的如协同过滤、大数据、推荐算法等,表明这三个关键词在整个网络中处于中心位置,其中大数据和推荐算法在网络中具有更强的中介能力。WOS中心度、中介中心度、结构洞都较高的如big data(大数据)、collaborative filtering(协同过滤),其次是recommender system(推荐系统)、mapreduce。从关键词中心性上看,国内外对于大数据推荐算法的研究方向和主题具有较强的相似性,基础方法上都依托大数据技术,如关键词hadoop、mapreduce、spark、apache spark以及云计算。协同过滤算法在大数据推荐算法中运用得最广泛,矩阵分解次之。
共词分析法主要是通过共关键词、主题词的方法,分析鉴别某一学科的主要知识结构和研究热点[16],分析学科约定,把握学科范式结构。
本研究在统计高频词汇的基础上,对国内外高频词汇进行共现分析,运用时下比较火热的词频分析工具Bibexcle对高频词汇进行共现操作,得到共现频次≥2的高频关键词共现矩阵,并导入到Netdraw中进行关键词共现的可视化展示,最终共现结果如图1所示。
表2 大数据推荐算法文献关键词中心性
关键词之间的距离远近也代表着关键词之间的联系紧密程度[17],从这个角度上来看,推荐算法、社交网络、大数据、协同过滤、推荐系统、hadoop、云计算、mapreduce聚集成为各自小网络的中心,并紧密围绕在协同过滤和大数据网络周围,共同构成整个大数据推荐算法领域的关键词共现网络。显然,大数据、协同过滤和推荐算法形成整个共词网络的中心,这在三者的网络中心性的数据分析上得到佐证,而可视化展示可更加清晰地看出。
在大数据推荐算法研究领域,协同过滤算法已经成为大数据推荐算法的研究热点和研究重点。以协同过滤为中心的网络中包含的主要关键词有:推荐系统、聚类、并行化、mapreduce、mahout、矩阵分解、spark、hadoop、兴趣点、图书馆等;以大数据为中心的网络中主要的相关联关键词有:数据挖掘、聚类、矩阵分解、spark、hadoop、电子商务、个性化服务、社交网络、图书馆等;以推荐算法为中心的主要关键词有:社交网络、非结构化、结构化数据、淘宝、内容挖掘、分布式数据库、电子商务等。从网络中距离的角度上看,协同过滤和大数据主要通过大数据处理技术hadoop分布式处理框架以及涉及图书推荐的图书馆学紧密联系。大数据和推荐算法主要通过社交网络、电子商务、个性化联结。推荐算法和协同过滤主要通过海量性、数量性、兴趣点、数据挖掘算法以及矩阵分解等,主要涉及协同过滤推荐算法的研究内容和研究热点。
综上研究数据,国内大数据推荐算法领域主要研究基于大数据工具的协同过滤算法、聚类算法、矩阵分解算法等,并不断发展新的研究领域,如电子商务的智能推荐、个性化推荐、社交网络智能推荐以及图书馆领域的推荐等。李改等[18]于2012年便开始探讨基于ALS的协同过滤算法在hadoop上进行并行化,解决了传统的基于ALS的协同过滤算法在大规模数据集上的运算问题。曹萍[19]针对CF技术依赖的评分矩阵稀疏性问题,引入平均相似度概念,提出综合用户、项目的ASUCF算法,分析其计算方法,并通过实验设计验证ASUCF算法在准确度上的提高进而研究mahout中taste推荐引擎。丁然[20]利用协同过滤算法思想探讨在大数据环境下的电子商务个性化推荐技术并研究其发展趋势。由此可见,国内对于大数据推荐算法领域的研究在基于大数据技术框架下的算法理论探索之后逐渐转向如何用大数据推荐算法去解决个性化推荐、电子商务领域的智能推荐、依据社交网络大数据的推荐、图书学领域的推荐等实际问题,这也追寻学科研究领域的一般范式[21]。
国外大数据推荐算法网络结构图相较国内简单,big data(大数据)、mapreduce、data mining(数据挖掘)、callaborative filtering(协同过滤)、recommendation system(推荐系统)各自聚集成小网络,共同构成整个网络结构。同时,cloud computing(云计算)、machine learning(机器学习)、mahout、apache spark、mapreduce、electronic health records(电子健康记录)也具有较大的中介中心性,这几个关键词也构成主要小型和其他关键词之间的纽带。
图1 国内外大数据推荐算法文献关键词共现知识图谱
通过关键词共现的分析,比较而言,可以得到以下结论:①国内外都是通过大数据技术,以hadoop分布式框架为中心,建立大数据推荐算法之间的纽带;②协同过滤在国内外的研究中都十分受重视,并成为大数据推荐算法领域研究最多、改进最多的算法;③在强调大数据的同时更加注重算法自身的研究,从理论探讨到算法改进,使得推荐算法在大数据环境下具备更好的适应性;④在基础理论研究基础上,国内外都转向大数据推荐算法的应用性研究,但国内更偏向于电子商务商品的智能推荐,商业应用性质更强,国外较关注社交网络关系以及在自身健康监测与预测中的应用,这方面国外较为领先。
基于大数据的推荐算法的研究自2012年出现开始,主题不断演进。从发展趋势上看,可将其发展历程大致分为三个阶段:
第一阶段(2012年),概念提出阶段。2012年是大数据概念诞生的元年,各种概念结合大数据的浪潮雨后春笋般出现,推荐算法与大数据的结合也受到更多重视。此时,更多地将重点集中在传统推荐算法上,如协同过滤、矩阵分解、用户近邻模型等。大数据概念的提出,使得大数据处理技术平台hadoop在文献的研究中成为热点,此时更多讨论的是hadoop技术如何应用到大数据中的问题,如查礼[22]研究的基于hadoop的大数据计算技术。总体而言,基于大数据的推荐算法还处于概念提出阶段,并没有实质性进展。
第二阶段(2013—2015年),基于大数据的推荐算法进一步发展与成熟阶段。在这个阶段中,2013—2014年为发展阶段,2015年为成熟阶段。2013年新出现的高频关键词如数据挖掘、云计算、个性化推荐、社交网络、mapreduce,同时中心性比较高的关键词如分布式、LSH、非结构化。2013年的研究侧重于基于网络的计算机处理技术如云计算和分布式计算,此时更多探讨如何更好更快地处理数据,优化服务器的计算处理,同时也更加侧重非结构化数据处理。算法上更加侧重更快处理大容量数据,针对算法的改进研究也更加偏向基于大数据的框架。陈佑雄等[23]通过结合位置敏感哈希(Locality-SensitiveHas—hing,LSH)与mapreduce,提出了一种能够在线性时间复杂度内并行计算用户或项之间相似度的近邻模型推荐算法。王彬等[24]提出了一种利用大数据分析进行优化的分布式并行算法,致力于减少服务器处理机空闲时间和系统总能耗。2014年新出现的词汇如k-means聚类、行为分析、手机游戏、用户体验和项目推荐。在2013年研究的基础上,2014年开始关注用户行为的分析,手机游戏的用户体验与用户行为的数据分析。应璇等[25]就用户的检索行为进行研究,验证用户检索行为的“大数据”具备了高价值度以及价值数据挖掘的可操作性。而算法层面的研究侧重于k-means聚类算法的改进。而2015年是大数据推荐算法基础理论研究成熟的一年,这一年新出现的词汇如spark、mahout、slope one、关联规则、个性化学习、二部图、关联多叉树、同现矩阵等。在分布式数据框架下的hadoop之后,apache spark作为处理分布式存储的大数据的工具得到进一步研究。至此,大数据处理的技术框架体系已搭建完成。而在算法层面上呈现百花齐放的姿态,slope one算法、关联规则、关联二叉树、同现矩阵的研究与改进将算法的研究推向高潮。mahout的出现,提供了可扩展的机器学习领域经典算法,推进程序与算法的智能化发展。
第三阶段:(2016年至今),本阶段更加偏向于基于大数据的推荐算法的应用。基于此前对于大数据推荐算法的理论和技术的研究与探讨,2016年研究者更多地把关注点集中到推荐算法的应用上来。2016年新出现的词汇如个性化服务、基于位置的社交网络、商品推荐、实时性、图书推荐、情境推荐、二分网络、临近聚类、传媒科技。在数据和算法层面上更加讲求数据流的实时性,这也是大数据推荐算法的实时推荐的应用。正是注重实时数据的分析,商品推荐、图书推荐、情境推荐等的研究引领大数据推荐算法向个性化服务方向迈进。
国外对于大数据推荐算法的研究也是经历了概念的提出、发展、成熟、应用这四个阶段。国外对大数据推荐算法的研究要稍早于国内,与国内2015年才形成比较成熟的大数据推荐算法体系不同,国外发展稳固、快速。在2014年已开始将大数据推荐算法理论的研究转向对应用的探索。2015年至今,国外对大数据推荐算法应用的研究涉猎教育、医疗、用户行为研究等多方面。
针对检索到的112篇国内和114篇国外论文样本研究依据算法分类的规则,按照理论源头、所包含的算法、文章对该算法的扩展、文章所研究内容以及该类算法在总体研究样本中出现的次数进行统计,具体结果如表3和表4所示。
国内外对于大数据推荐算法的研究主要集中在协同过滤算法、高性能计算推荐、混合推荐以及算法结合进行推荐。国内研究中分别出现19次、10次、15次和13次,国外研究中分别出现18次、6次、12次和16次。显然,国内外对大数据推荐算法的研究更倾向于运用协同过滤算法。大数据时代信息过载的问题急需智能推荐系统来加以处理,而协同过滤算法正是根据用户行为偏好和兴趣偏好,通过相似性寻找相似用户,进而进行相关推荐。让大数据时代更多地发挥人的主观能动性,针对人的所需进行相关推荐更为优化,这也是协同过滤算法受到关注的原因。用户的兴趣和相似度引申出诸如最近邻算法、用户对物品评分的个性化算法slope one、关联规则、矩阵分解等算法的运用。高性能计算推荐中更多的是应用大数据分布式处理架构结合各类算法进行相关推荐,如分布式系统框架hadoop的并行化推荐、基于大规模数据集的编程模型mapreduce的并行化推荐、基于大规模数据集的数据计算引擎spark的并行化推荐等。而算法结合类推荐中主要涉及协同过滤算法和高性能计算的结合,这也说明在大数据集的处理过程中更倾向于和协同过滤算法的结合。同时hadoop和关联规则的结合推荐、并行计算和决策树的推荐也受到较大关注。
从研究领域上看,国内外的研究具有较大差别。国内对于大数据推荐算法的研究主要致力于算法本身的进一步优化,如关系信任度、用户近邻、矩阵分解、BP神经网络等。而对于应用的研究主要涉及微博推荐、新闻智能推荐、用户行为等。比较而言,国外对于大数据推荐算法更多关注在应用上,且应用范围较广,主要包含在线教育、医疗保健推荐、旅游路线和景点推荐、社会网络服务推荐、隐私保护、电子邮件类别推荐、医院治疗时间预测等。显然,国外的大数据推荐已经在教育、医疗、社交网络、在线商品销售、旅游服务、图书推荐等领域有着深入的研究,这是国内还需进一步加强研究的领域。
表3 国内大数据推荐算法文献内容分析
表4 国外大数据推荐算法文献内容分析
本文从文献计量和社会网络的角度,针对关键词的词频分析、中心性分析,确定大数据推荐算法的高频关键词和主题词;通过高频关键词的共现分析,鉴别大数据推荐算法研究领域的主要知识结构和研究热点;依据主题词的时间演进探讨大数据推荐算法领域主题研究的实时动向,把握研究主题的动态演变和最新趋势。同时针对关键词探索具体推荐算法的不足,引进内容分析法,对文献研究的具体大数据推荐算法和算法拓展以及研究的具体内容进行分类与总结。
不难发现,国内对于大数据推荐算法的研究要滞后于国外,特别是对大数据推荐算法的应用研究上国内还比较欠缺。“十三五”规划目标任务的出台,给了国内学者进一步扩大对大数据本身和大数据相关研究的契机。大数据推荐算法向着个性化教育、个性化医疗、个性化社会网络服务等应用领域发展。同时实时数据流的可预测性是大数据时代研究的重点,大数据的大潮与算法优化的结合预示着大数据推荐算法智能推荐时代的到来。
[1]SOLTYSIK R C,YARNOLD P R.MegaODA large sample and BIG DATA time trials:separating the chaff[J].Optimal data analysis,2013,2(2):194-197.
[2]SHERLOCK A.Managing information overload[J].Medical journal of Australia,2014,201(201):200-202.
[3]PING H.The research on personalized recommendation algorithm of library based on big data and association rules[J].Open cybernetics & systemics journal,2015,9(1):2554-2558.
[4]ANDEIRSON C.The long tail:Why the future of business is selling less of more[J].Journal of product innovation management,2005,24(3):274-276(3).
[5]YANG X Q.An intelligent E-commerce recommendation algorithm based on collaborative filtering technology[C]// International Conference on Intelligent Computation Technology and Automation.IEEE,2015:80-83.
[6]PESSEMIER T D,VANHECKE K,MARTENS L,et al.Content-based recommendation algorithms on the hadoop mapreduce Framework[C]// Webist 2011,Proceedings of the,International Conference on Web Information Systems and Technologies,Noordwijkerhout,the Netherlands,6-9 May.2011:237-240.
[7]JOLDZIC O V.Applying mapreduce algorithm to performance testing in lexical analysis on HDFS[C]//Telecommunications Forum(TELFOR),2013 21st.IEEE,2013:841-844.
[8]孙远帅.基于大数据的推荐算法研究[D].厦门大学,2014.
[9]孙天昊,黎安能,李明,等.基于Hadoop分布式改进聚类协同过滤推荐算法研究[J].计算机工程与应用,2015,51(15):124-128.
[10]魏瑞斌.社会网络分析在关键词网络分析中的实证研究[J].情报杂志,2009,28(9):46-49.
[11]孙清兰.高频,低频词的界分及词频估计方法[J].情报科学,1992(2):28-32.
[12]付允,牛文元,汪云林,等.科学学领域作者合作网络分析——以《科研管理》(2004—2008)为例[J].科研管理,2009(3):41-46.
[13]刘军.整体网分析讲义-UCINE软件应用(第二届社会网与关系管理研讨会资料)[R].哈尔滨:哈尔滨工程大学社会学系,2007,111.
[14]盛亚,范栋梁.结构洞分类理论及其在创新网络中的应用[J].科学学研究,2009(9):1407-1411.
[15]BURT R S.Structural hole[M].Harvard Business School Press,Cambridge,MA,1992.
[16]张勤,马费成.国外知识管理研究范式——以共词分析为方法[J].管理科学学报,2007,10(6):65-75.
[17]吉亚力,田文静,董颖.基于关键词共现和社会网络分析法的我国智库热点主题研究[J].情报科学,2015(3).
[18]李改,潘嵘,李章凤,等.基于大数据集的协同过滤算法的并行化研究[J].计算机工程与设计,2012,33(6):2437-2441.
[19]曹萍.基于大数据的协同过滤推荐算法研究[D].南京农业大学,2014.
[20]丁然.大数据时代电子商务个性化推荐发展趋势[J].电子商务,2015(4):5-5.
[21]BANSEMIR B.Research paradigm[M].Springer Fachmedien Wiesbaden,2013:9-11.
[22]查礼.基于Hadoop的大数据计算技术[J].科研信息化技术与应用,2012,3(6):26-33.
[23]陈佑雄,向阳,张骐,等.基于LSH和MapReduce的近邻模型推荐算法[J].微电子学与计算机,2013(12):47-49.
[24]王彬,雷丽晖.一种利用大数据分析优化的分布式并行算法[J].计算机与数字工程,2013,41(11):1720-1724.
[25]应璇,孙济庆,等.面向大数据的用户检索行为研究[J].情报杂志,2014(2):140-143.
FrontierDynamicsofBigDataRecommendationAlgorithmatHomeandAbroad
Chen Jun1,2,Xie Weihong1,2,Chen Yangsen1
(1.School of Management,Guangdong University of Technology,Guangzhou 510520,China;2.Big data Strategy Research Institute of Guangdong University of Technology,Guangzhou 510520,China)
In the age of big data,the problem of information overload has become increasingly prominent,then the research on big data recommendation algorithm has become increasingly important.This paper takes the articles of big data recommendation algorithm from Web of Science and CNKI as data sources,and uses the method of bibliometrics,co-word analysis and SNA to do quantitative comparative analysis from co-word of high frequency keywords,the evolution of keywords and dynamics research.The results show that the abroad research on the theory and application of big data recommendation algorithm are matured than the domestic.Especially we should strengthen the study of the application’s breadth and depth.Big data recommendation algorithm develops into the trend of individualized education,personalized medical care,personalized social network service and other applications.This paper has a certain guiding significance to promote the deep research of the theory of big data recommendation algorithm,the deep application research and the development of internationalization.
Big data;Recommendation algorithm;SNA;Bibliometrics;Research trend
广东省哲学社会科学规划项目“企业大数据能力构建及影响因素研究”(GD15XGL14)、“基于大数据的广东省大学生就业信息服务平台设计与实现研究”(2014B040401013),广东省科技计划“基于大数据的广东省级企业创新平台创新能力评价与监测研究”(2015AD70703018)。
2017-03-16
陈军(1990-),男,湖北荆州人,硕士研究生;研究方向:大数据分析、大数据战略管理。
C93-0
A
(责任编辑 沈蓉)