我国推荐系统研究热点及可视化分析

2018-08-14 10:04张骏顾冲
现代商贸工业 2018年18期
关键词:推荐系统社会网络分析知识图谱

张骏 顾冲

摘 要:为探索我国推荐系统领域研究现状和热点,选取CNKI作为数据来源,运用共现分析、社会网络分析、多维尺度分析以及知识图谱等可视化方法和工具,从发文量、核心期刊、作者合作、機构合作、研究热点等方面进行可视化分析。分析表明,我国推荐系统研究正处于快速发展时期,主要集中在计算机科学、图书情报等领域,作者合作关系与机构合作关系都有待加强,呈现多元化特点,形成8大热点主题域,为后续学者的研究提供了一定的参考价值。

关键词:推荐系统;共现分析;社会网络分析;可视化;知识图谱

中图分类号:F2 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2018.18.004

1 引言

随着大数据时代的来临,互联网上的信息资源呈现爆炸式增长的趋势,人们虽然可以方便地获取信息,但却更难准确地筛选出对自己有用的信息了,这就造成了“信息超载”(Information Overload)的问题,而解决信息超载问题的一个非常行之有效的方法就是推荐系统。推荐系统(Recommender System)是一种通过学习和挖掘用户的兴趣以及项目(如音乐、电影、好友、旅游景点等)的特征从而将用户可能感兴趣的项目主动推荐给相应用户的信息系统。目前,推荐系统在电子商务、信息检索以及移动应用、电子旅游、互联网广告、社会媒体、社交网络等等众多应用领域取得了较大的进展。

由于推荐系统的应用效果十分显著,国内学术界及其相关领域对推荐系统的研究也日益增多。虽然有很多学者对推荐系统进行过综述性的研究,但是学者们所处的领域不同,他们所论述问题的侧重点也不尽相同。大多数是对某一应用领域或专题研究领域进行综述,很少有从文献计量学的角度,对推荐系统领域的发文量、期刊、机构、作者以及整体的进展和趋势进行研究,并用可视化的形式将其研究成果展现出来的。因此,本文将运用文献计量分析、共现分析和社会网络分析(Social Network Analysis,SNA)等方法,梳理我国推荐系统的研究现状,对其研究热点等进行可视化分析,为后续我国推荐系统研究的学者们提供一定地参考和帮助,同时,这对于提高我国推荐系统研究水平,具有重要的理论意义与学术价值。

2 数据来源及研究方法

中国知网(CNKI)是目前我国学术期刊数据收录最全、更新最为及时的全文数据库,因此,本文以CNKI的中国学术期刊数据库为数据来源,对我国推荐系统的研究进行可视化分析。在CNKI期刊数据库中,以“主题=推荐系统,精确”为检索条件,检索时间范围为“不限到2016年”,期刊来源类别为全部,检索得到我国推荐系统相关研究文献共2804篇。将检索得到的文献人工进行二次筛选,剔除掉通知、评论、新闻报道以及与主题无关等无效文献,最终得到2645篇文献数据。

采用的研究方法主要包括文献计量分析法、共现分析法和社会网络分析法。针对已获得的文献样本数据,一方面,采用文献计量分析,对我国推荐系统研究领域的发文量、主要期刊、核心作者、高水平科研机构等进行定量的可视化分析;另一方面,采用社会网络分析和多维尺度分析,构建高频关键词共现网络,对我国推荐系统领域研究热点进行定性的可视化分析。

3 推荐系统研究文献统计分析

3.1 发文量分析

对收集到的2645篇文献进行发文量的年度统计,得到我国推荐系统领域发文量的统计图,如图1,其中在1989年、1990年、1992年分别有1篇文献被发表,由于时间跨度太大未在图中显示。帕洛阿尔托研究中心的Goldberg等人在1992年就将协同过滤的思想引入到Tapestry 系统中,而我国到2000年才逐渐有相关的文献出来,说明我国对推荐系统的研究和应用是相对来说较晚的。但是,从图1来看,从2000年至今,除了2008年有所下降,发文量一直呈现逐年递增的趋势。发文量的增长趋势大致可以分为三个阶段:第一阶段为2000-2007年,我国推荐系统研究起步阶段,发文量相对较少,但增长速度相对较快;第二阶段为2008-2012年,这个阶段属于平稳增长期;第三阶段为2012年以后,这个阶段属于快速增长期。我国推荐系统领域发文量的整体呈现快速增长的趋势,说明推荐系统越来越受到关注和重视,它一直是我国研究的热点领域。

3.2 核心期刊分析

根据文献计量学三大定律之一的布拉德福定律可知,核心期刊总的文献数占全部文献数的三分之一。对收集到的2645篇文献进行期刊统计,得到644种期刊,将这644种期刊按照其载文量进行降序排列,排名前16的期刊累计载文量为881篇,占全部文献的33.3%,因此,得到我国推荐系统研究领域的核心期刊列表,如表1。

3.3 作者分析

研究某一个领域的核心作者分布情况,可以了解该领域的创作主体,进而分析该领域某一时期内的学科背景情况,此外,作者之间的合作关系对于促进学术交流、知识共享、跨学科发展等有着重要的意义。对收集到的2645篇文献进行作者统计,结果发现,这2645篇文献来自4676位作者,平均每篇文献1.77位作者。

将这些作者按照发文量降序排列,前7名的作者依次为:刘旭东,发文量16篇,北京航空航天大学计算机学院,教授;孟祥武,发文量15篇,北京邮电大学计算机科学与技术学院,教授;聂规划,发文量14篇,武汉理工大学经济学院,教授;崔春生,发文量14篇,河南财经政法大学计算机与信息工程学院,副教授;王卫平,发文量13篇,中国科学技术大学管理学院,副教授;李磊,发文量11篇,中山大学计算机软件所,教授;陈冬林,发文量11篇,武汉理工大学经济学院,教授。

为了更好地找到我国推荐系统领域重要的作者合作关系,首先选择发文量排名前100的作者,运用UCINET构建作者合作网络,去掉41个孤立点,然后对剩下的59位作者进行K-cores分析,最后调整得到我国推荐系统研究作者合作K-cores分析图谱,如图2。节点表示作者,节点连线表示作者合作关系,节点越大说明作者发文量越高,连接线的粗细代表合作关系强度。这里一共形成了23个子图,包括16个1核子图(图2左上区域红色部分)、5个2核子图(图2中左下区域蓝色部分)和2个3核子图(图2中右侧区域灰色部分),即23个作者合作团体。

3.4 机构分析

对我国推荐系统领域的高水平研究机构进行分析,有助于更好地了解我国推荐系统研究的前沿进展。运用陈超美教授开发的可视化文献分析软件CitespaceV,對收集到的2645篇文献进行机构分析,构建我国推荐系统研究机构合作的知识图谱。在图谱中,节点表示机构,节点越大或机构名称越大说明该机构发文量越高;节点之间的连线表示机构之间的合作关系,连线越粗说明二者之间的合作越密切,如图3。

由图3知,我国推荐系统领域的研究机构大部分都是高校和科研院所,发文量较高的机构有武汉大学信息管理学院、重庆大学计算机学院、中国科学院大学、中山大学信息科学与技术学院、北京邮电大学计算机学院等,将这些机构按照发文量选取前12名得到我国推荐系统研究的主要机构列表,如表2,括号中的数据为机构的合作发文百分比。由表2可知,这些高水平研究机构中有一半机构的合作发文百分比超过了50%,这说明我国推荐系统领域的高水平研究机构之间的合作还是比较密切的。

4 推荐系统研究热点分析

4.1 关键词抽取与词频统计

关键词是作者对文章主题的提炼,代表了文章的核心和关键。为了更加准确地对我国推荐系统研究主题进行分析,剔除3篇无关键词的文献,对剩下2642篇文献借助文献统计软件SATI进行关键词统计,共得到4180个关键词,累计出现11127次。在关键词处理过程中,删除与主题意义相同或无用的概括性关键词,如“推荐系统”、“研究”、“设计”等,同时合并意义相近或同一类别的关键词,如将“协同过滤算法”、“协同过滤推荐”、“协作过滤”统一替换为“协同过滤”等。

表3显示了预处理之后词频大于15的关键词,将这50个关键词作为分析样本,可以发现,协同过滤、个性化推荐、电子商务、数据挖掘、数字图书馆、社交网络、大数据、云计算等领域是目前我国推荐系统研究的热点方向。

4.2 社会网络分析

为了进一步地分析我国推荐系统领域的研究热点,首先利用SATI软件得到初步的关键词共现矩阵,并将其导入到Excel中,然后根据关键词预处理中删除以及合并等过程对共现矩阵进行调整,最终得到50个关键词的共现矩阵,部分数据如表4所示。将得到的关键词共现矩阵导入到UCINET中,然后用可视化工具NetDraw绘制出基于中介中心性(Betweenness Centrality)的关键词社会网络关系图谱,如图4。图中每一个节点代表一个关键词,节点大小代表了中介中心性的大小,节点越大,说明节点在网络中所处的位置越核心;节点连线代表关键词间的共现关系,连接线越粗,说明关键词共现的次数越多。

由图4可知,最大的节点“协同过滤”处于整个社会网络最中间的位置,说明协同过滤在我国推荐系统研究领域占据举足轻重的位置,其次是“个性化推荐”和“电子商务”这两个节点,紧靠在“协同过滤”两边,而且三者之间的连线说明它们之间的联系很密切。协同过滤算法是目前最成功的、应用最广泛的个性化推荐技术之一;电子商务网站是个性化推荐系统的一大应用领域。

4.3 多维尺度分析

多维尺度分析(Multi-Dimensional Scaling,MDS)是分析研究对象的相似性或差异性的一种多维统计方法。在对关键词进行多维尺度分析之前,需要将关键词共现矩阵转换成相异矩阵。在Excel中,利用公式(1),将之前得到的50个关键词的共现矩阵转换成相似矩阵,然后用1减去相似矩阵中的每一个元素的值,就得到了关键词相异矩阵,相异矩阵部分数据如表5所示。

Ochiia系数=AB共现词频A的词频×B的词频(1)

相异矩阵中元素的值越小,表示关键词之间的距离越近,相关度越大,即关键词之间关系越密切,反之则相反。因此,根据多维尺度分析的结果,可以将距离相近、联系紧密的关键词归为一类,依次将所有关键词分成若干类,保证在同一个类中词与词之间的相似性最大,而类与类之间的相似性最小,这样就形成了所要研究领域的若干个研究热点。将表5中的相异矩阵导入到SPSS中,选择“度量-多维尺度(ALSCAL)”分析,得到如图5所示的我国推荐系统领域的研究热点图谱。

由图5可知,我国推荐系统领域的研究热点形成了K1-K8共8个主题域,其含义如表6所示。

5 结语

本文基于CNKI中推荐系统领域的2645篇文献,以定量和定性的方式,结合文献计量分析、共现分析、社会网络分析、多维尺度分析以及知识图谱等可视化工具,对我国推荐系统研究的发文量、主要期刊、核心作者、高水平科研机构以及研究热点等进行可视化分析。分析结果表明:我国推荐系统研究近年来处于快速发展的时期;其研究成果主要集中于计算机软件与计算机应用、图书情报与科学、信息技术与信息工程等领域;作者之间大多是合作关系,但是合作的规模不够大;机构之间的合作主要是高校和科研院所,合作规模可以比较大,但数量不多;基于协同过滤的推荐算法是最为核心的研究方向;研究呈现多元化特点,主要涉及8个热点主题域。本文对我国推荐系统研究的可视化分析为后续学者的研究提供了一定的参考价值。

参考文献

[1]Resnick P,Varian HR.Recommendersystems[J].Communications of the ACM,1997,40(3):56-58.

[2]孟祥武,胡勋,王立才,等.移动推荐系统及其应用[J].软件学报,2013,24(1):91-108.

[3]邓爱林,朱扬勇,施伯乐.基于项目评分预测的协同过滤推荐算法[J].软件学报,2003,14(9):1621-1628.

[4]沈旺,马一鸣,李贺.基于情境感知的用户推荐系统研究综述[J].图书情报工作,2015,59(21):128-138.

[5]唐晓波,魏巍.基于本体的推荐系统研究综述[J].图书馆学研究,2016,(18):7-12.

[6]Goldberg D,Nichols D,Oki BM,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12):61-70.

猜你喜欢
推荐系统社会网络分析知识图谱
基于用户偏好的信任网络随机游走推荐模型
基于社会网络分析的我国微课研究探析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展