国内近十年Folksonomy领域研究热点与趋势张丛昱

2016-05-14 12:40张云中
新世纪图书馆 2016年7期
关键词:词频本体语义

摘 要 论文旨在使用SATI、SPSS等软件对CNKI数据库中2006-2015年国内folksonomy领域发表的期刊文献进行共词分析,以期发现十年间国内folksonomy研究的热点与趋势,通过提取该领域的高频关键词,在构建相异矩阵的基础上开展聚类分析和多维尺度分析,进而研究各高频关键词之间的内在关系,最终归纳出folksonomy研究的七个主题:与传统网络信息组织体系的融合、folksonomy知识发现、社会化标注系统、Web2.0下的folksonomy应用、与本体的融合、标签云导航与标签推荐、folksonomy在高校图书馆中的应用。

关键词 大众分类法 高频关键词 标签 共词分析

分类号 G254

DOI 10.16810/j.cnki.1672-514X.2016.07.022

Research Hotspots and Trends in the Field of Folksonomy in Recent Ten Years in China

Zhang Congyu, Zhang Yunzhong

Abstract This paper conducts a co-word analysis of papers published between 2006 and 2015 in CNKI database in the research field of domestic folksonomy by using SATI, SPSS and such kinds of software. By extracting high-frequency keywords in the field and conducting cluster analysis and multiple dimension analysis on the basis of constructing the dissimilarity matrix, the internal relationship among the high-frequency keywords is explored and seven hot topics of the research in the field of folksonomy are concluded, which are the integration of folksonomy and traditional internet information organization system, knowledge discovery in folksonomy, social tagging system, the application of folksonomy in Web2.0, the integration of folksonomy and ontology, the tag cloud navigation and tag recommendation, the application of folksonomy in college libraries.

Keywords Folksonomy. High-frequency keywords. Tag. Co-word analysis.

Folksonomy是Web2.0环境下一种新的网络资源组织方法,它于2004年由著名信息学者Thomas Vander Wal首次提出[1], Vander Wal称其为一种“自下而上的社会分类法”。与传统的分类方法不同,folksonomy的分类由用户自主完成,用户可以根据自己的分类标准和分类习惯,以标签的形式对资源进行分类,这种简单、灵活的分类方法一段时间内被广泛应用于社会服务性网站中[2]。相比之下,国内研究则起步较晚,2006年初国内学术期刊上出现了首篇folksonomy相关研究论文[3]。Folksonomy一经引入,就引起了国内学者的广泛关注。如今,我国对folksonomy的研究已有十年,在这期间人们不仅感受并利用了folksonomy的优势,同时也发现了其固有的一些缺陷,对folksonomy的研究视角也随着认识的不断深化发生了相应的转变。在此背景下,本文拟以CNKI数据库中2006年至2015年十年间folksonomy研究领域的期刊论文为对象,利用SATI、SPSS19.0等工具,通过共词分析法,探讨国内folksonomy领域的研究现状、研究热点及研究趋势,以期为今后folksonomy领域的研究提供启示。

1 数据获取与预处理

本文主要研究目的是依托国内期刊回顾folksonomy在我国的研究现状,主要关注公开发表于期刊的文献,而相关专著、会议论文、学位论文等不在本文考察之列。本文选定CNKI数据库作为所需的文献来源,在专业检索中以KY='folksonomy'+'社会化标注系统'+'社会化标注'+'大众分类法'+'分众分类法'+'社会标签'+'自由分类法'+'标签云'+'网络标注'+'大众标注'为检索表达式,检索时间限定为2006年至2015年,并在检索结果中将学科领域精炼到工程科技Ⅰ类、工程科技Ⅱ类、社会科学Ⅰ类、社会科学Ⅱ类、计算机软件及应用、互联网技术、图书情报与数字图书馆、档案与博物馆、经济管理科学等几个领域中,最终得到310条文献记录。去掉重复文献、不相关文献以及无关键词的文献,最终得到符合要求的文献294篇。经过统计,得到关键词497条,共计词频1172次。在统计高频关键词时,本文做了如下处理(见表1):①合并具有相同含义的关键词,例如将自由分类法、大众分类法、分众分类、分众分类法、大众分类、自由分类、社会分类法、公众分类法、大众化分类等合并为folksonomy;②剔除与研究目的无关的关键词,例如研究进展、网站、服务等关键词。经过合并与筛选,最终得到关键词82条。由普赖斯公式(m=0.749×nmax,nmax代表最高频关键词的词频,m代表核心关键词的的词频)计算得出词频大于或等于10的核心关键词,共计10个。

10个关键词显然不足以用来研究folksonomy在我国的研究现状。最终本文根据实际情况,选择词条4频次为阀值,共选取43个关键词为我国folksonomy研究领域的高频关键词,如表2所示。

本文使用文献题录信息统计分析工具SATI为共现矩阵生成的辅助工具。该统计分析软件可以实现对文献题录信息处理,同时还可以进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵等的构建[4]。本文将中国知网的检索结果以ENDNOTE格式导出,将导出的文件导入SATI,并对文章的关键词进行抽取,对抽取出的关键词进行分析后,在原始的ENDNOTE格式的文件中,人工对关键词进行上述合并、删除等筛选处理,将处理后的结果再次导入SATI,抽取关键词字段,选择Co-Occurrence Matrix(Dissimilarity)选项,设定ROWS/COLS选项知识单元数为43,生成43×43高频关键词相异矩阵,见表3。

2 高频关键词共词分析

2.1 聚类分析

共词分析需要用到多种多元统计分析方法,聚类分析是其核心方法之一。基于关键词的聚类分析依照“物以类聚”的思想[5],本文运用SPSS19.0统计软件,导入表3所示的相异矩阵,选择系统聚类,聚类方法为组内聚类,得到聚类分析树状图。

根据系统聚类树状图,经过比较分析,本文认为在阀值为23.5处将聚类分析的结果分为7个类团较为合适,见图1。类团一主要包括folksonomy、标签、信息组织、本体等9个关键词;类团二主要包括知识发现、形式概念分析、知识管理等4个关键词;类团三主要包括社会化标注系统、信息检索、语义标签等8个关键词;类团四主要包括Web2.0、OPAC、社会性软件、Wiki等8个关键词;类团五主要包括语义标注、本体构建、Web3.0等4个关键词;类团六主要包括标签云、个性化推荐、标签推荐等5个关键词;类团七主要包括聚类、高校图书馆、经典扎根理论等5个关键词。

2.2 多维尺度分析

多维尺度分析也是共词分析法的核心内容之一[6]。本文将表2所示的相异矩阵导入SPSS19.0统计软件,运用多维尺度分析工具(multidimensional scale, ALSCAL),对高频关键词的相异矩阵进行二维尺度分析,得到可视化结果。

根据多维尺度分析的结果,folksonomy领域的研究可大致分为六个区域,见图2。区域一包括folksonomy、标签、信息构建等14个关键词;区域二包括知识发现、形式概念分析等8个关键词;区域三包括社会化标注系统、语义标签、推荐算法等7个关键词;区域四包括豆瓣网、Wiki等5个关键词;区域五包括本体构建、标签本体、Web3.0等6个关键词;区域六包括高校图书馆、经典扎根理论、数字图书馆3个关键词。

3 研究结论及探讨

本文根据2006年至2015年国内folksonomy领域相关文献高频关键词的聚类分析图和多为尺度分析图,结合表2所示的高频关键词词表,对目前国内folksonomy领域的研究情况进行分析,最终确定了7大类主题。

3.1 folksonomy与传统网络信息组织体系的融合研究

聚类分析图中的类团一与多维尺度分析图中的区域一关键词有很高的重合度,结合两部分的关键词,确定主题一为folksonomy与传统网络信息组织体系的融合。该主题共包含9个关键词,主要有folksonomy、标签、信息组织等,占总频次的92.64%。该主题聚焦的要点包括:(1)folksonomy对传统信息组织理论的补充。folksonomy的出现,将自由灵活、集体智慧、动态迅速、成本低廉的优势带入了传统信息组织体系,极大程度上改善了传统信息组织必须依靠专家、构建及维护费时费力的困境,为传统信息组织体系注入了新活力。(2)folksonomy与传统分类法的异同及互补。folksonomy与传统分类法(如分类词表和主题词表)既有共同点,又存在差异性,各具优劣,且在构建、维护等环节存在互补性,该类研究中有代表性的是建立folksonomy与传统分类法的映射关系,利用folksonomy遴选标签进而构建词表[7]。(3)folksonomy对网络资源分类及导航理论的推进。标签云图的出现和应用极大程度上改良或替代了Web1.0时代依托网络信息门户、网络主题指南作为网络资源导航的主流模式。folksonomy与传统网络信息组织体系的融合,并不是相互替代的关系,而是互补与集成的关系。两者融合的过程也历经了异同分析阶段、互补吸纳阶段,正在趋向于集成及一体化的阶段。

3.2 folksonomy中知识发现的研究

依照聚类分析图中的类团二,参考多维尺度分析图中的区域二,本文将该主题称为folksonomy中知识发现的研究。该主题共包含4个关键词,这些关键词的词频位次整体比较靠前,其中词频较高的有知识发现、形式概念分析,占总频次的60.87%。知识发现的理论与技术有多种,形式概念分析法是近年来知识发现研究中重要的技术方法。图2中关键词“知识发现”与“形式概念分析”距离较近即是最好的佐证。此方面研究的核心内容主要体现在:(1)语义知识发现研究。利用知识发现相关理论与方法,挖掘和揭示标签间隐含的概念关系,提高folksonomy语义精确度和丰富度,具有代表性的研究是利用概念格对关联标签进行聚类和关联规则挖掘,发现关联标签间的“语义关联词”和“语义下位词”的关系[8]。(2)用户知识发现研究。该研究主要包括用户行为发现与用户偏好发现两个方面。通过研究用户的行为,捕捉用户的偏好,进而为标签推荐、导航等功能提供数据基础,更好地帮助用户实现知识管理,代表性的研究是构建基于形式概念分析的用户行为发现模型,以探究folksonomy用户行为中隐含的个性知识和共性知识[9]。除形式概念分析法外,知识发现的技术和方法还有很多种,如关联规则挖掘、粗糙集理论等,有学者还通过社会网络分析法,量化了标签间的语义距离[10]。跨folksonomy平台的知识发现及各种知识发现理论与方法之间的相互结合和补充使用将是一段时间内该主题研究的趋势。

3.3 社会化标注系统的研究

聚类分析图中的类团三与多维尺度分析图中的区域三关键词有很高的重合率,本文将该主题称为社会化标注系统的研究。该主题共包含8个关键词,主要有社会化标注系统、资源聚合、语义标签、信息检索等,占总频次的72.55%。国内学者对该主题的研究主要集中在社会化标注系统的资源聚合方面。目前社会化标注系统资源聚合的研究主要从深度聚合和广度聚合两个方向进行。深度聚合一般是指从系统中资源的内部特征出发对资源的语义聚合,通常采用本体、关联数据等工具增强社会化标注系统资源间的语义关系,提高资源的可检索性[11]。广度聚合是从系统中资源的外部特征出发,采用计量方法、社会网络分析方法从资源的机构关联、作者关联、文献关联及资源网络密度、资源网络节点度等维度挖掘资源间的关联,实现资源聚合[12]。除此之外,社会化标注系统中信息检索的研究也受到了广泛的关注,即通过增强标签间的语义提高社会化标注系统的查全率、查准率等信息检索的能力,代表性的研究是通过改进标签-资源矩阵权重计算算法,利用潜在语义分析技术提高社会化标注系统标签语义检索效率[13]。社会化标注系统领域研究仍将围绕实现资源深度聚合和广度聚合两个维度及对聚合结果的可视化展示展开。另外,如何实现跨系统的资源聚合与导航将是该领域下一阶段的研究热点。

3.4 Web2.0环境下folksonomy的应用研究

该主题主要依照聚类分析图中的类团四,参考多维尺度分析图中的区域二与区域四得出。该主题共包含8个关键词,主要有Web2.0、OPAC、受控词表、社会性软件、Wiki、Ajax、豆瓣网,占总频次的92.45%。该主题下研究的热点包括:(1)Web2.0环境下folksonomy在图书馆2.0特别是OPAC2.0中的应用。OPAC2.0是Web2.0下社会化了的OPAC,folksonomy与OPAC2.0结合的主要方式是用户可以为搜索到的资源设置标签,在标签设置的过程中可以通过参照人工编制的受控词表来增强标签的准确性。另外,OPAC系统还可与社会标签网站相融合从而构建立体的检索模型,在提高检索效率的同时增强用户间的互动[14]。(2)Web2.0典型技术(如社会性软件、Ajax、Wiki等)对folksonomy应用与推广的支撑。学者普遍认为Wiki与folksonomy的产生可以很好地满足Web2.0相互协作、共同参与的理念,而社会性软件则是Web2.0时代folksonomy技术应用的平台[15]。(3)Web2.0下国内folksonomy应用或实验研究多以豆瓣网为实验素材展开实证研究或案例分析。该主题下的相关研究带有浓厚的实践色彩,未来的研究热点也会随着folksonomy实践与应用的不断拓展而涌现。

3.5 folksonomy与本体的融合研究

聚类分析图中的类团五与多维尺度分析图中的区域五关键词有很高的重合率,本文称该主题为folksonomy与本体的融合。该主题共包含标签本体、Web3.0、语义标注、本体构建4个关键词。国内学者对该主题的研究起步较晚,根据词频也可以推断出该主题的研究尚未成熟。folksonomy与本体的优势互补使二者能够更好地迎合Web3.0时代的需要[16]。该主题下的研究方向主要有两个:(1)folksonomy向本体的融合。其核心的研究内容是利用folksonomy时效性强、成本低廉、简单灵活等优点,从folksonomy中抽取本体概念辅助本体的构建,以弥补本体构建过程中更新缓慢、成本高昂、灵活性差等缺点。最新的研究进展是有学者利用形式概念分析法对主题词表和folksonomy融合的数据集构建本体[17]。(2)本体向folksonomy的融合。其核心的研究内容是将现有本体映射到folksonomy的标签中,弥补folksonomy结构中语义模糊的不足[18],或者利用标签本体控制用户的标注行为,规范标注活动。本方向一方面将着眼于自动或半自动地从folksonomy标签集中抽取概念和概念关系以促进folksonomy向本体的融合,另一方面将不断探索建立二者映射关系的高效、简洁、准确的方法,以促进folksonomy向本体的融合。

3.6 标签云导航与标签推荐研究

根据聚类分析图中的类团六并参考多维尺度分析图,该类团下的关键词间的内在关系主要聚焦在标签云导航与标签推荐相关方面,该主题共包含5个关键词,词频较高的关键词有标签云、个性化推荐、标签推荐,占总频次的75%。该主题下的研究方向主要包括:(1)基于标签云图的资源导航。通过探究标签云的可视化效果对用户使用情况的影响来调整标签云的属性,提高标签云的易用性,实现标签云的可视化导航,从而有效地帮助用户查找和发现感兴趣的资源。(2)标签个性化推荐。标签推荐所采用的方式,多从用户、资源、标签间的三元关系切入,探究用户标签标注过程中的认知心理和行为特征,为用户提供个性化的推荐。国内标签推荐相关技术的研究大多集中在计算机及系统工程领域,该领域下协同过滤等技术与其他新技术的结合,以及如何提高推荐系统的推荐功能,将是标签推荐主题下的研究趋势。

3.7 folksonomy在高校图书馆中的应用研究

该主题主要依据聚类分析图中的类团七和多维尺度分析图中区域六中的关键词共现关系分析而得出。该主题共包含5个关键词,关键词的词频位次不高,可以看出该主题目前尚处于起步阶段。高校图书馆由于能够在短时间内接触到各科研领域内较新的研究成果,因此高校图书馆是目前folksonomy应用较新的领域。一段时间以来,folksonomy在高校图书馆中使用的具体情况并没有得到充分的研究,也没有形成系统的理论。基于此,国内学者提出使用经典扎根理论从不同角度对folksonomy在高校图书馆中的应用进行研究。关键词“高校图书馆”与“经典扎根理论”在图2区域六中距离较近即是对此最好的体现。近年来folksonomy在高校图书馆中的典型应用主要体现在:(1)folksonomy版权问题。对高校图书馆资源的标注行为和标签往往凝结了标注者的智慧,从这个角度看,folksonomy也会衍生出保护标签著作权的问题,代表性的研究是王翠英提出的folksonomy版权机制模型[19]。(2)信息服务问题。Folksonomy的引入对高校图书馆信息服务的内容、方式、效果均产生了影响,代表性的研究是有学者从传播机制的角度出发,剖析folksonomy在高校图书馆信息服务等方面应用的特点及存在的缺陷[20]。

4 结语

本文在提炼出国内folksonomy研究的43个高频关键词的基础上,运用共词分析方法,通过SPSS的聚类分析和多维尺度统计分析功能,直观、形象地刻画和揭示出十年来我国folksonomy领域研究的七个主题,对每个主题的核心研究内容及未来趋势分别进行了阐述。但本文的研究也存在着一些局限性。国内folksonomy领域研究虽然历经了十年之久,发文量仍然不大,这对所提取的高频关键词的数量和词频都有影响。尽管本文也做了相应的调整,例如选取4频次作为词频阈值,并结合核心文献的内容对研究热点展开了分析和探讨,但仍有不完善之处。通过关键词共现分析来把握folksonomy领域研究热点仍有待改进。

参考文献:

[ 1 ] 毕强,王雨.国外Folksonomy应用研究的前沿进展及热点分析[J].现代图书情报技术,2013(7):36-42.

[ 2 ] 余金香.Folksonomy及其国外研究进展[J].图书情报工作,2007,51(7):38-40.

[ 3 ] 梁桂英,李记旭.Folksonomy初探[J].图书馆杂志,2006,25(4):46-49.

[ 4 ] 刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现:以中外图书情报学为例[J].信息资源管理学报,2012(1):50-58.

[ 5 ] 钟伟金,李佳,杨兴菊.共词分析法研究(三):共词聚类分析法的原理与特点[J].情报杂志,2008,27(7):118-120.

[ 6 ] 张红春,卓越.国内社会保障研究的知识图谱与热点主题:基于文献计量学共词分析的视角[J].公共管理学报,2011,8(4):111-121.

[ 7 ] 王英.Folksonomy与传统分类法的比较分析及其完善研究[J].图书馆学研究,2010(3):45-47.

[ 8 ] 滕广青,毕强,高娅.基于概念格的Folksonomy知识组织研究:关联标签的结构特征分析[J].现代图书情报技术,2012,28(6):22-28.

[ 9 ] 张云中.利用形式概念分析构建Folksonomy用户行为知识发现模型[J].现代图书情报技术,2012,28(7/8):66-75.

[10] 黄微,高俊峰,李瑞,等.Folksonomy中Tag语义距离测度与可视化研究[J].现代图书情报技术,2014,30(7/8):64-70.

[11] 贺德方,曾建勋.基于语义的馆藏资源深度聚合研究[J].中国图书馆学报,2012,38(200):79-87.

[12] 邱均平,王菲菲.基于共现与耦合的馆藏文献资源深度聚合研究探析[J].中国图书馆学报,2013,39(3):25-33.

[13] 宣云干,朱庆华.基于LSA的社会化标注系统标签语义检索研究[J].图书情报工作,2011,55(4):11-14,57.

[14] 冯倩然,吴丹.社会标签在图书馆中的应用模式研究[J].图书情报工作,2011,55(21):88-92.

[15] 夏明春.基于Web2.0的资源整合[J].情报科学,2007,25(12):1865-1868.

[16] 熊回香,王学东.面向Web3.0的分众分类研究[J].图书情报工作,2010,54(03):104-107.

[17] 邱璇,李端明,张智慧.基于FCA和异构资源融合的本体构建研究[J].图书情报工作,2015,59(2):112-117+50.

[18] 王翠英.本体与Folksonomy的比较研究[J].图书馆建设,2008(5):85-88.

[19] 王翠英.基于经典扎根理论的高校图书馆Folksonomy版权机制实证研究[J].情报理论与实践,2015,38(2):64-70.

[20] 陈珏静.高校图书馆 Folksonomy传播机制实证研究[J].图书馆杂志,2014,33(10):54-61.

张丛昱 上海大学图书情报档案系情报学硕士研究生。上海,200444。

张云中 上海大学图书情报档案系讲师、硕士生导师。上海,200444。

(收稿日期:2016-01-06 编校:陈安琪)

猜你喜欢
词频本体语义
韩国语“容入-离析”关系表达及认知语义解释
眼睛是“本体”
一种新型水平移动式折叠手术床
毛泽东话语的词语特征
词频,一部隐秘的历史
Care about the virtue moral education