赵蓉英 程震霖
(1.武汉大学信息管理学院; 2.武汉大学中国科学评价研究中心; 3.武汉大学信息资源研究中心,武汉,430072)
国内馆藏数字资源语义化研究现状
赵蓉英1,2,3程震霖1,2
(1.武汉大学信息管理学院;2.武汉大学中国科学评价研究中心;3.武汉大学信息资源研究中心,武汉,430072)
伴随着数字资源的迅速增长,传统馆藏资源的展示方式已经很难满足用户需求。馆藏数字资源语义化的研究对于馆藏数字资源建设以及馆藏数字资源的有效利用有着非常重要的意义。本文采用文献统计分析以及知识可视化的分析方法,对目前我国馆藏数字资源语义化研究的现状进行了分析,揭示了我国目前馆藏数字资源语义化的现状和今后的热点与趋势。
馆藏数字资源语义化可视化
1.2研究工具
本文使用的工具为SATI[3]、Ucinet及CiteSpace。SATI是浙江大学信息资源管理系刘启元开发的文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics)。这款工具支持CNKI导出的EndNote格式,可实现三大功能:①字段信息抽取;②条目频次统计;③共现矩阵构建[4]。Ucinet是目前最为流行的社会网络分析软件之一。CiteSpace则是一款由美国Drexel大学的陈超美教授开发的用来分析和可视共现网络的Java应用程序,可以通过直观的图谱方式显示某个学科或知识域在一定时期发展的趋势。
1.3研究方法
通过关键词共现分析法及社会网络分析法能够较直观地反应目前国内的研究现状。将从CNKI导出的EndNote格式文件导入SATI软件进行分析,该软件可以抽取作者、出版年、关键词等字段信息,并统计其频次。将RefWork格式文件导入CiteSpace绘制关键词共现图谱,对图谱进行分析发现目前国内的研究热点。
2.1发文量分析
使用SATI的频次统计功能,可以得到CNKI数据库中有关该主题的年度发文量的统计数据(由于数据收集时间为2014年10月,所以2014年数据并不完整),并由此可以绘制出国内馆藏数字资源语义化研究论文年代分布图,如图1所示。
图1 国内馆藏数字资源语义化研究论文年代分布图
从图1中可以大致地看出我国馆藏数字资源语义化研究的发展速度和研究规模。从图中可以看出我国关于馆藏数字资源语义化的论文从2000年才开始出现。可以将我国对于馆藏数字资源语义化的研究分为三个阶段:①初始阶段(2001年之前):在这个阶段国内馆藏数字资源语义化研究初露端倪,相关研究论文也比较少,2000~2001年两年总共只有4篇,说明数字资源语义化在当时仍是新事物,并未引起专家学者的广泛关注。②快速增长阶段(2002~2006年):这阶段的发文量较之前有了较大提高,五年共发文74篇,年均接近15篇,说明学术界开始重视数字资源语义化的研究。③激增阶段(2007~2014年):这八年的发文量达到了371篇,年均发文量超过46篇。较上一阶段有着显著的增长。总的来说,虽然在该领域每年的论文总量相对来说并不算多,但是总体上还是呈现出快速增长的趋势,并且增加幅度也在增大,可以预见在未来的数年内,馆藏数字资源语义化研究会受到学术界越来越多人的关注,发文量也会进一步激增[5]。
2.2关键词分析
在某一学科内,对关键词的关注有助于发现该学科的研究热点。利用SATI的统计数据发现,在449篇文献中共涉及了1231个关键词,总词频达到了2150次,其中频次大于等于5的关键词共有54个,占总数的4%,而词频则达到了711次,约占总数的33%。笔者选取按频次高低排名前20个关键词作为高频词,如表1所示。并且可以通过STAI生成高频关键词的共现矩阵(见表2)。
表1 国内馆藏数字资源语义化研究关键词列表(前20个)
表2 高频关键词共现矩阵(部分)
下面将利用CiteSpace绘制出关键词共现图谱。以上述449篇国内馆藏数字资源语义化论文为数据来源,在CiteSpace中的Data选项中将CNKI导出的RefWork格式转换为CiteSpace可以识别的格式,在Node Types中选择“Keyword”,分析的时间段选为2000~2014年,时间间隔为1年,运行后得到国内馆藏数字资源语义化领域的关键词共现图谱,如图2所示。CiteSpace绘制的关键词共现图谱其特点的是生动鲜明,能直观地展示出频次较高的关键词,但是也存在着不足,即各个关键词相互重叠导致部分频次相对较小的关键词显示不够清晰,故笔者用Ucinet集成的一款绘制网络图谱的工具NetDraw绘制出关键词共现图谱,能够更加清晰地展示各个关键词之间的关系,如图3所示。
在图2中,我们可以明显看到最大的节点是“数字图书馆”,同时这一关键词的出现频次也是排名第一,高达97次。这说明这一概念在馆藏数字资源语义化研究中有着举足轻重的作用,而事实上也的确如此。“数字图书馆”作为WEB2.0的产物是储存数字资源并利用信息检索获取资源的场所[6],在馆藏资源的数字化、语义化过程中都起到了重要作用。而在频次排行中的第四位“语义网”和第五位“语义WEB”实际上是同一概念的不同写法,二者频次加在一起共出现48次,仅次于“数字图书馆”。刘柏嵩在2003年总结了语义网的概念及相关的几种关键技术包括XML、RDF等,提出了语义网在未来发展可能存在的挑战包括内容的可获取性和可扩展性,本体的开发及本体语言的标准化[7]。在技术的应用方面,从图表中可以看出与语义化实现方法相关的“本体”、“XML”、“RDF”、“元数据”、“关联数据”等关键词的频次也很高。其中“关联数据”是由W3C的LOD项目中最先提出的一种将开放的数据集进行关联的新方法。欧石燕提出了一个具有四个层次(元数据层、本体层、关联数据层和应用层)面向关联数据的语义数字图书馆资源描述与组织框架,该框架“本体”、“XML”、“RDF”则被公认为是实现语义化的底层核心技术要素,其中“RDF”是一种处理“元数据”的XML应用。这些高频词表明目前国内学者偏向于利用元数据、本体进行馆藏资源的语义化或提出新的知识组织方法,也就是说这些学者将元数据、本体和关联数据视为数字图书馆实践中的关键技术[8]。本文的第三部分将分别对几种馆藏资源语义化的热点技术——基于元数据的语义化、基于本体的语义化和基于计量分析的语义加以介绍。
图2 国内馆藏数字资源语义化研究领域的关键词共现图谱(CiteSpace绘制)
图3 国内馆藏数字资源语义化研究领域的关键词共现图谱(Ucinet绘制)
2.3作者与机构分析
通过高频作者(单位)的合著网络分析的方法,再借助可视化软件的展示,可以直观地看到某一学科领域内的科研合作关系。首先借助SATI软件生成作者的共现矩阵,如图4所示,再分别利用UCINET及Citespace软件对数据进行处理,可以得到国内馆藏数字资源语义化作者合著网络图谱(见图5),以及作者单位的合著网络图谱,如图6所示。图5中每个节点代表作者,方块的大小代表了他们在网络中的中心度,方块越大代表频次也越大。
图4 国内馆藏数字资源语义化研究领域的作者共现矩阵
图5 国内馆藏数字资源语义化研究领域的作者共现图谱
根据软件分析得出国内馆藏数字资源语义化研究的作者合著网络密度为0.0019,表明节点之间的紧密度较低,从图5中可以直观地看到作者群之间的合作关系较为简单,没有复杂的节点和连线。绝大多数作者显示在图片中的左边一排表明其合著度数为0,即没有出现共现的作者群。而右侧有连线的是相互有共现的作者群。其中最大的结点由牟冬梅、毕强、王丽伟、韩毅、黄丽丽等作者组成,其中牟冬梅的结点最大,表明在该团体中频次最高,发文量最大。图6中相对应的作者机构结点最大的是吉林大学公共卫生学院,其中牟冬梅、毕强、王丽伟都是吉林大学教师,而韩毅、黄丽丽则是吉林大学学生,他们是由师生关系为基础的合作关系,主要研究数字图书馆、语义网、以及本体在医学数字资源领域的应用。第二大结点是由武汉大学信息管理学院的邱均平、赵蓉英与楼雯、余凡、吕红、王菲菲等作者构成,他们之间也为师生关系,主要研究馆藏资源的语义化,包括对于馆藏资源的研究进展分析以及对于几种语义化方法进行了论述。其他主要节点也大都是师生或同学关系,可见目前国内关于馆藏资源语义化的研究学者关系主要是由同一学校的师生之间构成,不同研究机构之间合作很少。
图6 国内馆藏数字资源语义化研究领域的作者单位共现图谱
3.1基于元数据的语义化
元数据最本质的定义是关于数据的数据,主要是描述数据属性的信息。语义元数据 (也称作标签本体)提供数据的语义信息,是馆藏数字资源语义化的一种重要工具,在将提供给人们阅读的普通数据信息转换为计算机可阅读处理信息的过程中,有着举足轻重的作用。近年来语义元数据相关的研究也得到了越来越多研究人员的关注[9,10]。
曾蕾等人从功能、形式、结构、覆盖面、表现方式五个方面概述了元数据标准的演变[11]。赵亮等按照一个完整元数据体系架构的语义、结构、句法三个层面详细阐述了如何构建一个完整的元数据应用[12]。Miao Chen、崔晓莉等人设计了实验来验证一种元数据的生成方法,即以Flickr标签为例利用社会性语义资源来丰富主题元数据[13]。黎建辉等提出了基于元数据的关系数据库语义集成方法,以语义元数据的形式表示和存储语义映射信息,使关系数据库中的数据可以被机器理解并处理[14]。
3.2基于本体的语义化
本体是一种能在语义和知识层次上描述信息系统的概念模型建模工具,是用于对知识进行组织的词汇表[15]。对于本体不同研究者有着不同的定义形式,但是对于本体内涵的认识是一致的,都把本体当作是领域内部不同主体(人、应用系统等)之间交互的一种语义基础[9,16,17]。本体在数字资源的语义化中扮演着重要的角色,不仅可以对馆藏书目、扩展的外部资源以及大众标注的标签等数字资源进行组织,也有利于解决数字资源整合中的组织、共享、集成、交换等问题[9]。
杜小勇等对本体的定义及创建方法等研究状况以及主要的研究机构进行了较为全面的介绍[18]。宋峻峰和张维明提出了一种基于本体的信息检索模型,使用本体中定义的词汇来标记文档,从而实现语义层次的信息检索并使其检索的性能得到了极大的改善[19]。王进研究了基于本体的检索算法及其检索结果的优化,并提出了一套基于本体的新的语义检索模型以及查询语义扩展方法和文档语义标注及聚类方法,对语义检索提供了新的思路[20]。吴健等提出了一种基于本体论和词汇语义相似度的Web服务发现方法[21]。徐德智与王怀民阐述了语义距离与语义相似度之间的关系,并提出了一种基于本体的计算两个概念之间的语义相似度的语义距离方法[22]。邱均平、吕红等构建了一种基于共现分析的语义信息检索模型,该模型由规范器、分析器和本体构建器三部分组成,配套的信息检索流程对语义检索方式进行细化,能对检索结果的可视化展示提供结构化数据[23]。常艳阐述了本体的形式化模型及本体与语义之间的关系;提出了一种基于本体的数字图书馆知识组织构建模式;分析了本体在数字图书馆知识组织中的原理、作用,并将之与传统的知识组织模式进行比较分析[9]。
3.3基于计量分析的语义化
信息计量学主要以元数据作为研究对象。信息计量学的定义是:应用数学、统计学等方法从定量的角度分析和研究信息的动态特性,并找出其中的内在规律。计量学与语义化的研究内容存在着交叉部分,计量学的研究理论及方法可以应用于语义化的领域[24]。
邱均平、余凡提出了一种新的馆藏资源语义化方法——基于计量分析的馆藏资源语义化方法,构建了相关理论模型,并认为基于计量分析的语义化吸收了基于元数据及基于本体这两种语义化技术方法的优势,其语义关系深度高于前者,而对于计算机自动处理的程度又高于后者[23]。
本文以CNKI收录的馆藏数字资源语义化文献为研究对象,通过SATI、CiteSpace等软件进行数据处理和可视化展示,以知识图谱的形式展示了馆藏数字资源语义化的高频关键词、作者以及作者单位的特征分布,结合内容探析了目前国内该研究的热点。本文研究主要得出以下结论:第一,通过绘制国内数字馆藏资源语义化领域的关键词聚类图谱,得出近年来研究热点是数字图书馆、本体、元数据、语义网等。第二,目前国内数字馆藏资源语义化的研究按对象和方法主要分为三种——基于元数据的语义化、基于本体的语义化和基于计量分析的语义化。其中,基于本体的语义化技术有效地解决了馆藏数字资源的二义性和冗余等问题,极大地提高数字图书馆知识组织的效率,为馆藏数字资源的语义化打下坚实的基础;基于计量分析的馆藏数字资源语义化基于前两种方法存在的问题做出了改进,同时也为馆藏数字资源语义化提供了新的思路。
[1]王薇.基于关联数据的图书馆数字资源语义融合研究[D].南京大学,2013:1-11
[2]李劲,程秀峰,宋红文.基于语义的馆藏资源深度聚合方法研究[J].情报科学,2013,31(11):100-103
[3]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(1):50-58
[4]赵蓉英,李飞.基于社会网络分析方法的国内外信息计量比较研究[J].情报科学,2013,31(2):7-9
[5]刘雪竹.数字资源整合研究综述[J].现代情报,2008,28(2):4-6
[6]胡昌平,胡媛,严炜炜.高校数字图书馆服务的用户满意度实证研究[J].国家图书馆学刊,2013,90(6):23-31
[7]刘柏嵩.基于知识的语义网:概念、技术及挑战[J].中国图书馆学报,2003,(2):18-21
[8]楼雯.馆藏资源语义化关键技术及实证研究[J].中国图书馆学报,2013,39(6):27-36
[9]常艳.基于本体的数字图书馆知识组织构建模式研究[D].吉林大学,2008:28-45
[10] 刘耀.基于内容与形式交互的图书馆资源组织语义化方法研究[J].情报理论与实践,2010,33(10):105-107
[11] 曾蕾,张甲,张晓林.元数据标准的演变[J].中国图书馆学报,2003,(4):10-14
[12] 赵亮.元数据应用:语义、结构与句法[J].图书馆杂志,2004,23(7):49-53
[13] 崔晓莉.从社会性标签中进行语义关系抽取——一种元数据生成方法[J].现代图书情报技术,2009,176(3):38-40
[14] 黎建辉,余怀化,阎保平.基于元数据的关系数据库语义集成方法[J].计算机工程,2008,34(6):54-56
[15] 成瑜,何洁月.基于本体的生物信息数据源的发现[J].微机发展,2005,15(1):38-40
[16] 张丽.本体在组件描述和检索中的应用研究[D].哈尔滨工程大学,2008:21-23
[17] 李健康,张春辉.本体研究及其应用进展[J].图书馆论坛,2004,24(6):80-86
[18] 杜小勇,李曼,王大治.语义Web与本体研究综述[J].计算机应用,2004,24(10):14-18
[19] 宋峻峰,张维明,肖卫东,等.基于本体的信息检索模型研究[J].南京大学学报(自然科学),2005,41(2):189-195
[20] 王进.基于本体的语义信息检索研究[D].中国科学技术大学,2006:117-118
[21] 吴健,吴朝晖,李莹,等.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602
[22] 徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156
[23] 吕红,邱均平,李小涛,余厚强.国内馆藏资源可视化研究进展分析[J].情报资料工作,2014,35(1):20-24
[24] 邱均平,余凡.基于计量分析的馆藏资源语义化理论研究[J].中国图书馆学报,2012,38(4):71-78
The Current Situation of Digital Library Resources Semantization in China
Zhao Rongying1,2,3Cheng Zhenlin1,2
(1.School of Information Management, Wuhan University;2.Research Center for China Science Evaluation,;3. Information Resource Research Center, Wuhan University, Wuhan 430072)
With the sharp growth of digital resources, the traditional display method of library resources could not satisfy the users’ needs. The research of digital library resources semantization is significant for the library resources construction and digital library resources effective use. And based on the characteristics of digital library resources semantization, using bibliometrics and visualization methods, this paper analyzes the present situation and the trends of digital library resources semantization in China.
Digital library resourceSemantizationVisualization
本文系教育部人文社科基金项目“馆藏数字资源语义化深度聚合的理论与关键技术研究”(13YJA870023)、国家社科基金重大项目“基于语义的馆藏资源深度聚合与可视化展示研究”(11&ZD152)子课题的研究成果之一。
赵蓉英,女,教授,博士生导师,研究方向为信息计量与科学评价,知识管理与竞争情报,Email:zhaorongying@126.com;程震霖,硕士研究生,研究方向为信息计量与科学评价。
G250.7
A
2095-2171(2015)02-0097-07
10.13365/j.jirm.2015.02.097
1数据来源与研究方法和工具
CNKI《中国学术文献
总库》作为数据来源,在CNKI数据库的高级搜索中由于以主题作为检索入口得到文献记录过少,可能会对结果造成影响,所以为了扩大范围选择了以摘要为检索入口。用“馆藏资源”并含“语义”或者“数字资源”并含“语义”为检索字段,时间范围选择从1990年到2014年,进行检索后共得到506条文献记录。由于选择了摘要作为检索入口,在扩大范围的同时,其检索结果也存在一些与主题不相关的数据,对数据进行人工审查清洗,最终得到449条有效数据。由于不同工具对数据源格式的要求不同,故将CNKI中的数据源分别以EndNote及RefWork格式导出。
2014-12-05)
伴随着计算机和互联网技术的高速发展,我国在数字图书馆建设及馆藏资源数字化方面取得了巨大的进步。而目前馆藏数字资源一方面存在着诸如操作系统、数据库系统、硬件系统等的多样性和异构性从而导致语义异构;另一方面由于馆藏数字资源的数量巨大,并且其中存在着大量的内容重复、冗余的资源,从而导致用户难以准确地查询和获取馆藏数字资源。这两方面原因同时也造成目前图书馆缺少个性化、专业化的知识挖掘和推送服务。为了解决这一难题,使图书馆能够针对用户的需求提供准确、有效的知识服务,图书馆界采取了一些措施,但其中大部分仍然无法解决语义异构的难题。随着语义化相关技术的不断发展,一种新的方法被提出来——基于语义的馆藏数字资源深度聚合,为解决此难题提供了新的途径和思路,而馆藏数字资源的语义化是进行深度聚合的基础和前提[1,2]。本文将对国内馆藏数字资源语义化研究的情况进行分析。
1.1数据来源