基于关联标签的数字图书馆馆藏资源主题分类研究

2016-11-26 06:28李锦霞
图书馆学刊 2016年10期
关键词:网络体系馆藏社会化

李锦霞

(大连图书馆,辽宁大连116012)

基于关联标签的数字图书馆馆藏资源主题分类研究

李锦霞

(大连图书馆,辽宁大连116012)

数字图书馆馆藏资源社会化标签是用户对图书馆期刊资源内容的意识反映,标签内容包含了多种价值信息。介绍了相关研究背景,阐述了研究思路与研究方法。从标签关联程度出发,通过对馆藏资源标签采集、预处理及期刊资源标签间关联关系进行研究,实现了基于关联标签的数字图书馆馆藏资源主题特征分析。通过具体事例介绍了程度中心度分析法、中间中心度分析法和接近中心度分析法在基于关联关系的数字图书馆馆藏资源主题分类研究中的应用。通过深入分析馆藏期刊资源网络社会化标签间的关联关系,对馆藏资源主题进行集中展示,为数字图书馆馆藏资源有效组织、展示与利用提供参考。

数字图书馆馆藏资源关联标签主题分类社会网络分析

随着互联网应用范围的不断扩大,网络体系参与和管理者的数量与日俱增,每个互联网使用者都将成为互联网资源的生产者、传播者和建设者。在人们使用互联网的同时,也对互联网产生较大的影响[1]。比如,在互联网使用过程中,由于用户喜好不同,其可能对自己喜欢的网络资源采取不同的操作方法,如有些用户可能会及时收藏所喜欢的资源,有些用户可能会将所喜欢的资源进行分享等。用户对网站的每项操作均属于网络资源的社会标注,即社会化标签,在这些社会化标签中蕴藏了关于用户使用习惯及资源优劣等有价值的信息。通过对这类社会化标签的研究,将有助于图书、图片、视频等网络资源的推介,有利于大众化资源的导航与检索。

近年来,数字图书馆网络体系建设得到迅猛发展,大量馆藏资源得到聚集。如何对这些馆藏资源进行有效整理并向用户提供更为精确的个性化资源推介成为一个关键问题[2],而通过对数字图书馆馆藏资源社会化标签的研究可以有效解决这一问题。馆藏资源社会化标签蕴含了许多图书馆用户对馆藏资源使用习惯和个性化选择,通过对基于关联标签的数字化图书馆馆藏资源主题分类进行研究,可以实现图书馆馆藏资源社会化标签个性化推荐服务,方便用户信息查询。

1 相关研究

图书馆馆藏资源是人类知识传播和延续的重要基础。图书馆馆藏资源的存储形式是多种多样的,有些是以网页来保存的,有些是以电子文档来保存的,有些则是以图片、视频等形式来保存的。对于图书馆这些资源,如果不加以整理和分类,必将影响整个图书馆的运行效率。

随着图书馆用户数量的逐渐增加,大量用户对自己所喜欢的资源会进行相关描述,这些描述可以被看作为图书馆馆藏资源的社会化标注[3-4]。目前,常见的标注主要有以下3种:①基于内容的标注。用户针对图书馆个别馆藏资源主要内容及该资源的使用需要,将资源中的主要信息提取并标注出来。这类标注主要侧重于资源的使用信息,因该标注信息可能是片面的,由此导致该标注准确度不高;②基于专家的标注。在图书馆馆藏资源存储之前,专家将会对资源进行专业的描述,使得该资源的主要内容等得到阐述。该方法虽然提高了资源标注的精确度,但是耗费了大量的时间和人力,同时由于专家对资源信息的描述一般会用到专业词汇,这将导致多数用户很难理解,不利于广大用户的信息检索;③基于社会化标签的标注。该方法是建立在第一、二种方法基础之上,它将用户和专家的标注进行汇总,并提取出所有标注中的共性标注作为一类资源的统一描述;对于专业性较强的资源,可使用专家的描述标注,同时备注用户常用的词汇,以丰富资源检索的可行性。

随着资源标注内容的增多,馆藏资源社会化标签的数量也急剧增多,如果不对标签体系的规范化、结构层级的合理化进行处理,必将导致整个图书馆资源导航出现问题。数字图书馆馆藏资源社会化标签代表的是资源的多维特征,这一特质使得标签与标签之间存在一定的关联。大量同类标签组合在一起则可以凸显馆藏资源的一些主题特征。笔者通过使用关联标签对图书馆馆藏资源主题分类进行研究,旨在提高图书馆文献资源的使用效率。

2 研究思路与方法

2.1研究思路

通过对图书馆馆藏资源进行主题分类,馆员不仅能发现馆藏资源的主要内容特征,比如资源题目、作者、等,还要深层次挖掘资源的核心特征,即该资源的主要研究内容、研究方法、研究结果等。只有通过高层语义和低层语义的馆藏资源主题挖掘才能很好地获得这类特征信息[5-6]。鉴于此,本研究将以图书馆馆藏资源社会化标签为研究对象。具体研究思路:首先,依据图书馆馆藏资源社会化标签之间的关联关系,构建关联标签网络,并利用社会网络分析方法对所构建的标签网络的主题与群落进行分析;其次,通过标签间的关联关系构建图书馆馆藏资源共标签网络,并通过社会网络分析方法对该共标签网络进行分析;最后,对这两类标签网络的特征和结果进行分析,形成图书馆馆藏资源的主题特征。这一研究思路集合了共标签和关联标签的各自优势,能更好地实现图书馆馆藏资源主题分类和应用研究。

2.2研究方法

社会网络分析方法是建立在多个社会网络节点基础之上的。社会网络是由庞大的节点和不同节点间错综复杂的关联关系所构成的,它不会以某个节点的具体位置或者是形态的变化而变化。总体来看,社会资源网络可以被定义为知识关联、知识单元以及知识群落的共同体。知识本身不仅包含数字资源,而且包含了不同知识载体的各种关联关系。社会网络分析方法提供了一系列的知识载体、知识关系的分析挖掘方法,它能帮助学者深层次研究和分析图书馆馆藏资源社会化标签所隐含的内在规律,进而科学合理地设计图书馆馆藏资源主题分类导航系统。

3 馆藏资源标签采集与预处理

3.1馆藏资源标签采集

馆藏资源社会化标签的采集是进行图书馆馆藏资源主题分类研究的基础。社会化标签的采集方法有很多种,可以提供语义关联对图书馆馆藏资源社会化标签进行采集,也可以通过手动添加的方法来实现。笔者通过语义关联,对馆藏资源中检索频率较高的资源信息进行分析,提取并汇总出针对某资源的所有社会化描述,完成标签采集过程。然而在整个标签采集过程中,可以很明显地看出,所采集的社会化标签信息在结构上是极其松散的,标签与标签之间所隐含的深层次关系也是不易发现的,同时各个标签所描述的资源信息也是片面的。因此,对社会化标签的采集仅仅是主题分类研究的第一步。

3.2馆藏资源标签预处理

标签预处理的对象为采集到的馆藏资源社会化标签所有内容。预处理阶段作为标签采集的后续阶段,对整个标签网络的构建起到了重要作用,它主要实现了某个资源所有社会化标签的整理与主要特征的挖掘。比如,针对一篇图书馆管理系统论文的社会化标签的预处理,首先需要对社会化标签采集中所得到的题目名称、作者毕业院校、主要研究内容等标签信息进行整理和归类,同时还要对每个用户所标注的社会化标签进行分析与挖掘。一些用户可能对该篇文章中的研究方法感兴趣,并进行了标注;一些用户可能对该文章的研究结果非常关注,并进行了标注;一些用户可能对文章中所使用到的试验方法非常关注,并进行了标注。标签预处理就是要将这些标注结合文章的实际内容进行整理与挖掘,形成关联标签矩阵,使得每个资源的标签都能全面、准确地反映出该资源的整体特征。

3.3馆藏资源关联标签网络体系的构建

标签预处理的结果是得到资源社会化标签的内在联系,进行关联标签网络体系的构建。该体系的构建是通过社会网络分析技术,对标签预处理形成的关联标签矩阵进行展开,分析各标签间的关联,发现其中的隐含知识信息。在整个关联标签网络体系中,每个经过预处理的社会化标签将作为一个节点出现,节点之间的距离大小将反应出标签之间的关系。比如,两个节点之间距离很近,这代表了这两个节点所代表的标签关系很紧密。在整个关联标签网络体系中,可能存在多个节点重合的现象,该现象反映出这些标签内容信息的重叠,从侧面可以反应出用户对该资源信息的关注方面。

4 基于关联标签的数字图书馆馆藏资源主题特征分析

基于关联标签的网络体系虽然可以在一定程度上反映出每个不同标签之间的特征联系,但节点的重叠却使得整个结构网络体系变得异常模糊,增加了标签特征的辨识难度。鉴于此,笔者在社会化网络分析方法的基础上,结合了中心度分析法,对关联标签网络体系进行了进一步的特征分析,深入探讨了图书馆馆藏资源主题特征与发现。

中心度分析方法可以实现某关联标签在整个关联网络体系中位置的检测,同时对该标签在网络体系中的重要程度与地位进行判别,这种方法将对数字图书馆馆藏资源主题分类的精确度有极大的提升。中心度分析方法主要可以分为3种,即程度中心度分析法、中间中心度分析法和接近中心度分析法。笔者以某数字图书馆馆藏资源关联标签网络中心度分析结果为例对此方法进行介绍。

表1 某数字图书馆馆藏资源关联标签网络中心度分析结果

4.1程度中心度分析法

程度中心度分析法主要是以某个节点为基础并对该节点有直接关系的节点进行测量,发现节点间的关系程度。表1显示程度中心度相对较高的是“图书馆”,程度达到“99.1%”,这说明该标签几乎和其它标签都存在关联,并且处于标签网络体系的核心位置,也就是说多数资源信息中都有该标签信息的存在。其它标签如“云计算”“系统设计”等也有相对较高的位置。对于“试验”这一标签,程度为“0%”,这代表了该标签信息在这个标签网络体系中的关系非常弱。

4.2中间中心度分析法

中间中心度分析法主要用于分析两个节点之间的关系程度,通过最短路径分析法来进行判别。从表1可以看出,“系统”的程度指数最高,为“5.13”,也就是说该标签在整个标签网络体系的构建中具有重要战略意义,多数图书馆馆藏资源中均包括这一标签信息。而“试验”标签的程度指数为“0”,这说明该标签在整个标签网络体系中是孤立存在的,不与其它标签存在联系。

4.3接近中心度分析法

接近中心度分析法主要是客观测量两个节点之间的距离来判别关系程度,所采用的是常规接近中心度的倒数形式,程度值越大,所代表的接近中心度越高,同时代表节点间的关系越紧密。由表1可以看出,“图书馆”、“云计算”、“系统”处于整个标签网络体系的前三位,程度均处于95%以上,由此可以看出它们与其它节点的距离最近,而“试验”的程度为“0%”,由此可以看出该标签节点与其它节点最疏远。

5 结语

笔者在对用户图书馆馆藏资源使用习惯分析的基础上,以数字图书馆馆藏资源社会化标签为基础,通过关联标签研究方法构建了共标签和关联标签网络体系,并通过社会网络分析方法,结合标签节点中心度分析法,得到了数字图书馆馆藏资源主题特征。该主题特征的获得将有助于以用户习惯或者用户个性化需求为主题的应用服务发展。笔者虽然做了大量的工作,但仍存在一些不足之处:一方面,本研究中所采集的社会化标签的范围有限,涵盖的地域较少。地域之间的差异将会影响到数字图书馆馆藏资源社会化标签的采集,同时范围的局限有可能导致标签预处理中个别特征的缺失;另一方面,在标签预处理阶段因语义关联技术自身问题可能导致标签间的关系存在少量混乱,在今后的研究中应当结合大数据分布式处理技术来对大量数字图书馆馆藏资源社会化标签进行处理,以期得到更为全面的标签主题。

[1]滕广青,毕强,高娅.基于概念格的Folksonomy知识组织研究——关联标签的结构特征分析[J].现代图书情报技术,2012(6):22-28.

[2]毕强,等.面向知识关联的标签云优化机理研究[J].现代图书情报技术,2014(5):33-40.

[3]黄微,等.Folksonomy中Tag语义距离测度与可视化研究[J].现代图书情报技术,2014(7):64-70.

[4]陈婷,胡改丽,陈福集.社会化标注系统的语义标签资源导航构建[J].图书馆建设,2015(1):78-83.

[5]靳延安,等.社会标注及其在信息检索中的应用研究综述[J].中文信息学报,2010(4):52-62.

[6]刘向红.大众标注在非遗数据库中的应用[J].图书馆建设,2014(12):39-42.

李锦霞女,1977年生。本科学历,馆员。研究方向:分类、机读目录。

G250.76

(2016-08-29;责编:杨新宽。)

猜你喜欢
网络体系馆藏社会化
智慧高速边缘计算系统架构和网络体系探究
企业退休人员移交社会化管理的探讨
馆藏几件残损《佚目》书画琐记
牵手校外,坚持少先队社会化
医联体模式下全科住院医师规范化培训网络体系的构建研究
博物馆的生存之道:馆藏能否变卖?
网络体系构建中云计算技术的应用分析
行政权社会化之生成动因阐释
知还印馆藏印选——古印篇
高校学生体育组织社会化及路径分析