肖 雯,李 鑫
(北京市科学技术情报研究所)
大数据时代数字资源的主题标引研究
肖 雯,李 鑫
(北京市科学技术情报研究所)
主题标引是对数字资源进行组织的有效手段,标引的质量直接影响到数字资源的质量和利用,因此,大数据时代应重视主题标引的发展。本文在对国内外数字资源的主题标引现状进行调研的基础上,分析了大数据时代数字资源主题标引面临的挑战,探讨了数字资源主题标引的发展趋势。
自动标引;受控标引;自然语言标引;自动抽词标引;自动赋词标引
大数据时代,为有效组织数字资源,主题标引特别是自动标引的价值将更加凸显,同时也面临着前所未有的挑战。本文对国内外数十个数字资源数据库的主题标引现状进行了调研,从数字资源的特征、精确检索需求、新词标引、跨语言检索四个角度出发,对数字资源主题标引面临的挑战进行了探讨,并对主题标引的发展趋势进行了论述。
(1)主题标引(Subject Indexing)。是对文献主题及其他有检索意义的特征进行分析、表示、提炼和归纳,然后用某种检索语言(自然语言、受控语言)标写出来,作为信息存储与检索的依据的信息处理过程。[1]按使用主题标引语言(自然语言或受控语言)的不同划分,主题标引可分为受控标引与自然语言标引。受控标引,是指须由事先指定的叙词表(主题词表)中选用相应规范词,对文献进行的标引。自然语言标引,又称自由词标引或自由标引,是指不设规范词表而由标引人员直接选用的文献自然语言词,对文献进行的标引。
(2)自动标引,是指利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。[2]按标引词的来源不同,自动标引可分为自动抽词标引与自动赋词标引。自动抽词标引,是指利用计算机自动从文献(题名、摘 要、关键词等)中抽取关键词来作为检索标识,关键词是从文献中抽出的。[3]自动赋词标引,是指把从文献中抽取的关键词,参照关键词和叙词表中受控词汇的对应关系,把关键词自动转化为对应的受控词,受控词一般来自于叙词表,无法转化为叙词的关键词可以选择自由词标引。
对数字资源进行标引,不同标引类型的标引过程如下图所示。自动赋词标引与受控标引达到的结果一致,自然语言标引和自动抽词标引也大致一致。
图数字资源标引过程示意图
为说明国内外主题标引现状,以数字资源的主题标引为对象,对Elsevier、Wiley、SpringerLink、CNKI-CHKD、万方医学网、独秀学术搜索等数据库进行了调研,结果如下表所示。国内外数字资源的主题标引大致可以归纳为:(1)当前国内外数字资源主题标引数量,自然语言标引占绝大多数,受控标引应用较少;(2)自动标引已小规模投入使用,但数量不多;(3)主题标引的内容方面,除传统的文献主题内容外,有些数据库已经开始对文献中的图表、图像、重要化学分子等内容进行标引;(4)与国内相比,受控标引在国外数据库中的应用更普遍,发展亦更成熟。
表国内外数字资源数据库主题标引情况
3.1 标引速度的挑战
大数据时代,数字资源具有“Volume(大量)、Velocity(高速)”的特征,海量信息依赖人工标引是不现实的,这种情况下对主题标引速度提出了要求。
单位时间(比如一天)内产生巨量数字资源,如果单位时间内无法有效标引所有资源,就会导致资源的相对过剩、信息数据冗余等现象。为解决这些现象,亟需提高标引的速度,自动标引技术就是基于这种需求产生的。计算机要在尽可能短的时间内完成标引,在保证标引速率的同时还要保证标引专指度和网罗度,对自动标引能力是个巨大的挑战。
3.2 主题词表建设的挑战
数字资源具有“价值(Value)”的特征,即通过精确分析、深度挖掘等提高数据的价值密度,使数据具有更大价值。标引的目的就是为了有助检索、实现资源价值。主题词表作为数字资源组织和检索的工具,能够帮助提高资源的查全率、查准率,在信息检索、揭示方面发挥着不可替代的作用。因此,构建、维护主题词表是十分重要的。大数据时代,海量资源、新词、跨语言检索等情况对主题词表的适应能力提出挑战。
3.3 多媒体标引的挑战
大数据时代,数字资源具有“多样性(Variety)”特征,资源类型丰富多样,包括文献、音频、视频、网络日志、图片、地理位置等信息。除结构化数据外,数字资源涌现大量半结构化数据和非结构化数据,呈现多样化和异构化。目前对这些资源的标引方法借鉴于文本的方式,用人工提取关键词来描述多媒体资源的内容。使用这样的方法费时费力、成本高,且带有一定的主观性,不能达到信息标引的要求。随着技术进步,人们开始寻求多媒体信息的自动标引方法。
3.4 多层面标引的挑战
大数据时代,文献检索已经不能完全满足用户需求,用户需要更加精确的信息,数据检索和事实检索更能满足这一检索趋势。文献检索的结果是与需求有关的文献,整篇文献的阅读费时费力且存在大量无用信息,不便于用户直接利用;事实和数据检索的结果是文献中的具体信息,如某一具体的图、表、数据、化学分子、数值概念、关系表达式等,内容显示直接、精确;为了适应用户的检索需求,主题标引面临精确检索的挑战。因此,需要对资源进行多层面标引。多层面标引是指对文献中的内容信息、化学分子、图表、关系表达式等均进行标引,在此标引基础上才能进行数据检索或事实检索。[4]对哪些内容标引、如何标引、如何组织等问题,都是多层面标引需要面对的,需要不断地探索和总结。
3.5 新词标引的挑战
随着社会不断发展,新事物、新观念、新现象不断涌现,为了指称的需要,新词不断被创造出来,随着时间推移,新词的出现速度会更快。新词的识别和标引,直接影响到数字资源组织的质量和速度。因此,为适应时代发展,主题标引应重视新词词典建设工作。新词发现是新词主题标引的前提,新词词典建设是新词主题标引的基础。与新词的快速发展相比,新词词典的出版总是相对滞后,如果这些新词不能及时收录到新词词表中,将直接影响到自动标引的进程。新词收录是一项浩大繁琐的工程,新词词典的滞后性说明当前新词收录效率不高,因此,新词收录对主题标引是一个巨大挑战。
3.6 跨语言标引的挑战
随着互联网在世界范围内的普及以及信息技术的发展,语言障碍限制了人们获取更多的资源,跨语种信息检索应运而生。大数据时代,面对不同语言的、海量的数字资源,单语种检索结果已经无法满足用户对资源的需求,跨语言信息检索更有利于资源更大范围内的利用。跨语言主题标引的目的是实现跨语言检索,跨语言检索的实现是一个复杂的、涉及学科极广的、综合性强的过程。跨语言主题标引要根据跨语言主题检索的需求同步调整,因此,跨语言主题标引的实现是有一定难度的、不是一蹴而就的工作。[5]
4.1 人工参与的自动标引
大数据时代,自动标引具有效率高、速度快、成本低、稳定性和一致性高等特点,更能适应大数据时代用户的检索需求,是今后信息组织和主题标引的发展方向。自动标引是一项涉及面广、难度较大的系统性工程,要依靠语言学、计算机、情报学等多学科人才的共同配合才能完成。目前,有些数字资源采用自动标引的方法进行标引(如上表中的CNKI、El、Inspec等),虽然提高了标引速度,但存在各种问题及困难,主要表现在标引质量不及人工标引水平,为了弥补这种不足,人工参与标引不可或缺。自动标引代表主题标引未来的发展方向,今后需要在人工参与下不断尝试创新改进,最终实现智能标引。
4.2 主题词表建设
4.3 多媒体标引
大数据时代,数字资源的标引对象包括文献、音频、视频、网络日志、图片、地理位置等类型。目前,国内外较侧重于对文献类资源的标引,对图像、音视频、图片等多媒体信息标引的研究相对较少。[6]多媒体信息日益成为重要的信息资源,但对其自动标引的研究尚处于基础阶段,标引的精确程度与深度还差强人意,今后,研究方向会逐渐侧重多媒体资源自动标引,标引质量也会逐渐提高。
4.4 知识单元标引
文献标引主要是针对文献内容的标引,但硕博士论文、图书、期刊等文献资源篇幅差异巨大,用同一标准去标引所有文献类资源是否合理?大数据时代,为实现数据检索和事实检索,主题标引的力度应该加大,知识单元标引是符合这种标引趋势的方式之一。
知识单元标引是指把文献中的章、节、化学分子式、图、表、数值信息等拆分成知识单元,然后对知识单元进行主题标引。知识单元标引深入到文献中对章节内容、图、表、表达式等均进行标引,将文献内容以多层面的方式揭示出来。这种标引是事实检索和数据检索的前提和基础,突破了文献标引和检索的限制。这样,读者检索结果是与满足检索要求的具体知识信息(如论文的某一节、某一化学分子式),标引力度更深,检索结果简单直接,是主题标引的趋势。
4.5 新词词典
新词的收录速度远远滞后于新词的出现速度,从而直接影响到自动标引的准确性。所以,研究知识库智能收录新词的机制,建设及时的新词词典,提高知识库、词典反映新语汇的效率,将是今后主题标引的研究方向之一。
4.6 跨语言标引
为实现跨语言主题标引和检索,需要构建跨语言主题词表。当前,国内外十分重视跨语言主题词表的建设工作,例如,Eurovoc(euro vocabulary thesaurus)主题词表目前可支持23种官方语言。[7]为了适应大数据的环境,跨语言主题词表的自动构建技术将是跨语言标引的一个重要研究方向。
[1]马费成,赖茂生.信息资源管理[M].北京:高等教育出版社,2006:65-66.
[2]自动标引[EB/OL].[2016-01-01].http://baike. baidu.com/link?url=SpPPtTzNniRVMFc_ShqXXxhHyQ LSe5MgGE0L0Rdf1JS8bV0XfsteHHjQOsdfgZnky51Y8 lz_a5YTHow IoC49nK.
[3]刘竟,等.网络环境信息标引的测评与比较研究[J].中国图书馆学报,2008(1):70-74.
[4]朱华玲,等.受控标引在文献数据库中应用和发展的调查分析[J].图书情报工作,2013(13):140-144.
[5]蔡丹,罗翀.国家图书馆跨语言主题标引策略研究[J].山东图书馆学刊,2014(3):71-74.
[6]余春.自动标引研究进展[J].图书馆学研究, 2012(4):18-22.
[7]维基百科.Eurovoc[EB/OL].[2016-01-10]. https://en.wikipedia.org/wiki/Eurovoc.
Studyon Subject IndexingofDigitalResource in the EraofBigData
XiaoWen,LiXin
Subject indexing isan effectivemeansoforganizingdigital resources,and the indexingquality directlyaffects thequality and utilization ofdigital resources.Therefore,weshould attach importance to thedevelopmentof thesubjectindexing in BigData era.Based on the research statusof domestic and abroad digital resource subject indexing,thisarticleanalyzes the challengeswe meetin digital resourcessubjectindexing,and discusses thedevelopmenttrend ofdigital resourcesubjectindexing.
Automatic Indexing;Controlled Indexing;Natural Language Indexing;Automatic Derived Indexing;Automatic Assignment Indexing
G254.36
A
1005-8214(2016)11-0067-04
表是保证标引、检索用词一致的一个共同依据,能够帮助提高查准率、查全率和专指性,是进行主题标引工作的前提。因此,要重视建立和完善主题词表工作。为适应自动标引的需求,需要建立适合数字资源使用的主题词表。目前,国内数字资源主题标引采用较多的是mesh医学主题词表,例如CHKD、万方、Sinomed等均采用了mesh表进行标引和检索。主题词表建设应该借鉴mesh医学主题词表的成功经验,分学科构建主题词表,从而实现对全学科数字资源的主题标引。
肖雯(1966-),女,硕士,北京市科学技术情报研究所副研究馆员,研究方向:信息资源管理、科技情报研究与咨询;李鑫(1980-),男,硕士,北京市科学技术情报研究所助理研究员,研究方向:科技情报研究与技术转移咨询。
2016-03-06[责任编辑]吕晓佩