从关键词统计分析看我国图书情报界数据库建设研究

2009-11-19 09:16昌建纳
现代情报 2009年9期
关键词:统计

昌建纳

〔摘 要〕以VIP和CNKI为数据源,运用关键词统计方法分析我国图书情报界关于数据库建设研究论文的主题内容和研究特征。结果表明:研究主题集中于各类型数据库的建设实践方面,注重建库资料来源、质量控制和现代科学技术的应用研究,网络数据库、知识产权是近期研究的热点和难点。总体研究特征,微观层面的经验总结性探索居多,宏观层面理论指导性研究偏少,数据库建设研究内容随时代发展变化而变化。

〔关键词〕关键词统计;图书情报界;数据库建设研究

〔中图分类号〕G350 〔文献标识码〕A 〔文章编号〕1008-0821(2009)09-0143-05

Study on Construction Database in Library and Information

Science in China from Keyword StatisticsChang Jianna

(Library,Yunna University,Kunming 650091,China)

〔Abstract〕Taking VIP & CNKI as the statistical source,this paper made a statistic and analysis about contents and trends of research papers of construction database in library and information science in china by applying keyword statistics.The results showed that:focus on various types of construction database,database origins,quality control and the application of modem science and technology,and net word database and intellectual property rights were the hotspots and tough issues.Study on overall characteristic display the macro-level study of theory was not more as micro-level experience and exploration,and this study content of development with time change.

〔Key words〕keyword statistics;library and information science;construction database research

我国数据库建设已有30余年历史,经过引进、学习、借鉴国外数据库理论成果的起步阶段(1975-1979年),研究和自建中文数据库的发展阶段(1980-1993年),以1993年2月我国第一家专业数据库公司——“万方数据库公司”的成立为标志,进入了成熟实用及飞速发展阶段(1993年-至今)[1]。目前代表性数据库有:国家图书馆的《中国国家书目数据库》、中国科学院的《西文期刊联合目录库》、清华同方的《中国期刊全文数据库》等。此外,国内各行业根据科学发展和研究的需要建立了大批专业数据库,各图书情报机构也根据自身需求建立了各种内容的书目、文摘、全文、多媒体等类型数据库。与此同时,关于数据库建设的研究也随之兴起,为了解国内图书情报界关于数据库建设研究的发展脉络和研究的总体特征。本文借助网络资源数据进行统计,分析这一研究领域的主题内容和发展趋势,展示当前研究的特点,以利于今后的继续研究。

1 数据获取与处理

采用《中文科技期刊数据库》和《中国学术期刊全文数据库》为数据来源库,考虑到数据库的建设还可以用构建、建立、创建、自建等词汇表述,以T=数据库*T=建*U=(图书+情报)为检索式,在《中文科技期刊数据库》中检出论文1 570篇,再以数据库and建and(图书or情报)进行主题检索,在《中国学术学术期刊全文数据库》中检出1 211篇(检索时间为2008年月10月)。将检出的论文下载,合并后剔除重复以及无关论文,共1 556篇。

关键词是表达文献主题概念的自然语言词汇,某学科相关文献关键词的分布频次与特征能显示该学科的总体内容特征,研究内容之间的内在联系,学术研究的发展脉络与发展方向,学术研究的重点与热点等[2]。本文选用单关键词统计。把论文关键词导入Excel工作表,利用表格查找功能查关键词,将出现频率>10次的词汇按频次的高低列表。以高频关键词和研究论文内容相结合方式进行论文研究主题的分析,考查我国图书情报界关于数据库建设研究的现状、研究特点和发展变化,为今后的继续研究提供参考。

2 研究论文的关键词统计分析

关于我国图书情报界数据库建设这一专题研究,从其研究论文的关键词词频统计表中可见,出现频率最高的关键词是数据库,其次为建设,表明高频关键词与研究主题相吻合。具体研究内容可分为下述方面:

2.1 数据库类型研究

由表1可见,特色数据库和书目数据库是被研究最多的2种数据库类型。特色文献数据库是建库单位根据自身特色文献资源和用户特定需求开发、有着独特内容的数据库,具有专业学科、区域特征、地方文化、馆藏特色等诸多特点。特色文献数据库的建立是建库单位深层次开发文献资源,为用户提供特色服务的重要手段,也是资源共享的基础,因而是数据库建设研究极为关注的问题。关键词出现频率十分高,尤其是进入21世纪以来增多;统计还发现关于书目数据库的建设研究主要集中在上世纪80~90年代,书目数据库的建立对于充分揭示馆藏,为用户快捷查找所需资料提供便利,也是图书馆实现自动化管理的前提和保障。为满足自动化系统对目录数据的要求,1980年北京成立了MARC协作组为制定中国的机读目录探索经验,1990年正式发行中国机读目录,高校和省市图书馆分别开始了中文书目的建设[3]。书目数据库建设的研究也随之兴起,所以关键词词频也较高。与之相关的高频关键词还有:机读目录、联合目录、回溯书目、目录数据库、计算机编目、MARC等等;全文数据库也是高频关键词之一,全文数据库的建成可以满足用户获取文献资料原文的需求,是数据库建设追求的完美目标,近年来与之相对应的研究增多;专题数据库指关于某一特定学科、特定主题或某一专门问题的数据集合,专题数据库建设可提供专业性、专题性服务,是图书馆开展专题信息服务的最佳体现。关于专题研究的内容十分广泛,可从数据库资料来源研究中窥见一斑,专题数据库出现的频率也高。此外,还有下述几种数据库建设的研究较多。

学位论文是高校图书馆的特色馆藏,不公开出版,与学校的学科密切结合,反映学校各专业领域发展水平、研究进展,具有很高的学术价值和情报价值。关于学位论文库建设研究的内容有:学位论文库建设的总体设计、元数据标准、数据库功能、建设流程和实现方法、阐述建库实践过程和经验、探讨建库引发的种种问题、进行国内外学位论文库的比较研究等等。

我国古籍记录了中华民族五千年的历史进程,是中华各民族文化积淀的载体,是研究传统文化的信息资源宝库,品种和数量极为丰富。古籍数据库建设研究包括了反映馆藏或古籍善本的特藏库、突出地方特色的书目库、专题库和全文库的建库实践,以及在数据库建设中关于古籍收录的范围、分类与主题标引、著录标准、数据库建设方案、数据库系统结构、建库质量控制等内容。

期刊主要登载学术论文,由于其内容具有新颖、有独创性、学术性强、时效快等特点,成为用户尤其是研究型用户需求的文献资料。针对外文期刊价格昂贵、收藏不易等特点,期刊数据库建设的研究主要涉及外文刊,中文刊次之,目录库较多,尤其是联合目录,而全文库少。许多建库单位开展了建立外刊联合目录数据库的研究,探讨合作建库等问题。

在我国55个少数民族中,有古文字或现存文字的少数民族不在少数,更有大量历代关于少数民族的研究资料,所以民族文献数据库建设研究也引起了关注,具体包括:西北、西南、湘西等地区的少数民族文献,以及畲、黎、满、赫哲等民族文献数据库建设研究。

2.2 数据库建设的资料来源研究

表1数据显示,数据库建设的资料来源包括各种文献资源、信息资源、各地方文献、古籍、民族文献、学位论文、特色文献、专题文献、特色馆藏、数字资源、网络资源等等。实际上这些高频关键词涵盖的内容和范围十分广泛,具体包括了诸如:张骞研究、西夏文献、宋代文献、清史图录、民族研究文献、族谱、客家文献、华侨华人文献信息、农业信息、林业文献、海洋资源、水产科技、食品古籍、中医药典籍、民族古籍、藏文古籍、白族文献、青藏高原、石油地质学、枸杞文献、苗族医药、抗战文化、姑苏桥文化、临川文化、茶文化、地方特色文化、货币图片等等。资料来源种类繁多,不胜枚举,说明我国文献资源浩瀚、学科种类繁多、文献类型复杂、分布面极广、历史积淀深厚,数据库建设资料来源的研究题材十分丰富,囊括了历史、地理、文化、专业学科等各类资源。由于建库资料来源的选择关系到数据库建设的质量和应用效果,各图书情报机构分别就各种文献信息资源的内容范围、资源特色、资源价值判断、收集方式等问题展开了广泛而深入研究。

2.3 关于数据库建设机构

统计表明,与数据库建设研究最多的相关机构是高校图书馆。数字资源建设历来是高校图书馆资源开发与信息服务的目标,尤其是近十年。1998年中国高等教育文献保障体系(CALIS)建成启动以来,高校图书馆的数字化建设也同步快速发展,CALIS于1999年7月设立CALIS特色数据库和导航建设项目组以来,高校自建特色专题数据库明显增多。以学位论文库为例,经过“九五”建设CALIS学位论文文献数据库数量累计达10万余条[4]。2003年9月CALIS“学位论文全文数据库”项目正式启动后,学位论文数据库建设更是突飞猛进,相应的研究也大量涌现;公共图书馆这一关键词检出频率不高,与论文关键词的选词有关,如北京图书馆、上海图书馆、中山图书馆、辽宁省图书馆等用公共图书馆作为关键词检不出来,实际上公共图书馆对于数据库建设的研究也很多;与高校图书馆不同,情报机构在早期的数据库建设中发挥很大了作用。上世纪70年代末到80年代中期,计算机在情报机构中应用开始了中文文献数据库的建设,有了中国科学技术信息研究所的万方数据库和国家科委西南信息中心的维普数据库[5]。从文献综述中也可看到情报机构的数据库建设成果[6]。足见情报机构对数据库建设和研究的重视。

2.4 数据库建设目的和意义研究

从表1中列出的关键词:自动化、资源共享、共建共享、资源建设、资源开发、数字化、数字图书馆、情报检索、信息服务、信息检索等等,说明了数据库建设目的和意义的研究内容。即利用现代化技术手段开发各种文献信息资源,进行资源的数字化转换处理,建成各类型数据库或数字图书馆,提高图书馆自动化管理水平,利用网络以便不受时间空间的限制向用户提供更好的情报检索和信息服务。数据库建设离不开文献资源的数字化,数据库建设的终极目标就是实现资源的共建共享。大多数论文都涉及到了数据库建设目的和意义的研究,但缺乏深入系统的探讨。

2.5 数据库质量控制研究

与数据库质量控制相关的高频关键词有:标准化、规范化、质量控制、标引、元数据、MARC、数据质量、数据库管理等等。其中标准化居首位,表明文献的标准化是数据库建成后资源共享的前提和基础,缺乏建库的标准和规范,就不可能有协作建设和资源共享,标准和规范是数据库建设质量控制的核心。标引是深入揭示文献内容,提供多途径检索的重要手段,标引质量高低与检索查准率密切相关,关于标引的研究较多,如:主题标引、关键词标引、分类标引等。元数据是关于数据的内容质量、状况和其他信息的描述,为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具,对促进数据的规范管理、使用和共享均有重要作用。图书馆在文献数据库建设中对元数据标准的应用比较广泛,目前应用最普遍的是MARC标准,主要用于书目库的书目记录数据。在图书馆对网络资源的整合中采用了DC元数据标准。伴随着数据库建设文献类型的变化和数据库的扩展,将开始选用其他元数据标准。由于标准化和规范化保证数据库运行的可靠、系统、兼容性,因此许多论文对数据库建设中描述语言和标引语言的应用,以及国际国内通用标准的采用进行了大量的深入研究。

2.6 现代化技术应用与数据库管理研究

随着现代化技术在图书情报领域内广泛深入的应用。网络环境、WEB、网络化、网络数据库、计算机应用、ILAS等关键词数量增加。互联网从形成到今天,广泛而深刻地影响和改造着我们的社会,图书情报界也不例外,网络成为现代信息资源存贮、交流和利用的主要载体,网络为数据库发展提供独特的优势和无穷的潜力,数据库通过网络传播使用,在网络环境下实现其价值,为用户提供远程信息检索服务。上世纪末以来网络数据库的建设升温,与之相应的研究也随之增加,成为研究的热点。同样,计算机在图书馆内的应用,使数据库的建设和发展成为可能,相应的研究也伴随出现。深圳图书馆自动化集成系统ILAS在1991年8月正式开通并全面运行后,在全国各类型图书馆中使用,许多图书馆利用该系统提供的自建数据库功能建立古籍、学位论文、会议论文题录等数据库,并分别撰文探讨利用ILAS的建库研究工作。

数据库管理研究主要集中在数据库制作管理、操作系统软硬件选用等方面,关键词包括软件、TPI、管理系统、数据库管理、图书馆管理、计算机管理等等。软件是数据库管理的工具,指利用数据库技术对数据进行存贮、追加、置换、删除、检索等操作。这方面的研究包括Micro CDS/ISIS软件、CALIS中心的建库软件、丹诚软件、Ztrans软件在各种数据库建设中的应用等等。数据库制作研究还包括:论述研发学位论文数据库管理系统的设计方案和技术路线。探讨基于TPI的数据库管理平台设计的专题文献数据库建库中遇到的技术难题,以及TPI在学位论文库建设中的应用。探讨TPS面向文本数据库管理系统为平台的数据库建设问题。以PDF文件自动构建全文数据库的设计。利用Word的VBA合并不同结构数据库的方法和Word Perfect字处理软件在英文文摘数据库建设中的应用介绍。在WEB中采用ASP建立数据库查询。利用CGI建造WEB数据库系统的中间件技术以及Java技术建立专题数据库。基于XML的web挖掘技术在特色数据库建设中的应用等研究。

2.7 知识产权研究

伴随着文献资源的数字化进程的推进,知识产权问题已成为数据库建设中值得关注的研究热点,因而增强知识产权的保护意识,完善相应的法律法规,在遵循现有法律的前提下,合法解决版权、著作权问题是数据库建设中的难点。相应的关键词有:知识产权、版权、著作权。研究内容包括:针对数据库建设及使用中涉及的版权问题进行分析研究,提出规避版权风险和解决问题的策略。阐述特色数据库建设中涉及的著作权问题及解决途径。探讨建设学位论文全文数据库中易引发的著作权问题,及在实践中克服著作权的困扰。研究利用著作权法对著作权的限制性规定来进行数据库建设。提出数据库建设不仅涉及著作权保护问题,同时也要做好数据库本身的著作权保护。对国内影响较大的中文图书数据库的版权建设进行比较研究,论述自建数据库和服务中涉及的知识产权问题,提出利用法律保护自建数据库自主知识产权的建议等等。

3 小 结

3.1 数据库建设研究的总体特征

我国数据库建设事业从自发、分割状态下起步,国家调控不力,数据库建设各自为政,建库规模小、全国性大型数据库少、专业面窄、结构单一、标准不统一、横向联系少、整体谐调差、重复建设多、自用数据库多、共享性差。数据库建设研究也真实地反映了数据库建设的工作情况。综观我国图书情报界数据库建设研究,大量的研究论文只立足本系统、本行业、本地区、本单位的资源和需求进行数据库建设的目的、意义、必要性、可行性、规范和方法、建库步骤、技术以及出现问题和解决对策的探讨,大多为经验总结性探索,属于微观层面的研究。从宏观层面探讨我国数据库建设的理论思想、指导原则、战略规划、建设目标、管理体制、建库模式、运作方式、发展状况的研究不足。虽然数据库建设研究内容多种多样,体现了图书情报工作鲜明的实践性特征,但完整的理论体系未能产生,导致不能有效指导实践、更好的促进数据库建设研究的发展。总体特征为应用研究居多,理论研究偏少。

3.2 数据库建设研究特点

我国数据库建设历经30余年发展,建设成果引起众多研究者的关注。在图书情报界,研究的重点主要集中于数据库各种资料来源的范围、价值、特点和收集方式,特色库、书目库、专题库、古籍库和学位论文库等各类型数据库的建设实践。注重数据库建设过程中的质量控制和现代技术在建库中的应用等研究。

随着我国信息基础设施的建设和完善,文献资源数字化进程的加快,资源共建共享意识增强,网络数据库、数字图书馆成为近期的研究热点。

在数据库建设和服务中涉及的知识产权保护是一个较为复杂的问题,因而成为数据库建设研究的难点。

弱势论题有下述方面:对数据库建设的评价研究开展极少,仅有《期刊数据库建设工作与质量评价》、《特色数据库系统建设评价指标分析》等有限的几篇论文探讨这一主题。从用户需求出发建好数据库应该是数据库建设的立足点,满足用户需求的数据库才具有存在价值,但这一专题研究有所欠缺。通过与国外数据库的比较研究来透视我国数据库建设存在问题的研究同样不足。科学评价性文献数据库如科学引文数据库建设研究偏少。

3.3 数据库建设研究变化趋势

伴随现代科学技术发展和网络环境成熟,数据库建设研究从早期的书目数据库、文摘数据库向全文数据库转化,从光盘数据库建设向网络数据库、多媒体数据库建设转化。建库过程中元数据的选用由单一变为多种。随着数字资源建设工作在高校图书馆的开展,越来越多的高校图书馆加入到数据库建设研究工作中。1992年国家科委把“科技情报”改为“科技信息”,情报检索这一术语逐渐被信息服务取代。随着我国法律制度的健全,“知识产权”、“版权”、“著作权”等词汇逐渐增加。数据库建设中现代化技术应用与日俱增,新概念和新技术的引入,新关键词出现,老关键词的减少,反映了数据库建设研究内容随时代发展变化而变化,并将继续发生变化。

参考文献

[1]黄俊贵.数据库资源建设述略[J].北京图书馆馆刊,1998,(1):97-103.

[2]邱均平,等.国内外情报学研究研究重点及其演进[J].图书馆论坛,2005,(6):71-76.

[3]查成泰.中文书目数据库建设概论[J].高校文献信息学刊,1994,(3):28-31.

[4]赵阳,姜爱蓉.“CALIS学位论文全文数据库”的建设实践[J].大学图书馆学报,2006,(4):48-52.

[5]孟连生.简评90年代中国文献数据库建设[J].情报科学,1999,(3):306-310.

[6]卓香枨.我国自建计算机情报检索系统数据库综述[J].情报学刊,1990,(2):118-124.

猜你喜欢
统计
高中数学《统计》浅析
道路运输行业统计工作研究
浅谈统计数据质量控制
2008—2015我国健美操科研论文的统计与分析