基于数据关联与文本挖掘技术的图书馆文献资源开发利用研究

2019-09-18 06:46张影
中国中医药图书情报 2019年4期
关键词:文本挖掘文献资源开发利用

张影

摘要:数据关联与文本挖掘技术为图书馆文献资源开发利用提供了新方法。文章阐述了图书馆文献资源开发利用的现状,阐明应用数据关联与文本挖掘技术的必要性,明确了基于数据关联与文本挖掘技术图书馆文献资源开发利用的4项原则,即持久性原则、重点性原则、主动性原则与价值性原则。并从数据源、文本处理、文本挖掘分析、可视化处理4个方面设计了基于数据关联与文本挖掘技术图书馆文献资源开发利用的流程,提出了构建过程中应注意的问题,以期推动图书馆文献资源的开发与利用。

关键词:数据关联;文本挖掘;图书馆;文献资源;开发利用

DOI: 10.3969/j.issn.2095-5707.2019.04.012

中图分类号:G254    文献标识码:A    文章编号:2095-5707(2019)04-0048-04

Abstract: Association data and text mining technology provide a new method for the development and utilization of library literature resources. This article expounded the current situation of the development and utilization of library literature resources, elucidated the necessity of applying association data and text mining technology, and clarified four principles of the development and utilization of library literature resources based on association data and text mining technology, namely, the principles of persistence, focus, initiative and value. It also designed the process of development and utilization of library literature resources based on association data and text mining technology from the aspects of data source, text processing, text mining analysis and visualization processing, and proposed the problems that should be paid attention to during the construction process, in order to promote the development and utilization of library literature resources.

Key words: association data; text mining; library; literature resources; development and utilization

圖书馆文献资源开发是一项复杂的系统性工作,图书馆文献蕴含着浓厚的历史,具有非凡的历史价值和科学价值,开发利用图书馆文献有利于继承和发展中华民族文化遗产,为图书馆文化研究提供一手资源[1]。对图书馆文献资源的开发利用,可以结合数据关联与文本挖掘技术,从已有的文本中提取有价值的信息,充分发挥数据挖掘的技术优势,从大量的图书馆文献资源数据中抽取可用的知识。但是,数据关联与文本挖掘需要处理非结构化的文本和模糊的语义,涉及到多个学科和领域,涵盖统计学、数据学、语义识别等技术,因此,基于数据关联与文本挖掘技术的图书馆文献资源开发利用研究十分具有挑战性。

1  图书馆文献资源开发利用现状分析

当前图书馆文献资源开发利用工作存在诸多不足,既有服务理念上的忽视,也有保障机制上的缺失。从服务理念上来看,部分图书馆认为图书馆文献的搜集和整理并不重要,将其认为是某一个部门的工作,在整体上缺乏统一协调管理,导致图书馆文献总体馆藏数量少、质量偏低。从投入上来看,因为对图书馆文献工作的不重视,使得图书馆文献资源开发利用经费及人才短缺,不能够及时更新文献,无法满足读者的阅读需求。从图书馆文献资源利用上看,部分图书馆馆内没有专门的文献储藏空间,更谈不上深度的开发与高效利用,这些严重制约了图书馆文献资源的服务水平[2]。可见,图书馆对于文献资源的开发和利用十分被动,无法真正形成科学的、具有规模的服务体系,导致读者对图书馆开发利用文献资源缺乏信任。因此,重塑图书馆文献资源开发利用体系至关重要。

图书馆文献资源往往具有较高的学术研究价值,人们通过查询阅读文献资料,了解过去、追溯历史、把握现在、展望未来。随着社会的不断进步和发展,信息的发展呈爆炸式增长趋势,越来越多的人开始重视图书馆文献资源,查阅图书馆资源的读者用户与日俱增。部分图书馆已经意识到图书馆文献资源的重要性,但由于受传统的资源开发技术制约,难以挖掘图书馆文献资源的数据关联和隐藏的规律性信息,导致图书馆文献资源的开发程度有限,利用率有限[3]。因此,应用数据关联与文本挖掘技术,可以突破资源开发利用的技术瓶颈,通过数据挖掘等手段,能够发现和抽取可用知识,在相关数据间生成一定规则的链接,便于形成知识间的迁移,使读者更加全面和便捷地对图书馆文献资源进行检索,提高文献资源开发与利用的质量。

2  基于数据关联与文本挖掘技术的图书馆文献资源开发利用原则

图书馆在进行图书馆文献资源开发利用的过程中,既要结合数据关联与文本挖掘的技术优势,又要遵循持久性原则、重点性原则、主动性原则与价值性原则。

2.1  持久性原则

图书馆文献资源的开发利用是一项长期的、宏观的系统性工程,要保证图书馆文献的继承性,在统筹协调文献资源开发利用过程中,应该始终遵循持久性原则,解决相关机构设置和人员管理的问题,结合数据关联与文本挖掘技术,充分考虑技术人才的引进,从资源构建环节到知识输出平台,都要符合数据开发的标准与要求。将图书馆文献资源挖掘工作作为一种常态化、持久性的工作[4],使文献资源成为图书馆的名片,推动馆藏文献形成规模。

2.2  重点性原则

图书馆文献资源内容丰富,涵盖人文、社会、经济、民风民俗等方方面面的内容,并且载体多样,有视频、音频、图片、文本等,由于图书馆经费和人力有限,不可能事无巨细地对每一个数据都进行挖掘,详略不分地资源开发只会产生泛而不专的问题,难以突出图书馆文献资源的精髓和特色。因此,在对文献资源进行数据关联和文本挖掘技术处理时,要遵循重点性原则,根据图书馆具体的情况因地制宜,优化资源配置,有的放矢,挖掘重点。

2.3  主动性原则

对图书馆文献资源的数据关联和文本挖掘工作具有很大的难度,一是在技术处理方面需要专业的人才和设备,二是需要大量全面地收集与整合文献资源,三是需要社会上和相关部门的大力支持,例如经费支持、社会捐赠等。在文献资源开发利用没有得到重视的情况下,图书馆要遵循主动性原则,主动联系社会团体和相关单位,争取他们的支持和帮助,推动图书馆文献资源开发利用顺利进行。

2.4  价值性原则

价值性原则,即在进行数据处理时,关注图书馆文献资源与学科研究的交叉点,迁移其学术价值。图书馆文献资源传承着区域的文化脉络,必然与区域地理、人文和历史学科息息相关[5]。所以,图书馆在进行数据整理时,要充分挖掘文献资源的学术价值和人文价值。

3  基于数据关联与文本挖掘技术图书馆文献资源开发利用的流程设计

数据关联和文本挖掘的目标在于应用Web技术将计算机与资源描述框架(Resource Description Framework, RDF)相关联,进而形成数据网。图书馆应该从数据源建设、文本处理、数据挖掘分析与可视化处理等层面进行设计,最终能够为用户提供揭示资源和知识链接的整合结果,使图书馆文献资源得到开发与利用。

3.1  数据源

图书馆可以利用BIBFRAME(书目框架)2.0取代原有的MARC模型方式,重塑图书馆文献资源数据库,强化资源元数据的描述,便于应用数据关联和文本挖掘技术,建立更加开放的数据关联环境,使文献资源数据库具有一定程度的伸缩性,能够融入语义网络环境中,符合文献资源开发和利用的格式标准。由于文献资源数据,如数据库、网页、论文集、期刊及图书等,存在多样性和复杂性,我国不同地区、不同级别图书馆对图书馆文献工作的理解和管理有所差异,造成图书馆文献的交流与互通存在障碍。基于数据关联与文本挖掘技术的图书馆文献资源开发利用要制订统一标准,以便更加全面地整合大量数据源,为数据关联和文本挖掘提供资源基础。

3.2  文本处理

为揭示数据源中文献资源的相关性,图书馆要对其进行文本处理,如分词、提取数据特征等。常见的数据关联方式有实体上位关联方法,例如,将个人与组织相关联(bf:Person, bf:Organization)、个人与家族相关联(bf:Person, bf:Family);还有侧重点关联的方法,例如,将居住地和出生地相关联(local:residence, local:birth place)[6]。通过这种有规律的文本处理,可以从复杂的数据源中,链接出数据间的关系,充分表达数据间的相关性。另外,图书馆还可以根据本馆文献资源实际情况和特征,划分不同关联主题,为下一步的文本挖掘分析奠定基础。

3.3  文本挖掘分析

在基于数据关联与文本挖掘技术的流程中,文本挖掘分析是核心环节,是发现图书馆文献资源知识规则的关键,包括文本结构分析、文本摘要、文本分类、关联分析、分布分析用趋势预测等。分析人员不需要对数据的分布做出假设性方案,也不需要按照一定的程序对其计算,文本挖掘技术可以自动识别数据变量之间的關系,并提取杂乱数据间的规律。一般来说,文本挖掘分析技术会重点处理数据分类、数据聚类、数据关联及定性4类问题。

3.4  可视化处理

将整合的文献资源进行可视化处理,是图书馆资源开发利用的终端环节,同样也是一项复杂的技术性工作,要严格遵循数据导出的程序。这是数据关联与文本挖掘技术的成果输出环节,因此对于图书馆文献资源的可视化技术处理要由富有经验的专业人员来完成。整合后的资源符合网络平台的语义环境,标引方式也满足网络平台的要求,可以提高检全率、检准率。图书馆文献资源可视化后,可供读者用户查询和浏览。

4  基于数据关联与文本挖掘技术的图书馆文献资源开发利用应注意的问题

在开发和利用图书馆文献资源过程中,数据库建设工作是基础(见图1),规范化的数据挖掘程序十分重要,可以保证文献资源的有序排列和输出,为读者用户提供系统化、关联性强的检索结果。同时,充实图书馆文献书目数据库与提高图书馆馆员的素质水平也是基于数据关联与文本挖掘技术图书馆文献资源开发利用需要解决的关键问题。

4.1  充实图书馆文献书目数据库

文献资源数据库建设是开发利用文献资源的基础性工作,在文献资源选取的过程中,一要注意全面性,尽可能地著录完整的图书馆资源;二要注意特色性,即突出图书馆文献资源的特征,根据图书馆文献资源的实际情况分类[7]。总之,充实图书馆文献书目数据库是应用数据关联和文本挖掘技术的前提,如审核通过将会进入文献加工环节,如审核未通过,则要重新构建文献资源体系。

4.2  规范化数据挖掘流程

基于数据关联与文本挖掘技术图书馆文献资源开发利用还要注意数据挖掘的规范化,保证数据的质量是首要工作,要对文献数据的字段和格式进行硬性的规范,并且要保证这种格式是持续遵循的,充分为以后的文本挖掘工作和图书馆网络平台建设打好基础。从图1可以看出,文献标引、数据录入与链接,都需要规范和监督,如遇不合格的情况,要及时返回上一流程重新校对和验证。图书馆必须对文献资源的数据挖掘层层把关,完善CNMARC和BIBFRAME的数据转换。

4.3  提高图书馆馆员的素质水平

文献资源的数据关联和文本挖掘工作,对图书馆馆员提出了更高的要求。图书馆要加强对馆员的培养,提高素质水平,在掌握基本的图书情报专业知识基础上,具备图书馆文献背景知识和一定的数据挖掘技术,以及计算机应用知识,从而保障图书馆文献资源的充分开发与利用,从人才角度保障图书馆文献资源的数据关联与文本挖掘工作。

5  小结

网络环境和计算机信息技术的发展为图书馆文献资源开发与利用提供了有利条件,将数据关联与文本挖掘技术应用到图书馆文献资源开发利用中,能更好地发挥图书馆传承文明的作用,突出图书馆在资源、技术、人才方面的优势,打造全面性、规范性、有价值的图书馆文献资源数据库。

参考文献

[1] 林泽斐,孟雪梅.基于关联数据的地方文献地名规范控制[J].图书馆杂志,2017,36(10):55-62.

[2] 赵夷平,毕强.关联数据在学术资源网相似文献发现中的应用研究[J].现代图书情报技术,2016(3):41-49.

[3] 黄晓斌,王尧.地方文献与地方特色新型智库建设[J].图书情报知识, 2016(1):35-41.

[4] 宋玉军,金晓英.数字时代公共图书馆地方文献工作探析[J].圖书馆理论与实践,2014(11):77-79.

[5] 欧石燕,胡珊,张帅.本体与关联数据驱动的图书馆信息资源语义整合方法及其测评[J].图书情报工作,2014,58(2):5-13.

[6] 高红妮.图书馆关联数据创新动态组合服务模型研究[J].农业图书情报学刊,2018,30(9):158-160.

[7] 刘颖.基于语义关联的数字图书馆知识检索系统研究[J].图书馆学刊,2018(6):107-110.

(收稿日期:2018-12-11)

(修回日期:2018-12-28;编辑:魏民)

猜你喜欢
文本挖掘文献资源开发利用
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
从《远程教育》35年载文看远程教育研究趋势
审计供给侧改革背景下的审计成果利用探析
档案的开发利用在供电公司全面管理中的作用
政法类大学图书馆图书配置以及对法学图书的需求
慧眼识璞玉,妙手炼浑金
少数民族文献资源的数字化建设
探讨网络环境背景下的高校图馆文献信息资源采集分析
承德建设国家文献战略储备库研究