张青云
关键词:文本数据挖掘技术;图书馆;地方文献资源;数据库
摘 要:文章介绍了文本数据挖掘技术的产生、发展及内涵,分析了文本数据挖掘技术在图书馆地方文献资源开发利用中的优势,指出了文本数据挖掘技术应用于图书馆地方文献资源开发及利用中的方法,旨在提高地方文献资源的利用率。
中图分类号:G250文献标识码:A文章编号:1003-1588(2019)10-0107-03
地方文献资源是图书馆馆藏的重要组成部分,在馆藏资源体系中具有唯一性,因此其在图书馆信息资源服务中具有重要地位。伴随着科学技术的快速发展,越来越多的专家学者借助地方文献资源从事各学科的研究工作,特别是图书馆与政府文化机构从事编史修志工作以来,各单位对地方特色文献资源的需求与日俱增,同时,地方文献资源对学者研究地方人文、经济和社会结构情况具有重要作用[1]。在图书馆地方文献资源的开发和利用中引入文本数据挖掘技术,可以使地方文献资源更好地服务于地方经济、文化和社会的发展。
1 文本数据挖掘技术概述
1.1 文本数据挖掘技术的产生与发展
伴随着计算机技术的快速发展,大量的信息数据随之产生。为了给信息获取者提供全方位的信息视角,许多科技企业、互联网公司在多个领域建立了大量的数据仓库,但人们很难从中快速找到有价值的信息资源,而依托传统信息网络形成的数据查询、报表分析工具无法满足海量文本数据提取的需求。因此,人们迫切需要一种新的数据分析技术对数据仓库中海量的文本数据进行挖掘分析,并从中提取有价值的信息。在此背景下,文本数据挖掘技术应运而生,并伴随数据仓储技术的发展而逐步得到完善[2]。文本数据挖掘是指从大量文本数据信息中自动抽取隐藏在文本夹内有价值信息数据的过程。这些文本数据表现形式可能为规律、概念、模式及各种准则,文本数据挖掘技术可以帮助信息获取者分析数据仓库中的历史数据和当前数据,并从中发现各类型信息数据潜在的规则与联系,进而实现未来预测。文本数据挖掘技术是数据挖掘技术的一种,是一门涉及多个领域的交叉学科,涉及数据库、大数据、可视化表达、交叉计算、人工智能等多个领域,其可以对数据仓库中大量的文本数据进行挖掘、提取、转换、分析和可视化模型处理,并从中找到满足决策者需求的信息数据。传统的报表查询处理技术只能直观显示事件的发生和结果,并没有深入分析事件产生的背景和原因,而文本数据挖掘技术侧重于了解事件发生的背景、原因以及其他诱发因素,并以一定的置信度模型对未来事件进行可能性预测,可以为决策者提供参考[3]。
1.2 文本数据挖掘技术的内涵
文本数据挖掘通常包括信息特征提取、文本标题识别、文本摘要提取、文本信息分类、文本概念界定、文本信息提取以及文本信息数据分析等流程。文本数据挖掘技术包括用于文档词汇频率分析的向量表示法、用于文本概念解析的数据分析法、用于文本词汇解读的字符串技术、用于文本分类的贝叶斯分类算法、基于文本概念的聚合优化方法等[4]。作为用于文本数据挖掘分析的技术,文本数据挖掘技术可以对多种数据文本进行分析,如语音文本、可视化视频文本及文本文档等,如果将其应用到图书馆特色文献资源开发利用中,将会提高文献资源的检索效率。
2 在地方文献资源开发利用中应用文本数据挖掘技术的意义
图书馆地方文献资源是记录某一地域知识文化、民俗风情、社会经济发展情况的知识载体,是反映特定文化区域人类社会活动及自然现象的文字记录,有着较强的地域性、文化性、民俗性特征,是地方图书馆特色文化资源体系的重要组成部分。在地方文献资源开发利用中应用文本数据挖掘技术,可以挖掘图书馆地方文献资源的潜藏价值,提高文献信息资源的获取速度。
2.1 挖掘图书馆地方文献资源的潜藏价值
地方特色文献资源大多以纸质书籍、特色档案、电子文献的形式存在于馆藏资源数据库中,因此,发挥地方特色文献资源的社会价值就要挖掘这些文献资源的隐含信息,找到其历史价值和文化价值。文本数据挖掘技术可以对地方图书馆海量的文本数据进行深入挖掘和科学分析,同时还可以使用算法工具、数理統计工具及信息聚合技术挖掘地方特色文献资源的潜藏价值,并实现其潜在信息的高效聚合[5]。
2.2 提高用户的资源获取速度
为保证用户能够在短时间内获取地方特色文献资源,图书馆可以针对不同用户的需求单独设置信息获取专题,并将用户的专题需求设置为事务,记录每一次地方特色文献资源的获取过程并组建专题事务库,再使用关联规则采掘算法找到访问频率较高的专题项目集,通过分类算法工具将用户对不同地方特色文献资源的浏览日志记录与项目集合进行相似匹配,将具有相同信息获取习惯的用户组织到同一数据链中。同时,图书馆可以针对用户的信息需求进行关联检测,找到事务库中被频繁访问的专题集,再利用语义关联技术分析不同专题间的语义联系,找到各个主体间的语义关联规律,并存储到相关数据库中。当用户通过图书馆界面快速访问地方特色文献资源时,图书馆就可以通过网络代理根据预先设置的规则快速响应用户,用户也可以快速获取与个人需求相匹配的地方特色文献资源[6]。
2.3 提升图书馆地方文献资源检索效率
目前,地方图书馆采用的信息检索系统在信息交互、用户信息认知等方面还存在不足,用户使用信息检索系统得到的信息查询结果往往呈线性分布,致使用户不知如何高效地检索所需的地方文献资源。基于文本数据挖掘技术的文献检索系统不仅支持概念检索、模糊检索及多语言输入检索,而且能利用文本数据挖掘算法对检索结果进行精确分类,使其更加条理化,同时还可借助UI可视化界面进一步帮助用户进行智能筛选,提高资源检索效率。
3 文本数据挖掘技术在图书馆地方文献资源开发利用中的应用
文本数据挖掘技术在图书馆地方文献资源的开发和利用中显示出了强大的生命力,借助数据服务器、数据挖掘工具以及图书馆地方文献资源库模型对地方文献资源进行搜集、聚合、分类、清洗、提取,可以挖掘出地方文献资源的隐含信息和潜藏价值,实现地方文献资源的高效开发和利用(见图1)。
3.1 图书馆地方文献资源优化建设
使用文本数据挖掘技术对图书馆地方文献资源的借阅情况、流通状況、用户需求及资源目录进行挖掘,并按照用户需求采集借阅量较多和借阅量较少的借阅集,不仅可以为地方文献资源的开发利用提供决策支持,而且可以分析不同图书馆地方文献资源的利用率,及时更新文献信息。如:图书馆可以对数字图书馆系统中的用户留言和网络日志进行搜集,并使用文本数据挖掘技术提取其中有价值的信息资源,并转换为结构数据库,进而根据用户需求为其提供有价值的信息资源。
3.2 图书馆地方文献资源智能化服务
应用文本数据挖掘技术可以在短时间内实现大量文献数据的搜集。首先,图书馆应对用户获取地方文献资源的行为习惯信息进行搜集,记录用户每次的浏览信息。其次,图书馆可应用关联规则算法找到访问频率较高的项目集,结合分类算法将具有同一行为特征的用户聚集到一起,以提高用户的资源获取效率。智能化的算法工具、信息检索工具不仅支持用户的多种检索方式,还能对多种语言搜索结果进行聚类分析,使其清晰地呈现出来,方便用户选择。
4 基于文本数据挖掘技术的图书馆地方文献资源开发利用方法
4.1 建立图书馆地方文献资源数据库
利用文本数据挖掘技术对地方文献资源进行开发利用,应针对地方图书馆、文化机构、档案馆、博物馆中的地方特色文献资源,包括图书文献、历史文物、历史档案等进行数字化处理,借助转换算法工具将数字化文献资源转化为文本数据,再使用文本数据挖掘技术对数字文献进行深入挖掘。在挖掘其潜在价值和潜藏信息的基础上,图书馆可以应用SQL数据库技术将文献资源存储到特定的数据仓库中,并对不同种类、不同结构的地方特色文献资源进行分类存储,设置不同的专题集开展集中利用,并以此为依托面向用户推出不同种类的地方文献资源产品与服务,满足用户的研究及阅读需求。
4.2 构建地方特色文献资源检索系统
基于文本数据挖掘技术的文献资源开发与应用需要相应的信息检索系统,通过信息检索系统可以实现用户资源需求与图书馆地方特色文献资源的有效对接,提升图书馆地方文献资源的利用率。信息检索系统的设计不能局限于操作功能,除了考虑图书馆地方文献资源的结构特点,还要根据数据库的构造、图书馆地方文献资源的类型设计不同的算法工具。图书馆只有围绕用户需求提供便捷的地方文献资源检索服务,才能提高资源利用率。
4.3 建立图书馆地方文献资源智能服务模式
图书馆应依托大数据分析技术面向用户建立专门的习惯集,在精准分析用户需求的基础上采用智能技术为用户量身打造个性化服务方案,及时调取与用户需求相匹配的图书馆地方文献资源并提供给用户,同时提供相关的解析、数据分析以及参考决策等服务。
5 结语
文本数据挖掘技术在图书馆地方文献资源开发利用过程中发挥着重要作用,使用文本数据挖掘技术不仅能提高图书馆地方文献资源的利用率,还能提升图书馆的智能化服务程度,从而更加科学、高效地满足用户的个性化需求。
参考文献:
[1] 赵刚.文本与数据挖掘的版权问题:法律适用障碍和图书馆的版权立场及博弈策略[J].图书馆工作与研究,2018(10):12-17.
[2] 于静.国际图书馆界对文本和数据挖掘权利的争取及启示[J].图书馆,2016(3):80-84.
[3] 王艳.数据挖掘在数字图书馆中的应用[J].现代图书情报技术,2002(5):8-10.
[4] 侯玉玲.图书馆应用文本和数据挖掘技术的版权问题刍议[J].图书馆界,2015(6):1-4.
[5] 秦劼.文本与数据挖掘技术应用背景下的英国版权例外制度的创新:兼议对我国解决图书馆数字版权问题的启示[J].晋图学刊,2018(4):57-61.
[6] 龚真平.基于web文献的数据挖掘研究应用[D].成都:西南交通大学,2017.
(编校:周雪芹)