大数据情报分析平台在图书馆管理与服务中的应用

2020-04-20 11:36王慧
卷宗 2020年5期
关键词:大数据时代图书馆

摘 要:伴隨着大数据时代的到来以及相关技术的不断发展,图书馆也必然需要随着大数据时代的发展而改变。图书馆的馆藏数量近些年呈现出了内容庞大、结构多样的发展趋势,数据虽然增多但是在实际应用方面的效果并不理想。对此,为了进一步推动图书馆发展,提升图书馆的社会服务价值,本文简要分析大数据情报分析平台在图书馆管理与服务中的应用,希望可以为相关工作者提供帮助。

关键词:大数据时代;图书馆;情报分析平台;管理与服务

随着互联网时代的快速发展,大数据时代以及智能化时代已经充斥着改革行业,在这一背景之下,传统的图书馆管理和服务模式也逐渐进入到了智能化时代。对此,当代图书馆的管理与服务模式也需要适当的改变,从而适应时代的发展步伐。今年前国外就开展了关于众包的图书馆管理模式,众包属于一种全新的经济模式,主要是指公司或机构以员工执行的任务以外包方式提供个大众网络,从而提高工作的整体效益。对于图书馆而言,大数据的到来也间接提供了许多的发展空间,图书馆也需要学些各种全新模式,像众包这种创新一样更好的改进智能检索系统,并提升图书馆的馆藏使用价值。对此,探讨大数据情报分析平台在图书馆管理与服务中的应用具备显著现实意义。

1 大数据环境下图书馆的管理与服务模式发展需求

大数据时代环境之下,传统的图书馆管理与服务模式已经无法满足用户以及图书馆自身发展的实践性需求,当代图书馆的馆藏资料大多数已经转变为单子文档,这一些文档资料的结构非常丰富,同时数量庞大,与传统纸质资料相比所记录的内容更多。在用户想要找寻某一个资料时,便需要从海量的文献资料当中进行搜索,此时许多用户都无法根据自己的需求以及所提供的数据资料选择出最佳的文献,再加上一些低质量文献的存在,导致用户在文献资料检索过程中所消耗的时间会非常多,从而呈现出低效率、低收益的服务特征[1]。对此,图书馆在大数据时代背景之下必须有意识的创新,并借助情报分析平台的建设与应用,促使图书馆达到高效率的文献管理,并为用户提供更高效率的检索服务。在具体工作中,一方面需要根据图书馆的管理模式现状进行针对性改进,落实与创新智能化模式,并构建一个自主性、高效率性的文献管理方法,尽可能降低人为资源的投入,降低维护风险。另一方面需要为用户提供一个针对性的服务,并保证服务本身的快捷、智能化,促使用户可以快速的寻找到自己所需要的文献,并按照用户的实际喜好与需求,自动的为用户提供一些可能有价值意义的文献推荐,从而提高图书馆信息服务综合价值。

2 大数据情报分析平台在图书馆管理与服务中的应用

2.1 平台的搭建

网络爬虫技术主要是依据相关的规则自动的抓取万维网的程序,其主要可以划分为聚焦网络爬虫、通用网络、深层网络以及增量式的网络。本文的研究目的在于抓取图书馆当中的馆藏资料和借阅的相关数据资料,所以在具体应用中可以应用聚焦网络爬虫实现[2]。在具体工作流程方面,先提供一个初始的URL,在抓取到网页全文并按照相关的需求描述之后获得有效的数据,之后从网页当中提出全新的URL链接,在筛选之后借助筛选URL链接并加入到列表当中,之后以循环方式不断的抓取新的内容,直到满足相关条件之后才停止。在整个运行期间,核心环节在于网页的模块解析,模块本身的问题在于两个方面,一方面是解决网页当中提取自连接的问题,促使其可以顺利的加入到URL队列当中;另一方面是需要解决网页内容的解析问题,当前主流的技术是以HTMLParser为主。

HTMLParser属于当前基于HTML的数据处理与解析器,HTMLParser可以实现直接提取网页当中的子URL、解析网络的结构并对网页当中的信息数据进行提取、处理,并将网页数据以XML的格式进行输出[3]。在HTMLParser获取文献节点的同时,会对文本内容进行处理借助聚焦网络爬虫并以图书馆作为主题实行数据爬取,此时便可以获得图书馆情报的数据资料,并通过万维网当中的HTML网页,这一些网页划分为两种,一种是和网页主题相关的信息,另一种属于部分和主题相关的信息,典型内容为版权、导航等信息。对于关联性不高的数据会及时进行过滤。

在数据处理方面,获得的情报信息并不能及时分析,需要以分词方式进行处理,这里的数据会涉及中文与英文甚至是其他的文字,对于英文的相关文献,可以应用分子处理方式,这一种处理也比较简单,可以直接应用空格作为分隔符,并不需要其他的特殊处理方式。当前成熟的分词系统一种是按照字符串的匹配方式进行计算,另一种按照统计和机器学习结合的形式进行计算。按照字符串的匹配算法,主要是对字符串进行扫描,在发现与词料库相匹配的字符串后进行记录[4]。例如,正反向、双向的匹醉打匹配算法,这一种算法的速度非常快并且时间复杂度比较低,更容易实现,分类的效果也比较突出,但是对于歧义与未登录词汇的处理效果并不理想。另一种是按照统计学和计算机学习的结合形式,分类效果更好,可以解决歧义的相关词汇,当时需啊哟人工标注的词性作为支持,构建分词系统模型,可以应用标注后的数据对模型实行训练,也就是调整模型的参数。在分词阶段借助训练好的模型计算出分词的概率,并以最大概率的分词进行输出。因为两种类型的分词系统都有各自的优势,所以在应用中也可以应用结合的原则,例如按照双向醉打匹配与HMM的分词方式消除歧义的问题,这一种模型可以应用正向最大匹配与逆向的足底啊匹配两种形式实现对文本信息的分析处理,并通过HMM模型实现对两次匹配结果的对比分析,最终达到理想的分词效果。

2.2 实践应用

目前来看,在大数据环境之下,情报分析平台的应用流程已经相对比较清晰,在面对海量数据的储存基础上,可以将已经拥有的数据实行分析、整理、选择以及转换等处理措施,数据的准备工作属于情报分析平台的基础前提,同时也是决定情报分析平台应用质量与效率的关键。当前来看,图书馆在服务与管理工作中情报分析平台的应用已经具备较高的实践价值。在图书馆发展方面,可以借助这一平台实现市场发展方向的明确。与市场营销相似,属于最早应用情报分析平台的领域,其主要是按照用户的实际需求,将不同的图书馆阅读、借阅等习惯以及消费的特征等分类的方式进行总结管理,同时保障馆藏资源的供应更适用于阅读者的需求,尽可能提升图书馆馆藏的使用价值。促使图书馆的服务范围也可以从广泛性转变为针对性、个性化。

3 总结

综上所述,大数据时代的到来虽然给图书馆的运营与管理工作提出了许多的挑战,但是也间接的供应了更加理想和宽阔的发展前景。对此,图书馆在新时代环境之下,应当勇于创新,借助硬件、理念等方面的创新,提升大数据技术的实践性应用价值,提升图书馆综合管理水平,为馆藏需求者提供更加优质、人性化、全买性的服务,为社会的进一步、长远性发展提供可靠支持。

参考文献

[1]高峰,罗雪琼,张建伟.医院大数据平台建设及其在医疗行为监管中的应用[J].中国医学装备,2019,31(3):168-171.

[2]郭力,边根庆.基于大数据挖掘与决策分析体系的高校图书馆个性化服务系统研究[J].电子测量技术,2019,23(16):1-6.

[3]党秀云,杜男杰.大数据在公共服务需求识别与精准供给中的应用研究[J].中共福建省委党校学报,2019,14(5):62-70.

[4]杨利军,高军.图书馆个性化服务中的大数据可视化分析与应用研究[J].现代情报,2015(7):70-74.

作者简介

王慧(1974-),女,汉族,湖南澧县,本科,中级职称,图书管理,桃江县科学技术和工业信息化局。

猜你喜欢
大数据时代图书馆
图书馆
从“数据新闻”看当前互联网新闻信息传播生态