王钰冰
(陵川县图书馆 山西 陵川 048300)
随着互联网的快速发展,人们对于网络的需求也日益增加。 在互联网高速发展的今天,大数据时代的到来给人们生活带来了极大的便利。 随着大数据技术的不断发展,越来越多的企业开始利用其优势进行转型升级、提升效率。 而作为知识服务行业的数字图书馆也在不断地探索与变革中寻求发展的新机遇与新挑战。 本文主要分析大数据背景下数字图书馆所面临的挑战以及如何应对来探讨未来数字图书馆的发展方向及趋势。
大数据时代,信息资源呈现爆发性增长,数字图书馆作为重要的知识载体和传播平台,对海量信息的处理能力显得尤为关键,因此,提升数字图书馆的信息处理能力和服务水平,成为数字图书馆发展的重要方向之一。 近年来,我国在智能技术方面取得突破,一些大型企业开始尝试将智能设备引入到数字化建设当中,利用智能设备采集的数据,结合人工智能等手段,实现数据的深度挖掘,从而为后续的决策分析、优化服务提供依据。 此外,该系统还具备强大的计算能力,可支持万亿次/秒以上的实时查询,并可根据不同应用领域的特点,灵活配置不同的功能模块[1]。 同时该系统还具有自学习功能,可以根据使用者的行为习惯,自动生成新的业务规则,使系统更贴合实际业务。
随着信息技术的飞速发展,大数据技术已经成为人们日常生活中的一个重要组成部分。 在数字化、信息化时代,图书馆作为知识传播的载体,服务功能也发生了巨大的改变,传统的信息服务方式已经无法满足人们对知识的需求。 因此,如何利用好大数据,实现图书馆服务的网络化和现代化,是当下图书馆面临的重要问题。 一方面,由于电子资源的数量巨大,使得传统的管理模式难以支撑,同时,由于缺乏统一的标准,不同机构之间存在大量的重复建设。 另一方面,对于读者而言,获取信息的渠道越来越丰富。
在数字化的今天,可以通过网络进行线上阅读,通过移动端获取信息,还可以通过手机APP 进行预约,这些改变都大大方便了人们的日常学习和工作。 随着我国互联网和移动互联网的飞速发展,数字化阅读逐渐成为人们的习惯[2]。 近年来,国家不断出台政策,鼓励和支持各类社会力量参与数字出版。 未来,随着技术的不断升级,以及大数据、人工智能、虚拟现实、区块链等新兴技术的发展,人类社会将迎来更加智能化、高效益的时代。
一是数据质量不高。 当前,国内许多数字图书馆的数据质量存在问题,主要表现在缺乏有效的管理机制,导致大量非规范数据进入系统,造成数据的冗余和重复;缺乏统一标准,导致不同类型、不同格式的数据无法有效融合;缺乏科学合理的评价机制,导致部分数据被束之高阁。 此外,由于对用户隐私保护不够,一些个人或组织未经允许就随意公开个人或机构信息,严重损害了公众利益。
二是应用场景不完善。 当前,我国大多数数字化转型还停留在基础性应用层面,缺少面向行业领域的专业化解决方案,尚未实现与实体经济深度融合。 同时,由于缺乏相应的激励措施,企业参与度低,创新活力不足。
三是技术支撑不足。 当前,我国多数数字化转型仍处于起步期,相关技术支撑相对落后。 一方面,现有技术难以满足大规模在线服务的需求,如云平台、虚拟化等;另一方面,现有的技术体系尚不能很好地适应新业务模式的发展,如知识发现、智能搜索等[3]。
一是海量数据对存储空间提出更高要求。 当前,我国电子政务建设发展迅速,各类政府网站数量不断增加,同时,各单位还通过自建网站等方式,将本单位的业务系统与政府网站进行对接,使得电子政务应用日益广泛。
二是海量数据对检索和利用效率提出更高要求。 目前,国内大多数数字图书数据库均以超星、书生等为代表。由于超星和书生的资源库体量和种类都较为丰富,因此,它们所提供的服务也更加全面,能够满足不同类型用户的阅读需求。 但是,随着数据的不断积累,这些大型数据库中的资源逐渐趋于饱和,无法满足更多读者的阅读需求。
三是海量数据使管理难度加大。 一方面,由于数字化资源的增多,导致管理成本增加。 另一方面,由于各种类型的数据相互关联,难以实现有效整合,这不仅加大了管理的复杂度,而且降低了工作效率。
一是缺乏有效的数据整合能力。 面对海量的非标准化的电子文献,如何将分散在不同平台上的各种信息进行整合,并形成有价值的分析结果,是目前国内大多数数字图书馆所面临的问题之一。
二是缺少对海量数据的处理技术。 在大规模的数据生产与存储的过程中,必须借助先进的技术手段,才能确保数据的完整性和准确性。 目前,国内大部分数字图书馆仍采用传统的人工处理方式,既费时费力,又容易出错[4]。同时,传统的处理方式也无法满足大规模的数据存储要求,从而影响后续的使用。 此外,由于数字化转型的时间较短,许多企业尚不具备大数据处理的相应能力,这也给大数据的处理带来了一定的难度。
基于关键词的精准定位:关键词作为信息的基本单位,是用户进行信息获取和决策的重要依据。 因此,在开展数字图书资源建设时,要充分考虑关键词的选择。 首先,要根据不同类型资源的特征,选择合适的关键词汇。同时根据不同主题,也可以使用不同的关键词汇。 其次,要结合具体需求,选择合适的关键词。 最后,还要注意将长尾词纳入关键词体系之中,因为很多长尾词的搜索频率很高,如果将这些长尾词加入关键词体系中,就可以大大提升信息的查询速度。
基于全文链接的全文检索:目前,国内外的各大主流搜索引擎均已实现了全文链接的功能。 因此,在开展数字化资源建设工作时,应充分考虑这一特点,尽可能地实现全文的精确查找[5]。 例如,当需要查找某一类特定主题的相关文献时,可以将这类主题下的所有相关论文全部收集起来,然后建立相应的主题库,并按照一定的规则进行分类,以便于用户能够更加快捷地找到自己所需的内容。
语义技术是大数据挖掘的核心。 在大数据中,通过大量原始数据的处理,提取出隐含在其中的关键信息,并从中发现规律,进而形成知识。 而语义技术的实质,就是通过对海量信息的综合分析,从文本中挖掘出具有特定意义的词汇,从而获得有价值的信息。 传统的语义技术主要基于统计方法,即根据已有的经验或规则,对所收集到的文本内容进行分析,得出一些简单的结论。 而大数据环境下,由于海量的数据,使得人们可以轻松地获取大量的有用信息,从而实现更精准、更有效的决策。 面向大数据环境下的语义技术,需要结合人工智能和自然语言处理等相关理论,采用深度学习的方法,将机器学习的模型与人类专家的经验相结合,使机器能够自主学习,不断优化算法,以适应不同场景的需求,最终达到自动推理的目的。
面向读者需求,实现精准推送:首先,通过建立用户行为模型,将用户的行为特征与知识结构进行结合,为不同类型读者的个性化阅读需求提供定制化服务。 其次,利用人工智能算法,根据读者历史行为记录,自动生成个人推荐,实现“千人千面”。 最后,还可以根据用户的兴趣爱好,推送相关内容。
挖掘网络数据,构建智能系统:通过整合各类网站的数据,形成网络数据的统一平台。 一方面,可以实时监测各网站访问情况,掌握各网站的最新动态;另一方面,可以通过分析各类网站的数据,发现其中规律,进而了解整个互联网的发展现状。 在此基础上,可以开发相关的软件或系统,为其他行业提供相应的支持。
它是一种将大量原始或半结构化信息进行分类,从而得到有序的知识库的方法。 简单来说,就是通过分析大量文本,找出具有某种相似性的内容,然后根据这种相似性,把相关联的内容归为一组,形成新的类别。 例如在搜索框输入关键词时,系统会根据输入的词汇,推荐相关的文章。当点击一篇文章后,系统会进一步判断该篇文章是否与搜索词相匹配,如果匹配,则会继续推荐其他类似文章;如果不匹配,则会提示该篇报道可能并不符合用户的搜索要求。
随着数字技术的飞速发展,数字资源已经成为人们学习、生活的重要资源,在数字化时代,图书馆作为知识传播与获取的重要场所,服务功能也日益受到人们的重视。 随着大数据时代的到来,越来越多的信息通过互联网被发布,这给传统的信息收集方式带来了挑战。 因此,为了更好地发挥大数据的优势,必须加强数据库建设,拓展信息源渠道。 一方面,应充分利用网络,建立完善的网络数据库,实现对海量信息的整合和利用,提高信息检索能力;另一方面,应积极探索跨媒体资源的开发,将纸质文献中的文字、图片、音频、视频等不同形式的内容进行综合整理,形成具有特色的电子化产品。
数字化图书馆建设需要整合数字资源,这些数字资源包括但不限于数字化的图书、期刊、报纸、学位论文、会议论文、视频、音频、图片等。 数字化图书馆可以通过多种方式整合这些数字资源,例如可以通过采集和数字化的方式将纸质文献转化为数字资源,以便于用户在线阅读和检索;可以购买其他机构或公司的数字资源,并将其整合到自己的数字图书馆中,以丰富自己的资源库;可以与其他图书馆或机构合作,共享数字资源,以提高数字资源的覆盖面和利用率;可以自建数字资源库,并负责维护和更新,以保证数字资源的完整性和可用性。
首先要对电子图书进行二次加工。 由于不同类型和不同版本电子书的体量大小不一,因此,对于那些体量大且内容较长的图书,应采用分卷的方式进行整理。 此外,可以根据读者需求的不同,对电子书的内容进行分类,以此满足各类读者的阅读需求。 其次要对电子期刊进行二次加工。 当前,越来越多的学者开始重视学术成果的发表,但传统的纸质论文出版周期较长,不利于及时地发布最新研究成果。 因此可利用现代技术手段,通过建立在线数据库,实现论文的全文检索,并自动生成摘要,从而提高论文的利用率。 再次,可以将部分重要文章制作成PPT,以便更好地展示研究思路及成果;也可以利用视频网站,播放相关视频,供读者参考学习。 最后还要注意对一些非正式出版的资料,如报纸上的新闻报道,以及个人博客等也应做好收集工作,以便于读者能够快速了解某一事件。
建立知识库,提高用户检索效率:为了方便用户对所需文献进行快速查询,在数字图书馆中,可以通过建立知识库的方式,帮助读者快速查找所需文献。 同时,通过知识库还可以将一些具有共性的内容整理出来,供其他读者参考使用。 此外,对于一些重要的文献,也可以根据用户的需要,为其制定相应的检索规则,从而提高用户的检索效率。
加强数据挖掘,实现智能管理:在大数据时代,人们已经无法单纯地依赖人工方式去处理大量的数据,而是需要借助大数据技术,来辅助人们的日常管理工作。 一方面,可以利用人工智能技术对海量数据库中的相关数据进行深度学习与挖掘,进而从中发现规律,以便于更好地指导人们的管理工作。 另一方面,还可以利用大数据技术,对不同类型、不同层次的数据进行分析,从而找出其中的关联性,并以此为基础,开展更精准的统计工作,进而为科学决策提供依据。
构建新型网络化资源体系:在大数据的推动下,传统资源建设模式正在发生改变,基于互联网的信息资源获取渠道更加多元,信息获取效率得到有效改善。 同时,随着国家电子政务外网及各级政府网站群逐步建成并实现互联互通,以及全国文化资源共享工程建设的深入开展,各类网络化信息资源日益丰富,能够为读者提供丰富的阅读内容。此外,通过整合社会优质文化资源和特色文献,打造具有地方特色的专题数据库,进一步拓展了资源的覆盖面。
一是要加强学习,提升专业素质。 在大数据时代下,数字图书馆的建设与运营需要大量的技术人才,而目前大多数的从业人员都是非计算机专业的,这就要求从业人员不断加强自身的学习。 通过参加各种类型的培训,了解行业动态,掌握最新知识,从而不断提升自身的专业素质,增强工作技能。
二是要积极沟通,形成有效合力。 在大数据和人工智能时代,需要更多地沟通与交流,这样才能更好地发挥出彼此的力量。 作为管理者应该多沟通,了解馆员的诉求,共同解决工作中遇到的问题,只有这样,才能更好地推进工作,使整个团队形成强大的凝聚力,最终实现高效的管理。
数字图书馆在大数据时代面临着巨大的机遇和挑战。随着数字化技术的不断发展和网络资源的建设逐步完善,数字图书馆需要发挥网络技术优势来构建信息化平台,创新阅读服务模式并完善服务体系,强化人员能力培养,多开展培训活动。 通过与新技术的不断融合,数字图书馆将助力文化传播和知识创新,为人类社会的发展做出更大的贡献。