基于VOSviewer的数字资源长期保存热点研究

2019-09-10 07:22:44张茜晴
兰台内外 2019年10期
关键词:图书情报共词分析研究热点

摘 要:数字时代的快速发展使数字资源的长期保存成为一项重要的研究课题,不仅在图书情报领域内开展广泛研究,同时还具有较强的跨学科性质:其理论与技术科学借鉴其他领域研究成果,对其他领域也具有指导意义和实用价值。鉴于数字资源长期保存的现实意义和历史意义,笔者从文献计量的角度出发,以Web of Science核心合集近五年的相关文献为数据来源,利用文献关键词共现聚类的分析方法,借助文献计量分析软件VOSviewer绘制热点知识图谱,通过对类团中关键词进行梳理和解读,总结出目前数字资源长期保存领域的热点研究主题和方向:数字资源存储技术和方法的研究、数字资源保护理论与策略的研究以及数字资源信度与安全保护的研究。

关键词:数字资源保存;研究热点;共词分析;知识图谱;图书情报

一、引言

随着互联网及计算机技术的发展,文献等信息资源的载体逐渐由纸质转为数字形式,且数字化与电子化的趋势愈加明显。图书馆作为文献信息资源的保存者与传播者,数字资源已成为其重要的保存对象,数字资源的保存也成为图书情报学科一个重要的研究领域,同时与法学、哲学、经济学和计算机学等学科都存在交叉研究。联合国教科文组织(UNESCO)在“全民信息计划”(Information for all programme,IFAP)主题讨论会中曾明确“敦促政府对信息保存给予优先考虑,并选择保存哪些资源”,并将数字资源保存列为应优先发展的五大领域之一。数字资源保存又可分为长期保存、中期保存和短期保存,随着海量的数字化内容成为人们生活中越来越重要的文化和知识遗产的承载者,而网络和信息技术的飞速发展使得数字化内容不得不面临着退化和消逝的风险,因此,数字资源的長期保存就显得尤为重要,以使人们能够永久获取数字信息,保存文化遗产。鉴于“数字资源长期保存”领域本身具有的重要意义,及其与其他领域研究的跨学科性质,有必要对该领域目前的研究热点进行分析,了解领域研究现状并为后续研究提供借鉴。

二、研究方法与工具

1.研究方法

研究热点(hot topic)是Price在1965年提出的概念,指在某时间段内有突出发展潜力的研究主题。研究热点通常是由一组研究中的领域主题组成,不同的关键词构成了每个领域主题,关键词作为一篇文献核心内容的浓缩和提炼,在很大程度上代表文献的研究内容,以及解读性强,且分析方法简单多样等优势,基于文献关键词的热点识别方法成为目前最为常用的分析方法,主要又可分为词频分析法和共词分析法:词频法由Luhn于1958年首次应用于自动文摘的研究,基于研究内容集中性与分散性可由关键词频次与个数的关系判断这一原理,关键词的集中性越强,则该关键词表征的内容在该领域很可能起关键作用;共词分析法起源于20世纪70年代中后期一位法国文献计量学家,并在1983年SCI首次收录Callon.M发表的关于共词聚类分析的论文之后作为一种内容分析方法正式被人们关注。共词分析法以文献计量和统计聚类为研究手段,将看似无关的关键词联系起来,按词间紧密程度对共同出现的词进行聚类,每个类团由相互联系的数个关键词团聚合而成,通过对类团中的关键词进行分析,表达一定的研究主题。再结合关键词在不同时间内的关注度高低变化,探寻某时间段内不同主题的研究热度。

2.分析工具

知识图谱(knowledge graph)作为语义网技术之一,自2012年Google正式提出这一概念之后,便在多个领域有了广泛应用。借助可视化分析工具,利用关键词共现关系生成知识图谱也成为热点分析应用研究中的主要趋势。VOSviewer是一款由荷兰莱顿大学的Nees Jan van Eck和Ludo Waltman共同开发的文献计量分析软件,可通过标签视图、密度视图等方式展现分析领域的热点主题等。本文以共词聚类分析为方法,借助可视化软件VOSviewer对数字资源长期保存领域的研究热点展开分析和图谱展现。

三、数据获取与分析结果

1.数据获取与预处理

为了保证数据的全面性和权威性,笔者从科睿唯安的Web of Science数据库中选择Web of Science核心合集为数据来源,选用2014-2018这五年的所有类型文献,检索结果如表1所示。

关键词清洗是进一步分析的前提和必要条件,BibStats是中国农业大学情报研究中心团队开发的一款文献计量分析工具,首先利用BibStats将元数据进行格式的统一,再进一步对关键词字段进行以下操作步骤:校正词条——对字段中的重复记录进行去重——进行关键词中的大小写异形的统一处理——对系统能识别的语法异构等不一致关键词进行统一处理(例如将digital library和digital libraries全部统一为digital library),共1642个关键词。将清洗后的数据导入VOSviewer,分析类型选择“共现(Co-occurrence)”,分析单元选择“作者关键词(Author keywords)”,计算方法选择“全计数(full counting)”,将关键词共现阈值设置为2次,即共现次数2次以上的关键词纳入分析,共181个。运行后以热点图形式呈现,类团以关键词共现关系凝聚成团,如图1所示。

2.分析结果

观察上图,可从不同颜色区分几个主要的类团,同时软件提供聚类的具体关键词信息,共形成8个聚类,笔者通过人工判读类团内的关键词,在此基础上对类团进行整合,形成研究主题如下:

主题一:云计算(cloud comput)、网格(grid)、本体论(ontology)、数字声音存储(digit sound preserve)、三维成像(3d imaging)、云存储(cloud storage)、数字技术(digital technologies)、元数据(metadata)等;

主题二:保护计划(conservation planning)、文化遗产(culture heritage)、数字遗产(digital heritage)、机构知识库(institutional repositories)、地理信息系统(GIS)、信息资源(information resources)、生物多样性(biodiversity)、自然保护(nature conservation)等;

主题三:隐私保护(privacy preserving)、信息共享(information sharing)、访问控制(access control)、云安全(cloud security)、信息安全(information security)、数据管理(data management)、数字保护(digital conservation)、身份认证(authentication)、安全(security)、数字签名(digital signature)等。

四、数字资源长期保存热点主题分析

笔者通过分析以上关键词,总结出数字资源长期保存领域的以下几个热点研究主题和方向:

1.数字资源存储技术和方法的研究

数字资源存储最初起源于医学领域,应用于胸部放射摄影、肺部影像资料的长期保存,磁存储和光存储技术在早起阶段是最主要的数字资源存储技术,随着信息量越来越大,数字全息存储技术逐渐发展起来,数字全息存储是一种大容量信息存储技术,其利用激光全息摄影原理,在感光介质上记录图文等信息,具有保真度高、存储量大,且读取方便等优势,是有望取代传统的磁存储和光学存储的新型数据存储技术,此外,基于元数据的更为新兴的动态获取和存储技术逐渐发展起来,例如网格存储技术、虚拟存储技术、机构存储技术、关联数据获取与保存技术、数字共享技术等。

2.数字资源保护理论与策略的研究

数字资源长期保存不仅具有重要的现实意义,同时也具有传承人类文明、保护文化遗产、提供数字资源可持续发展与利用的特点,对永恒发展的历史也具有重要意义,因此不仅图书情报领域有数字资源长期保存需求,资源的可持续服务在其他领域,例如地理领域的自然资源保护、生态领域的生物多样性的保护、以及人类历史文化遗产的保护等等,为了实现数字资源的可持续服务,保证多种资源的长期获取和信息的安全可靠,不仅要依靠技术和设备的支撑,更需要宏观层面理论和政策的正确指导。例如,保护哲学、保护计划、保护价值等关键词的大量出现。数字资源保存的主要研究策略列入合作保存策略,鉴于数字资源保存工程量的浩大,以及单独机构无法完成保存任務这样的弊端,因此制定合作保存策略,并联合多个机构进行合作,以满足大量的数字资源保存需求,此外还有技术保存等策略,针对不同的保存需求,选择恰当的技术方案,以使有限的资源得到更好的配置。

3.数字资源信度及安全保护的研究

数字资源长期保存的根本目的是为了保证在一个较为长期的时间范围内数字资源的可获取性,这就要求数字资源在保存过程中的安全性、可靠性和可持续性,随着越来越多的传统信息资源被数字信息资源所取代,对数字资源的信度、隐私和安全保护的研究逐渐成为该领域的热点主题,从文献关键词中可见一斑,例如通过实施访问控制,限制用户对存储信息的访问,防止非法主体盗取数字信息;例如继云计算、云存储之后出现的云安全概念的兴起,通过融合网格计算、判断病毒行为等技术,通过大量客户端检测网络行为,并对木马等异常行为采取解决方案的技术;例如使用公钥加密领域技术实现的数字签名,不仅能够保证发送信息的真实性,同时也能保证数字文件的完整性;例如重视机构和用户的数字信息资源隐私保护,革新用户身份验证技术等等。

五、结语

数字资源长期保存在数字时代具有重大的现实意义和历史意义,笔者从文献计量的角度出发,借助文献计量分析软件VOSviewer绘制文献关键词的热点图谱,通过对聚类团中的关键词进行梳理和解读,总结出目前数字资源长期保存领域的热点研究主题和方向,主要可包括数字资源存储技术和方法的研究、数字资源保护理论与策略的研究以及数字资源信度与安全保护的研究。本文以文献计量的手段,通过梳理当前该领域的重要研究内容,为后续相关研究提供参考。

参考文献:

[1]胡泽文,武夷山,孙建军.数字资源保存的研究进展、热点与前沿[J].数字图书馆论坛,2013(02):24-38.

[2]“全民信息计划”鼓励政府优先考虑信息保存[J].现代图书情报技术,2007,000 (008 ):39.

[3]毛文莉.基于科学文献下载数据的科研趋势识别研究[D].大连理工大学,2015.

[4]李 颖,贾二鹏,马 力.国内外共词分析研究综述[J].新世纪图书馆,2012(01):23-27.

[5]安秀芬,黄晓鹂,张 霞,林朝英.期刊工作文献计量学学术论文的关键词分析[J].中国科技期刊研究,2002,13(06):505-506.

[6]李大量.共词聚类分析方法的技术路径研究[D].中国农业大学,2014

[7]高 凯.文献计量分析软件VOSviewer的应用研究[J].科技情报开发与经济,2015,25(12):95-98.

[8]王 莹.基于大数据的数字资源长期保存策略[J].兰台世界,2018(S1):30-31.

[9]杨 佳.2017年数字资源长期保存国际会议(iPRES 2017)综述[J].图书馆建设,2018(12):88-96.

作者简介:张茜晴(1990-),女,陕西西安人,中国农业大学,硕士研究生(2017级硕士),研究方向:图书馆管理与服务。

猜你喜欢
图书情报共词分析研究热点
图书情报服务中的现代信息技术应用分析
科研单位图书情报档案一体化管理可行性探索
浅谈图书情报档案一体化的发展趋势
近五年我国职业教育研究热点综析及未来展望
职教论坛(2016年27期)2017-01-05 16:59:31
基于德温特数据库的关键共性技术分析
中国市场(2016年31期)2016-12-19 09:15:43
国内图书馆嵌入式服务研究主题分析
现代情报(2016年10期)2016-12-15 12:32:46
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
自闭症谱系障碍儿童的教育干预
考试周刊(2016年85期)2016-11-11 02:33:22
基于社会网络分析的我国微课研究探析