特藏资源知识挖掘方法及实证研究

2024-04-03 06:36张美琦龙世彤田晓迪赵星杨春燕
兰台内外 2024年7期
关键词:可视化分析

张美琦 龙世彤 田晓迪 赵星 杨春燕

摘 要:深度挖掘特藏资源的价值是提高特藏资源利用率的重要途径之一。当前,特藏资源的宣传推广材料多为大段文字和文献的照片,鲜有可视化的图片。为解决这一局限性,将知识图谱工具VOSviewer引入特藏资源建设领域,通过可视化分析充分展示特藏资源的亮点、重点和全景,以促进读者使用特藏资源。首先,利用Excel数据整理功能,将特藏资源数据文件改写为与WOS纯文本数据文件主要字段一致的过渡性文件;其次,通过自编Python程序,将过渡性文件转换为VOSviewer支持的WOS纯文本数据文件,从而实现对特藏资源数据的作者分布、出版社分布、出版地合作和术语共现分析。通过实证分析可知,该方法效果良好,可以为特藏资源的深度挖掘提供新的思路,具有一定的现实意义。

关键词:特藏资源;知识挖掘;可视化分析;蒙学读本;VOSviewer

中图分类号:G353.1 文献标识码:A

特藏资源具有独特性、珍贵性和历史性等特点,具有核心竞争力。当前,特藏资源建设在重点揭示、亮点突出、全貌展示等方面还有提升的空间。一般情况下,特藏资源的宣传推广材料多为大段的文字和文献的照片,鲜有可视化的图片,读者难以在短时间内了解该资源的全貌,不能感受到强烈的视觉冲击,难以被激发出强烈的阅读兴趣。虽然文字是传递信息最常用的载体,但是,在当前信息爆炸的时代,人们接收信息的速度已经小于信息产生的速度,尤其是文本信息。当大段的文字摆在面前,已经很少有人耐心认真地把它读完,经常是先找文中的图片来看。一方面,说明人们对图形的接受程度比枯燥的文字要高很多;另一方面,说明人们急需更高效的信息接收方式,“一图胜千言”我们深有体会,教材里的解释图、笔记里总结的知识结构图,一直到现在经常用的思维导图等,其实都是简单、实用的文本可视化。在特藏资源建设领域,知识图谱工具正是解决这种需求的一种工具与技术,其突出特征在于把一个知识领域里浩如烟海的文献数据,以一种多元、分时、动态的可视化语言,通过巧妙的空间布局,将该领域的演进历程集中展现在一幅幅网络的知识图谱上。知识图谱工具的特点可以概括为“一图展春秋,一览无余;一图胜万言,一目了然”。

VOSviewer作为一款知识图谱工具,采用可视化手段呈现知识单元之间的结构和演化关系图谱,对于直观认识知识结构有重要价值。由于该软件处理文献信息的功能比较强大,而且开发者不断更新升级,一直以来都是免费使用,越来越受到专家学者的青睐。目前,在文献计量领域,绝大多数论文都是用VOSviewer分析期刊论文数据或学位论文数据,鲜有用来分析特藏资源数据的研究。而在特藏资源建设领域,利用流行知识图谱工具实现可视化的研究并不多见,只有利用Gephi对梅兰芳的民国报纸资源开展知识图谱构建的文献,但该研究仅从主题一个维度实现可视化分析。本研究把VOSviewer引入特藏资源建设领域,从主题、作者、出版地以及出版社实现多维度可视化呈现,为特藏资源的知识挖掘提供新的思路。

一、研究设计

1.理论假设

VOSviewer可以分析文献中的作者、机构、国家、期刊、关键词和术语等知识单元,可以构建合作网络、共词网络、文献引证网络、文献共被引网络和术语共现网络等知识网络类型。该软件的分析原理是:分析某个知识单元,软件会自动读取该知识单元的数据,之后汇聚分析。例如,如果要展开“作者”的分析,软件会自动读取“作者”字段的数据;如果要做“机构”的分析,则自动读取“机构”字段的数据;要构建术语共现网络,则自动读取“题名”或“摘要”字段的数据等。以此类推,不论数据来源是什么,只要转换成VOSviewer支持的数据格式,就可以分析数据,绘制成知识图谱。

VOSviewer支持以下三类数据的分析:(1)从文献数据库导出的数据,如Web of Science、Scopus、Dimensions、Lens、PubMed;(2)从参考文献管理软件导出的数据,如RIS、EndNote、RefWorks;(3)通过API获得的数据,如Crossref、OpenAlex、Europe PMC、Semantic Scholar、OCC、COCI、Wikidata。除此之外,非上述三类数据,如果可以转换成上述三类数据中的任意一种,就可以间接利用VOSviewer展开分析。由于Web of Science数据库(以下简称WOS)的普及度和接受度相对较广,因此,将从WOS导出的纯文本数据文件作为目标数据文件,拟将特藏资源数据文件转换为目标数据文件,然后利用VOSviewer的分析功能展开分析和挖掘。

2.实现流程

上述转换过程具体分为以下三步:第一,从特藏资源数据文件中选取需要的字段,获得原始.xlsx数据文件。只需挑选正题名、副题名、交替题名、丛书题名、主题词、全部作者、出版社、出版地以及出版日期9个字段;第二,将原始.xlsx数据文件的字段重组并重新命名,获得与WOS纯文本数据字段一致的过渡.xlsx数据文件;第三,通过Python自编程序将过渡.xlsx数据文件转换为文本格式.txt数据文件,获WOS纯文本数据文件,将WOS纯文本数据文件导入VOSviewer,利用分析功能展开知识挖掘。

二、特藏资源知识挖掘方法实证

1.数据和方法

“美国殖民到现代的蒙学读本”特藏资源是由美国教育家理查德·威内斯基牵头,从美国十余家图书馆特藏中甄选出来的儿童早期阅读课本,共包括842册图书。这些读本的时间跨度较大,从美洲殖民时代的1711年一直延续到现代的1943年。这些读本对于研究美国阅读教育的源头,并由此思考其對我国阅读教育的启示等具有重要的学术价值。对“美国殖民到现代的蒙学读本”特藏资源展开知识挖掘很有必要,可以促进人文学者对美国阅读教育源头文献的分析和研究。

2.时间特征挖掘

读本出版的历史性变化趋势,可从一个侧面反映读本的发展状况。“美国殖民到现代的蒙学读本”整体跨度为233年,大致可以分为以下5个时期。

(1)起步期:1711年~1782年,共9册读本。美洲殖民地的教育并非从零开始,而是以英国和欧洲教育演进的最优成果为起点继续前进的。从源头上讲,英国教育是美国教育的主要源泉,因为当时居民80%来自英国,其阅读教育更多从宗主国移植而来。在这样的背景下,美国阅读课本逐渐起步。

(2)蓬勃发展期:1783年~1837年,共155册读本。美国独立战争期间,与英国的贸易交往被中断,导致美国国内的阅读课本非常短缺。美国正式成立后,美国的教育方向发生了时代性的转变,从殖民时期以培养效忠英王为目标改为以培养优秀的公民和增强国家凝聚力为职责。教育方向的转变也导致了阅读教学的根本性转变,从以往以宗教教育为主转向以道德教育为主。

(3)停滞期:1838年~1865年,共111册读本。随着19世纪三四十年代普通学校运动的蔓延,读本的出版成为一项重要的独立业务,配有专门的出版社和销售队伍。该阶段的前期,阅读课本仍保持上升的势头,但后期由于1861至1865美国南北战争的爆发,阅读课本的数量发生了断崖式下降。

(4)快速发展期:1866年~1920年,共446册读本。美国南北战争后教育的巨大浪潮创造了对读本的创纪录需求,阅读课本进入一个快速发展的时期。该时期丛书读本的发展初具规模,与现在的分级读本相似,一般包括初级读本和5~6本分级读本,还有的包括一本拼写书。

(5)稳定发展期:1921年~1943年,共121册读本。20世纪初期,由于教育心理学从普通心理学中分离出来,对阅读教育产生了强烈影响,因此,标准化的阅读测试对阅读教材也产生了较大影响。

3.空间特征挖掘

对于读本出版空间的研究有助于探寻读本出版中心的变迁规律。“美国殖民到现代的蒙学读本”的出版地绝大多数在美国,也有少数在英国或加拿大。纵观读本出版地的地理空间变化,不难发现美国是从东北部大西洋沿岸城市逐渐向北部、南部、西部扩展的轨迹。在殖民时期和建国初期,费城、纽约、波士顿、伍斯特和巴尔的摩等地出版的读本比较多。美国南北战争前期,美国西部图书贸易的资本已经转移到辛辛那提。到了现代,读本出版比较活跃的城市除了纽约、芝加哥、波士顿之外,又增加了亚特兰大,达拉斯、旧金山等城市。

4.主題特征挖掘

“美国殖民到现代的蒙学读本”的主题聚类图可以划分为7个聚类,如图1所示,受篇幅所限,选取规模最大的4个聚类如下。

第一,以美国建国初期诺亚·韦伯斯特的《美国拼写书(The Americanspelling book)》读本为主。1783年美国独立革命的成功,开启了美国本土阅读课本大量涌现的时期,这时期的读本充满了强烈的民族主义精神,课文中的宗教内容越来越少。第一本由美国人自己编写和出版的拼写书是韦伯斯特的《美国拼写书(The American spelling book)》。

第二,以美国内战前期的《麦克古菲读本(McGuffey Readers)》为主。韦伯斯特的《美国拼写书》要求儿童背诵很多标注音节的单词,这种死记硬背使儿童对阅读产生抵触和厌恶情绪,于是《迈克古菲读本》应运而生,逐渐取代了《美国拼写书》的市场。

第三,以美洲殖民地时期最畅销的《新英格兰初级读本(New England Primer)》为主。殖民地时期,学校缺乏课本,让学生从家里自带书籍,当时很多家庭唯一的书籍就是《圣经》。当时的书籍大部分都是从英国进口的,少数在殖民地印制的读本也是模仿英国读本而写的。殖民地时期普及度最广的读本就是《新英格兰初级读本(The New England Primer)》。

第四,主要以美国现代的畅销书《迪克和简(Dick and Jane)》为主。1930年,新一代的基础分级读本《迪克和简》逐渐取代了《迈克古菲读本》。这系列读本讲述一个典型的美国中产家庭的故事,其中的主人公有爸爸、妈妈、哥哥Dick、姐姐Jane、妹妹Sally 。

5.作者的学术群分布

美洲殖民时期,由于条件所限,因此,大部分读本来自宗主国英国进口,大多是英国作者。美国建国初期,读本的主要作者大多来自新英格兰,他们受过高等教育,大部分是新教徒,以古典阅读教育为导向。当时,绝大部分作者不是作者,而是编者。未经许可也未联合署名就大段摘抄的现象并不少见,而且美国国内外读本的重印均无须支付费用,直至19世纪末美国实施国际版权法,这些现象才停止。

6.出版社的演化

“美国殖民到现代的蒙学读本”出版社的发展,经历了印刷与出版一体化、印刷与出版分离、出版业蓬勃壮大三个阶段。殖民地时期,印刷业都是手工作坊,当时印刷和出版不分家。到了19世纪30年代,手工印刷业开始向工业化转型,再也不需要熟练工人和那么多的学徒工。到了美国内战前期,由于印刷厂的启动成本很高,绝大多数工厂选择印刷与出版分离,专门做印刷才能盈利。于是,出版商接管了宣传商、编辑、营销人员的角色,只把图书生产的工作留给了印刷商。

三、总结

当前,特藏资源的宣传推广环节鲜有文本可视化技术的应用,在特藏资源建设领域引入知识图谱工具VOSviewer,为特藏资源实施学术画像,用一幅幅知识图谱展示重点、亮点和全景。本研究创新性地通过改写和转换特藏资源数据来实现可视化分析,针对数据获取和文献清理的复杂性工作,采用Python代码实现数据的快速批量转换,极大地提高了研究效率,为特藏资源的知识挖掘提供了新思路。

需要说明的是,该方法不仅适用于图书类特藏资源,还适用于报纸类、期刊类、文书类等其他特藏资源。只要特藏资源的元数据具备4个W要素,即What(对象)、Where(地点)、When(时间)、Who(人员)等,就可以通过上述步骤利用VOSviewer实现可视化分析。该方法的不足之处在于,数据清理的工作量会较大。例如,由于特色资源中的责任者,其责任方式可能有著、编、审、校、译等多种,所以,数据清理时需要较大的耐心和细心。另外,特色资源的主题词/关键词字段,需要细粒度的揭示,生成的知识图谱会更有解读性。

参考文献:

[1]李 杰,陈超美. CiteSpace科技文本挖掘及可视化(第一版)[M].首都经济贸易大学出版社,2016.

[2]刘则渊.视觉思维、数学思维和哲学思维的集成之作——陈超美著《科学前沿图谱》中译本推介[J].科学与管理,2014,34(03):25-26.

[3]李 杰.中国新冠安全、风险、灾害与危机的研究态势[J].科学观察,2022,17(03),15-22.

[4]沈 旺,陈玖瑜,潘梦雅.数字人文视域下民国报纸知识图谱构建研究[J].图书馆杂志,2022,41(09):105-112.

[5]李 杰,魏瑞斌.VOSviewer应用现状及其知识基础研究 [J].农业图书情报学报,2022,34(06):61-71.

[6]滕大春著.美国教育史(第二版)[M].北京人民教育出版社,2001.

[7]练小川.美国儿童阅读课本简史(三)[J].出版参考,2021(09):29-33.

(作者单位:北京师范大学图书馆)

基金项目:本文系北京高校图书馆研究基金项目“面向数字人文的缩微文献文本挖掘与知识可视化研究”(项目编号:BGT2021047)的研究成果之一。

通讯作者:张美琦(1974—),女,汉族,山西大同人,硕士,副研究馆员,研究方向:特藏资源建设。

猜你喜欢
可视化分析
基于大数据的港口煤炭物流可视化分析平台
近十五年国外大学生就业研究的进展与趋势
基于Citespace的商业生态系统研究可视化分析
高校学生管理法治化研究:基于CiteSpace的可视化分析
我国职业教育师资研究热点可视化分析
声波吹灰技术在SCR中的应用研究
可视化分析技术在网络舆情研究中的应用
国内外政府信息公开研究的脉络、流派与趋势
我国教育技术领域眼动研究的现状与趋势分析
可视化分析在医院图书馆信息服务中的应用