基于Biblioshiny的数字化阅读研究计量可视化分析

2021-03-05 06:42马炜茹

图书情报研究 2021年1期

袁润马炜茹

（1.江苏大学科技信息研究所镇江 212013；2.江苏大学图书馆镇江 212013）

0 引言

阅读是人们获取信息，内化知识的最主要方式。1978年兰凯斯特首次提出无纸化情报，开启了数字化阅读的研究大门[1]。所谓数字化阅读，一般来说，是指区别于传统纸媒的新型阅读方式，其概念的内涵与外延在四十余年的发展中并未得到统一，有诸如屏幕阅读、在线阅读、电子阅读、网络阅读和移动阅读等多种称谓。数字化阅读的研究最早可追溯到20世纪90年代，个人计算机首次实现了屏幕阅读，但阅读内容局限于部分文档和光盘资料，阅读体验也并不理想，研究者着力于比较纸质阅读和数字阅读的差异。如美国德克萨斯大学信息科学教授Dillo 等综述了早期的屏幕阅读相关文献，侧重于讨论不同媒介之间的差异本质以及造成这些差异的潜在因素，包括屏幕操作性能、文本显示特征、读者阅读速度、阅读准确性和理解能力、疲劳程度等10个变量[2]。阅读媒介的多样和延续是数字技术进步和发展的产物，本世纪初，在个人计算机、电子图书出现后，电子阅读、屏幕阅读的概念同步出现；随着互联网技术在阅读中的应用，在线阅读、网络阅读等概念应运而生；在手机、视听媒介、社交媒介等新媒体普及后，手机阅读和移动阅读的概念随即进入大众视野。总的来说，不论是电子图书还是新媒介都是数字技术的阶段性发展成果，数字技术改变了阅读载体和内容展示方式。温州大学王佑镁教授总结到，数字化阅读指依靠各种数字化平台或移动终端，以数字化形式获取信息或传递认知的过程[3]。由此可见，以数字化阅读来总括数字出版环境下的新型阅读范式更妥帖。

2011年，美国Gartner 咨询公司在一项面向6个国家的阅读调查中，发现读者的读屏时间与纸质文本的阅读时间不相上下。同年，美国亚马逊网站的电子书销量超过了纸质书籍，在2019年7月更是在中国市场停售了纸质书。电子书出版商BookBorn 的一项调研报告显示，58%的美国学生更倾向于利用电子阅读器或ipad 等平板电脑阅读电子化教材。2017年，在Kurata 等的研究中，测试者使用数字媒介进行阅读的时间已经上升到总阅读时间的70%[4]。2018年我国成年国民数字化阅读方式接触率上升至76.2%，手机和互联网已经超过了图书报刊，成为成年国民每天接触媒介的主体。这些研究报告都预示着数字阅读的发展进入了拐点时期，正逐渐成为读者的主流阅读方式。

在过去的几十年间，研究者们持续改进数字化阅读应用的技术手段，调查使用者的用户体验，研究影响新型阅读方式的因素以及数字阅读对读者的影响程度等，至此已经积累了大量研究成果。我国在现代化技术快速发展基础上，也紧跟科技潮流，引入和创新了多种数字化阅读方式，包括电子阅读器、阅读APP、数字图书馆等方式。因此，对国内外数字化阅读研究的历史回顾和现状梳理有利于系统化了解数字化阅读研究主题的演进过程，为我国数字化阅读的研究和发展奠定一定的理论基础。

1 数据来源与研究工具

1.1 数据来源

文章选用 Web of Science 核心合集数据库中的SCI、SSCI、CPCI，以高级检索方式设置题名为digital read*或screen read*或online read*或electronic read* 或web read* 或mobile read*或network read*，限定文献发表时间在1999-2019年，检索出总计441篇相关外文文献，其中存在部分不相关文献，为保证数据的真实性和可靠性，对全部结果进行逐条比对筛选后，获得了329条高度相关的外文文献，并将筛选后的检索结果保存为全记录的BibTex 格式，导入R 语言的操作环境R Studio 中。

1.2 研究工具

Biblioshiny 是一款基于R 语言Bibliometrix程序包的改进程序，该程序包由意大利那不勒斯费德里克二世大学经济与统计学系副教授Massimo Aria 博士等人共同开发[5]。Bibliometrix和Biblioshiny 程序均为开源性质，提供了各种各样的统计和图形技术，可用于一套完整的科学文献计量分析及可视化展示，支持分析来自Web of Science 和SCOPUS 两个数据库的文献数据。Biblioshiny 相较于Bibliometrix 的脚本运行模式，对Bibliometrix 程序进行了改进，创建出一个更友好的网页数据分析模式，大大降低了使用者的信息技术准入门槛。同时，对于有更高级和复杂分析功能要求的使用者，可以叠加使用Bibliometrix的文本命令形式，结合其他程序包以满足用户的更高需求。目前已有李昊分别利用bibliometrix 和biblioshiny 程序对科学计量学和科研评价展开计量研究[6]，李杰通过bibliometrix 对补充计量学进行了全面分析[7]，刘秋霞等基于biblioshiny 分析了气候变暖对小麦影响的相关文献[8]。

2 数据结果与分析

2.1 数字化阅读研究的科学计量分析

2.1.1 年度发文量走势某一研究主题相关文献数量在时间序列的历史变化能宏观反应出该主题的发展轨迹和生命周期，即研究热度的增减，研究规模的大小以及未来的研究趋势。数字化阅读是科技浪潮的重要产物之一，革新了读者的传统阅读方式，21世纪以来，“信息高速公路”的发展为数字化阅读奠定了技术基础。纵观图1的发文量走势，数字化阅读的学术研究目前还处于起步阶段，2000—2008年为探索阶段，研究成果稀少。自2008年以来呈现出良好的攀升趋势，这可归功于2007年底发布的kindle 等电子阅读器，使数字阅读一跃成为热门。在2018年峰值达到了38篇，文献发表的平均增长率为18.21%，展现出数字化阅读研究领域的蓬勃发展态势。

图1 国外数字化阅读年度发文量走势

2.1.2 高产和高被引国家分析一般来说，对于某领域高产国家的研究有利于客观评价国家和机构的学科影响力，为后续学者的研究提供更多的参考借鉴。图2 是数字化阅读研究领域的前10个高产国家，其中SCP 代表单个国家著作完成的文献数，MCP表示多个国家合著完成的文献数。在该领域处于领先地位的为美国和中国，发文数量分别是79 和65，发文频率分别为26.07%和21.45%，与其他国家拉开了很大差距，显示出中美在数字化阅读领域中占有极其重要的地位。在图3 的高被引国家排名中，我国的被引数量虽然位列前十，但是在全部论文中，台湾地区的文章占据大半，就排名第二的高产水平而言，大陆地区的研究成果的影响力和受关注程度较低，学术研究的精度、广度和深度还有很大的挖掘和发展空间，还需进一步提高学术价值和扩大学术影响力。与此同时，依赖于互联网科技的发展，图书馆可做出更大的改革和转型，未来的学术研究和服务发展可更多地吸纳美国、法国等发达国家的先进理论和实践。

图2 前10位高产国家

图3 前10位高被引国家

2.1.3 高产作者分析对于作者在某个研究方向发表文章数量的研究有利于发现该领域权威研究学者，通过发表文献数量、被引频次等维度可快速锁定活跃度较高的领域专家。近20年前10位高产作者发表文献的时间轴如图4 展示，纵坐标以降序排列高产作者，横坐标表示时间序列，圆点大小表示作者在该年发表的论文数量，以线段方式连接。从图4 看出，Leporini、Buzzi 和Naumann三位作者的线段长度最长，在数字化阅读领域的研究早，研究时间跨度长，研究成果较多。数字化阅读的领域正得到教育学、信息情报学、图书馆学和计算机技术学科等多领域专家学者的共同关注和研究。例如Barbara 和Marina 都来自于意大利国家研究委员会下属的信息科学与技术研究所和远程信息研究所，二者的研究方向都集中在人机交互、视觉感知和计算机技术等方面，数字化阅读相关著作也多由二者合著，旨在从系统软硬件方面提高电子阅读器的易用性、有用性等交互式用户体验。令人遗憾的是，我国发表的相关文献数量虽大，但缺乏专门研究本领域的专家学者，高产作者中仅有一位来自台湾国立政治大学，从事信息和档案研究方向的陈志敏教授。

图4 前10位高产作者的文献发表时间轴

2.1.4 高被引论文论文的被引频次反映的是一个国家、机构或个人的学术影响程度和科研实力，同时也能衡量论文在其领域的利用效果、受关注程度和受重视程度。从表1看出，被引频次最高的是Coiro 发表于Reading Research Quarterly期刊的Exploring the online reading comprehension strategies used by sixth-grade skilled readers to search for and locate information on the Internet，文章通过观察和访谈美国六年级学生的在线阅读实验情况，总结出了提高阅读体验的在线阅读策略[9]。被引频次次之的是Coiro 发表在Journal of Literacy Research期刊中的Predicting Reading Comprehension on the Internet: Contributions of Offline Reading Skills,Online Reading Skills,and Prior Knowledge 一文，该研究调研了青少年线下阅读技能、线上阅读技能和先验知识对阅读理解的影响[10]。第三位高被引论文来自Jonathan 在2007年发表于International Journal of Human-ComputerInteraction的What frustrates screen reader users on the web: A study of 100 blind users，文中探讨了盲人用户在网络阅读过程中的困扰对Web 开发人员、屏幕阅读器开发人员和屏幕阅读器用户的影响[11]。从高被引论文的内容解读来看，国外对于数字化阅读对象的研究十分宽泛，囊括了幼儿阶段至老年阶段，甚至是患有视力障碍等疾病的残疾人群体，致力于让每一位用户都享受到科技给阅读和学习带来的“福利”。

表1 前10篇高被引论文

2.2 数字化阅读研究主题分析

2.2.1 高频关键词关键词是对文章核心内容的高度概括和提炼，被精炼出的关键词能够帮助学者高效检索和锁定学科领域相关文献。在对某一研究主题进行热点探究时，通常会对文献中的关键词进行处理。经过biblioshiny 程序处理后，高频关键词词云图如图5所示。当前数字化阅读的研究热点集中在comprehension（阅读理解）、internet（互联网）、information（信息）、students（学生）、performance（学习绩效）、strategies（阅读策略）、text（阅读文本）、literacy（数字素养）等方面。

图5 高频关键词词云图

图6 展示出前10个高频关键词每年累计总频次的趋势，明显看出10个高频词全部处于上升阶段，由此可见，数字化阅读研究领域的相关研究热点有着良好的发展势头，尤其在comprehension（阅读理解）方面的相关研究数量一直居高不下。然而结合图7 的高频关键词年度频次趋势发现，前10位高频词中的部分关键词每年正在不同程度地减少。在2008-2010年间，这些高频关键词都可列为当年的突变词，并且持续时间都在6-8年间。综合以上可视化图谱，高频关键词的总频次虽能揭示出当前学科领域的研究热点，但不能判断该研究热点的生命周期。在结合关键词频次年度变化趋势后可知，传统的一些研究热点虽“热”但可能不是“最新”，它们是在长期的发展中，渐渐成为热点。

图6 前10位高频关键词总频次趋势

图7 前10位高频关键词年度频次趋势

2.2.2 关键词聚类聚类分析常被用于文献计量中，通常以程序的既定算法将距离最相近的类别进行合并，把一个大的研究领域划分为多个热点主题区域，区域中的每个关键词都具有较大的相似性，而类别之间具有较大的差异性。如图8，数字化阅读相关文献被聚成5类，较小的类团由于聚类成员少，难以判定具体主题，考虑将其并入相近的大类团，得出了三个研究方向，即数字阅读的认知效果导向、数字阅读的环境体验导向和数字阅读素养教育。数字阅读的认知效果导向集中在面积最大的红色区域和左侧紫色区域，以理解（Comprehension）、表现（Performance）、策略（Strategy）、模型（Model）、纸本阅读（Paper）等词汇为代表；数字阅读的环境体验导向集中在上方橙色区域和下方蓝色区域，以环境（Environment）、行为（Behavior）、屏幕（Screen）、导航（Navigation）、超文本（Hypertext）等词为代表；数字阅读素养教育体现在右侧的绿色区域，以素养（Literacy）、指导（Instruction）、儿童（Children）等词语为代表。

图8 关键词聚类图

2.2.3 战略坐标图分析在biblioshiny 程序中，通过共词分析能够制定出该领域的战略坐标图，如图9。图中的横轴意为中心度，中心度越高说明主题地位越高，对其他主题的影响力较大；纵轴意为密度，密度越高说明主题内部结构紧密，研究越成熟；纵横轴划分出的四个象限分别象征着研究主题的演化发展，圆点直径表示关键词出现的频率多少。第一象限中的研究主题是本领域中具有重要地位且发展较成熟的研究方向，分析数字化阅读影响因素、用户阅读行为、与传统阅读的关系，构建理论模型等研究方向是当前的学术研究重点；第二象限中的研究主题多为技术、系统和设备等计算机领域的研究方向，专业化要求高，属于较为边缘的研究主题；在第三象限中的研究主题很少且圆点直径较小，属于近年来较为小众且暂不成熟的研究方向；最后的第四象限研究主题多且圆点较大，是数字化阅读领域长期的核心学术研究热点，譬如数字阅读理解力的研究、阅读文本的分析、阅读媒介的探索和与学生学习绩效的关联分析等。

图9 战略坐标图分析

3 研究热点分析

3.1 数字阅读的认知效果导向

在数字阅读环境下，阅读范式的转变给适应于传统纸阅读的读者带来了全新的体验，但文本载体的创新并不能改变读者阅读的本质追求。对阅读进行数字化的根本目的依旧是传递信息和知识，丰富读者的大脑认知。互联网裹挟着海量良莠不齐的信息，阅读的数字化将读者的阅读时间碎片化，泛读、跳读或是扫读的文本过滤方法等等由技术带来的改变也影响着以获得知识感悟为目的的读者。由于“认知”看不见摸不着，因此在“认知”这一问题的探讨上，国外的研究成果更偏向于实证研究，通常以对照实验或基于生理参数的方式探索数字化阅读认知层面的影响因素和作用机制。例如，Coiro Julie 和Dobler（高被引论文第一）探讨了网络阅读过程中阅读理解的本质，从美国不同地区精选出11位阅读综合成绩最高的六年级学生作为样本，分别独立完成网络阅读任务，辅以实地观察和访谈为在线阅读理解的本质提出了建议[12]；Coiro 强调了在线阅读理解的四个关键认知过程，认为线上阅读可以弥补先验知识不足的短板，并引入了有声思维教学模式帮助学生识别、标注和定义一系列在线信息文本，更有效地理解和使用他们在互联网上遇到的信息文本[13]；Naumann 等以533名西班牙高中学生为调研样本，分析了页面导航行为和线下阅读技能与阅读绩效的相关性以及页面选择和阅读理解间的交互影响[14]。又如，Kretzschmar利用脑电图和眼球追踪技术，检索数字媒介的阅读是否需要具备比阅读传统书籍更高的认知水平，带来更大的认知负荷[15]；Kretzschma 等选取了不同年龄段的实验对象，分为两个对照实验组，结合脑电波和眼动追踪参数对比数字阅读与传统阅读所消耗的认知资源。

3.2 数字阅读的环境体验导向

读者的个人阅读体验可分为外部感官体验和内心感受体验，感官层次是指阅读媒介，如手机、电脑或电子阅读器本身的硬件性能和软件功能等外部环境因素对用户产生的视觉、听觉以及使用等方面的影响。数字阅读载体功能的易用性、有用性、便捷程度和审美价值均能对读者的整体阅读感官方面的体验都会有一定的刺激性[16]。在Nicholas 的研究中，千禧一代的学生认为电子书的复制、笔记和关键词检索功能对学习和研究效率有着正向影响[17]。与上述结论相反，Thayer 等测评了大学生Kindle 阅读器的使用体验，发现在学术研究中添加批注、跟踪参考文献和绘制知识图谱等方面的体验较差[18]。此外，Laine[19]、Farinosi[20]、Bold[21]等多个学者都在调研中发现，数字阅读载体在阅读过程中给用户带来了使用和审美上的诸多不便，如屏幕的缩放、链接的点击、页面的转换、注释的添加等。眼动追踪技术也被用来更准确、客观地测评数字阅读产品视觉效果的各项指标数据。Wei W 利用眼球监测技术分析目标词的识别与词语本身大小之间的关系，追踪读者在阅读指定段落中的对比目标词语过程的眼球动态信息[22]。新的阅读范式兴起后，用户与阅读媒介本体之间也在不断地相互磨合、适应，对新生代青年人而言，数字技术在潜移默化中影响着他们的生活方式和思维方式，对于创新产品不仅接受能力更高，使用频率更多，服务需求也更大，这也是众多研究学者和科技人员的工作重点。

3.3 数字阅读素养教育

事实上，国外对于学生阅读基础教育和阅读素养的研究从未停止过，且主要对象为中小学生。在美国，阅读课程贯穿整个基础教育阶段的K-12 教育体系，同时配备严格的阅读评价项目判定学生的学习成效，是否为阅读障碍人群[23]。其中，国际影响力较大的属PISA、PIRLS 和NAEP三大学生学业成就评价项目。得益于电子阅读器的兴起，国外课堂内外的教育信息化普及程度很高，新型数字阅读环境对学生的新读写能力有了更高的要求。在数字阅读方式和教育信息化的双重作用下，数字阅读素养教育应运而生，以帮助用户快速高效利用数字化设备开展阅读和学习为宗旨。Notten[24]、Chen[25]等多位研究学者已证实学生的早期文化教育和自主学习能力对后期数字阅读素养具有较大影响。秉持着“以人为本的”的思想，国外的数字阅读素养通常从“人”出发，强调用户主体该如何使用信息通信技术来适应新的阅读范式促进个人的知识获取和社会发展。Jolanta 等为有视觉障碍的学生增加了EPUB3 数学内容的交互性，在不同的模式（视觉、听觉和触觉）下，学生可以识别以SVG 格式保存的几何图形的函数图和形状，并为数学教师描述了该系统的实用性[26]。堪萨斯州立大学的Larson教授长期研究数字阅读领域相关问题，致力于改善学生和教师的数字阅读素养，在2008年，他提出了电子阅读工作坊的概念，指导教师在课堂中引入和利用工作坊的多项功能，参与者阅读电子书，在数字期刊上对文献进行回复，参与在线文献讨论，并创建基于技术的阅读推广项目等[27]；2009年，Larson 设计出了一款基于阅读工作坊理念的协作式在线学习社区，通过分析学生自主分享的阅读反馈（如留言等），构建出适应数字读写能力的素养指标体系[28]；随后在2015年，Larson 又提出将有声书一类的音频内容与电子阅读器中的数字文本结合、同步使用能够提高沉浸式阅读体验和阅读耐力，帮助学生和教育工作者有效地整合跨内容领域的数字阅读[29]。

4 国外研究对我国的启示

4.1 注重数字阅读素养的基础教育

数字阅读素养基础教育的需求不论从国外先进经验还是国内现实情况来说都是迫切的。自二战之后，国外多个阅读调研项目结果纷纷指向“阅读危机”，促进了从小学到大学的贯彻性阅读基础教育体系的不断完善。21世纪后，阅读向数字阅读转变，阅读素养也逐渐向数字阅读素养过渡。在数字阅读素养被逐渐纳入教育课程体系后，许多国际权威阅读评价项目也在不断丰富和完善。PIRLS 在2016年正式推出了面向电脑端的在线阅读评价e PIRLS，通过模拟学习的线上情景，评价四年级学生线上阅读的表现和能力[30]。无独有偶，我国青年学生的阅读情况也不容乐观。青年一代对于数字化设备的利用反而加剧了浅阅读、功利性阅读和消遣性阅读，“阅读危机”已演变成国际性问题。追根溯源，我国的阅读教育和研究对象集中在大学生群体，没有形成长效性阅读教育体系，对青少年学生的阅读关注较少，全凭学生的主观能动性，缺乏一套完整的评价和指导流程[31]。借鉴他国历史措施能够在一定程度上减少道路的曲折性。个人的阅读意识和能力自三年级发展，阅读教育“从娃娃抓起”比在大学“整顿”更有科学性和必要性。如今，信息化产品普及至每一个家庭，手机、平板、电脑等产品已然成为他们的童年“玩伴”，数字阅读素养基础教育能够在一定程度上消除学生对数字产品“误解”，积极、正确地成为工具的领导者，摆脱被奴役的标签。

4.2 关注数字阅读效果

国外的研究与我国最大区别在于并没有将“阅读”这一概念单纯地视为读者的阅读文本的行为，不过多考虑读者阅读数量或时间的多少，数量的寡众与知识感悟不存在绝对直接关系。他们将阅读视为一项基本学习技能，是获取信息、学习和科研工作的基础，更多地去关注“人”的感受，关注读者如何利用这项技能，关注阅读为读者带来的影响和体验，包括读者的感官体验、理解认知等方面。因此，研究者通常会考察读者的阅读交互过程，对于数字化内容本身的体悟、绩效和理解效果等认知导向问题。在此基础上，学者理应更全面和更深入地看待阅读，将难以言表的大脑认知以客观、科学的方式反映出来。考察读者的阅读行为的同时，探索阅读行为为读者本身带来的影响，根据阅读效果制定出的指导策略才更具有针对性和有效性。

4.3 拓展研究对象和研究方法

在美国，阅读被视为一种“新民权”，每一位公民都具有平等享有阅读资源的权利。这一点在国外的阅读领域研究对象上得到了充分证明，研究对象除了青年学生等现代化技术的首批接受者，还包含了儿童和老人两个边缘年龄人群，甚至残障人士。许多发达国家已进入老龄化社会，2018年我国老龄人口已占总人口的17.8%，老龄人群将是未来互联网用户的最大潜在开发群体，不容忽视。不仅是简单的年龄层次分布，国外还具有完善的阅读评价体系来判定阅读障碍人群，以便给予特殊的帮助和培养。这些边缘人群并不意味着是被时代抛弃的人，反而更需要社会关注和帮助，并且具备巨大潜力的一群人。在这方面，我国的研究还相对薄弱，亟需进一步细化用户人群，扩大现代化阅读方式的普及范围，增加对用户群的评价，加强对不同标签用户的深入研究，对学生群体的研究适当延伸到学前儿童或低学龄的学生，强化学生的早期阅读教育；对老年人和阅读障碍群体开展更系统的调查研究，提供有针对性的引导和解决方案。目前国外和我国台湾地区的研究成果更强调科学实证研究且研究方法相对成熟，出声思考法、对照实验方法、眼动追踪技术、脑电波参数等实验研究方法被广泛应用于实证研究过程中。这与我国以调查研究为基础的文字阐述类的综述、问题分析和未来展望等形成鲜明对比。因此，未来引入更科学的实验方法和扩大研究群体将会为我国的数字化阅读研究注入活力。

5 结语

数字化阅读已经普遍成为一种重要的获取知识的方法和途径。全球数字阅读技术和教育信息化技术等发展程度也在逐渐提高，整理分析近20年国际数字化阅读领域的前人研究，对教育领域和图书馆领域的发展和转型都具有重要的学术价值和应用前景。本文以1999年—2019年Web of Science 核心合集收录的外文数字阅读研究相关文献为数据来源，基于R 语言工具中的Bibliometrix 程序包提供的Biblioshiny 程序，能够更便捷地对相关文献展开科学计量和可视化分析。分析梳理得出数字阅读认知效果、环境的体验感受和数字阅读素养教育等三个研究热点，并探讨了国际研究现状对我国数字化阅读研究的可借鉴之处。

图书情报研究2021年1期

图书情报研究的其它文章: 2007年以来我国古籍保护法制研究综述*; 建设绿色图书馆打造环境教育基地：广东省立中山图书馆参与生态文明建设的经验与启示*; 基于SOR模型的用户独立游戏搜寻行为影响因素研究; 面向新阶段高质量发展的图书情报研究（卷首语）; 本刊投稿格式; 基于小世界网络的新冠肺炎疫情谣言传播仿真研究*