学术阅读智慧化:学术论文在线阅读系统优化研究

2021-08-11 01:22王晓光夏凌颖段青玉
出版广角 2021年13期
关键词:学术论文学者检索

王晓光?夏凌颖?段青玉

【关  键  词】学术阅读;智慧阅读;阅读系统;优化策略

【作者单位】王晓光,武汉大学信息管理学院;夏凌颖,武汉大学信息管理学院;段青玉,武汉大学信息管理学院。

【基金项目】大数据资源语义组织与管理应用研究(2019CFA025)。

【中图分类号】G252.17 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2021.13.003

学术阅读是学者获取科研资源、积累学术知识和跟踪学科前沿的重要手段,其中学术论文因其易获取性和高价值性成为学者获取学术信息的主要来源[1],阅读学术论文已然成为各学科领域中研究、教学和学习必不可缺的活动[2]。然而,随着数据密集时代的科研信息化,学者有限的阅读时间难以应对学术信息的爆炸式增长,单一、线性、静态的学术内容呈现与学者非线性、动态化、差异化和多元化阅读需求之间的矛盾日益突出。在大数据、人工智能等技术与其他产业纵深融合的背景下,智慧阅读(或称智能阅读)概念日益兴起,成为出版业发展的新趋势[3],也成为解决学术论文阅读矛盾的重要途径,因此,亟待以学术用户阅读需求为导向,优化学术论文出版模式,助推学术阅读智慧化。

当前,学界对智慧阅读的探讨较为有限,鲜有面向学术领域的智慧阅读研究。本文在综合考量智慧阅读、语义出版、学术出版等相关概念研究的基础上,认为面向学术的智慧阅读是智慧阅读时代科研用户开展学术阅读活动的新型阅读模式。它以学者多维、动态、非线性和差异化的学术阅读需求为导向,借助大数据、人工智能、机器学习以及语义出版相关工具与技术,对学术论文及其关联信息、数据进行结构化组织、语义化处理、细粒度加工、深度关联与相关要素增补,以实现学术阅读活动的个性化、精准化、关联化、可视化、交互性与自适应,降低学者学术信息获取难度、提升学术信息使用效率、助力知识发现与验证,以及实现学术信息价值增值,最终实现学术阅读智慧化。

一、学术阅读任务类型与需求

阅读需求和阅读任务会影响用户的阅读行为和阅读效果[4]。学者在开展学术阅读活动时,通常会带有不同的阅读任务,进而产生相应的阅读需求,并以此为导向采取不同的阅读策略和认知模式。

在学术阅读任务研究上,Dillon认为,学者閱读学术论文主要出于两种目的:一是将学术论文作为参考资料和学习资料;二是出于个人的阅读兴趣[5]。Kim将阅读任务表征为解释性任务、事实性任务和探索性任务三类,并基于不同任务中用户采用信息搜寻策略模式和频率的差异构建了信息搜寻行为模型[6]。Lei. Z针对用户在科学论文阅读过程中产生的功能性需求,定义了学习背景知识、参考事实、参考论点、参考方法、跟进前沿研究等六种科学论文语境下的信息使用任务[7]。

在学术阅读需求研究上,蔡培发现在信息需求方面,科研人员更加注重国内外相关科研进展、学科前沿动态和论文收录引用与评价,同时总结了信息需求的十类研究主题:科研数据需求、文献计量需求、科研过程需求、隐性需求、文献资源需求、网络资源需求、学科信息需求、知识服务需求、创新型需求和个性化需求[8]。彭倩发现,研究生用户对学科领域前沿、研究方法、相关背景知识、工具技术、专业基础知识等学术信息存在较大需求,且学科差异对用户需求影响较大[1]。Ribaupierre等根据用户访谈结果,降序排列学术用户最强烈的学术阅读需求为提升知识、写论文、找到新想法/灵感、发现新观点、了解新情况、文献比较、对他人成果进行评价、寻找特定定义、方法比较、知识总结、验证观点等[9]。Al-Shboul等将人文学者在教学与研究过程中的信息需求分为研究信息需求、教学信息需求、信息素养需求、个人间信息需求四类[10]。刘晶总结得出人文学者最常见的六项阅读需求是知识拓展、知识更新、找到特定内容、发现新研究想法/观点/主题、比较与分析不同观点并验证观点、梳理研究进展,并将其归纳为三大阅读任务:理解任务、检索任务和积累任务[4]。

本文综合已有关于学术阅读任务与需求研究的框架,归纳出三类学术阅读任务下的七类学术阅读需求:检索任务包括获取特定信息这一需求,理解任务包括文献比较、发现新问题/观点/主题、梳理研究进展、观点验证四类需求,积累任务包括知识扩展和知识更新两类需求。

具体而言,在检索任务下,学者不需要深度理解全文,只需借助检索工具就能快速定位并获取所需内容,而后进行后续的处理加工,他们往往会采取选择性阅读的策略。因此,有必要对科学论文进行结构化处理和细粒度语义标注,以及提供便捷的检索途径。

在理解任务下,学者需要对学术论文内容进行深度理解和意义建构,并将论文知识内化并与自身知识体系融合,形成自己的观点。因此,在阅读时,学者往往会采取详读和重读相结合的阅读策略,需要投入大量的精力才能完成理解任务。已有研究表明,外部语义增强环境能降低用户阅读科学论文的难度,提高科学信息的利用效率[11]。此外,学者在阅读时所做的高亮、注释、评注等行为有助于强化内容理解[12]。因此,为了更好地满足学者在开展理解任务时的阅读需求,可从优化外部语义增强环境和完善自定义辅助信息处理功能等方面考虑阅读工具的设计。

在积累任务下,学者需要进行广泛阅读,在阅读过程中他们往往采取遥读、首尾阅读等策略了解概要,从而快速积累相关知识,完成积累任务。因此,如何让学者更高效、便捷地获取所需学术内容,更好地与学者在积累任务下的学术阅读策略相匹配,是满足积累任务学者学术阅读需求的关键,可从深度数据挖掘与分析、知识内容精准推荐等功能考虑进行系统优化。

二、学术阅读系统功能调查

根据学者使用度高、涵盖全学科领域及较早提供增强型学术论文阅读服务三条原则,本文选取在提供智慧学术阅读方面具有学科全覆盖和服务典型性的三个平台——中国知网、ScienceDirect和Wiley Online Library进行分析,以管窥当前学术用户论文阅读需求满足现状。

调研发现,这三个学术出版平台主要提供特定内容获取、增强信息提供、辅助信息处理、信息推荐与个人知识库、可视化五个方面的智慧阅读服务,在不同程度上满足了学术阅读在检索、理解和積累任务方面的相关需求,如表1所示。

1.面向检索任务的阅读系统功能建设现状

当前,学术论文阅读工具主要通过两种智慧阅读服务来满足检索任务相关需求,即满足用户获取特定内容的需求。

(1)不同粒度的检索

中国知网提供知识元检索,平台与概念知识库、问题方法知识元库、中国经济社会大数据研究平台等相关联,可以检索图片、统计数据、指数、方法、概念等知识元。如对概念的检索不仅可以查询到概念的基本定义、特征、结构、分类、功能、原理、起源、发展、影响因素及文献出处,还可以查看所有文献的同文知识元内容。ScienceDirect使用启发式和机器学习方法自动生成主题并提供主题检索与列表浏览两种获取途径,主题信息与Elsevier百科全书、参考文献、相关主题相链接,可帮助学者快速获取特定主题下的所有文献。但上述两种检索方式都无法在特定论文阅读界面上便捷使用。

Wiley目前只提供关键字、期刊和引文检索,检索粒度较粗。

(2)标题与图表导航

目前,中国知网和ScienceDirect在特定论文的阅读界面只提供左侧边目录导航栏,细化到三级标题。部分论文提供文内图表导航,以超链接形式跳转,但学者只能跳转到文内相应部分后自行阅读查找所需内容,无法在该论文页面中直接检索和获取论文结构单元信息。

Wiley在阅读界面提供下拉式目录导航栏,内容细化到一级标题,以超链接形式跳转。其右侧边“Figures”一栏直接展示本文所涉所有图片资源,学者可以直接点击查看或下载,但未提供超链接直接跳转至文内图片对应位置。

基于以上分析可以发现,当前阅读工具提供多维、多粒度方式获取特定内容,包括从具体文献到文献的内部单元,但不同阅读工具提供的学术阅读智慧化程度存在较大差异,但整体来看对读者阅读情境和内容需求的考虑不够全面。尤其是阅读作为一个持续性行为,用户多项需求之间的连续性难以被保持和满足,这反映出阅读工具在提供特定内容获取方面的智慧阅读服务尚未成熟和体系化。

2.面向理解任务的阅读系统功能建设现状

当前,学术论文阅读平台主要提供以下两种智慧阅读服务来满足理解任务的相关需求。

(1)语义关联与要素增补

中国知网提供期刊、作者、机构、关键词以及基于引文网络的相关文献信息链接,其中关键词可链接到知网百科查看详细释义,同时提供相似和相关词链接,提供原图表下载链接并可将表格数据导出到Excel,提供作者图片和相关学术视频等增补信息。

ScienceDirect可提供作者、期刊及相关文献关联信息,其中参考文献大多链接至Scopus和Google Scholar页面,但因版权等问题只有少部分直接提供全文链接;ScienceDirect还提供文内所涉高质量图像下载及代码、补充数据等增强信息,补充内容文件格式多达近40种。

Wiley可提供作者、期刊、参考文献、关键字、基金等关联信息,并以内嵌、浮窗或超链接的形式展示;还可提供基于文章的Altmetric关注评分,用以衡量文章收到的在线关注质量和数量;提供关注该文章的读者数据(包括地理位置、学历和学科的细分统计),以及该文章在研究领域中的研究产出排名信息,以帮助学者更好地评估该文章的科研价值;提供论文增补信息和文内所涉高质量图像下载。

(2) 内嵌辅助阅读标记与检索功能

在中国知网、ScienceDirect、Wiley中,只有中国知网在阅读界面提供划线、高亮、复制、摘录、笔记等功能,并可对选中内容进行词典检索。当前阅读工具都会提供一定的语义关联信息和增补要素,以提高学者知识获取的效率。但不同阅读工具在内容语义关联程度和增补要素的丰富度上差异较大,且语义关联的粒度较粗,无法满足学者基于细粒度特定内容进行延展阅读,以梳理研究进展并发现新问题、观点、主题的需求。而且,增补数据不够全面和语义化,在一定程度上也影响了作者观点验证。此外,目前只有中国知网在阅读界面提供辅助阅读标记与检索功能,欠缺文献多视图显示与并排比较的功能设计,不利于学者直接高效地进行文献比较。

3.面向积累任务的阅读系统功能建设现状

当前,学术论文阅读平台主要提供以下两种智慧阅读服务来满足积累任务的相关需求。

(1) 信息精准推荐与可视化

一方面,中国知网以可视化方式呈现源文献的引文网络并提供文献链接,帮助学者快速循证和积累所涉主题下的丰富学术资源,掌握细分主题和研究点的发展动向。另一方面,中国知网提供核心文献推荐,可视化展现相关主题的研究起点、研究来源、研究分支、研究去脉,学者可快速对研究主题进行溯源并明确其发展路径、方向,还可以通过查看相应主题词下的核心文献了解更多细节。此外,中国知网还提供相似文献、读者推荐、相关基金文献、关联作者等推荐信息,方便学者高效获取知识扩展所需学术信息;提供检索结果的发表趋势、主题、学科、作者、机构、基金、文献类型等可视化分析;提供关键词的关注度指数可视化分析,帮助学者迅速把握关注主题的发展趋势、研究热点与研究前沿。

ScienceDirect则利用机器学习等技术智能匹配用户画像数据和数据库信息,每周发送包含推荐文献和书籍章节链接的电子邮件,以及在登录页面动态显示强相关推荐信息,为学者提供个性化推荐服务,高效助力学者科研活动开展。

Wiley只提供特定论文相关文献推荐信息。

(2) 个人知识库

中国知网的“个人书房”提供我的收藏、我的订阅、我的历史、引文跟踪、我的成果五种功能,方便学者建立个人知识库和及时获取最新学术信息。ScienceDirect和Wiley则提供收藏、订阅和引文追踪等功能,帮助学者追踪特定文献或主题并及时获取最新进展。

综上可以看出,以上三个平台都会提供论文推荐和个人知识库功能,但是在信息推荐智慧程度上差异较大。ScienceDirect根据智能算法精准匹配知识内容和学者需求,中国知网和Wiley则依靠文献的语义关联进行推荐,没有将用户数据作为推荐依据,智慧化程度不高,未能很好地满足用户知识拓展和更新的需求。此外,三者在可视化功能设计上仍不够细致和完善,在个人知识库的功能设计上也有待细化和拓展。

整体而言,国内外各大学术出版平台在整合知识体系,丰富关联信息,优化学术内容呈现,提供个性化服务等方面已经实现了一定突破,在一定程度上优化了学者的学术阅读体验、提升了学者知识获取的效率。但每个平台都存在不足,如不能提供基于论文内容组件的检索和直接获取,仍欠缺更细粒度、更丰富、更全面的基于论文内容深度标引基础上的语义增强信息,个性化阅读功能设计仍有待完善,数据可视化分析等服务尚待加强等。

三、学术论文在线阅读系统优化策略

基于学术阅读需求及满足现状的分析结果,本文提出如表2所示的用户学术阅读需求与满足优化路径,以期实现智慧学术阅读的个性化、精准化、关联化、可視化、交互性与自适应,降低学者学术信息获取难度,提升学术信息使用效率,助力知识发现与验证,从而实现学术信息价值增值和学术阅读智慧化。

1.面向内容的语义增强

面向内容的语义增强对学术论文进行多粒度的内容结构化处理和语义特征揭示,有助于学者快速定位最有价值的知识内容[13],包括对正副文本内容和增补要素的语义标注和深度关联,能够实现学术阅读的个性化、精准化和关联化。当前,学界已经从语句、语篇等多个层面和粒度提出论文内容语义组织策略与模型,以优化学术论文内容检索和呈现方式,提高学者的阅读效率与阅读效果。学术论文阅读平台应充分利用已有研究,根据论文学科特点和不同粒度内容的语义处理要求,综合利用自然语言处理、机器学习、本体、知识图谱等技术,有针对性地实现论文内容的多粒度语义标注与可视化检索。而在对知识内容进行细粒度语义标注的基础上进行语义上的充分关联与要素上的充分增补,可构建可信的、情境化的、关联的、可认知、可预测、可利用的智慧数据集,实现传统论文资源向智慧数据的转型升级。

具体可从宏观和微观两个角度,实现论文内容的深度语义增强。宏观上,可构建一个基于引用、作者、机构、关键词、主题、合作关系等的学术论文关联网络,以为学者提供丰富的关联资源与学术循证支持。微观上,一是利用通用优质的本体模型自动关联论文各内容构件,形成文献内的知识网络;二是在论文资源整合的基础上借助本体互操作、本体映射等实现不同论文内容构件间乃至不同数据库、知识库存储内容间的语义关联,这是助力形成论文间富语义网络的重要一环;三是为学术论文提供内容丰富、形式多样的补充或支持信息,并进行深度语义标注和关联,从而推动形成更广范围的论文内容智慧数据集。

2.面向阅读过程的认知增强

面向阅读过程的语义增强,在交互界面上可提供多样实用的辅助信息处理功能,有效促进学者理解和记忆知识内容,从而实现学术阅读的个性化、精准化和交互性。

在用户自定义生成内容方面,可在已有的笔记、注释、批注等功能上增加在线开放评价功能。一方面,在线开放评价能为其他学者评估文献价值提供参考;另一方面,优质的同行评价能成为论文的有益补充,有助于其他学者理解和扩展相关知识。

在个人知识库建立方面,除为学者提供单篇文献收藏、引文追踪、文献与期刊的订阅功能外,还可在论文内容深度语义标引与关联的基础上提供论文构件的单独收藏。如将数据集、知识元、多媒体资源等分别收录,以形成内容粒度更细、收藏夹形式更多样、语义关联程度更深的个人智慧库。此外,还可提供划词翻译、不同语言版本内容选择、论文文档多视图并排显示与比较等功能,满足学者阅读的多样化需求,并利用用户行为数据丰富用户画像,作为系统优化和知识推荐服务的参考依据。

3.面向用户的服务增强

面向用户的服务增强运用人工智能、机器学习、数据挖掘等智能技术,以智慧化方式呈现和传递富语义的论文内容,能够实现学术阅读的个性化、精准化、关联化、可视化、交互性和自适应。

一是利用机器学习等技术智能匹配用户画像数据和论文智慧数据,及时、动态地为学者提供精准的推荐信息,助力知识拓展、知识更新和兴趣发现。

二是对用户数据尤其是相关阅读数据进行深度挖掘,发现用户的个性化阅读策略和阅读模式。一方面可根据数据分析结果,自适应调节内容呈现方式和界面设计;另一方面,可以此为依据对阅读系统进行优化设计。

三是强化对论文数据的分析与挖掘。可以是基于选定领域论文内容的知识单元识别与抽取,通过知识聚合与分析提供类似主题演化和趋势探测等内容服务,也可以是基于用户自定义内容的数据分析服务。

四是提供覆盖学术阅读全过程的可视化功能,包括单篇论文知识结构的可视化呈现、粒度可选的学术网络可视化呈现、数据分析结果的可视化呈现等,充分利用视觉资源降低学者知识获取难度,提升学者知识发现的能力。

四、结语

本文以学术论文阅读为关注点,对用户学术阅读的任务与需求进行分析,并在案例分析的基础上总结现有学术论文在线阅读系统在内容提供和呈现、功能设计和服务支持上的不足,提出应当充分利用论文内容数据和用户数据实现学术阅读智慧化。

一是应对论文知识内容进行深度语义化处理与要素增补,形成内容丰富、语义关联程度高、价值密度大的智慧数据集;二是智能匹配内容数据和用户数据,为用户提供精准内容推荐,助力知识拓展与知识更新,实现知识提供的智慧化;三是充分满足用户利用各种辅助信息处理功能的需求,同时将可视化功能嵌入阅读系统中,有效降低用户知识处理难度,优化用户学术阅读体验,在以用户学术阅读需求为导向的基础上进行学术阅读系统的优化设计,助推学术阅读智慧化转型。

|参考文献|

[1] 彭倩. 研究生学术阅读行为与需求分析[D]. 武汉:华中师范大学,2017.

[2]NICHOLAS D . Using, Citing and Publishing Scholarly Content in the Digital Age:Case Study of Humanities Researchers[J]. Zagadnienia Informacji Naukowej - Studia Informacyjne,2015(105):7-19.

[3] 方卿,王欣月,王嘉昀. 智能阅读:新时代阅读的新趋势[J]. 科技與出版,2021(5):12-18.

[4] 刘晶. 人文学者的电子书阅读策略研究[D]. 武汉:武汉大学,2019.

[5] DILLON A. Designing usable electronic text: Ergonomic aspects of human information usage[M]. CRC press, 2004.

[6]KIM J. Describing and predicting information-seeking behavior on the Web[J]. Journal of the Association for Information Science & Technology,2014 (4):679-693.

[7]LEI Z,KOPAK R, FREUND L,ET AL. A taxonomy of functional units for information use of scholarly journal articles[J]. Proceedings of the American Society for Information Science & Technology,2011(1):1-10.

[8] 蔡培,卢章平,王正兴. 高校科研用户信息需求研究现状与启示[J]. 图书情报研究,2019(4):58-64.

[9]RIBAUPIERRE H D,FALQUET G. Extracting discourse elements and annotating scientific documents using the SciAnnotDoc model:a use case in gender documents[J]. International Journal on Digital Libraries,2017(3):1-16.

[10]Al-SHBOUL M K,ABRIZAH A. Information Needs:Developing Personas of Humanities Scholars[J]. Journal of Academic Librarianship,2014(5):500-509.

[11] 金秀坊. 外部语义增强环境对用户认知负荷及阅读效果的影响研究[D]. 武汉:武汉大学,2019.

[12] 肖鹏,潘燕桃,张久珍. 中国大陆大学生学术阅读载体偏好与行为研究:基于全球调查数据的比较研究[J]. 中国图书馆学报,2018(1):62-75.

[13] 宋宁远,裴雷,王春迎. 科学论文语义增强的研究进展与趋势研判[J]. 图书情报工作,2021(1):82-90.

猜你喜欢
学术论文学者检索
学术论文征集启事
学术论文征集启事
学术论文征集启示
学者介绍
学者简介
学术论文征集启事
学者介绍
2019年第4-6期便捷检索目录
学者介绍
专利检索中“语义”的表现