付洪韬 赵婧 黄萌 肖云
科技期刊作为学术传播与交流的重要载体,在发布和记录科研成果、推动学术争鸣、激发创新思维、引领学科发展等方面长期发挥着非常重要的作用。2018年11月14日,国家主席习近平主持召开中央全面深化改革委员会第五次会议并发表重要讲话,会议审议通过了《关于深化改革培育世界一流科技期刊的意见》(以下简称《意见》)。《意见》中强调,科技期刊传承人类文明,荟萃科学发现,引领科技发展,直接体现国家科技竞争力和文化软实力。要以建设世界一流科技期刊为目标,科学编制重点建设期刊目录,做精做强一批基础和传统优势领域期刊。习主席的讲话,为中国科技期刊的发展注入了推进剂。
近年来,在互联网、大数据、人工智能等技术的迅猛发展和带动作用下,国内外科技期刊出版领域在生产方式、传播方法、内容服务模式等方面都发生了巨变[1]。技术作为重要催化剂,对创造先进生产力、变革生产方式、推动出版方式升级都起到重要的推动作用。
国际科学技术和医学 (Scientific, Technical and Medical, STM) 出版商协会自2011年起,每年4月份会发布一张技术对科技出版趋势影响的预测图,简称 STM 报告。2018年4月推出的最新版本《STM技术趋势2022》(STM Tech Trends 2022),其口号为:“进入人工智能时代,创新的人类和智能的机器(Entering the AI Era,Creative Humans &Smart Machines)。”由此可以看出,国际学术出版领域非常重视技术对于行业发展的推动作用。中国科技期刊未来的发展,必然愈加重视通过技术手段转变出版模式,提高服务能力。
中国科技期刊已经在内容采集、生产、加工、管理、发布和专业领域的知识服务等方面进行了有益探索。但是我们必须要看到,目前我国科技期刊出版单位在新技术使用方面普遍还比较落后,通过技术手段改进现有出版模式的意识也还不够。我们对3438种科技期刊的官方网站进行了调研,其中,有1807种期刊网站提供全文PDF阅读形式;285种期刊网站提供全文HTML阅读形式;274种期刊网站预留了优先出版栏目,但其中只有68种在进行内容更新。期刊网站刊文的时效性普遍存在滞后现象,提供全文HTML阅读的期刊,内容更新的时间比纸质期刊出版的时间滞后2至12个月。
从以上数据不难看出,虽然科技期刊出版单位有非常强烈的优先出版、快速传播的愿望,但由于绝大部分期刊出版单位仍然采用传统纸刊生产的方式,一本期刊完成整期排版和印刷后,再将排版文件进行后结构化加工。在这种生产方式下,数据质量无法保障,同时也极大地影响了传播的时效性,网刊优先发布形同虚设。传统出版方式和新媒体传播之间的技术壁垒急需打破。
北京北大方正电子有限公司(以下简称方正电子)依托其雄厚的技术实力,近年来加强了机器学习、自然语言识别、动态出版、基于领域本体的知识库构建等技术在学术出版领域的应用研发。以下,我们从内容生产方式、内容的科学存储和管理以及专业知识服务能力等几个方面阐述相关新技术在科技期刊出版中的应用。
国际上科学技术和医学出版商近十年以来在升级生产平台方面的实践经验告诉我们,对科技期刊数字化生产流程的改造,最根本的措施是将文献内容的结构化工作前置,从源头实现文档XML数据化,并以唯一的XML数据在文献的整个生产周期中流转[2]。
XML数据作为一种可扩展的标记语言,它的设计宗旨是用于传输和存储数据。由于它出色的碎片化内容的组织描述能力以及良好的扩展性,使其在管理信息、跨介质传播以及交流与共享方面具有良好的表现,这项技术也因此被广泛地应用于数字出版领域[3]。在学术出版领域,美国国家信息标准组织(NISO)发布的JATS XML数据标准,是在该领域越来越被广泛应用的XML数据标准。JATS XML的前身是美国国家医学图书馆定义的NLM DTD 3.0。目前,JATS已经被广泛地应用于标记全球出版商出版的数以千计的期刊中,在科技期刊的生产、存储、传播和交换过程中起到了非常积极的作用,代表了XML技术在学术出版领域的高水平应用。近几年,国内期刊出版单位、技术厂商都积极尝试在该领域进行技术改造和实践。现以方正电子研发的“方正平台”为例,介绍新技术在科技期刊生产领域的应用。
方正平台基于国际上先进的、被广泛认可的JATS XML数据标准,同时引入人工智能等相关技术,旨在为中国科技期刊实现数字出版流程的升级与再造、提升媒体融合的传播能力提供一种可行的技术解决方案。
方正平台的核心组件示意图如图1所示。
由图1可以看到,方正平台最核心的组件分别是“智能文档结构化引擎”“XML动态出版引擎”和“飞翔可视化版面精修工具”。
(1)智能文档结构化引擎
“智能文档结构化引擎”的核心能力是对录用稿件进行“稿件清洗”“稿件规范化检查”和“文档结构化”。“稿件清洗”是系统对录用稿件中的冗余无效信息进行清理;“稿件规范化检查”是对稿件中非法的内容样式,如浮动图、表格的错误用法等进行校验和规范。以上两步操作完成后,系统会自动对稿件进行细颗粒度结构化拆分。
“智能文档结构化引擎”部署在云端,整个工作过程不需要人工介入。系统通过大数据、机器学习等相关技术对近10万篇不同领域的稿件进行了学习和训练,确保可正确识别稿件中的要素,并完整地建立起要素之间的关联。目前,该结构化引擎的稿件结构化正确率可达95%以上,通过对越来越多稿件的解析和识别,正确率还会不断提升。
图1 方正平台核心组件
(2)XML动态出版引擎
“XML动态出版引擎”是将“智能文档结构化引擎”生成的XML数据匹配不同的发布渠道模板,生成满足不同渠道传播的成品数据文件。该组件实现了结构化数据与不同发布模板样式的自动匹配,包括各种不同呈现布局下内容与模板容器的自适应。通过对上万篇稿件发布速度的评估,单篇稿件平均发布时间小于90秒,这为单篇稿件的优先网络出版提供了重要的技术手段。
(3)飞翔可视化版面精修工具
对于稿件生成版式文件后还可能需要对内容进行反复修改的情况,方正平台还提供了“飞翔可视化版面精修工具”。即使是没有任何排版基础的人,也能非常直观地对内容进行可视化修改。这种操作方式避免了传统出版方式中出版单位和排版机构之间要反复交互校次稿、等待返修结果的问题,优化了出版流程,极大地缩短了出版周期,让出版单位自主掌握出版时机。
上述几个核心组件通过方正平台提供的生产过程管理系统进行连接,为出版单位提供了以单篇稿件生产为主线的新型生产流程。
方正平台为用户提供的主要应用场景为稿件中心和组刊中心。稿件中心完成单篇稿件从生产、编校到单篇发布的流程;组刊中心实现期刊整期组稿合版。方正平台提供的期刊生产流程如图2所示。
由图2可以看到,新型的科技期刊生产流程是以一个单篇稿件的生产过程为主线的。优质的单篇稿件一旦达到学术质量和出版的要求,就可以随时随地优先上网,不需要受到整期期刊出版周期的影响。而整期期刊的组织环节相比传统出版的时间也大大缩短。用户仅需选择本期需要上版的单篇稿件,调整好顺序和栏目,通过一键操作智能实现整期组刊,中英文目录、年卷期页码即刻完成,大大减少了人工操作的步骤,让生产环节不再成为整个出版周期的瓶颈。
图2 方正平台生产流程
通过近半年的实践,《含能材料》等期刊单篇优先出版的时间平均缩短了50%以上,整期组刊环节的效率也大幅提升。以《2018中国纺织学术年会论文集》为例,该编辑部从收到稿件开始以单篇稿件为单位进行编辑、排版、校对等工作任务,最终,一本近300篇论文、页码数近2000页的论文集,系统仅用了20分钟左右的时间即完成了自动化合成,极大地提升了出版单位的生产效率。
打开微信,扫描图3所示二维码,可以观看方正学术出版云服务平台的操作演示。
图3 方正学术出版云服务平台操作视频演示
新型数字化生产流程通过重塑数字出版流程,从源头生成高质量的XML数据,驱动科技期刊生产、发布和传播,从根本上转变了生产理念,提高了生产效率,保障了数据质量,降低了技术革新成本,为媒体融合和开展知识服务创造了条件。
(1)生产理念转变
传统出版流程是为纸刊生产服务的。在媒体融合的时代背景下,传统的生产流程已经严重制约了内容传播的时效性。方正平台改变传统出版过程中整期纸刊生产和内容数字化流程割裂的现状,帮助期刊出版单位实现在满足纸刊生产的基础上,同时服务于多种渠道的传播,改变了纸刊生产和数字出版串行工作的方式,节省了人力和物力的成本。
(2)生产效率提升
方正平台基于单篇稿件进行生产、编校和多格式输出,满足“生产即发布的愿景”,助力单篇文献的PDF文件和全文Rich HTML的优先出版,为期刊出版单位争夺内容首发权提供了有力的技术支撑。在传统出版流程中,科技期刊基于整期出版的传统生产流程,排版工作交由排版公司完成,造成编排分离的局面,增加了稿件处理的时间成本。方正平台通过定制专业化的版面模板,实现自动化的排版工作,同时配备了同XML数据实现交互的所见即所得的版面精修工具,减轻了传统出版流程的工作量,降低了编辑完成排版工作的技术门槛,提供了编排校一体化的可能性,使期刊出版单位优化期刊生产流程,及时、实时甚至同时报道最新学术进展。
(3)提供融媒体服务
期刊出版单位可以通过方正平台,便捷地获取满足全文网刊发布所需要的Rich HTML数据。Rich HTML文件近年来已经成为科技期刊广泛采用的一种全文阅读模式,通过文章内容的结构化处理,实现了多种形式的链接,如文章导航与文中相应部分内容的链接、文中引用内容和参考文献列表的链接、文中图表符号与图表内容的相互链接、作者关键词等附加信息的外部链接、参考文献相应的外部链接,不仅方便了文章内容的阅读,还方便进行外部的延伸阅读,提升了读者的阅读体验。Rich HTML 的全文阅读方式,不仅满足了读者碎片化、可复用的阅读需求,同时还便于网站搜索引擎的抓取,增大了文章被访问的概率,提升了期刊内容传播效率[4]。Rich HTML 文件还可以满足跨终端的移动阅读需求,便于通过微信推送、分享等方式,扩大传播范围,提供更加精准的读者服务。
(4)数据质量提升
优质的数据是期刊出版单位未来进行专业知识服务的基础和保障。方正平台提供的版面精修工具,采用了先进的中文信息处理技术和基于机器学习的版面算法,是专业、标准、可满足纸刊出版要求的生产工具。方正电子是中国科技期刊XML数据标准起草单位之一,紧跟国际技术发展的趋势,为用户提供标准、优质的符合JATS1.1标准全文XML数据,可以实现与国际主流数据库的内容共享。方正平台确保文献内容在整个生产周期中的唯一性、准确性,避免了割裂的加工过程和不同加工厂商的人工干预导致的二次错误引入,为期刊出版单位进行数据运营提供了高质量的数据保障。
(5)降低新技术革新成本
方正平台的构建基于云端,免除期刊出版单位本地化部署、维护系统的烦恼,降低了科技期刊应用新技术的时间和资金成本,并可以随着产品不断地迭代,进一步完善利用新的技术和功能。用户通过在线注册获取账号,可以随时随地登录系统完成生产工作,并在平台中对每一篇稿件、每一个生产节点、每一次生产操作进行跟踪记录,通过版本管理实现专业化的生产过程管理,通过用户角色界定和工作任务分发等功能实现多人协同的生产模式。在此基础上,方正平台通过底层高质量的XML数据和自然语义识别技术,进一步实现了版本比对功能,直观地体现版本之间内容的增删改、图片的变化等,极大提升了编辑的工作效率。
方正平台通过生产环节的技术革新和流程再造,改变了科技期刊传统出版和数字出版“两张皮”的现状,生成的高质量XML数据为期刊出版单位开展知识库建设、语义出版知识服务,实现自主运营、提供知识服务和开展集群化发展提供了坚实的数据基础。
期刊文本资源作为学术通讯的重要载体,从其诞生至今,便被不断地优化及完善,以便发挥其信息传递的最佳效果。随着大数据概念的普及,一些科技期刊开始探索文本挖掘在期刊编辑工作中的应用,其中就包含前文所述的文献结构化工作。经过结构化的文本通过重组和分析,可以产生大于文本本身的价值,这一点已经得到普遍的认同。国内外不少大型数字出版机构已经通过提供此类数据服务实现了数据的增值,并探索出了新的商业模式,例如知名的Highwire平台、Elsevier的Scopus数据库等。
近年来,数据出版已成为出版界积极探索的领域。[5]学术论文作为学术研究的传播载体,最终的文献形式是整个学术工作的冰山一角,文本背后大量的支撑数据,例如实验过程数据、代码、表格、图片、病例等内容,无法通过传统的传播方式呈现,使得学术传播呈现出不完整性,基于此,对于数据的管理在学术出版活动中显得尤为重要。
通过对方正平台用户的调研,笔者发现,传统的期刊出版单位在资源管理中存在的问题主要体现三个方面:第一,资源未实现科学管理。期刊出版单位内部数据大多经过多年积累,由于人员、设备等问题,文献及其相关附件信息未能进行科学有效的管理,大多是经过简单分类后存储在编辑部本地服务器上,部分期刊出版单位的过刊数据甚至存在丢失的情况。第二,数据存储形式过于单一。期刊出版单位只将文献及其相关数据以文件的形式进行存储,作为独立个体的资源以文件夹的形式分散在电脑硬盘的各个角落,数据之间无法形成有机的关联,这种存储形式很难实现数据的再利用,也无法进行数据关系的挖掘,资源增值、数据出版更无从谈起。第三,资源统计方式过于陈旧。手工的统计方式无法实时获得期刊工作量的评估及资源的统计信息,使得对期刊资源实现宏观管控面临一定的难度。
针对上述问题,方正平台在数字资源的管理及存储方面进行了积极的探索,通过构建新型的资源存储模式,为期刊出版单位解决上述问题,即通过提供云端的数据多元化存储服务,实现文献的结构化存储、实时的数据统计及资源的重组策划,将资源的价值发挥到最大限度。
方正平台资源中心能够帮助用户实现资源结构化存储、资源的实时数据统计和资源重组策划功能。其架构图详见图4。
在方正平台提供的资源中心,每一篇文献都将以结构化的形式进行存储,系统会自动进行文献的数据解析,将文献中的作者、关键词、机构、基金、图片、表格等数据资源通过抽取进行独立存储,并将这些数据独立成库。此外,平台还将这些独立的数据片段通过算法实现数据之间的有机关联,从而为期刊出版单位提供决策的辅助依据。如前文所述,数据资源的存储和出版在学术传播过程中变得更加重要,而这些数据资源的载体形式多样,包括音频、视频、代码、结构化数据等,方正平台的资源中心可支持文献相关附件数据的存储,同时支持数据和文本之间关联关系的建立,为数据出版打下基础。期刊用户通过使用该资源中心,可以有效管理、组织细颗粒度资源,包括每一篇论文、相关素材以及各种增值数据,从而使期刊出版单位可以科学管理自有内容资产,并在未来发挥更大的数据价值。
图4 方正平台资源中心架构图
对于期刊出版单位来说,数据的统计至关重要。在没有辅助手段的情况下,统计只能依靠人工,这项工作在一定程度上增加了期刊出版单位的工作量,且统计结果往往不够精确。方正平台的资源中心可实时统计期刊的各类数据信息,包括期刊生产加工信息、期刊出版数据信息等。在系统对接外部发布平台的情况下,可统计外部读者的使用行为等数据。
系统可通过入库的稿件信息,自动统计期刊在一定周期内的稿件生产量、文字和图片处理量、稿件生产周期等数据,并通过统计报表的形式直观呈现。系统还可统计期刊的基金论文比、学科分布、作者分布、机构分布等信息,使期刊出版单位对期刊的学术信息一目了然,从而对期刊的现状有一个更加清晰的认识和了解。出版学术期刊是为了及时发布、有效传播学术成果,在学术出版日益互联网化的语境下,针对互联网用户的行为分析有助于提升期刊的传播力和影响力。资源中心支持期刊出版单位对接外网发布平台,对接后,系统可实时反馈外部用户的使用信息,帮助期刊出版单位根据读者行为调整出版策略。
随着信息技术的发展,我们处在“信息爆炸”的时代,各种信息极为丰富,导致有效知识相对匮乏。为了从大量信息中迅速获得有效知识,基于数据挖掘技术的文本挖掘变得至关重要,如何将碎片化的隐性资源转化为显性的更加有价值的资源?国内一些期刊出版单位已经开始了碎片化数据重组再利用的探索之路。然而,对于大部分期刊出版单位来说,资源的重组及汇编具备一定的难度。一方面,结构化数据的处理需要具备专业的数据加工知识;另一方面,自主开发软件项目的工具成本过高。基于此,方正平台资源中心为用户提供了一种低成本、便捷的数据管理和重组服务,帮助用户充分发挥其资源的开发能力,支持期刊出版单位通过可视化的数据管理工具将文本中的数据进行抽离,同时进行标引加工,实现数据的多维自动重组,可快速生成期刊出版单位自有的图片库、文章专题库、各类知识库等产品,推动期刊出版单位从资源服务向知识服务过渡。
知识服务的目的是从各种显性和隐形知识资源中有针对性地提炼知识,并在此基础之上通过搭建知识网络提供知识内容、给出解决方案。在这一过程中,对于内容的挖掘和组织是最关键的环节,而这一环节的基础便是底层的优质结构化数据,[6]XML数据作为期刊文本的结构化载体,已经广泛应用于期刊数字化传播。然而,如何有效存储并充分利用XML结构化数据,以及如何呈现多样化的数据资源,依然是期刊数字化传播亟待解决的痛点。此外,只有具备一定的数据量,才可以开展知识服务,所以对于数据的积累至关重要。因此,建议期刊出版单位尽快开展期刊的XML数字化加工及存储,以便适应期刊的互联网化趋势。利用新的技术手段不仅可以优化期刊传统出版流程,提高生产效率,还能实现期刊的多渠道、多样化传播。全流程基于XML数据的出版模式可以从源头上实现对数据的管控,并对科学研究过程中产生的各种过程数据进行有效存储和有机关联,提供给读者更加丰富的阅读体验,实现文本的增值。
目前,知识服务已经是国外数字出版的主流服务,国内期刊虽然有一定的差距,但是始终在进行积极地探索,而新技术将赋予这个探索过程一个新的契机。未来的科技期刊将更加侧重于垂直领域的数据挖掘及更加多样化的数据呈现,不同学科因呈现的数据形式不同而会拥有各自个性化的技术手段。追本溯源,呈现多样化数据的基础是对原始数据的有效加工及利用,如何进一步提升资源及数据的规范性,保持数据的完整性,同时赋予资源更加准确及丰富的描述,将是学术期刊未来提供知识服务的基础。
综上所述,笔者认为,中国科技期刊的发展已经迎来了前所未有的好时机,新技术有能力、也必将为传统学术出版赋能,为中国科技期刊的发展带来一场前所未有的革命。