摘 要:科技期刊发布平台迁移过程中所涉及的数据,可根据数据类型划分为期刊的基础数据、期刊的扩展数据、期刊的用户数据及行为数据、期刊网站与上下游系统连通数据等不同的数据层级,并据此构建相关的层次模型。层次模型可应用在实际的数据迁移实践中,本文根据不同层级数据的特点,探讨各层数据在数据迁移过程中的迁移思路、迁移方法和注意事项,并提出相应的迁移案例,以期对促进科技期刊数字化建设的健康发展提供参考。
关键词:学术期刊;发布平台;数据迁移;层次模型
DOI: 10.3969/j.issn.2097-1869.2024.02.009文献标识码:A
著录格式:郭军强.科技期刊发布平台数据迁移层次模型的构建与实践应用[J].数字出版研究,2024,3(2):72-76.
科技期刊发布平台是科技期刊数字化建设的重要组成部分,国内外已有多个厂商提供相应服务,如国内的玛格泰克、仁和汇智、中图科信、方正、勤云、科学出版社SciEngine平台、清华大学出版社SciOpen平台及国外的ATYPON Literatum平台等。期刊作为连续性出版物,根据其自身发展的需要,会不可避免地经历发布平台的变更和迁移,在此过程中,数据的迁移尤为重要。当前,部分期刊对哪些数据需要迁移、如何进行迁移等缺乏较深的理解,其实际的迁移过程就如“摸着石头过河”,容易造成不同类型的数据或多或少地被丢失。同时,也有部分发布平台未向迁走的期刊提供相应支持。针对上述问题,本文试图通过对科技期刊迁移数据类型进行划分,并针对不同数据类型提出相应解决思路和方法。
1 背景及既有研究
在期刊平台建设方面,目前大部分期刊都采用第三方技术公司提供系统或服务的方式构建自身系统平台。科技期刊是连续性出版物,优秀的期刊往往为能向读者、专家用户提供更好的服务而进行系统的迭代和升级,在此过程中都需要进行数据迁移,即将旧系统中的数据迁移到新系统中,使其在新系统中得以正确应用,保证期刊系统平台的可持续服务。
通过在文献数据库中进行检索,发现相关的既有研究较少,其中,许山山等[1]从数据质量对数据迁移的影响、数据迁移基本架构、数据迁移方法3个方面进行梳理,分析当前热点的架构和方法,并对常用架构模型和方法进行了综合评价;张斯龙等[2]则以《中华急诊医学杂志》主建网站“中华急诊网”的升级为案例,对期刊网站系统升级历程中各阶段的实施过程和收效进行了经验总结。但许山山等的研究偏向理论探索;张斯龙等的研究则侧重于定制化开发的期刊数字化系统平台,与大部分期刊的情况并不相同。同时,科技期刊在实际的迁移过程中,往往只注意期刊、论文数据的迁移,且容易忽略论文析出或加工出的数据、用户数据及用户行为数据、上下游系统连通数据等数据的迁移。因此构建相对完整的数据迁移层次模型并开展实践应用是一个重要的研究课题。
2 平台数据迁移的层次模型与实践应用
2.1 数据迁移层次模型
本文以科技期刊发布平台的数据迁移层次模型与实践应用为研究对象,探讨数据迁移过程中所涉及数据的层次划分、迁移要点和注意事项等。
基于笔者对科技期刊发布平台的多年研发经验,在数据迁移过程中可以按照如下方式进行迁移数据的层次划分(见图1)。
不同层次的数据在迁移时具有不同特点,其迁移方式也随层次的不同而具有完全不同的迁移思路和方法,层次越高对数据的要求越高。各期刊可以根据自身实际情况向迁移前后的技术提供商提出不同的数据导出和导入需求,并要求双方配合完成完整的数据迁移工作。
2.2 数据迁移层次模型的实践应用
2.2.1 L1层期刊的基础数据的迁移
L1层的数据为期刊的基础数据,主要包括期刊的核心信息展示数据和期刊文献数据两部分。
期刊的核心信息展示數据主要指期刊网站上呈现给用户的静态介绍类数据,此类数据更新频率一般较低,如期刊简介、编委信息、期刊荣誉、投稿指南、审稿流程、版权声明、数据共享说明、道德声明、伦理政策等。由于各期刊的核心信息展示数据内容、标准不一,且往往长期固定,更新频率低,对该类数据的迁移思路是直接将原系统中的相关数据拷贝到新平台,同时结合新网站的展示需求、内容更新需求等进行调整。
期刊的基础文献数据一般包括论文的元数据、PDF及XML全文数据等,是期刊网站上最重要的内容数据。通过分析国内期刊的数据加工情况,可以将期刊为读者提供论文阅读的方式分为论文摘要阅读、论文摘要+PDF下载阅读、论文在线全文阅读、论文在线全文+PDF下载阅读等。针对论文摘要阅读和PDF下载阅读方式,文献数据的迁移策略和思路是通过批量导出、导入方式进行数据的迁移操作,如果原系统不支持导出,则可以通过数据采集的方式进行数据的迁移。论文题录数据的迁移,是目前国内主流科技期刊平台迁移过程中的基础部分,如勤云、玛格泰克、仁和、方正等网站平台提供论文所有题录数据的Excel表格,只要新系统支持批量导入,即可完成论文数据的迁移。但这种迁移方式需要考虑导出的PDF文件与元数据的关联,可以通过对将PDF文件的文件名称与元数据中的某字段(如唯一标识)相对应的方式进行迁移。
以某期刊网站的论文数据迁移为例,原网站上的论文只支持摘要阅读,PDF及全文阅读数据需要从数据库平台获取。在该期刊的数据迁移过程中,以从原网站导出的论文题录excel数据为基础,对其所有文献数据进行XML全文数据加工并完善题录数据,从而完成论文数据迁移,实现全刊论文在新网站的全文在线阅读和PDF下载阅读。
对于与国外合作期刊的基础论文数据,可以使用大数据采集工具采集论文的题录数据并进行新网站入库与发布,这就要求数据采集工具需具有实时更新与监控能力,以确保所有期刊文献数据同步更新。数据迁移后的期刊网站平台样例(见图2)。
2.2.2 L2层期刊的扩展数据的迁移
L2层的数据为期刊的扩展数据,首先需要处理的是以论文XML数据为基础并通过解析XML的内容或通过更进一步的数据加工而形成的实体数据,包括能够独立存储的作者、机构、基金、关键词、图表、参考文献等数据,其未来可以作为科技期刊的数字资产进行重复利用,因此迁移该部分数据时需要确保数据的连续性。此类数据进行迁移的策略和思路为,如果其仅是从全文XML数据解析出来的数据,则可以通过重新解析和治理技术完成迁移,在新的系统中实现结构化数据的独立存储与管理;如果在解析的基础上还进行了更多加工,则需要进一步处理加工后的结构化数据及各实体之间的关联。
扩展数据还包括期刊网站的资讯数据,以期刊编辑部公告或微信公众号等新媒体平台的内容居多,针对该类数据可以通过技术采集的方式进行迁移,如对于编辑部公告资讯数据可采用一次性迁移方式,微信公众号等新媒体平台的数据则需要通过持续监控进行采集并更新。
此外,部分科技期刊网站中还存在音视频数据,包括论文的增强出版数据或发布网址运营过程中积累的音视频数据,一般分为两种存储方式,一种存储于原网站,可直接进行播放展示(见图3);另一种则存储于B站、视频号等第三方平台(见图4)。针对第一种存储方式的数据迁移需要通过整理原网站的音视频资源,根据导入的元数据模板批量导入新网站。其中,尤其需要注意音视频资源与论文等其他内容的关联,需要在新网站中进行重建。而对于存储在第三方平台上的音视频数据可以采取两种处理方式,其一是继续将数据保留在第三方平台,直接在新网站中拷贝相关链接即可;其二是从保证数据完整性的角度出发,将相关数据收回科技期刊网站自行管理,可以通过分析第三方平台的数据规则,利用技术采集工具实现音视频数据的持续采集与入库,确保新网站和第三方平台的数据实现周期性更新。
2.2.3 L3层期刊的用户数据及行为数据的迁移
L3层的数据为期刊的用户数据及行为数据,包括用户信息数据、用户行为数据或资源利用数据及系统访问数据(如网站访问量、访问时长)等。
期刊的用户信息数据主要指网站前台的读者数据,通过导出已经注册、登录的用户账号信息,在新系统中实现账号的批量初始化,保证用户的连续访问。在迁移的过程中,需要特别注意保护用户密码等敏感数据的安全,确保用户的隐私及保密数据不被泄露。同时,对于订阅制期刊,其用户的订阅信息也需要和用户数据一起迁移。
用户行为数据或资源利用数据指前台网站的所有内容资源,用户在使用资源时的行为数据,包括论文的浏览量、下载量及音视频的浏览量、播放量、下载量等数据,可以通过系统日志导出,不同的资源在导出时可以将系统的统计数据包含在内。
2.2.4 L4层期刊网站与上下游系统连通数据的迁移
L4层的数据为期刊网站与上下游系统的连通数据,主要迁移的是DOI注册信息。一些期刊在发布论文时会对其进行DOI注冊,迁移网站数据时也需要将DOI解析后的目标地址迁移到新网站,否则一旦旧网站下线,DOI解析就会无法被访问。可以通过更新DOI注册的相关信息来维护DOI注册信息的持久性及DOI元数据的准确性。
针对DOI注册信息,本文提出迁移策略和思路:将所有注册过DOI的数字对象列表进行导出和迁移,数字对象一般包括论文、部分论文部件(如图片、表格等)、增强出版数据(如音频、视频等)及其他类型的数据,根据列表分门别类地在新网站系统中使用新的URL进行解析地址更新。如果旧网站系统中没有记录相关数据或不支持导出,则可以根据Crossref平台提供的期刊DOI和URL列表获取相关信息,科技期刊可以要求新网站平台的技术商根据列表形成包含论文在内的各种数字对象的DOI和URL信息的新格式文件,其格式体例可参见Crossref平台制定的包含制表符分隔列表的文本文件具体规则[3]。之后即可联系Crossref的管理员进行批量DOI重新解析操作,或通过Crossref的管理工具批量上传提交。
2.3 平台迁移与数据的相关事项
为了实现新科技期刊平台与上下游系统的连通,除完成上述数据的迁移外,还需注意与平台迁移相关的搜索引擎收录更新及各数据库收录更新等相关事项。此类事项与迁移平台的技术功能、第三方对接平台接口有关,虽不属于数据迁移范畴,未列入数据迁移层次模型,但与迁入的新平台中相关的数据关系密切。
搜索引擎收录更新以百度和谷歌收录更新为例。对于百度收录更新,可参考百度的网站收录工具说明[4],当科技期刊进行第一次网站收录时,技术服务商可首先进行百度网站收录开放平台的注册,然后进行网站的域名验证,之后即可通过百度提供的API接口进行网站URL的批量收录提交;当科技期刊进行新旧网站或域名切换时,则需要通过百度提供的网站改版工具[5]提交当前网站的所有URL链接。对于谷歌收录更新,则需要通过谷歌开发者账号按收录要求[6]生成并重新提交网页地图(Sitemap)文件。
在各数据库收录更新方面,科技期刊收录数据库的数据在新旧平台进行切换时,需要对原始数据库——如中国科学引文数据库(CSCD)、Pubmed、Scopus数据库中的论文元数据及论文可触达的URL地址进行更新。主流的数据更新方式为,数据库平台向期刊提供文件传输协议(File Transfer Protocol,FTP)服务,科技期刊按照数据库的要求准备并提交数据,并通过FTP服务器进行原始数据的更新,确保科技期刊新旧平台切换后依然可以保证论文的原文获取链接准确无误。以Pubmed数据库收录更新为例,若期刊被Pubmed数据库收录,在进行科技期刊网站的新旧切换时需要对原始提交给Pubmed数据库的论文原文链接进行批量更新,按照Pubmed数据库的数据提交更新机制制作XML文件(见图5),并通过Pubmed数据库提供的FTP服务器上传、更新该XML文件,以保证Pubmed数据库的论文能够准确链接到新的网站平台。
3 结语
科技期刊发布平台的数据迁移过程较为繁琐,本文通过对发布平台中需要迁移的数据进行分析,构建了科技期刊发布平台数据迁移的层次模型,将需要迁移的数据分为期刊的基础数据、扩展数据、用户数据及行为数据、网站与上下游系统的连通数据四个层次,对该层次模型进行实践应用,针对每一层数据分别提出数据迁移的策略、思路和方法,对期刊数据迁移事项的开展提供建议,拓展其执行思路,以期促进科技期刊数字化建设的健康发展。
目前,期刊平台技术提供商对于期刊数据迁移的认识还比较有限,实施时往往比较被动。未来若其能够提供更好的技术支持,期刊的数据迁移将更加顺畅,如可以在多平台间通过提供接口或迁移协议的方式实现数据迁移,甚至更进一步,新旧平台间可以“一键”实现所有数据的迁移,真正实现期刊网站系统的平滑过渡,届时,科技期刊平台的产品竞争力将得到飞跃式发展。
作者简介
郭军强,男,中图科信数智技术(北京)有限公司产品经理。研究方向:互联网及数字出版产品与平台设计。
参考文献
[1]许山山,史涯晴,韩敬利,等.数据迁移研究综述[J].软件导刊,2023,22(7):234-246.
[2]张斯龙,郑辛甜,马岳峰.学术期刊网站的升级[J].科技期刊发展与导向,2018:118-123.
[3]Crossref.How to update your resolution URLs[EB/OL].(2022-05-20)[2023-12-27].https://www.crossref.org/documentation/register-maintain-records/maintaining-your-metadata/updating-your-metadata/#00172.
[4]百度搜索资源平台.平台工具使用手册:如何使用API推送功能[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=3#h2_article_title14.
[5]百度搜索资源平台.平台工具使用手册:网站改版工具如何使用[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=6#h2_article_title19.
[6]Google搜索中心.請求Google重新抓取您的网址[EB/OL].[2023-12-27].https://www.google.com/addurl.
Construction and Practical Application of Data Migration Hierarchical Model for Sci-Tech Journal Publishing Platforms
GUO Junqiang
Zhongtu Kexin Technology (Beijing) Co., Ltd., 100020, Beijing, China
Abstract: Data involved in the migration process of sci-tech journal publishing platforms can be divided into different layers according to types, such as basic data, extended data, user data and behavior data, and website and up-down-stream-connected data. Related hierarchical model can be constructed accordingly, and it can be applied in the actual data migration practice. According to the characteristics of data at different layers, this study analyzed in-depth the migration ideas, methods and precautions of data at each layer in the process of data migration, and put forward corresponding migration cases, with a view to providing references to promote the healthy development of the digitization of sci-tech journals.
Keywords: Academic journals; Publishing platform; Data migration; Hierarchical model