通用数据交换耦合技术“三源”关系探究

2022-05-30 06:08赵毓峰丛磊
出版广角 2022年13期
关键词:需求方北京理工大学出版业

赵毓峰?丛磊

【摘 要】作为国家新闻出版署出版产业通用数据交换技术重点实验室研究性课题之一,出版业通用数据交换平台的构建是实验室建设的重要组成部分。文章系统论证了出版业通用数据交换平台中三个核心部分(“三源”)的定义和作用,并着重探讨“三源”在平台架构中的关系,最后通过实验平台的实例,展示出版业通用数据交换平台的优势。

【关  键  词】出版业;通用;数据交换

【作者单位】赵毓峰,出版产业通用数据交换技术重点实验室,北京理工大学出版社有限责任公司;丛磊,出版产业通用数据交换技术重点实验室,北京理工大学出版社有限责任公司。

【基金项目】本文系国家新闻出版署“出版产业通用数据交换技术重点实验室”研究性课题。

【中图分类号】G230.7 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2022.13.007

在数字化、信息化大潮的引领下,国内大多数出版企业根据自身的实际情况开展了数字化、信息化建设,图书的选题策划、编辑加工、印制发行等各个环节,都能产生相应的数字化、信息化产品和海量数据。在出版业各个环节中,利用以物联网、大数据、云计算、人工智能、5G网络、区块链为代表的现代信息技术使这些海量数据互联互通,能够有效消除信息孤岛,构建全行业的通用数据交换生态,为有力推进出版业信息化进程作出贡献。

一、出版业通用数据交换平台的设计背景

目前,出版企业存在数据交换、数据分析方面的迫切需求,不仅有企业内部数据交换需求,还有企业对外数据交换需求。国内外出版企业普遍采用“FTP+XML”接口模式进行数据交换[1],基于此模式开发的接口采用的是“软件代码与业务代码交织在一起”的模式,任意节点业务规则的变化,都会导致所有接口需要重新开发。此种数据交换模式,无论是研发费用还是后续的维护或接口模式修改费用,都大大超出了出版企业的承受能力。

1.出版业数据交换面临的主要挑战

出版业大数据包括七类数据,分别是机构数据、人员数据、产品数据、政务数据、商务数据、用户数据和内容数据。出版业的数据分散在不同的主体中,这七类数据散落在政府部门、出版企业、发行商、图书馆、科研院所、广电商、电商平台等。主体接收的数据分散,导致主管部门与出版业主体之间、产业链上中下游主体之间信息不畅,信息系统无法实现互联互通,产业链数据不能真正融合[2]。

以北京理工大学出版社为例。作为出版企业,北京理工大学出版社在开展出版业务的过程中,需要完成如下工作:与发行商(如各级新华书店)、图书馆、电商平台(如京东、当当等)之间的图书信息推送、批销单生成、物流配送、财务结算等数据交换工作;与排版厂、设计公司、印刷厂等单位传递排版、封面设计文件,完成财务结算等数据交换工作。需要与北京理工大学出版社完成数据交换工作的单位粗略估计有几百家,几乎每家单位的信息化应用系统都是孤立存在、互不兼容的。甚至在使用相同应用系统(如目前出版业较常用的 “云因系统”)的不同企业之间,由于管理理念的差异,也无法进行有效的数据交换,导致出版企业需要通过电话、传真、电子邮件等方式传递信息,然后通过人工处理完成所有业务,费时费力,效率低下。为此,北京理工大学出版社数字出版中心基于“FTP+XML”接口模式开发了XMLEDI电子数据交换平台。利用XMLEDI电子数据交换平台,北京理工大学出版社可接收需求方的订单信息,并根据约定的数据结构将信息转换成出版企业应用系统所需的数据格式,生成采购单。在采购单生成后,系统会将批销单直接送达库房,使库房能够及时按照批销单发货,有效提升数据交换速率。利用XMLEDI电子数据交换平台,北京理工大学出版社能够高效完成出版社新书信息发送、库存信息推送,采购单确认、发退货确认、财务结算等业务。可见,XMLEDI电子数据交换平台解决了大量业务首先通过电话、传真、电子邮件等方式进行信息传递,再进行人工处理的问题,大量的手工录入工作由计算机系统自动完成,业务员只需要核对数据的准确性。

但是,在开发XMLEDI电子数据交换平台的过程中,北京理工大学出版社数字出版中心发现了其难以克服的弊端——这种数据交换模式若想大规模应用,就需要设计人员针对每个应用系统开发单独的XMLEDI电子数据交换接口。目前,平台只能与京东、当当、浙江省新华书店集团等十几个业务平台进行一对一的数据交换。在与不同业务平台进行数据交换时,业务员需要在计算机上手工切换。在对接平台数量较少时,这种模式尚能应付,但如果面对几十个、几百个甚至成千上万个平台,以此种模式进行数据交换,无论是对业务员还是对开发人员来说都是难以完成的。这还是单个平台对多个平台进行数据交换的情况,如果是多个平台对多个平台进行准确数据交换,设计人员需要开发的接口数以及业务员需要处理的业务会呈数量级增长。这一问题是由出版企业普遍采用的“FTP+XML”接口模式进行数据交换造成“软件代码与业务代码交织在一起”所带来的。

2.项目研发目标

为了解决以上问题,以北京理工大学出版社有限责任公司为主体承建的出版产业通用数据交换技术重点实验室提出了“出版业通用数据交换平台”的概念。出版业通用数据交换平台定义了中间标准库、端交换方案以及通用数据交换耦合器这“三源”。“三源”之间的有机结合,密切协作,能够为不同系统间的数据交换搭建通道,支持不同厂家、不同版本的出版业应用系统接入,实现软件代码与业务代码分离,达到建立一个独立于应用系统之外且开放、通用的信息交换平台,减少出版企业对特定系统开发厂商的依赖。运用出版业通用数据交换平台,出版企业可自主拓展更多创新服务。

二、出版业通用数据交换平台的“三源”结构

如图1所示,在出版业通用数据交换平台的数据交换过程中,业界分别将中间标准库定义为标准源,将端交换方案定义为数据源,将通用数据交换耦合器定義为执行源。

中间标准库之所以被定义为标准源,是因为其能够整合与出版产业相关的60余种出版、发行、信息类标准,如2006年颁布的《图书流通信息交换规则》、2013年颁布的《中国出版物在线信息交换(CNONIX)图书产品信息格式》等标准。出版业通用数据交换生态依据标准中规定的信息交换的内容、类型、格式规范、技术规范等形成中间标准库,所有的数据交换工作都以中间标准库中的定义为蓝本来完成,中间标准库由出版业通用数据交换平台管理者进行管理和更新。

端交换方案之所以被定义为数据源,是因为其是应用系统数据的提供者,能够根据数据需求方应用系统的数据结构,将系统运作行为抽象为connect、select、insert等类型,然后抽取数据提供方的对应数据,并且标注这些数据,以适应需求方的数据结构。系统的开发厂商、系统用户甚至是与应用系统无关的第三方,只要愿意,都可以根据自己对应用系统的理解和使用习惯开发端交换方案,并提交出版业通用数据交换平台供用户选用。

通用数据交换耦合器之所以被定义为执行源,是因为其是出版业通用数据交换平台的数据交换单元及数据管理单元。一方面,通用数据交换耦合器能够校验端交换方案提交的数据结构与中间标准库,以解决出版业“有标准不用、有标准难用”的问题。另一方面,通用数据交换耦合器能够分析处理端交换方案提交的运行请求,将数据转换为满足对应系统数据格式的XML文件,并推送到相关的XML文件服务器,供需求方读取。

三、出版业通用数据交换平台“三源”之间的关系

出版业通用数据交换平台虽然仍是通过“FTP+

XML”方式传输数据,但是由于出版业通用数据交换平台独立于各应用系统之外,因此其并不参与各应用系统的运转,只能根据应用系统之间数据交换的需求处理及转发相应数据。因此,任何应用系统之间运用出版业通过数据交换平台进行的数据交换工作,都不需要对自己的应用系统进行二次开发及修改,也无须专门针对数据交换修改应用系统节点业务规则。由此,软件代码与业务代码成功分离。

出版业通用数据交换平台遵循通用性、标准化和开放性原则,不仅可以使出版业的应用系统之间进行数据交换,还可以使出版业与不同行业的应用系统进行数据交换,从而简化开发环节,节省研发费用。而且平台的所有标准、工具及应用方法都向全社会公开,无论是系统的开发厂商、系统用户,还是与应用系统无关的第三方,都可以根据自己对应用系统的理解和使用习惯开发平台并获取收益。

综上,出版业通用数据交换平台“三源”关系如图2所示。

1.标准源

标准源——中间标准库是出版业通用数据交换平台的基准。平台在运行初期,首先需要导入可供各应用平台查询并参照使用的60余种出版、发行、信息类标准。随着平台的日益成熟,平台将不断更新新出台的国家标准,应用系统可以向平台管理者提出一些尚未成熟的标准应用申请,并按照中间标准库的设计规范,自行创作交换规范,形成“准中间标准”供各应用系统和开发者使用。

2.数据源

数据源——端交换方案是出版业通用数据交换平台中数据交换的发起者和操作的制定者,由系统开发厂商、系统用户等针对需要进行数据交换的应用平台中间标准库的定义开发而成。各应用系统由各自开发团队开发,互不统属,不可能有统一的数据格式,导致不同系统难以共享数据,形成“信息孤岛”。端交换方案可以按照数据需求方的数据结构,从数据提供方获取数据并提供转换模式,根据通用数据交换耦合器的标准发出各项操作指令。端交换方案开发者必须充分了解应用系统的数据结构,将不同应用系统数据各字段的命名、数据类型、数据格式、排序规则等通过端交换方案进行统一。端交换方案还需要将数据传输过程中需要执行的操作,如接收、存储、发送、加载、写入、修改、删除等写入其中。但是,端交换方案并不能真正执行这些操作,相关操作由数据交换耦合器来完成。

3.执行源

执行源——通用数据交换耦合器起到承上启下的作用,是真正体现出版业通用数据交换平台价值的关键环节。它能够协同标准源进行标准校验、执行数据交换的各项指令、生成契合数据需求方格式的XML文件,并上传到XML文件服务器,供需求方读取。建立出版业通用数据交换平台的核心目的是解决出版业普遍采用的“FTP+XML”接口模式在数据交换过程中“软件代码与业务代码交织在一起”的弊端。

一方面,端交换方案按照数据需求方的数据结构,从数据提供方获取数据并提供转换模式,根据通用数据交换耦合器的标准发出各项操作指令。但是,端交换方案自身不参与数据转换和操作,相关操作由数据交换耦合器来完成,并生成适应数据需求方要求的XML文件,数据需求方只需要读取使用。另一方面,通用数据交换耦合器完成端交换方案与中间标准的校验。上述过程中,无论是数据需求方还是数据提供方的应用系统都不参与数据交换。数据通过端交换方案—通用数据交换耦合器—中间标准库完成提取—验证—转换—传输的全过程,实现软件代码与业务代码分离的目的。业务代码只在业务系统中运行,而软件代码依赖中间标准库、端交换方案以及数据交换耦合器的密切协同独立运行于出版业通用数据交换平台上。任何应用系统业务规则的改变,都无须设计人员开发专门的数据接口,设计人员只需要将对应的数据结构写到端交换方案,这样大大节省了开发成本。

四、出版业通用数据交换平台的展望

在图书销售的实践中,通用数据交换耦合器通过端交换方案关联数据交换双方的业务系统,通过调用中间标准库中的CY/T 39-2006(图书流通信息交换规则)标准进行校验后,生成XML文件并通过FTP协议进行转发。在这里,双方进行的是图书销售信息相关数据的交换。例如,通过出版业通用数据交换平台,浙江省新华书店集团浙江新华营销平台能够获取北京理工大学出版社ERP(云因)系统里的图书销售信息,并生成需求清单;北京理工大学出版社ERP(云因)系统根据需求清单生成批销单,提交库房发货。虽然双方应用系统定义的图书销售信息的各字段完全不同,但是通过端交换方案的提取和通用数据交换耦合器与中间标准库的验证及数据转换,各项数据能够无缝对接。

需要注意的是,在数据交换过程中,数据交换双方应用系统的使用者并不需要在出版业通用数据交换平台上进行过于复杂的操作。出版业通用数据交换平台完全独立于具体应用系统之外,只需要数据交换双方的系统管理人员根据数据交换的实际需求,在进行第一次数据交换之前,在出版业通用数据交换平台上设置通用数据交换耦合器,设置完成以后,所有的数据交换工作都是自动进行的,无须系统管理人员完成后续操作。这样的数据交换模式对数据交换双方应用系统的使用者来说是完全透明的,出版業通用数据交换平台“软件代码和应用代码分离”的优势尽数体现。

出版产业通用数据交换技术重点实验室是国家新闻出版署的研究性课题之一,实验室自2021年成立以来已经完成了出版业通用数据交换平台的实验平台建设,并且正在通过实验平台,与北京市百万庄图书大厦、浙江省新华书店集团等多家单位的多个应用系统进行数据交换。通用数据交换耦合器在北京理工大学出版社与合作伙伴进行出版发行数据交换过程中发挥了巨大作用,取得了良好的效果,大大降低了参试单位的工作强度和开发成本。虽然运行时间较短,平台还存在许多需要改进的问题,但是随着项目的不断推进与完善,出版业通用数据交换平台正式投入运营后,将会大幅降低产业链数据共享投入,解决产业链数据共享难题,推动标准的落地应用,为产业信息交换的规范性、科学性提供应用保障,实现企业对内、对外无差别的数据交换,并通过大数据技术推进行业智慧决策、智慧生产、智慧服务,助力出版业数字化、信息化的不断进步与发展。

|参考文献|

[1]叶枝平,李振坤,刘竹松,等. 基于XML的数据交换平台的研究与设计[J]. 微计算机信息,2008(9):243-244+229.

[2]刘成勇. 树立数据思维,建设新闻出版大数据体系[J]. 出版参考,2016(7):5-8.

猜你喜欢
需求方北京理工大学出版业
北京理工大学机械与车辆学院简介
面向软件外包平台的协同过滤推荐算法的研究
北京理工大学通信与网络实验室
以按需出版为抓手,推动出版业数字化转型
实时竞价中的佣金率问题研究
共享单车市场的发展现状与前景研究
Design of Two-wheeled Mobile Control Robot with Holographic Projection
AR与VR技术在儿童出版业中的应用
对出版业供给侧改革的思考
国家航天立法研讨会在北京理工大学举行