出版业数据交换通用化架构设计必要性和原则研究

2021-09-13 13:56丛磊陈俊武
出版广角 2021年15期
关键词:端系统出版业逻辑

丛磊?陈俊武

【关  键  词】出版业;数据交换;通用数据交换系统;端交换方案;中间标准库

【作者单位】丛磊,出版产业通用数据交换技术重点实验室,北京理工大学出版社;陈俊武,出版产业通用数据交换技术重点实验室,北京理工大学出版社。

【基金项目】国家新闻出版署“出版产业通用数据交换技术重点实验室”研究性课题。

【中图分类号】TP311.521 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2021.15.009

“互联网+”时代,数据是出版企业的重要资产,对数据资产的挖掘与使用能力,是出版企业的核心竞争力[1]。当前,出版业信息化水平整体不高,数据共享、交换的能力普遍偏弱,虽然有部分出版企业实施了数据交换工作,但其使用的接口系统存在诸多问题,使得数据交换不能迅速普及,严重制约了出版业的发展。

一、出版业数据交换需求现状

1.数据交换需求的多样化

随着“互联网+”、大数据、云平台等新技术、新应用的迅猛发展,数据除了量级上呈爆炸式增长,还呈现多样化的特点。出版业数据的产生、使用、交换具有多源性、多类性和多向性。

从数据产生的源头来分,包括行业主管部门、出版单位、流通服务单位(渠道商和服务商)、用户(图书馆、科研院所等机构用户和个人用户)等产业链条上的各个节点方;从数据内容类型来分,包括机构数据、人员数据、产品数据、政务数据、商务数据、用户数据和内容数据[2];从数据文件类型来分,包括记录型和文件型;从数据交换的参与形式来分,包括参与方之间的一对一、一对多和多对多形式;从数据流向来分,包括内部系统对内部系统流向和内部系统对外部系统流向。

数据的多样化也势必带来数据交换需求的多样化,出版企业与上级部门之间需要定期进行汇总性的出版数据交换,出版企业与合作机构之间需要实时交换业务数据,出版企业各业务部门也需要从头至尾的产品数据传递。大量多样化的数据交换需求要求出版企业具备相匹配的数据交换能力,数据交换能力的强弱、数据交换的普及应用程度将直接影响出版企业乃至整个出版业的发展。

2.数据交换需求的迫切性

出版经历了出版1.0时代(铅与火)和出版2.0时代(光与电),现在已经到了出版3.0时代(数与网)[3]。随着出版3.0时代的来临,出版业对信息的数字化、共享化的需求,对流程规范化、标准化的需求,对大数据的收集、分析需求,都成为出版业亟须解决的问题。如果这些问题没有得到解决,出版业就不可能在出版3.0时代进行数字化转型升级,更不可能向出版4.0时代(云与端)演进。

对出版企业来说,数据交换对提高其无纸化办公能力,避免重复劳动,提高工作效率,提高数据传输速度、准确度、安全性,简化和规范业务流程,改善和提升产业上下游各节点的协同合作关系等都起到了至关重要的作用。因此,数据交换应成为出版企业的核心生产力之一,数据交换能力也理所当然地成为企业的核心竞争力之一。出版企业无论其规模大小,若要在“互联网+”时代得到更好的发展,就要提升其数据交换能力,并解决其在数据交换过程中遇到的问题。

二、现有数据交换模式存在的问题

1.交换接口产品不具有通用性

多年来,出版业乃至各行各业都在积极探索数据交换的技术和生态解决方案,经过多年的尝试和实践,一些研究人员取得了较为可喜的研究成果,并进行了较为成功的应用。综观现阶段我国的出版业,其流通环节的数据交换普遍采用“XML+FTP”的方式,均以《图书流通信息交换规则》(CY/T 39-2006)为基本规范,辅以各出版企业和流通渠道自定义的规则为补充,形成数据交换业务单据的生成规范,然后各个信息系统生产厂商进行接口开发,实现业务单据所对应数据的读写、存取和传递。这种数据交换模式虽然解决了特定交换需求下两个特定系统之间的数据交换问题,但仍存在其他问题,尤其是交换接口不具备通用性。具体表现如下。

(1)私有规则

接口是根据数据交换双方协商一致的、特定的、私有的规则而开发,与出版业国标、行标的规则存在差异,且私有规则仅根据双方实际需求协商制定,不能直接适用于其他机构,因此不具备通用性。

(2)接口定制

接口是两个特定系统之间的业务逻辑和程序逻辑的代码,即接口是定制开发的,只适用于两个特定系统之间,并不适用于其他系统。而出版企业使用的系统千差万别,因此一个接口很难在多个出版企业中通用。

(3)逻辑交织

接口中的业务逻辑和程序逻辑是设定好的,但出版企业系统中的业务逻辑并不是一成不变的。随着时代的发展,出版企业在转型升级过程中,业务逻辑势必要发生改变,因此原来的接口无法继续使用,必须对其进行二次开发或重新开发。

(4)特定版本

同一信息系统可能存在版本迭代现象,更新后的系统业务逻辑或程序逻辑或多或少都会发生变化,原来的接口只适用于迭代前的版本,不适用于迭代后的版本,所以接口不具备通用性。如果迭代后的系统未重新开发接口,则无法进行数据交换。比如云因出版ERP系统,旧版本为C/S架构,而新版本已全面改版成B/S架构,依据旧版本开发的接口必然不适用于新版本系统。

2.交换接口开发存在的问题

(1)依赖原厂

由于參与数据交换的两个信息系统都必须开发接口,且当前出版企业技术力量普遍薄弱,因此信息系统接口基本只能由原开发厂商进行开发。有的开发厂商愿意主动地开发接口,但出版企业使用需要额外支付大量费用;有的开发厂商无力或不愿意进行接口开发,甚至有的开发厂商已经倒闭,接口无人开发,因而出版企业的数据交换无法进行。

(2)重复建设

出版业的出版流程是遵循行业标准规范的,各种接口中大部分功能性逻辑基本是相似的。虽然不同出版企业可能使用的是同一个系统,但由于具体业务存在差异且数据库结构不同,因此数据读写逻辑代码也不同。各出版企业均需要结合自身实际情况定制开发不同的接口,同一系统接口的重复建设度较高。

(3)费用高昂

接口开发是一项费时费力的工作,开发成本、维护成本、后期的使用成本均较高,开发厂商不仅要向出版企业收取信息系统版本迭代费用,还要收取接口的版本迭代费用。对单个出版企业而言,它的客户数量可能是成千上万的,每个客户使用的系统可能各不相同,因此出版企业在进行业务对接时,就需要开发对应数量的接口,投入的开发成本和管理成本是巨大的。高昂的费用让大多数想要实现数据交换的出版企业望而却步,进而也阻碍了数据交换接口的开发和普及进程,加大了出版业数据收集和共享的难度。

(4)开发人员存在业务逻辑和标准规范理解差异

出版企业技术力量有限,因此接口的开发人员大多来自信息技术公司。他们对出版业务逻辑的理解和出版业规范或标准的理解存在偏差,且本身也可能存在程序开发水平的高低差异,故开发出的接口中,其业务逻辑和程序逻辑以及对出版业规范和标准的执行均存在不一致性和不确定性。这既不利于接口的顺畅使用,也不利于出版业规范、标准的推广和应用,很容易造成“有标准不用、有标准难用”的局面。

(5)安全保障程度差异

开发人员在开发现有交换接口时,只是在业务逻辑和程序逻辑上对数据进行处理,并未在信息交换的系统架构安全上做更多的考虑,使得交换的信息安全性得不到保障。目前,数据已成为出版企业的核心资产,是出版企业快速发展的核心竞争力。越来越多的出版企业开始重视信息交换的安全性问题,但提供数据交换服务的厂商建议用户在接口投入使用前,必须先投入高昂的费用搭建信息安全架构。这就出现了“千万费用已投入,分毫数据未交换”的现象。

正是因为当前数据交换存在上述问题,导致出版业数据交换接口不能通用,数据交换不能普及,大量信息系统以“信息孤岛”的方式存在,严重制约了出版业的发展。因此,搭建一个使用成本低廉、接入方式简单且多系统通用的数据交换系统,是解决出版业现有数据交换问题,保障行业未来良性发展的根本所在。

三、通用数据交换技术的研究意义

1.通用数据交换技术极大提升了工作效率

出版产业链上的行业主管部门、出版单位、销售渠道、用户单位等内外部都存在大量信息交换和复用需求。如果日常工作中系统间数据交换不借助软件工具,完全通过手工录入、加工的方式进行,那么数据交换和管理过程中需要耗费大量的人力成本和时间成本。通用数据交换技术能够自动传输元数据和配套资源文件,可以极大提高各单位的工作效率。大量应用和实验数据表明,1个业务人员在5个工作日完成的工作量,通过通用数据交换接口仅需0.5个工作日就可完成,工作效率的提高可达90%以上。

2.通用数据交换技术有效减少人工操作带来的差错和损失

在数据交换过程中,很难保证人工参与的环节不存在差错。例如在教材发行高峰期,发行部门每天都要为各个渠道、院校开具不计其数的发货单,大量的图书发货数据如果完全依靠人工录入,可能会让业务员手忙脚乱顾此失彼,极易产生差错且很难及时发现,这就会对出版企业甚至下游销售渠道的业务带来极大影响。通用数据交换技术可以替代数据交换过程中人工的錄入操作,避免人工操作带来的不确定性,从而减少数据交换过程中的差错。

3.通用数据交换技术使出版产业链各节点数据融合共享

出版业的各类数据均分散在不同的产业链节点和主体中,导致主管部门与出版行业主体之间、产业链上中下游主体之间信息不畅,信息系统缺乏互联互通,产业链数据不能真正融合[2]。通用数据交换技术可以消除信息系统间的壁垒,使产业链上各节点的数据真正得到共享,推进出版业智慧决策、智慧生产、智慧服务。

4.通用数据交换技术推动整个出版业健康发展

“互联网+”的概念在出版业的体现是利用互联网的手段,将大数据、云计算、物联网等基于互联网的新技术深度融入出版产业的各个环节中[4]。通用数据交换技术充分发挥互联网在出版生产要素配置中的优化和集成作用,对提升出版业的生产力和创新力,以及实现出版业的快速创新发展有着极其重大的意义,将有效推动整个出版业的健康发展。

出版业通用数据交换系统的研究势在必行。笔者通过分析可以确定,要想实现数据交换的通用和普及必须考虑现有的制约因素,从系统架构和应用生态上进行重构。在重构设计时,开发人员必须遵循科学的设计原则,才能开发出可通用化、易普及的数据交换系统。

四、数据交换通用化架构设计原则

在设计一个通用化的数据交换系统架构时,开发人员应当充分考虑导致数据交换系统不通用的根本原因,同时考虑现有交换接口开发存在的问题,从本质上提出解决之道。经过出版产业通用数据交换技术重点实验室的大量理论研究及分析,笔者认为,开发人员在进行出版业通用数据交换系统架构设计时应遵循分离性原则、耦合性原则、抽象化原则、共用性原则和开放性原则5个原则。

1.分离性原则

出版业通用数据交换系统要实现通用化目的,首先应将待进行数据交换的信息系统的业务逻辑从通用化架构、逻辑上进行分离,即通用数据交换系统不得含有数据交换两端系统的任何业务逻辑(进行数据交换的两端系统以下简称“端系统”)。只有这样,通用数据交换系统才可以回避各出版企业之间业务流程和系统的差异,达到仅需一套通用数据交换系统就可以实现任意端系统之间数据交换的目的。

由于各端系统存在业务逻辑不同、数据库结构不同等原因,导致数据读写方式大不相同。为了实现接口的通用化,需要开发人员将端系统数据读写方法与接口系统本身分离,以保证公共接口部分的通用。研究表明,出版业数据交换通用化架构将读取和写入数据的业务逻辑单独制作成标记化语言脚本代码文件(如XML等,暂且称其为“端交换方案”)。端交换方案是区分具体端系统、端系统版本及业务单据的。它不仅要符合出版业相关国家、行业标准的要求,还要符合待数据交换双方协商一致的自定义规则要求。一个端交换方案应包含一个或一个以上的业务单据,且一个端交换方案应只对应一个固定版本的端系统。

2.耦合性原则

出版业务逻辑与数据交换接口分离之后,开发人员只需要开发接口公共功能部分形成系统,并支持不同端交换方案脚本的分析和运行,以此完成不同系统间的数据交换。端交换方案是端系统业务逻辑的继承和实例化,其本质只是一个文本文件,不能直接运行。因此在出版业通用数据交换系统的逻辑架构中,必须设计一个能将端交换方案用于数据交换的耦合器,耦合器可以实现端交换方案与数据交换公共功能部分的协同运作,参与并控制各种端交换方案的运行,最终以应用程序形式部署到各个出版单位,并能以系统服务驻留模式长久运行。在每个端系统接入时,仅需进行一次简单配置,加载对应的端交换方案即可自动实现数据交换,开发人员无须对端系统进行改造。

由于不同出版企业使用的系统千差万别,不同的系统均需要适配不同的端交换方案,耦合器要协同运作各种端交换方案,就要求端交换方案在制作时需遵循统一的制作规范或标准。因此,耦合器应包含端交换方案制作器,其提供统一的端交换方案制作编辑工具,且制作编辑工具的制作规范或标准应由相关人员提前定义完成。

耦合器在出版业通用数据交换系统中接收到端交换方案时,会对其数据进行规范性校验,例如ISBN的格式是否正确、出版日期的格式是否符合标准等。而规范性校验的规则或标准应来自中间标准库。中间标准库是由相关国家标准、行业标准、企业标准及双方协商一致的规则组成。符合中间标准库要求的端交换方案才可以在出版业通用数据交换系统中发布,供出版企业进行选择和应用。

3.抽象化原则

耦合器实现了各种端交换方案在出版业通用数据交换系统中有效可靠的解析和运作,其应包含数据处理、数据收发、数据校验、数据安全、运行控制等通用功能,也必须是这些功能的抽象化器具集。

如耦合器在数据处理器中应抽象定义各种数据库(如Oracle、Microsoft SQL Server、MySQL等)的连接方法;应抽象定义各种数据类型(如字段类型、字符集、文件类型等)的转换处理方法。在数据收发器中,耦合器应抽象定义数据传输方法(如将数据通过HTTP、HTTPS、FTP、FTPS方式上传下载等)。在数据校验器中,耦合器应抽象定义字段型数据或文件型数据与中间标准库的校验方法(如出版日期的年月日是以“/”分隔还是以“-”分隔,传递的图书封面尺寸是否符合要求等)。

耦合器中各种实现特定功能的方法(即功能器具)是经过功能抽象化后的通用方法,只有经过抽象化的通用方法才能适用于各种异型异构系统。如在数据库操作时,耦合器将数据库行为抽象为connect、select、insert、update、delete、up、down、import、export、execute等类型,将极大简化接口开发复杂度,提高接口通用性。

4.共用性原则

为了使出版业通用数据交换系统可以被出版产业链条上的所有企业使用,开发人员在架构设计上就必须遵循系统共用性原则。即非个性化的操作和数据,都应使用共用模块去保障,包括中间标准库共用、耦合器共用、安全保障系统共用、接入呼叫系统共用等,最终达到收益共用、生态共用的效果。

出版业数据交换通用化架构采用“云平台+客户端”的模式,将端交换方案运行、端系统配置等放在客户端;将复杂的内外网通讯呼叫系统、端交换方案发布系统、中间标准库、数据分析系统、数据安全系统等放在云端,组成通用数据交换云平台。这样既满足各种系统接入的差异化配置,又保证出版业通用数据交换系统的共用性,避免了众多出版单位重复建设、重复投入的问题。

例如中间标准库应整合与出版业相关的60余种出版、发行、信息类标准,如2006年颁布的《图书流通信息交换规则》(CY/T 39-2006)、2013年颁布的《中国出版物在线信息交换图书产品信息格式》(GB/T 30330-2013)等标准,将标准中规定的信息交换的内容、类型、格式规范、技术规范等形成中间标准库,定义在云端,以共享的形式存在,以便各个端交换方案能对照共用。

5.开放性原则

要实现出版业通用数据交换系统的真正通用,应当做到该系统在推广应用层面的普及。因此,系统在应用层面必须遵循开放性原则,即做到端交换方案制作开放、系统接入开放、中间标准库开放。

(1)端交换方案制作开放

端交换方案实行“非唯一性”原则,应建立机制鼓励更多的技术厂商和个人参与端交换方案的制作,这样才能避免仅靠端系统原开发厂商开发的弊端。如用户在使用端交换方案的过程中会产生流量,端交换方案可以实行定额流量免费、超额流量收费的方式。若端交换方案制作者能够得到流量费分成,即技术厂商(或个人)能够因端交换方案而获得收益或回报,则可以促进相关人员创作端交换方案的积极性,避免仅靠端系统原开发厂商单打独斗开发接口的局面,从而构建行业数据交换新的应用生态。在此种生态中,端交换方案也会成为一种“商品”,形成一个数据交换界的淘宝商城,“商品”的制作完全開放,使更多的单位、个人投入到该商品的生产、共享、竞争与消费中。

(2)系统接入开放

出版业通用数据交换系统的安装下载均应采用免费接入的方式,无论用户单位是否花钱,都可以自由使(试)用。即出版业通用数据交换系统在推广应用时,遵循“低门槛”原则,改变出版企业对数据交换费用支出巨大的固有印象,让想参与数据交换的出版企业尽可能地参与进来。

(3)中间标准库开放

出版业通用数据交换系统的最大特点就是标准化,其每一个行为或动作都应该严格遵循各种国家或行业规范和标准。但一些非官方的标准或规范对出版业数据交换也是必不可少的,如有些用户现实中有交换需求,但所处环境又无国家、行业标准,或者企业由于自身发展需要自主订立私有规范等。因此,通用数据交换系统必须面向所有用户公开,可以由需求方按照中间标准库的设计规范,自行创作交换规范,形成准中间标准库,让出版业通用数据交换系统的使用单位实时地知道数据传递、使用应遵循的规范,只有这样,端交换方案的制作才会有的放矢。中间标准库的开放,有利于出版业诸多国家标准、行业标准、企业标准的落地应用,同时也能提高出版业对相应标准的应用水平,有利于整个行业的健康发展。

五、结语

“互联网+”时代,模式的创新能带来业务的创新和提高,创新的通用数据交换系统能有效地解决现有数据交换模式存在的诸多问题。我们要清醒地认识到,创新的业务模式和技术架构只是解决实际问题的一种途径,重要的是创新业务模式和技术架构的应用生态。因此,出版业亟须构建一个“逻辑分离,应用贴合,共建共享”的出版业通用数据交换系统应用新生态,该生态的构建必将对出版业的健康发展起到巨大的推动作用。

|参考文献|

[1]华为公司数据管理部. 华为数据之道[M]. 北京:机械工业出版社,2020.

[2]刘成勇. 树立数据思维,建设新闻出版大数据体系[J]. 出版参考,2016(7):5-8.

[3]王娟,冯慧超. 国际图书出版市场现状及趋势分析[J]. 今传媒,2016(9):66-67.

[4]匡文波,童文杰. 论“互联网+”出版的发展策略[J]. 出版发行研究,2015(6):9-12.

猜你喜欢
端系统出版业逻辑
刑事印证证明准确达成的逻辑反思
逻辑
TTE时间触发以太网技术在国产化平台中的应用
创新的逻辑
以按需出版为抓手,推动出版业数字化转型
冶金联合循环机组汽机冷端系统运行优化
CentOS下AFDX端系统驱动设计与实现*
AR与VR技术在儿童出版业中的应用
对出版业供给侧改革的思考
南宋出版业考述