数字化浪潮中数字标准的特征与生成路径

2023-08-18 11:57:14林正平杨宇亮陶秀杰
黑龙江科学 2023年13期
关键词:存量结构化数字化

张 迅,涂 亮,林正平,杨宇亮,陶秀杰

(1.贵州电网有限责任公司电力科学研究院,贵阳 550002; 2.南方电网科学研究院,广州 510663)

0 引言

标准是产品研发、设计与生产的基础,贯穿产品设计、生产、使用及报废的整个寿命周期。随着制造业的全球化、数字化转型,产品设计、开发、制造的成本大幅降低,质量明显提高,效率显著提升,信息系统产品数据集成能力成为推动行业发展的重要因素。《国家标准化发展纲要》将“标准数字化水平不断提高”作为战略目标之一,提出发展机器可读标准、开源标准,推动标准化工作向数字化、网络化、智能化转型。

数字时代,需深度调整产业结构,数据已成为关键的生产要素。然而在产品各类数据纷纷转为数字形式时,标准却仍旧以文档格式使用,仅仅从纸质文档变为电子文档[1],这给标准的使用推广造成不必要的浪费,带来潜在的风险。例如,标准的非结构化的文档格式编写,导致其编写复杂、审查效率低、标引和检索困难。不同机构的标准间没有建立便利的引用链接关系,导致引用标准访问困难。标准在企业生产运营流程中日益重要,但很难将标准内容嵌入流程中直接使用,不仅需要及时更新标准,还需要实时评估更新后标准的适用性。

随着数字经济时代的到来,产品生产和服务对标准的数字化使用提出了新要求。当前非结构化的标准不便于信息的加工和挖掘,信息的深度和粒度难以满足用户需求。推进标准的数字化转型,将标准内容通过数字化手段与更高水平的平台、系统进行传递和使用变得日益迫切。本研究在总结数字标准特征的基础上,以存量模型化改良与增量结构化改革两种模式探索数字标准的生成路径,为实现数字标准的普及应用提供参考。

1 数字标准的内涵与特征

1.1 国内外经验

2011年底,ISO改进其出版系统,开发了期刊文章标签集(JATS)的衍生品——ISO标准标签集(ISO STS),用于ISO的标准出版。ISO STS是提供给标准组织、出版商、传播者、档案馆及任何合法用户的一种可以用来发布和交换标准内容的通用格式[2],设置的目的是保留标准的知识内容,使其区别于最初提供的标准内容形式。此后,BSI、SIS、NEN、SA及一些经销商都采用了ISO STS。ISO STS是标准数字化工作的重要基础。

国际标准化组织对“标准数字化“工作高度关注,ISO/IEC将机器可读标准划分为5个层级[3],如图1所示,其中3~4级被称为“SMART”标准。

图1 机器可读标准分级模型

我国的数字标准研究工作起步较早。GB/T 22373-2019《标准文献元数据》规定了标准文献数据集合的基本元数据,给出了标准文献核心元数据、公共元数据的定义及其表示方法。中国航空综合技术研究所曹平等利用XML Schema定义了交互式电子标准的数据结构和模型,开发了交互式电子标准编辑软件,实现了标准的填空式编写、免格式编辑、自主式校验和交互式阅读等[4]。机械工业仪器仪表综合技术经济研究所王春喜等探讨了工业自动化领域机器可读标准的应用场景、关键技术及标准研制,为将机器可读标准用于智能制造设备和系统集成提供了参考依据[5]。江苏省质量和标准化研究院胡瓯静从文字识别的概念中引出标准数字化的定义,阐述了标准数字化是未来标准信息服务和研究的基础和发展趋势[6]。

随着《国家标准化发展纲要》的发布实施,我国在标准数字化领域进行了更加广泛的探索和尝试。南方电网公司全面开展了标准数字化转型工作。中国航空综合技术研究所立足军工,提出“标准即数据、使用即标准”的思路并开展了数字标准场景化应用探索与工具开发[7]。中国电子技术标准化研究院提出标准知识图谱智能化构建方法,发布《标准数字化知识图谱白皮书》,并于IEEE立项“面向标准的知识图谱技术要求”。机械工业仪器仪表综合技术经济研究所在标准管理壳、机器可读相关标准制定等方面进行了研究与实践[8]。可以看出,以数据为核心的数字标准已成为国内外标准数字化转型工作的重要内容,研究其生成路径是重要的基础性工作。

1.2 内涵特征

尽管标准数字化转型、数字标准等概念尚不统一,但各方均认同将“存量标准信息化处理后能融入信息化系统使用”作为标准数字化的重要内容。据此,可对数字标准的内涵作描述性揭示,即将纸质或PDF等格式的电子文档标准向数字化形态转化,将标准数据等内容碎片化为最小信息单元,将相互关联的信息单元按照一定的结构进行存储,通过计算机、移动信息设备等数字化终端以交互的方式使标准信息内容展现、推送或嵌入使用场景。数字标准从数据出发,以数据为提升生产力的核心要素,释放数据资产价值,推动商业与运营模式转变,从而实现管理与业务变革。

数字标准与机器可读标准一脉相承,根据机器可读标准分级模型,可将2~4级机器可读标准转化为数字标准。具体来看,高度成熟的数字标准主要有以下几方面特征:

1)机器可读。系统能够自动采集某个标准数据,无需人工干预即可直接传输到处理系统。

2)人机交互。按照用户使用习惯,实现语义化检索与交互式阅读,提升标准查询与阅读的效率和体验感。

3)知识重用。利用已有的知识作为标准制修订的参考依据,将数据、文本、表格、图形及公式方程提取并跟踪到其他程序。

4)多人协同。实现多人异地实时网络协同,可在线完成标准内容的编辑,实时查看其他成员编写的内容,实现对多个版本标准的管理。

5)数字出版。利用数字技术创建开放式电子标准,实现标准表达与存储的数字化、结构化、规范化。

6)智能关联。基于输入的检索词自动补全、纠正候选词,基于标准主题和内容实现相关标准的联想推荐。

7)互操作性。根据应用场景选择性访问赋有语义的标准内容,利用应用程序界面对标准内容执行更加复杂的操作。

8)更新可追溯。数据源的更新自动传输到下游,保证全链条数据的可信、可追溯。

2 数字标准的生成路径

结合当前研究及实践情况,根据标准数字化起点的不同,数字标准主要有两种生成路径——针对存量标准的“存量模型化改良模式”与针对未来标准的“增量结构化改革模式”,详见图2。

图2 数字标准的生成路径

2.1 存量标准模型化改良模式

所谓存量标准模型化改良模式是指标准文件正式出版后,基于XML内容模式(Schema)对标准文件进行结构化加工和标引,再形成新的XML文件,即XML文件独立存在于标准文件之外。

存量标准模型化改良模式首先对已有的标准文本进行OCR识别、自动化特征提取和交互式标引,并存储成结构化的XML文件。将XML文件中的元素(范围、引用文件、章条、图表、公式等)按照一定规则映射到标准元素库。再结合行业背景知识库、文本挖掘、知识关联及个性化定制等技术为用户提供智能化的标准应用服务。

存量模型化改良模式即是对基于现状的存量标准的改进,优点是相关技术比较成熟,不用改变现有的标准化流程和机制,易于推广实施。缺点是文本标引工作量巨大,结构化程度较低,主要用于解决目前存量标准的数字化定义及应用问题。

2.2 增量标准结构化改革模式

所谓增量标准结构化改革模式是指在新标准开始编制时,基于XML数据模式对标准进行结构化编写,即标准本身就是XML文件。

增量标准结构化改革模式首先参照国家标准规定,按需将各类标准的编写总结归纳成“标准内容范式”与“标准格式”两部分。一方面将“标准内容范式”转换成Schema,并基于此填写内容,完成校验。另一方面将“标准格式”转换成多样的标准出版样式。将通过校验的标准内容与出版样式进行组合,根据使用场景需要自动生成不同格式的标准。

增量结构化改革模式是一种较彻底的“改革”模式,从源头上改变了标准的编写模式,优点是结构化、模式化程度高,内容和格式分开,便于标准交互式应用。缺点是会影响标准形态和流程,目前缺少国家相关法规支持。这种模式主要用于解决未来增量标准文件的数字化定义及应用问题。

3 发展展望

随着标准数字化工作的不断推进,数字化技术将改变标准的管理模式和存在形式,利用数字化技术能够实现标准的全生命周期管理、结构化存储、语义化表达与交互式阅读。标准数字化技术可有效促进标准实施,使标准实施真正成为科研生产的有机组成部分。基于XML的开放式电子文档标准是解决文档有效表达的必要前提,将标准技术内容整理加工后形成数字标准,开发出与现有软件平台集成的、便于广大工程技术人员直接使用的软件或数据库,能够达到标准自动实施的目的。在完成形式、业务和应用的数字化转变之后,标准可与数字化环境完全融合,真正实现数字标准的普及应用。

猜你喜欢
存量结构化数字化
家纺业亟待数字化赋能
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
存量时代下,房企如何把握旧改成本?
房地产导刊(2020年5期)2020-06-24 06:14:06
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
吉林存量收费公路的PPP改造
中国公路(2017年5期)2017-06-01 12:10:10
数字化制胜
中国卫生(2016年2期)2016-11-12 13:22:30
腐败存量
东西南北(2015年9期)2015-09-10 07:22:44
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35