摘" 要:在企业运营过程中,传统的标准管理方式已不能满足数字经济发展的需要。企业需要更快速、更高效、更灵活地处理标准信息,以适应市场的变化和客户的需求。该研究旨在研究一种方案以优化企业标准信息处理方式,实现标准文件管理工作智能化和企业管理数字化转型,提高企业信息的获取和共享速度,为企业提质增效。
关键词:自然语言处理;标准化;数字化转型;人工智能;数字经济
中图分类号:F270" " " 文献标志码:A" " " " " 文章编号:2095-2945(2024)26-0117-05
Abstract: In the process of enterprise operation, the traditional standard management mode can no longer meet the needs of the development of digital economy. Enterprises need to deal with standard information more quickly, efficiently and flexibly to adapt to the changes of the market and the needs of customers. The purpose of this study is to study a scheme to optimize the way of enterprise standard information processing, to realize the intelligence of standard document management, to realize the digital transformation of enterprise management, to improve the speed of enterprise information acquisition and sharing, and to improve the quality and efficiency of enterprises.
Keywords: natural language processing; Standardization; Digital Transformation; artificial Intelligence (AI); Digital economy
在当今快速发展的数字化时代下,标准作为国际规则的重要组成部分,大部分国家或地区均提出要争夺新兴领域标准主权或占据主导地位。《ISO战略2030》[1]强调ISO标准的普及推动了全球经济的发展,促进了包容和公平的经济增长,有助于保障人们的健康和安全,为实现可持续发展的未来奠定基础,标准数字化推动工程建设数字化迈上新台阶[2]。随着新技术的不断涌现,标准制定的速度也在加快,标准成为国际科技和产业竞争中的关键因素。然而,传统的标准管理方式大部分仍为人工处理,存在效率低下、出错率高等问题,如何快速有效地管理数字化资源仍面临挑战。
本研究旨在帮助企业开发出一种方案以优化标准文件的管理方式,实现企业更快速、更高效、更灵活地处理数字化信息,实现标准文件数据按照规则统一地提取、储存、加工,从而实现智能化地自动、快速、准确的文档提取工作,实现企业文档的数字化存储和管理,以适应市场的变化和客户的需求,提高企业信息的获取和共享速度,为企业发展提供巨大的竞争优势。
1" 研究背景
1.1" 国内外标准数字化发展现状
1.1.1" 国际标准数字化发展现状
ISO和IEC都建立了相应的标准化技术组织,积极推动标准数字化和机器可读国际标准研制、白皮书发布、在线标准编制(OSD)平台开发等工作。ISO联合IEC共同发起了“ISO-IEC SMART 标准项目”,即无需人员参与实现标准机器可读、可用、可理解、可解析,这应该是标准数字化发展的工作指南。从过去单纯的文字表达方式转变到现在的机器可读以及未来的SMART。IEC持续推进标准数字化工作。IEC MSB成立智能标准特别工作组SWG 14(市场和行业视角),该工作组主要任务是评估SMART标准对业界的价值主张,评估SMART标准可能面临的行业挑战,并找出解决方案,分析专家和用户的技能和能力,评估SMART标准的版权和许可模式。
1.1.2" 国内标准化数字发展现状
我国标准数字化的发展源于对各领域数字化探索的不断深入,以及对传统标准管理与应用方式不足的深刻认识。近年来,我国各部委在研发投入和先行领域的探索方面取得了显著成果。在智能制造、航空、电力和建筑工程等领域,标准数字化的应用实践不断推进。例如基于ISO 19650电力建设项目数字化[3]就是将数字化运用于电力领域,同时,依托各标准化技术委员会和工作组的努力,我国制定了一系列国家标准,涵盖了机器可读标准路线、机器可读等级模型、标准标签集和数据字典等多个方向,为标准化工作向数字化、智能化转型注入了新的动力。
1.2" 传统标准管理模式短板
传统标准管理模式存在诸多短板,特别是在数字化转型的背景下更加凸显。目前大部分管理方式为人工处理,一部分现有的标准化服务平台存在着入口查找不便、功能不完善、流程不清晰和相互没有打通等问题[4]。而无论是人工处理的管理方式还是现有的数字化平台上都包括有信息孤岛、文档丢失和遗忘、无法快速响应变化的需求、难以实现信息共享与协作等众多问题。传统模式下的文档管理缺乏统一的规范和有效的技术支持,导致信息流动受限、效率低下,限制了企业的创新能力和竞争力。传统的信息管理服务需求缺乏深化的潜力,需要技术引导,更充分地利用数字化信息[5]。因此,企业需要转向数字化文档管理,标准数字化是企业数字化转型的必由之路[6]以提升信息处理的效率、准确性和安全性,从而适应快速变化的商业环境。
2" 研究方法
2.1" 自然语言处理技术
本研究根据企业的存量内容,结合企业不同存量特点,运用自然语言处理技术,在企业存量数字化过程中,优化大量存量资源的堆积,允许企业以更智能、高效的方式提取与储存存量资源,实现企业更快速、更高效、更灵活地处理资源信息,从而使得企业业务快速迭代,实现企业存量的管理智能化。在企业中人工智能技术的应用可以显著改进生产效率、产品质量和供应链管理[7]。
2.2" 数据库技术
本研究运用数据库技术实现存储、组织和管理大量存量数据,实现存量数据的快速检索、版本控制、安全存储和共享等功能。数据库技术还用于构建知识图谱,并支持智能存量系统软件的扩展开发,使数据之间的关系可视化,帮助企业更好地理解和利用存量信息,提高决策效率和资源管理水平。实现存量内容的结构化和标准化,促进数据的一致性和合规性,为企业存量数字化提供坚实的基础。
2.3" 软件开发技术
本研究使用软件开发技术,设计先进的软件构架,可扩展型的存量文档系统和处理系统。建立存量数字化软件,包括文档处理引擎、企业界面和自动化工作流程。企业通过系统对数据化存量信息进行可视化的查看与操作。系统涵盖用户友好的文档编辑工具、协作平台和移动应用程序的开发,以提高文档数字化的可用性和便捷性,帮助企业更好地利用其文档资源,提高工作效率和竞争力。
3" 技术路线
3.1" 企业标准数字化平台
企业标准数字化平台是为了满足企业数字化转型的需求而设计的一种信息技术解决方案。本平台旨在帮助企业管理和应用标准化文档,实现标准化流程的自动化、智能化和高效化。企业可以将传统的纸质或电子文档数字化,统一存储于平台中,并对文档进行管理、提取、加工和应用。企业标准数字化平台由两大平台组成。
数据预处理平台:数据预处理平台是采用自然语言处理方法对原始数字化文档进行预处理操作并进行分析,进而对数字化的资源及XML文件进行储存。
标准数字化系统:标准数字化系统是利用XML解析的数字化存量或者来源于数据库的信息实现业务功能,将文档的零散数据进行整合,实现复杂的业务功能。
企业标准数字化平台逻辑如图1所示。
本系统逻辑架构主要包含两大功能模块。
数据预处理平台:数据预处理平台主要职责是将电子文档文件进行预处理操作后的未结构化文件转化为结构化文件的操作。首先,将未处理过的文件导入到数字化环境中,使用NLP自然语言技术对文本进行分析,进行数据的预处理操作。其次,进行数据清洗,规范化文本数据,并根据数据的文本特征进行提取,基于大量的文本语料库,通过类似神经网络模型训练,得到提取后的内容,进一步检查所提取到的数据信息并将数据进行结构化包装后导出,从而得到结构化文件。文档预处理逻辑如图2所示。
标准数字化平台系统:标准数字化平台是将结构化文档与数据流进行交互的关键角色,平台将文档中结构化的数据导入成为数据流,使数据变得更为灵活,更加方便处理,以便于扩展型的业务开发。数据化平台处理的具体过程为:先对结构化数据内容如企业标准要素中的术语、职责、指标等进行处理,对提取出的数据进行标准化、结构化处理,将其转化为数据流。平台可通过数据流实现查询、数据分析、数据总结等工作,并将文档数据根据对应的数据结构存入数据库中,从而实现真正的数字化转型。不仅如此,系统同样具备还原原始文档的能力,将数据按照标准的格式进行修饰,然后还原为原始的结构化文档文件,从而实现对企业数据的便捷式、高效式管理。标准数字化平台逻辑图如图3所示。
3.2" 基于自然语言处理的存量提取
企业标准文档的存量提取是数据预处理平台中的关键部分,数据预处理将文档数据进行预处理操作,从而维持标准数字化平台的运行。而数据预处理中,基于自然语言处理的存量提取是承上启下的关键一步,只有将数据存量成功提取,才能将信息分类,提炼出核心的数据信息及相对应的数据结构信息,从而对数据进行下一步的处理。
这一过程首先将文档导入到数字化环境中,利用自然语言处理技术(NLP)等计算机技术对文本进行分析,识别文档中的不同部分,如标题、段落、表格、列表和图像等,并进行标记与记录。通过分析训练集对文本进行预处理,包括清洗和规范化文本数据,去除格式错误、标点符号、空白字符等。对文档中的术语和缩写进行标准化,以确保一致性,并进行人工检查,保证数据的准确性。根据分析结果构建文档的结构化表示,通过代码提取等手段获取初版的关键存量信息,确保标记和结构的准确性。
最后,将结构化的文档存储在文档管理系统或数据库中,并通过数据库中的数据扩展业务功能的开发,为企业提供更加灵活、高效的文档管理服务。图4为文本分析流程图。
文本分析的核心为对文本特征进行提取,本文使用基于词向量的特征提取模型,其思想基于大量的文本语料库,通过类似神经网络模型训练,将每个词语映射成一个定维度的向量,维度在几十到化百维之间,每个向量就代表着这个词语,词语的语义和语法的相似性通过向量之间的相似度来判断。基于文本分析的结果,构建文档的结构化表示,通常是XML或JSON格式。使用标记语言或数据模型对文档中的各个部分进行结构化描述,例如标题、正文、章节和子章节等。然后根据处理完的文本内容进行下一步分析,运用LSA(潜在语义分析)算法进行分析操作,其核心思想是将所拥有的文档-术语矩阵分解成相互独立的文档-主题矩阵和主题-术语矩阵,如主题模型如图5所示。
图5为主题模型图,标准文档中众多的关键词与文档之间没有直接的联系,所以应当需要有一个维度将它们串联起来,主题模型将这个维度称为主题。每个文档都应该对应着一个或多个主题,而每个主题都会有对应的词分布,通过主题,就可以得到每个文挡的词分布。依据这一原理,就可以得到主题模型的一个核心公式,如公式(1)所示
p(wi|dj)=∑p(wi|tk)×p(tk|dj)。 (1)
在一个已知的数据集中,每个词和文档对应的p(wi|dj)都是已知的。而主题模型就是根据这个已知的信息,通过计算p(wi|tk)和p(tk|dj)的值,从而得到主题的词分布和文档的主题分布信息。
通过分析得到分布信息及主题词,从而获得文本特征内容,根据这些文本特征与文件上下文中的关联分析出数据与数据之间的联系,进而探索出企业数据的知识图谱或者支持于更深入的研究。
3.3" 基于存量数据集特征的数据库构建
数据库的构架是针对存量数据内容的具体信息设计出适应存量文档的数据库类型和标准。具体化存量文档不同部分的区别,每一部分设计不同的数据库储存方法,从而标准化、规范化、系统化数据集,促进数据的一致性和合规性;也同时为企业存量管理软件系统的开发提供便利,本研究根据企业数字化文档特性采用MongoDB数据库。
MongoDB数据库属于非关系型数据库,根据本研究的数据特点,选择非关系型数据库更方便与数据交互和存储。非关系型数据库是一类用于存储和管理非结构化数据的数据库系统。与传统的关系型数据库不同,非关系型数据库通常使用不同的数据模型和查询语言来存储和管理数据,如键值存储、文档存储、列族存储和图形存储等。非关系型数据库通常具有更好的灵活性、可扩展性和高性能等优点,适用于大规模数据存储和处理、实时数据流处理、多语言和跨平台应用程序等场景。
3.4" 存量文档的标准化还原
标准数字化文档的还原是根据已数据化的存量信息,其中不仅包含了文本内容,也覆盖了存量的原始排列信息和样式信息等。根据这些信息及原始文档结构化的规范标准进行还原存量文档,最后得到与初始一致的存量信息。
文档的还原方式分为以下2种。
软件系统信息还原:用户使用数字化平台系统,访问数字化平台系统中新建模板进行还原。用户需要根据模板要求输入关键条目信息,包括引言、术语、管理内容等标准层级内容,从而生成存量文档信息,并将数据还原到文件中生成结构化的标准文档。
标准数字化文档信息还原:标准数字化文档信息是利用数据库中存量信息实现标准数字化文档的还原。数据库中记载着未结构化文档转为结构化文档的记录,因此,可以通过访问来源于原始存量文档的电子数据,结合标准要求以及所记录的数据内容和数据结构,从而再次还原初始的标准文档。其详细过程如图6所示。
软件系统构架的全部功能内容基于业务内容,即业务构架。数据库构架是软件系统构架的基础,软件系统数据来源于数据库,软件系统通过访问数据库中信息实现数据交互及所有功能的开发与实现。其次,业务构架中通过业务实际数据存入数据库中进行软件功能的实现,然后再通过软件系统接收数据后反馈给实际业务。软件-业务-数据库三框架关系如图7所示。
4" 结束语
新一轮科技革命和产业变革的深度拓展阶段,数字技术的迅猛发展加速了标准向数字化和智慧化方向的转型。标准数字化是全社会数字化转型的基础,如何真正释放标准数字化的红利仍值得全行业长期思考并付诸实践。在数字化时代,开放性和互动性使得标准面临着多重风险叠加的挑战,标准数字化已经成为新的竞争焦点。以标准大数据或数字化为基础的场景化、个性化、智能化标准服务不断涌现。本研究为企业数字化应用提出方案,以应对数字时代科技和产业变革对标准数据的需求,进一步发挥标准数据在数字时代的基础性和引领性作用。
参考文献:
[1] ISO战略2030[J].测绘标准化,2021,37(4):107-109.
[2] 魏来,黄爽,李翔宇,等.标准数字化推动工程建设数字化迈上新台阶[J].工程建设标准化,2023(9):73-81.
[3] 周亮,薛茹丹.基于ISO 19650的电力建设项目数字化交付标准的研究[J].今日制造与升级,2023(11):8-10.
[4] 狄矢聪.标准数字化平台建设机制与发展路径研究[J].标准科学,2024(1):64-71.
[5] 袁文静,方洛凡.标准对话:标准数字化的阶段性目标与实践[J].中国标准化,2024(3):6-29.
[6] 李炳成.标准数字化是企业数字化转型的必由之路[C]//中国标准化协会.中国标准化年度优秀论文(2023)论文集.《中国学术期刊(光盘版)》电子杂志社有限公司,2023:5.
[7] 杨丽娟.人工智能在数字化转型中的技术标准与发展趋势研究[C]//中国标准化协会.中国标准化年度优秀论文(2023)论文集.《中国学术期刊(光盘版)》电子杂志社有限公司,2023:5.
第一作者简介:卢万(1993-),男,工程师。研究方向为JAVA研发、项目管理。