黄 健 刘敬仪 李 喆/福建福清核电有限公司
在当前的企业中,针对文档的知识化建设和智能化建设已逐步开展,但其建设方向往往只针对知识化或智能化某一个单一方向,或者其中一方建设完成后才开始建设另一方,这样的建设方式缺乏融合共建的思想,无法发挥出“数据+技术”的最大价值。而本文即在此背景下进行研究,将AI能力进行集中管理和利用,进行企业文档知识库与AI资源池融合建设,深度挖掘和利用文档中的知识碎片,为企业决策提供有力支撑,从而提升企业核心竞争力。
目前国内在企业知识库建设的理论方面和应用实践方面的研究已有较多成果。董军等对企业文档知识库进行构建,实现了知识分类、检索、发布、获取与处理能力,进而实现了显性知识的搜集利用、隐性知识的提取转化、企业知识的查询检索以及知识在企业内部的共享[1];谭政等提出在SaaS平台环境下进行知识库建设研究,实现文档多人协同编辑与多版本管理,提升了企业内部在文档编辑方面的效率和进行知识共享的积极性[2];张斌等对海量数字档案资源进行知识的提取、整合、管理,构建面向决策的档案知识库,充分发挥档案的内在价值,实现档案数据深层次开发利用,从而为档案用户提供个性化的决策服务[3]。
近年来,文档领域的信息化建设越来越注重人工智能新兴技术对电子文档管理的智能化提升与优化,取得了很多研究成果。邢高生利用命名实体识别、实体关系抽取、知识表示方法等AI技术对HKBZ领域的文档数据进行处理,提升文档数据检索的效率和质量;构建完整的领域知识体系,提升文档数据利用率;完成专属领域知识库建设,实现知识关联和共享[4]。杨强等基于图像识别技术实现对电子文档的清晰度检测和文字识别,从而辅助文档管理人员的日常工作,通过图像识别技术拆分文档中的原始信息,与文档录入信息进行自动对比,保障文档数据的准确性,同时提高员工的工作效率[5]。
当前研究多集中在某些具体的应用点上,技术力量分散,AI能力没有得到有效整合,无法真正发挥出文档的价值;且可复用性较差,容易造成能力重复建设。所以需要开展统一的AI资源池建设研究,实现AI能力集中管理与利用。
随着知识库建设和人工智能的不断发展,人们开始在知识库与人工智能的融合建设方面开展探索与研究。吴庆海提到人工智能时代下的知识管理将进入新阶段,在包括知识标引、知识搜索、知识创造、知识推送、智能决策支持等应用场景中,知识库建设与AI建设将不断融合,产生极大应用价值,同时提出AI赋能知识管理技术架构[6];董小英等提出在数字经济时代,知识管理对数据的提取和梳理、数据转变为知识的准确性和实时性有了更高要求,这样使得数据的深度挖掘和异构整合成为知识管理建设的重要内容,而在这其中人工智能技术将发挥重要作用[7]。
知识库与人工智能的融合建设已经越来越受到重视。本文将结合最新的知识库与AI技术,对两者的融合共建模式进行探讨,通过对文档知识库的AI赋能研究,进一步提高企业文档管理智能化水平,发挥企业文档潜在价值。
企业文档知识库的目标是将用户所输入的文档数据信息,经过分析判断后输出给用户更高层次、更高质量的知识。因此,文档知识库最关键的功能是实现知识表示、知识获取和知识利用,这与人工智能的研究范畴具有一致性。由此可见,人工智能的相关技术可应用于文档知识库中[8]。
AI资源池各个算法之间成模块化构成,松耦合,可拓展,系统内集成算法可根据文档治理场景下的需要进行可持续性开发和集成,在兼顾经济性、安全性、实用性的前提下,能够进一步提升知识库对文档数据解析、知识挖掘的能力与效率。
AI技术的发展,需要学习大量知识和经验,这些知识和经验需要海量的数据作为支持,海量的数据能够作为AI发展的数据积累和训练资源。
企业文档知识库除了包含大量原始文档资源(目录数据库、全文数据库、多媒体数据库、元数据数据库等)之外,还通过分类、提炼、存储、呈现等流程[9]对文档资源进行异构资源整合,抽取知识并进行知识组织,并通过关联规则等发现文档之间的多维网状知识关联,从而通过智能化手段发现其中的隐性知识。企业文档知识库作为具备多种描述维度的知识模型体系,相比普通文档库,具备大量的规则与分类信息,能更加清晰地阐明数据间的关系,为AI资源池的各项技术提供了关联化、智能化的数据基础。
简单来说,企业文档知识库的建设需要AI资源池的技术支持,以文档知识库为数据基础的智能文档应用也依赖AI技术来实现,在文档知识库不断建设完善的过程中,其知识内容可作为AI资源池的训练数据来源,从而促进AI资源池技术能力不断升级。
随着知识库建设领域的不断发展,主流文档知识库的实现大部分依赖于人工智能提供的先进方法和技术支撑,企业建设AI资源库的同时,诸如规则、框架、语义网络或本体等一系列形式化知识表示(知识描述)方法和技术都可直接运用到文档知识库的构建中,为其构建提供方法和技术上的支撑[10]。因此,AI资源池和文档知识库建设运用的技术是可以相互借鉴和融合的。在此基础上,双方借鉴融合过程中需要执行相应的国际和国家标准规范,从而增强后续以AI和文档知识库融合共建所衍生应用的兼容性和鲁棒性。
由企业文档知识库与AI资源池融合共建的关系说明内容可知,企业文档知识库与AI资源池的融合共建模式构建,主要围绕数据、技术、标准三个角度进行,具体工作从技术实现层面主要可以分为数据融合、标准融合、技术融合,从管理机制层面主要是解决主体共建、数据共建、技术共建等问题,下面将以核电行业为例进行阐述。
3.1.1 数据融合
企业文档知识库和AI资源池都是以文档部门所藏的丰富文档资源为处理对象,其本质为文档中的多源异构数据。可借助AI资源池的算法技术提取文档数据,并处理、汇总、整理为满足文档知识库管理使用要求的结构化知识数据,该数据既可保存在文档知识库形成基础设施,也可以作为训练数据集,再次输入AI资源池,促进AI资源池算法不断升级。
以核电企业为例,由文档管理部门提供的合同、图纸、生产记录文件/音像等数据,可由核电AI资源池通过语义分析、关系抽取等,建立知识图谱,图谱中的三元组数据既可输入到AI资源池中作为数据集参与训练,也可以保存在核电文档知识库中作为基础设施,为核电知识查询、知识推荐等其他智能应用的开发奠定基础。
3.1.2 标准融合
在企业建设文档智能化应用的时候,分别作为数据来源和技术来源的文档知识库和AI资源池应确保技术标准、传输标准、存储、数据结构等的标准保持一致、相互支撑,避免出现多源异构数据,以及传输标准不一致导致人力物力浪费等。这需要文档人员和信息技术人员在针对项目具体需要多少标准的支撑才最为合适、这些标准分别是什么、现有的标准可以直接使用还是再改进、可以直接借鉴或间接借鉴的标准有哪些、有哪些标准急需开发、哪些标准可以稍缓等一系列问题中,确认AI资源池与文档知识库融合过程中标准的数量、质量、内容、适用性等有待继续深化的合并要求[11]。
以核电维修领域为例,维修规程作为核电文档一部分,在建立知识库过程中,需要根据维修规程的电子格式、页面格式建立信息系统文件存储标准以及文档解析标准,从而正确实现数据的结构化提取。与此同时,AI资源池需根据同样的标准建立知识模型,从而正确将知识库的文档数据输入AI资源池进行关系提取、知识图谱建立等相关操作。
3.1.3 技术融合
企业档案管理者与信息工作者在建设文档知识库和AI资源池时,应关注知识库业务层技术与AI资源池基础技术上的协同点,实现两者技术相辅相成。文档知识库建设中运用到的大数据存储传输技术、私有云技术,可快速为AI资源池提供基础性的图纸、设备参数、合同文本、实体数据供给,AI资源池可为文档知识库提供知识抽取、自然语言处理、知识图谱构建、文档智能批分等数据加工必备的智能算法,通过两者技术融合,企业可实现基于文档数据建立知识图谱、自动问答等智能化应用。
3.2.1 主体共建
企业知识库与AI资源池的主体共建过程,作为跨学科合作项目,需要参考系统工程的相关标准,建立项目全生命周期模型及相关工作流程[12],建立遵循文档生命周期的全部业务主体共建体系。通常企业的档案管理部门与AI建设部门是相互独立的,一般来说,文档部门管理公司内部每个阶段不同业务类别的文档,并牵头负责文档知识库的建设、管理、运作;信息部门负责公司信息化项目开发、管理、推进,负责企业AI资源池的开发、建设、运维,并配合业务部门提供AI技术服务。文档部门牵头推进文档知识库建设的时候,需协调信息部门提供技术支持,在AI资源池中提供知识抽取、自然语言处理、知识图谱构建、文档智能批分等文档业务所需的技术服务接口,接口设计需由文档部门参与并提供业务指导。融合进AI技术的文档知识库及其衍生的文档智能化应用在运作过程中,由档案人员对AI处理结果进行业务正确性审核,并将修正意见闭环反馈至AI资源池后台,起到循环加强作用。
3.2.2 数据共建
在文档管理业务领域,文档部门在开展文档知识库及衍生文档智能化应用建设规划时,可通过设计周密的问卷对关键用户进行调研,通过问卷获得第一手资料,掌握关键用户的档案利用需求特点、所需的档案知识类型、对档案知识库的功能和性能方面的要求,以此作为参考,细化或完善现有档案知识库的建设需求分析。以核电行业为例,核电企业的生产数据以SSC结构(Structure System Component)为数据标准架构,SSC为核电厂的构筑物、系统和设备的总称,主要用于描述在电厂的设计、采购、安装、调试和运营等阶段中涉及的物理实体。
在核电文档知识库建设过程中,文档部门根据建设需求与信息部门人员开展有效沟通,明确合作协议前提及相关管理规范,实现建成的文档知识库中各子公司、各部门间依据限定规程进行数据共享、交互、下载、上传。为了实现这一目标,企业管理层根据SSC数据结构、各部门职能、文档编制情况牵头制定文件查阅、上传、下载权限范围,并通过公司管理程序固化,由文档管理部门牵头、公司信息部门支持,在智能文档知识库中设置用户权限标准。
除了文档领域自身的控制以外,文档部门可进一步参与企业业务流程中数据流的模式构建与规划,提高前端控制的能力,确保公司业务数据与文档部门的管理策略相兼容。
3.2.3 技术共建
文档知识库建设需要文档部门掌握成熟的业务管理技术,同时还需要信息部门提供高效的信息技术,满足大数据时代对提高数据挖掘、信息组织等现有业务能力的要求。这就要求文档部门与信息部门在文档知识库及文档智能化应用建设规划过程中充分沟通、明确需求。具体体现在文档部门建设文档知识库前期需提供必要的技术需求,信息部门则提供有效的技术保障。
对于企业来说,企业文档知识库与AI资源池融合共建可以为企业带来新型企业知识管理形态,为企业转型、提高应变能力和创新能力奠定基础,具体实现上可以从AI赋能知识、智能知识服务、数智转型升级三个角度来进行阐述。
目前已有的企业文档知识库在建设过程中着重对已有知识进行关系梳理,然后基于文档数据形成知识图谱,知识图谱只是一种知识表达的方式,仅仅从关系的角度展示知识。而将企业文档知识库与AI资源池融合共建,在服务建设上用AI赋能知识,可以更好地运用企业已有的文档数据建设新型文档知识库,这样的文档知识库不仅满足基于文档数据形成知识图谱,而是基于形成的知识图谱进行预测与推理,即通过AI技术赋能知识,使之从知识成为智慧,从而更好地提高企业决策水平,促进企业决策科学高效。
企业文档知识库与AI资源池融合共建,拓宽了知识库与智能技术的服务形式,企业文档知识库从此前的静态、被动的知识服务转向动态、主动的知识服务,以决策需求为中心,从需求倒推,通过决策偏好分析和用户建模等方式主动挖掘和预测决策需求。从内容角度而言,要求按照特定的决策领域来组织和实施服务,如在核电主业务、行政人事、外部事物等多维场景下,都能保证知识服务的内容满足决策需要,避免“南辕北辙”的问题出现;从用户角度而言,可针对用户的角色、职能的不同提供特定的知识服务及决策方向,在企业整个动态组织架构下维持动态的、个性化的决策体系,从而满足不同层级人员的工作需要;从过程角度而言,则需要针对特定的企业决策过程提供知识服务,保障在整个决策流程中不断发掘需求,提供全程可靠的全流程知识服务。
企业数智化转型是近年来热门话题,企业成功的数智化转型将引导企业走向更高层次的智慧化赋能,为企业带来巨大收益,而企业文档知识库与AI资源池的融合共建能够更好地推动企业数智转型升级。对企业来说,数智化转型即企业数字化、智慧化,传统知识库的建立,将企业的纸质文档或电子文档中的内容数据由整体转化为零散信息,并经过加工形成信息知识库,这实现的是企业数智化转型的第一步即数字化转型,而要实现接下来的智慧化,必须要引导企业在长时间中处于一个认知、学习、适应、接受的过程,而这个过程恰恰需要企业通过AI技术建立高效能的文档知识库,运用知识库的信息结合AI技术进行学习、抽象、提取,通过各业务场景决策的推导、预测,不断将传统业务智能化,实现战略转型和业绩增长。