刘慧琳 刘敬仪 黄健
摘要:企业文档资源不断丰富,对企业档案部门的工作提出了新的挑战,然而,目前的传统文档利用方式较为简单,文档中蕴含的知识资源无法给企业的发展带来实际效益。基于此,文章提出基于知识库的企业文档智能服务模式,通过知识库实现从文献传递到知识服务的转型,为企业档案部门进行知识服务提供帮助。具体步骤包括原始文件到知识单元的转化、知识单元关联形成知识图谱、知识图谱应用实现知识问答,以及最终不同形式的文档智能服务。
关键词:智能服务 智能技术 知识服务 知识库 企业文档
Abstract: The continuous enrichment of corpo? rate document resources poses new challenges to the work of corporate archives departments. Howev? er, the current use of traditional documents is rela? tively simple, and the knowledge resources con? tained in the documents cannot bring actual benefits to the development of the enterprise. Based on this, the article proposes a knowledge- based enterprise document intelligent service model. Through the knowledge base, the transformation from document delivery to knowledge service is realized, which helps the enterprise archives department to carry out knowledge service.The specific steps include: the conversion of original documents to knowledge units, the association of knowledge units to form a knowledgegraph,theapplicationofknowledge graphs to implement knowledge questions and an? swers, and different forms of document intelligent services.
Keywords: Intelligent service; Intelligent technol? ogy; Knowledge service; Knowledge base; Enterprise document
文档是企业知识的重要体现,结构化与非结构化的各类企业文档量不断攀升,大量的数据给企业文档管理工作带来新挑战,同时技术在企业文档管理中的运用也带来了新机遇。传统的企业文档服务无法满足用户日益增长的知识需求,如何用技术改善文档利用现状、满足用户知识需求成为企业文档管理工作的重要问题,知识库为此提供了解决方案。
知识库以各类档案资源为对象,细化文档粒度,实现知识关联,进行内容可视化,借助计算机技术完成档案知识获取、知识表示及知识应用等实际任务,提供面向用户的档案知识服务。档案部门构建档案知识库为档案用户提供档案知识服务不仅有助于深化对档案信息资源的开发与利用,而且是档案部门实现自身转型、获得社会地位和影响力的必然选择和趋势[1]。为了帮助企业档案部门更好地完成工作发挥作用,文章提出一种基于知识库的企业文档智能服务模式。
企业文档是对企业文件、档案的统称,它是企业生产、经营活动的真实历史记录,凝聚着企业管理、专业研究、业务状况等各方面的经验。相较于传统企业、事业单位中的一般文档管理,目前中国的核电企业中文档管理工作的地位更加重要与突出[2],因此选取核电行业部分企业的公司文档作为样本进行分析,得出表1所示企业文档的主要类型。
企业文档智能服务不仅是企业文档部门的关注點,也是图情档领域学者的研究内容之一。有学者认为知识服务模式是由众多要素综合而成的[3];张淑雅、杜恩龙[4]提出知识检索平台、知识学习平台、知识问答平台以及知识订阅平台四种模式的知识服务;郑慧萍[5]、李超[6]提出参考咨询服务、网络型服务、集成化服务、个性化服务以及用户自助服务的知识服务模式。针对文档而言,裘丽[7]认为后保管时代的档案知识服务模式应有用户自助服务、个性化定制服务以及个人数字档案馆等。关于文档知识服务的研究,较早见于政府文件,例如,刘宇[8]分别从以政府为主导和以龙头企业为主导的方向介绍了知识服务的模式;牛力、王为久[9]等提出面向政府决策的档案知识服务旨在充分发掘出档案的价值,为政府决策提供全面支持。
信息技术的飞速发展、管理阶段的不断更新、档案人员的自身诉求[10]为文档管理与服务模式带来新的思考与可能。新的技术能够解析文档资源中的语义知识并可视化知识之间的关联关系,打破以往企业文档服务的粗粒度组织模式,实现以知识为导向的企业文档智能服务。根据文献调研和企业生产活动中的实践,发现信息时代下企业文档服务的需求表现出多元化与个性化、全面性和有效性等特点,结合需求特点和知识服务的思想,本文认为企业文档智能服务是以智能技术为中介、企业文档为基础,向用户提供知识的一种高级服务,与单纯梳理及论证知识服务的概念不同,本研究重在探讨一种以知识库为核心、依靠智能技术提供知识服务的方式方法。
企业文档智能服务是企业文化适应知识经济发展的需求而产生的,是企业文化管理和核心技术管理纵深发展的结果,是伴随着企业对资源认识的不断深化、智能技术的不断推广以及企业自身管理能力的不断提高而发展起来的。
(一)知识库:从文献传递到知识服务
传统的文档服务常采用文献传递等方式,这种方式以物理文件的粒度为单元进行查找,查询结果限制在个体文档层面,只能提供文献级别的服务,很难反馈资源之间的关联。然而,用户真正需求通常是分散在不同文献中的知识片段,文献传递造成知识孤岛等问题,用户获取的知识内容不够深入,文档蕴含的知识价值发挥不完全。知识库运用科学的方法对不同来源、不同层次、不同结构、不同内容的知识进行综合和集成,使单一知识、零散知识、新旧知识、显性知识和隐性知识经过整合形成新的知识体系。知识库不再是简单的文献存储数据库,而是深入文献内容的知识单元、知识关联等的集合,是从文献传递到知识服务的重要支撑。信息时代下档案等文化富集性资源需要进行知识服务的转型,来更好地胜任辅助决策的智库角色。以知识库为核心的新型档案服务平台建设与发展比以往任何时刻都更为重要[11],其构建需要以技术、管理和内容为重点支撑,这要求档案管理主体必须根据信息资源的知识属性特征[12],应用各种手段对其进行编研。针对企业文档构建知识库的实质是对企业文档知识进行管理,将“文档库”提升为“知识库”,可以从信息集聚地提升为知识集聚地,最终使文档的内容转变为一种知识资产,使企业的核心文档在收集、加工、存储、传递和应用的流转过程中不断增值。
(二)模式框架:知识发现、组织、可视与服务
依托知识库,企业文档对于计算机不再是一串串没有意义的字符,而是互联互通、有重点、可理解的数据网。企业文档智能服务能够借助从数字技术到智能技术的一系列技术手段,完成知识发现、知识组织、知识可视、知识服务等工作,实现从物理文件到电子文件,再到知识单元和知识图谱,最后成为面向用户的知识问答的系列转型,具体如图1所示。
具体而言,诸如文件扫描、构建信息系统等简单的数字技术在很多大型企业中已经得到非常成熟的应用,在此基础上加入OCR、NLP、对象检测、关系抽取等初步智能技术,可以将传统的物理文件转化为计算机存储格式的、能够直接在数字环境中加工处理的、带有关键词标识的电子文件,这一过程可以称之为“知识发现”的过程。知识发现主要是让计算机发现并存储文件的关键知识,但此时的数据只是被OCR识别的文件,或被NLP标记后的关键词,或被对象检测出的目标图片等,这些离散的数据点如何关联还有待进一步加工,需要借助诸如知识聚合、相似度计算、关联数据等知识组织方面的智能技术。知识组织后电子文件就不再是离散存储的一个个单独文档,而是相互关联的知识单元,经过可视化技术可以呈现为知识图谱或其他形式的图表。知识图谱的效果可以为我们提供有益参考,但这种参考更多是数据分析方面,最终还需要转化为面向用户的文档智能服务。文档智能服务的实现需要考虑不同的应用场景、不同的用户需求,以及不同的问题种类,面对不同情况有针对性地采取不同的知识服务方式。
技术手段的运用是决定企业文档智能服务与传统的参考咨询服务及信息检索服务不同的最关键要素。在知识发现与知识组织阶段,用命名实体识别、人脸识别对文字、图片进行标注,其速度、准确性、全面性相比过去的人工标注都能获得提升;用知识图谱、图数据库对数据信息进行存储和可视,其规范程度、关联程度等都有一定程度的进步;用更加智能的问答、推荐等方式呈现文档知识,其友好性、共享性大大加强。
总体而言,从物理文件到电子文件的基础转换,再到知识单元和知识图谱的关键过程,最后呈现多样化的预期效果这一方式方法,共同构成了企业文档智能服务的核心框架,其中涉及众多集成在知识库中的数字技术和智能技术。
技术环境变迁直接导致了档案管理对象及其管理空间的变化,有学者[13]认为至少可以分三类技术环境,即传统的模拟技术环境、基于数字信号的数字技术环境和以数据驱动为核心特征的数据环境(新技术环境),分别简称为模拟态、数字态和数据态档案对象管理空间。新技术环境下,信息的处理由相对冗余和庞杂的文件粒度开始降维到更容易解析和处理的知识单元粒度,越来越多的智能技术广泛应用到知识服务中并发挥起重要作用来。
(一)企业文档内容的知识发现
以企业文档为研究对象的知识发现主要用到的智能技术包括实体识别、对象检测、关系抽取等。企业文档中的实体不同于传统档案中的命名实体,诸如人名、地名等,对于企业业务而言也非主要数据,而部门、岗位、业务、产品等专有名词则是企业生产活动中更关心的问题。对象检测是指利用图像处理与模式识别等方法,检测出目标对象并标定其位置。企业的大量知识内容凝聚在各类文档的图表中,且圖表在很多情况下比文字更易被用户关注,因此借助对象检测的方式把企业文档中以“.pdf”“.tiff”“.jpg”“.jpeg”等形式存在的图表知识专门“挖”出来能够补充和完善企业文档知识库。关系抽取是指抽取实体间语义关系的任务,实体间的关系可被形式化描述为关系三元组
(二)智能技术推动的知识组织
智能技术推动了以本体、语义网与知识图谱为代表的新型知识组织方式,这种组织方式以结构化形式将现实世界的事物及关系予以表示并存储,再通过结合实体识别、关系解析等信息自动理解过程,实现知识关联推理,预测可能存在的隐性知识或未来趋势。知识图谱在本质上就是一种语义网络(Semantic network)的知识库,即一种基于图的数据结构,这种组织方式对于用户的搜索请求不再局限于传统的关键词检索,而是通过分析用户的查询意图对问题进行理解,在知识图谱上推理、匹配和查询以获取更加简洁而准确的答案。利用语义网和知识图谱技术可以实现文档知识的细粒度挖掘,从篇章级文档数据内容转变为三元组知识单元级知识内涵,通过各种关联关系形成企业智慧大脑。
(三)智能化的知识可视及服务
可视化分析是一种高效的数据分析方法,可以清晰直观、用户友好地展现文本特征规律,是知识服务当中重要的技术设施之一,基于可视化技术分析文本背后蕴藏的隐性知识,发现个体单元、文献单元或知识单元之间的相关性,能够拓宽文本分析的深度和广度。知识服务顺应时代要求向自动化转变,积极利用机器学习技术可以提高文本分类、实体消歧、关键词标引、主体演化分析、用户情感分析等各环节的工作效率和质量。早期学者们多采用基于規则的工程化方法,现在多将规则和机器学习结合起来,通过机器学习挖掘海量数据的显隐性特征,利用专业知识规则改进机器学习模型、辅助数据预处理或后验矫正。深度学习技术近两年也取得了巨大的进步,模型的强大特征和语义理解能力为知识服务带来新的变革与成效,促进了学科知识服务、知识分享与学术交流。
知识分为隐性知识和显性知识[14],用户能够进行明确提问的属于显性知识需求,还有没有形成具体问题、甚至用户本身还没有意识到问题,但存在并且用户也有偏好去寻求答案的需求属于隐性知识需求。企业智能文档服务不仅优化对于显性知识需求的满足程度,也能进一步发现和匹配用户的隐性知识需求,从多方面提升服务质量,改善用户体验。
(一)面向显性知识需求的智能服务
显性知识需求可以由检索反馈或智能问答等智能服务方式进行满足。常用的搜索服务是基于字符匹配,而基于知识库的高级检索服务模式是通过对用户问题的关键词进行选取,将用户的检索词上升到基于实体和关系的检索上,找到对应实体或概念,利用知识单元之间的概念层次结构展开分析和知识推理的操作,搜索出满足客户需求的知识内容。例如,用户输入发电机,可以根据系统知识库中存储的企业文档反馈出发电机氢气冷却系统、柴油发电机工艺水系统、汽轮发电机等内容,相较传统的字符匹配,在语义上具有更好的全面性。
此外近年来有很多智能问答式产品的成功引起了大家对于问答技术应用的关注,例如,亚马逊率先推出智能语音音响,用户可以在任何空间和时间与智能硬件进行对话,基于底层知识库回答用户在开放领域和封闭领域的问题。企业智能问答服务可以借鉴这些已有通用问答系统的技术基础,再结合企业具体的业务场景,捕捉一些特有的关键词,从而创新文档知识服务模式,优化企业文档知识服务内容。
(二)面向隐性知识需求的智能服务
隐性知识需求可以通过个性化服务、专业化定制、智能化导航等智能服务方式进行满足。个性化服务致力于理解用户背景和用户兴趣,构建向用户进行精准推荐所需要的知识库,帮助其筛选信息、发现可用知识,从而提高用户从海量信息中获取有用知识的效率。根据用户信息可以构建用户画像,用户信息一般包括用户的基础信息,如年龄、地域、职业、学历、偏好等,以及用户产出的行为数据,如浏览、收藏、评论等。抽取这些信息再进行数据融合,可以准确定位用户特征,发现用户潜在需求。个性化推荐能加强文档知识被接受的概率,有利于企业文档价值的发挥和体现,还可以解决部分用户没有表达出来的潜在需求,缓解一些用户在系统使用上的学习负担。
专业化定制可以关联文档中一些存在隐性关系的知识资源,例如当企业用户的知识需求不是单份固定的文档,而是关于业务解决方案、业务活动经验等相关知识的合集时,借助知识库可以将知识内容整合分析,有效集成企业文档中的知识资源,使物理分散的知识内容整合在一起,从而得出战略性知识。借助知识地图的直观呈现,可将企业文档中蕴含的相关知识资源的分布位置全部呈现,用户可以快速遍历相关内容,从一个节点跳转到另一个节点进行浏览和知识获取,同时获取多个维度的知识内容。
智能化导航是结合知识库和用户画像动态更新导航系统的知识服务方式。信息时代,数据呈现爆炸式增长的态势,广泛的数据来源、多样的数据形式、高速的数据产生速度在为知识服务提供便利的同时也带来了新的挑战,建设能够支撑大体量信息存储分析的智能化知识导航系统,对知识资源进行科学合理分类是提供高效知识服务的基础。搭建可以智能导航的搜索引擎,呈现量身定做的导航栏,可以更好地展示各类特色资源。
以基于知识库的企业文档智能服务模式研究为目的,本文首先对企业文档服务的现状进行了调研,其次借鉴知识库、知识图谱方面的理论和模型提出了企业文档智能服务的核心框架。具体分析模式内容和模式效用后,研究认为基于知识库从企业原始文件到知识单元、再到知识图谱、知识问答的组织模式能够较好地发现和利用企业文档中蕴含的知识,基于知识图谱完成的知识问答能够提高用户主导和企业文档持有方主导的不同知识服务效果。整体模式的应用能够提高企业文档的管理水平,进一步落实企业文档工作对智能技术的应用和推广,推动企业文档的智能服务进程。
*本文系国家档案局科技项目“核电文档AI中台建设研究”(项目编号:2020-X-044)的研究成果之一。
注释及参考文献:
[1]张斌,郝琦,魏扣.基于档案知识库的档案知识服务研究[J].档案学通讯,2016(3):51-58.
[2]韩季红.核电文档管理的地位与特点研究[J].北京档案,2010(5):33-34.
[3]古志文,陈春,吴新年.支撑企业技术创新的知识服务模式研究:知识服务与信息服务融合发展的视角[J].科技进步与对策,2014,31(7):131-135.
[4]张淑雅,杜恩龙.关于出版企业知识服务模式的思考[J].出版广角,2017(14):13-15.
[5]郑慧萍.数字档案馆知识服务模式探究[J].兰台内外,2009(2):19.
[6]李超,徐震.档案知识服务研究[J].山东档案,2009(1):23-25.
[7]裘丽.后保管时代下构建档案知识服务模式探索[J].云南档案,2015(9):52-55.
[8]刘晓妮,刘宇.产业集群内知识服务模式研究[J].情报理论与实践,2013,36(1):25-28.
[9]牛力,王为久,黄蕊,等.面向政府决策的档案知识库构建研究[J].档案学通讯,2015(4):56-60.
[10]郝琦,魏扣.档案内容管理及其对现代档案工作的启示[J].北京档案,2016(5):17-20.
[11]牛力,高晨翔,韩小汀.模式与机制:知识工程视点下的档案知识服务研究[J].档案学研究,2021(2):96-103.
[12]田兵兵.从知识管理出发创新档案信息资源管理策略[J].北京档案,2021(5):36-38.
[13]钱毅.技术变迁环境下档案对象管理空间演化初探[J].档案学通讯,2018(2):10-14.
[14] NONAKA I.A Dynamic Theory of Organization? al Knowledge Creation[J]. Organization Science, 1994,5(1):14-37.
作者单位:1.中国人民大学信息资源管理学院2.福建福清核电有限公司信息文档处