基于知识图谱的企业办公文档管理方法

2022-11-22 02:23李济伟艾永琦夏磊
中国科技纵横 2022年19期
关键词:结构化层级文档

李济伟 艾永琦 夏磊

(国家电网有限公司信息通信分公司,北京 100000)

0.引言

随着国家电网公司数字化转型工作的深入开展,公司内各级单位的线上办公渗透率逐年增加。在线上办公的过程中,产生了大量的非结构化文档数据,造成办公文档数据在跨部门协作、检索等过程中效率偏低[1-2]。同时,非结构化文档数据采用网络附属存储(Network Attached Storage, NAS)文件传输协议(File Transfer Protocol,FTP)等方式为主[3-4],存在企业办公文档权限控制难度大,应用场景不能贴近生产等问题,因此,为了进一步保障办公文档的有序应用、安全可靠运行,亟需结合电网企业的办公场景,开展企业办公文档管理体系的建设研究。

国内外许多学者对企业办公管理做了大量的研究。文献[5]中,提出了一种一体化的企业办公管理方法,该方法通过企业办公文档的数据流向业务流转换,从而实现企业办公文档的统一管理。文献[6]中,提出了一种基于Python的企业办公文档管理方法,通过Rational模型建立了企业文档的系统架构和逻辑架构,采用文档数据库解决了大并发压力和企业办公文档流转监管问题。文献[7]中,提出了一种基于ISO15189质量标准的企业文档管理方法,通过文档标识码,实现了企业文档的全过程管理,对文件的唯一、规范和可追溯性进行了有效的管理。文献[8]中,提出了一种基于Spring和MyBatis (Spring+SpringMVC+MyBatis, SSM)框架的企业文档管理方法,通过对企业文档的收集、分类、存储、整理等属性的操作,实现了企业文档的有序管理。文献[9]中,提出了一种基于开放档案信息系统(Open Archival Information System,OAIS)的企业文档管理方法,实现了企业文档的长期可靠保存和有效应用。由此可见,企业文档管理方法多样。但上述方法缺少对文档的跨部门知识挖掘、多层级权限控制方面的应用。

为解决线上办公中存在的跨部门检索难的问题,提出了一种基于知识图谱的企业办公文档管理方法。该方法通过知识图谱技术挖掘了电网企业各部门和单位之间文档的关联规律,并通过业务场景与权限控制,实现了企业多层级、多部门的办公文档统一管理。

1.企业办公文档管理框架

文中所述的基于知识图谱的企业办公文档管理方法框架主要包括:建立企业文档目录架构、建立企业文档应用场景和建立企业文档权限架构三部分内容,如图1所示:

由图1可见,在建立企业文档目录架构环节,首先,采用知识图谱技术挖掘电网企业各部门之间的关联关系,获得电网企业各部门之间文档的核心结构;其次,对电网集团单位的上下级、平级单位之间的文档关系进行关联关系挖掘,展现其核心的文档结构;最后,利用可视化技术建立多层级的电网企业办公文档目录管理架构。在建立企业文档应用场景环节,首先,结合电网企业单位的业务管理流程,建立单位内部跨部门的文档应用场景。其次,结合电网企业上下级与平级单位间的业务流程,建立跨单位的文档应用场景。在建立电网企业文档权限架构环节,结合电网企业的组织架构和企业文档业务场景,进行访问权限管理;其次,对最终用户进行企业文档应用授权。

2.企业办公文档管理模型

2.1 建立企业文档目录架构

知识图谱技术是通过将企业内部不同的企业文档数据有机连接在一起形成的一个知识分享网络。知识图谱技术应用了信息的可视化技术、图像技术、信息科学的理论,采用了计量分析、共性挖掘分析等综合方法,并利用信息可视化技术展示企业文档数据关系。因此,文中采用知识图谱技术建立电网企业的文档目录架构。

2.1.1 部门关联关系数据挖掘

部门关联关系数据挖掘是一个企业内部各部门间的信息挖掘。电网企业中,包括了营销、生产、人资、工会、党建等各类文档数据。在部门关联关系数据挖掘中,包含了进行企业文档知识建模、企业文档知识获取、企业文档知识融合、企业文档数据存储和企业文档关联关系展现五部分。

(1) 企业文档知识建模。将电网企业营销、财务、人资、生产等各部门间的非结构化数据进行抽象描述并组织转换为可识别的电网企业数据类型。转换的数据Sa为:

(1)式中:na为单个电网企业中业务部门的数量;si为不同的电网企业业务部门的非结构化文档。

(2)企业文档知识获取。企业文档知识获取的目的是将电网企业营销、财务、人资、生产等各部门间的非结构化数据转换为知识图谱数据,转换后,将生成解析的电网企业文档的半结构化数据,并具有文档的标引和推理。

(3)企业文档知识融合。为确保电网企业部门关联关系数据的有用性,将电网企业营销、财务、人资、生产等各部门间的充分数据进行融合,消除冗余的数据集,减少模型算法的运算时间。

(4)企业文档知识存储。根据电网企业营销、财务、人资、生产等部门的非结构化数据集,提供便捷的数据存储空间,实现多样化的灵活非结构化电网企业数据的存储。

(5)企业文档关联关系展现。通过知识图谱的可视化技术,对电网企业各部门之间的非结构化数据之间的关联关系进行展示。

2.1.2 各级单位文档关系挖掘

在电网企业中,包含“国家级、省(市)级、地市级、县级和乡镇供电所”5个层级。在各级单位中,有上级单位向下级单位下发的通知、技术标准、制度文件等文档;有下级单位向上级单位的汇报文件等;有平级单位的交流文件等。文中所述方法中,采用知识图谱技术对各级单位之间的文档关系进行挖掘。

各级单位文档建模转换的数据Ka为:

(2)式中:nb为电网企业中各级单位的数量;ki为不同级别的电网企业的非结构化文档。

然后,对各级单位的非结构化数据进行跨单位知识获取、跨单位知识融合、跨单位知识存储和跨单位文档关联关系展现,形成各级单位间的非结构化数据架构。

2.1.3 多层级目录架构搭建

电网企业多层级目录架构搭建包括了横向企业办公文档目录搭建与纵向企业办公文档目录搭建。其中,横向企业办公文档目录搭建为单个电网企业的各部门的非结构化文档目录层级架构,纵向企业办公文档目录是国家级、省(市)级、地市级、县级和乡镇供电所5个层级的目录体系。同时,在多层级目录架构搭建的过程中考虑了电网企业大规模用户的并发使用需求以及弹性扩展需求。

2.2 建立企业应用场景

电网企业的办公文档应用场景包括跨部门的办公文档应用场景和跨单位的办公文档应用场景。在已构建知识图谱的电网企业多层级目录架构中,应用场景类型为在线共享协作、全局内容检索和文档安全管控3部分。

2.2.1 在线共享协作

在线共享协作是一种多层级人员在线共同维护一个文档的方式。在电网企业中,各部门之间通常采用人员信息收集、党员活动资料维护、疫情防控信息收集等信息采用在线共享写作方式进行。在各级单位之间,通常是某专业部门,以省(市)公司设备部、地市公司运检部、县公司运检部、供电所为例,省(市)公司下发电力设备数据填报信息单,地市公司运检部、县公司运检部、供电所分别按层级将信息填报在在线共享协作文档中。

通过在线共享协作可以实现横向跨部门、纵向跨单位的在线文档协作编辑,提高工作效率。

2.2.2 全局内容检索

全局内容检索是电网企业非结构化文档检索的核心部分内容。通过检索工具实现电网企业不同部门、不同层级单位之间的非结构化数据的查询。文中所提方法采用知识图谱技术,在电网企业范围内进行不受限制的非结构化数据收集。为提高检索速度,在知识图谱技术上内置文档快速标识,实现电网企业的全局内容高效检索。

2.2.3 文档安全管理

文档安全管理是针对电网企业横向各部门、纵向各层级单位之间的差异化企业非结构化文档安全的管理需求,通过加密机制实现文档的建立、修改、发布等电网企业文档全寿命周期的安全,实现电网企业中各部门、各层级单位之间的重要核心信息的流转安全,防止电网企业的核心信息泄密。

2.3 建立企业文档权限结构

在电网企业传统的非结构化办公文档流转的过程中,数据不涉及到权限管控,即便采用文档加水印的方法,但各部门、各级单位使用非结构化办公文档可以随意地复制、粘贴和修改,非结构化数据泄密的风险大。因此,需对电网企业非结构化文档实现权限管理。

超文本标记语言(Hyper Text Markup Language5,H5)是构建网页内容的计算机语言描述方式,是互联网的最新技术标准,被广泛地应用在电网企业的各类信息化系统中,因此,文中采用H5搭建电网企业权限管理体系。

文中方法采用知识图谱建立目录结构后,采用虚拟技术、电网企业员工身份认证技术和权限授权技术等,建立了电网企业办公文档的管理标准,实现对电网企业各类型的受控文档的精准权限控制,从根源防止电网企业员工在使用文档期间造成的核心数据泄密问题。

3.算例分析

3.1 场景与参数设定

为验证文中所提基于知识图谱的企业办公文档管理方法的有效性,在某单位进行仿真应用。文档管理方法部署在信通公司的信息机房。方法采用以容器的形式部署在信通公司的国网云平台中,实现微服务化管理。目前共分配96个CPU核心、192GB内存的计算资源,以及100TB的云存储资源。文中涉及的单位层级为四级,分别为省电力公司、地市供电公司、县供电公司和供电所。文中的部门数量,省电力公司的部门为28个,地市公司的部门为19个,县公司的部门为11个,供电所无单独设置部门,上下级单位的部门呈多对一形式。

文中用于与基于知识图谱的企业办公文档管理方法是开放档案企业办公文档管理方法,该方法在电网企业中广泛使用,具有电网办公文档行业的通用性。

3.2 算例运行分析

3.2.1 电网企业办公文档全局检索耗时

电网企业办公文档全局检索耗时是文中所提基于知识图谱的企业办公文档管理方法的核心指标。其计算方法为全局检索的开始时间与生成检索结果的时间之差。该时间越短,则说明全局检索的能力越强。为节约人工处理时间,文中方法采用表单代填机器人进行文件检索处理。

分别选择电力营销服务指标仿真数量为20000、25000、35000、45000、55000、65000、90000、100000个,采用文中所提基于知识图谱的企业办公文档管理方法与开放档案方法比较电网企业办公文档全局检索耗时,电网企业办公文档全局检索平均耗时比较结果如表1所示。

表1 电网企业办公文档全局检索平均耗时

由上表可见,文中所提基于知识图谱的企业办公文档管理方法平均电网企业办公文档全局检索耗时为0.14s,小于开放档案方法。由此可见,基于知识图谱的企业办公文档管理方法电网企业办公文档全局检索耗时更短。

3.2.2 电网企业办公文档协作率

电网企业办公文档协作率是衡量电网企业办公协作有效性的核心指标。该电网企业办公文档协作率的计算方法为,在线上统计的文档数和总体的文档数之比。该指标的取值范围为0~100%,值越大,则说明电网企业办公文档协作率越高。

选择2022年2月至8月期间,某省其中6个地市供电公司的企业办公文档应用数据进行分析,分别采用文中所提基于知识图谱的企业办公文档管理方法与开放档案方法比较电网企业办公文档协作率,其电网企业办公文档协作率如图2所示。

由图2可见,文中所提基于知识图谱的企业办公文档管理方法平均文档协作率为98.9%,比开放档案方法高57.3%。由此可见,文中所提基于知识图谱的企业办公文档管理方法文档协作率更高。

4.结语

为解决线上办公中存在的跨部门检索难的问题,提出了一种基于知识图谱的企业办公文档管理方法。通过了知识图谱技术挖掘电网企业横向各部门、纵向各层级单位之间的关联规律,形成了多层级的业务场景办公文档管理系统,并通过权限控制,避免了非结构化文件的泄密。

猜你喜欢
结构化层级文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
结构化面试方法在研究生复试中的应用
基于RI码计算的Word复制文档鉴别
任务期内多层级不完全修复件的可用度评估
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于图模型的通用半结构化数据检索