费建章 王甲甲 李可
摘 要:文章针对电力企业文档编制存在效率较低、准确性不足等问题,从不同角度深入分析了文档自动编制技术研究的必要性和重要性,结合电力系统的特点和公司经营需求,应用人工智能技术,实现电力文档的自动编制,不仅能减少重复性工作,提升公司的经营管理效率,也能面向社会推广,具有重大的经济和社会意义。
关键词:电力企业;机器学习;人工智能;文档编制
中图分类号:U231 文献标志码:A 文章编号:2095-2945(2020)34-0133-02
Abstract: Aiming at the problems of low efficiency and lack of accuracy in document compilation in electric power enterprises, this paper deeply analyzes the necessity and importance of automatic document compilation technology from different angles. Based on the characteristics of power system and the business needs of the company, the application of artificial intelligence technology can realize the automatic compilation of electric power documents, which can not only reduce repetitive work and improve the management efficiency of the company, but will also be popularized to the society. It is of great economic and social significance.
Keywords: electric power enterprise; machine learning; artificial intelligence; document compilation
1 背景
国家电网公司(以下简称“公司”)作为全球最大的公用事业企业,随着体量的不断增大,公司每年要处理海量的文档(如发文、收文、通知、会议管理等),但目前电力文档,例如OA系统中的公告、通知和请示,调度和运检业务中的工单票据,巡检业务中的巡检报告等,仍主要依赖个人经验撰写,大量重复性和主观性工作导致文档编制存在效率较低、准确性不足等问题。
近年来,随着机器学习算法的突破,人工智能技术引起了企业和政府的高度关注[1]。2017年7月,国务院印发《新一代人工智能发展规划》(国发[2017]35号),将人工智能提升到国家战略层面。8月,公司积极响应国务院号召,继续加大在人工智能领域的相关投入,形成《国家电网公司人工智能专项规划》。基于机器学习的新闻文档的自动写作已经有初步应用[2],如何结合电力系统特点和公司经营需求,应用人工智能技术,实现电力文档的自动编制,不仅能减少重复性工作,提升公司的经营管理效率,也能面向社会推广,提高公司核心竞争力,打造品牌效应[3]。
2 必要性分析
从目前公司所属各单位的研究、应用情况来看,文档编制过程中存在以下亟待解决的问题:
2.1 人工设计的模板无法满足种类繁多的文档需求
公司办公过程产生的海量文档往往是动态变化的,而非简单的关键词移植。人工设计的模板在种类繁多、版本迭代频繁的电力业务场景下,容易存在结构不规范或者内容冗余、遗漏、甚至错误的缺陷,从而对工作造成影响。
2.2 人工撰写效率低下,重复性工作较多
当前公司海量的文档大部分由工作人员来撰写,重复性工作较多,例如会议记录等编制工作量较大的文档仍需由员工手动编撰,缺乏语音转写等智能辅助手段。在人工智能相关技术快速发展的今天,传统的文档编制工作方式无法提高公司的办公效率,对公司达成建设智能化、现代化一流特大型央企的目标无法起到积极的作用。
2.3 缺乏智能化編制辅助手段,文档质量把控能力不足
在文档编制过程中,全程由人工进行操作,文档质量取决于业务人员的素质水平,缺乏智能化的格式检查、病句自动矫正、错别字预警等辅助编制手段,编写效率较低,文档无法做到标准化,文档质量把控能力不足。
3 研究内容
针对公司经营管理智能化面临的新需求与挑战,以电力文档智能编制为核心目标,从理论研究出发,攻克适应业务需求的智能文档自动编制关键技术,研发智能文档自动编制系统,并在实际业务场景中进行验证。
3.1 研究面向电力业务领域语料库构建方法,实现电力专业语料库的快速构建
通过研究知识点发现、句式库优化、词库优化、词语优化等多层级语料构建技术,建立电力文档语料库,为文档智能编制提供语料素材及编制约束规范。同时形成面向电力业务领域的语料选取规范、语料库组织规范,为后续语料库构的快速构建奠定良好的基础。
3.2 研究基于递归神经网络语言模型的电力文档模板生成技术,实现多类型文档模板的自动生成
通过研究基于深度学习和信息抽取技术,研究电力文档模板的自动生成技术与基于递归神经网络的文档语言关联技术,构建电力文档模板的生成算法模型,实现了公文、通知、公告、运检工单等多种类型文档的模板自动生成。
3.3 研究基于全序列深度神经网络的语音转写方法,实现多场景电力业务下会议、汇报的语音识别和转写
基于全序列深度神经网络,提出一种声学模型+口语化和篇章级语言模型的语音转写模型,基于收集到的电力相关的语音语料和文本语料,训练优化声学模型、语言模型,提高智能语音的识别率。
3.4 综合应用语义检索、理解、分析以及文本摘要技术,实现电力文档的自动组稿、撰稿
基于推理机制的语义理解分析模型、RNN语义检索模型以及文本摘要技术,构建知识本体网络和电力词库。对公文、工单文本数据进行充分理解,完成残缺意图关键语义抽取、语义理解和语义摘要,实现公文、工单票据和巡检报告等电力文档智能组稿和撰稿。
4 預期效果
本项目将语音识别和自然语言处理等人工智能技术引入公司电力文档编制业务中,构建电力行业语料库并自动进行文档模板生成,利用相关技术手段在文档编制业务中对采集的语音进行转写,同时对转写文本进行分析、理解和摘要等处理分析,实现电力文档智能组稿和撰稿,提高了公司的智能化水平。主要改善或提升体现在以下几个方面:
4.1 提高文档编制效率,节省工作时间
研究基于自然语言处理技术,针对公司在电力生产、企业经营管理中产生的各类文档数据,构建面向电力业务特性的文档语料库,并基于递归神经网络语言模型的文档语言关联技术,分析公司电力文档写作规范,自动生成相应的文档模板,减少重复性文档编写工作,提高文档编制的效率。
4.2 实现智能语音转写,提升办公效率
研究基于深度学习的语音转写技术,结合电力专业的语音数据构建语音语料库,实现电网在会议、汇报等不同业务场景下的语音转写功能,提升电力文档记录的准确性和业务流程中文档处理的效率。
4.3 实现文档自动编写,降低工作复杂性
研究基于深度学习技术的语义理解、检索、分析技术,实现公文、工单票据及巡检报告等类型的电力文档自动组稿和撰稿,减少重复性文字编写及格式合规审查工作,降低电力文档撰写的复杂性。
5 结束语
本项目开展基于机器学习的智能文档自动编制关键技术研究,通过研究自然语言处理技术、基于深度神经网络的语音转写技术和智能化自动组稿和撰稿技术,研发智能文档自动编制系统,实现公文模板自动生成和高效标准化的公文自动编制,减少重复性文字编写工作,提高办公人员工作效率。
本项目相关研究成果一方面可直接应用于电力文档编写工作中,例如OA系统中的公告、通知和请示,调度和运检业务中的工单票据,巡检业务中的巡检报告等。另一方面,本项目成果可通过对模板库及语料库的扩展,适应不同行业领域的需求,可在政府、事业单位以及各类企业进行推广,对不同类型的文档进行自动编制,减少重复性工作,减轻工作人员工作量,提高办公效率。
参考文献:
[1]王晴.电力企业非结构化数据管理平台的研究与设计[D].吉林:吉林大学软件学院,2016:1-66.
[2]高发琪,陈永生.城轨交通运行图自动编制及优化系统的研究[J].微型机与应用,2012,15:3-5.
[3]买哈铺热提·外力,赵梦原,艾斯卡尔·艾木都拉.基于关键词的维吾尔单文档自动文摘技术研究[J].计算机工程与应用,2015,51(16):130-135.