基于BERT信息抽取的电力客服知识图谱构建方法

2021-12-31 01:20国网河南信通公司张向聪王冰洁何军霞
电力设备管理 2021年13期
关键词:客服双向图谱

国网河南信通公司 张向聪 王 浩 王 磊 王冰洁 何军霞

随着智能电网的快速发展,在电力行业,人工智能正快速地与电网领域相结合,信息通信技术迅速集成到电网的生产和企业管理中。信息通信系统是支持生产和管理开发的智能网格的“中心神经”。在信息通信方面,电力管理客服中存在着很多系统,对每个系统问答知识匹配时,需要收集足够多的问题以及对知识内容的存储,传统的关系型数据库可以支撑问答系统,但是在存储复杂的关系网络时,关系型数据库就表现得不如知识图谱有效。之所以选择知识图谱,是因为人们在逻辑上通常很自然使用类似图的结构来模拟或描述它们的特定问题域。知识图谱最有效、最直观地表达出实体间、问答间的关系。本次研究将提供一种基于BERT+BiLSTM+CRF[1]模型,从原始的操作手册中抽取实体、实体关系以及问答对,构建电力客服知识图谱[2]。

1 相关理论技术与研究

Bert(Bidirectional Encoder Representation from Transformers)[3]是一个预训练模型。传统的语言模型是把单向语言模型或者是把两个独立的语言模型在浅层进行一个拼接的方法进行预训练,他强调的并不是这种传统的语言,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。Bert 论文发表时提及在11个自然语言处理任务中获得到的新结果,比以往的模型表现的都要好,令人惊讶。

模型的介绍以及优点如下:采用MLM 对双向的Transformers 进行预训练,以生成深层的双向语言表征;进行完预训练之后,再叠加一个输出层,进行fine-tune 操作,这样就可以在不同的下游任务当中提取到它的state-of-the-art 表现。有一个好处就是在这整个的一个过程当中,不需要对模型的特定结构进行修改。

条件随机场(Conditional Random Fields)[4]是一个判别式模型。在条件随机场当中,有很多的特征函数,正是因为这些特征函数才使得序列进行了约束,得到一个条件概率,最后进行标注。比如在词性标注任务当中,如果名词后面还是名词的话就是负分,在副词后面是动词的话就是正分等。

影视领域问答系统:利用知识图谱的关系表达属性,将收集的数据可以更加“拟人化”的存储起来,再利用NLP 意图识别的技术,可以很好地对电影、演员进行相关问答;知识图谱推荐系统:通过知识图谱的以扩展性以及本体连接性,将人物信息以本体形式存储,将人与人之间、人与事物之间紧密联系,可以实现相互信息的推荐与推理。

2 电力服务数据处理及BERT+BiLSTM+CRF 信息抽取

随着计算机和互联网的发展,我们已经从工业时代进入信息时代。人工智能的时代已经到来,知识图谱是信息时代通用的深化应用和扩展。本次针对的是一体化线损管理系统,主要处理的数据是业务系统的操作手册说明书,对于一般用户问的问题基本上能查找到,但是如果本身不是业务人员,面对一系列的操作手册,也会无从下手,不知如何精确找到相关答案。针对这类问题,是将操作手册数据梳理成知识图谱数据,配合意图识别[5],就可以实现问答系统,实现用户即使不是业务人员,也可以自己解决80%甚至更多的问题。

从电力知识获取到图谱构建整体流程如下:获取电力系统中的一体化线损管理系统所有操作手册,构建原始文档库;抽取操作手册word 文档数据,梳理成初步结构化数据,存储至Excel 中;对一体化线损管理系统初步知识数据进行标注;基于BERT 模型,微调进行训练,实现一体化线损管理系统结构化文档数据的语义特征提取;基于BiLSTM+CRF 模型对语义特征进行实体识别,提取知识概念以及相互联系,构建知识图谱。

对Bert 进行fine-tune,在输出层后叠加CRF层,这样做的好处就是在这整个的过程当中,不需要对模型的特定结构进行修改。

输入层:将句子输入到模型中;数据预处理:将每个单词映射到一个更高维度的空间,即字词向量表征;Bert 层:bert 的主要框架是Transformer,使用的是一个双向模型,所以可以更好地获取到文本中的上下文关系,使用此模型来替代嵌入层;BiLSTM层:使用双向LSTM 计算嵌入向量实际上是双向LSTM 计算单词向量,从而获得更高级句子的向量。

CRF 层:CRF 通俗来说就是对结果的合理性进行过滤,因为标签本身是存在一些约束的,比如在词性标注时,名词后面不能接名词,CRF 就是用来添加类似这样的约束,并且在训练CEF 时可以自动学习这样的约束。通过这一层,可以过滤掉一些不合理的结果,从而增加整体模型的准确率;输出层:将上一层输出的特征输入到Softmax 层,就是对所有的预测类别进行打分,挑选其中最大的一个作为预测结果。

3 电力知识图谱的构建与应用

构建知识图谱的第一步,就是选择知识图谱的schema[6],不同schema 的知识图谱对应解决不同的问题,由于是电力服务问答方面的数据,本身没有很大的复杂性,所以我们采用三元组的形式将数据领域、关键字、问题、答案串联起来。针对数据,主要的还是从中挑选哪些作为本体存储,哪些作为属性存储。本体指的是某个领域内抽象概念的集合,它可以描述某个范围内一切事物的共有特征以及事物间的关系。将数据按上所说形式生成CSV 文件,这样可以更快地导入neo4j 图数据库中。对领域、关键字、问题、答案使用CSV 导入语句,将数据按照不同联系统一导入neo4j 图数据库中。

知识图谱构建成功后就可设计应用层面,本次构建的是关于一体化线损管理系统中的客服数据,所以此次图谱设计的schema 主要是针对知识问答。知识问答又涉及到另一个模型了,就是意图识别模型,在这里不做延伸,提供一个知识问答的构建思路。先要介绍一下Flask,因为在知识问答系统中,用它来和前后端传输数据,Flask 是由python 开发的轻量的web 框架,小巧,灵活,一个脚本就可以启动一个web 项目,开发的难度比较大,flask 好多的模块是按照django 的思路开发的。

知识问答的构建,首先是对实体识别、意图识别两个模型进行封装,在调用模型时就更加方便,并且可以加快模型运算速速(模型只加载一次);然后是要对不同的意图编写不同的neo4j 查询语句,这样就可以对模型输出的数据进行实时的查询返回真实的数据;最后使用flask 将以上两者整合,实现API 接口对传进来的数据返回对应的查询值。

4 结语

随着信息化的进展,电力服务数据慢慢地积累了下来。通过构建电力服务[7]领域的知识图谱,可以从庞大的数据中提取客服知识,并合理有效地管理、共享和应用,这对于今天以及未来的电力服务行业非常重要,对很多企业和研究机构来说也是研究的热点。从知识图谱的构建和应用的角度来看,本文实现了一体化线损管理系统知识图谱的创建和应用。电力服务知识图谱通过结合图谱和客服知识,切实促进电力数据的自动化和智能处理,为电力行业带来新的发展机会。知识图谱很有发展前景,现在在社会中的很多领域都慢慢和人工智能联系起来。在如今这个计算机、网络、大数据、人工智能、机器学习等前沿科技迅速发展的大潮流下,相信知识图谱的研究可以有更多的创新和突破!

猜你喜欢
客服双向图谱
双向度的成长与自我实现
降低寄递成本需双向发力
绘一张成长图谱
语音推销
敬业的客服
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
一种软开关的交错并联Buck/Boost双向DC/DC变换器
一种工作频率可变的双向DC-DC变换器
基于广东“一张网”对内客服模式的探讨