王慧芳 曹靖等
随着智能电网建设的全面展开,以及电力信息通信与电网企业经营管理的深度融合,电力数据出现爆发性增长。这些数据中隐藏着丰富的关系到电网安全稳定经济运行的信息,因而成为电网企业宝贵的数据资产。
电力数据挖掘是智能电网的前提
电力大数据虽已成为当前热点研究对象,然而每年只有少量的数据被挖掘利用,因此电力数据挖掘是智能电网发展迫切需要研究的前沿领域。电网企业是资产密集型企业,电力设备健康状态管理是其核心任务,利用大数据进行科学管理是必然趋势。
然而业界普遍认为,电网数据存在体量大、类型多、价值密度低和变化快的特点,较难利用。其中,数据价值密度低,是指绝大部分数据是电网正常数据,只有极少量的异常数据。数据的严重偏斜影响基于机器学习、深度学习等人工智能方法的挖掘效果。幸运的是,电力数据类型众多,其中文本数据,因“重要的事情常常被记录”而具有价值密度高的特点,挖掘前景好,因此电力文本挖掘是电力设备健康管理重点关注的关键技术之一。
当前自然语言处理、人工智能等技术的快速发展,为电力文本挖掘提供了良好的技术基础;同时电网企业已积累了大量与电力设备健康相关的文本,如缺陷、消缺等短文本,以及试验、故障分析报告等长文本,具备了文本挖掘的数据条件。
此外,电网企业已建立了诸多与设备健康相关的标准,如分别针对输变电设备和配电网设备的缺陷分类标准、设备状态评价导则、状态检修试验规程等,为文本挖掘的应用提供了参照与规则支持。因而,电力文本挖掘的条件已具备,且发展前景广阔。
然而,由于现阶段知识和技术层面上的匮乏,文本挖掘技术在国内电力行业还属于新兴的前沿领域,大部分研究还处于探究试验阶段,应用效益尚未显现。与互联网、医学等行业取得的成就相比,电力行业的文本挖掘研究还有待加强。
为此,基于电力文本挖掘领域已做的前期探索,本文归纳了电力文本数据挖掘的关键技术和典型应用,分析了这一领域面临的挑战。首先介绍文本挖掘技术的发展历程,指出文本挖掘技术的难点;接着重点分析电力文本数据挖掘关键技术及研究现状;然后介绍文本挖掘技术在电力缺陷文本中的典型应用;最后,提出电力文本挖掘面临的挑战。
电力文本数据挖掘的关键技术
文本挖掘技术发展过程
文本挖掘的概念最早出现在20世纪80年代中期,它集成了自然语言处理和数据挖掘的部分技术与理念,至今已有30多年的历史。早期,文本挖掘的科学性一度受到质疑和诟病,但随着文本挖掘技术的进步和发展,其应用逐渐得到认可,并成为研究热点。
狭义上,文本挖掘是指从大量文本数据中提取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息、解决问题;广义上,文本挖掘既包括文本知识抽取,也包括面向各种应用的文本数据处理过程。
目前,理论研究方面,文本挖掘的主要研究方向有文本结构分析、文本语义分析、文本摘要、文本关联分析等;应用研究方面,在社科情报和生物医学领域的研究成果较多。在社科情报领域,文本挖掘被用于微博热点话题监测、情感分析、用户评论语义分析、垃圾邮件分类等。在生物医学领域,有基于文本挖掘提取领域知识、通过挖掘事件记录发现突发事件与医学救援装备之间的关联等研究。
文本挖掘技术难点
文本数据属于自然语言,其挖掘涉及语言学、数学、计算机科学、信息学、心理科学、认知科学以及应用领域等众多学科。
从技术角度看,文本挖掘存在数据和方法两方面困难。数据方面,文本属于非结构化数据,无确定形式并且缺乏机器可理解的语义,需要转化为结构化数据才能被进一步挖掘;同时,文本属于自然语言范畴,容易出现模糊性和歧义性,准确理解和使用难度大;此外,文本采用的语言不同,挖掘技术就难以简单地移植。方法方面,虽然现有的文本挖掘方法已能解决一部分问题,但依然存在效果欠佳问题,例如搜索引擎还无法根据输入文本返回精准答案;还有很多文本挖掘问题尚无有效解决方法。
从应用角度看,通用的文本挖掘方法运用于专业领域时,常会出现各种各样的问题,因此专业领域的文本挖掘需考虑通用挖掘方法的适应性。此外,只有引入应用领域的专业知识,文本挖掘才更具有针对性与准确性,因此需要结合应用领域的专业特点去探索解决文本挖掘问题的方法。 电力文本数据
挖掘关键技术
电力文本预处理技术
非结构化的电力文本数据需要先进行文本预处理以及文本表示,才能转化为结构化数据进行挖掘。文本预处理通常包括文本分词、词性标注与去停用词等。电力文本预处理还需要构建电力领域本体字典。
电力本体字典的构建是指将电力词汇分别按照同义、近义、反义、上下位、整体-部分等本体关系进行组织,并存储在数据库中以供查询、调用。构建电力本体字典前,首先要构建电力文本语料库,如选择各类电力设备的缺陷、消缺、检修、试验等记录或报告,也可以选择企业颁布的与电力设备相关的导则、标准,还有电力企业的各种工单、工作票、操作票等;然后结合已有的外部通用字典,采用基于统计的分词模型,如采用基于隐马尔科夫模型、条件随机场模型等,对语料库进行分词,并基于词频对分词结果进行排序;最后依靠具有电力领域专业知识的人员对专业术语、通俗用语、名词堆砌的词串和短语词汇等进行修正,并按照同义词集、整体-部分关系、实体-属性关系等构建本体字典。需说明的是,本体字典的构建不会是一次完成,而是随着新语料库的增加,会有补充或修订。电力本体字典的构建是必须的基础工作,其质量关系着后续电力文本挖掘的科学性。文本分词技术可分为3类:基于本体字典的分词技术、基于统计规律的无字典分词技术以及二者的结合。本体字典的建立可以大大提高分词的准确性与停用词的识别效果。基于统计规律的无字典分词技术虽可以减轻建立字典的负担,但准确性难以保证,分词后需进行词性标注。词性既可以是名词、动词等,也可以根据挖掘需求自行定义,例如文献中的大部件、小部件、属性、程度,以及文献中的实体、缺陷现象、定性缺陷程度、定量缺陷程度等。词性标注的本质是分类问题。将电力文本切分为一个个词汇后,除了有用的电力词汇,还会出现人名、地名、符号等停用词,可根据实际挖掘需求去除待处理文本中的停用词。
电力文本表示方法
文本表示方法是指将文本数据表示成计算机可处理的形式,表示方式将直接影响后续数据挖掘的效率和效果。表示方法有很多,如向量空间模型、嵌入式向量模型等向量化表示方法,以及语义框架模型、树/图结构模型、正则表达法等等。向量空间模型用于快速提取句子的整体含義,而对句子中词汇顺序不是很关注;而嵌入式向量模型用于需要突出某一个或几个词汇含义或顺序的文本。常见的向量化方法有词袋方法与Word2Vec方法。词袋方法基于向量空间模型,简单通俗,但向量维度高,而且词向量忽略了句法;Word2Vec方法基于神经网络训练得到,属于嵌入式向量模型,词向量维度低,而且由于训练时考虑了上下文,不同词之间具有同义、近义、反义等语义信息,可通过计算向量相似度衡量。Doc2Vec是Word2Vec的拓展,用类似的方法将句子向量化,优点在于可以提取句子主旨。