数据挖掘的电力信息分类及搜索技术分析

2021-07-29 14:04国网新疆电力有限公司信息通信公司王晓磊
电子世界 2021年13期
关键词:数据挖掘检索分类

国网新疆电力有限公司信息通信公司 尹 蕊 王晓磊 王 涛

面对当下变动越来越频繁的电力网络,社会生产与民众生活对与电力资源的需求也在不断地扩张,网络技术的快速发展促使信息资源量飞速提升,传统模式下对信息进行获取的方式已经难以满足现代化社会的发展需求。因此,相关工作人员应当积极的意识到给方面的不足,对电力信息分类以及搜索进行深入地分析,提升电力信息分类及搜索水平。

伴随着日益增多的信息资源,现阶段较为成熟的大型通用搜索引擎以及无法充分满足现代化电力信息分类与搜索的工作需求。因此,电力部门应当积极针对客户实际需要,制定电力人群以及制定电力领域电力信息分类搜索技术顺势而生,进而为人们提供特定价值的信息以及有关的电力服务。

1 数据挖掘

从不完全的、有噪声的、随机的、庞大的以及模糊的数据中发掘有效的、新颖的以及有用的数据,最后将数据中可以理解的知识以及信息进行识别的过程就是数据挖掘。作为一个涵盖多方面技术的技术学科,数据挖掘中包含神经网络、模式识别、数理统计、模糊教学、机器学习以及数据库等技术。

对于数据挖掘的分类可以采用多种方法,站在挖掘的角度而言,可将其分为机器学习法、统计法、神经网络法以及数据库法,其中数据库法主要是采用多维数据进行分析;神经网络法主要采用有组织神经网络以及前向神经网络等进行数据挖掘;统计法则书要是采用回归分析、判别分析、聚类分析以及探索性分析等对数据信息进行分析分类;机器学习法则主要采用归纳学习法、基于范例学习法以及遗传算法等方式对数据进行分析归类。站在挖掘人物的角度里,数据挖掘可以细分为预测模型发现、异常和趋势发现、数据总结、依赖模型发现等种类。数据挖掘在电力信息搜索中的应用流程如图1所示。

图1 数据挖掘在电力信息搜索中的应用流程

2 传统电力信息分类及搜索的方法与问题

2.1 方法

电力信息分类及搜索就是指根据企业经营过程中会计核算记录以及相关管理资料,与企业内外部环境信息相结合,通过数据分析的方式来对企业经营状况以及电量使用状况进行评价,以此保障能够为企业的运营提供科学的依据。

2.2 问题

传统电力信息采集与搜索工作具备较强的片面性。在过去采用的电力信息报表秉承数量分析、以及定性分析的原则,统计汇总以及简单计算是其主要的分析方式,因此得出的结论主要是问题投资、盈利能力、偿债能力、运营能力、筹资以及为主。但是,但下很多电力企业都在大力的应用云计算以及物联网等多种新型技术,企业的全部业务数据都能够被及时的获取,同时数据的类型也开始向着评价、地址以及时间等多个形式进行转变。在这种情况下,传统企业电力信息采集与搜索工作难以对这些数据进行分析、计算、排序与筛选,企业难以得到数据所提供的支持,管理层的相关需求难以被充分的满足。

传统电力信息采集与搜索工作在时间上有滞后性。现阶段,我国很多电力信息采集与搜索方法主要依赖核算数据,但是汇总核算通常都是针对历史数据进行核算,因此传统的电力信息采集与搜索工作只能对历史进行评价,根据历史对未来进行预测。但是,我们应当充分的意识到,电力企业在运行的过程中无时无刻不在产生数据,并且在发展日新月异的今天,企业的生命线就是时间,企业财务分析决策开始迫切的需要企业能够及时的获取所有的数据与信息。

总而言之,传统的电力信息采集与搜索方式已经难以充分满足现现代化企业针对业务数据的搜集、存储以及分析等多种需求,电力信息采集与搜索工作方式的弊端原来越明显。

3 基于数据挖掘的电力信息分类及探索技术

3.1 建立电力信息数据库

电力企业在建立电力信息数据库的过程中应当注重以下几个方面:首先,要全面地收集各种电力信息资源数据,并对收集到的电力信息资源内进行科学的整理、分类以及存储,最大限度利用电力信息资源,保障电力信息资源的作用能够充分地发挥出来。其次,电力部门应当充分结合电力信息数据的语言特征创建相应的电力专业词库,采用文本聚类的方式对数据仓库进行整理,笔者采用文本聚类的关联算法验证数据仓库的可行。

采用这样的方式能够保障用户应用两种方式进行电力信息搜索:第一,用户需要将需要查询的电力信息问题的关键词以及自认语言在表中进行描述输入,并且明确的归类问题所属的领域,采用这种方式将搜索相似度这个问题定位在某一个领域或者是多个领域中,随后在相关领域中将用户所需要的信息或者是有关信息找出,大大提升搜索的速度;第二,如果在用户没有对问题的所述领域进行明确的情况下,那么就需要以所有。领域得到电力专业词库来进行搜索。

3.2 方案总体设计

本文笔者所研究的搜索方案主要包括索引模块、用户接口、搜索模块以及检索模块四个部分。其中,用户接口模块主要为了显示查询的结果、登录注册、用户资料查询以及信息输入查询;而检索模块的主要内容包括依据相似度对查询的结果进行有效的排序,并且对用户的信息进行搜集,检索相应文档。索引模块的主要功能包括生成索引表、抽取索引项以及理解各种信息等等。搜索模块的主要功能则是针对于电力信息的采集与分析。

该方案中主要包括中文分词、关联规则、相似度规则、聚类规则以及搜索规则。首先,我们建立数据库的过程中应当根据论坛搜索的原则,随后再借助整理好的数据库对信息进行检索,为用户提供便捷的搜索界面。数据库中主要包括关联规格模块、相似度规则模块以及聚类模块,第二阶段的数据收缩依赖于搜索模块开展。中文分词模块是整个方案设计的基础,方案中后续的各个功能模块都需要中文分词模块去进行结果处理,该方案能够实现的主要功能有数据库文本分词、计算文本中的词条、词库的显示与添加等等。

该方案中几个模块设计的根本目的就是为了对数据库进行整理,充分保障能够及时地对各种数据信息进行有效的汇总与整理,并对数据进行有效地管理与储存,保障工作人员能够及时地获取需要的数据。当用户采用中文语言描述电力问题之后,该方案能够执行应用分次算法收集数据库中的相关资料,随后采用一维数组对其进行有效的储存,最后在数据库中的事物数据表中分类为O的记录单独的存入到一个一维数组里。当数组中对用户的语言描述的关键词分类储存之后可以其在二维数组之中进行处理,第一个关键词用Y表示,第二个关键词则用I便是,通过与一维数组里的数据进行对比若存在差异,该条信息将会保持不变继续进行检索,若结果完全一致,那么相关度权限值则为20,随后再对下一个关键词进行检索。在进行完美连词以及关键词对比的过程中,同样可以采用这样的办法,但是有些地方则会出现明显的不同,大多数情况下,寻找到一个关键词并且完成相关度权值计算之后会舍去5的关联度,若关联词的相关权值超过5将会被系统自动归纳到另一个数组之后,在采用从大到小的方法进行检索,进而准确的寻找出需要的信息数据。

结语:总而言之,在电力企业信息管理的过程中应用数据挖掘技术能够促使电力资源文档库的有效分类存储,确保相关工作人员能够快速及时的寻找出需要的电力信息,为电力工作的顺利开展打下良好的基础。因此,相关部门应当深入地对基于数据挖掘的电力信息分类及搜索技术进行分析,探究其应用过程中出现的不足,及时采取相应的优化措施,提升电力企业电力信息分类及搜索技术水平。

猜你喜欢
数据挖掘检索分类
分类算一算
探讨人工智能与数据挖掘发展趋势
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于并行计算的大数据挖掘在电网中的应用
专利检索中“语义”的表现
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
国际标准检索