广西计算中心 杨 程
智能电网大数据技术发展初探
广西计算中心 杨 程
针对现有文献对国家智能电网数据研究和利用探讨的不足,本文结合大数据的存储、计算及分析等技术,给出利用大数据技术研究国家智能电网数据的初步想法,探索国家智能电网数据的潜在规律和应用价值,充分发挥大数据的潜在应用价值.
智能电网;大数据技术;大数据应用
计算机信息技术的发展将人类带入了数据社会,带动了互联网、物联网、智能电网、新能源、智能城市、网络金融[1]等现代服务业发展,数据的充分利用和挖掘正成为各行各业运营和发展的引擎。但这个引擎正面临着数据量大而复杂等巨大的挑战。各种业务数据正以几何级数的形式爆发[2],其格式、收集、储存、检索、分析、应用等中存在诸多问题,不再能以传统的信息处理技术加以解决。数据的格式也由传统的结构化数据转化为非结构化数据,数据处理的实时效应要求也更高。大数据技术经过几年的发展,已经形成了一个完整的生态技术圈,包括海量数据的的存储及分析技术。
电网是国民工业发展的基础,合理、高效地分配电力资源对经济的发展起着重要的影响。目前我国的电力系统存在运行效率低、成本高、受环境影响较大等缺点,可靠性、自愈能力、稳定性差、自身数据利用不充分等不足。
目前在中国大数据技术的应用已比较普遍,多应用于一些大型的国家服务机构。随着电力能源需求的不断提升,国家电力机构需要处理的用户信息数以亿计,对于所有的这些用电居民的信息整合对于工作人员来说数据是十分的庞大的[1]。作为大型数据的典型,为了处理这些大宗的服务数据,国家智能电网将大数据技术应用到其中。
本文针对国家电网存在的不足,结合大数据的生态技术圈,研究建设智能电网的一套方案,包括计算机集群的规划,电网数据的采集、存储、分析及应用。
随着智能电网建设和物联网的应用,电网大数据涉及到发电、输电、变电、配电、用电、调度各环节数据,是由结构化数据和非结构化构成混合异构数据,是跨单位、跨专业、跨业务数据集合,一个省的年新增数据量超过百T。
想要对海量电网数据进行分析并挖掘数据当中有用的价值,首要解决的问题就是海量数据的存储。目前存储海量数据主要有两种解决方法:
(一)购买云服务,如阿里云,购买云端ECS,搭建云端的计算机集群,将现有数据上传到云端。下面是云服务器的参考配置:
数量(台) CPU 内存 硬盘 操作系统至少15台 至少2x8核 至少64M 10T CentOS
购买云服务器适合资金预算不足的小型企业,优点是计算资源可以随时购买、随时调整;缺陷也显而易见,因为机器在云端,管理不方便;云端存储空间昂贵;本地数据采集不方便。
(二)购买物理机搭建集群。购买实体的服务器,在本地搭建计算机集群,方便管理,服务器推荐的配置如下:
数量(台) CPU 内存 硬盘 操作系统至少15台 至少2x8核 至少64M 15T以上 CentOS
购买实体服务器搭建的集群初始成本高,但总体成本相对云端的集群要低很多,因为机器在本地,管理起来较为方便。
集群上部署的服务推荐:
存储框架 计算及分析框架 数据转换组件 数据库框架 数据挖掘组件Hadoop Spark Sqoop HBase、Hive Mahout
海量数据的存储是对海量数据进行分析和挖掘的前提,计算机集群为是存储大数据的解决方案,以上两种集群建设方法为后续对海量数据研究打基础。
(一)存储在传统数据库中的电网数据采集
集群部署阶段安装的Sqoop服务提供了数据转化的功能,该服务可以将存储在数据库中的电网数据抽取到分布式的存储架构HDFS中,已有的数据就可以很方便地被拉取到集群中。
为便于后期对数据进行分布和挖掘,我们可将抽取到HDFS中的数据导入Hive中。Hive针对表中数据提供了一种类sql查询和分析语法,只要掌握简单的sql语法即可对海量的数据进行分析,而不必掌握复杂的大数据技术。
(二)网络中的电网数据采集
Internet上有许多电力企业用户的行为数据,这些数据中蕴含着丰富的价值,采集和分析这些数据也成为企业发展的重要内容。目前网络上的数据主要通过专业的爬虫团队从个网站上爬取,爬取的数据大多数是非结构化的。爬取到的网络数据先将其上传到HDFS中,针对这些非结构化的数据可将其导入HBase表中,HBase对非结构化的数据提供了一种列式存储的分布式技术,该技术不但方便存储复杂的数据,且因其列式存储的特点,非常利于大量数据的压缩存储。
数据的采集和存储是大数据应用的前提,对大数据进行分析和挖掘,找出数据中蕴藏的规律来指导企业的规划和发展才是我们的最终目的。
目前,对存储在分布式架构中的海量数据已经集成了一套数据分析和挖掘的组件:
数据预处理阶段,Hive提供的类sql功能可用于数据的过滤和清洗,初步筛选数据,减少数据的处理量以提高数据的处理速度。
数据的分析和挖掘阶段,mahout框架提供了一系列数据挖掘相关的算法,如分类算法、聚类算法、协同过滤算法、模式挖掘算法等,可针对数据运用相应的算法,挖掘数据中的规律,为商业活动提供指导。
机器学习阶段,Spark的MLlib包中提供了一系列机器学习的模块,包括朴素贝叶斯、SVM、随机森林等,深度学习数据中蕴藏的规律,利于对企业的发展做预测。
通过大数据技术对智能电网海量数据的分析和挖掘所获得的规律,可以指导决策者在企业运营中做出更加合理的决策。如根据分析所得的结果,调整时间段的供电量,减少资源的浪费。通过这一系列的科技手段,既有效的提升了电力部门的绩效,又降低电力信息管理的成本,相应的也减少了电力系统运行带来的环境污染。尤其是智能电网的大数据技术已经发展成为促进电力系统发展的重要因素。大数据技术不仅可以协助智能电网进行用户数据采集,该可以借助大数据的挖掘分类技术,将这些信息分门别类,发送到各个不同的部门以减轻工作人员的工作压力,或借助大数据可视化技术,在纷乱复杂的海量数据中,实现的智能在线监控、可视化调度、趋势分析、预测与报警、事件应急处理和辅助决策等智能应用。
本文将大数据技术与智能电网相结合,先给出一套计算机集群服务器的配置要求,接着给出集群上部署的服务。接下来,结合现有的大数据技术,给出数据采集、数据分析和挖掘的初步解决方案。目前我国对于智能电网大数据技术的研究,尚处于探索的初级阶段,还是拥有相当大的的发展空间。不断完善与大数据技术的相关的其他的新型科技,促使在智能电网中的大数据技术得到更好的应用,使其逐渐成为国家智能电网发展的依靠。
[1]朱正凯.浅议智能输电网线路状态监测数据传输技术的发展现状及应用[J].中国新通信,2017,(03):88-89.
[2]冯国瑞,王亮.基于大数据和云计算的电网财务系统决策研究[J].通信电源技术,2017,(01):113-115.
杨程(1982-),男,广西桂平人,大学本科,毕业于广西大学,中级工程师,研究方向:计算机应用技术。