梁哲辉 顾安朋 刘巍琳 袁超 于洋
摘要 作为电网企业对外服务窗口,电网客户服务中心需要整合企业内、外部各种数据资源、存贮和分析海量的客户服务信息。如何对电网企业各类数据进行高效、可靠、低廉地存储,并快速访问和分析,是当前重要的研究课题。分析大数据的特征和大数据的关键技术,其后,设计大数据技术下的电力客户服务辅助决策系统,提出系统的数据体系架构,设计系统功能,总结系统的关键技术和算法,该系统利用大数据技术和数据仓库技术集中存储、管理和应用电网数据,通过统一的大数据服务平台,使用分布式数据库作为结构化、非结构数据的存贮平台和数据分析与挖掘的支撑平台,基于数据仓库模型设计,在数据展示层使用多维数据分析技术。通过系统建设,可以大大提高电网企业的客户服务水平。
【关键词】客户服务 辅助决策 大数据 渠道
随着智能表计大规模推广应用以及电网精益化管理带来的配用电数据爆炸性增长,电能量数据的大规模数据价值的深度挖掘与综合利用还处于初级阶段,现阶段正面临由IT时代进入DT时代的变革,大数据技术被普遍应用,凭借其出色的数据分析萃取挖掘能力,大数据技术为经济社会发展带来了巨大影响,也为企业信息化建设提出了更高的要求。为此,南方电网公司设立公司科技重大专项《智能配用电大数据及其应用技术研究与示范》开展以电能量数据为核心的配用电大数据价值挖掘技术。本项目作为该重大专项的配套项目,拟基于大数据技术实现在浩瀚海量的配用电数据中发现用户的用电规律和市场行为,结合广州供电局客户服务专业化管理的要求,建立统一电能量大数据客户服务辅助决策平台。该平台应结合目前电力营销管理需求、企业信息化管理要求,以及电改与电力市场新形态的驱动,满足“全方位客户服务体系支撑、电网运营的精细化决策、新兴业务的拓展和電力市场的改革支撑”的营销相关业务需求。
1 电力客户服务辅助决策系统建设思路
1.1 设计思路
基于大数据技术实现在浩瀚海量的配用电数据中发现用户的用电规律和市场行为,结合广州供电局客户服务专业化管理的要求,建立统一电能量大数据客户服务辅助决策平台。该平台应结合目前电力营销管理需求、企业信息化管理要求,以及电改与电力市场新形态的驱动,满足“全方位客户服务体系支撑、电网运营的精细化决策、新兴业务的拓展和电力市场的改革支撑”的营销相关业务需求。
1.2 建设目标
承接南方电网公司下发的智能配用电大数据及其应用技术研究与示范项目,完成广州电能量大数据系统开发的设计、开发、集成,符合平台能力服务化,服务能力自动化,数据应用自主化的三层建设理念,可使系统具备数据统计分析自动化,数据挖掘自动化,数据自助处理以及柔性可扩展的服务应用的能力和具备灵活自定义、自适应的数据图形化展示的能力;解决外部数据匹配困难和业务实际应用难的问题,满足企业信息化管理创新的要求。
l.3 功能规划
电能量大数据系统建设包括平台建设、数据整合与治理、基础功能、高级分析应用几个方面的内容,系统平台以电能量内外部数据的整合、治理、存储与应用为核心,以大数据关键技术研究成果为基础,通过合理高效的数据模型构建,实现海量电能量大数据下的快速分析与挖掘,提供可自主应用的数据集合。基于此,从平台服务支撑、上层业务应用出发,设计电能量大数据系统的应用体系架构,并在进行应用架构设计过程中,充分考虑系统平台的技术支撑,如图1所示。
1.3.1 数据治理和数据整合两个方面
数据治理负责数据接入管理,除了基于接口对内部数据的接入,还需要利用等多种服务接口实现外部数据的接入,通过服务注册实现对接口服务的统一管理,并通过引入数据质量综合评价标准对数据进行清洗和修正;数据整合是把在不同数据源的数据收集、整理、清洗,转换后加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式。
1.3.2 基础应用
包括报表统计、多维分析与即席查询、数据挖掘与数据预测、可视化展示等服务能力应用项。通过基础应用建设,能够实现平台能力服务化、服务能力自动化与数据应用自主化。
1.3.3 高级应用
通过利用大数据仓库平台、基础应用能力项及集中存储的内外部电能量大数据,实现包括电力客户档案标签库管理、客户服务渠道分析、用电能效管理和个性化客户服务的应用场景。
1.3.4 系统管理
提供统一的系统平台管理功能,包括系统用户管理、权限管理、安全管理、日志管理及基础设施的基本管理功能。
2 电力客户服务辅助决策系统实现
2.1 大数据基础平台
提供企业级数据仓库方案,要保证1TB以上大数据量分析探查的高效灵活和高速响应,支持列式存储,内存计算等提高查询速度的技术,支持与Hadoop平台的整合。提供用户友好的可视化管理页面,可实现数据存储、快速查询、大规模分布式计算等基础功能,同时支持数据挖掘、数据分析预测、用户标签等高级应用。
2.1.1 分布式文件系统
大数据概念里一个很基础且很重要的问题是如何在以千百计的普通服务器组成的集群中存储以PB为单位的海量数据,在林林总总的数据存储系统和技术方案中,最重要的一类就是超大规模分布式文件系统,也就是以文件系统的方式来组织海量数据。在大数据技术框架中,分布式文件系统是其它相关技术的基石,因为其提供了海量信息的存储平台,并提供了数据的冗余备份、服务器的自动负载均衡以及失效服务器检测等各种完备的分布式存储功能。只有在分布式文件系统提供的基础功能之上,才能开发出更符合应用需求的存储系统和计算框架。
本项目采用HDFS (Hadoop DistributedFile System)作为分布式文件系统,HDFS整体架构主要由NameNode、DataNode、Secondary NameNode以及客户端组成。
2.1.2 内存计算
Spark是基于内存计算的迭代分布式计算框架,适用于需要多次操作特定数据集的应用场景,通过在集群中将数据集缓存在内存中,支持数据集的共享和重用,缩短数据集的访问时间。为了实现数据集的重用,Spark设计了一种弹性分布式数据集RDD(ResilientDistributed Dataset)。RDD是分布在集群中的只读对象集合,在集群中的多个结点上进行分区,可以在多个计算中共享,它不仅支持基于数据集的应用,还具有容错、局部计算调度和可扩展等特性。RDD支持用户在执行计算时选择缓存数据集在内存中,便于下次计算时重用数据集,提供了更快速的数据访问,减少了不必要的磁盘重复读写操作。
2.1.3 流式计算
采用Spark Streaming作为流计算框架,它扩展了Spark流式大数据处理能力,将数据流以时间片为单位分割形成RDD,使用RDD生成Spark Job进行处理,最终以分布式批处理的方式计算每个时间片的数据。采用SaprkStreaming进行流式计算具有以下优势:
(1)能和Spark生态系统的其它组件融合,实现交互查询和机器学习等多范式组合处理。
(2)具有极佳的扩展性,能够运行在1000个节点以上的集群,并且支持水平扩展。
(3)容错性好,通过CheckPoint以及内存维护两份数据进行备份容错,RDD通过血统图记录下之前的操作,如果某个节点在运行时出现故障,可以通过冗余的备份数据在其它节点重新计算得到。
(4)数据吞吐量大,通过将数据转换为RDD,基于批处理的方式提升数据处理的吞吐量。另外,支持“恰好一次”( Exactly-once)传递原语,也就是每条消息都被发送过一次且仅仅一次,没有丢失也没有冗余,能够显著提升系统的传输效率。
(5)数据处理实时性高,通过提升集群的运算能力,可以把数据处理延迟控制在毫秒级。
2.1.4 图计算
GraphX是Spark提供的分布式图计算框架,基于Spark平台提供了简洁易用、丰富多彩的图计算和图挖掘的接口,极大的方便了编程人员开发图计算代码。GraphX首先把图拆分成很多的子图,然后基于这些子图进行计算,计算时可进行分阶段的迭代运行,从而实现任务的并行化。GraphX的核心抽象是RDPG(Resilient Distributed Property Graph),是一种点和边都带属性的有向多重图。它扩展了Spark RDD的抽象,有Table和Graph两种视图,而只需要一份物理存储。两种视图都有自己独有的操作符,从而获得了灵活操作和执行效率。
2.2 数据整合与治理
數据整合是把在不同数据源的数据收集、整理、清洗,转换后加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式。数据源来自内部数据(如营销、计量、生产等数据)和外部数据(如天气、企业运营、社会经济等数据)的集成。
(1)内部数据整合通过构建自助定制的数据清洗、转换、载入工具(ETL工具),实现对企业的各种数据源(包括关系型数据库,多维数据库,文本,OLAP,Excel等)的快速提取。
(2)外部数据整合通过网络爬虫、人工采集、Web服务、文件交换从电力机构、公网、企业机构、其他外部机构获取相应的数据。
(3)具备图形化的数据整合界面,便于后期维护。
数据治理将获取的业务系统数据、外部数据导入数据平台,在此平台上构建统一的数据模型来完成数据处理、清洗、存储等工作,同时结合服务资源和服务规则进行数据匹配,建立内外部数据的关系。通过引入数据质量综合评价标准以及单个数据项的技术指标含义、取值范围等,定义面向大数据的数据质量度量指标。通过多模数据内部的隐含关系及交互特点对异常数据进行清洗和修正,使数据各项质量指标恢复到标准范围内。
2.3 基础应用
电能量大数据系统基础应用功能包括报表统计、多维分析与即席查询、数据挖掘与数据预测、可视化展现、安全与权限管理。通过基础应用的建设,实现平台能力服务化、服务能力自动化与数据应用自主化的总体系统建设目标。
2.3.1 报表统计
基于电能量大数据仓库平台和先进成熟的报表工具,构建灵活强大的报表统计能力,以零编码、拖拽式开发面向用户使用,实现报表开发过程服务化、自动化以及自主化的建设目标。
2.3.2 即席分析
基于电能量大数据仓库平台和先进成熟的OLAP分析和即席查询工具的支撑,构建包括维度和度量的分析查询体系,语义化技术元素,封装为业务应用元素面向用户的分析和查询构建过程应用,以零编码、拖拽式开发供用户使用,实现多维分析和即席查询开发过程的服务化、自动化以及自主化的建设目标。
2.3.3 可视化展现
基于电能量大数据仓库平台和先进成熟的可视化展现工具的支撑,自动适配多尺寸终端,提供多屏互动等交互功能,构建业务组件化、全程标准化、主线场景化、开发配置化的可视化展现能力层应用,实现可视化展现开发过程的服务化、自动化以及自主化的建设目标。
2.3.4 数据挖掘与数据预测
数据挖掘模块提供自定义的、柔性扩展的数据挖掘自动化套件包,可依托已有算法库,形成数据挖掘组件,并支持用户自主扩展。实现了数据准备一数据清理一数据转换一数据挖掘一模型评估一模型应用的全过程、自动化、可重用的挖掘服务。同时提供可配置、可拖放的设计工具及应用视图.辅助数据的分析挖掘与分析预测。
2.3.5 安全与权限管理
电能量大数据系统在安全方面主要涉及两方面的建设,一是针对南网多种安全机制提供认证接口,并实现与广州供电局有限公司已有安全系统或功能全面集成;二是提供基于角色、用户的权限管理功能,能够涵盖各功能模块,对报表的权限管理可以达到单元格的层面。
2.4 高级应用
2.4.1 电力客户档案标签库管理
电力客户档案标签库管理,能够按照用户的特征建立用户的用电行为特征库,能针对用户的行为数据进行分析,灵活的配置电子标签,并能够根据电子标签对客户进行筛选并分群。
基于用户标签,研究适用于用户用电行为分析的特征提取、聚类分析与模式辨识等数据挖掘方法,识别典型用户用电行为特征,实现用户用电类型的精细划分和自动辨识。
利用用戶标签,对客户用电行为和需求的时空分布特征进行精细化描述和分析。基于客户用电行为、客户投诉、咨询等多源异构的反馈信息,探索异构数据隐藏知识的大数据检索方法、用户偏好,提出反映客户需求的客户分群和多维度画像展示方法。
2.4.2 客户服务渠道监控分析
制定统一的渠道信息分类规范、数据接口规范和数据更新机制。构建统一的渠道信息池,结合渠道数据应用需求和大数据技术,提供快速的渠道信息检索方法。针对各类渠道记录的客户交互痕迹信息以及典型客户特征,实现典型客户渠道使用偏好模型。按照用户对各类渠道及内容访问情况,建立个性化服务推荐算法,给客户推荐最期望的服务,提升客户体验。开发服务渠道全景监控及统一管理平台,实时监控渠道资源使用情况、渠道业务开展情况等。建立渠道异常原因分析模型,为服务渠道应急处置提供参考。基于实体营业厅优化策略的算法模型,科学指导实体营业厅的缩减以及网点布局优化。
2.4.3 用电能效管理
用电能效分析以采集的能耗、用电特征等信息为基础,充分利用多维分析的思想,提供时间、区域等多个维度的灵活选择,进行深入分析与挖掘,并将分析结果通过钻取、切片等多种方式实现总体、行业及用户用能水平的深入分析与直观展示。
2.4.4 客户用电分析
大宗工业用电账单,是针对大宗工业用户每月用电情况的综合展示,包括总用电户的电量电费、用电结构、负载情况等分析,同时还提供总户下各计量点的用电情况展示,使用电客户对当月自身用电情况有一个全面的认识。
2.4.5 居民用电账单
居民用电账单是为居民用电户每月生成的用电情况的分析账单,包括当月用电情况、年累计用电情况、在不同电费阶梯中的用电情况以及在同小区、同区域当中的用电排名,同时提供用电预测的功能。
2.4.6 客户渠道使用偏好分析
客户渠道使用偏好分析是对某人群按照业务办理过程中业务类型、渠道、地区等多个维度将该用户群进一步的细分,分析用户办理某业务时的渠道选择偏好,比较出各地区业务办理时渠道选择差异,在实施渠道引导策略后,在该课题下进行实施策略是否奏效的验证。分析出有价。
3 总结展望
广州供电局在内部战略上重视创先应用,良好的IT环境包括IT架构完善、数据范围广、数据质量较高,为广州供电局数据转型推动战略性创新提供了基础性的环境支撑;公司在外部战略性开放与社会各业态伙伴合作,参与竞争性业务的开拓,作为电力领域的拓荒者,战略性合作的开展需要公司与外部的数据交互与分析应用,需要一套成熟的客户服务大数据应用平台体系来支撑。
广州供电局各职能部门业务办理及客户服务的过程中,一方面受制于业务系统的定制化展现形式,业务人员无法直观自如的配置、分析器管辖范围内的业务数据,从而错过了较多可以从业务数据发现的业务可以提升的点,业务人员需要一个可以灵活配置、分析展示的数据应用平台,来帮助其挖掘业务提升空间及业务潜在风险;另一方面纯属本职能部门的业务数据己不能完全满足自身业务发展需求,更多需要跨部门数据的融合分析,在社会快速发展过程中,业务合作需求点的产生在时间点上具备不可预估性,如何支撑跨部门的数据合作、服务数据的融合,需要一个成熟的、框架性大数据处理平台来将业务需求进行孵化、落地,使得业务需求的落地更加灵活、可控,并为业务需求的验证、落地提供试验田,持续推动业务的创新升级。
3.1 实现电网与用户的互动
实现电网与用户的双向互动,客户进行业务办理过程中,通过智能化手段增加电网用户的有效信息接触点,引导用户选择更优方案进行业务办理;通过用户特征分析,选择性的推送信息或活动予用户,提升用户对公司的满意度。
3.2 实现全面的用电数据监控
通过多元化的技术手段与分析模型,实现用户一用电一区域等指标元素多维度多形式的监测,通过模型的分析来发现电网运行过程中发现的问题,并对异常问题做预警响应,做到挖掘、展现、信息推送,通过数据化来推动供电公司的运行,解决人员问题处理的盲点。
3.3 实现大数据平台的模型孵化中心定位
大数据平台的优势在于广泛的接入业务内容外的数据,各方组织与人员在平台上实现应用模型的落地、校验,业务系统或第三方平台,通过服务调用的方式指挥大数据平台进行数据的分析、运算,并反馈其需要的结果。用户可以通过自助式配置来获取自身需要的分析结果,最终实现数据目的导向的重组与利用、潜在价值的挖掘及业务系统的补充。