用户画像和标签在电力服务系统中的应用研究

2021-06-17 07:56黄渊军吴方权汤成佳
自动化仪表 2021年5期
关键词:数据源画像标签

周 玲,钟 璐,黄渊军,吴方权,汤成佳

(1.贵州电网公司信息中心,贵州 贵阳 550003;2.贵州电网公司客户服务中心,贵州 贵阳 550003;3.贵州电网有限责任公司信息中心,贵州 贵阳 550003)

0 引言

目前,电力企业服务体系已经初具技术融合特征,可以从多个角度对用户进行服务。但从细化角度来看,其服务精准度始终存在缺陷。

以某用户用电习惯为例。电力企业服务系统能根据用电习惯制定服务策略。但结果显示:因为用户登记了他人身份,所以服务系统并未对该用户进行服务,服务策略未能对实际用户目标产生能效。此类问题在现代电力服务系统应用当中并不罕见。通过用户画像和标签功能,可以准确核实用户信息,避免此类问题的发生。

1 用户画像和标签概述

用户画像和标签功能是以画像为主,根据工作需要对不同用户进行标签标志,帮助工作人员持续性地完成服务的功能。

原理上:用户画像功能主要根据用户行为,获取其行为日志以及相关数据,与用户帐号相对应;确认用户信息之后,利用Hadoop分布式集群方式与大数据技术结合,对用户信息进行深入分析,得到用户用电喜好、兴趣,并依照分析结果对用户进行标签标志。此外,大数据分析功能主要由K-means算法实现。但传统算法对于初始化中心太过依赖,会增加很多不必要的麻烦。

对此,在先进理论上,需要对K-means算法作改进,降低改进算法对初始化中心的依赖,并提高其准确性。这一点在先进理论中已经实现。因此,本文也将在该算法基础上,展开相关研究工作[1-2]。

2 功能需求与关键技术分析

2.1 功能需求

用户画像功能建设必须先拥有初始数据集以及运行框架。对此,本文在征得许可的前提下,采用某电力企业智能系统中的用户行为日志以及其他信息作为初始数据集,并以该单位网络服务架构为运行框架。初始数据集中大多为用户日志,即用户在浏览服务网页时留下的历史记录,例如用户MAC地址、访问时间、接入设备浏览页面类型、页面URL、客户端类型等。此外,用户日志只能反映用户需求在某时段的变化,因此用户画像功能应当将其他相关信息作为辅助信息一同导入分析系统。而为了获取辅助信息,需要增加辅助数据采集模块。在该模块应用下,可使功能自动化程度增加。此外,为了实现人机交互,需要建设可视化模块,使工作人员可以看到用户画像[3-6]。

2.2 关键技术

用户画像与标签功能实现需要多项技术支撑,即网络爬虫技术、大数据技术、可视化技术。下文将进行相关分析。

①网络爬虫技术。

根据相关理论可知,现代具有用户画像与标签功能的电力服务系统,都是采用网络爬虫技术实现该功能的,说明此项技术是功能设计中的关键技术。网络爬虫技术系统与万维网连接,根据用户发出指令去下载网页,并向用户展示网页,同时补充初始数据缺陷。此项技术可实现用户画像与标签功能[7]。

②大数据技术。

大数据的形态众多,但在用户画像与标签功能设计中,主要以大数据处理平台形态为主。大数据处理平台主要由Hadoop以及Hive组成。其中,Hadoop属于开源分布式计算平台,具备分布式储存功能。其功能由Hadoop分布式文件系统(Hodoop distributed file system,HDFS)实现,具有较高兼容性。但其缺陷在于:在面对实时性较强的储存要求时,无法满足实时性要求。但在本文设计中并不会出现此类影响,说明其具备良好的应用表现。Hive属于Hadoop组成结构,应用中根据结构化各部分文件特征,文件会呈数据库表形式被保存。当用户进行搜索,Hive会根据搜索关键词对用户展示结果,同时还能把SQL语言转变为MapReduce任务。此外,在Hadoop的连接关系上存在Sqoop工具。其虽然不属于Hadoop组成部分,但对大数据处理平台的功能有较大影响。本质上,Sqoop工具属于数据交互迁移工具,其在与Hadoop保持连接的条件下,可以根据关系型数据库中的关系逻辑,完成数据迁移,使数据进入HDFS或者将HDFS数据迁移到数据库,说明该工具决定了平台应用灵活性[8-11]。

③可视化技术。

综上可见,可视化模块是实现人机交互的重要模块,因此需要进行相关设计。在通常情况下,可视化模块主要由Spring、Spring MVC、Mybatis组成,相应形成了一个以网页为基础的开发框架。Spring属于开源框架,具有良好的便捷性,在应用开发过程当中,可以将复杂开发过程简易化。原理上,Spring包含了IOC容器。该容器在进行业务对象替换时,相较于其他开发框架要更加简单。Spring MVC同样属于开发源框架的一种,但其与Spring的功能表现不同,主要提供网页全功能应用程序MVC服务、分离控制器服务、模型目标服务、分派器服务、处理程序;My Batis属于定制化SQL、存储过程和高级映射的支撑框架[12]。

3 用户画像系统设计

3.1 框架设计

在本文设计思路中,用户画像系统的框架结构由四个部分组成:数据源层、数据采集层、大数据分析平台层、数据可视化层。以下将对各层设计内容进行介绍。

①数据源层。

本文数据源层主要开放了若干个数据接口。其中,有三个接口是必须存在的,即互联网开放数据接口、电力用户行为数据接口、第三方数据接口。在接口应用中,因为数据源层与数据采集层直接连接,所以数据采集层的采集功能是直接对所有接口中的数据进行采集[15-16]。

②数据采集层。

数据采集层位于数据源层上方,两者上下直接连接。当系统接受到数据采集要求后,将根据要求特征,连接数据源层的某个接口;或者直接连接所有接口,通过网络爬虫技术、Web数据接口实现采集。此外,在数据采集层上方存在大数据分析平台层。相应数据采集层得到的所有数据都会被迁移到该层中。

③大数据分析平台层。

大数据分析平台层主要具备Sqoop大数据入库、Sqoop数据导出两个功能。其中,Sqoop大数据入库支持多种数据入库,即用户行为日志、用户个人数据、设备数据、影视数据等。在这些数据入库之后,如果用户对系统进行了用户标签、设备标签、用户统计信息、设备统计信息操作,则会激发Sqoop数据导出功能,启动内部Hive ETL数据处理功能与MapReduce算法模型,综合对各类数据进行分析处理,准确对应后则完成上述操作。

用户画像系统框架设计结果如图1所示。

图1 用户画像系统框架设计结果

3.2 功能模块规划

所以,为了保障功能流程正确,需要进行功能模块规划工作。数据采集模块放置于最下层;大数据分析平台模块能对用户数据进行清洗、规范化、分析与处理,并获得各类信息权重,因此设置于中层;数据可视化模块能展示大数据平台分析结果,实现人机交互,因此设置在最上层。

3.3 应用流程

围绕三大模块,本文将介绍各模块的应用流程。数据采集模块包括三个部分:用户行为数据爬取模块、用电信息数据爬取模块和源数据对接模块。

其中,采用第三方应用程序编程接口(application programming interface,API)连接用户行为数据爬取模块、源数据对接模块,借助相应接口即可实现数据采集;用电信息数据爬取模块通过网络数据接口,与电力单位官网连接,可以相应得到网络中用户反馈的信息以及操作行为信息。

源数据对接模块与其他两个模块连接,只要提供接口服务。在大数据分析平台层中,所有由数据采集模块得到的数据都会被相应处理,可以了解用户基本行为,并根据人工操作需求,生成相应的用户画像。画像类型包括人像、用户分布图、用户访问时间等。

图2为大数据分析平台层生成的用户访问时间。

图2 用户访问时间

4 用户标签模型应用分析

本文用户标签模型安装在大数据分析模块中。其具有两种表现形式,即基本标签模型、改进K-am算法标签模型。

①基本标签模型。

基本标签模型可以根据大数据分析结果,对用户地址、用户设备(例如手机、电脑)类型进行标签标志。

②改进无监督的聚类算法(K-Means,K-am)标签模型。

改进K-am算法标签模型,可以对用户使用UT的次数、初次使用到最近一次使用间隔、用户在线总时长进行记录,并将其作为用户价值模型指标进行计算。电力工作人员根据结果了解不同用户的电力消费价值,相应推出针对性的服务。

5 结论

本文主要对用户画像和标签在电力服务系统中的应用进行了分析,通过分析得到结论:用户画像和标签在现代电力服务系统中并不普及,但根据相关案例确认,其可以提高电力服务精准度,具有良好应用表现;进行了用户画像和标签设计工作,了解了功能组成以及实现方法;对用户标签模型应用进行了分析,了解了其两种形态,并介绍了其功能表现。

综上分析可知,在用户标签模型的应用下,电力服务系统的服务体系更加细化,可以围绕用户的各种信息数据,判断用户特征;相应地,在人工观察下,可以对用户进行标签标志操作,随后依照标签推出相应服务体系,或制定性的服务对策,说明其服务精准度提高。

猜你喜欢
数据源画像标签
威猛的画像
“00后”画像
画像
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
标签化伤害了谁
科学家的标签
基于真值发现的冲突数据源质量评价算法