冯志鹏, 严宇平, 陈文安, 苏华权
(1.广东电力信息科技有限公司, 广东, 广州 510600;2.广东电网有限责任公司, 广东, 广州 510600;3.广东电网有限责任公司信息中心, 广东, 广州 510600)
用户画像是一种新型的数据分析方法,可以描述并分析多维数据,在个性化服务和精准营销过程中具有重要作用[1]。电力企业干部资格画像可以系统地分析分散的企业干部资格信息,并通过标注的方式直观简洁地展示电力企业干部的资格信息[2-3]。由于信息的缺乏,在进行干部素质画像时,很难准确描述干部素质的特征。因此,研究电力企业干部素质门户网站的建设方法具有重要意义[4-5]。
文献[6]基于大数据建立用户画像的需求,概要性的介绍了基于阿里云平台来构建电力用户画像的构建方法,并介绍了用户画像应用场景。但是该方法没有对信息进行清洗,存在信息覆盖率低和F1系数低的问题。文献[7]提出一种基于大数据的电网用户立体画像构建方法,为用户提供个性化服务的问题,获取电网用户信息,建立电网用户行为标签,提高了画像覆盖的信息量。但是该方法受干扰信息和噪声的影响较大,构建画像所用的时间较长,存在构建效率低的问题。
为了解决上述方法中存在的问题,本文提出了基于Agent模型的电力企业干部资质画像构建方法。
首先,在Agent模型的基础上构建信息采集系统,实现电力企业干部资质信息的采集。Agent模型的应用形式如图1所示。
图1 基于Agent模型的信息采集系统结构
利用堆栈式降噪自编码器,对采集的电力企业干部资质信息进行清洗。
(1)
式中,g代表的是解码阶段存在的神经元激励函数;W代表的是编码阶段中存在的权重系数;yn表示解码器的实现过程,其表达式如下:
yn=f(Wxn+b)
(2)
式中,f代表的是编码阶段中存在的神经元激活函数。
目前Relu、Tanh、Sigmoid是常用的激活函数,基于Agent模型的电力企业干部资质画像构建方法选用Sigmoid函数,该函数可以应用在复杂的场景中,将各个向量映射到[0,1]区间中[10],Sigmoid函数的表达式如下:
(3)
(4)
传统自编码器模型由于受模型复杂度高和训练集数据量大等问题的影响,容易出现过拟合现象。针对上述问题,提出了降噪自编码器,提高模型的泛化能力,增强传统编码器的鲁棒性[11]。
随机在降噪自编码器中映射对初始输出的纯净向量xn添加噪声,获得局部存在损坏的向量P(xn):
P(xn)=qD(xn)
(5)
式中,qD表示通过随机映射方式处理向量的过程。
堆栈降噪自编码器属于深层神经网络,由多个自编码器构成。自编码器隐藏层中存在的输出向量为深层神经网络下一层的输入向量,特征的逐层训练通过自编码器的堆叠得以实现,为了判断获得输入向量P(xn)是否具有更有价值、更高级的特征表示形式,结合Sigmoid函数,获得输出最终向量yr,实现电力企业干部资质信息的清洗:
yr=f(m)f(r)[S(xn)cost]
(6)
式中,f(r)表示顶层编码阶段中存在的神经元激活函数,f(m)表示第m层自编码器编码阶段中的激活函数。
基于Agent模型的电力企业干部资质画像构建方法采用隐半马尔可夫模型在关联规则的基础上提取电力企业干部的行为特征。
在数据挖掘技术中,关联规则是常用的算法,其主要目的是对数据之间存在的关联性进行分析,关联规则中存在的重要概念如下。
(1) 设C代表的是由子集事物构成的事物数据库;用|C|描述子集事物在事物数据库中的总数。
(2) 关联规则。如果项集中存在A⊂C、B⊂C且A∩B≠∅的关系,说明在A→B的情况下含有关联信息,在关联规则中,A属于先导,B属于后继。
(3) 支持度。设Psupport(A→B)代表的是在事物数据库C中A∪B项集组合同时出现的概率,其计算公式如下:
Psupport(A→B)=P(A∪B)=[ncount(A∪B)]/|C|
(7)
式中,ncount(A∪B)代表的是在事物数据库C中A∪B项集出现的数目。
(4) 频繁项集。当关联规则对应的支持度符合设置的最小支持度时,表明项集在该关联规则中属于频繁项集。
(5) 置信度。设Pconfidence(A→B)代表的是项集B同时出现在包含项集的子集事物中的概率,即项集B在项集A发生条件下对应的条件概率,其计算公式如下:
Pconfidence(A→B)=P(B|A)=P(A∪B)/P(A)
(8)
(6) 序列置信度和序列关联度。为了对序列间存在的关联性进行分析和监测,基于Agent模型的电力企业干部资质画像构建方法在关联规则的基础上定义监测置信度和关联度的表达式。如果监测序列A和B之间存在关联规则,且符合最小支持度要求的关联规则达到n条,则置信度和关联度的计算公式分别如下:
(9)
(10)
对序列之间存在的关联性进行监测和分析的过程中,序列间的关联性随着关联度的增高而变强;引入置信度概念对序列关联性对应的可信度进行衡量,如果关联规则的监测序列对应的置信度接近于1,表明该规则的可信度较高。如果序列关联规则的置信度和支持度都小于设定的阈值,表明该序列的关联性较强;否则关联序列之间不存在关联或关联性较弱[12-13]。
隐半马尔可夫模型在关联规则的基础上提取企业干部行为特征的过程如图2所示。
图2 特征提取流程图
1) 训练部分
(1) 按照先后顺序对电力企业干部行为特征进行预处理,构成包含隐含状态序列的文本文档。
(2) 预处理已标记的训练样本,采集客户端和服务器中存在的数据,对其进行预处理,获得文本序列。
(3) 计算隐半马尔可夫模型中存在的参数。
(11)
式中,α1(i)表示在时刻t处向量处于状态St的概率为前向变量,β1(i)代表的是后向变量。α1(i)和β1(i)的表达式分别如下:
α1(i)=P(O1,O2,…,Oi,qt=St|λ)
(12)
β1(i)=P(Ot+1,Ot+2,…,OT,qt=St|λ)
(13)
式中,qt表示向量所处的状态,Oi代表的是观察序列。
(14)
式中,bj(Ok)代表的是混合高斯分布函数。
(15)
(16)
式中,aij代表的是状态i到状态j对应的转移概率。
设P(O|λ)代表的是待观测序列对应的输出概率,当已知隐半马尔可夫模型参数λ时,其计算公式如下:
(17)
2) 提取部分
(1) 预处理待提取特征的电力企业干部行为文本,并对其进行扫描,获得文本分块序列。
(2) 采用Viterbi算法在训练输出的隐半马尔可夫模型的基础上获得电力企业干部行为特征[14]。通过隐半马尔可夫模型提取干部行为特征,将状态输出观察值O=O1,O2,…,OT作为隐半马尔可夫模型的输出,寻找概率最大的状态标签序列,将其作为电力企业干部行为特征。
基于Agent模型的电力企业干部资质画像构建方法利用长短期记忆网络LSTM构建电力企业干部资质画像。
长短期记忆网络LSTM属于循环神经网络。基于Agent模型的电力企业干部资质画像构建方法利用获取的电力企业干部行为特征,进行序列建模。每个电力企业干部的行为数据长度都是不相同的,在构建电力企业干部资质画像过程中,需要保持行为数据长度相同[15],因此,Agent模型在其他信息辅助决策基础上,将数据长度不相同的电力企业干部行为信息输入到长短期记忆网络LSTM中,以长短期记忆网络LSTM计算作为主决策方案,输出电力企业干部资质画像VAk,t:
VAk,t=a×VLk,t+(1-a)×VGk,t
(18)
式中,a代表的是电力企业干部行为特征的重要性,VLk,t代表的是t时刻每个电力企业干部的画像标签权重向量,VGk,t代表的是电力企业干部行为特征对应的权重向量。使得常规的神经元被存储单元替代,保证其符合输出的电力企业干部资质画像VAk,t具有自有状态即电力企业干部资质画像的个体独特性,此时的每个存储单元由输入、输出、自有状态组成,实现满足电力企业干部资质分析的个性化建模分析。
为了验证基于Agent模型的电力企业干部资质画像构建方法的整体有效性,需要对基于Agent模型的电力企业干部资质画像构建方法进行测试。
本次测试在Python语言开发的测试系统中完成,操作系统为CentOS 7,CPU为Intel i7-4790 @3.60 GHz,硬盘为1 TB机械硬盘,RAM为16 GB。
以某市《工业电力用户复工复产监测周报》为数据来源,针对性地抽取了大工业用电、农业生产用电等工业用户连续多日数据,作为数据样本,将信息覆盖率、F1系数和构建时间作为测试指标,对基于阿里云的电力用户画像构建方法研究(方法1)、基于大数据的电网用户立体画像构建方法(方法2)和基于RFM聚类的企业干部资质画像构建方法(方法3)进行测试。
信息覆盖率表示规模维度的概念,通过整体覆盖率可以有效度量测试的范围和工作量,以信息覆盖率避免漏测显现的出现,信息覆盖率越高表明构建的电力企业干部资质画像中包含的资质信息越多。三种方法的信息覆盖率如图3所示。
图3 不同方法的信息覆盖率
F1系数是基于查全率和查准率的调和评价,F1系数越高表明电力企业干部资质画像越精准,F1系数的计算公式如下:
(19)
式中,R代表的是查全率,P代表的是查准率。
三种方法的F1系数如图4所示。
图4 不同方法的F1系数
三种方法的画像构建时间如图5所示。
图5 不同方法的画像构建时间
分析图3中的数据可知,在多次迭代中方法1构建的画像信息覆盖率均高于方法2和方法3构建的画像信息覆盖率。由图4中的数据可知,随着图像数量的增长,三种方法的F1系数随之下降,但方法1的F1系数始终高于方法2和方法3的F1系数。由图5可知,方法1构建电力企业干部资质画像所用的时间少于方法2和方法3构建电力企业干部资质画像所用的时间。因为方法1在构建电力企业干部资质画像之前,利用基于Agent模型的信息采集系统获取电力企业干部资质信息,并通过堆栈式降噪自编码器对采集的信息进行清洗,消除了信息中存在的干扰信息和噪声。在构建电力企业干部资质画像的过程中消除了干扰信息和噪声产生的影响,保留了有效信息,提高了画像的信息覆盖率、F1系数、减少了构建画像所需的时间。
目前电力企业干部资质画像构建方法存在信息覆盖率低、F1系数低和构建时间长的问题。提出基于Agent模型的电力企业干部资质画像构建方法,在Agent模型的基础上采集电力干部资质信息,对信息进行清洗,根据清洗后的信息构建电力企业干部资质画像,为用户画像在电力企业中的应用和发展奠定了基础。