周磊 朱超群 骆钊 高泽勇
摘 要:随着市场竞争的日趋激烈和电力产业的不断升级,综合能源服务正成为未来电力发展的新趋势。综合能源线上电商化服务是未来电网智能能源的关键组成部分,也是从电网能源集成服务向多能源服务提供商竞争供应战略转型的重要途径,一种有效的综合能源服务推荐方法对综合能源公司在能源竞争中占据有利地位具有重要作用。鉴于此,根据用户的兴趣特点和用户在系统中的行为数据来挖掘用户的兴趣偏好,选取部分数据建立用户兴趣图谱并进行谱聚类,将聚类后的数据导入随机森林模型进行评分预测训练,剩余数据提取用户属性信息导入模型获取预测评分,并与原始评分进行对比,以验证模型的有效性。
关键词:综合能源服务;推荐算法;兴趣图谱;谱聚类;随机森林
0 引言
随着国家对电力体制改革的不断推进、售电侧市场的开放以及新型能源大量接入传统电网,综合能源服务将逐渐成为电网公司的运营重点。目前,我国电力企业发展正处于转型的关键时期[1-6]。综合能源服务是一种新型的能源服务模式,可以满足客户多样化的能源生产和消费需求,涉及能源规划设计、设施投资建设、多能源运行服务、融资服务等。同时,综合能源服务融合了物联网、大数据和云计算等关键技术,以提高能源利用率,降低能源使用成本。目前,已有很多学者针对综合能源服务进行了深入的研究,同时,推荐系统在生活中也有诸多应用,并给人们带来了极大的便利,但关于综合能源服务推荐的相关文献还很少。
综合能源服务推荐在未來将成为综合能源服务的重要组成模块,鉴于此,本文提出一种集成学习的随机森林推荐算法,结合综合能源用户兴趣图谱,帮助用户在大量综合能源服务类型信息中以最快的速度获取感兴趣及有用的服务类别。
本文首先介绍综合能源线上服务目录;然后对获取的综合能源用户评分数据进行兴趣图谱谱聚类,再将聚类数据导入随机森林回归模型训练;最后进行简单的案例研究,验证推荐算法的正确性,并对本文研究进行总结。
1 综合能源线上服务目录
本文提出的综合能源服务目录包括6个菜单:新零售、智能硬件、企业代维、能效提升、移动储能和电力设备租赁。
2 综合能源服务推荐模型的建立及训练
本节将建立基于随机森林的综合能源服务推荐模型。首先对获取的用户数据进行用户兴趣图谱画像,取出80%的数据作为训练集,剩余20%的数据作为测试集,再将训练集数据根据其属性及用户之间的内在因子进行聚类,聚类完成后的每一簇数据导入随机森林模型进行训练。
2.1 基于谱聚类的兴趣图谱
本文数据来源于电网公司,收集了10 000名综合能源用户对24项服务类型的评分以及用户属性(电压等级、历史用电量、年产值、占地面积以及电费占比等)。
2.1.1 构建用户兴趣图谱
对收集到的结构化用户信息进行属性、关系、实体提取,通过指代消解、实体消歧、实体链接等关键技术,将零散的信息进行知识融合后得到一系列知识的表达,再经质量评估得到用户兴趣图谱。
2.1.2 谱聚类
将构建好的结构化的用户兴趣图谱与能源服务产品之间建立联系,进行用户偏好聚类。将用户属性与能源服务产品进行关联,将评分相近的用户聚类,为后续属性相同的新用户提供评分预估基础。针对一个新用户,暂时不参考其访问和评价标签,先根据用户标签,考虑其业务方面的特点进行推荐。
2.2 随机森林回归模型
随机森林回归模型由多棵CART(Classification and Regression Tree)[7]回归树构成,回归树对应着输入空间(特征空间)的一个划分以及在划分单元上的输出值,可用集合来表示,即:{h(X,Ψk)|k=1,2,…,N},X表示输入向量矩阵,Ψk表示生成k棵子回归树,其集合中生长的子回归树都是基于Bootstrap方法抽取的独立样本,且具有相同的分布[4],最后统计得出最终推荐结果。
Step1:假定划分的训练集数据样本为N,则从中采用Bootstrap抽样方法抽取容量相同的样本,形成训练子集。
Step2:假设训练子集有M个特征,则从中随机抽取m个作为分裂特征子集(m≤M),后续采用CART回归算法分裂而不剪枝。
Step3:重复n次Step1~Step2,从而生成相应数量的子回归树(Ψ1,Ψ2,…,Ψn)并进行结果预测,构成RF回归预测推荐模型。
Step4:利用划分的测试集验证该模型的可靠性,以n棵子回归树的输出平均值获得最终推荐结果。
本文采用Forest-RI形式,若训练集有M维,随机选择F(F≤M)个特征向量进行训练,如果F取得足够小,则子树间的相关性趋于减弱;同时,子树集成的效果又随着F的增大而提高。综合考虑,通常需要按照经验公式(1)[6]确定F值。
F=1+log2M (1)
2.3 基于谱聚类的随机森林推荐模型训练
基于谱聚类与随机森林算法模型内容以及综合能源用户的真实评分数据,构建个性化推荐系统。选取80%的用户原始数据进行处理,构建用户兴趣图谱,图谱导入谱聚类模型进行分割,聚类为Nc(Nc=6)簇,将Nc簇数据归一化处理后导入随机森林回归模型,使用经验公式获得模型超参数,FR模型训练结束后,获得各子序列分量的预测值并进行反归一化处理,通过叠加所有子序列的预测值得到最终的预测结果。
3 案例分析
将剩余20%作为测试集的数据导入训练完成的基于谱聚类的随机森林推荐模型中,得到的推荐结果如图1所示。
提取测试集中用户属性数据导入上述推荐模型中,经模型計算后得出综合能源用户对24项服务类型的预测评分,将每一用户对服务类别的预测评分和测试集原始评分由高到低进行排序,再将排序后的预测评分和测试集原始评分取前十的每一项进行“与”运算。若项目类别及评分相同,则在对比结果中显示项目服务类别;若项目类别及评分不相同,则在对比结果中显示“nan”。
由图1推荐结果可以看出,该推荐模型经过训练后,导入用户属性数据,得到的服务类别预测评分与实际评分重合度较高,推荐准确率达到60%,说明该推荐模型是有效的。
4 结语
基于综合能源服务类型包含的6个一级目录,即新零售、智能硬件、企业代维、能效提升、移动储能和电力设备租赁,本文提出了一种针对综合能源服务的推荐方法,该基于谱聚类的随机森林推荐算法适用于综合能源服务推荐,可以作为功能模块集成在未来的综合能源服务平台中。最后,本文通过一个简单的案例证明了所提出的类别和服务推荐方法的有效性。
[参考文献]
[1] 李扬,宋天立,王子健.基于用户数据深度挖掘的综合能源服务关键问题探析[J].电力需求侧管理,2018,20(3):1-5.
[2] JAIN N,ALLEYNE A G.A Framework for the Optimization of Integrated Energy Systems[J].Applied Thermal Engineering,2012,48:495-505.
[3] 王静雯,李华强,李旭翔,等.综合能源服务效用模型及用户需求评估[J].中国电机工程学报,2020,40(2):411-425.
[4] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed Representations of Words and Phrases and their Compositionality[C]// Proceedings of the 26th
International conference on Neural Information Processing Systems,2013:3111-3119.
[5] CHEN T Q,ZHANG W N,LU Q X,et al.SVDFeature:A Toolkit for Feature-based Collaborative Filtering[J].Journal of Machine Learning Research,2012,13(116):3619-3622.
[6] GOLDBERG D,NICHOLS D,OKI B M,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12):61-70.
[7] LESKOVEC J,RAJARAMAN A,ULLMAN J D.Mining of Massive Datasets[M].3rd ED.Cambridge:Cambridge University Press,2020.
收稿日期:2021-02-03
作者简介:周磊(1989—),男,山西临汾人,博士,工程师,研究方向:营业业务管理、电能替代和综合能源技术。
朱超群(1992—),男,山东菏泽人,硕士,工程师,研究方向:电能替代和综合能源技术。
通信作者:骆钊(1986—),男,云南镇雄人,博士,副教授,研究方向:微电网优化、电力系统运行与控制、信息技术在电力系统中的应用。