谷 涛, 刘大明
(上海电力学院 计算机科学与技术学院, 上海 200090)
随着智能电网建设的不断推进,电网中接入了大量的智能电表,形成了数量庞大的用电数据。挖掘这些用电数据中的隐含信息,对电网规划、分时电价制定、电力负荷预测等工作的开展具有重要现实意义。
智能电网中采集到的用户用电数据,不仅数量巨大,而且种类繁多,但数据的价值密度低,不便于对其进行直观的研究,所以对负荷侧用户进行分类非常必要[1]。传统的分类方式只是采用经济活动性质来进行粗略的划分,如居民用户、商业用户、工业用户。这样的划分并不能精确地描述用户的用电行为。实际中,即使是经济活动性质大致相同的用户,其用电行为也千差万别。因此,采用更加科学的方式对经济活动大致相同的用户进行精确分类,对了解多元化的用户行为具有重要意义[2]。
本文采用模糊聚类算法对用户用电数据进行挖掘,对负荷侧用户的用电数据进行特征划分,并对用户的用电行为进行分析,以期为负荷侧需求响应以及负荷预测等工作提供参考。
模糊聚类算法是通过对目标函数进行优化的一种聚类方法。其输出形式是隶属度。隶属度代表某一个数据点与聚类中心的隶属程度,可以用一个数值来表示。该算法是一种不需要进行监督的模糊聚类方法。
设置输入数据集X={xj},j为输入数据集中的样本,xj={xji}为样本j的特征向量[3],i为样本特征。模糊聚类算法将全部的样本通过一定的概率分为C个类别。V为聚类中心,V={vi},i=1,2,3,…,c。这些概率通过隶属函数来获得。U为隶属度矩阵,U={uij},uij为在i类别中j样本的隶属度,约束条件为uij∈[0,1]。模糊聚类算法的目标函数为
(1)
(2)
式中:n——用户数目;
m——模糊加权参数;
dij——聚类中心vi和用户j之间的欧几里得距离。
然后,通过反复迭代,可得到最优的聚类中心矩阵和隶属度矩阵。
迭代的算法步骤如下[4]。
步骤1 给定聚类数C和模糊加权参数m;
步骤2 给定初始聚类中心V;
步骤3 通过集合V求出Uij
(3)
步骤4 求出隶属度函数后,再次求取新的聚类中心
(4)
步骤5 重复步骤3和步骤4。当连续两次计算结果vi或者Uij的值大致稳定时,则算法结束。
模糊聚类算法的聚类数C是需要设定的。本文预设C分别为3,4,5,通过模拟仿真来得到3种不同的聚类结果,再结合平均指数充裕度(Mean Index Adequacy,MIA)和聚类分数指示器(Clustering Dispersion Indicator,CDI)这两个聚类有效性指标来判断最佳聚类数的设定[5]。
对负荷侧的用户用电数据进行提取主要有两方面的目的。一是降低数据维度。智能电表采集的原始数据是每天各个时段的耗电量,当采样的周期是1 h时,那么单个用户一天就会产生24维度的用电数据,高维数据并不容易划分类别,而且效果也不太理想。所以从24维度用电数据中提取不超过5个特征量进行分类。二是利用特征量反映用户用电行为特点,比单一的用电数据更加优秀。用户的分类是基于用户用电特征提取的,将同一电网中所有用户按照用电特征的相似性分类。本文从一天24维度的用电负荷中,提取出能更好更简洁地代表用户用电特点的5个特征量作为算法的输入集。所选的5个特征量如下[6]。
(1)
(2)
(3)
(4)
日用电总量=一天全部的耗电度数
(5)
由上述5个公式可以算出第j个用户的5个特征值构成的特征向量,即xj={xj1,xj2,xj3,xj4,xj5}。
本试验数据集为一个小区中25个用户一天的用电负荷数据,采样间隔为1 h,每个用户共24个数据,采样的时间为某年2月17日。采用每个用户17号工作日这一天作为分类的训练集,对用户用电行为进行分类研究。
已知输入数据集X={xj},用户数是25个,所以j=1,2,3,…,25,那么xj={xj1,xj2,xj3,xj4,xj5}为每个用户5个特征值构成的特征向量。将这25个用户划分为C类,V表示C个聚类中心,V={vi},i=1,2,3,…,c。
设聚类数C分别为3,4,5,按照模糊聚类算法流程完成对25个用户的3次分类,并利用聚类有效指标来评价C取何值时的分类效果最佳。图1为聚类数C分别为3,4,5的聚类有效性指标。
图1 聚类数分别为3,4,5时的聚类有效性指标
聚类有效性指标MIA与CDI的值越小,聚类结果越优秀。从图1可以看出,当C=5时聚类效果最佳。因此,对于本试验的25个用户,分5类为最佳分类数。
上文已经证明,当聚类数C=5时,聚类效果最好。图2为C=5时各类用户一天的负荷曲线。由图2可以看出,同一类用户的用电数据在一天内的走势大致相同。
通过均值法求出C=5时各个类别一天的负荷曲线模型,如图3所示。
图2 C=5时各类用户一天的负荷曲线
图3 5类用户拟合日负荷曲线
从图3可以看出,每类用户都有明显的特征,第3类用户的用电量明显低于其他4类用户。从用电量、负荷曲线波动性两方面对各类别用户行为特点进行分析。
(1) 第1类用户在20:00有明显的用电高峰,且一天中仅有此用电峰值,最高用电量超过2 kWh。
(2) 第2类用户从7:00至12:00为第1个用电高峰时段,平均用电量超过0.5 kWh,之后在21:00出现第2个用电高峰,峰值接近1 kWh。其余时段用电量很小,波动范围仅限制在0.1~0.4 kWh,无明显峰谷值。
(3) 第3类用户用电量很小,全天用电量保持在0.1 kWh以下,波动性也很小,可能为空置房。
(4) 第4类用户在8:00~14:00和18:00~23:00有两个用电高峰时段,但平均用电量低于第1和第2类用户。
(5) 第5类用户与第4类用户的晚间用电特征相似,但上午没有用电高峰时段。
试验证明,模糊聚类算法结合聚类有效性指标这一方法可以较好地解决负荷侧不同用户用电行为的分类问题,进而挖掘出隐藏在各类用户用电数据信息中的用户行为特征,可以为电网建设、需求响应、负荷预测等工作提供可靠的数据支撑。