唐凤珍 顾圣平 张佳丹 郑斯水 马志鹏
摘 要:为加强梯级水电站优化调度和经济运行的管理,针对梯级水电站效益考核中各水电站之间经济效益关系复杂的问题,采用数据挖掘模型进行梯级水电站效益关联性探索。首先,选取各电站相关效益指标的长序列监测统计资料,建立数据仓库;其次,根据关联规则的基本原理,选择合适的最小支持度和最小置信度,建立数据挖掘模型;再次,采用适当的数据挖掘算法Apriori算法对模型求解,得到梯级水电站经济效益之间的关联规则;最后,对模型应用效果进行分析和验证。结果表明:基于数据挖掘模型进行梯级水电站效益关联性分析,可快速有效地获得梯级水电站的经济效益关系,为梯级水电站的效益考核研究提供了新思路。
关键词:梯级水电站;关联规则;数据挖掘模型;Apriori算法;效益考核
中图分类号:TV-9文献标志码:A
doi:10.3969/j.issn.1000-1379.2020.06.029
Research on Benefit Relevance of Cascade Hydropower Stations Based on Data Mining Model
TANG Fengzhen1, GU Shengping1, ZHANG Jiadan1, ZHENG Sishui1, MA Zhipeng2
(1.College of Water Conservancy and Hydropower Engineering, Hohai University, Nanjing 210098, China;
2.Pearl River Hydraulic Research Institute, Guangzhou 510611, China)
Abstract:In order to strengthen the cascade hydropower station management on reservoir optimal operation and economic operation, Data Mining Model was applied to study the benefit relevance of cascade hydropower stations, because of complicated benefit distribution of cascade hydropower stations in benefit evaluation. This method was divided into four steps: selected long-term data of benefit indicators to establish data warehouse; chose appropriate Tmins and Tminc to establish a data mining model according to the principle of association rules; applied Apriori algorithm to calculate the data mining model and obtained quantitive relations between the benefits of cascade hydropower stations; verified and analyzed the feasibility of this model. The results suggest that applying Data Mining Model to research the benefit relevance of cascade hydropower stations can get profit distribution relations between each station quickly and efficiently. These relations give reference to the benefit evaluation of cascade hydropower stations. This model provides new thought for research on the benefit evaluation of cascade hydropower stations.
Key words: cascade hydropower stations; association rules; Data Mining Model; Apriori algorithm; benefit evaluation
1 引 言
為加强水电站优化调度和经济运行的管理,2017年国家能源局印发了《流域梯级工程特性及运行情况资料报表(试行)》,水力发电企业大多也制定了相应的运行考核制度,对运行效益考核提出了更为明确具体的要求。常规意义上的水电站效益考核主要是指发电经济效益考核,单一水电站的效益通常仅需对水电站自身所产生的经济效益进行考核[1-3]。但是,梯级水电站在联合调度过程中效益是相互影响的,龙头水电站对下游水电站具有蓄丰补枯的作用[4],下游水电站对上游水电站也有效益补偿的作用[5],一个水电站运行效益的提高既有可能促进其他水电站效益的提高,也有可能导致其他电站效益的降低,梯级水电站经济效益相互影响的机理比较复杂。因此,在梯级水电站效益考核中如何考虑各电站效益之间的关联性是一个至关重要的问题。
目前,关联性分析的方法主要有回归分析方法、层次分析法、神经网络方法等[6-8],这些关联分析方法虽然在各个领域里应用比较广泛,但是依旧存在局限性,其中回归分析方法比较适用于变化趋势较为明显的数据序列,层次分析法太过于依赖专家学者的主观判断,神经网络方法计算结果的稳定性与网络参数的设置具有较为密切的关系。笔者尝试采用数据挖掘方法进行梯级水电站效益关联性探索。数据挖掘方法是在大量的数据中提取有用的信息,从而建立关联并且给出定量关系的过程[9]。该方法首次是在购物篮分析问题中被提出,后来在金融、医学等领域得到了良好的应用[10],但是其在梯级水电站的效益关联性探索上鲜少应用。近年来随着智慧水利的发展,水电站效益的监测数据以及统计数据不断增多,使得采用数据挖掘方法探索梯级水电站效益的关联性成为可能。笔者将数据挖掘方法应用到梯级水电站效益的关联性分析当中,建立梯级水电站效益关联性分析的数据挖掘模型,在以往较长的梯级水电站发电效益序列数据基础上,挖掘出各电站经济效益之间的关联规则并进行验证,再将得到的关联规则应用到今后的电站效益考核当中,旨在提高考核的公平性和水电站运行管理的积极性,进而提高梯级水电站的综合效益。
3.1 数据预处理
选择Apriori算法进行数据挖掘,将数据库中存在的变量S1水电站年发电量、S2水电站年发电量进行离散化,本案例中采用等宽离散化的方法对数据进行预处理,离散规则见表2、表3。
将数据库中25条数据所涉变量均按照上述方法进行离散化,离散结果见表4,然后将数据输入Apriori数据挖掘算法进行建模。
3.2 效益关联分析模型应用与分析
模型参数中的最小支持度Tmins和最小置信度Tminc目前还没有明确的计算方法和规定,通常采用试算法来进行确定。本模型中最小支持度和最小置信度分别取10%和50%。在此基础上采用数据挖掘模型进行梯级水电站效益关联性分析。满足10%最小支持度和50%最小置信度要求的关联规则主要有两条,见表5。
表5中E12、E13表示S1水電站的年发电量范围为[330 259,452 780) MW·h、[452 780,575 301) MW·h,E21、E22表示S2水电站的年发电量范围是[456 860,663 524) MW·h、[663 524,870 188) MW·h。
(1)由关联规则E12E21可知:当S1水电站的年实际发电量在[330 259,452 780) MW·h区间时,S2水电站的年实际发电量在[456 860,663 524) MW·h区间内。
(2)由关联规则E13E22可知:当S1水电站的年实际发电量在[452 780,575 301) MW·h区间时,S2水电站的年实际发电量在[663 524,870 188) MW·h区间内。
3.3 模型验证与结果应用
采用2001—2007年S1、S2两水电站的年实际发电量数据来验证上述得到的两个水电站发电效益关联规则,2001—2007年S1、S2两水电站的年实际发电量数据见表6。
由表6可见,2002年S1水电站的年实际发电量373 194 MW·h,处于[330 259,452 780) MW·h区间内,属于E12等级,此时S2水电站的年实际发电量为636 200 MW·h,处于[456 860, 663 524) MW·h区间内,属于E21等级,验证关联规则E12E21;2003年和2005年S1水电站的年实际发电量分别为534 262 MW·h和564 525 MW·h,均处于[452 780,575 301) MW·h区间内,属于E13等级,此时S2水电站的年实际发电量分别为731 180 MW·h和800 023 MW·h,均处于[663 524, 870 188) MW·h区间内,属于E22等级,验证关联规则E13E22。由此可见,采用该数据挖掘模型求解得到的梯级水电站效益之间的上述两条关联规则是有效的。
据此,本文提出在梯级水电站发电效益考核当中,为提高考核结果的公平性,可依据这两条关联规则,按以下方法处理梯级水电站之间的发电效益补偿问题:
(1)当S1水电站年实际发电量在E12等级时,若S2水电站的年实际发电量在E21等级,则两水电站之间不需要进行发电效益的补偿;若S2水电站年实际发电量高于E21等级,则S2水电站需要对S1水电站进行一定额度的发电效益补偿;若S2水电站年实际发电量低于E21等级,则S1水电站需要对S2水电站进行一定额度的发电效益补偿。
(2)当S1水电站年实际发电量在E13等级时,若S2水电站的年实际发电量在E22等级,则两水电站之间不需要进行发电效益的补偿;若S2水电站年实际发电量高于E22等级,则S2水电站需要对S1水电站进行一定额度的发电效益补偿;若S2水电站年实际发电量低于E22等级,则S1水电站需要对S2水电站进行一定额度的发电效益补偿。
(3)若不属于以上两种情况时,记在当年来水情况下S1、S2两水电站在梯级调节方式下的年发电量分别为EA和EB,在联合运行方式下的年实际发电量分别为Ea、Eb,且联合运行方式下梯级水电站群的总发电量应不低于梯级调节方式下的总发电量,即Ea+Eb≥EA+EB,则两电站之间发电效益补偿问题可按以下方式处理:
①当Ea>EA时,若Eb≥EB,则S1、S2两电站之间不需要进行发电效益的补偿;若Eb ②当Ea 3.4 与其他关联分析方法的比较 为说明应用数据挖掘方法探索梯级水电站经济效益关系的优越性,采用回归分析方法和神经网络方法分别计算本文案例并进行结果比较,见表7。 运用回归分析方法来探索S1、S2两电站年实际发电量的关系,由于从以往的25条监测数据中无法找到S1、S2两水电站年实际发电量之间的线性关系,因此采用MATLAB编程进行高阶拟合,结果发现采用五阶多项式拟合效果最好,但是残差模依旧高达130.27,可见采用回归分析方法对S1、S2两水电站年实际发电量进行关联分析的效果并不良好。神经网络方法与数据挖掘模型方法得到的计算结果相近,也与实际较为相符,但是神经网络方法得到的结果与设置的训练参数密切相关,计算结果并不稳定。 4 结 论 (1)在影响机理比较复杂的情况下,运用数据挖掘模型探索梯级水电站经济效益之间的关联性,可以快速有效地获得梯级水电站发电效益之间的定量关系,且与回归分析、神经网络等方法相比,结果更准确、更稳定。 (2)将关联规则应用到梯级水电站效益考核中,给出了各电站之间经济效益补偿问题的处理原则,为梯级水电站的经济效益考核提供参考。若在梯级水电站综合考核中还要考虑安全效益和生态效益,则可以将安全效益和生态效益相关指标数据补充到数据仓库中,并进行更加深入的关联规则挖掘。 (3)采用数据挖掘模型进行梯级水电站效益关联规则挖掘,需要大量的监测统计数据为依据,因此应重视对梯级水电站实际运行调度管理过程的监测和相关数据资料的收集、整理和积累。 参考文献: [1] 粟运华.新安江水电站综合利用效益调查报告[J].水电能源科学,1991,9(1):65-69. [2] 陳大鹏,周歧方.陈村水电站综合效益分析[J].水利水电技术,1994(1):52-55. [3] 樊启祥,汪志林,吴关叶.金沙江白鹤滩水电站工程建设的重大作用[J].水力发电,2018,44(6):1-6,12. [4] 王琨,欧阳硕,邵骏.上游水电站梯级调度对龙头石水电站效益的影响[J].水力发电,2018,44(11):104-108. [5] 曲家峰.Shapley值熵权法在梯级水电站效益补偿分摊中的应用[J].水利规划与设计,2016(9):39-42. [6] 金保明.多元线性回归分析方法在计算闽江十里庵洪水流量中的应用[J].水利科技,2007(1):18-19,38. [7] 于永强,沙晓军,刘俊,等.基于模糊层次分析法的大型水利枢纽效益评估[J].水资源与水工程学报,2016,27(3):154-159. [8] 程芳,陈守伦.水利水电规划方案优选的人工神经网络方法[J].水电能源科学,2002,20(1):48-50. [9] AFSHARI M H,DEHKORDI M N,AKBARI M.Association Rule Hiding Using Cuckoo Optimization Algorithm[J].Expert Systems with Application,2016,64:340-351. [10] 商桑,赵春菊,周宜红,等.溪洛渡拱坝施工期混凝土中期降温速率与通水冷却参数关系的数据挖掘模型[J].长江科学院院报,2019,36(6):116-120. [11] 崔妍,包志强.关联规则挖掘综述[J].计算机应用研究,2016,33(2):330-334. [12] 林倩瑜.关联规则挖掘算法研究综述[J].软件导刊,2012,11(6):27-29. 【责任编辑 赵宏伟】