应用于防汛的树选择贝叶斯分类器研究

2018-11-02 01:04宫龙飞
中国石油大学胜利学院学报 2018年3期
关键词:险情对数分类器

宫龙飞,刘 泽

(山东黄河河务局 黄河河口管理局,山东 东营 257091)

防汛物资作为黄河防汛抢险要素之一,是国家防汛抢险的重要物质基础。在黄河防汛中,黄河水利委员会早已经形成比较完善的黄河防汛物资定额管理体系,在防汛物资储备定额管理上积累了一定经验[1]。物资储备定量的条件下,出现险情如何合理的调度物资成为近年来的热门话题。应用CTAN算法[2],结合以往防汛物资经验,对物资调用实现智能分析,得出结果作为指挥调度的决策支持。

1 黄河防汛物资调度

在防汛物资方面,陈鸿起等[3]采用多供给点思路对物资储备进行优化,构造出3个数学模型,合理分配各仓库的物资储备定额,在满足防汛要求的基础上节约了成本。崔萌等[4]通过对提防、河道、涵闸工程等物资储备测算分析,计算出管理段仓库所需物资储备数量。李晓曦[5]构建了一种ISM模型,为防汛物资优化配备及管理提供决策依据。

在物资调度方面,谈文静[6]针对不确定条件考虑需求紧急度的应急物资调度问题进行研究,综合解决了物资调配和优化问题。宋晓宇等[7]通过改进多目标粒子群算法,应用基于Pareto最优解的多目标应急物资调度,构建了多受灾点、多出救点的应急物资调度模型。同样对于多供应点、多需求点问题,李桂香等[8]利用遗传算法最优解,利用符号编码、特殊交叉算子和变异算子,最终完成了民航应急救灾物资的调度优化。

黄河防汛的物资调度问题不只是简单的两点间最短路径问题,还应该考虑到仓库物资数量、行政划区、车辆调度、多地出险等因素。研究将分类算法应用于物资调度决策推理当中,训练和测试样本为历来防汛物资调度数据。结合实际情况对CTAN算法参数等进行研究,建立应用于防汛的CTAN模型。

2 CTAN模型建立

2.1 CTAN分类器

CTAN分类器全称为基于树选择的分类器,是对朴素贝叶斯分类器(NBC)与树状贝叶斯分类器(TAN)的结合改进[2]。研究通过样本试验来确定相关参数,建立CTAN模型,并应用于黄河防汛项目物资调度决策当中。

CTAN分类器主要通过操作TAN保留对数来构造模型。假设分类模型数据集有n个属性,则其中包括一个分类属性,n-1个非类属性,具体构造过程如下:

(1)取样。对以往数据样本取样S1、S2。S1、S2均包含完整的非类属性和类属性。

(2)生成TAN模型。根据样本S1求每对属性之间的条件互信息CMI(Conditional Mutual Information),由公式(1)决定:

1(X,YC)=

(1)

式中X,Y为非类属性,C为类属性,Xi,Yj,c为三个属性的任意取值组合,i≠j。根据条件互信息生成n-1个节点的最大生成树,确定一个根节点指定生成树方向。将类属性节点作为各节点的父节点加入,生成TAN模型。此时每个节点有最对两个父节点。

(3)确定保留对数。上一步求得互信息生成树后,会得到一个权重序列,依边的权值大小排列,保留对数H∈正整数,且H

(4)分类。对于待分类的实例X(x1,x2,…,xn-1),分类结果为公式(2)(3):

(2)

(3)

集合∏xk表示Xk属性的父节点集合。

研究的CTAN分类器主要应用在险情分级与物资调度两大模块中。

2.2 CTAN分类器的应用

将上述CTAN分类器应用于智慧黄河(河口)平台开发项目中,根据现有历史数据进行样本分析,得出最终CTAN分类器模型数据。研究的算法模型主要用于险情分级与物资调度中。

当黄河堤坝巡查人员发现黄河险情时,利用终端仪器输入险情探摸尺寸,形成立体模型,通过后台计算出建议工程量,人工修改调整后,向系统提出险情告警与调用物资请求。

2.2.1 险情分级

在黄河防洪工程中,险情有3个级别,CTAN模型中对应类属性值分别为一般险情(1),较大险情(2),重大险情(3),无险情(0)。根据历史险情处理记录分析,将数据处理后,样本集S1数据量为400,测试集S2数据量为200。CTAN模型中数据属性如表1所示,属性值全为0则表示无险情。

表1 险情分级模型数据属性

样本集共有7个非类属性,对S1样本操作求互信息,生成非类属性节点的最大权值生成树结果如图1,边权为对应属性的互信息值。

根据CTAN保留对数的不同,我们对样本S2进行测试,通过CTAN模型将S2样本非类属性组合进行分类,分类结果与S2样本类属性比较,不同保留对数下准确率结果如表2,由表2可得保留对数为2时准确率最高,两对属性分别为(裂缝,坍塌)和(管涌,漏洞),此保留对数值将具体运用到智慧黄河电子预案险情分级模型中。

2.2.2 物资调度

巡查人员发现险情后,会向后台请求物资调用来处理险情。各个仓库具有行政划分归属,为了便于调配,一般情况下仓库选择遵循行政划区优先,出现较大险情或以上时,则应遵循最短距离优先。仓库的选择与后台分析的险情分级密切相关。

黄河沿岸大堤每隔一公里都会有桩号标记,智慧黄河平台里,数据以桩号为单位来计算。如图2所示,图中显示的为D市部分流域仓库分布图,其中三角符号表示桩号,粗细线为交通路线,椭圆形表示仓库所在位置。仓库由所在行政单位负责,因此物资调度并非完全按照最近仓库原则来执行。

图1 险情分级最大权值生成树

CTAN保留数CTAN(0)CTAN(1)CTAN(2)CTAN(3)CTAN(4)CTAN(5)CYAN(6) 准确率0.7950.8200.8750.8500.8400.8150.815

图2 D市部分流域仓库分布

构建CTAN模型前,需要先计算出险情分级以及出险点到各仓库距离排序,所得结果作为CTAN属性用于预测分类。其中险情分级由上一小节2.2.1得出,各仓库距离则基于桩号来计算。D市所属流域内总共有桩号约190个,每个桩号间隔1 km,两岸间桩号不同,桩号之间的位置则用a+b形式表示,例如206+300表示桩号206往下游方向300 m位置。

研究模块CTAN模型类属性为14个仓库,非类属性包括险情分级、行政区域、左右岸以及14个仓库距离属性。险情分级结果由上一个模型求得,取值0~3。行政区域包括黄河途径D市的四个行政区域,L县、D区、K区、H区。左右岸有两个取值。仓库距离属性取值为1~4,取值为出险点至各仓库距离排名,为减少运算量,第四名往后赋值均为5。计算距离时,考虑到车辆阻塞情况,需后台管理人员输入阻塞点。

原始样本数据中险情记录包含桩号位置、现场情况以及出库记录等,通过后台计算桩号到各仓库距离后,生成新的样本集以满足CTAN模块属性分类。为了保证决策准确性,根据实际情况,人工添加了部分数据,样本集总量为700,S1数据量为500,S2数据量为200。对S1求互信息,按取值大小前五对结果为表3。

表3 物资调度互信息值排序前5

根据CTAN保留对数的不同,在保留对数取值0~5时,通过CTAN模型将S2样本非类属性组合进行分类,分类结果与S2样本类属性比较,得出准确率。由表4可知,对比结果表明保留对数为1时,效果最好,行政区域大多以黄河为界,因此结果具有合理性。在之后分类预测中,将沿用CTAN(1)模型。最终预测结果将保留前三个概率最大的仓库,发生多处险情时,系统将不会选择正在处理前一险情的仓库,而是顺位选择下一仓库。

表4 物资调度不同保留对数CTAN模型准确率

3 结 语

两种CTAN模型分别用来处理险情分级和物资调度,通过构建模型分类属性建立数据集,并得出不同保留对数下CTAN模型的最优解。试验表明,险情分级模型最优保留对数为2;物资调度模型最优保留数为1。最优解模型已应用于智慧黄河(河口)平台模块中,为防汛物资调度提供决策支持。研究主要是针对险情现状,今后的研究方向会细化仓库出库物资种类等,所构建模型将主要是基于物资请求种类的分析。

猜你喜欢
险情对数分类器
我将赤脚走向荒野
指数与对数
指数与对数
比较底数不同的两个对数式大小的方法
基于特征选择的SVM选择性集成学习方法
可爱的想象力
可爱的想象力
对数简史
基于深度优先随机森林分类器的目标检测
基于差异性测度的遥感自适应分类器选择