王 成 何 启
(1.中交第四航务工程局 第七工程有限公司,广州 510230;2.河海大学 水利水电学院,南京 210098)
混凝土坝可视为一个不断变化的复杂系统,特殊的结构形式和复杂的工作环境,导致大坝的服役性态呈现出复杂、多样、不确定等特点.在诸多反映混凝土坝性态变化的效应量中,坝工界普遍认为,大坝的变形能最直观地反映出大坝的运行性态[1].在混凝土坝长期服役的过程中,积累了大量的变形监测数据,这些数据包含了大量的混凝土坝变形性态信息,为分析混凝土坝变形性态提供了有效的资料,也为变形性态的预测提供了基础信息.
在对混凝土坝的变形情况进行监测时,自动化系统中仪器的数据采集一般都是基于一定时间间隔的,如每六小时一测或每天一测等,且通常保持不变;而人工监测系统由于人为原因、仪器损坏和数据丢失等因素的影响,监测信息之间的时间间隔往往并不能保持完全一致,表现为不等间隔的时间序列,这将给建模工作带来困难.需要特别说明的是,在自动化系统和人工系统中,有时由于仪器长时间损坏,导致监测信息会出现长时间的缺失问题,比如某测点两年的数据序列中某一个月或某两个月的连续缺失,这种类型的数据缺失问题将直接导致无法获得该时间段内该测点的变形情况,当该测点位于大坝关键监测位置时,很可能错过大坝异常变形情况的监测而给大坝的安全分析工作带来困难.另外,数据的长时间缺失导致信息的中断不利于变形情况的整体分析,变形预测工作也不方便展开.因此,需要研究相关方法实现缺失数据的弥补.吕开云[2]指出观测数据插补的方法主要包括内在物理联系插补法和数学插补法两种,并介绍了线性插补法的原理和过程;李双平等[3]对比了常用的数学插值方法,选择了充分利用已有数据信息、插值曲线光滑的三次Hermite分段插值,实现了数据序列的均匀化处理;屠立峰等[4]针对传统插值函数在两端插值区间易出现“龙格现象”的弊端,充分发挥了分形插值法能通过物体的部分信息推求整体性态的优势,将其运用到缺失时间序列的插值计算中;胡添翼[5]运用空间邻近点的变形信息来回归目标测点的变形值,提出了空间邻近点回归插值法和空间反距离加权插值法.
本文将混凝土坝变形监测信息视为时间序列,将信息的不完整问题分为两类来处理,一类是时间序列的单值缺失问题(不均匀问题),即存在小部分时间间隔与整体不一致的数据序列时,对其进行均匀化处理;另一类是连续多个数据缺失问题,对其进行估计补充.
传统的混凝土坝单值缺失处理方法常用插值法进行估计,主要包括分段线性插值、多项式Lagrange插值、Newton 插值、三次样条插值和三次Hermite插值等,这些插值方法对单值缺失数据进行估计时,并不会影响到变形时间序列的整体变化趋势和规律,因此当缺失信息较少时,可采用此类插值方法进行补齐,构成等间隔的变形时间序列.但这些传统插值方法只是基于已知的数据本身,并没有过多考虑实际问题的物理意义,而变形时间序列单值缺失问题的处理是混凝土坝未知时间点变形信息的补充,需要考虑到混凝土坝的实际变形规律.
为此,本文引入非局部平均(Non-local Means,NLM)思想[6-7],提出了混凝土坝单值缺失处理改进的非局部平均插值法,方法思路为:利用变形信息的非局部知识信息,以及变形序列中不同时刻信息规律的自相似性来对缺失时刻的变形值进行估计,在此基础上,引入完整的与目标测点变形趋势相关性最强的变形序列作为计算依据.该方法旨在通过综合考虑变形序列不同时刻变形值之间的自相关性,以及与目标测点位置相当的测点之间的相关性来刻画出缺失信息的特征.
假设坝体某变形测点A 的测值存在不均匀现象,为了估计出单个缺失数据,进行以下步骤.
首先,从测点的整个变形时间序列来看,找出与测点A 的变形趋势相关性最强且序列完整的测点B,可从同一个监测垂线上的诸多测点来寻找.本文采用Pearson相关性检验方法来计算测点变形数据之间的相关性,Pearson相关系数是一种用来定量衡量变量之间相关关系的统计学参数,其计算公式为:
式中:δAi、δBi分别表示A、B测点同一时刻的变形值;N表示序列的总个数.
从式(1)可以看出,Pearson相关系数的值在-1到1之间变化,且相关系数的绝对值越大,代表两变量之间的相关性越强.当相关系数越接近于1或-1时,相关性越强;当相关系数越接近于0时,相关性越弱.另外,当相关系数大于0时,两变量为正相关;反之为负相关.
其次,将测点B 的变形时间序列中与测点A 序列中待求插值点同一时间的变形值称作假设插值点,计算测点B的序列中其它点对此假设插值点变形值的权重.本文采用欧几里德距离(又称欧式距离)的平方(Square of Euclidean Distance,SED)来度量不同时间点对应变形值的相似性.欧式距离的平方计算公式为:
式中:δBi、δBj分别表示B 测点i、j时刻对应的变形值大小.
通常情况下,不同时刻的变形值和之间的差值越小,说明两个时刻的变形越相似,计算时赋予的权重值也越大,权重采用如下公式计算:
式中:h为控制指数函数增减速度的参数,决定着权重的大小.
最后,将基于测点B完整变形序列求出的各个参考点相对于假设插值点的权值赋予测点A 对应时刻的变形值,再对其进行加权平均即可求出插值点的数值,公式如下:
式中:I表示选取的整个时间序列的时刻集.
假设测点A 和测点B的变形时间序列如图1所示,其中测点B的序列完整,测点A 的序列中有缺失情况.图中圆点表示不同时刻对应的变形值大小,方点表示测点A 序列中的缺失值,也即待求的插值点.
图1 单值缺失情况示意图
当变形时间序列中缺失的信息较多时,传统的插值方法难以进行有效的插值计算,而NLM 插值算法虽然可以求出每个缺失点的数值,但需要逐个计算参考序列中其它点对假设插值点的权重值,再计算目标序列中各点对插值点的权重.该方法虽然可行,但计算工作量大.针对上述情况,本文研究混凝土坝变形信息的多值缺失处理方法.
目前常用的多值缺失处理方法主要有非线性回归分析插值法和空间邻近点回归插值法,但两种方法都有其局限性.当回归模型对变形序列的拟合精度较低或缺失段的环境量未知时,非线性回归分析插值法精度较低;空间邻近点回归插值法借鉴了统计模型的建模思想,仅对变量的有限个整数项幂级数展开进行回归,难以全面刻画测点变形之间未知的作用关系.
考虑到空间测点变形之间复杂未知的作用关系难以用具体的数学表达式进行表征,而BP神经网络具有强大的非线性映射能力,经过对样本的学习训练可以勾画出数据背后复杂的信息关系;与此同时,BP神经网络还具备强大的泛化能力,训练好的网络可以实现对新输入样本的有效处理,给出合适的输出结果.因此,为了提高缺失值估计的精度,尽可能找出最接近缺失时刻变形真实值,本文引入BP神经网络来处理空间测点变形之间的未知关系,由此提出相应缺失值的估计方法.
假设某混凝土坝坝体有n个在空间上邻近且结构上相关的监测点,如混凝土重力坝同一条垂线上的测点或混凝土拱坝同一变形分区内的测点(分区方法本文不展开说明),当第i个测点的变形信息由于某些原因出现缺失,即可利用其它m=(n-1)个测点的已知信息来估计i点的信息.基于BP神经网络映射的多值缺失估计方法建立步骤如下:
设样本集中含有输入向量和输出向量之间的Z个模式对,随机取一个模式对k,输入模式向量为A k,期望输出向量为;中间层单元输入向量为S=(s1,s2,…,s p)(p为隐含层节点的数目,下同),输出向量为B k=(b1,b2,…,b p);输出层单元输入向量为L k=(l1,l2,…,l p),输出向量为C=(c);输入层与隐含层之间的连接权为w(w=w ij,i=1,2,…,m;j=1,2,…,p);隐含层与输出层之间的连接权为v(v=v j,j=1,2,…,p);隐含层各单元输出阈值为θ(θ=θj,j=1,2,…,p);输出层单元的输出阈值为γ=(γ).
1)网络参数初始化,通过随机赋值函数给w、v、θ和γ随机赋一个(-1,1)之间的较小值;
2)用输入向量A k、连接权w和阈值θ计算隐含层的输入S;用S通过Sigmoid函数计算隐含层的输出B k,即:
3)用隐含层的输出B k、连接权v和阈值γ计算输出层单元的输入L k,再用L k计算输出层单元的输出向量C,即:
4)用期望输出向量Y k、网络实际输出C计算输出层单元的一般化误差d k,即:
5)用连接权v、输出层的一般化误差d k和隐含层的输出Bk计算隐含层各单元的一般化误差e k,即:
6)用输出层单元的一般化误差d k、中间层各单元的输出B k修正连接权v和阈值γ,即:
式中:η代表学习效率,取η=0.01~0.8;α为动量因子,取α=0.9.
近二三十年来,国内学者通过引进和学习西方的数学教育理论和方法,增强国际间的交流与合作,这是现在与世界进行对话的基础.但是,与数学不同的是,数学教育有很强的民族性、地域性,如何基于中国的民族性和地域性建立中国数学教育理论体系与研究规范,并以此为基础建立自己的话语权,进而与世界对话,融入世界学术圈?
8)随机选取训练样本集中另一个学习模式对,重复步骤3)~6),直至所有的模式对训练完毕;
9)计算网络全局误差函数E,其计算式为:
若E小于预先设定的一个误差值,则网络停止学习;否则重复步骤3)~8),进行样本集的下一轮学习训练;
10)将训练好的网络保存,输入新样本,得出缺失信息估计输出结果.
以n=5为例,输入层即为4个相关测点的变形序列,输出层即为目标测点的变形序列,网络结构如图2所示.
图2 BP神经网络结构示意图
我国某混凝土重力坝坝顶高程384 m,最大坝高162 m;为监测大坝的水平变形,在各重要坝段均布置了垂线.本文以泄1坝段正垂线上的各测点监测数据为例进行分析,验证本文所提出的不完整信息处理方法的有效性,6 个测点的水平变形过程线如图3 所示.可以发现,这些测点的水平变形过程线具有较强的相关性.
以图3中的测点PL5-3为例,首先寻找与该测点变形序列相关性最强的参考序列,目标测点序列与其它各测点序列的相关性计算结果见表1.
图3 泄1坝段正垂线测点水平变形过程线
表1 目标测点与各邻近测点变形序列的相关性结果
从上表的计算结果可以看出,测点PL5-4的变形序列与目标序列的相关性最强,变形规律最相似,因此,参考测点即为测点PL5-4.
对于2014年8月31日到2014年9月18日的变形序列,共有19个变形数据,见表2.
表2 目标测点与参考测点的变形数据汇总表
假设2014年9月10日的变形数据是缺失的,用本文提出的基于非局部平均的插值方法和传统方法分别对缺失值进行估计,结果见表3.
表3 各插值方法的估计结果对比 (单位:mm)
从各插值方法的计算结果可以看出,本文提出的基于非局部平均的单值缺失估计方法的估计结果接近原监测值.同时可以发现,当缺失值不在前后两个数值区间范围内时,传统的插值方法难以有效估计出此类变形值;而NLM 插值方法克服了此局限性,该方法利用变形序列自相似性的同时引入参考序列,提高了缺失值估计的精度.
同样以PL5-3测点的变形序列为例,构造长达一个月的缺失段(2014 年9 月1 日 至2014 年10 月2日).利用BP 神经网络建立同一垂线上的其它测点与目标测点变形序列之间的映射关系.首先将各测点均已知的变形数据组成训练样本导入BP 神经网络中进行学习,其次将其它测点缺失时间的变形值组成新样本导入训练好的网络中计算出目标测点的缺失数据.各方法的计算结果如图4所示,其估计精度见表4,其中可决系数
图4 缺失值估计结果对比图
表4 缺失值估计精度对比
由图4和表4的结果可以看出,本文提出的基于空间邻近点BP 映射的多值缺失估计方法的估计精度均高于其它3种方法,可决系数和均方根误差均达到比较理想的效果;空间邻近点插值方法的估计效果也较好,但该方法仅利用了上下两个测点的变形信息进行回归分析,没有充分挖掘出目标测点变形的相关信息;非线性回归利用了统计模型的思想,在环境量变化不大的情况下可以采用该方法进行估计;线性插值的效果较差,难以适用于多值缺失的估计.
为解决混凝土坝变形信息的缺失问题,本文提出了基于非局部平均思想的单值缺失估计方法和基于空间邻近点BP映射的多值缺失估计方法;工程应用验证表明,本文提出的两种方法计算简单,易于操作,且均具有较高的精确度,可以较好地估计出变形时间序列中的缺失信息.但是,这两种方法仍有待改进的地方:1)基于非局部平均思想的单值缺失估计方法,需要确定时间序列中所有已知时刻变形对缺失时刻变形的权重,整个时间序列长度的选择标准值需进一步的研究;2)基于空间邻近点BP映射的多值缺失估计方法,通过BP神经网络来刻画目标测点变形和邻近点变形的映射关系,但难以用数学显式刻画测点变形之间的关系,需要进一步研究能充分反映混凝土坝各部分变形间相互关系的直观表达式.