明 星,李子阳
(1.宁波市北仑区大碶街道农业办公室,浙江 宁波 315800;2.南京水利科学研究院,南京 210029)
大坝监测系统的自动化及监测资料的自动采集为信息的获取提供了便利,但是,在所获得的大量大坝原位监测资料中,也常常会存在这样两种现象:①由于自动化监测仪器性能的不稳定,有时会出现测值的突然改变(变大或变小),即所谓的“粗差数据”,但这也有可能确实是由于外界环境因素或被观测体本身性态等发生较大改变,使观测结果表现异常的正常数据(为下文表述方便,称这类数据为“异常数据”),由于粗差数据和异常数据均表现为与正常数据的较大差异,两者难以准确区分;②由于自动化监测的便捷性,为尽可能多的反映监测状况,监测时段往往设的很密(如以h为频率),而建模分析基本都是以d为频率间隔选取数据分析序列,这样对于自动化获得的>1 d时段的原位监测数据,现工程上常用的整编方法就是选择一个统一的参考时间(如8: 00am),以该时刻(或其附近)的数据作为当天的监测数据进行建模,难以保证选取到较好的测值并造成了信息的流失。
为了提高自动化系统监测数据的稳定性以及监测数据分析的准确性和合理性:①利用自动化监测仪器的便利性以获得较多的原位监测数据显然是必要的;②对于所获得的大量原始数据序列,为了分析的便利,对于>1 d时段监测数据的选取,又希望能够尽可能多的利用所有监测信息,从而尽量避免信息的流失并选取较好的测值而不是粗差数据进行计算分析。即自动化监测数据应该在保证数据稳定、简洁的同时又能快速准确的在测值中反映出坝体性态的真实变化情况。以上问题归结到监测资料的数据整编处理上,即是在对粗差数据和异常数据诊断的基础上,剔除粗差并使得所选监测数据值尽可能多的包含有用信息。由于粗差数据和异常数据的相似性,在现有的数据分析方法中,能够较好识别两种数据的方法还很难找到。本文根据两者的本质区别,引入未确知有理数滤波方法进行分析处理。
在大坝安全监测数据中,粗差数据是含有粗大误差、严重偏离真实值(或既定统计模型)的大坝原位监测数据;异常数据是由于外界环境因素或大坝性态发生重大改变所导致的(严重)偏离数据序列统计特征(或既定统计模型)的大坝原位监测数据[1]。粗差数据和异常数据同为异常信息,从数据外观上来看,两者均表现为在数值上与正常监测数据相比有较大的差异。如果仅从这点对数据进行判别,则不能区分。如现有工程中常用的莱因达准则[2]对粗差数据和异常数据的判定就没有明显的区分界限[3-4]。
进一步分析粗差数据和异常数据的变化情况可以发现,其根本区别在于:粗差数据在数值上具有突发性,在相邻监测数据中通常是以个别形式出现,一般不构成连续性,这种现象在数理统计上表现为污染正态分布;而异常数据则具有多个数值上接近的测值连续出现的特点,表现为在均值附近位置摆动增大,并且一般都具有一定的趋势性。表现在监测序列过程线上(图1),即:如果δi是粗差数据,则δi是孤立的,与其前后时刻数据δi-1与δi+1的变化无必然联系;若δi是异常值,则δi是连续的,必然会带动其后时刻的测值δi+1,δi+2,…,δi+p出现连续的趋势性变化。
图1 粗差数据和异常数据示意图Fig.1 Blunders and outliers data sketch map
未确知有理数是现有处理和表达未确知信息的主要数学工具之一,其定义如下[5]:
定义1 设ai∈R⊂G,αi∈[0,1],i=1,2,…, n,ψ(x)为定义在g(I)上的灰函数,且
若a1<a2<…<an,0<αi≤i(i=1,2,…,m),且∑αi=α≤1,则ψ(x)称之为未确知有理数,记作[[a1,an],ψ(x)],αi称为ψ(x)的ai总可信度。
对于上述未确知有理数G=[[a1,an],ψ(x)],称如下一阶未确知有理数
为未确知有理数G的数学期望。
对于>1d时段监测数据的选取整编问题,根据粗差数据的单独性和偶然性以及异常数据的连续性和趋势性,应用未确知有理数滤波方法进行分析。
根据分析的需要,对最小数据分析单元(如1 d)内自动化监测所获得的连续n次原始监测资料序列δ1,δ2,…,δi,δn,看作是一个未确知有理数G,即:
式中ψ(x)为测量真值的可信度分布密度函数。
则如何定义ψ(x)使之能区别粗差数据和异常数据的功能是问题的关键。
根据粗差和异常值的本质区别:如果δi是粗差数据,则在δi的某个小邻域内,与其值相近的δj(iλ≤j≤i+λ,j≠i)个数为零或很少;若δi是异常值,则在δi的邻域内与其值相近的δj个数会越来越多。由此,以测值邻域内包含该测值附近测值的个数表征其可信度来定义ψ(x),即δi邻域内的δj越多,则认为δi的可信度就越大;反之,δi的可信度就越小,则有:
式中ξi表示δi邻域|δ-δi|≤λ中包含δj(j≠i)的个数,邻域半径λ根据仪器精度、稳定性及实测数据序列特点综合选取。显然,可信度越小的数据越有可能是粗差数据。
从ξi的定义不难理解,如果 λ设置过大,则可能不能识别所有的粗差数据,导致纳伪;而如果λ设置过小,又可能将正常数据判定为粗差数据,导致弃真。因此,λ取值是否合理将直接决定未确知滤波探测粗差的成功与否。而从对观测序列的应用分析可知,如观测序列相邻观测值的平均差值较大,则λ应取较大值,反之,则λ取较小值,即λ的取值与数据序列的统计特性有关。因此,可以依据对数据统计量的分析选取,如可取λ为对整个观测序列求两倍差值方差:
式(4)以每个测值相应的可信度反应其为粗差可能性的大小,从而达到粗差探测的目的。进一步分析,为了剔除粗差,并尽可能多的利用有用信息使数据显示平稳,采用未确知有理数的数学期望E (G)作为最终整编输出的测值结果,由式(2)有:
求未确知期望的实质是将各原位监测数据的可信度作为权重对监测数据进行加权求和。根据未确知有理数滤波原理,粗差数据相应的可信度ξi为零(或接近为零),则通过加权求和求解数学期望可以达到剔除粗差并保留有效信息的目的。因此利用未确知有理数滤波并采用未确知期望作为最终输出的原位监测数据的整编结果是科学合理的。
从上面的分析可以看出,用未确知有理数滤波对自动化监测原始数据进行处理,可以提高自动化监测系统的抗干扰性并获得较好的整编输出数据,给后面的建模分析提供便利。
但从有理数滤波的特点也可以看出,其分析的数据特点是:有多个数据输入而只需要输出一个结果的情况。那么,对于未确知有理数滤波,是否也可以将其直接应用于建模资料序列(不同于原位监测资料)的处理,对整个资料序列或将序列分段进行有理数滤波呢?有关学者已在这方面进行了相关研究[6],下面通过观测值本身yi和与其相邻的2k个观测值在内的共2k+1个测值根据可靠度分析并求未确知期望作为该测值的滤波值对其适应性进行分析。
根据文献[6]的分析,按式(4)并经略微改动作为测值可信度的大小:
其中ξi表示yi邻域{y‖y-yi|≤λ,λ>0}中包含yi的个数,为与相邻最近2k的个观测值,j≠i。
由此,若yi的ψ(x)=0,则显然可以将yi作为粗差数据剔除。按式(6)类似的给出yi测值的滤波值用下式求得:
由上式可以看出,若所选时段没有粗差数据,则各个测值的可信度大小计算值一致,由此计算的yi滤波值为:
即所选时段测值的平均值,这显然不甚合理。
采用未确知有理数滤波对建模数据序列进行处理可以通过数据段的合理选取实现较好粗差识别的效果,但在无粗差数据的情况下,对该测值与其所选时段测值进行简单的加权平均作为该时刻的滤波值,一定程度上削弱了测值表征该时刻监测体状况的能力,造成了有用信息的流失,因此,其合理性有待进一步分析。
湖南省某重力坝坝顶共布设9个引张线自动化测点(编号为YZX1~YZX9),监测坝顶顺河向水平位移。引张线自动化系统测频基本是1次/h,由此获得大量的原位监测数据。为剔除粗差并适应建模数据序列要求,在建模分析前,需进行原位测值的未确知有理数滤波。选取YZX2测点顺河向数据序列2000年11月1日~2001年2月28日为例进行分析,分别按以下3种办法确定建模分析序列:①选取8:00am(或其附近)测值作为当天测值(常规办法,对应图2中常规测值曲线);②对当天测值序列按本文第三节方法进行未确知有理数滤波(UF法),将所得滤波值作为当天测值(对应图2中UF测值曲线);③采用文献[6]的改进未确知有理数滤波法(IUF法)对整个测值序列进行未确知有理数滤波,将所得滤波值作为当天测值(对应图2中IUF测值曲线)。由此得到的测值序列对比见图2(图中符号规定以顺河向位移向下游为正)。
由图2可见,单从曲线平滑度来看,IUF法>UF法>常规方法。但从与水位变化过程线的对比可见,IUF法由于一定程度上考虑了与周围测值的加权平均,所得滤波值虽然更平滑,但受水位变化的影响表现也被相应的减弱了;而UF法在滤波的同时较好地保持了与水位变化之间的影响关系,基本没有造成重要信息的流失。如图2中所框示的①、②两个区域,UF法所获得的滤波值较好地体现了坝顶顺河向位移随水位变化而变化的规律(水位上升,向下游位移增加;反之,则反。);而IUF法所获得的滤波值由于将环境量的影响进行了一定程度的前后平均,其所体现出的位移随水位变化的效果甚至不如常规测值。当然,测值变化规律也受到了温度和时效等的影响,这里不作进一步分析。
图2 测值有理数滤波对比图Fig.2 Rational number filtering compare map
对上述3种方法的滤波数据进行建模,拟合结果见表1(其中R为复相关系数,S为剩余标准差)。根据UF法进行建模分析所获得的拟合及残差过程线见图3。表1和图3进一步说明了UF法相对于另外两种方法的有效性和合理性,其所获得的滤波值更利于后面建模等的进一步分析。
表1 滤波数据对模型精度的影响Table 1 Filtering data effecting on model precision
图3 UF测值拟合及残差过程线Fig.3 UF measuring fitting volume and residual error graph
在大坝安全监测自动化所获得的原位监测资料整编处理过程中,根据粗差数据和异常数据的本质区别,即粗差数据的单独性和偶然性以及异常数据的连续性和趋势性,以测值邻域内包含该测值附件测值的个数表征其可信度,并以未确知有理数均值的形式输出整编值,以达到剔除粗差并使整编数据尽可能多的包含有用信息的目的,由此建立了基于未确知有理数滤波的自动化监测数据粗差识别和数据整编的新方法。在此基础上分析了未确知有理数滤波的适用范围,指出其应用于多输入单输出的数据处理情况。实例分析表明,对于>1 d测值的自动化监测数据处理,未确知有理数滤波在剔除粗差的同时较好地避免了重要信息的流失,与改进的未确知有理数滤波法相比,有利于后面建模等进一步分析。
[1] 李子阳.大坝病险预警的盲分析模型和方法[D].南京:河海大学,2009.
[2] 张 敏,袁 辉.莱因达准则与异常剔除[J].郑州工业大学学报,1997,18(1):84-88.
[3] Qin Shuming.Testing Both Upper and Lower Outliers in Normal Samples[J].Mathematics in Economics,2001,18(2):62-67.
[4] 吕世德,徐 晖,邓念武.大坝观测资料异常值的处理方法探讨[J].大坝观测与土工测试,1998,22(6):18-25.
[5] 刘开第,吴和琴,庞彦军,等.不确定性信息数学处理及应用[M].北京:科学出版社,1999.
[6] 黄红女.土石坝安全监控理论与技术的研究及应用[D].南京:河海大学,2005.