刘 洁 谷剑英
(中水北方勘测设计研究有限责任公司,天津 300222)
水利工程常涉及长距离引调水问题,需要埋设地下输水管线以供后期使用。土壤中富含氧、水分、溶盐和微生物等,输水管线长期埋置于地下会发生腐蚀破坏[1]。材料腐蚀是材料受环境介质的化学、电化学和物理作用产生的损坏或者破坏现象,常发生于工程建筑、日常生活中。这不仅会造成材料损耗、工程成本增加,还可能导致重大事故发生。腐蚀防护事关国家安全、经济发展、民生民利、生态环境等多个方面[2]。腐蚀防护安全问题关系重大,建立、完善和发展土壤腐蚀防护体系具有重要的战略意义、科学意义和现实意义[1,2]。
土壤对钢结构的腐蚀主要分为4类,依次为酸类腐蚀、细菌腐蚀、原电池腐蚀和杂散电流腐蚀[3]。为加强输水管线的防护,减少土壤对钢结构的腐蚀破坏,需要对土壤进行腐蚀性测试,以综合评价其腐蚀能力,因地制宜做好管线防护工作。常规测试参数有5个,依次为土壤电阻率、氧化还原电位、pH值、质量损失、极化电流密度[4]。科学高效地评价土壤腐蚀能力具有重要的实际意义[5]。在以往的研究中,土壤的理化性质常作为判断土壤腐蚀性的标准。但单项指标评价法片面、不具有代表性和说服力,综合指标评价法虽综合性强、能较为全面地作出评价,但数据多、耗时久、操作难度大[6]。土壤的影响因素多且复杂,其腐蚀性评价具有模糊性、随机性和不确定性的特点。故而,引用机器学习模型理论,将多元统计评价方法应用于土壤腐蚀的分析与评价工作中[7]。机器模型成本低、周期短、尺度广、计算效率高,而多元统计评价方法能综合处理多个变量并根据结果做出评价,融合其优势并应用于土壤腐蚀性评价领域,将是一项重大突破[6,7]。
本文采用因子分析和熵权法,构建土壤腐蚀性评价模型,评价土壤对钢结构的腐蚀情况。经数据集训练和测试证明该模型可行、有效,经多个应用实例验证其结果与该模型评价结果一致,证明了该评价方法对土壤腐蚀性评价的有效性。
因子分析法是以原始变量的相关性为出发点,利用降维思想,通过探寻原始变量矩阵的内部关系,将多变量简化为少数因子,进而分析其内在关联[8,9]。其基本思想是:按照相关度的不同将原始变量进行分类,类别内部变量的相关性和变量联系呈正相关关系,即:类别之间的变量相关度高,则联系紧密;类别之间的变量相关度低,则联系稀疏[10,11]。
土壤腐蚀性的因子分析法一般步骤[12,13]为:
(1)确定变量和搜集资料,构建m×n的矩阵,m为样本数量,n为原始变量数(常规测试中n=5);
(2)通过标准化式(2)~式(4),对原始数据进行预处理,以消除各变量因量纲和数值差异对计算产生的影响:
其中,xij为原始数据,zij为标准化数据;
(3)因子分析要求变量具有连续性和相关性,故在分析数据之前,需要对数据进行KMO检验和Bartiett球度检验。
通过计算KMO值,可知样本是否适合采用因子分析法进行评价。当KMO<0.5时,说明该样本不适合采用因子分析法进行综合评价;当0.5
Bartiett球度检验值若小于显著性水平,说明变量间有相关性,可以进行因子分析。
具体计算公式如下:
(4)计算相关系数矩阵,如式(6)所示:
其中,i=j时,rij=1;i≠j时,rij= rji;
(5)求解相关系数矩阵特征值和特征向量,并计算贡献率,如式(7)所示:
设R的特征值依次为λ1,λ2,…,λn,且规定λ1≥λ2…λn≥0,则λi/(λ1+λ2+…+λn)是第i主成分的贡献。方差贡献率指的是第i因子对所有原始变量的信息提取程度。累积方差贡献率是提取出的所有因子对原始变量总共提取的信息量,即(λ1+λ2+…+λi)/(λ1+λ2+…+ λn);
(6)确定公因子个数。提取几个因子可根据以下几点来确定:
1)初始特征值大于1的因子个数;
2)累积方差解释率达到一定水平(一般为60%)的因子个数;
3)碎石图中处于陡峭斜率所对应的因子个数;
(7)对因子载荷矩阵进行旋转处理
采取最常用的最大方差法进行旋转。旋转处理后的因子载荷矩阵能对各原始变量更好地进行分类。旋转次数可以自己规定,也可以通过SPSS软件进行确定;
(8)计算因子得分
将公共因子当作分析变量,计算其因子得分。
在信息论中,熵是对不确定性的一种度量。不确定性越大,熵就越大,包含的信息量越大;不确定性越小,熵就越小,包含的信息量就越小。利用熵权决策法来计算各评价指标的权重,即是利用评价指标的有效信息量来计算,有效信息量越大,权重就越大[14]。根据熵的特性,可以通过计算熵值来判断一个事件的随机性以及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重越大)。比如样本数据在某指标下取值都相等,则该指标对总体评价的影响为0,权值为0。熵权法是一种客观赋权法,因为它仅依赖于数据本身的离散性。
(1)数据标准化处理,如式(8)所示:
(2)计算因子所占比例,如式(9)所示:
(3)计算各因子权重,如式(10)所示:
其中,dj是第j项指标的信息效用值。
其中,ej是第j项因子的熵值。
(4)计算综合得分,式(13)所示:
收集不同地区土壤腐蚀性参数数据,总计样本数m为100,原始变量数n为5(包括土壤pH值、氧化还原电位、土壤电阻率、极化电流密度和质量损失)。
首先将不同量纲的训练数据集通过标准化公式进行标准化处理消除数据自身对结果的不利影响。分析样本变量数据间的相关关系是进行因子分析的先行条件,若变量间的相关关系较差,则无法分析出公共因子。在SPSSPro软件中,变量相关关系由KMO检验和Bartiett球度检验进行评价。KMO检验用于分析原始变量数据间的简单相关性和偏相关性的大小关系,Bartiett球度检验用于检验变量数据是否符合多元正态分布。
由表1可知,KMO统计量为0.619,Bartiett球度检验的概率值小于0.05(显著性水平),说明所分析的5个变量之间是存在相关性,符合因子分析的前提条件,可以进行因子分析。
表1 KMO检验和Bartlett检验
由表2可知,前两个因子的初始特征值均大于1,且累积方差解释率为大于60%,说明这两个因子能够基本反映土壤对钢结构的腐蚀情况。结合碎石图(如图1所示)中处于陡峭斜率所对应的因子个数,可以确定选取前两个因子进行分析。
图1 碎石图
表2 方差分析
为了赋予因子载荷实际意义,采取最大方差法进行因子旋转,旋转后因子载荷系数如表3所示。因子旋转前后,累计方差解释率并未变化,但是各因子解释原有变量的方差进行了重新分配,其方差解释率发生了变化。由表3可知,第1因子在质量损失上有较大的载荷,体现出导电性质。第2因子在氧化还原电位上有较大的载荷,体现出电化学性质。
表3 旋转后因子载荷系数
表4说明各个成分的所包含的因子得分系数(主成分载荷),用于计算出成分得分,得出主成分公式。计算得到各样品对钢结构腐蚀能力的两个因子得分,最后根据各因子解释率得到最终的综合得分。得分情况如图2所示。
图2 主因子得分情况
表4 成分矩阵
第一个公共因子与质量损失、视电阻率和电阻率有较大相关性,它代表了土壤的物理性质,反映土壤介质的导电能力。第二个公共因子与氧化还原电位和pH值有较大相关性,它代表了土壤的电化学性质。
将通过因子分析法得到的两个主因子带入式(8)~式(12),计算出第1因子、第2因子的权重分别为 33.986%、66.014%。得分情况如图3所示。
图3 熵权法得分情况
选取海南、安徽、河北、天津等地区共计72个土样,采用因子分析-熵权法模型综合评价其对钢结构的腐蚀情况,将分析结果与GB50021-2001《岩土工程勘察规范》(2009年版)得到的腐蚀等级结果进行对比,结果如表5所示。GB50021-2001《岩土工程勘察规范》(2009年版)将土壤腐蚀性等级分为微、弱、中、强4个等级。由表5可知,72个土样中微腐蚀有13个,弱腐蚀有10个,中腐蚀有30个,强腐蚀有19个。腐蚀性等级均未出现跨等级跳跃的情况。总体上,因子分析-熵权法模型评价指标得到的综合评价结果与规范的评价结果基本一致。
表5 因子分析-熵权法模型土壤腐蚀性评价结果
(1)本文提供了一种系统、可靠的土壤对钢结构腐蚀性综合评价方法,该方法通过因子分析法得到的影响土壤腐蚀性的关键因素F1和F2作为评价指标,再通过熵权法计算权重得到各土壤的得分情况,从而最终得到土壤腐蚀性评价结果;
(2)经多个应用实例验证其结果与该模型评价结果一致,说明该模型可推广使用。同时,该评价方法为土壤腐蚀性评价工作提供了一种具有借鉴意义的新思路。