秋兴国 刘杰 李娜 黄润青
摘要:為准确地判别矿井水源的类型以减少矿井水害的发生,提出一种改进贝叶斯判别的矿井水源识别模型。通过对砂岩裂隙水、老空水、奥灰水和太灰水4类水源进行水质化验,分析选取K++Na+,Ca2+, Mg2+,SO42-,Cl-,HCO3-6种水质离子作为判别指标;首先使用SPSS Statistics 24软件分析各水质离子之间的相关性,其次对各主成分进行方差贡献率分析,选取前5种水质离子作为主要水质离子,然后根据变异系数法计算主要水质离子权重,最终结合贝叶斯判别法建立水源判别模型,并将模型的预测结果与基础贝叶斯模型的结果进行对比。结果表明:利用改进贝叶斯判别的矿井水源识别模型对14个待测样本进行测试,判别准确率为85.71%,相较于基础贝叶斯模型的准确率提高了21.42%,应用该判别模型的准确率得到了大幅提升;将该模型回代到26个样本中,判别结果与实际情况基本吻合。通过2种模型的对比分析,采用改进贝叶斯模型进行矿井水源识别准确率高且具有研究价值,为矿井水源识别提供新的思路。
关键词:主成分分析;变异系数;贝叶斯判别;水源识别
中图分类号:TD 745文献标志码:A
文章编号:1672-9315(2022)02-0237-08
DOI:10.13800/j.cnki.xakjdxxb.2022.0206开放科学(资源服务)标识码(OSID):
Identification model of mine water source based on
improved Bayesian discriminationQIU Xingguo,LIU Jie,LI Na,HUANG Runqing
(College of Computer Science and Technology,Xian University of Science and Technology,Xian 710054,China)
Abstract:In order to reduce the occurrence of mine water disaster,it is necessary to determine the type of mine water source accurately.A mine water source identification model based on improved Bayesian discrimination method is proposed.Six water ions like K++Na+,Ca2+, Mg2+,SO42-,Cl-、HCO3-are selected as the discriminant indicators by testing the water quality of four types of water sources,namely Sandstone fissure water,Goaf water,Ordovician limestone water and Taiyuan formation limestone water.Firstly,the correlation between water ions is analyzed by using SPSS Statistics 24 software.Secondly,the variance contribution rate analysis of each principal component is examined with the top of five water quality ions selected as the main water quality ions.Then,the weight of main water quality ions are determined according to the coefficient of variation.Finally,a water source identification model is established by using Bayesian method and the prediction results of the model are compared with the results of the basic Bayesian model.The results show that 14 samples are tested by the improved Bayesian discrimination model,and the accuracy of the discrimination is 85.71%,which is 21.42% higher than that of basic Bayesian model.The accuracy rate of applying the model has been greatly improved.Twenty-six back-substitution samples are tested with the model,and the discriminant results much the same with the actual situation.The comparison between the two models shows that it is more accurate and valuable to use improved Bayesian model for mine water source identification,which provides a new idea for mine water source identification.
Key words:principal component analysis;variation coefficient;Bayesian discrimination;water source identification
0引言
中国是世界主要产煤国之一,也是受煤矿水害最严重的国家之一\[1\],在煤矿井下发生的水害水灾是矿井安全工作中的关注重点\[2\],矿井水害一旦发生将会造成极为严重的人员伤亡及财产损失,所以只要及时准确地识别矿井水源就可以采取有效的防治措施。因此,在水害防治工作中,对于矿井水源识别工作是重中之重。目前,水源识别方法包括地下水化学特征分析法、多元统计方法(判别分析法和聚类分析方法)和非线性分析方法(模糊数学法、神经网络法和可拓识别法等)\[3-4\]。陈俊环等利用水质类型的差异,对矿井水源进行判别,并说明水化学分析法存在一定的局限性\[5\];袁文华等将水温水位判别法应用于煤矿水源的判别,建立地温方程计算含水层水温,与实际监测点水温进行比较来判别矿井水源\[6\];孙福勋等利用Fisher判别理论,结合质心距评判法对矿区水样进行了分析判断\[7\];代革联等在煤矿中引用模糊聚类判别法,分析了水质类型相似时水源判别不准确的问题\[8\];徐星等利用神经网络仿真结果误差小的特点将其应用于矿井突水水源判别领域\[9\];张瑞钢等利用可拓识别方法判别矿井突水水源,还有一些未确知数学方法等\[10\]。而上述方法各有适用性,如有的模型复杂、判别过程繁琐、确定离子权重时主观性较强、对误判损失有失考量\[11\],在准确率方面也需要提高等,因此矿井水源识别的算法研究还需进一步深入。
贝叶斯判别法具有判别模型简单、求解速度较快和判别质量高的特点\[12\],在贝叶斯判别法的基础上,结合主成分分析方法,并引入变异系数来进行评估计算过程中水质离子的权重,以消除水源判别过程中离子指标间存在信息叠加以及评价过程中主观因素过重带来的影响\[13\],提高水源判别的准确率,从而减少实际应用中矿井水源类别的误判。
1理论与算法
1.1主成分分析法
主成分分析法(principal component analysis,PCA)是一种降维的统计方法,将可能互相关联的多个元素进行数据压缩,重新组合成一组新的相互无关的元素,达到以尽可能少的数据来表示大部分信息的目的\[14\]。
由于在数据处理过程中难免会遇到高维数据组,由于数据维数较高变量较大,这些变量之间往往会存在一些相关性,因此这些数据样本很难反映总体的主要特征\[15\]。主成分分析将可能具有相关性的高维变量经过线性变换合成线性无关的低维向量,用来提取较少个数的重要变量。在矿井水源识别工作中,经过主成分分析可以在保留主要信息的基础上降低向判别模型输入的维数,减小输入信息量,达到以少量的水质离子就可以代表某类水源的目的,若主成分选取有误差,在实际的水源识别工作中则会类别模糊不清或对最终的判别结果产生影响。利用Statistical Product and Service Solution(SPSS 24)對原始数据进行主成分分析处理。
1.2贝叶斯判别法
1.2.1贝叶斯模型贝叶斯计算公式为
1.2.2贝叶斯模型计算步骤1)计算P(yij),即未经计算水质离子就判断该水样属于哪种水源,此时水样属于每种水源的概率值相同。
1.3变异系数法
变异系数法(coefficient of variation method)是利用各项指标所含信息来计算指标的权重,是一种客观赋权方法。这种方法的基本做法是:在评价体系中取值越大的指标,越能反映该项指标的重要程度。变异系数越大说明该离子的重要程度越大,该水质离子在水样中起的作用就越大,越能代表该水样,故可用变异系数确定的变异性权重来确定水质离子的重要程度。通过变异系数法来计算权重,避免了主观赋权方法中专家的偏好对结果的影响\[23-24\]。数据处理步骤如下。
1.4改进贝叶斯判别的矿井水源判别模型
在对主成分分析、变异性权重和贝叶斯判别模型相结合后,构成了改进贝叶斯判别模型。并在此基础上建立起改进贝叶斯矿井水源识别模型(图1)。
矿井水源识别模型的实验步骤(图2)为:①整理水源数据,进行数据标准化,计算协方差矩阵、特征向量、特征值,写出主成分并根据主成分贡献率来选取在水源中起主要作用的水质离子;②根据总水源种类计算水样的先验概率;③计算变异系数,在多指标综合计算概率时代替原公式中的权重w(数据标准化、计算标准差和变异系数);④推求多指标综合下的后验概率;⑤以最大概率归属原则确定该水样归属。
2矿井水源判别模型建立
2.1数据准备
2.2主成分分析法
在相关系数矩阵中,若相关性小于0.3,说明离子间存在弱相关;若相关性在0.3与0.6间,说明离子直接存在中等强度关系;若相关性大于06,则离子间存在强相关关系(表2)。说明各水质离子间存在相关关系和重叠信息,例如Ca2+和Mg2+关联度达到了92.9%。若直接使用冗余重叠信息进行判断,有可能会对判别结果产生影响,所以要进行降维来减少参与判别模型的水质离子数量。
通过对各主成分进行方差贡献率(表3)分析,可以根据需要来选取需要的主成分。前5个水质离子的累积方差贡献率达到了99.55%,说明这5个水质离子几乎完全可以代表水样中所有离子的特征。2.3权重确立
根据2.2确定的2.1表1中(1-26号)主要水质离子,以及1.3对于变异系数法的论述,通过MATLAB软件实现各主要水质离子的权重的计算(表4)。
2.4贝叶斯模型及判别结果
根据1.2中贝叶斯方法的原理及步骤,对表1中作为数据标准的数据(1~26号)进行回代检验以及对表1中待检测样本数据(27~40号)进行判别并与直接贝叶斯判别进行对比。
在14个矿井水源数据待判样本中,改进的贝叶斯模型判别正确个数为 11个,原始贝叶斯模型判别正确10个。基础贝叶斯判别误判个数为5个,总体正确率为64.29%,而改进的判别模型误判个数为2个,总体正确率为85.71%(表5)。
从表6可以看出,在26个回代数据中,改进的贝叶斯模型判别正确个数为25个,原始贝叶斯模型判别正确 24个;贝叶斯判别正确率为9231%,改进的贝叶斯方法正确率为96.15%。结果表明,改进后的方法更加准确,判别准确率更高。
根据基础贝叶斯判别模型和改进贝叶斯判别模型,对待测样本进行水源类型的归属判别。从结果(图3)中可以看出第5,第6,第9,第11,第13个水源数据类别判别有误,而改进后的贝叶斯判别法后只在第6,第9个水源类型判别有误。
图4表示对样本数据回代进行水源类别的归属判别,在实验中基础贝叶斯判别在第5,第12个水源数据类别判别有误,而改进后的贝叶斯判别法仅在第12个水源数据判误。
在待测样本数据类型判别中改进的贝叶斯模型较基础贝叶斯模型的准确率从64.29%提升到85.71%,提升了21.42%,而回代样本从92.3%提升到96.15%,提升了385%,说明改进后的算法准确率有显著的提升(表7)。
3结论
1)经主成分分析后的水质离子维数降低,降维后的数据能够很好地保留原数据的基本信息,提取出起主要作用的水质离子,避免因信息叠加和人为选取水质主成分的主观性;通过变异系数来客观赋予权值可去量纲化及消除人为赋予权值的影响,并且较为客观地反映水质离子在样本中的重要程度,能够识别指标数据的变化信息。
2)样本回代组和样本测试组的判别准确率較传统贝叶斯模型有明显提高,判别结果可信度高,为水源判别提供了一种新的识别思路,可为矿山防治水提供依据。
参考文献(References):
[1]侯恩科,闫鑫,郑永飞,等.Bayes判别模型在风化基岩富水性预测中的应用[J].西安科技大学学报,2019,39(6):942-949.HOU Enke,YAN Xin,ZHENG Yongfei,et al.Application of Bayes discriminant model in prediction of water enrichment of weathered bedrock[J].Journal of Xian University of Science and Technology,2019,39(6):942-949.
[2]何晨阳.KNN算法在矿井水源识别中的应用[D].淮南:安徽理工大学,2017.He Chenyang.Application of KNN algorithm in mine water source identification[D].Huainan:Anhui University of Science and Technology,2017.
[3]杨立华.谢桥矿地下水化学特征分析与水源识别研究[J].蚌埠学院学报,2016,5(5):33-37.YANG Lihua.Analysis of groundwater chemical characteristics and water source identification in Xieqiao Mine[J].Journal of Bangbu University,2016,5(5):33-37.
[4]汪洋,左文喆,王斌海,等.矿井突水水源判别方法研究进展[J].现代矿业,2018,34(1):69-73.WANG Yang,ZUO Wenzhe,WANG Binhai,et al.Study progress of discriminant method of the sources of mine water inrush[J].Modern Mining,2018,34(1):69-73.
[5]陈俊环.水化学资料在煤矿突水水源判别中的应用[J].河北煤炭,2013(2):53-54.CHEN Junhuan.Application of water chemistry data to ash water source discrimination in mine[J].Hebei Coal,2013(2):53-54.
[6]袁文华,桂和荣.任楼煤矿地温特征及在水源判别中的应用[J].安徽理工大学学报(自然科学版),2005(4):9-11.YUAN Wenhua,GUI Herong.The characteristics of geo-thermal temperature and its application in distinguishing the source of water in Ren Lou Mine[J].Journal of Anhui university of Science and Technology(Natural Science),2005(4):9-11.
[7]孙福勋,魏久传,万云鹏,等.基于Fisher判别分析和质心距评价法的矿井水源判别[J].煤田地质与勘探,2017,45(1):80-84.SUN Fuxun,WEI Jiuchuan,WAN Yunpeng,et al.Recognition method of mine water source based on Fishers discriminant analysis and centroid distance evaluation[J].Coal Geology & Exploration,2017,45(1):80-84.
[8]代革联,薛小渊,牛超.基于水化学特征分析的象山矿井突水水源判别[J].西安科技大学学报,2017,37(2):213-218.DAI Gelian,XUE Xiaoyuan,NIU Chao.Discrimination of water inrush source in Xiangshan coal mine based on chemical characteristics of groundwater[J].Journal of Xian University of Science and Technology,2017,37(2):213-218.
[9]徐星,孙光中,田坤云.GA-BP神经网络在煤矿突水水源判别中的应用[J].煤炭技术,2018,37(10):172-174.XU Xing,SUN Guangzhong,TIAN Kunyun.Application of GA-BP neural network in discrimination of water inrush source in coal mine[J].Coal Technology,2018,37(10):172-174.
[10] 张瑞钢,钱家忠,马雷,等.可拓识别方法在矿井突水水源判别中的应用[J].煤炭学报,2009,34(1):33-38.ZHANG Ruigang,QIAN Jiazhong,MA Lei,et al.Application of extension identification method in mine water bursting source discrimination[J].Journal Of China Coal Society,2009,34(1):33-38.
[11]李春萍,郝会兵.煤巷围岩分类的Bayes判别分析法[J].煤炭学报,2011,36(S2):304-307.LI Chunping,HAO Huibing.Method of Bayes discriminant analysis for classifying minelane surrounding rocks[J].Journal of China Coal Society,2011,36(S2):304-307.
[12]田兵,常芳芳,李婉華.贝叶斯判别方法及其应用[J].阴山学刊(自然科学版),2016,30(1):13-15.TIAN Bing,CHANG Fangfang,LI Wanhua.Bayes discriminant method and its application[J].Yinshan Academic Journal(Natural Science),2016,30(1):13-15.
[13]袁兴明.变异系数赋权法确定GNSS系统硬件延迟[J].大地测量与地球动力学,2019,39(12):1287-1292.YUAN Xingming.A variation coefficient weighting method to determine the difference code bias estimation of GNSS system[J].Journal of Geodesy andGeodynamics,2019,39(12):1287-1292.
[14]范金城,梅长林.数据分析[M].北京:科学出版社,2002.
[15]宫凤强,鲁金涛.基于主成分分析与距离判别分析法的突水水源识别方法[J].采矿与安全工程学报,2014,31(2):236-242.GONG Fengqiang,LU Jintao.Recognition method of mine water inrush sources based on the principal element analysis and distance discrimination analysis[J].Journal of Mining and Safety Engineering,2014,31(2):236-242.
[16]孙文洁,杨恒,李祥,等.PCA与ELM模型相结合的矿井突水水源快速识别方法研究[J].煤炭工程,2020,52(1):111-115.SUN Wenjie,YANG Heng,LI Xiang,et al.Research on rapid recognition method of mine water inrush sourcebased on PCA and ELM model[J].Coal Engineering,2020,52(1):111-115.
[17]段志伟,杜立杰,吕海明,等.基于主成分分析与BP神经网络的TBM围岩可掘性分级实时识别方法研究[J].隧道建设,2020,40(3):379-388.DUAN Zhiwei,DU Lijie,LV Haiming,et al.Study on the realtime recognition method of TBM surroundingrock excavability classification based on principal component analysis and BP neural network[J].Tunnel Construction,2020,40(3):379-388.
[18]王亚,周孟然,闫鹏程,等.PCA-BP模型在判别基于LIF技术煤矿突水水源的应用[J].光谱学与光谱分析,2017,37(3):978-983.WANG Ya,ZHOU Mengran,YAN Pengcheng,et al.Identification of coalmine water inrush source with PCA-BP model based on laser-induced fluorescence technology[J].Spectroscopy and Spectral Analysis,2017,37(3):978-983.
[19]胡友彪,邢世平,张淑莹.基于可拓模型判别矿井突水水源[J].安徽理工大学学报(自然科学版),2017,37(6):34-40.HU Youbiao,XING Shiping,ZHANG Shuying.Identifying source of mine water inrush based on extension model[J].Journal of Anhui University of Science and Technology(Natural Science),2017,37(6):34-40.
[20]YANG L,ZHAO X,PENG S,et al.Integration of Bayesian analysis for eutrophication prediction and assessment in a landscape lake[J].Environmental Monitoring and Assessment,2014,187(1):1-19.
[21]李韶慧,周忠发,但雨生,等.基于组合赋权贝叶斯模型的平寨水库水质评价[J].水土保持通报,2020,40(2):211-217.LI Shaohui,ZHOU Zhongfa,DAN Yusheng,et al.Water quality evaluation of Pingzhai reservoir based on combined weighted bayesian model[J].Bulletin of Soil and Water Conservation,2020,40(2):211-217.
[22]郭江峰,姚多喜,黄河.基于Bayes算法的煤矿井下突水水源判识系统的设计与实现[J].水文地质工程地质,2016,43(2):153-158.GUO Jiangfeng,YAO Duoxi,HUANG He.System design and implementation of water source identification of mine water inrush based on the Bayes algorithm[J].Hydrogeology and Engineering Geology,2016,43(2):153-158.
[23]白禮虎.基于模糊互补判断矩阵和直觉模糊熵的决策研究[D].合肥:安徽大学,2013.BAI Lihu.Decision research based on fuzzy complementary judgment matrix and intuitionistic fuzzy entropy[D].Hefei:Anhui University,2013.
[24]门宝辉,梁川.基于变异系数权重的水质评价属性识别模型[J].哈尔滨工业大学学报,2005(10):69-71.MEN Baohui,LIANG Chuan.Attribute recognition model based on variation coefficient weight for evaluating water quality[J].Journal of Harbin Institute of Technology,2005(10):69-71.
[25]徐国冲,李威瑢.我国城市治理的评估与发展——基于变异系数法的聚类分析[J].发展研究,2019(9):45-57.XU Guochong,LI Weirong.Appraisal and development of Chinas urban governance[J].Development Research,2019(9):45-57.