刘志锋,邹学钢,唐啸虎,魏振华,刘伟真,李润钦
(1.东华理工大学核技术应用教育部工程研究中心,江西 南昌 330013;2.东华理工大学信息工程学院,江西 南昌 330013;3.江西省核地学数据科学与系统工程技术研究中心,江西 南昌 330013;4.上海金泓信息科技有限公司,上海 200233)
铀矿中子测井技术是铀矿资源量估算领域的研究热点之一。铀矿中子测井数据在采集过程中易受到井液成分、地层孔隙度、岩性等因素的影响[1],存在大量的数据噪声,其数据矩阵具体表现为真实数据矩阵与噪声矩阵之和。在应用测井数据进行矿层定位、含量解析、开采价值判断等工作前,必须对测井数据进行去噪处理,以提高数据分析结果的精度[2],这对于铀矿资源量的准确估算以及后续的开采工作具有十分重要的意义[3]。为了解决噪声或异常值的影响,众多科研工作者对于如何从受到噪声影响、损坏的数据集中精确地恢复出真实数据,开展了深层次的研究,提出了低秩矩阵恢复(LRMR)[4]。LRMR 在处理数据缺失、损坏和异常值污染等情况时,具有重要的实用性;在原始数据欠采样的情况下,LRMR 依然可以精确或近似精确地恢复出真实数据矩阵[5]。LRMR 的提出,是在处理向量的稀疏表示基础上的深入研究,该理论主要用于解决满足低秩条件的矩阵如何恢复出真实数据的问题[6]。常用的LRMR 模型在对含有噪声的数据进行去噪时,只有当噪声矩阵满足严格的稀疏性要求时,才能表现出较好的去噪效果,因此在实际应用中有一定的局限性[7]。铀矿中子测井数据中的噪声数据来源复杂,不一定满足稀疏性的要求,传统的LRMR 模型对铀矿测井原始数据去噪效果不是很理想[8]。本文在传统LRMR 模型的基础上,引入加权范数的思想对模型进行改进,并应用LRMR 模型常见求解算法中表现效果较好的非精确增广拉格朗日乘子法(IALM)[9]对模型进行求解,使其在处理含有复杂噪声的中子测井数据时,表现出了良好的去噪效果。
对于一个矩阵A,矩阵A中的数据受到矩阵E的干扰和损坏,得到矩阵D∈Rm×n,D=A+E。矩阵E是一个稀疏矩阵,其元素值较大。如何从矩阵D中恢复出矩阵A,这就是LRMR 理论要解决的问题,可转换成如式(1)所示的优化问题[7]。
式(1)中:‖ ‖*为矩阵的核范数,等于矩阵的奇异值之和;为矩阵(s×n矩阵)的L1范数,;在实际计算中,平衡参数λ的建议取值为[4]λ=,s.t.表示受约束于。
在常用的LRMR 模型求解算法中,IALM 的运算效果最佳[9]。对于优化问题式(1)的增广拉格朗日函数,可以使用增广拉格朗日乘子法来求解[10]。构造一个拉格朗日函数,将有约束问题转化为无约束问题:
式(2)中,Y为拉格朗日乘子,为了使A+E更精确的趋近于D,使上述拉格朗日函数更加精确,Y要足够大;μ>0 为惩罚参数;‖ ‖F为矩阵的F范数。假设,Y=Yk,μ=μk,IALM 在迭代的过程中,对计算结果的精确度不做要求,因此,矩阵A和矩阵E在进行迭代更新的时候,可以通过如下的计算方式进行更新:
要使LRMR 有效地发挥去噪的作用,噪声矩阵E就必须是一个严格稀疏的矩阵,在实际工程中是难以达到的。本文通过在传统LRMR模型中引入加权范数[11],把加权核范数的思想应用到矩阵的奇异值上面,赋予较小奇异值一个较大权重值,可以提高值较小的奇异值的影响,赋予较大奇异值一个较小的权重值,可以降低值较大的奇异值的影响,这种赋予权重值的方式,使得加权后的核范数与矩阵的秩非常接近。用加权核范数确保算法所得结果中矩阵A满足低秩性要求,用加权m1范数确保算法所得结果中矩阵E满足稀疏性要求。在算法模型中引入F范数,用F范数确保真实数据矩阵具有稳定性。经过上述处理,不但提高了算法去噪的效果,还平衡了去噪结果的稀疏性和稳定性。改进的加权低秩矩阵恢复模型如式(5)所示。
式(5)中,m={m1,m2,…,mn}是与矩阵A的奇异值σ={σ1,σ2,…,σn}一一对应的权重值,W中的元素wij是与稀疏矩阵E中的元素eij一一对应的权重,值⊗运算表示两个矩阵中对应元素相乘(wij×eij),对矩阵E的m1范数进行加权处理,可以使矩阵E的m1范数跟矩阵E的零范数非常接近。‖A‖F是矩阵A的F范数,是F范数约束项,t>0。
要对改进的加权低秩矩阵恢复模型进行求解,第一步工作,是把权重m={m1,m2,…,mn}和W的取值确定下来。W中每一个分量的取值和稀疏矩阵E中对应的非零元素成反比关系,m={m1,m2,…,mn}中每一个分量mi的取值和低秩矩阵A的奇异值σi成反比关系[12]。
当权重值m={m1,m2,…,mn}和W确定了之后,把它们代入式(5)中,就可以把m={m1,m2,…,mn}和W看作两个常数。接下来计算优化问题式(5),得到它的增广拉格朗日函数,如式(6)所示。
在式(6)中,Y是拉格朗日乘子,Y∈Rm×n,μ表示惩罚参数,μ>0。使用变量分裂的方法,对式(6)进行交替求解;令Y=(Y1,Υ2),μ=(μ1,μ2),得到拉格朗日函数的无约束形式,接着对式子进行变形,得到式(7)。
由IALM 可知,奇异值收缩算子和软阈值可以分别近似代替核范数和m1范数中的最小值。以秩为60 的矩阵为例,收敛条件设置为1e-7,改进的加权低秩矩阵算法模型可以用图1 的流程进行求解:
图1 改进的低秩矩阵恢复模型求解流程Fig.1 Solution process of modified LRMR
在铀矿资源勘查领域,铀矿中子测井是铀矿资源量估算的重要研究方向之一[13]。在铀矿床的铀含量分析工作中,必须保证分析结果的准确性和可靠性,为解决数据噪声对铀矿识别的影响,使用传统的LRMR 模型、改进的LRMR 模型分别对铀矿中子测井原始数据进行去噪,再使用支持向量机、决策树算法对去噪后的数据进行分类[14],根据分类效果比较两个模型的去噪能力。本文使用的原始数据来源于某矿山的野外铀矿中子测井实验,中子测井每米大约取10 个测量点[15]。中子测井数据模型如表1 所示。
表1 中子测井数据模型Table 1 Neutron log data model
表1 中的m 行n 列的数据可看成待去噪的原始数据矩阵D;
中子测井数据容易受到井下井液、地层孔隙度、岩性等因素的影响,在现场难以对这些影响因素进行修正。原始数据矩阵D中的噪声矩阵E形式如下;
原始数据矩阵D可看成真实数据矩阵A与噪声矩阵E的和,即D=A+E,其中,矩阵A如下所示:
对铀矿中子测井数据进行去噪的工作,就是根据原始数据矩阵D恢复出真实的未受噪声影响的数据矩阵A。
本文列出了某铀矿的部分中子测井实验数据,如表2 所示。
表2 某铀矿部分中子测井数据Table 2 Some neutron log data from a uranium deposit
分别使用传统的、改进的LRMR 模型对铀矿中子测井原始数据集进行去噪处理,将得到的真实数据样本集作为输入集用于模型训练,得到分类模型,再利用分类模型对测试集进行分类。对铀矿中子测井原始数据去噪、矿层分类的处理流程见图2。
图2 数据去噪、分类流程图Fig.2 Process of data denoising and classification
3.2.1 支持向量机对测试集进行分类
首先从铀矿中子测井数据集中选择182 条数据作为训练集,使用IALM 求解传统和改进后的LRMR 模型,并应用两个模型分别对这182 条数据进行去噪。用经过去噪的数据作为支持向量机(SVM)的训练集,建立分类模型。另外从铀矿中子测井数据集中选择120 条数据作为测试集,用相同的方法对测试集中的数据进行去噪。收敛条件设置为1e-7,最大迭代次数设置为2 000 次。
使用支持向量机对未去噪的、经过传统LRMR模型和改进的LRMR模型去噪的测试集进行分类,实验结果如图3~图5 所示。图中,x轴表示测试集样本编号,y轴的0 表示非矿层,1 表示矿层,三角形表示数据的真实类别,正方形表示支持向量机的预测结果,如果横坐标对应数据点的三角形和正方形重合,表示预测结果和真实结果一致,该条数据被正确分类,如果三角形和正方形不重合,表示该条数据没有被正确分类。
图3 SVM 对未去噪的数据分类结果Fig.3 Classification results of SVM for the original data
图4 SVM 对经过传统模型去噪后的数据的分类结果Fig.4 Classification results of SVM with data denoised by LRMR
图5 SVM 对经过改进的模型去噪后的数据的分类结果Fig.5 Classification results of SVM with the data denoised by the modified LRMR
3.2.2 决策树算法对测试集进行分类
使用IALM 算法求解传统和改进后的LRMR模型,利用两个模型对测试集中的数据去噪,然后使用决策树算法分别对未去噪的、经过传统LRMR 模型、改进的LRMR 模型去噪的数据进行分类,所得结果如图6~图8。图中,x轴表示测试集样本编号,y轴的0 表示非矿层,1 表示矿层,三角形表示数据的真实类别,正方形表示决策树的预测结果,如果横坐标对应数据点的三角形和正方形重合,表示预测结果和真实结果一致,该条数据被正确分类,如果三角形和正方形不重合,表示该条数据没有被正确分类。
图6 决策树对未去噪数据的分类结果Fig.6 Classification results of decision tree with the original data
图7 决策树对经过传统LRMR 模型去噪的数据的分类结果Fig.7 Classification results of decision tree with the data denoised by traditional LRMR model
图8 决策树对经过改进的LRMR 模型去噪的数据的分类结果Fig.8 Classification results of Decision tree with the data denoised by the modified LRMR model
由图3 至图8 以及表3 中的数据可知,SVM和决策树对经过改进的LRMR 模型去噪的数据分类结果准确率最高,准确率分别是79.17%,85.37%。由此可知,改进的LRMR 模型较传统的LRMR 模型去噪能力有明显提升。
表3 SVM、决策树对测井数据分类性能指标对比Table 3 Comparison of logging data classification performance indexes by different methods
本文分析了传统LRMR 模型在铀矿测井数据去噪应用中的局限性,即当待去噪矩阵中的噪声矩阵不满足稀疏性要求时,模型的去噪效果不理想。针对模型的局限性,提出了一种改进的LRMR 模型,引入加权核范数与加权m1范数,结合待恢复矩阵的核范数与F范数作为惩罚项。使用传统LRMR、改进的LRMR 模型对某铀矿野外中子测井原始数据进行去噪处理,并使用支持向量机、决策树算法对经过去噪处理的数据进行矿层分类,实验结果表明,改进的LRMR 模型去噪能力有明显提高,分类结果符合实际测井情况,在铀矿资源量估算具有重要意义。但是,本文改进的模型在处理存在数据缺失的数据集时,准确率还有待提高,针对不同迭代次数和迭代时间对分类准确率的影响,还有待深入研究。