庞智 范广玲 高芳芳 王嘉鹤 康方允
摘 要 如何筛选评价指标,本文对大庆油田的电泵运行问题进行了深入的探索、分析和研究,采用了主成分分析方法,在众多预选指标的基础上,筛选出与评价目标贡献率最大的评价指标,尽最大可能采用少的、两两不相关的新变量,并且原有的信息保留要最大化。选取目前油田占有量较高的具有代表性的150m3/d泵作为评价实例,以3年内B1-1-P068井的9项指标的1203条记录的原始数据作为评价对象,通过SPSS中相关性矩阵减少变量个数,再用因子分析,确定主成分,最后建立了潜油电泵的重要技术评价指标泵效的评价模型。
【关键词】数据预处理 相关性矩阵 主成分分析 SPSS
1 问题提出
系统运行评价体系主要由评价指标的筛选、指标权重的确定、模型的选取三部分组成。评价指标的确定关系到评价模型的质量、评价结果的准确度,因此评价指标的确定是构建好的评价体系的关键一环。以潜油电泵系统运行技术评价为例,在众多预选指标的基础上,如何筛选出与评价目标贡献率最大的、相关性最强的、更合理的评价指标,这是一个数据挖掘的过程,本文采用主成分分析的方法来解决这一问题。
2 理论分析
2.1 主成分分析
也称为主分量分析,就是将原有的多个变量,运用线性组合的方式,提炼出较少的彼此间独立的几个新变量的一种多元统计分析方法。在研究多变量的问题时,我们会用到统计分析问题的方法,由于变量个数太多增加了解决问题的复杂性。绝大部分情况下,变量之间存在一定的联系也就是相关性,可以解释为变量间在反映此问题时有一定的信息重叠。我们希望在尽可能得到较多信息的前提下,运用的较少的变量,并且这些新变量之间是不相关的。
2.2 主成分分析的基本原理
主成分分析法采用一种降维的统计方法,借助正交变换使其分量相关的原随机向量转化成其分量不相关的新随机向量,就是将几何上原坐标系变换成新的正交坐标系,在样本点散布最开的p个正交方向上指向,也就是将代数中原随机向量产生的协方差矩阵变换成对角矩阵,接下来对多维变量进行降维处理,在一个较高的精度转换下成低维变量系统,再通过构造适当的函数,从而把低维系统转变成一维系统。
它的数学模型如下:
(1)原始指标数据的标准化选用p维随机向量x=(x1,x2,...,xp)T,n个样品xi=(xi1,xi2,...,xip)T,i=1,2,...,n,n>p,构造样本阵,对样本矩阵元素进行标准化变换:
(2)对标准化矩阵Z求相关系数矩阵
(3)解样本相关矩阵R的特征方程得p个特征根,确定主成分按
确定m值,使信息的利用率达80%以上,对每个,解方程组得单位特征向量b0j。
(4)将标准化后的指标变量转换为主成分,,U1称为第一主成分,U2称为第二主成分,…,Up称为第p主成分。
(5)对m个主成分进行综合评价,对m个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。
3 潜油电泵系统技术型评价实例
3.1 数据预处理
电泵井生产日期数据,由不同的操作人员录入,为避免出现不规范问题,做如下预处理措施:
(1)规范数据库字段的格式:为使数据库操作减少误差,统一消去字段值中的空格。
(2)缺失数据的补充:根据线性与非线性插值方法补充缺失数据。
(3)数据标准化,为统计分析做进一步准备。
(4)利用相關性矩阵筛出与泵效相关性较大的指标
将B1-1-P068潜油电泵作为评价样本,2010年3月1日至2013年9月1日,生产1203天。B1-1-P068井号的生产运行原始数据如表1。
将数据标准化后,生成其余指标与泵效的相关性矩阵,我们找到SCSJ、YZ、YY、TY、HY、RCYL1、RCYL、RCSL、HS等9个指标。
3.2 主成分分析
KMO和巴特利特检验结果如图1。KMO值为0.700,因子分析效果一般,但可接受;巴特利特检验P值为0,拒绝原假设,变量间相关性显著,适合于做因子分析。
由Total Variance Explained(主成分特征根和贡献率)可知,特征根,特征根,前两个主成分的累计方差贡献率达79.071%,即涵盖了大部分信息。这表明前两个主成分能够代表最初的12个指标来分析潜油电泵的系统技术。故提取前两个指标即可。主成分,分别记作F1、F2。
每个评价指标的得分见图2,各指标在新的主成分中的比重构建成分模型:
4 结论
(1)将录入数据的12个指标与泵性作相关性分析得到与之相关性大于0.3的9个指标,分别为SCSJ、YZ、YY、TY、HY、RCYL1、RCYL、RCSL、HS。
(2)将剩余的9个指标运用主成分分析得到两个新的线性无关指标,并得出成分模型。
(3)同一口井号,排量为定值,在主成分分析中显示结果与泵效并无关系,但通过调查发现,针对不同井号而言,排量对泵效有很大影响。
参考文献
[1]梅思杰,邵永实,刘军.潜油电泵技术[M].北京:石油工业出版社,2004.
[2]余付平,冯有前,范成礼.基于主成分分析的字典学习[J].控制与决策,2013(07):1109-1112.
[3]陶思羽.基于主成分分析和粗糙集的聚类分析在经济指标数据中的应用[D].吉林大学,2012.
[4]范广玲.基于数据挖掘的潜油电泵评价体系研究[D].东北石油大学,2015.
作者简介
庞智,女,东北石油大学学生。
范广玲,女,东北石油大学,副教授。
高芳芳,女,东北石油大学,讲师。
作者单位
东北石油大学 黑龙江省大庆市 163318