谢志炜 冯鸿怀 许锐埼 李慧夫
摘 要:随着国家电力基础设施规划发展要求不断提升,国家相关单位对电网基建项目的投资规模与数量愈来愈大。为了确保项目能够按照计划开展与完成,对施工力量的预测显得尤为重要,进而提前为所需配备足够的施工力量提供参考。同时,施工人次是对一段时间内施工力量投入的描述量。但由于现场对于施工人次的统计通常存在一定的异常值,会对预测结果造成直接影响。因此,针对这些问题,本文提出了一种基于线性回归的基建项目施工人次预测方法,首先利用残差分析法对现场数据进行预处理,随后通过建立线性回归的预测模型进行预测,并和BP神经网络算法进行比较,以证明本文的可行性与精确性。
关键词:基建项目;线性回归;残差分析法;施工人次预测
中图分类号:TP183 文献标识码:A 文章编号:2096-4706(2019)19-0113-05
Abstract:With the continuous improvement of the national power infrastructure planning and development requirements,the scale and quantity of investment by the national power apartment for power grid infrastructure projects is increasing. In order to ensure that the project can be carried out and completed according to a plan,the prediction of the construction force is particularly significant,and then provide reference for the necessary construction strength in advance. At the same time,the number of attendance of constructors is the description of the labor resource input for a period of time. However,as there are usually a certain number of statistics outliers for the constructors from the site,which will have a direct impact on the result of prediction. Therefore,in response to these problems,the paper proposes a method to forecast the attendance of the constructors for infrastructure projects based on linear regression. With the data pre-treated on residual analysis at first,then using the linear regression method to make the prediction by the forecast model which at the same time compare with BP neural network algorithm to prove the feasibility and accuracy of this paper.
Keywords:infrastructure project;linear regression;residual analysis method;attendance of constructors prediction
0 引 言
隨着国家持续加大对电力基础设施的投资强度,该类项目的规模与数量与日俱增。相关数据显示,某供电局2017年年初计划投资的项目共有5408项,计划投资金额为30.5亿元。2018年年初计划投资的项目增加至7215项,投资金额达到43亿元,投资的金额比2017年增加了约41%。在这种电网基建项目投资不断扩大的环境下,为每个项目提前配备足够施工力量以便确保基建项目顺利的开展与完成就显得尤为重要。同时,作为衡量施工能力的重要指标之一,参与施工的人数规模相对而言是对项目工程能力最为直接的描述。而作为施工人数规模的研究对象,施工人次能够较为完整地体现该施工人数规模的特征。又由于实际中对施工人次的统计通常会出现异常值,故而需要对数据进行预处理以便减少异常值对于预测结果的影响。
近段时间以来,线性回归预测领域已涌现出较多成果,并已被应用于电力物资采购数量[1]、在校大学生人数[2]、农产品物流需求[3]以及交通管制[4]等多方面的预测与分析。文献[5]提出了使用线性回归的分析方法对企业所需工人数量进行估算,并指出了以工时为该分析方法的切入要素对实际估算所具有的可行性,但却没有提及异常数据的处理问题;文献[6]提出了一种基于多元线性回归的模型,通过预测人员配置情况从而达到辅助相关部门构建的效果,但该方法较为局限于企业历史人数的数据,且对数据质量要求过高,因此在实际工程中的适应性有限;文献[7]提出了一种基于加权线性回归的模型用以预测事故死亡人数,虽然该方法更具有显著性,拟合度也更高,但该模型在具有一定周期性的数据下才能表现出良好的适应性,因而并不符合基建项目施工人次预测的工程实际。同时,近年来学术界对异常数据处理的研究也有了一定的成就。其中,有基于距离[8]、密度[9]以及模型[10,11]的异常数据值核查方法等。也有相关文献提出利用残差分析法对回归曲线进行分析进而得到所需研究结果的观点[12];文献[13]提出以最小二乘法与残差分析法分离出多项式进而对随机误差进行处理的方法,虽然此法在应用方面体现出了可行性,但其所面对的研究对象为外测型数据,与此文背景下的统计型数据存在一定的差别。
基于以上背景,为解决基建项目施工人员配备以及现场数据异常的问题,本论文提出了一种首先利用残差分析法对数据进行预处理,保存每个项目类别中具有代表性的数据样本,随后采用线性回归的施工人次预测模型与方法,通过对电网基建项目施工力量的预测实现对其的决策与配备,进而为该项目的顺利开展与完成提供重要保障。最后与BP神经网络算法对比,通过结果验明本文的有效性与精确性。
1 基础理论
1.1 残差分析法
残差分析法(Residual Analysis)是一种通过实际观测值与拟合值的差的方式去对两组变量之间的线性拟合关系,辅助判断所建立的线性模型是否能够满足某种关系,进而分析出观察数据的某些特征与规律,以验证其数据的周期性、偏差性及可靠性。其内容通常包含以下几个方面,分别是相关性检验、方差齐性检验、误差的正态性检验,以及相伴随的方差稳定化变换和本文所涉及的异常值检测等。
在本文背景下,残差为施工人次与其所拟合的线性回归模型估计值之间的差值。每一组观测数据均对应一组残差值,同时这种差值附带了该模型的重要假设信息,故在该信息的基础上可对所有观察数据进行合理性的考核,最终达到异常值检测的效果。假定本文残差以δ表示,则残差δ服从正态分布。以δ*表示标准化残差,则δ*遵从标准正态分布N(0,1)。因此可知,如果有观测点的δ*在(-2,2)区间以外,便可认为在95%的把握下将其确定为错误实验点,即不可计入回归的拟合直线。现以某项目为例,图1所示是该项目每个观测点的残差情况,图2是其标准化残差的分布情况,不难看出,(-2,2)区间外的异常点个数为4个。
1.2 线性回归
线性回归(Linear Regression)是用线性回归方程对一组变量之间关系进行建模的一种分析。由于线性对于一组不明确关系变量之间的拟合比非线性下显得更为简易,线性回归是回归分析中较为经典且在实际应用中得到广泛使用的类型,更为重要的是,其产生的拟合统计特性相对而言也更为容易确定。
在一元线性回归中分析一组变量的相互关系,通常使用散点图来观察,如图3所示。如果两者存在某种相关关系(线性相关),如随着x增大(变小),y会增大(变小)的趋势,则两者可能存在某种共线关系。用数学上的方法,可以通过建立方程拟合出一条直线,让直线尽可能地穿过这些数据点。这条拟合的直线模型,即是该组变量拟合的回归模型。
从理论上说,所拟合的直线应该尽可能多地穿过这些数据点,但实际问题中这些点一般不是直接落在这些直线上的,拟合线有可能只穿过部分的散点。如图4所示,通过不同的方法找到的穿过这些点的拟合线就会有很多条。
线性回归中通常使用最小二乘法去不断地逼近所拟合的直线方程。最小二乘法的主要思想是:找到每个实际点和拟合值之间的残差值(如图5所示),对所有的点求残差平方和,找出残差平方和最小的那条线,便是最能代表这部分样本的拟合线,如图6所示便是这部分样本的最小二乘法最佳拟合线。本文中的建模方法便是基于最小二乘法的线性回归。
2 数据预处理与预测流程
论文将从工程项目类型、投资金额和现场工人签到状况三个方面进行数据统计与处理,具体步骤如下:
(1)由项目类型对原始数据进行分类。不同类别项目之间的项目特征有明显的不同。
(2)以类型为单位,计算单个项目的投资金额与施工人次比值,该值为该项目每人次的效率值[14],单位为元/人次。效率值反映的是一个项目工程的完成投资金额状况与施工人次之间的关系。效率值过低和过高的数据都被认定为不能代表该类型施工力量样本的数据,将会在后续的数据预处理环节被识别为异常数据进行剔除。
(3)使用残差分析法对效率值进行预处理,剔除所有的过低或过高的数据。
(4)使用处理过后的数据集进行回归分析。
(5)计算精确度并与BP神经网络算法进行对比。
3 实例与结果分析
3.1 实验数据构成
由某供电局所提供的数据,列入2018年年初投资计划的项目增加为7215项,投资金额达到43亿元。其中可将项目类型主要分成9类,其中投资金额主要集中在解决中低压线路设备重过载问题、新建变电站或线路满足负荷增长、业扩投资界面延伸和一户一表这4个类型上,分别约占总投资的30%、22%、13%和14%。如图7所示,其中,项目类型A、B、C、D、E、F、G、H、I、J、K和L分别对应解决安全隐患、配电自动化、低电压治理、残旧线路设备改造、解决中低压线路设备重过载问题、新建变电站或线路满足负荷增长、业扩投资界面延伸、一户一表、其他(充电桩)、其他(配电网通信)、其他(完善网架)以及其他(预留金)共12个类型。同时,图中项目类型括号中的数字代表着该类型项目的数量情况。
3.2 数据预处理
仍以残旧线路改造类型项目为例,如图8所示,黑色拟合线是未经过残差分析排除离群点的拟合线,灰色拟合线是经过残差分析排除离群点的拟合线,是更符合大部分样本的一条拟合线。分别使用两条拟合线预测2018年该类型施工人次,未去除异常实验点时,预测值为18987人次,去除异常实验点后,预测值为16133人次,4个残差较大的离群点让预测结果提高了近2500施工人次。可见异常点对预测结果有一定的影响,因此排除这类离群的异常点可以留下可靠性更高的样本。
3.3 預测结果对比与分析
在以上经过数据预处理之后的基础上,可通过建立一个以完成投资金额为输入量,施工人次作为输出量的预测模型。利用学习样本对模型进行训练后,以2018年计划投资的金额作为模型的输入,便可预测2018年所需要的施工人次数量。在确定了输入量与输出量后,以线性回归与BP神经网络分别作为线性同非线性的预测方法代表对模型进行测试,如图9所示,以业扩配套类型项目为例,做出对比实验。
由此不难看出,当利用BP神经网络算法开展预测时,容易出现以下问题:
(1)在数据样本点较少的区间(如完成投资在600万元以上的区间),曲线高度拟合了样本,出现了过拟合现象,这条拟合线虽然在训练数据中表达能力非常强,但实际上在拟合的过程中,曲线的描述能力并非越强越好,这是由于过强的描述能力容易导致过拟合现象的发生。
(2)受到强影响点的影响,在某些区间出现金额增加而施工人次下降的预测情况。
为了对比线性回归和BP神经网络在各类型中的精度情况,随机选取每类所有数据样本中的80%样本进行训练,20%的样本作为测试。图中精度为每种类型各进行50次实验后,取得的平均精度。具体如图10所示。
显而易见,两种预测方法在样本较充足的几个类型中的精度都非常出色,可以达到80%以上。不过当样本类型的样本比较少时,两者的精度都有所下降,但线性回归在样本较少时精度仍然略高于BP神经网络,并且稳定性更好。故选取线性回归分析法作为此背景下的预测方法更为合适。
4 结 论
为了确保电网基建项目的顺利开展与完成,对其项目施工力量的决策与配备便显得尤为重要。同时,由于所预测施工人次的准确性会对该项目的决策与管理造成直接影响,且现场统计的数据通常有一定的异常值,故有必要对现场数据进行检测以便获得更为精确的预测模型,从而得到更为精准的结果,进而从理论上更为可靠、有效地支持相关部门的管理与决策。由此本文提出了一种首先利用残差分析法对数据进行预处理,随后采用线性回归的施工人次预测模型与方法,仿真实验证明该方法具有一定的可行性,虽然该方法在样本容量较少时具有一定的局限性,但在样本容量较多时与BP神经网络算法进行对比,表现出了更为优异的准确性与更为广泛的适用性。一定程度上体现了辅助工程管理与决策的科学性,为将来深度开展相关领域的后续研究提供了借鉴的价值。
参考文献:
[1] 胡亚楠,王铁铮,蒋訢晔,等.基于线性回归的电力物资配套采购数量的预测分析 [J].农村经济与科技,2019,30(2):138-139.
[2] 钟丽燕.基于多元线性回归分析的在校大学生人数预测 [J].经贸实践,2018(23):293-294.
[3] 梁艳,杨慧慧,苏辉辉.基于多元线性回归的天津市农产品冷链物流需求预测分析 [J].南方农机,2018,49(18):230-231.
[4] 陈斌,朱国蕾,靳慧斌.基于多元线性回归分析的空中交通管制疲劳预测模型 [J].科学技术与工程,2018,18(25):300-304.
[5] 张少坚.一元线性回归分析方法与工人需求量的预测[J].管理观察,2017(7):60-63.
[6] 程晓荣,吴紫薇.基于多元线性回归分析的人力资源需求预测研究 [J].电脑迷,2016(6):81-82.
[7] 彭东,罗周全,秦亚光,等.基于加权线性回归模型组的湖北省工矿事故死亡人数分析预测 [J].中国安全生产科学技术,2015,11(11):167-173.
[8] Knorr E M,Ng R T.Algorithms for Mining Distance-Based Outliers in Large Datasets [C]// Proceedings of the 24rd International Conference on Very Large Data Bases.Morgan Kaufmann Publishers Inc. San Francisco,CA,USA,1998:392-403.
[9] Jörg Sander. LOF:Identifying Density-Based Local Outliers [J]. Acm Sigmod Record,2000,29(2):93-104.
[10] HE Z Y,XU X F,DENG S C. Discovering cluster-based local outliers [J]. Pattern Recognition Letters,2003,24(9-10):1641-1650.
[11] ROUSSEEUW P J,VAN D K. Fast algorithm for the minimum covariance determinant estimator [J]. Technometrics,1999,41(3):212-223.
[12] 伍藏原.残差分析法在利用MDT判断注气重力超覆中的应用与实践 [C]//2018油气田勘探与开发国际会议(IFEDC 2018)论文集:西安石油大学、陕西省石油学会:西安华线网络信息服务有限公司,2018:10.
[13] 徐希宝,邓育民,段方振.测量数据的残差分析法 [J].科技与创新,2015(19):80.
[14] 谢志炜,温锐刚,孟安波,等.基于箱形图和隔离森林的施工人次数据处理与预测研究 [J].工程管理学报,2018,32(5):92-96.
作者简介:谢志炜(1984-),男,漢族,广东广州人,工程师,硕士,主要研究方向:配电网工程管理、配电网工程造价管理、配电网规划;冯鸿怀(1981-),男,汉族,广东恩平人,信息系统项目管理师,主要研究方向:电力行业信息化、大数据分析;许锐埼(1995-),男,汉族,广东潮阳人,硕士研究生,主要研究方向:电力数据挖掘分析;通讯作者:李慧夫(1994-),男,汉族,湖北咸宁人,硕士研究生,主要研究方向:电力数据挖掘分析。