李素清,王洪礼
(1.天津大学管理与经济学部,天津300072;2.中铁十三局集团有限公司,天津300308)
可以预见,未来20年,我国基本建设、房地产等固定资产的投资规模仍会保持较高的水平,这也将为建筑企业提供一个难得的发展机遇。中铁十三局集团是世界500强中国铁建所属的中央企业,是集施工、设计、科研、地产等于一体的大型工程总承包企业集团,集团拥有14 000余名职工,拥有70项施工资质和7项咨询、设计、勘察资质以及200亿元以上的年施工能力。科学地预测集团未来几年的总产值和利润,有助于制定合理的发展战略,把握发展机遇。
目前,用于建筑等行业的预测,多为灰色预测理论、神经网络等方法。方匡南等人[1]利用随机森林方法预测了我国基金超额收益率方向,证明了我国金融市场的可预测性。郭嘉良[2]利用规则集成方法对天津市的渔业经济发展进行了实证预测。
由于中铁十三局集团历年以来的总产值和利润数据保存较好,所以本文从这些历史数据出发,利用规则集成[2,3]和随机森林算法[4-7],对集团的总产值和利润进行了预测分析,并在此基础上,对集团的“十二五”发展提出了战略性建议。
在某一个系统当中,假设一系列相关变量x1,x2,x3,…,xn,y 为已知,将 x1,x2,x3,…,xn视为输入变量,y为输出变量,通过预测学习方法,可以求得估计函数为
从而可以预测出任一输入变量所对应的输出变量。
集成学习技术是目前最有效的预测学习方法之一,学习过程中所选取的模型为
式中,fm(x)是基础学习器,基础学习器的不同从根本上决定了集成学习方法的不同,即使同一组基础学习器,采用不同的回归过程,也会得到不同的结果;m表示学习过程的规模。m{am}M0是基础学习器的组合系数。
规则集成学习技术所采用的基础学习器为
式中,Sjm为xj的所有可能取值集合Sj的某一特定子集,I(xj∈Sjm)是集合Sjm的示性函数,其取值为0或1,因此,rm(x)的取值也为0或1。选定基础学习器之后,将基础学习器设定为决策树,并在每个节点生成1条规则。
经过计算,可以得到最终的预测模型为
规则所生成的算法为
1 F0(x)=arg
2 For m=1 to M{
3 pm=arg minpΣieSm(η)L(yi,Fm-1)(xi)+f(xi;p)
4 fm(x)=f(x;pm)
5 Fm(x)=Fm-1(x)=vfm(x)
6 }
其中,Sm(η)是从已知数据中随机获取的,样本量为η的一个子样本集合。
随机森林是Breiman于2001年提出的一种由许多决策回归树集合在一起的预测或者分类器。
在生成决策树的过程中,随机森林采用的是Bootstrap重采样技术,该技术通过对样本的分布进行有效放回的随机抽样,得到子样本。假设原始样本的容量为N,随机有效放回地抽取N个新的样本子集,在此基础上即可以构建k棵回归树。假设所研究的问题有M个自变量,指定一个属性数F(F≤M),从M个属性中随机抽取F个属性作为分裂属性集,以F个属性中最好的分裂方式对结点进行分裂。每颗树按递归自分算法自由生长,不进行剪裁。
所有生成的回归树组成随机森林,用随机森林即可以对新数据进行回归或者分类。
随着城市化进程的日益加快,中铁十三局终于迎来了难得的发展机遇。2008年集团年度总产值突破百亿大关,2010年突破两百亿。2011年集团的年度利润达到4.3亿元。1984—2011年,集团的年企业总产值和年企业利润分别如图1和图2所示。
为了研究总产值以及年企业利润之间的关系,首先,需要确定自变量和因变量,由于本文是通过历史数据来预测未来的总产值和利润,将前n年的数据视为自变量,将第n+1年的数据视为因变量,2010年和2011年的数据不被用来拟合,而用来留作验证的依据。其次,分析各自变量之间的关系以及其与因变量之间的关系,基于规则集成方法和随机森林方法,求得因变量和自变量之间的拟合函数关系。最后,通过预测函数,输入新的自变量,求得总产值和利润的预测值。在利用规则集成计算的过程中,当n=4时,第4个自变量(即4年前的总产值)的重要性已经很低,因此选取前4年数据作为自变量,各个自变量的重要性如图3所示。
图1 中铁十三局集团1984—2011年企业总产值
图2 中铁十三局集团1984—2011年企业利润
图3 n=4时规则集成方法中4个自变量的相对重要性
本文中,规则集成算法是由R软件中的rulefit接口完成的,随机森林算法是由R软件中的randomForest程序包完成的。在具体计算过程中,将每年的总产值和利润的数值转变为年增长率,通过对年增长率的预测进一步确定总产值和利润的预测值。总产值和利润的年增长率见表1和表2。
表1 中铁十三局总产值年增长率
表2 中铁十三局利润年增长率
两种方法对2010年和2011年数据的预测结果以及预测结果与真实数据的误差如表3所示。由验证过程可知,两种方法均可以作为有效的预测方法,因此,用两种方法所得结果的平均值来表示最终的预测值见表4。
表3 基于规则集成和RFA预测结果的验证比较
表4 基于规则集成和RFA 2012—2015年的预测结果
以上预测结果显示,到2015年集团的年度总产值将超过700亿元,利润将突破10亿元。为了实现预测的结果,并进一步增强企业的核心竞争力,以实现企业持续和谐发展,需要在企业管理、信息化建设、人才引进与培养方面进行创新。
公司在承揽项目的过程中,要紧跟国家政策,积极掌握各大城市以及大型能源矿产企业的投资建设信息。在发挥地铁等传统优势项目的基础上,进一步拓展轻轨、水电、火电等市场领域。在海外市场的开发中,要寻求突破,在规避风险的同时,积极承揽大型国际工程。要提前做好对承揽项目的效益分析与评价,避免出现大的亏损项目。资金管理方面,要避免资金断链;成本管理方面,各级员工要明确自身权限空间,严格执行预算。
项目管理要加快信息化实施过程。要建立项目管理信息系统,全面把握在建项目的动态信息;要建立财务管理信息系统,集中分散资金,保证资金安全的同时,提高资金的使用效率。为保证项目管理信息化的落实,应根据集团公司制定的达标督察考评标准对在建项目进行督察,以确保管理制度落实到位,从而使各项管理效果达到标准,确保集团在推进信息化管理中进一步提高项目创收能力。
集团业务的大规模发展对人才的数量和结构均提出了更高的要求,要加强人才的引进和培养,并增加职工的企业归属感。根据集团公司的安排,结合本单位目前缺少工程设计人员与注册工程师的实际情况,成立相应的研发机构,联合集团内、外部的设计单位,吸纳注册技术人才,鼓励本单位人员报考国家注册岩石、结构、造价、咨询工程师,并在待遇问题上与社会接轨。通过3~5年的努力,完备设计资质,从而适应建筑市场承包方式转变的需要。
总之,科学准确地预测集团的发展,有助于集团提前作好各方面的准备工作,从而保证“十二五”期间的快速发展。
[1]方匡南,朱建平,谢邦昌.基于随机森林方法的基金收益率方向预测与交易策略研究[J].经济经纬,2010(2):61-65.
[2]郭嘉良.海岸带渔业生态经济系统的随机梯度和规则集成评价预测[D].天津:天津大学管理学院,2010.
[3]Friedman J H,Popescu B E.Predictive Learning via Rule Ensembles[M].Stanford University:Department of Statistics,2005.
[4]段永桓,王洪礼,李飞鹏.影响RFA高尔夫产业发展的因素分析与对策[J].天津大学学报:社会科学版,2011,13(3):198-201.
[5]邱一卉.随机森林在电信行业客户流失预测中的应用[D].厦门:厦门大学管理学院,2008.
[6]Liaw A,Wiener M.Classification and regression by Random Forest[J].Rnews,2002(2):18-22.
[7]彭国兰,林成德.基于随机森林的企业食用评估模型[J].福州大学学报,2008(36):153-156.