杨昊林
提要为了解决建设项目风险管理中风险因素量大、难以识别的问题,采用数据仓库和数据挖掘技术,建立一个建设项目风险分析支持系统模型。利用已有的建设项目管理信息系统(PMIS)作为信息来源,采用星型结构为数据模型建立数据仓库;利用联机分析处理实现多维数据分析,然后通过数据挖掘技术从数据仓库中获得新的风险知识,以丰富风险决策系统的知识库。把数据仓库、联机分析处理、数据挖掘三者结合起来形成一种分析型的信息处理系统,研究结果对于提高建设项目风险分析水平和风险控制效率,拓展建设项目信息管理系统功能有积极意义。
关键词:建设项目风险分析;数据挖掘;数据仓库;信息系统
中图分类号:F27文献标识码:A
一、引言
建设项目风险分析过程中需要考虑大量的风险因素,如自然条件因素、材料因素、技术因素、合同因素、管理因素、信息因素等,在多数的工程风险管理实例中最常用的风险分析和分析方法是依靠专家和有经验的工程师通过感性认识和经验进行判断,如果风险分析不合理,则可能导致风险控制不力,出现工程拖期、资源和成本投入增加、甚至重大损失的情况。与此同时,建设企业在不断增多的承接项目中积累了大量的工程资料,这些工程资料承载的项目运营的经验和教训,蕴含着丰富的风险知识和信息。然而,这些信息往往受制于技术手段的影响而无法得到有效的利用。因此,如何利用海量的建设工程资料为建设项目风险管理提供决策服务成为工程信息管理领域的重要课题。目前,随着数据仓库、数据挖掘技术的快速发展,为这一问题的有效解决创造了条件。本文将数据仓库、联机分析处理(OLAP)、数据挖掘技术引入建设项目风险分析领域,提出一种建设项目风险信息挖掘系统。以数据仓库为基础建立数据模型,以建设项目信息管理系统(PIMS)为平台,以联机分析处理(OLAP)、数据挖掘技术为基础建立建设项目风险信息挖掘架构。
二、建设项目风险分析过程及特点
建设项目风险分析由风险识别、风险估计和风险评价三个环节组成。风险识别是指识别出对建设项目可能构成危害的所有风险因素,并将其统计归类。风险识别有助于工程风险管理组织及时发现风险,减少风险事故的发生。风险估计在风险识别的基础上通过对大量的、过去的损失资料的定量和定性分析,估计出工程风险发生的概率和造成损失的程度,并尽可能找出这些风险因素之间的关系以确定它们之间的相关度。最后评价这些风险因素对建设项目各指标的影响,确定它们的重要性,从节省成本的角度考虑,在实际建设项目进行中,应仅对重要的风险因素进行有效的监控及管理。
显而易见,风险分析是一项无论从管理还是技术上都极具复杂程度的工作,它有以下两个特点:第一,在风险识别中,要正确识别出风险因素,风险分析人员必须对即将开始的建设项目本身和相关的外部环境做大量的信息调查研究及有较深入的理解,正确的风险因素的识别是风险分析后续工作的前提和基础;第二,建设风险估计通常来源于两个渠道:一是根据个人建设风险主观判断而得出的结果;二是利用对长期工程实践资料的观察和统计出的结论。通过主观判断的风险大小在很多情况下往往不准确,而对历史资料的统计会耗费大量时间经历。一旦风险分析不准确,就会给整个建设项目带来损失。(图1)
风险分析的目的是为了准确获得建设过程中的风险因素和这些风险因素带来的影响程度,从而为制定风险计划、采取风险措施提供依据。因此,如何提高风险因素的识别准确性,如何定性分析和定量分析风险因素分布概率和评价是风险分析信息支持系统的必要工作。开发建设项目风险信息挖掘系统的目的就是利用数据仓库系统识别风险,对风险进行定性和定量的分析,并基于此给出风险控制及管理的计划或建议。
三、数据仓库的总体设计
在本系统中,数据仓库集成和存储的信息来源选取为已经应用较为成熟的建设工程管理信息系统(PMIS),而该系统本身就是规模庞大且资源异质的数据库。风险信息挖掘系统总体建模方法如图2 所示。(图2)首先对对应主题数据的存储和综合,从源数据库的不同结构中抽取数据,包括成本、进度、质量、合同各项建设信息管理子系统中取得的文本、数据、图像、图纸以及评价规则等,然后对其进行清理、集成与转换,目的是消除数据的属性特征等差异后,将他们按照一定的粒度和尺度进行规范化纠正,使得各种数据类型能够在定义域空间中叠加,以提供面向全局的数据视图。这些经过净化和集成处理过的数据,具有较高的质量和统一性。由于在建设工程信息管理系统中存在大量的非结构化数据信息,如各种工程联系单、工程报告、设计任务书和相关图纸等,因此把相关非结构化信息颗粒通过关联算法和规则筛选整理成结构化数据的工作就显得尤为重要。
数据仓库形成后,把OLAP集中用于数据的分析,数据挖掘则致力于知识的自动发现,从数据中获取有用的知识。将三者分别应用到决策支持系统的设计和实现中,提高了相应部分的处理能力。联机分析处理实现多维数据分析,它从集成的数据仓库中的数据出发,通过构建多维的数据模型对信息从多种可能的角度进行快速、一致、交互性地存取,进而实现对数据进行深入的分析。数据挖掘自动地挖掘出数据中隐藏的模式和信息,预测未来的趋势,并可以直接用于指导联机分析处理。专家系统可以利用知识推理进行定性分析。它们集成的综合支持系统,将相互补充和依赖,发挥各自的辅助风险决策优势,实现更有效的辅助支持。
四、数据仓库模型设计
本文使用最常用的E-R模型方法作为概念模型组建数据仓库,在模型中采用了常用的星形结构,其优点是建模方便,易于用户理解,并能支持用户从多个维度对数据进行分析。
根据主题中涉及到的决策需求,对数据进行初步整理,最终创建了建设项目风险信息事实表,并建立了与之相关的时间、作业运行状态、环境参数、人员参数、技术参数、机械材料运行参数等维表,而维表可用于这些信息的扩展。结构如图3所示。(图3)
五、建立建设项目风险信息挖掘系统
1、OLAP模块。利用Microsoft OLAP Analysis Services服务端组件,根据数据仓库中的事实表和维表,对数据仓库中的数据进行多维化表示。采用的分析方法是对多维数据进行切片、切块、聚合、钻取和旋转等操作,以求从多个维度、多个侧面、多种数据综合度提取有关数据,从而了解数据背后蕴含的规律。利用OLAP模块完成对作业ID维、作业运行状态维、各项风险因素的数据分析,并展现出分析结果,以容易理解的方式呈现,如报表、图表等。通过数据透视表服务提供的接口,采用MDX语句来完成对生成的多维数据集的查询。
2、数据挖掘模块。Analysis Services 通过API-OLE DB for Data Mining实现了数据挖掘的功能,这是一个为方便各种应用程序使用数据挖掘功能而设计的编程接口。通过API,利用各种挖掘算法,建立各种模型来完成挖掘任务。
(1)作业状态与风险因素关联性分析模块。数据关联是数据中存在的一类重要的可被发现的知识,用关联规则算法可以发现项目事故原因。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据中隐藏的关联网。在此决策支持系统中,根据风险发生的经验知识,利用Apriori算法,挖掘在某特定时间段内风险因素与某些作业运行状态之间的关联规则。
(2)趋势分析与预测模块。通过作业状态与风险因素关联性分析模块分析已有的风险发生数据,得到风险发生规则,可以用来对正在或将要开工项目的风险因素进行预测,项目管理人员可以由此采取相应风险控制措施,以降低事故发生的可能性。
3、系统结构。系统采用客户机/服务器三层结构。由客户机、应用服务器和数据库服务器构成。在客户端基于Visual C++实现用户界面部分,OLAP和数据挖掘在应用服务器中实现,底层数据仓库在数据库服务器端实现。客户端用来向用户提交返回结果,应用服务器处理应用逻辑,必要时从数据库服务器获取数据,再向客户端返回结果。数据库服务器还要处理数据仓库的更新维护。
六、结语
本文对数据仓库、联机分析处理(OLAP)数据挖掘技术在建设项目风险分析支持系统中的应用进行了初步尝试,结合建设项目风险分析流程的特点,设计出系统中数据仓库的总体结构和数据存储结构,并在此基础上利用挖掘方法可以找到有关风险分析的新知识,包括重要的风险因素模型,各风险因素之间的联系,事故产生条件等内容。相信随着数据仓库技术、联机分析处理技术、数据挖掘技术的不断发展和完善,建设项目风险分析支持系统必然有更广阔的应用前景。
(作者单位:重庆大学建设管理与房地产学院)
主要参考文献:
[1]Inmon W H.Building the data warehouse(Third Edition)[M].John Wiley&Sons,2002.
[2]Han Jiawei,Kamber.Data Mining:Concepts and Technique[M].Morgan Kaufmann,2000.
[3]王要武,孙成双.建设项目风险分析专家系统框架研究[J].哈尔滨建筑大学学报,2002.35.
[4]李隽.电力工程管理数据挖掘模型设计与实践[J].广东输电与变电技术,2006.6.