文|广州市建设工程质量安全信息化管理行业协会 黄俭 广州粤建三和软件有限公司 万普华
工程质量安全事关人民群众切身利益和经济社会发展。由于工程项目建设时间跨度大、施工工序多、责任主体和相关单位多、质量安全影响因素复杂、管理难度高,任何一个环节或要素的疏忽都可能对工程质量和安全造成影响,因而加强工程建设过程中的信息共享和信息交流就成为有效控制工程质量和安全的重要条件之一。广州市建设行业近年来大力推进工程质量安全管理信息化工作,先后建立了工程质量检测监管系统、混凝土质量追踪和动态监管系统、地下工程和深基坑监测预警系统、起重机械安全监测监管系统、高支模安全监测系统等,将工程质量安全管理的主要关键节点基本都纳入了信息化管理,取得了较好的应用效果。但由于各系统是由不同职能部门负责并陆续建成投入运行的,各系统数据的完整性、一致性和实时性都不一样,对系统运用效果形成了制约,尤其是在处理跨部门或跨区域的质量安全问题时更难以形成监管合力。因而,利用大数据技术实现全行业信息充分共享和管理联动已是迫在眉睫。
大数据技术是指从体量大、类型复杂的数据中快速获得有价值信息的技术,具有体量大(volumes) 、数据类别复杂(variety)、数据处理速度快(Velocity)和数据真实性高(Veracity)等4V特点。其关键技术主要包括数据采集、数据预处理、数据存储及管理和数据分析及挖掘等:
1)大数据采集技术:通过利用RFID、二维码、传感器等物联网及移动互联等方式获得各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据。
2)大数据预处理技术:对已接收的具有多种结构和类型数据的辨析、抽取、清洗等操作,从而提取出有效数据。
3)大数据存储及管理技术:把采集到的数据有序、高效地存储起来。
4)大数据分析及挖掘技术:利用数据挖掘算法从海量数据中分析并获得有价值信息。
目前,广州市建设行业已建成并在运行的信息系统有几十个,其中多个系统都与工程质量安全管理相关,仅在最新投入运行的“广州市建设工程一张图管理信息系统”就分别从各系统中抽取了十六类有关工程管理信息,基本覆盖了全市2000多个工程、3000多家企业,而且大部分数据均自动采集、实时更新,其中仅就起重机械安全监测监管系统一个数据源来看,每天通过安装在工地现场各起重机械上的传感器自动采集的数据量就达到2G,并且这些海量的、来自不同信息系统、结构各异的数据不是简单地汇总,而是要从中找出关联性并为行政主管部门和各类企业提供有价值的信息服务。因此,工程管理本身所具有的特点就决定了工程质量安全数据服务平台所面临的数据处理要求完全符合大数据技术的4V特点。
根据ESM国际电子商情针对2013年大数据应用现状和趋势的调查,结果显示:被调查者最关注的大数据技术中,排在前五位的分别是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%)以及数据安全(9.21%),大数据分析成为最被关注的技术。大数据分析的理论核心就是数据挖掘算法,即利用各种统计方法深入数据内部,挖掘出隐藏在海量数据背后的有价值信息。因而,利用大数据技术,尤其是各类数据挖掘算法,实现工程管理领域的智能化具有重要的现实意义。
平台以大数据技术为核心支撑,以工程质量安全数据服务为主线,体系架构如图1所示。平台由应用层、数据服务接口层、数据推送引擎层、大数据存储和索引层、实时流挖掘层、大数据收集层和质量安全数据源层等组成。
图1 平台体系架构图
工程质量安全数据源包括一切可获得的工程质量安全相关数据,典型的数据包括工程项目基本数据、工程形象进度数据、分部验收数据、安全评价数据、深基坑监控数据及数据分析结果数据、高支模实时监控数据及安全状况判断结果数据、起重机械实时监控数据及安全状况判断结果数据、混凝土生产和施工质量数据、工程检测数据、绿色施工评价数据、扬尘噪音监控数据、日常监督执法数据以及企业奖惩记录数据和诚信评价数据等,其中还包括了RFID、二维码、GPS定位、影像和视频等各类复杂数据。这些海量的数据由大数据收集器负责收集,收集器的功能包括来源认证、快速接受、预处理以及快速持久化等。收集的数据形成实时流,为了提高数据服务的及时性,会使用过滤、规则匹配、分类和聚类等算法对流数据进行挖掘。预处理的数据和挖掘的数据会进行全文索引,在分布式的集群环境下存储、查询和检索。数据推送引擎使用协同推送、内容推送、上下文推送和社会化推送等推送算法对存储的大数据进行搜索和分析处理,形成精准的推送数据。这些数据通过普适的接口推送各类建设工程质量安全领域的应用或系统,并最终展现给用户。数据推送接口层的功能主要包括应用认证、应用授权、数据推送和效用评价等功能。
数据服务平台的数据来源为所收集的工程质量安全的实时或非实时数据,具有无限性、实时响应性、和不可再现性等特征,因此,实时流处理框架和规则匹配、贝叶斯分类、频繁项挖掘等流式挖掘算法尤为重要。例如深基坑监控数据、高支模监控数据以及起重机械监控数据均为实时自动采集,系统要求根据数据的实际情况做出实时响应,一旦根据规则匹配判断出安全隐患状况需及时作出预警响应。图2为起重机械监控系统实时监控数据采集界面。
图2 起重机械监控系统实时监控数据采集图
数据挖掘主要是利用各种统计方法深入数据内部进行分析,很多算法的应用依赖于大样本的前提。例如利用ABC分类法,我们可以在通过工程质量检测监管系统和混凝土质量追踪系统采集的大样本数据基础上,对各施工企业的混凝土工程施工质量控制水平作出评价,即按时间段(年度或季度)汇总统计不同施工企业所有同条件养护试块的强度值低于设计强度值的组数,按照组数由大到小进行排列并计算出累计频数和累计频率,其中累计频率在0%~80%的施工企业为质量控制水平偏低企业,列为重点监督对象,对其加强检查并督促整改;累计频率在80%~90%的施工企业为质量控制一般企业,按正常监督管理即可;累计频率在90%~100%的施工企业为质量控制优秀企业,可适当放宽检查力度。
数据服务平台的关键之一是快速准确的从海量数据中搜索出所需要的信息。本平台采用基于全文索引的大数据搜索。索引就是将数据中具有检索意义的词项按一定的方式有序排列起来,以方便检索。索引是检索的前提和基础,实现某种检索功能,应先建立对应的索引机制。索引技术影响着信息检索的效率,是支持文本有效检索的关键技术。索引性能的优劣直接影响检索的质量。因此,全文索引技术在搜索引擎中起着至关重要的作用。本平台建立了工程质量安全关键词库,通过倒排索引方式建立了全文索引,实现了对各类专项施工组织设计方案及审查意见、质量安全整改通知及回复等非结构化文件的大数据搜索。
数据服务平台以海量的数据为信息来源,依赖于对海量数据的有效存储和查询。为了能够满足海量数据容错存储、高效地访问、高并发的读写以及高可扩展性,本平台采用基于NoSQL列式数据模型的数据库来存储、查询和管理数据,充分吸取了Google Big table和Amazon dynamo二者的优良基因在数据模型上采用了Big table的基于列集(Column Family)的模型,在数据的分布式存储上,使用了 dynamo 的模式,将数据散列在节点环上,节点数据的复制采用隐式传送(Hinted Handoff)的方式,节点成员和节点错误探测采用称为 Gossip的协议。通过这些技术的应用,本平台实现了日增量数据近TB级的大数据存储。
国家住房和城乡建设部于2014年9月1日印发了《工程质量治理两年行动方案》,明确要求健全工程质量监督机制,创新工程质量安全监督检查方式,对工程质量安全实施有效监督,并提出要在2015年底前完成建筑市场和工程质量安全监管一体化工作平台建设,实现“数据一个库、监管一张网、管理一条线”的信息化监管目标。本文所探讨的应用大数据技术对质量安全数据进行一致的整合、分析处理和应用,可将企业和行政主管部门的信息化成本降到最低,为工程质量各相关方的协同工作和监管提供支撑和保障,必定能大大加快行业的信息化进程,真正落实《工程质量治理两年行动方案》。