城建档案大数据分析平台研究与设计

2020-06-12 07:06住房和城乡建设部科技与产业化发展中心曹吉昌北京建筑大学王佳仪
中国建设信息化 2020年10期
关键词:分析模型城建分析

文| 住房和城乡建设部科技与产业化发展中心 曹吉昌 /北京建筑大学 王佳仪

一、城建档案大数据分析平台建设的必要性

(一)执行中央指示精神的需要

2014年,中共中央办公厅、国务院办公厅印发的《关于加强和改进新形势下档案工作的意见》指出要加快推进传统载体档案数字化,从人力、财力、物力上统筹安排,切实推进档案存储数字化和利用网络化,方便人民群众利用档案。2016年,国家档案局印发的《全国档案事业发展“十三五”规划纲要》指出了到2020年初步实现以信息化为核心的档案管理现代化的发展目标,全面推进档案资源存量数字化、增量电子化、利用网络化。

(二)适应信息时代发展的需要

现如今,现代信息技术被广泛应用到各行各业,带来了革命性变革,深刻影响着人们的生产生活方式。时代的发展与技术的进步也为城建档案管理工作提供了绝佳的契机与条件,“科技兴档”,让大数据、云计算等信息技术手段助力城建档案管理工作,提高档案工作效率,最大限度地实现城建档案的价值。

(三)充分利用档案资源的需要

城建档案作为城市建设信息资源的载体,是城市规划、建设、管理的重要依据。虽然传统的城建档案馆保存着海量的城建数据,却存在着数据不能被充分分析利用的情况,导致一条条承载了海量信息的“数据巨龙”仍然长眠于库房中,借阅方式繁琐、查询不便、利用率低、管理效率低下,急需借助信息化、智能化手段将之“唤醒”,使城建档案更好地为城市建设、社会发展服务。

二、城建档案大数据分析平台的功能设计

建设城建档案大数据分析平台,可以使城建档案数据得到有效利用,采用大数据挖掘、分析技术,结合不同用户群体的需求,通过量身定制分析模型,借助多种可视化组件,将分析结果以直观的图表方式进行展示,如图1 所示。

(一)数据接入

平台提供一套丰富的统一数据接入入口,支持各类常规的关系库、Hadoop 提供的数据、非结构化数据、外部导入数据(如excel、json、xml 等)以及流数据接入。

(二)数据预处理

图1 档案管理大数据平台界面展示

平台对于接入数据进行一系列的特征分析和加工处理,为后续数据分析与挖掘提供高质量的数据。最初采集存储的数据并不是十分完美的,其中可能含有大量的垃圾数据、错误数据、缺失数据、无法直接计算的数据,故需要对数据进行分析,并采取一些处理措施后才能进行后续分析。

1.数据采样

通常可通过实验测试来对学习器的泛化误差进行评估并进而做出选择,测试样本是从样本真实分布中独立同分布抽样而得,测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现,未在训练过程中使用。常用的采样算法有:留出法(Hold-out)、交叉验证法(cross validation)、自助法。

2.数据质量分析

对于数据加工前,必然需要对数据的特性进行摸底了解,好在加工时选择合适的算子。平台提供了一套便捷的可视化分析套件,直接对数据进行多方位的视查。可以进行缺失值情况分析、离散值分析、连续值域分布分析、离群点分析等数据质量分析。

3.数据加工算子

平台提供一套加工算子,在作业管理中直接进行拖拉即可完成相关的运算。对于一些未采集全的数据,我们则通过相关字段进行初步预测。对于一些明显偏离实际意义的数据,在送入计算前,进行排除,以防止对结果的干扰。

(三)BI 分析

城建档案大数据分析平台设计有BI 分析功能。通过仪表盘、灵活查询、电子表格、多维分析、数据挖掘等方式,监控关键指标,分析并掌控业务发展趋势,保持与战略的步调一致。仪表盘旨在让用户了解完整的业务活动,能够以个性化的方式来监控KPI、衡量KPI,管理预警和异常;灵活查询平台,可以满足用户在不需要复杂培训的条件下,能够自己创建查询报表、图表;电子表格可满足各种复杂格式的监管报表、内部管理报表的需求;基于多维分析技术,用户可以从任意角度探察和分析以任何形式组合的数据;系统集合了大量数据挖掘的算法,支持多种挖掘模型,并提供图形化的操作方式。

(四)数据碰撞分析

数据碰撞分析面向业务人员,提供便捷高效的可视化业务模型开发能力。所开发的模型主要是基于一个或多个数据源进行数据碰撞分析,最终计算得到业务人员期望的目的数据。数据能够支持固化落地,便于其价值长期保留,并为进一步的数据分析提供基础。

数据碰撞分析工具整体架构基于大数据平台运行,通过spark 计算完成分析并输出结果,用于支撑应用系统的数据展现。核心功能分为模型编排、模型执行、模型共享、算子以及数据目录,如图2 所示。

三、业务分析模型

(一)面向档案管理人员的分析模型

1.档案资源数据统计

提供单一数据的统计分析功能,主要针对城建档案的资源数量情况进行统计和分析,通过下述各类单一的数据统计结果,组合形成不同的分析决策主题,主要统计如下:文件数量的分类统计和分析、同类工程案卷数量的对比分析、现行权重文件产生量与归档量的对比分析、永久档案与定期档案数据的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析。上述8 项单一统计,皆可自由组合,根据需求形成组合性的统计报表,或者上述单一统计多项组合形成不同的业务应用分析专题。

图2 数据碰撞分析设计架构

2.档案资源质量统计

主要是对馆藏或者主管范围内的档案质量情况进行统计和分析,包括:档案资源载体和信息完好度分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析、档案著录情况分析、目录数据库情况分析等。

3.档案数据分析应用

通过上述“档案资源数据统计”和“档案资源质量统计”等十多个类型单项或者组合统计,可以直接形成面向档案馆业务管理方面的分析应用,包括:档案资源的丰富度鉴定、数据质量问题处理分析、可能存在的档案资源分布点一览、电子文件著录和档案目录数据库优化、档案质量优化分析、年度业务数据统计分析等。

(二)面向社会公众的分析模型

面向社会公众,平台可进行档案利用效益统计和分析,例如采集被搜索、被下载、被查阅的“案卷题名”“案卷类别”、文件相关的“主题词”、声像相关的“文件题名”等,统计查询、下载、搜索的次数,为社会公众搜索档案提供方便。还可以进行档案检索效率统计分析,例如针对某类档案资源在某一特定时间内检索次数和频率较高的情况,在这一时间阶段内优化该类数据资源的检索效率。此外,该平台还可以预测档案利用趋势,例如对每年的热点(如人大会议、抗日纪念等)会涉及的档案数据需求量进行预算,精确定向生成相关数据利用热点和趋势分析,并具备提供相应档案数据的能力。

(三)面向从业主体的分析模型

面向建设单位,平台可以根据业绩择优推送单位(机构),验证核实中标单位,预测分析工期等。面向勘察单位,平台提供已建建筑的改扩建项目的勘察及设计、项目地块周边地址分析等,勘察单位通过参考以前工程的勘测报告,可以为今后的项目地勘提供数据经验。面向设计单位,平台提供快速设计模型参考、设计影响数据分析、质量维护保养信息等。面向施工单位,平台提供工期规模和工期预测分析、投标策略分析、现场设备材料核实分析、施工问题辅助方案等。面向监理单位,平台提供企业资质业绩核实、施工问题辅助方案等。

(四)面向主管部门的分析模型

面向主管部门,平台提供从业主体数据统计、项目工程数据分析、诚信数据比对分析、项目全生命周期监管、综合性决策分析等分析模型。从业主体数据统计主要实现数据汇总、主体类型占比和地域分项统计数据等信息;工程项目数据分析,通过大数据分析系统汇总各类项目数量、金额、标段数等,通过数据图表方式进行展示;诚信数据比对分析,按照不同的企业类型进行分析排名统计,并形成均分进行比对,为领导决策提供汇总结果;项目全生命周期监管,整合建筑市场各业务节点现有数据及信息资源,通过有效的数据串联关系,记录工程项目从市场到现场所有业务环节中的行为与表现,并在平台中进行立体和形象化的展示;综合性决策分析,系统提供统计业务执行过程中的异常情况,并按各年度各月份进行显示,为监管部门综合性决策提供参考。

四、结语

城建档案在城市规划建设中发挥着重要的指导作用,它记载了城市建设的过去,也能影响城市可持续发展的未来,利用好城建档案可以少走弯路,避免资源浪费,助力科学决策。在大数据时代背景下,建设城建档案大数据分析平台可以改变传统的档案接收管理模式,提高档案利用率,推进城建档案数字化的进程,使城建档案更好地为人民服务,对城市规划建设乃至社会的发展都有着长远而积极的影响。

猜你喜欢
分析模型城建分析
基于BERT-VGG16的多模态情感分析模型
隧道股份城建置业瑞创谷
隐蔽失效适航要求符合性验证分析
城建档案工作要为城市建设与发展服务
城建工程管理中如何加强施工过程控制
电力系统不平衡分析
电力系统及其自动化发展趋势分析
全启发式语言分析模型
信息化建设的创新与城建档案
基于Lagrange方法的直升机地面共振分析模型