摘要:本文通过整合气象数据、地理信息、人口经济等多源异构数据,构建了一套基于机器学习的火灾预测与风险评估模型。本文采用XGBoost、Light GBM等多种算法进行对比实验,结果表明XGBoost算法在预测准确率上表现最优,达到91.30%。通过特征重要性分析发现,日照时间、气温、GDP等因素是影响火灾发生的关键驱动因子。基于预测结果,利用GIS技术绘制了区域火险等级分布图,为火灾防控提供了数据支撑。
关键词:大数据分析;火灾预测;火灾风险评估;XGBoost算法
引言
火灾预防与控制一直是公共安全领域的重要课题。随着大数据、人工智能技术的发展,基于数据驱动的火灾预测模型展现出巨大潜力。传统的火灾预测方法主要依赖单一数据源和简单的统计分析,难以充分刻画火灾发生的复杂机制。而融合多源异构数据的机器学习方法,能够更好地捕捉各类影响因素之间的非线性关系,提高预测精度。因此,构建准确可靠的火灾预测模型,对于指导消防部门科学部署防控资源、降低火灾风险具有重要意义。
1. 数据获取与预处理
1.1 数据来源
本文以广东省会城市主城区为研究范围,收集了多源异构数据,主要面向城市火灾预测建模需求,时间跨度为2001~2017年。该城市作为典型的大型城市,具有建筑密集、人口聚集、功能复杂等特征,具有较好的代表性。火灾事故数据来自消防救援部门的火灾事故数据库,记录了火灾发生的时空位置、火灾类型、燃烧物质等属性[1]。气象数据采集自中国国家气象数据网,涵盖日均温度、湿度、风速、降水量等影响城市火灾发生的关键气象要素[2]。建筑数据源自城市规划部门,包括建筑密度、建筑年代、建筑类型、建筑高度等属性信息[3]。用地性质数据来自土地利用现状图,用于表征不同功能区的空间分布[4]。社会经济数据包括1km网格的GDP、人口密度、流动人口等统计指标,反映区域人类活动强度[5]。基础设施数据整合了消防站点、消防栓分布等信息,用于分析消防救援资源可达性与火灾风险的关系[6]。
1.2 特征工程
针对城市火灾发生的复杂机理,本文构建了24个特征因子体系。气象特征包括日累计降水量、日平均风速、日平均气温、日平均湿度、日照时间等,这些因素影响建筑物内外温度差异和可燃物状态。建筑特征包括建筑密度、建筑年代、建筑高度、建筑结构类型、消防设施配置等,这些因素直接关系到火灾发生风险和蔓延速度。用地功能特征包括居住区、商业区、工业区的空间分布。人文社会特征包括常住人口密度、流动人口比例、GDP、月份、节假日等时空属性,这些因素反映人类活动强度与火灾风险的关联。基础设施特征计算了采样点到消防站、消防栓的响应时间,以及消防通道的可达性,用于评估消防救援能力。安全隐患特征包括电气线路老化程度、燃气管网分布、危险品仓储位置、消防违章建筑等,用于识别火灾隐患点。
1.3 数据标准化
为消除不同特征量纲差异对城市火灾预测模型的影响,采用了多种标准化方法。连续型特征如建筑密度、人口密度、气温、风速等采用最小-最大归一化,将数值映射到[0,1]区间,标准化公式为
式中,xi和x*i分别表示特征归一化前后的值,max(X)和min(X)分别为样本中的最大值和最小值。这种转换确保特征对模型的贡献权重相对均衡。建筑高度数据通过对数函数转换log(x),降低高层建筑的极值影响。相对湿度和建筑密度采用比例转换,将百分比转化为0-1范围之内的比例值。分类特征如建筑类型、用地性质、消防设施等级等,采用独热编码转换为数值型特征。时间特征如月份、节假日、时段等,采用周期性编码,保留时间的循环特性。对于距离类特征(如到消防站、消防栓的距离),考虑到应急响应的时效性,采用指数衰减转换,其中d为特征响应半径。为确保数据处理的一致性,构建了标准化参数查找表,记录各特征的转换参数和阈值。同时,建立了异常值检测机制,对超出合理范围的数据进行修正[7]。
2. 预测模型构建
2.1 算法选择与对比
本文针对城市火灾预测的复杂性特点,从主流机器学习算法中筛选了五种算法构建预测模型。XGBoost算法通过连续建树的方式捕捉城市火灾发生的非线性特征,每棵新树专注于修正此前预测的偏差,模型结构如图1所示。该算法在处理高维建筑特征、人文因素时表现出色,能有效降低过拟合风险。Light GBM算法采用直方图加速技术处理海量火灾事故记录,在训练速度和内存占用上具有优势,特别适合处理多源异构的城市火灾数据。CatBoost算法在处理建筑类型、用地性质等分类特征时表现突出,通过对称决策树有效整合不同类型的火灾影响因素。深度神经网络(deep neural networks,DNN)采用8层网络结构,通过多层非线性变换学习城市火灾风险的潜在模式,每层使用ReLU激活函数提高模型表达能力。随机森林(random forest,RF)算法通过895棵决策树的投票机制提高预测稳定性,对异常火灾数据具有较强的鲁棒性[8]。
2.2 模型参数优化
本文基于Optuna框架实现了模型超参数的自动优化。对基于XGBoost算法的模型,优化的关键参数包括最大树深度、树的数量、学习率、正则化参数(eg_alppha=1.892,reg_lambda=1.418)和分裂阈值。这些参数的优化提高了模型对建筑密度、人口流动等城市特征的学习能力。基于Light GBM算法的模型优化了树深度、叶子数量、学习率等参数。基于CatBoost算法的模型调整了迭代次数、学习率和L2正则化系数。基于DNN的模型优化了批次大小、训练轮数、激活函数和神经元数量。基于RF算法的模型优化了树的数量、特征选择方式和最小分裂样本数。通过交叉验证评估不同参数组合的性能,Optuna采用贝叶斯优化算法自动搜索最优参数配置,显著提升了模型精度。
2.3 模型评估指标
构建了多维度的评估体系,包括准确率(OA)、召回率(R)、精密度(P)、F1值和AUC等指标。准确率计算公式为
式中,TP表示真阳性预测数,TN表示真阴性预测数,FP表示假阳性预测数,FN表示假阴性预测数,反映了模型的总体预测准确性。召回率衡量正例识别能力,精密度反映预测结果的可靠性。F1值为召回率和精密度的调和平均,计算公式为,综合评估模型性能。AUC值通过计算ROC曲线下面积评估模型的分类性能。
3. 实验结果分析
3.1 模型性能对比
通过五种机器学习模型对城市火灾数据进行预测实验,结果显示各模型性能存在明显差异。表1展示了模型评估的详细指标。基于XGBoost算法的模型表现最优,准确率达91.30%,召回率为93.51%,精密度为89.68%,F1值为91.56%,AUC值为0.970。基于Light GBM算法的模型次之,各项指标均略低于基于XGBoost算法的模型,准确率为88.71%。基于CatBoost算法、RF算法和DNN的模型的准确率分别为88.09%、87.14%和83.57%。性能差异主要源于模型对特征的学习能力不同,基于XGBoost算法的模型在处理高维特征和捕捉非线性关系方面具有明显优势。
3.2 特征重要性分析
利用XGBoost算法的平均降低精度方法,对24个特征因素的重要性进行了定量分析。建筑密度对模型贡献最大,重要性得分为0.07479,这与其直接影响火灾蔓延速度和救援难度相关。人口流动性和消防设施配备分别以0.05790和0.04102的得分位居第二、三位,反映了人类活动密集度和应急响应能力对城市火灾的显著影响。基础设施因素如建筑年代(0.03646)、用电负荷(0.02339)、消防栓密度(0.02235)等也显示出较大的重要性。安全隐患特征如电气线路老化程度(0.01662)、危险品存储(0.01515)等对火灾预测也有重要贡献。
3.3 验证实验
为检验模型的泛化能力,本文采用2018年的城市火灾事故数据进行独立验证。表2展示了各模型在验证集上的预测性能。基于XGBoost算法的模型依然表现最佳,总体准确率达87.81%,其中对火灾发生情况的预测准确率为82%,对非火灾情况的预测准确率为93%。其优异表现尤其体现在对商业区和高密度住宅区火灾风险的准确预判上。基于Light GBM和CatBoost算法的模型的验证准确率分别为82.68%和82.30%,在处理混合功能区的火灾预测时表现稳定。基于RF算法和DNN的模型表现相对较弱,可能是由于城市火灾影响因素的高度耦合性导致的。
4. 风险评估与应用
4.1 风险等级划分
基于XGBoost算法的模型预测结果,采用ArcGIS地理信息系统的克里格插值法对城市火灾风险进行空间化处理。将火灾风险划分为五个等级:Ⅰ级(极低风险区),预测概率小于0.2;Ⅱ级(低风险区),预测概率在0.2~0.4之间;Ⅲ级(中风险区),预测概率在0.4~0.6之间;Ⅳ级(高风险区),预测概率在0.6~0.8之间;Ⅴ级(极高风险区),预测概率大于0.8。研究发现风险等级呈现显著的时空变化,节假日期间商业区和文娱场所的风险等级明显升高,这与人口流动性和活动密度密切相关。
4.2 空间分布特征
城市火灾风险呈现明显的空间分异规律。老城区分布着大量Ⅳ级和Ⅴ级高风险区,这些地区不仅建筑密集老化,而且消防通道狭窄,基础设施陈旧[9]。商业中心区域也存在较多中高风险区域,主要受人流密集和用电负荷大的影响。城乡接合部的风险等级分布较为零散,呈现出显著的碎片化特征。新建住宅区和规划完善的城区火灾风险相对较低,主要分布为Ⅰ级和Ⅱ级风险区。
4.3 防控建议
对于老城区等高风险区域,建议加强消防设施改造升级,扩展消防通道,优化消防栓布局;在商业繁华区域,增派消防巡查人员,加强用电安全检查。对于中等风险区域,重点加强智能监测预警,建立火灾预警平台,实时监控火灾隐患[10]。在低风险区域,以日常巡检和安全教育为主,增强居民消防意识。同时建议在重点区域安装智能消防设备,建设智慧消防系统,配备先进的灭火装备。加强社区消防网格化管理,建立多部门联动机制,提升城市火灾防控的整体效能。
结语
通过多源数据融合与机器学习方法,成功构建了一套高精度的火灾预测与风险评估模型。实验结果表明,基于XGBoost算法的预测模型具有优异的性能,不仅能准确预测火灾发生概率,还能识别关键影响因素。模型为制定差异化防控策略提供了科学依据。未来研究将进一步扩展数据维度,提升模型的时空预测能力。
参考文献:
[1]国家消防救援局.数说2018年全国火灾及出警情况[EB/OL].(2020-02-07)[2024-12-20].https://www.119.gov.cn/gk/sjtj/2022/54.shtml.
[2]广东气象.广东省2017年1月:气温显著偏高,降水显著偏少,日照偏多[EB/OL].(2017-02-07)[2024-12-20].https://www.gd121.cn/tq/qhpd/2017/02/97155.shtml.
[3]资源环境科学数据平台.中国主要城市建筑底面轮廓和建筑高度空间分布数据[EB/OL].https://www.resdc.cn/data.aspx?DATAID=270.
[4]资源环境科学数据平台.中国多时期土地利用遥感监测数据集[EB/OL].[2024-12-20].https://www.resdc.cn/DOI/doi.aspx?DOIid=54.
[5]国家统计局.中华人民共和国2017年国民经济和社会发展统计公报[EB/OL].(2018-02-28)[2024-12-20].https://www.stats.gov.cn/sj/zxfb/202302/t20230203_1899855.html.
[6]广东省应急管理厅.广东省各市消防救援支队地址及联系方式[EB/OL].[2024-12-20].http://yjgl.gd.gov.cn/attachment/0/526/526860/4223420.pdf.
[7]谢筱依,董雷,董志勇,等.基于大数据技术的消防火灾风险分析体系[J].今日消防,2020,5(1):106-108,110.
[8]陈俊雹.基于机器学习的森林火险因子大数据的深度约简机制研究[J].现代信息科技,2020,4(1):86-87.
[9]朱龙祥,王自法,张昕,等.基于GIS和多种机器学习算法的广东省森林火灾预测模型[J].林业工程学报,2024,9(3):159-167.
[10]宋鹏,岳梦奎.基于大数据分析的电网火灾风险预测与防范策略研究[J].消防界(电子版),2024,10(7):55-57.
作者简介:张晓珺,硕士研究生,工程师,amber_z_purple@163.com,研究方向:消防监督。