邓章 陈毅兴
摘 要:在城市建筑群能耗模拟中,建筑类型和建筑年代是典型建筑参考的主要依据,目 前较难直接获取相关数据.为识别建筑类型,以长沙市区21538个建筑轮廓(不含城市地图信 息点和区域边界轮廓信息)为例,基于建筑轮廓的轮廓面积、近似矩形短边宽度、近似矩形系数等几何特征,运用随机森林方法成功识别出低层住宅、公寓式住宅和其他类型,整体准确率为81.7%.为识别建筑年代,以长沙市中心区域 7900个建筑轮廓为例,基于历史卫星影像数据,运用卷积神经网络方法自动提取不同年代的建筑轮廓,平均精确度为80%.然后分别相交分析推断出 5077 栋建筑建造于2005年之前,1606 栋建筑建造于2005—2014年,1217 栋建筑 建造于2015—2017年.该方法同样适用于其他城市,为后续的建筑群能耗模拟提供了数据 支持.
关键词:城市建筑群能耗模拟;建筑类型;建造年代;随机森林;卷积神经网络中图分类号:TU111 文献标志码:A
Identification of City-scale Building Information Based on GIS Datasets and Historical Satellite Imagery
DENG Zhang1,CHEN Yixing1,2?
(1.College of Civil Engineering,Hunan University,Changsha 410082,China;
2.Key Laboratory of Building Safety and Energy Efficiency of the Ministry of Education(Hunan University),Changsha 410082,China)
Abstract:Building type and built year are critical parameters to infer archetype buildings for urban building en-ergy modeling(UBEM).Currently,it is difficult to directly obtain these data for most cities.For the building type identification,taking 21538 building footprints(without a point of interest and community boundary information)in Changsha City as an example,this paper used the random forest algorithm to successfully identify low-rise resi-dences,apartment residences,and other types based on the geometric characteristics,with an overall accuracy of81.7%.For the determination of built year,7900building footprints in the downtown area of Changsha were selected as a case study,and this paper applied the convolutional neural network algorithm to automatically extract building footprints from different historical satellite imageries,with an average precision of80%.Then,the intersection analy-sis showed that 5077 buildings were built before 2005,1606 buildings were built from 2005 to 2014,and1217buildings were built from 2015 to 2017.The proposed method can be easily applied to other cities,and provide data support for UBEM in the future.
Key words:urban building energy modeling;building type;built year;random forest;convolutional neural net-work
隨着城镇化进程加快,建筑能耗总量不断上升,建筑成为第三“能耗大户”[1],因此建筑节能对城市的可持续发展尤为关键.建筑能耗模拟可用于评价 节能技术措施[2].城市尺度的建筑群能耗模拟是国 际城市能源研究领域的一个新兴方向,可以更好地 评估新区能源规划和旧区节能改造等技术方案,从而推动节能减排目标的实施.由于缺乏每栋建筑的详细数据,在城市建筑群能耗模拟中,围护结构和空调系统等参数一般根据典型建筑进行假定,而建筑类型及建造年代是典型建筑参考的主要依据[3].
目前获取数据最直接的方法是利用政府机构公开的数据平台,绝大部分的研究中都采用这种方式.欧美一些大城市的数据平台存储了大量城市建筑信 息,如建筑轮廓、楼层数、建筑类型和建造年代等数据[4-5],可用于建筑群能耗模拟.公开数据平台节省了大量收集数据的时间,但受限于特定的城市.另一种直接的方法是实地调研[6].当调研的范围扩大至城市级别,是极其耗时耗力的.
当较难获取直接的数据时,可运用相关的数据 来间接推断建筑类型及年代.对于建筑分类,首先可以利用多种数据进行识别.Wang等人[7]使用建筑轮 廓和城市电子地图信息点(POI)数据,运用逻辑回归的监督学习算法识别出南京市2 275 栋商业建筑.Niu等人[8]使用微信定位数据、出租车 GPS 轨迹及POI等数据,运用空间聚类算法推断广州天河区各建 筑功能.Deng等人[9]提出了基于POI和区域边界轮 廓等地理信息系统(GIS)数据,运用分类和无监督学 习聚类的方法,识别出长沙市区68966个建筑轮廓中69%的建筑类型.对于未识别的21538个建筑轮 廓,其大部分为老旧住宅建筑,只含建筑轮廓面积和楼层数等几何信息.仅已知建筑几何信息时,Hecht等人[10]基于建筑轮廓数据的几何特征,运用随机森 林的监督学习算法,主要将住宅建筑分为11种类型,非住宅建筑分为工业和商业建筑.Lu等人[11]基于建筑轮廓的面积、周长和高度,周边80m 内其他建 筑信息和周边道路、停车场、植被的信息,运用决策树和随机森林等四种监督学习算法,将建筑分为单 户住宅、多户住宅和非住宅建筑,四种算法中准确率最高为76.1%.
对于建造年代,Biljecki等人[12]基于3D建筑模型(CityGML)的建筑类型、高度、邻近建筑数量及体积等9种属性,运用随机森林的监督学习算法推测建 筑年代.Tooke等[13]和Rosser等[14]均基于遥感数据的建筑轮廓面积、周长、屋顶倾斜度及体积等二维和三 维属性,运用随机森林算法分别推测3282栋和2 553栋住宅的建筑年代.監督学习需要大量已知的样本 进行训练,更适用于城市内的街区尺度.Zirak等[15]根据建筑年代普查数据随建筑类型和供热面积的分布,指定对应建筑的年代.Schwanebeck等[16]根据土 地普查数据获取住宅地块内的建筑年代.然而这些 普查数据有时较难获得.Li等[17]和Zeppelzauer等[18]运用卷积神经网络的深度学习算法提取街景图像特 征,对不同时期的特征进行分类从而推断独户住宅的年代.近些年来,遥感影像(航空等影像)被广泛用于提取建筑物信息[19].Deng等人[9]通过人工对比历 史卫星影像数据,获取 243栋建筑年代信息.相比于街景图像受限于地理位置,航空影像成图范围小,卫 星影像对整个城市具有更全面的覆盖,因此历史影 像的自动对比对于大规模运用是省时省力的.
综上所述,一种基于有限和公开数据来识别建 筑类型和年代的方法将具有更好的适用性.本文基于长沙市区未识别的21538个建筑轮廓的几何特 征,运用监督式分类学习算法识别建筑类型.本文同时利用基于深度学习的图像识别算法,自动提取历 史卫星影像的建筑轮廓,检测建筑物变化,用于推断 长沙市区大量建筑的建造年代.
1研究方法
1.1基本信息
本文的研究区域为长沙市.在建筑类型识别方面,先前的研究通过城市地图信息点 POI和区域边界轮廓数据已成功识别出长沙市区68966个建筑轮 廓中69%的建筑类型.图1展示了21538个没有POI和区域边界轮廓数据的建筑轮廓在长沙市五区的分布及示例,数据来源于2017年.其中18933个建筑 轮廓包含地上楼层数信息,6 层及以下建筑占比为91%.卫星影像是指卫星拍摄的真实地理面貌,可用来检测地面上建筑、道路等信息.通过历史卫星影像的对比,可观测地理信息的变化.目前谷歌地球免费 支持查看和下载高精度的历史影像,因此根据时间 轴获取长沙市五区2005—2014年的影像数据.
1.2 建筑类型分类
图2所示为建筑类型分类的流程图.第一步是 通过分析建筑轮廓和楼层数据来获取每栋建筑的特征参数,包括地上楼层数、轮廓面积、轮廓周长、近似 矩形短边宽度、近似矩形长宽比、近似矩形系数.首 先,地上楼层数的信息大部分来自GIS数据库,对于2605个缺少楼层信息的建筑,利用百度街景手动补 全.然后,利用地理信息系统软件 QGIS 计算获得每个建筑轮廓的面积和周长.建筑轮廓的形状与建筑类型有较大关系,但是建筑轮廓的信息很难直接使用轮廓的坐标点进行分析,因此需要引入其他参数来反映轮廓的形状特点,如住宅建筑大多为长条形.本文就此提出了近似矩形的概念,当对轮廓进行旋 转操作后,每个旋转角度都对应一个矩形框包围轮 廓各边界点.选取面积最小的矩形框作为轮廓的近 似矩形,如图2所示.轮廓面积与最小矩形面积的比值定义为近似矩形系数,系数越接近1,表示轮廓形 状越近似于矩形.同时近似矩形的长宽比和短边宽度也能描述形状特征,因此增加了近似矩形短边宽度、近似矩形长宽比和近似矩形系数3个特征参数.
第二步是根据百度街景对3036个建筑轮廓的实际建筑类型进行标记.通过卫星图发现建筑轮廓中绝大部分为老旧住宅建筑,由于当时没有小区边 界的概念而未被识别.其他类型的建筑由于数量较 少,进一步细分后将没有足够的数据进行监督学习 训练,因此本文将建筑轮廓的类型分为低层住宅、公寓式住宅和其他类型.标记得到低层住宅845个,公寓式住宅1547个,其他类型644个.图3所示为各类建筑轮廓的特征参数分布.从图3可看出低层住宅和公寓式住宅具有不同的特点,如绝大部分低层住宅的轮廓面积、轮廓周长小于公寓式住宅,低层住宅地上楼层数的中位数为2,而公寓式住宅地上楼层数的中位数为6.后续的随机森林分类模型学习分析各类特征参数的特点,从而识别出不同类型.
本文采用了随机森林的分类模型,将6个参数作为模型输入,建筑类型作为模型输出.随机森林是一个包含多个决策树的分类器,决策树是机器学习中一种常用的分类方法,基于if-then-else 规则,根据 待分类项中相应的特征属性值判断进入相应的分支,直至到达叶子节点,得到分类结果,从而形成一个树状结构.随机森林是用随机的方式生成多个互 不关联的决策树,各自独立地学习和预测,最后统计多个决策树投票结果来决定最终结果,因此优于任 何一个单分类器的分类结果.本文决策树的数量取 值为100,最大深度为10.之后采用k 折交叉验证法,评估训练后模型的性能,避免模型出现过拟合.k 折 交叉验证是指将数据集等比例划分成k份,以其中的1份作为测试数据,其他的k-1份数据作为训练数据,随机重复验证k次,k 通常取10.最后将训练完成的模型用于18 502个建筑轮廓的分类.
1.3 建造识别
由于卫星影像是可见光成像,极易受气候条件 影响,存在云层遮挡和光线不同等问题,因此筛选出高质量成像且光影效果较为接近的影像,分别是 2005年、2008年、2012年和2014年,地面分辨率为0.53m,图像格式为tiff 格式.图4所示为建筑建造年代识别示意图.两个不同年代的卫星影像作为输入,通过卷积神经网络方法实现图像分割,分别识别和生成建筑物轮廓矢量数据.由于每次卫星拍摄影像时角度不同,导致不同的影像中建筑物存在一定的偏移,因此利用QGIS的相交分析工具,考虑两建筑相交重叠部分超过50%,判断为同一建筑,然后检测 出变化的建筑,从而确定它们的建造年代为2013—2014年.
卷积神经网络(CNN)是一种包含卷积计算且具有深度结构的神经网络,属于深度学习的范畴,在图像识别中得到广泛应用.相比于传统的神经网络需要读取 整幅图像,CNN能够有效地将大数据量的图像降维成小数据量,且同时保留图片特征.典型的CNN 由卷积 层、池化层和全连接层3个部分构成.卷积层通过卷积 核(过滤器)的过滤提取出图片中局部的特征;池化层用于继续降低数据维度,可大大减少运算量;全连接层与传统神经网络结构类似,用来输出结果.目前CNN有FCN、U-Net等多种代表算法用于图像语义分割,Mask R-CNN算法用于实例分割.语义分割是指为图像中的每个像素打上类别标签,而实例分割是目标检测和语 义分割的结合,能区分同类中的不同实例.影像中识别出建筑物并提取轮廓,属于实例分割的范围,因此本文选取 Mask R-CNN算法.
Mask R-CNN算法属于监督学习,需要用标记的样本对模型进行训练,我们选取了2014年影像中的一个区域,运用已有的1602个建筑轮廓矢量数据作为标记数据,包含多种不同形状,但不包括建筑的阴 影,如图5所示.由于卫星在拍摄影像时存在一定的倾斜角度,导致 GIS数据与影像存在偏差,如图6(a)所示,神经网络对这种类型的噪声较为敏感,为了提高标记数据的质量,对建筑轮廓进行了相应的平移调整,如图6(b)所示.然后将影像通过滑动窗口切 片成256×256像素尺寸,并且考虑切片边缘的重叠,再使用旋转、缩放、平移等数据增强方法来增加有限的数量集,确保模型的识别精度和泛化能力,获得2145个地图瓦 片图片 作为数据 集.之 后 选用Python和PyTorch 深度学习框架对模型进行训练和调参.数据集按9∶1划分为训练集和验证集,模型的骨干网络(backbone)选取 ResNet50,训练轮数(ep-ochs)选取 20,并且在学习曲线中自动提取最佳学习率.最后基于训练好的模型输入不同年代的影像进行预测生成相应的建筑轮廓.
2结果分析
2.1建筑分类结果
随机森林模型中采用C4.5算法,以信息增益率为准则选择属性.图7展示了各特征参数重要度,可见楼层数对建筑分类最为重要,其次是近似矩形短 边宽度,轮廓周长的影响最小.采用混淆矩阵对各个类型的识别效果进行评估,如表1所示,其中对角线 上的值表示正确分类的样本.10折交叉验证后结果显示,整体准确率为81.7%,与文献[11]中用面积、周 长等基本属性分类得到的76.1% 准确率相比,该方法得到了有效提升.准确率表示预测正确的结果占总样本的百分比.除了准确率外,还采用精确率和召回率评估不同类型的识别效果.精确率表示所有被 预测为某类的样本中实际为该类样本的概率,召回率表示实际为该类样本中被预测正确的概率.由表1可看出,低层和公寓式住宅召回率都在98%左右,表示可以很好地被推断正确.但低层和公寓式住宅精确率在80%左右,是由于其他类型中包含零售商店和饭店等类型,在几何特征上与低层住宅相似,其 他类型中包含學校和行政楼等类型,在几何特征上与公寓式住宅相似,因此它们中有一部分被错误地 推断为其他类型.
将训练好的模型用于预测剩下的18 502 栋建 筑类型,结果见表2.数量最多的为低层住宅,共有10428 栋,以1~3层为主,较为密集地分布在区域 内.公寓式住宅共有5686栋,以5~6层为主,住宅群分布较为均匀.其他类型共有2388 栋,分布较为分散.
2.2 建造年代识别结果
Mask R-CNN模型一般选用平均精确度(aver-age precision)作为评价指标,平均精确度是对精确率-召回率曲线上的精确率求均值.结果显示平均精确度为80%,对于相互有间隔的建筑能较好地识别,而对密集分布的低层建筑识别较弱.本文选取长沙市中心范围为4.17 km×4.33km的区域作为研究区域,将训练完成的模型应用于该区域进行建筑物识别和提取.图8 展示了2014年、2012年、2008年和2005年四个年代的示例.从图8可以明显看出每栋 建筑随不同年代的变化.
根据已有的2017年建筑矢量数据,依次与各个年代提取的建筑轮廓进行交集计算,将建造年代分为2015—2017年、2013—2014年、2009—2012年、2005—2008年、2005年之前等五个阶段,结果如表3所示.在7900个建筑轮廓中,5077 栋(64%)建筑的建造年代在2005年之前,符合中心城区早期开发建设的情况.
3结论
本文提出了基于GIS和历史卫星影像数据识别城市建筑类型和建造年代的方法.运用随机森林的监督学习方法,将建筑类型分为低层住宅、公寓式住宅和其他类型.利用卷积神经网络的深度学习方法 进行历史卫星影像识别,成功提取各个年代建筑轮 廓,然后相交分析推断出建筑年代.主要结论如下:
1)建筑类型识别方面,针对长沙市区21538个建筑轮廓(不含 POI和区域边界轮廓信息),提出近 似矩形的概念,新增近似矩形短边宽度、近似矩形长宽比、近似矩形系数作为特征参数反映轮廓形状特 征.分析显示,楼层数和近似矩形短边宽度是影响分类最为重要的两个特征参数.训练结果显示,分类模型的整体准确率为81.7%.在用于预测的18 502个建 筑轮廓中,成功识别出10428 栋低层住宅、5686 栋公寓式住宅.
2)建造年代識别方面,训练结果显示,建筑轮廓 提取模型的平均精确度为80%.将其应用于长沙市中心区域 7900个建筑轮廓,交集计算推断出 5077个建筑的建造年代为2005年之前,1606个建筑的建 造年代为2005—2014年,1217个建筑的建造年代为2015—2017年.
参考文献
[1]李念平,韩阳丽,何颖东,等.长沙地区混合通风住宅老年人空调使用行为[J].湖南大学学报(自然科学版),2020,47(11):141-148.
LI N P,HAN Y L,HE Y D,et al.Air-conditioning use behaviors of elderly in mixed-mode residential buildings in Changsha[J].Journal of Hunan University(Natural Sciences),2020,47(11):141-148.(In Chinese)
[2]陈淑琴,邬佳婧,葛坚,等.办公建筑空调随机使用行为模拟方法及案例应用[J].湖南大学学报(自然科学版),2021,48(5):157-164.
CHEN S Q,WU J J,GE J,et al.Simulation method and case study of stochastic usage behavior of air conditioners in office buildings[J].Journal of Hunan University(Natural Sciences),2021,48(5):157-164.(In Chinese)
[3]冷红,宋世一.城市尺度建筑节能规划的国际经验及启示[J].国际城市规划,2020,35(3):103-112.
LENG H,SONG S Y.Building energy efficiency planning at urban scale:international experience and inspiration[J].Urban Plan-ning International,2020,35(3):103-112.(In Chinese)
[4]CHEN Y X,HONG T Z,LUO X,et al.Development of city build-ings dataset for urban building energy modeling[J].Energy and Buildings,2019,183:252-265.
[5]MONTEIRO C S,COSTA C,PINA A,et al.An urban building da-tabase(UBD)supporting a smart city information system[J].En-ergy and Buildings,2018,158:244-260.
[6]李信仪.居住建筑区域能耗模型研究[D].重庆:重庆大学,2018.
LI X Y.A study about residential building stock energy modelling[D].Chongqing:Chongqing University,2018.(In Chinese)
[7]WANG C,WU Y,SHI X,et al.Dynamic occupant density models
of commercial buildings for urban energy simulation[J].Buildingand Environment,2020,169:106549.
[8]NIU N,LIU X P,JIN H,et al.Integrating multi-source big data to
infer building functions[J].International Journal of Geographical Information Science,2017,31(9):1871-1890.
[9]DENG Z,CHEN Y X,PAN X,et al.Integrating GIS-based point
of interest and community boundary datasets for urban building en-ergy modeling[J].Energies,2021,14(4):1049.
[10]HECHT R,MEINEL G,BUCHROITHNER M.Automatic identifi-cation of building types based on topographic databases—a com-parison of different data sources[J].International Journal of Car-tography,2015,1(1):18-31.
[11]LU Z Y,IM J,RHEE J,et al.Building type classification using
spatial and landscape attributes derived from LiDAR remote sens-ing data[J].Landscape and Urban Planning,2014,130:134-148.
[12]BILJECKI F,SINDRAM M.Estimating building age with3D GIS
[J].ISPRS Annals of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2017,IV-4/W5:17-24.
[13]TOOKE T R,COOPS N C,WEBSTER J.Predicting building ages
from LiDAR data with random forests for building energy modeling[J].Energy and Buildings,2014,68:603-610.
[14]ROSSER J F,BOYD D S,LONG G,et al.Predicting residential
building age from map data[J].Computers,Environment and Ur-ban Systems,2019,73:56-67.
[15]ZIRAK M,WEILER V,HEIN M,et al.Urban models enrichment
for energy applications:challenges in energy simulation using dif-ferent data sources for building age information[J].Energy,2020,190:116292.
[16]SCHWANEBECK M,KR?GER M,DUTTMANN R.ImprovingGIS-based heat demand modelling and mapping for residential buildings with census data sets at regional and sub-regional scales[J].Energies,2021,14(4):1029.
[17]LI Y,CHEN Y Q,RAJABIFARD A,et al.Estimating building age
from google street view images using deep learning[C]//Proceed-ings of the10th International Conference on Geographic Informa-tion Science.Melbourne:Leibniz International Proceedings in In-formatics,2018:1-7.
[18]ZEPPELZAUER M,DESPOTOVIC M,SAKEENA M,et al.Auto-matic prediction of building age from photographs [C]//Proceed-ings of the 2018 ACM on International Conference on Multimedia Retrieval.New York:ACM,2018:126-134.
[19]陈仁朋,吴熠文,余加勇,等.基于無人机影像序列的城市精细化三维模型精度评估[J].湖南大学学报(自然科学版),2019,46(11):172-180.
CHEN R P,WU Y W,YU J Y,et al.Method accuracy evaluations of building urban detailed3D model based on the unmanned aerial vehicle image sequences and its accuracy evaluatios[J].Journal of Hunan University(Natural Sciences),2019,46(11):172-180.(In Chinese)