王 超,张明宇,王锡铭,吴传德
(天津大学天津市建筑物理环境与生态技术重点实验室,天津 300072)
现阶段我国城市智慧照明规划尚处在摸索阶段,各地区基础建设与智慧化发展程度均不尽相同,判断出一个非样本城市(或者城市片区)的智慧照明发展基础的分级尤为重要[1]。随着大数据的发展及计算机优化算法的利用技术成熟,庞大的城市数据更依赖于一个成熟的算法优化方案,而BP神经网络在处理城市数据方面的优势十分显著,城市智慧照明分级作为一个非线性分类问题,契合BP神经网络的工作特点。
本文选取的评价对象来自三部分:
1)基于国家前三批智慧城市试点:2012年12月,国务院发布了《关于开展国家智慧城市试点工作的通知》[2],选择了90个城市作为国家首批智慧城市试点。2013年8月至2014年4月,我国陆续公布了国家智慧城市第二批、第三批试点,随后更多的城市(区、县)陆续开展智慧城市建设;
2)基于中国信息化研究与促进网发布,由互联网权威机构太昊国际互联网大数据评级机构(简称Tahaoo指数)给出的“2018-2019中国新型智慧城市建设与发展综合影响力”评估结果中各个分值段的代表性城市[3];
3)基于杭州G20峰会后,全国各个主要城市均相继开始编制新一版本的城市照明规划导则,其中大多数导则均在不同程度上对智慧城市予以了配合与辅助,在研究城市中有比例地加入一部分完成了新一版城市照明规划导则的城市,有助于增加整个指标评价体系的全面性。具体城市名单详见表1。
表1 智慧照明规划基础指标分级神经网络数据分组表
为了数据的均匀度与验证的准确性,每六组数据中随机抽取一个数据作为评价组,共取10组数据,并且这10组数据全程不参与神经网络的学习过程,其余50组作为实验数据。为了防止神经网络发生过拟合,本文将这50组数据分为training(训练)、validation(验证)、test(测试)三组,其比例以70%、15%、15%为宜。
在从城市智慧照明指标体系中选择用以确定照明分级的基础类指标时,有以下几类原则:
1)指标的基础性
考虑到基础类指标取值主体差异较大,有城市有地区,发展情况行政建制,以及是否有编制城市照明规划均有所差异。同时基础指标主要考察的是研究主体的综合发展水平,以便有针对性地确定城市智慧照明规划的编制基础以及编制目标。
2)指标的可操作性
可操作性体现在三方面:一是指标的代表性和简洁性,首先基础类指标本身不宜过多,从指标体系中筛选具有代表性的指标,选取的指标务必要展示评价内容的整体,其次基础类指标系要不繁杂,选取的指标要简洁明了,应选取与研究内容最贴合的指标;二是要求该指标易得且准确,可从国家或国家主管当局或官方统计数据中获得。三是可对比性,指标的选取应基于相同维度,如尽量选取人均指标或者占比情况作为基本指标[4]。
3)指标的全面性
目前城市智慧照明指标体系包含八个方面:网络与信息能力、综合创新能力、行政管理能力、基础设施评价、惠民服务评价、城市夜经济、交通辅助类评价、照明空间结构优化。这八个方面均需要有指标被选择为基础性指标,才能使得BP神经网络模型具有足够的全面性和代表性。根据以上三点原则在城市智慧照明指标体系中进行筛选,得到城市智慧照明分级指标体系表(表2)。
本文数据大部分来自于《2019年中国信息社会发展报告》(国家信息中心发布)、各市的《2019年信息化发展报告》、各市的《2019年信息化年鉴》、各市的《2019年统计年鉴》、各市的《2019年国民经济和社会发展统计公报》、各市政府通过官网发布的政务信息公共年度报告、各市路灯管理局公布的相关统计数据等,其中也有部分数据来源于网络或其他途径搜集,在查询大量前述数据基础上得到原始数据。将部分数据展示于表3。
考虑到我国现阶段的城市智慧照明规划尚处在摸索阶段,各地区基础设施建设基础与智慧度均不尽相同,所以在现有条件下,所有的城市均使用同一套评价指标体系是不合理的,因此本文提出的城市智慧照明评价指标体系在构建之初便根据智慧城市基础指标发展程度的不同,将子指标分为了三类,即:基础类指标、提升类指标、优选类指标,对应评价智慧城市建设基础较差的城市(一星级城市)、智慧城市建设基础一般的城市(二星级城市)与智慧城市建设基础较好的城市(三星级城市)。其具体对应关系见表4。
表2 城市智慧照明分级指标体系表
表3 城市智慧照明分级指标数据表(样表)
表4 城市评级与适用指标对应表
BP神经网络,就是其在模拟人的大脑,把每一个节点当作一个神经元,这些“神经元”组成的网络就是神经网络。由于计算机出色的计算能力和细节把握能力,在城市数据统计这样的大数据的基础上,神经网络往往有比人更出色的表现[5]。只需明确输入、输出,系统即可学到输入与输出的函数关系。神经网络的理论基础之一是三层的神经网络,可以逼近任意的函数,所以理论上,只要数据量够大,“箱子容量”够大(神经元数量),便可以对任何和归类性数学问题进行分析[6]。城市数据的统计分析纷繁复杂,利用机器学习进行城市照明的分区与分级,可以极大节约规划设计师分析理解数据的时间成本。城市智慧照明分级作为一个非线性分类问题,契合BP神经网络的工作特点。完成学习训练后的系统就可以快速判断出一个非样本城市(或者城市片区)的智慧照明发展基础的分级,从而提供一套在智慧城市背景下的城市照明分区以及分级的方法。
1)数据归一化处理
选择2019年北京、沈阳、大连、哈尔滨、石家庄等60个城市的互联网普及率、宽带互联网用户占比、信息产业GDP占比等15个指标的具体数据进行归一化处理,预测数据再根据反归一化处理得出与实际输出值比较。
2)设计网络的拓扑结构
根据城市智慧照明分级的问题特点,选用具有隐含层的LM-BP神经网络。在这个网络中,显示参数的输入数15,可以根据colmogorov定律定义的隐藏层数,一般设置为输入层的2n+1,即31;输出层数对应于分类一星级城市、二星级城市、三星级城市,因此输出层数为3。
3)网络主要参数的确定
网络的初始权阔值设范围在(-1,1)之间,LM学习方法作为网络学习方法的代表方式,网络训练误差不设下限,以梯度指标作为训练限定,设为1e-7,学习率取0.001。网络训练结果采用均方误差(MSE)进行衡量,即网络训练误差。
图1 LM-BP神经网络工作流程Fig.1 LM-BP neural network workflow
4)数据分组及防止过拟合
为了使训练数据与训练标签一致,而对模型过度训练,从而使得模型出现过拟合(over-fitting)现象。具体表现为,训练后的模型在训练集中正确率很高,但是在测试集中的变现与训练集相差悬殊,也可以叫做模型的泛化能力差。
如前文所述本研究将实验组数据分为三组,training、validation、test,其比例分别为70%、15%、15%,以此方法对应MATLAB防止过拟合的方法。只有training数据参加训练,其他两组数据不参加训练,用于检验[7]。
对神经网络进行训练,各参数设定如图2所示,对设定各个参数进行解析:
图2 LM-BP神经网络参数设定图Fig.2 LM-BP neural network parameter setting diagram
1)Neural Network神经网络
图2显示了神经网络的结构图,神经网络有一层隐含的输出架构,前文有述,此处不详细展开。
2)Algorithms训练算法
第二部分显示的是训练算法,这里为LM-BP算法;误差指标为mse即采用均方误差计算法计算误差。
3)Progress训练进度
Epoch:数量的训练;右边显示可以设置的最大训练量,图2显示了实际训练的数量,实际上是6。
Time:训练时间,也就是本次训练中使用的时间。
Gradient:该网络的最大梯度为1.91,阈值梯度为1e-71e^{-7}1e-7,实际梯度为0.033。可在Plots中的Training State中详细查看。
Mu:该网络所使用Levenberg-Marquardt算法中的阻尼因子最小值为0.001,阈值为1e101e^{10}1e10,实际值为1e-61e^{-6}1e-6,Mu值越大意味着算法收敛效果越好。可在Plots中的Training State中详细查看。
Validation Checks:该网络的泛化能力检查标准,实际值为0表示在训练过程中误差在持续降低,若连续6次训练误差无法降低,则结束训练任务。可在Plots中的Training State中详细查看。
4)Plots看板
Performance:该网络训练过程中的误差变换可视化。
Training State:该网络训练过程中的梯度、Mu因子和泛化能力变换等信息的可视化。
Regression:该网络训练集、验证集、测试集的回归能力可视化。
Plot Interval:图中横坐标的刻度[8]。
以上参数对城市智慧照明基础指标分级BP神经网络进行6次训练,其结果如下:
图3 城市智慧照明基础指标分级BP神经网络性能图Fig.3 Classification of BP neural network performance graph of basic indicators of urban smart lighting
图3中给出了城市智慧照明基础指分级BP神经网络性能,图中Train表示网络训练的性能状态,Validation表示用于验证样本的性能状态,Test表示用于测试样本的性能状态,BEST表示网络实际达到的性能,使用网络的均方误差(Mean Squared Error,MSE)来衡量网络的性能水平。由图3可得训练曲线的误差已经降至10-19以下。受笔者精力有限,导致城市基础指标总样本量有限,以至于用于验证组与测试组的样本量不足,红线与绿线未显示出明显的误差下降,但考虑到这两条曲线亦没有明显上升,同时影响神经网络真实准确度的是网络训练时表现出的性能,故而系统整体表现出的性能是在研究可接受范围内的。
图4为LM-BP的网络训练状态图,由图可见取得了较好的训练效果Gradient为梯度下降法的函数,Mu指的是LM算法中的调整参数,二者均在6次训练后取得了较低的误差。
图4 城市智慧照明基础指标分级网络训练状态图Fig.4 Network training status diagram of urban smart lighting basic indicators classification
图5为LM-BP算法的网络线性回归图,其中左上方是训练,右上方是验证,左下方为测试,右下方为总体,该图表示期望输出和实际输出的拟合同时显示了两者的相关系数[9],观察图像可得训练部分的相关系数为1,拟合结果为输出=输入+2.1e-11。为避免发生过拟合,训练时系统将全部数据分为三个部分,即训练、验证及测试,其中仅训练部分进行训练,其他用以对网络性能进行评估。训练时训练部分与目标的误差会降低,测试和验证两部分与目标的误差也会降低。随着训练的进行,测试部分与目标的误差降低,但验证部分与目标的误差反而会提高。当验证部分误差连续增大指定次数时,网络训练中止,因此时可能拟合不正确,发生过拟合问题,从而提前终止训练。线性回归可判断是否发生过拟合,并可分析神经网络的拟合情况[10]。相关系数越接近于1,网络训练结果拟合越好。由图可知训练组的相关系数接近于1,而验证和测试由于前文提过的样布量不足的关系面板数值不够理想,但鉴于其向1收敛的趋势随着训练的进行一直没有变化,可得没有发生过拟合现象,同时也表明随着今后智慧照明数据统计工作的开展,训练与验证的样本量增加后,系统误差有进一步降低的趋势。
图5 城市智慧照明基础指标分级网络线型回归图Fig.5 Linear regression graph of urban smart lighting basic indicators classification network
训练完成后需要进行实证测试,本文选取从未参与测试的十个城市:天津、青岛、无锡、西安、昆明、苏州、泉州、温州、呼和浩特、中山,将这十个城市的15项指标输入系统中,由于本文是间隔六个城市取得一个城市作为评价组,这十组数据也同时涵盖了一星级、二星级、三星级这三个评级,保证了数据的随机性与代表性,将系统通过之前的学习积累的经验值评级与本文预先对这些城市进行的评级进行对应,结果如图6所示。
图6 BP神经网络预测输出结果Fig.6 BP neural network prediction output results
从图6看出,预测数据结果与期望输出结果完全对应,就这10组数据而言,预测准确性达到100%,符合预先神经网络的设计要求,该结果表明此次城市智慧照明分级体神经网络构建基本完成。由此将其他城市或地区的15项基础指标输入城市智慧照明分析BP神经网络后,可以快速准确地得到与此前分级要求一致的预测输出值。
本文通过梳理城市智慧照明指标,利用BP神经网络对指标的数据及其评级结果进行机器学习,对10组未进行学习的数据进行预测,准确率达到100%。完成训练后的神经网络系统便可以进行城市智慧照明等级的划分,便于快速匹配与城市基础现状特点相对应的评价体系进行指导建设。
研究成果对于城市智慧照明基础分级理论研究方法具有重大意义,本系统可具备对城市智慧照明建设进行基础信息判断和发展阶段预判,可实现与待研究城市当前阶段城市的发展阶段进行匹配,为进一步提出城市智慧照明规划的发展目标与实现途径提供基础研究手段。如在将来对于基础指标或者分级的颗粒度进行调整,仍可利用本文的数据分析以及神经网络构建的方法进行推导。