基于红外热图与深度学习的建筑室内人脸属性分类研究

2022-08-24 03:02李佩娴曹大千戴鹏飞卢昱杰

西安建筑科技大学学报（自然科学版） 2022年3期

李佩娴，曹大千，戴鹏飞，卢昱杰，刘博

(同济大学土木工程学院，上海 200092)

尽管暖通空调技术已日趋成熟，但室内人员对热环境的满意度总体而言仍然较低，根据国外学者对20年来9万份后评估问卷的统计，仅40%的在室人员对所处空间的温度感到满意[1]，且温度进一步影响室内环境质量的整体满意度[2-3].研究表明，热不舒适可能影响人体健康[4-5]、工作效率[6]、睡眠质量[7]，引发病态建筑综合症(Sick Building Syndrome，SBS)[8-9].同时，热不舒适引发的热适应行为如调节空调[10]和开关风扇[11]将直接影响建筑能耗.因此，人体热舒适对建筑节能设计与热工设计至关重要[12].

为解决现实中热舒适水平较低的问题，热舒适研究已出现由集体温控转为个性化温控的趋势，而个性化温控的基础为个体热舒适模型(Personal Comfort Models，PCM)[13].PCM利用机器学习等算法基于物理环境、生理指标或用户行为对个体热舒适(而非人群热舒适)进行预测，准确率达70%以上.其中，生理指标(如皮肤温度)可采用侵入式、准侵入式或非侵入式测量方法[14-15].非侵入式方法基于视频图像和计算机视觉技术预测个体热舒适，对人体影响最小，但技术尚未成熟，本研究即为非侵入式方法预测个体热舒适的探索研究.

非侵入式方法可采用可见光相机或红外相机[16].可见光相机结合欧拉视频放大算法可以预测皮肤温度[17-18]，可见光视频也可以识别热舒适相关体态[19]，但这些方法的预测结果并不直接代表个体热舒适，且可见光相机在实际应用中容易引发隐私问题.而红外相机(红外热像仪)通过捕捉物体本身散发出的红外线辐射进行感光成像，相比可见光图缺少细节纹理信息[20]，不侵犯隐私.同时，红外热像仪的测温精度可以通过测温算法校正等技术达到±0.3℃以内，满足精确测量人体温度的需求[21].

近年来已有一些红外相机与热舒适结合的研究.2016年，Ranjan和Scott[22]提出用红外相机拍摄皮肤温度以控制供暖制冷，证明用面部温度判断是否开空调可获得94%～95%的准确率.Burzo等[23]用实验证明红外相机可以捕捉人的热不舒适情况，且较便宜的红外相机也可以获得70%以上的准确率.Metzmacher等[24]用红外相机对不同面部区域进行皮肤温度分析，发现前额中心点的温度最稳定，另一小型实验也说明前额温度与热感觉投票有较强的相关性[25].2019年，陈庆财等[26]通过红外相机获取皮肤温度，并通过用户表达热感觉的人机界面在线学习皮肤温度舒适域，建立了一套室内热环境控制系统，获得了97%的用户满意度.

然而上述研究仍需要用户手动输入参数进行热舒适模型的校正，且尚未考虑年龄与性别因素的影响.已有研究表明，人体热舒适在不同年龄与性别之间差异性较大[27-28]，考虑年龄与性别将有助于提高PCM预测准确度.利用计算机视觉技术从红外热图中自动识别人的年龄与性别，可以最大限度减少对人工输入的依赖性，尤其适合在全球疫情下兴起的非固定工位办公模式和共享办公空间，即通过固定的红外热像仪识别流动人员.此外，年龄与性别可以修正皮肤温度以获得更准确的人体核心温度，有利于提高疫情常态化防控下的红外体温筛查精度.

目前，红外热图的性别与年龄识别方面研究较少.2011年，Cunjian Chen等[29]利用传统机器学习的LBP+SVM(RBF)算法在红外热图的性别识别上取得较好效果：男性准确率91.84%、女性准确率82.95%.2016年，Wang等[30]提出融合可见光图和红外热图，利用LBP+BN算法提取面部特征进行性别识别，获得84%左右的准确率.2017年，Nguyen等[31]利用卷积神经网络(Convolutional Neural Networks, CNN)分别从可见光图和红外热图的全身像中提取特征，融合特征后利用SVM和PCA进行性别识别，错误率为11.439%.

相比之下，可见光图的性别与年龄识别研究较多.在性别识别方面，VGG-Face用于性别识别准确率稍低，为86.5%[32].利用残差网络模型(ResNet)识别性别准确率可达92.7%[33]，WideResNet准确率可达92.0%[34].若结合Inception和ResNet，可见光图的性别识别准确率可达男性96.4%、女性97.6%、总体97.0%[35].在年龄识别方面，模型的评价方法有两种：完全准确率表示分类结果完全正确的频率；一类偏差准确率代表分类结果完全正确或为紧邻类的频率.VGG-Face用于年龄识别准确率稍低，完全准确率为55.9%，一类偏差准确率85.3%[32].2019年，张珂[36]利用VGGNet进行年龄八分类任务，每一类的完全正确率为80%、49.4%、38.8%、48.1%、60.0%、36.0%、37.3%、34.1%.若使用WideResNet模型，完全准确率可达67.7%[34].残差网络模型(ResNet)识别年龄效果最好，完全准确率可达78.3%[33].

综上，目前红外热图的性别与年龄识别存在的问题主要有：(1)针对红外热图人脸图像采集与处理的方法尚不完备；(2)CNN用于红外热图的人脸性别与年龄识别的效果尚不清楚.针对以上两个问题，本文利用多种CNN算法对红外热图的人脸性别和年龄识别进行了一系列实验，主要贡献如下：(1)提出了有助于提高识别精度的人脸红外热图数据采集与处理方法；(2)比选得出了适用于红外热图中人脸性别与年龄识别的CNN算法.

1 研究方法

1.1 数据采集

本实验采用较为便宜的海康微影便携式红外热像仪建立红外热图的人脸数据集，所采用的红外探测器分辨率为160×120，测温精度为±0.5℃(30～45℃).该红外热像仪提供多种滤镜，不同滤镜用不同的颜色区间表示温度.初步试验发现“色彩1”和“深蓝”两种滤镜的温度区分度更大，因此,在数据采集时分别采用这两种滤镜拍摄人脸图片.为获得更全面的人脸信息，满足从不同角度识别人性别年龄的需求，本实验对每位模特从30个角度进行拍照(如图1所示)，包括五个水平角度、三个竖直角度以及两种景别(大头像和半身像)的排列组合(5*3*2=30).为与可见光图进行对比，本实验在每个角度同时拍摄了可见光照片.最终建立的数据集包含60个人(数据分布见表1)，共4 230张图片，其中“色彩1”红外热图1 800张、“深蓝”红外热图630张、可见光图1 800张.所有图片均在人体舒适、温湿度稳定的办公或住宅室内环境中采集.在后续识别任务中，性别分为男女两类，年龄按照青年、中年、老年分为19～30岁、31～55岁和56～78岁三类.

图1 摄影角度示意图

表1 数据集人员统计

1.2 模型训练

本研究采用Python3.7编程，使用的计算机配置为CPU E5-2680 v3，GPU 2080 Ti，30 GB内存，采用TensorFlow框架.由于数据量偏少，本研究采用了数据增强和迁移学习以提升训练效果.数据增强即在导入训练图片时，通过对现有图片进行旋转、位移等微小改变，生成新的照片，达到扩充数据集的目的.数据增强可以用现有数据生成尽可能接近真实情况的数据，提高模型泛化能力，是深度学习中一种常用手段.本实验采用与前人研究[37]类似的数据增强设置：图片旋转角度范围为0～40°、图片整体水平平移幅度20%、垂直平移幅度20%、单向拉伸±20%、长宽同时缩放±20%、图片整体颜色改变、图像随机水平翻转.增强后统一训练图片尺寸为(224, 224)像素.此外，本实验采用了ImageNet的迁移学习模型.迁移学习[38]具有一个初始的预训练模型，保留已训练好模型的前几层参数，即利用已有的先验知识让算法学习新的知识，从而减少学习的工作量，提高收敛速度.

根据前人研究成果，CNN深度神经网络如ResNet[33-35]应用于可见光图识别年龄性别具有优越性，同时DenseNet和Inception均与ResNet有一定的相关性和较高的对比性[39]，将其运用于红外热图的年龄性别识别具有较高的可行性.因此，本文对四种CNN算法进行测试：(1)ResNet-50[40]网络具有50层，相较于普通的神经网络，其层与层之间具有“快捷连接”，避免了梯度消失问题，能大大提高收敛速度；(2)DenseNet-121[41]：网络中每一层输入都来自前面所有层的输出，可以减轻梯度消失、提高特征的传播效率、提高特征的利用效率、减小网络的参数量；(3)DenseNet-201：在思路上和DenseNet-121一样，但增加了一些更小的单元，使连接变得更紧密，模型更大，神经网络更复杂；(4)Inception-V3[42]：具有42层网络，比前三种网络具有更快的收敛速度，更短的训练时间，权重更易初始化.

模型训练采用的参数是基于网格搜索法进行对比调整得到的最优值.最优超参数包括：learningrate为1e-5，以较低的学习率对模型进行微调可以得到较好的效果；训练时批处理图片的个数batchsize根据计算机配置设为16，尽可能地利用计算机性能以提高训练速度；freezelayers=2，冻结网络的前两层，保证预训练模型结构和初始权重不变的同时加快网络的训练过程，减少训练时间；训练过程的epoch数目通过EarlyStopping模块控制，其具体参数设置为(monitor='val_loss', min_delta=0.000 1, patience=4)，monitor表示以验证集上loss的表现为判断依据，判断阈值min_delta为0.000 1，patience表示容忍度，即当连续4个epoch内验证集的loss减少值小于0.000 1时，训练自动停止，从而尽量避免网络欠拟合或过拟合的情况.

1.3 实验设计

本文从算法效果、图像处理方法和结果校验方面出发，设计了四个实验.实验一的目的是比选合适的CNN算法用于红外热图的性别与年龄识别.将“色彩1”滤镜的1 800张图片按10∶1∶1拆分为训练集、验证集、测试集，利用四种CNN算法进行训练与测试，选取预测准确率最高的CNN模型.为探究图像处理方法对识别准确率的影响，设计了实验二与实验三.实验二对比了单滤镜和混合滤镜数据集的训练效果，以探究红外热图滤镜的影响.由于文献中可见光图的识别通常采用人脸大头像，实验三将原有的红外热图进行手动裁剪，得到仅具有面部特征的正方形图片，用于对比分析人脸裁剪对识别准确度的影响.最后，为校验红外热图中性别年龄识别的可行性及效果，实验四采用相同算法对同一批数据的红外热图和可见光图分别进行测试，对比了预测效果.各实验方案设计如表2所示.

表2 实验设计方案

2 实验结果

2.1 CNN算法对比

四种CNN算法的总体识别准确率和训练时间如图2所示.在性别识别任务中，Inception-V3的准确率在四种算法中最高：总体93.3%(男性90.0%、女性98.3%)，最低的DenseNet-121也有84.7%的准确率.这表明，虽然红外热图比可见光图缺少一些细节，但不同性别间的红外热图差异足以让计算机判别性别.如图3所示，在任一算法下，女性准确率(93.3%～100%)均高于男性准确率(78.9%～90.0%).通过肉眼观察发现男女红外热图有两点显著不同(图4)：(1)女性面部温度温差大，颜色区分更明显，且脸颊温度较低，而男性的面部温度分布更均匀，颜色差别较小；(2)女性的发型轮廓较男性范围更大，尤其两鬓的头发较多.当男性图片具有以上特征时，易被误判为女性，故识别女性的准确率普遍高于男性的识别准确率.

图2 卷积神经网络算法对红外热图进行性别与年龄识别的效果对比

图3 性别识别中男性、女性和总体准确率对比

图4 男女红外热图对比

相比之下，年龄识别任务的准确率稍低(图2).ResNet-50在四种算法中总体准确率最高——80.0%，但在不同年龄段中准确率差异较大.老年识别准确率最高(100%)、中年准确率次之(80%)、青年准确率较低(60%)，这可能是由于19～30岁人群的面部信息与31～55岁人群非常接近，造成机器识别困难.

此外，在性别和年龄识别中，Inception-V3和ResNet-50的训练速度都显著优于DenseNet-121和DenseNet-121(图2)，即在迭代次数、每批处理图片个数、冻结网络层数相同的条件下，Inception-V3和ResNet-50可以在更短的时间内达到更高的准确度，训练效果更好.总体而言，CNN可以在红外热图的性别识别中获得很好的效果，相对最优算法为Inception-V3；CNN也可以支持粗略的年龄分类，相对最优算法为ResNet-50.

2.2 图像采集与处理方法的影响

为探究不同红外滤镜对训练效果的影响，实验三分别采用Inception-V3和ResNet-50模型对性别和年龄分类进行了测试.由于“深蓝”滤镜的老年样本太少，无法对“深蓝”滤镜样本进行年龄分类测试.实验结果如图5(a)所示.对比单个滤镜的结果可知，“色彩1”滤镜比“深蓝”滤镜更适用于性别识别，这与肉眼判断一致——“色彩1”的颜色区分度更大.此外，在“色彩1”滤镜中加入“深蓝”滤镜后，性别和年龄的识别准确度均大幅下降，尤其是年龄识别准确率从80.0%下降到了58.1%.这是由于红外热图只拍摄温度信息，同一颜色可以在不同滤镜中代表不同温度，因此多种滤镜混合会扰乱红外热图的温度特征.由此可见，红外热图的数据采集需采用单一滤镜.

图5 图像处理方法对识别准确率的影响

图5(b)展示了人脸裁剪对识别准确度的影响.在相同数据集下，裁剪原图并仅保留人脸区域后，性别识别的准确率提高了2.7%，年龄的准确率提高了7.2%.准确度的大幅提升说明，性别与年龄识别的主要信息来源为人脸区域，裁剪后的图片聚焦人脸，可以排除人脸以外区域对性别与年龄分类的干扰.因此，在红外热图的性别与年龄识别中，建议将图片进行人脸裁剪后再训练，可以提升识别准确率.在视频动态识别中，可以采用目标检测算法直接检测人脸并进行性别与年龄分类.

2.3 红外热图与可见光图对比

红外热图与可见光图的识别效果对比如图6所示.当其他条件相同时，红外热图与可见光图的性别识别准确度相当.即使红外热图比可见光图少了很多面部纹路细节，但其足够应用于性别识别任务.而对于年龄识别任务，红外热图的年龄识别准确率略低于可见光图，但仍能达到80.0%的总体准确率.可见，红外热图比可见光图少了一些可用于识别年龄的面部特征，导致整体准确率不及可见光图，但红外热图可以满足粗略的年龄分类任务.此外，在相同条件下，可见光图的训练时间大约是红外热图的1.5倍，这是由于红外热图的细部特征相较可见光图更少，因此,训练速度更快.

图6 红外热图与可见光图效果对比

2.4 实验结果验证

总结本文在性别和年龄识别任务中得到的最高准确率，与文献中最高准确率进行对比(表3)，可见，本文用Inception-V3在红外热图上进行性别识别的准确率(男100%，女96.7%)远高于前人采用传统机器学习的结果(男91.8%，女83.0%)，证明用CNN算法在红外热图上进行性别识别是完全可行的，且Inception-V3比传统识别算法更具优越性.红外热图的年龄识别尚未找到文献做对比，但本文用ResNet-50对红外热图的三类年龄识别结果可达80.0%，略低于本文使用ResNet-50对可见光图的识别结果88.9%，略高于文献中ResNet对可见光图的年龄识别结果78.29%，证明红外热图的温度信息可以支持粗略的红外热图年龄分类.

表3 实验结果与文献结果对比

3 结论

将卷积神经网络算法应用于红外热图进行性别与年龄识别，从算法比选、图像处理等方面设计实验，分析并提出了提高识别准确率的方法.主要贡献与结论如下：

(1)证实CNN可独立支持红外热图的性别与年龄识别，在四种CNN算法中，Inception-V3更适用于性别识别，ResNet-50更适用于年龄识别，识别准确率均高于现有文献记载；

(2)男女的面部温度分布差异较大，发型差异大，因此本文中红外热图的性别识别准确率高达98.7%；不同年龄段的红外热图差异较小，人脸红外热图可能不适于精确的年龄识别，但按照19～30岁、31～55岁、56～78岁划分时，CNN可在红外热图上达到80.0%的总体准确率；

(3)建立了红外热图人脸数据集，发现在采集红外热图时，统一滤镜和对图像进行人脸裁剪可以提高年龄与性别识别的准确度.

由于本文目的是探究红外热图进行性别与年龄识别的理论可行性，因此,拍摄照片为单一人像且照片背景温度分布均匀，而在实际应用中，一张红外热图中可能存在多个人像，且背景温度更为复杂，未来可研究多人复杂背景下红外热图的性别与年龄识别.此外，红外热像仪的测温精度大致与价格成正比、与测温距离成反比，在实际应用中应根据具体场景和目的，考虑红外热成像带来的减少人工、提高舒适度的价值，综合选择价格适宜且精度较高的方案.