多传感器融合的建筑入住率感知模型研究

2021-01-15 08:31卢楚杰李思慧
计算机应用与软件 2021年1期
关键词:入住率转移性子集

卢楚杰 李思慧

1(广东工业大学计算机学院 广东 广州 510006) 2(湖南大学土木工程学院 湖南 长沙 410082)

0 引 言

研究表明,以用户为核心(Occupant-centric)的建筑设备控制策略具有巨大的节能潜力[1]。以空调系统为例,房间内用户存在与否影响着空调的启停状态,用户数量影响着空调的送风温度和新风量等运行参数,而用户行为在更高层次上影响着控制和节能策略[2]。

建筑入住率感知(Occupancy Sensing)是指获取建筑内用户存在与否、用户数量等信息[3],这些信息除了用于建筑设备控制以外,还可被用作建筑能源模拟与管理,是智慧建筑的重要组成部分[4-5]。机器学习技术已经被广泛运用于建筑入住率感知模型[6],其框架通常涉及数据采集、特征选择、算法选择、训练和性能评估五个步骤。入住率感知模型包括基于运动检测(红外传感器、超声波传感器等)、基于环境参数(CO2传感器、温湿度传感器等)、基于终端设备(智能手机、RFID等)、基于信号强度(Wi-Fi、蓝牙等)、基于图像目标检测(摄像头等)、基于智慧电表等方法[3]。但是每种方法均有弊端,比如:红外传感器易于获取用户存在与否,但难以获取用户人数等详细信息,同时其感知范围受限于视距,并且难以感知静止的人体,误差较大;CO2传感器等环境传感器读数具有一定的延时性,且感知精度有限;摄像头等利用计算机视觉技术的方法虽然具有极高的感知精度,但是由于涉及隐私问题,这类方法在许多室内应用场景中难以推广。

为了避免涉及隐私问题的同时改善入住率感知精度,本文提出一种基于机器学习框架的建筑入住率感知模型。利用多传感器获取建筑内已存在的数据流(不涉及隐私问题),尝试将不同数据源的信息进行融合,评价不同机器学习算法在建立建筑入住率感知模型时的有效性。此外,还将进一步地探索不同模型在不同季节、不同楼层之间的可转移性。

1 研究方法

1.1 数据描述

文献[7]提供了位于加拿大渥太华卡尔顿大学某办公楼的入住率及相关数据,其中包括室内多个位置的CO2传感器读数,接入Wi-Fi终端设备数,瞬时照明负载和瞬时插座负载,同时利用摄像头记录下每个时刻的真实用户数量,记录的时间间隔均为5分钟。为了便于分析,本文将原始数据集按照楼层和季节划分成了四个数据集,具体细节见表1。

表1 数据集划分

1.2 数据预处理

从建筑物中收集的原始数据一般不能直接用于机器学习建模,因为原始数据中可能具有以下问题:1) 原始数据一般包含噪声和缺失值;2) 原始数据通常具有无关信息或冗余信息。前者一般通过数据清洗等数据预处理方法解决;后者一般通过特征选择来进行数据筛选,常用的方法有主成分分析[8]、信息增益理论[9]等。

图1(a)为数据集1中的各项数据(特征),其中:CO2浓度是指原始数据中室内多个位置的CO2传感器读数的平均值;总负载是原始数据中照明负载与插座负载之和。表2中,建筑内的实际人数被划分成了四个入住率水平,这是因为对实际的建筑设备而言,如空调系统,入住率水平已能够满足其控制策略的优化,同时降低了建立入住率感知模型的难度。图1(b)为数据集1中的实际人数与入住率。

图1 数据集1展示

表2 入住率水平

1.3 特征选择

数据集1中的5个特征可以组成31个特征子集,通过基于相关性的特征选择方法(Correlation-based Feature Selection,CFS)对特征子集进行筛选,有助于提高入住率感知模型的准确率。好的特征子集需要包含与类高度相关的特征,并且特征之间彼此不相关,CFS的优势便是其不仅考察特征子集中单个特征的预测能力,还考察特征之间的冗余程度[10],其启发式方程为:

(1)

式中:Merit是包含n个特征的特征子集的启发式“度量”,大小在0到1之间,值越靠近1则说明该特征子集越好;rcf和rff均为皮尔逊相关系数,rcf为特征-类相关系数,rff为特征-特征相关系数。

1.4 算法选择与训练

建筑入住率感知模型属于多元分类任务,将选取7种常见的监督学习类机器学习算法,包括逻辑回归、支持向量机(线性、径向基)、K近邻、朴素贝叶斯、决策树、随机森林。

处理多元分类任务时,逻辑回归算法一般确定为最大概率的类别;线性支持向量机用于处理线性可分的数据,通过训练样本寻找超平面来进行分类,而径向基支持向量机分别用于处理线性不可分的数据,将其映射至更高维度,再进行分类;K近邻算法通过距离度量找出离测试例最近的K个训练样本,以此确定测试例的类别;决策树从训练样本中学习将预测空间简单划分为多个区域,从而进行多元分类;随机森林通过创建许多分类树来提高预测准确性[6,11]。

为了增强测试结果的稳定性和保真性,在训练机器学习算法时对数据集应用k折交叉验证法,即将数据集划分成k份,每次用k-1份的并集作为训练集,用剩下的1份作为测试集,从而进行k次训练与测试,最终返回的是k个测试结果的平均值[11]。

1.5 性能评估

利用机器学习进行建模之后,需要对入住率感知模型的性能进行评估,选取两个常用的指标[12]:

(1) 准确率(Accuracy):即入住率感知正确的样本数占样本总数的比例。入住率感知模型目标是将准确率最大化。

(2)

(2) 均方根误差(Root Mean Square Error,RMSE):入住率感知结果的平均误差幅度。入住率感知模型目标是将均方根误差最小化。

(3)

2 研究结果与分析

2.1 特征选择

图2为各特征与入住率之间的相关性热点图。可以看出,各特征与入住率水平都具有较高的相关性,其中最高的是Wi-Fi设备数,为0.81,说明建筑内接入Wi-Fi终端设备数最能反映入住率水平。同时各特征之间的相关性也很高,说明可能存在冗余特征。其中,照明负载、插座负载与总负载之间的相关性分别达到了0.95和0.93,呈高度相关,这是因为总负载是由前两者求和所得。

图2 各特征间相关性热点图

表3为利用CFS对各特征子集的预测能力进行评估的结果。在单个特征的子集中,Wi-Fi设备数的Merit值最高,说明Wi-Fi设备数的预测能力最强,这与相关性热点图分析结果是一致的。在所有特征子集中,总负载与Wi-Fi设备数两个特征融合的子集的Merit值最高,说明其预测能力最强,所以选择该特征子集建立入住率感知模型。同时,可以看出多个特征融合的子集的Merit值不一定比单个特征的子集高,比如Wi-Fi设备数的Merit值为0.81,CO2浓度、照明负载、插座负载、总负载和Wi-Fi设备数五个特征融合的子集Merit值仅为0.798,说明多传感器融合的预测能力不一定比单传感器的预测能力强。

表3 基于相关性的特征选择

2.2 入住率感知模型评估结果

(1) 有效性分析。有效性分析是指在同一数据集(即同一季节同一楼层)中进行训练与测试。以数据集1为例,选取总负载与Wi-Fi设备数两个特征融合的子集进行有效性分析,利用10折交叉验证法确保评估结果的稳定性,结果见表4。所有算法的准确率平均值都超过了60%,说明总负载与Wi-Fi设备数两个特征融合能够有效感知建筑内入住率水平。其中:线性支持向量机获得了最高的准确率平均值(77%)和最低的均方根误差平均值(0.37);径向基支持向量机和朴素贝叶斯也有较好的结果;而决策树的结果最不理想,准确率仅为61.7%。

表4 入住率感知模型的有效性分析

(2) 可转移性分析。可转移性分析是指将训练好的入住率模型在不同楼层或不同季节中测试(即在一个数据集上训练的入住率感知模型在另一个数据集上进行测试分析)。监督类机器学习算法在建立入住率感知模型时需要收集一定的数据,十分耗时,若能够将训练好的入住率感知模型在不同建筑或房间、不同季节间进行转移,则能够大大减少训练成本,增加入住率感知模型的可用性。

表5为同一楼层不同季节中的可转移性测试结果(在数据集1上训练,在数据集2上测试)。可以看出,所有算法的准确率也都超过了60%,并且与在同一季节同一楼层测试的结果接近,说明入住率感知模型在不同季节间是可以转移的。其中径向基支持向量机和朴素贝叶斯获得了较高的准确率(84.3%和82.7%)和较低的均方根误差(0.40和0.42),而决策树算法的结果依旧是最差的(68.5%和0.56)。

表5 入住率感知模型在不同季节的可转移性分析

表6为不同楼层同一季节的可转移性测试结果(在数据集1上训练,在数据集3上测试),表7为不同楼层不同季节的可转移性测试结果(在数据集1上训练,在数据集4上测试)。在不同楼层中转移应用时,各算法的准确率基本都低于40%,说明基于这些机器学习算法的入住率感知模型在不同楼层中的可转移性是不可靠的。可以看出,即便本文中不同楼层的大小、结构和方向大致相同,但是室内布置、传感器位置和用户行为的变化都可能为入住率感知模型的转移增加许多挑战,需要探索新的特征或者其他更先进的机器学习算法。

表6 入住率感知模型在不同楼层的可转移性分析

续表6

表7 入住率感知模型在不同楼层和不同季节的可转移性分析

3 结 语

为了避免涉及隐私问题的同时改善入住率感知精度,首先利用CFS对多传感器数据进行筛选,再利用7种机器学习算法建立入住率感知模型。以某办公楼的入住率数据为例进行研究,结果显示多传感器融合能够有效感知建筑入住率水平,并且入住率感知模型能够应用在不同季节中,支持向量机(包括线性和径向基)和朴素贝叶斯算法在预测入住率时均具有较好的预测性能。但是入住率模型在不同楼层中应用时,所有算法准确率均偏低。此外,研究结果还表明,由于冗余特征的存在,多传感器融合的预测能力不一定比单传感器的预测能力强。

猜你喜欢
入住率转移性子集
SPECT/CT显像用于诊断转移性骨肿瘤的临床价值
养老机构入住率影响因素分析及经营定位策略*
高一上学年期末综合演练
晚期乳癌五大迷思与预防
南京市乡村旅游地产入住率及其影响因素的研究
伊立替康治疗转移性结直肠癌的临床观察
常武地区养老需求调研及养老机构盈亏分析
常武地区养老需求调研及养老机构盈亏分析
转移性收入在居民收入分配中的作用
——中国居民收入分配中的逆向调节机制
集合的运算