基于PSO的RF模型在人体活动识别中的应用

2023-05-14 00:30倪洪科王斌王英超高慧敏
计算机时代 2023年5期
关键词:粒子群优化随机森林

倪洪科 王斌 王英超 高慧敏

摘  要: 提出一种基于粒子群优化(PSO)的随机森林(RF)识别方法。利用PSO算法搜寻最优的RF超参数n_estimators和max_depth,构建了PSO-RF人体活动识别模型。基于华盛顿州立大学CASAS项目数据集的实验共识别30种日常活动。仿真结果表明,PSO-RF模型的识别准确率达到95%,Accuracy、Precision、Recall和F1-score评价指标均优于其他经典的分类模型,具有较好的预测精度和泛化能力,可为智能家居系统个性化服务提供辅助决策。

關键词: 随机森林; 粒子群优化; 人体活动识别; 传感数据

中图分类号:TP391.4          文献标识码:A       文章编号:1006-8228(2023)05-131-04

Application of RF model based on PSO in human activity recognition

Ni Hongke1, Wang Bin2, Wang Yingchao3, Gao Huimin2

(1. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018,China; 2. School of Information Science and Engineering, Jiaxing University; 3. Suzhou Lanhepenbo Intelligent Technology Co., Ltd)

Abstract: In this paper, an RF recognition method based on PSO is proposed. Using PSO algorithm to search for the optimal RF hyper-parameters n_estimators and max_depth, the PSO-RF human activity recognition model is constructed. An experiment is conducted on the CASAS project dataset of Washington State University, and a total of 30 daily activities are identified. The simulation results show that the recognition accuracy of the PSO-RF model reaches 95%, and the evaluation indicators of Accuracy, Precision, Recall and F1-score are superior to other classic classification models. It has good prediction accuracy and generalization ability, and can provide auxiliary decision-making for personalized service of smart home system.

Key words: random forest (RF); particle swarm optimization (PSO); human activity recognition; sensor data

0 引言

早在二十世纪九十年代,人体活动识别(Human Activity Recognition, HAR)研究就掀起了一阵热潮[1]。基于传感器数据是当下主流的人体活动识别方式之一,常用的识别方法包括朴素贝叶斯、k近邻和支持向量机等[2-3],但由于分类器数量单一且活动本身具有多样性和复杂性,识别准确率普遍不高。随机森林[4](Random Forest, RF)作为一种多决策树集成的分类器,引入了随机性,具备预测精度高、不易陷入过拟合、训练效率高的优点。然而,到目前为止关于随机森林超参数的研究文献较少,加上超参数种类繁多,无法通过一个严谨的数学流程给出最优解,通常只能根据经验设定或通过网格搜索的方法获取,而超参数的选取对模型分类的准确性有较为显著的影响[5]。针对上述问题,本文结合环境传感器数据的特征,引入了随机森林算法进行人体活动识别,并进一步利用粒子群优化[6](Particle Swarm Optimization, PSO)算法来解决随机森林超参数选取问题。PSO算法由于概念简单、易于和其他算法结合以及收敛速度快的优点,被广泛应用于参数优化问题[7-9]。通过随机初始化粒子群(RF超参数n_estimators和max_depth),选用合适的评价指标作为相应的适应度函数,不断迭代更新粒子的速度和位置来达到最佳的适应度,从而搜索到RF最优超参数组合,以提高模型的收敛速度和分类识别性能。

1 特征提取

智能家居环境中会产生大量的传感器事件,每个传感器事件由Date、Time、HighLevelSensorID、LowLevelSensorID、SensorValue和Label这六种元素组成。其中,Date表示传感器事件发生的具体日期,格式为“年-月-日”;Time表示传感器事件发生的具体时间,格式为“小时:分钟:秒.毫秒”;HighLevelSensorID表示结合传感器类型的房间名称,LowLevelSensorID是传感器具体描述,表示房间中的特定对象或区域;SensorValue表示当前传感器生成的消息,Label表示传感器事件对应的活动标签,部分传感器事件示例如表1所示。

使用模型识别人体活动之前,一个重要的步骤是从原始数据中提取有用的特征或属性。本文利用滑动窗口技术(窗口大小固定为30)分割时间序列,基于上下文传感器事件提取特征,包括时间信息(例如窗口中事件发生的时间和持续时长等)和传感器信息(事件发生的区域、次数等),所提取的特征如表2所示。

2 PSO-RF识别模型

RF模型包含多个超参数,选取的超参数不同,相应的模型预测精度和泛化能力也大相径庭,相关实验表明决策树数目(n_estimators)和决策树最大深度(max_depth)对RF的分类性能影响较为明显。由于粒子群算法具有高效的搜索能力且通用性比较好,容易与传统的机器学习方法结合加以改进,能更高效地解决实际问题。因此本文将粒子群优化算法引入随机森林模型,对模型中的超参数n_estimators和max_depth进行迭代优化,来实现对传统随机森林模型的改进优化。基于PSO-RF活动识别模型的构建如图1所示,具体步骤描述如下。

Step1 将ADL数据样本利用滑动窗口技术分割时间序列进行特征提取,合理划分出训练集和测试集。

Step2 初始化粒子群(n_estimators和max_depth)并建立随机森林模型,用Step1获得的训练集样本进行训练。

Step3 确定PSO-RF模型适应度函数,计算每个粒子的适应度。本文选用“Accuracy”评价指标作为适应度函数,计算方法如下:

[Accuracy=TP+TNTP+TN+FP+FN]  ⑴

其中,TP指被預测为正类的正类样本;FP指被预测为正类的负类样本;TN指被预测为负类的负类样本;FN则指被预测为负类的负类样本。

Step4 迭代更新粒子的速度和位置,计算过程如公式⑵所示。计算相应的适应度,将其适应度与个体极值pbest和全局极值gbest相比较,迭代更新获取最优适应度。

[vk+1id=ωvkid+c1r1pkid,pbest-xkid+c2r2pkid,gbest-xkidxk+1id=xkid+vk+1id]  ⑵

其中,ω代表惯性权重,c1和c2依次代表个体学习因子和群体学习因子,r1和r2代表[0,1]区间的随机数,用来提高搜索的随机性。

Step5 重复Step4,直至满足设定的最大迭代次数k,输出PSO全局最优位置和对应的适应度,此时获得的超参数n_estimators和max_depth即待优化RF模型的最优解。

Step6 将PSO优化得到的超参数n_estimators和max_depth代入RF模型,用于构建最优参数识别模型,输出人体活动识别结果并进行模型性能评估。

3 实验结果与分析

本文使用CASAS项目ADL数据集(http://casas.wsu.edu)来验证和评估模型性能。该数据集来源于一位中年女性,在2011年6月15日至7月14日一个月内的日常生活,涵盖了61577个传感器事件。为了衡量模型的性能,选用Precision、Recall、Accuracy和F1-score作为综合评价指标,同时将宏平均(Macro avg)和加权平均(Weighted avg)作为二级评价指标,宏平均是对各个分类评价指标求算术平均,而加权平均是对各个分类评价指标求加权平均,权重为该类别在总样本中的占比。各项指标的计算方法如下:

[Precision=TPTP+FP]   ⑶

[Recall=TPTP+FN]   ⑷

[F1-score=2·Precision·RecallPrecision+Recall]    ⑸

PSO算法中,设置粒子群规模N为100,粒子维度D为2,迭代次数k为50,学习因子c1和c2均为2,惯性权重ω为0.8,随机初始化粒子群。整个迭代寻优过程共持续8小时15分钟,当迭代结束,输出最优参数n_estimators为85,max_depth为12。进行3倍交叉验证评估,适应度函数随迭代次数的变化如图2所示。采用PSO-RF模型对本文分析数据集进行测试,仿真结果如表3所示。由表3可以看出,模型准确率达到了95%。为了可视化预测结果与实际情况之间存在的离散度,分类得到的标准混淆矩阵如图3所示。

由图3可以看出,最具影响力的权重分布在混淆矩阵的对角线上。这表明大多数识别结果都是准确的,模型能正确地识别出发生在同一房间或空间非常相近的活动,同时可以可以根据时序区分执行过程相同的活动(例如Morning_Meds和Evening_Meds活动),能够有效改善家庭健康用药(忘记吃药、重复吃药、不按时吃药等)问题。为进一步验证模型的有效性,将PSO-RF模型和与朴素贝叶斯、逻辑回归、多层感知机、线性判别分析、支持向量机进行仿真对比,结果如表4所示。由表4可以看出,本文提出的PSO-RF模型各项评价指标均优于其他分类算法,相比其余算法的最优指标,Precision提高了15.85%,Recall提高了15.85%,F1-score提高了17.5%,Accuracy提高了15.85%。然而,为了获取更精确的结果,模型训练时间相对比较长。

4 结束语

结合随机森林高效的分类性能和粒子群优化算法较强的全局搜索能力,本文提出了一种基于粒子群优化的随机森林模型用于人体活动识别,通过粒子群优化算法搜索最优超参数n_estimators和max_depth,从而将优化改进后的随机森林作为识别模型。结果表明,与传统的分类算法相比,PSO-RF模型具有较高的预测精度和泛化能力,将其应用到智能家居场景个性化服务推荐是下一步需要研究的。另外,由于模型本身的复杂性,使其在获得更高精度的同时也需要更多的时间来训练。因此,在今后的工作中,将会对模型的训练进行优化,以减少训练成本。

参考文献(References):

[1] Rashidi P,Cook D J.Multi home transfer learning for

resident activity discovery and recognition[J].Kdd Knowledge Discovery from Sensor Data,2010:56-63

[2] 石俊豪,左德承,张展,等.基于传感器的人体活动识别技术

综述[J].智能计算机与应用,2021,11(9):1-5

[3] SEDKY M, HOWARD C, Alshammari T, et al. Evaluating

machine learning techniques for activity classification in smart home environments[J]. International Journal of Information Systems and Computer Sciences,2018,12(2):48-54

[4] De'ath G, Fabricius K E. Classification and regression trees:

a powerful yet simple technique for ecological data analysis[J]. Ecology,2000,81(11):3178-3192

[5] 呂红燕,冯倩.随机森林算法研究综述[J].河北省科学院

学报,2019,36(3):37-41

[6] Ishigame A, Yasuda K. Swarm Intelligence:Particle Swarm

Optimization[J]. Journal of Japan Society for Fuzzy Theory and Intelligent Informatics,2008,20(6):829-839

[7] 管雪梅,吴马超,李文峰,黄青龙.基于粒子群优化Friele模型

木材染色配色算法研究[J].西北林学院学报,2020,35(6):244-248

[8] 杨峻山,纪震,谢维信,朱泽轩.基于粒子群优化的生物组学数

据分类模型选择[J].深圳大学学报(理工版),2016,33(3):264-271

[9] 刘洋,肖伟.粒子群优化的改进机场车辆调度模型研究[J].

计算机工程与应用,2015,51(11):252-255,270

猜你喜欢
粒子群优化随机森林
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
引入萤火虫行为和Levy飞行的粒子群优化算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
能源总量的BP网络与粒子群优化预测
基于混合粒子群优化的频率指配方法研究
基于混合核函数的LSSVM网络入侵检测方法
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测