臧媛媛 王守信 佟梦竹 王建兴
摘 要:基于非嵌入式传感器数据的行为识别对家居设备控制、异常行为监测非常重要,是智能空间环境下行为识别的研究热点,不仅利于隐私保护而且能长期积累数据满足个体行为偏好。针对传感器数据序列中行为边界标识,并依次改善在线行为识别效果的问题,基于行为突变点检测思想识别连续行为的相似度程度,使用KL散度实现突变点检测,针对突变点检测阈值的选择问题,使用遗传算法对其进行自动设置。使用RF、QSVM、加权K近邻(Weighted KNN,wKNN)、DT算法实验验证突变点时域特征能够有效提高在线行为识别能力,证明了本文方法的有效性。
关键词:智能空间;非侵入式传感器;在线行为识别;突变点检测;阈值自动设置
中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2020)05-0147-05
Intelligent Spatial Behavior Recognition Method Based on Mutation Detection
ZANG Yuanyuan1,WANG Shouxin1,TONG Meizhu2,WANG Jianxing3
(1.Aerospace ShenZhou Smart System Technology Co.,Ltd.,Beijing 100029,China;
2.Beijing Jiaotong University Beijing 100029,China;3.China National Aviation Fuel Group Limited Beijing 100088,China)
Abstract:Behavior recognition based on non embedded sensor data is very important for home equipment control and abnormal behavior monitoring. It is a research hotspot of behavior recognition in intelligent space environment. It is not only conducive to privacy protection but also can accumulate data for a long time to meet individual behavior preferences. Aiming at the problem of identifying behavior boundary in sensor data sequence and improving the effect of online behavior recognition in turn,based on the idea of behavior mutation detection to identify the similarity degree of continuous behavior,KL diver-gence is used to realize mutation detection,and genetic algorithm is used to automatically set the threshold of mutation detection. Using RF,QSVM,weighted KNN (wKNN)and DT algorithm to verify the time-domain feature of mutation point can effectively improve the ability of online behavior recognition,which proves the effectiveness of this method.
Keywords:smart home;non-invasive sensor;online activity recognition;change point detection;threshold automation
0 引 言
近年來,智能空间等以提高生活、工作质量的模式逐渐被接受并成为未来发展趋势,具有安全舒适、高效便利、节能环保、信息通畅的特点[1]。智能空间人体行为识别研究得到越来越广泛的重视,并取得较多研究成果[2]。根据用户行为数据监测的物理手段不同,可分为基于视频、基于便携传感器和基于非侵入式传感器三大类的人体行为识别。第一种方式较直观,但存在隐私保护问题,用户可能无法接受这种方式[3]。第二种方式利用佩戴在人体上的智能手环等传感器采集人体运动信息,实现人体的进、出、站立、坐下、停留、行走和奔跑等行为识别[4],不侵犯个人隐私,但存在影响舒适度、数据获取不及时和不连续等问题。
非侵入传感器行为识别将传感器数据连续部分与预定义行为之一相关联[5],成为当前国内外研究的热点和趋势之一。本文在航天神舟智慧系统技术有限公司物联网智能感知与数据分析技术的基础上,联合北京交通大学和中国航空油料集团有限公司共同开展基于突变点检测的在线行为识别方法研究,验证基于非侵入式传感器数据的行为关联性,提升在线行为识别能力的可行性和有效性,以期解决民航领域航油库站生产、生活中基于智能人体行为识别的安全管理与规范作业行为的问题。针对如何利用行为边界特征值改进行为识别效果的问题,本文使用KL散度作为数据突变点检测的方法,对传感器事件序列的分割数据的行为边界进行识别,用以提供连续行为间的关联信息。针对突变点检测阈值自动设置问题,提出基于遗传算法的突变点检测,对阈值进行自动设置。将突变点作为时域特征向量之一,采用随机森林等算法对行为识别能力进行试验,验证本文提出方法对智能空间环境下在线行为识别能力提升的有效性。
1 相关研究
1.1 离线行为识别
文献[6]中针对传感器序列提出了基于滑动窗口的行为分割方法,并采用SVM分类器和五折交叉验证。文献[7]中提出一种改进的KNN聚类方法,对准备食物这一行为进行识别。文献[8]中采用扫描路径趋势分析方法对独居老人的日常活动进行识别,使用十倍交叉验证的方法,对Aruba公寓内11种行为进行识别。文献[9]使用马尔可夫逻辑网络(Markov Log-ic Network,MLN)对二值传感器和电力监测器的7天数据展开了行为识别。
以上研究关注点是利用历史离线数据对人体行为进行检测,对发现人体行为规律和特点较为适宜,但实际应用需对当前行为或后续行为进行识别和预测,这方面研究称之为在线行为识别。
1.2 在线行为识别
行为识别在实际应用过程中往往希望对最新产生的传感器数据进行识别,这类似于行为预测,称之为在线行为识别。文献[10]提出一种在线行为预测的回归树(Regression Tree,RT)算法,由于事件的顺序排序对于预测算法很重要,移动固定长度的滑动窗口以确定训练示例,然后在窗口之后的下一事件上进行测试。文献[11]提出一种基于频繁序列提取的方法,并使用RF分类器进行行为建模。
在线行为识别将历史数据作为训练数据,然后对最新序列数据进行测试,较为符合智能空间行为识别的实际应用情境。本文的行为识别研究以此为主线展开研究。
2 在线行为识别方法
2.1 相关定义
定义1:传感器事件。传感器事件可以表示為e=
传感器事件是非侵入传感器的行为识别的最基本概念,传感器信息的严格时间序列将作为行为识别的原始数据。通过对传感器消息序列进行分析,提取特征向量进行人体行为识别。表1列出CASAS数据集中某一段时间内记录的传感器事件序列。传感器事件序列可映射到不同的日常行为,如表1中所示传感器事件序列映射到Sleep行为标签。
定义2:传感器事件序列。由一组传感器事件按照严格时间序列组成的一组数据,可以表示为es=
行为识别一般采用窗口的方式将连续传感器事件序列分割成子序列,以便提取传感器事件数据特征值。可采用时间窗口和事件窗口两种方式,既固定时间或固定事件长度。本文采用固定事件窗口方式实现传感器事件序列的分割,为此给出传感器事件窗口定义如下:
定义3:传感器事件窗口数据。是传感器事件序列的子序列,可表示为ew=
传感器事件窗口所代表的传感器事件序列片段间存在一定差异,相邻片段间相似度越低,属于不同行为的可能性越大,本文称之为突变点,定义如下:
定义4:行为突变点。ewi和ewi+1是严格时间序列的两个相邻传感器事件窗口,sim()为相似度函数,threshold为相似度评估阈值,若sim(ewi,ewi+1) 2.2 行为识别流程 构建或训练行为识别一般遵循如下流程:首先对传感器数据进行预处理,一般为删除冗余信息、对数据进行归一化操作等;然后采用窗口方式将数据切割成传感器事件窗口数据。对传感器事件窗口数据进行变换处理,一般采用归一化等方式将传感器数据转换为[0,1]区间,形成训练数据集和测试数据集;最后采用SVM、HMM、CRF、DT、RF等方法在训练集和测试集的基础上进行行为建模,用以实现行为识别。 近年来,对突变点检测的研究集中在基于概率密度比的方法上,直接密度比估计的方法不需要实际估计窗口内的概率密度分布,这种方法简单得多。对于相似度评估阈值threshold的设置,考虑到个体行为特点的差异,在进行突变点检测时能根据个体日常行为特点自动设置相似度评估阈值,本文尝试采用遗传算法,对突变点检测过程进行优化,实现相似度评估阈值threshold的自动设置。 2.3 突变点检测方法 2.3.1 基于KL散度的突变点检测 KL散度衡量的是两个概率密度函数的接近程度,能精确真实地反映出事件随着时间发生的概率分布变化。若P与Q分别是两个相同事件空间里的两个概率分布,则KL散度的定义为: DKL(P‖Q)= 其中,=1,=1。 对于离散概率密度分布的KL散度计算,可表示为如下: DKL(P‖Q)= 其中,=1,=1。 对于连续的概率密度分布的KL散度计算,可表示为式: DKL(P‖Q)= 其中,=1,=1。 KL散度的取值越小,说明P、Q分布越接近,反之,两个概率分布之间的差别越大。当KL散度大于设定的阈值时,即可认为是突变点。本文通过概率密度比检测两个连续窗口是否存在突变点。为避免结果出现无穷,故在P和Q的基础上,分别为其增加一个极小数值,例如2-52。 2.3.2 突变点检测评估方法 突变点检测结果的四类分类结果如表2所示。 采用以下四种不同的性能指标来评估KL散度突变点检测算法的性能。 (1)查全率(Recall),表示在当前所有真实的正样本中,检测到的真实正样本所占的比例,表明突变点检测方法对于真实状态变化的指示。 Sensitivity=Recall=TPR= (2)假正例率(False Positive Rate,FPR),表示在所有真实的负样本中,被错误分为正样本的比率,表明检测过程中会产生的误警报的概率。 FPR= (3)特异度(Specificity),表示在所有真实的负样本中,真正被预测为负样本的概率。 Specificity=TNR= (4)G-Mean,用作突变点检测性能的评价指标,该方法利用敏感性和特异度两种指标评估算法的性能,即正样本的准确率和负样本的准确率。 G-Mean= 2.3.3 基于遗传算法的突变点阈值设置 遗传算法是目前效率较高的全局最优搜索算法,具有适用范围广、稳定性强、自适应性强、收敛速度快等优点,被广泛应用在机器学习、信号处理、自适应控制等方面的优化过程。本文采用遗传算法对突变点检测过程进行优化,通过选定一种评价指标,使之达到最优解。 在突变点检测的评价指标中,G-Mean利用了敏感性和特异性两种指标评估算法的性能,能够有效反映突变点类别不平衡的问题,所以使用G-Mean作为目标函数,将G-Mean到1的距离作为适应度函数。将遗传算法应用于突变点检测过程,能自动设置检测阈值,无需多次进行试验来确定最佳阈值,易于扩展,能够为在真实的智能空间环境下的应用提供基础。 3 实验验证与分析 通过对CASAS项目中H110公寓中的传感器数据,开展突变点检测验证和在线行为识别试验两方面工作,使用事件长度为5的固定窗口方法对原始传感器数据进行分割,從时域、窗口和传感器三方面进行特征提取,特征值及其具体的含义如表3所示。其中,突变点检测结果属于时域特征中的一个。 3.1 在线行为识别度量 在对在线识别结果进行度量时,采用总体分类精度(Accuracy,ACC)、宏查准率(macro-P)、宏查全率(macro- R)、宏F1(macro-F1)来度量多分类任务的结果,其计算方法如下式所示,其中,k为测试数据量、yi′为第i个预测类别,yi为实际类别,n为类别个数,Pi、Ri分别为每一类别的查准率、查全率。 ACC==yi; macro-P=,其中,Pi=; macro-R=,其中,Ri=; macro-F1=。 3.2 突变点检测验证结果与分析 采用遗传算法对突变点检测过程中的阈值进行自动设置,实验结果如图1所示。 “×”为初始种群分布下G-Mean的分布情况,在区间(0,1.5)之间处于快速上升阶段。“〇”标出了遗传算法检测出的最佳阈值及最大的G-Mean,此时阈值α为5.39,G-Mean为72.56%,在最优阈值下。 3.3 在线行为识别试验 3.3.1 严格时间序列验证实验与分析 本节使用严格时间顺序的传感器序列数据对新行为识别进行试验分析,将数据划分为包含训练和测试数据的多个以天为单位的时间段,用以维护数据的时间顺序:每6天作为一段,使用这一段中的前4天数据进行训练,后2天用于测试。实验数据包含27天的数据,为保证对比实验结果更具说服力,将数据分为前24天和后24天。表4列出了采用时间顺序测试与交叉检验方法进行的行为识别结果,其中Time代表分段的严格时间顺序测试,P24d代表前24天,A24d代表后24天。 采用基于时间顺序训练数据测试的验证方法,RF分类器的结果最好,其总体分类精度达到60.86%和57.7%,识别准确度有限,宏查准率、宏查全率和宏F1在前24天数据测试中分别为47.72%、46.66%、46.98%。 3.3.2 突变点特征实验结果与分析 将突变点作为特征值,其结果如表5所示,Time+CPD为添加突变点特征后的模型。 突变点使得基于RF的在线行为识别在前24天数据中的提升并不明显,但在后24天的测试中,其将宏查准率、宏查全率和宏F1分别提高了2.35%、9.69%和6.95%。在wKNN方法中,突变点在前24天的数据中,将宏查全率和宏F1分别提高了6.51%、6.24%;在DT分类器中,突变点在后24天的数据中,将宏查全率和宏F1分别提高了7.29%、3.67%。这表明,提供连续行为间的关联信息,即突变点检测特征,对当前行为实际分配到哪一类别中产生了有益提升。 4 结 论 本文针对智能空间应用行为边界的时域特征改善在线行为识别的问题,使用KL散度实现突变点检测,实现行为边界识别。针对突变点检测阈值的自动选择问题,使用遗传算法对其进行自动设置。使用RF、QSVM、加权K近邻(Weighted KNN,wKNN)、DT等算法实验验证突变点时域特征能够有效改进在线行为识别能力,证明了本文方法的有效性。在下一步研究中,可在以下几个方面开展工作:首先,针对突变点检测探索多样化相似度函数和阈值自动设置方法,并通过对比分析找到较为合适的检测方法;其次,从理论和实验两个方面对手动阈值设置、自动阈值设置的阈值间关系进行分析,提升阈值自动设置的普适性;最后,尝试用RNN神经网络等时序数据处理模型开展在线行为识别,进一步提升行为识别准确度等。 参考文献: [1] ALAM MR,REAZ MBI,ALI MAM. A Review of Smart Homes-Past,Present,and Future [J]. Systems,Man,and Cybernetics,Part C:Applications and Reviews,IEEE Transactions on,2012,42(6):1190-1203. [2] FINDEISEN M,MEINEL L,RICHTER J,et al. An omnidirectional stereo sen-sor for human behavior analysis in complex indoor environments [C].2015 IEEE International Conference on Consumer Electronics (ICCE),Las Vegas,NV,USA,2015:17-19. [3] GEORGE D,BRIAN K. H,MARJORIE S,et al. Senior residents perceived need of and preferences for “smart home” sensor technologies [J]. Interna-tional Journal of Technology Assessment in Health Care,2008,24(1):120-124. [4] CHO M,KIM Y,LEE Y H. Contextual Relationship-based Activity Segmenta-tion on an Event Stream in the IoT Environment with Multi-user Activities [C]. Proceedings of the 3rd Workshop on Middleware for Context-Aware Applications in the IoTDecember,2016:7-12. [5] AMINIKHANGHAHI S,COOK D J. Using Change Point Detection to Automate Daily Activity Segmentation [C].13th Workshop on Context and Activity Modeling and Recognition. IEEE,2017. [6] KRISHNAN N C,COOK D J. Activity recognition on streaming sensor data [J]. Pervasive and Mobile Computing,2014(10)Part B:138-154. [7] ZHANG Q,KARUNANITHI M,BRADFORD D,et al. Activity of Daily Living as-sessment through wireless sensor data [C].Engineering in Medicine and Biology Society (EMBC),2014 36th Annual International Conference of the IEEE. S.l.:s.n.,2014:1752-1755. [8] YATBAZ H Y,ERASLAN S,YESILADA Y,et al. Activity Recognition Using Binary Sensors for Elderly People Living Alone:Scanpath Trend Analysis Ap-proach [J].IEEE Sensors Journa,2019,19(17):7575-7582. [9] HONDA Y,YAMAGUCHI H,HIGASHINO T. Daily Activity Recognition based on Markov Logic Network for Elderly Monitoring [C].2019 16th IEEE Annual Consumer Communications & Networking Conference(CCNC),Las Vegas,NV,USA,2019:1-6. [10] MINOR B,COOK D J. Regression tree classification for activity predic-tion in smarthomes [C].2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing,New York,USA ,2014:441-450. [11] RAEISZADEH M,TAHAYORI H. A novel method for detecting and predicting residents behavior in smart home [C].IEEE 2018 6th Iranian Joint Congress on Fuzzy and Intelligent Systems(CFIS),Kerman,2018:71-74. 作者簡介:臧媛媛(1986-),女,汉族,山东烟台人,工程师,硕士,研究方向:物联网技术及应用、人工智能技术应用。