支持向量机混合模型在窄带物联网领域的应用研究

2021-01-08 07:58林启明
无线互联科技 2020年23期
关键词:置信准确率阈值

林启明

(南京邮电大学 电子与光学工程学院,江苏 南京 210023)

0 引言

窄带物联网(NB-IOT)是当前一种最有前景的低功率广域物联网技术,它可以很好地适用长距离、低速率的应用场景,并且可以直接部署在GSM和LTE网络下,具有部署成本低、覆盖范围广的特点[1]。传统的通信模块如GSM等存在着功耗较大、信号穿透性差等缺点。而NB-IoT克服了这些不足,是未来物联网领域替代GSM技术的理想选择。物联网应用常常伴随着海量的数据收集,结合统计机器学习技术对数据分类和预测是常见手段。本文首先介绍了一个典型的NB-IoT应用的设计方案,然后提出一种机器学习中两种典型学习方法的混合模型,并分析了混合模型的性能指标,发现混合模型具有更加高的分类准确率。

1 NB-IoT在智能农业领域的应用

1.1 总体设计

目前的物联网运用中,数据传输模块主要是采用GSM、GPRS等网络将数据通过基站发送到服务器端口,或者利用现场传输协议。近年来推出的NB-IoT组网具有功耗极低、信号传输距离远,在停车场、地下室等网络信号较难覆盖的场所都有良好的辐射范围等优点。本文结合物联网在农业中的应用,设计了一种能够监测农业生产中常见的数据,并在云服务器上进行监测的系统。系统的总体框架如图1所示,主要分为3个部分,即信号采集部分、控制器和监控平台[2]。

图1 总体框图

1.2 系统功能

通过土壤湿度模块、光照强度模块、温湿度模块分别测量农业生产环境中的土壤湿度、光强和空气温湿度等信息。控制器段使用A/D转换器读取土壤模块的数据,光强模块和温湿度模块内部自带编码器,可以直接传输数字量,但是由于设计的原因,控制器分别使用IIC协议和单总线协议进行数据传输。数据传输完成后,使用BC-26模块进行AT指令操作控制模块的入网和数据传输等操作来将传感数据通过窄带物联网发送到云服务器上,在平台端编写软件进行环境数据的查询。

1.3 系统硬件设计

光照强度传感器BH1750采用IIC协议传输采集到的光强数据,温湿度传感器AM2320通过单总线协议传输数据和指令,单总线协议是一种通过一根总线的不同时序来完成数据和命令的收发通信协议,通过软件模拟总线的高低电平时间来进行写指令、读数据等操作。土壤湿度传感器YL-69通过ADC读取通道值来获取当前的土壤湿度值,通过软件完成数据的读取,并换算成相应的湿度值。传感器网络完成环境数值的读取后,通过UART串口发送至NB-IOT模块,NB模块接收数据后发送至云服务器ECS。通信模块使用移远公司生产的BC-26模块代替传统应用中的GSM模块。控制器采用意法半导体基于CORTEX-M3内核的STM32F103微控制器,该控制器的主频为72MHz,精简指令集架构。

2 机器学习方法与物联网的结合

近20年来,统计学习已经被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理等许多计算机应用领域中,并且成为这些领域的核心技术[3]。其基于数据,提取数据特征并对数据进行分析和预测的特性很符合物联网应用的数据量大、覆盖范围广、实时监测等特点。本文提出一种结合逻辑斯谛回归和支持向量机混合模型。

逻辑斯谛模型具有简单、易实现、对线性可分度较好的样本集有较好的分类精度等优点。但由于其自身的线性模型特性,在求解耦合程度大的数据样本和非线性向量空间问题上效果往往不理想。支持向量机是20世纪90年代由V.Vapnic等提出的一种基于最大样本间隔的线性分类器,后来由Boser等人[4]引入核技巧后扩展到非线性空间。支持向量机在小样本、高维度情形下的分类性能较好,特别适合处理典型的多分类问题。但是当样本数据量较大甚至求解海量数据时,其自身存在着计算效率低、计算时间过长以至于无法使用的问题。结合这两种分类方法的优势和不足,文章提出一种基于两种分类方法的混合模型,首先引入可疑样本和概率转移矩阵的概念,然后引出LR模型中可疑样本对整体判别精度的影响,设计了对可疑样本进行混合判定的模型,最后分析并比较单LR、混合模型的性能指标。

2.1 逻辑斯谛回归低置信样本提取

在逻辑斯谛回归模型中,输出Y=1的对数概率是输入x的线性函数:

其中,w是模型训练后获得的参数。

对于测试集来说,单个样本求得的结果表示该样本分类为正类的概率P。在此过程中,把P≥0.5的样本分类为正类,P≤0.5的样本分类为负类,并将边界0.5称为“阈值”。现在提高该值的大小,将部分样本划分为“低置信样本”。当某个样本的判别输出P比较小,则说明该样本分为该类别的置信度较低,即该样本判定错误的概率比置信度较高的样本大。不失一般性,对于P≥0.5的样本点,我们提高阈值到0.7后使得P≥0.7的样本分类为正类,而0.5≤P<0.7的样本被划分为“低置信样本”。对于P<0.5时过程类似。

在多分类任务中,我们按照“One-Vs-All”的原则,得到概率转移矩阵:

2.2 SVM分类模型

SVM是一种样本间隔最大化的学习方法,可以形式化为求解凸二次规划问题:

其中,(w,b)为分隔超平面的特征值,ε为松弛变量,C为参数。它能够在样本空间中求解出正负样本点最大间隔的分离超平面,对线性可分的数据集具有很好的分离精度,通过核函数将特征空间映射到高维空间后,还可以很好地求解非线性分类问题。

上述二次规划问题的求解受到的限制较大,当样本容量很大的时候,求解该问题的算法往往变得十分低效,训练时间很长、占用计算机较大的内存甚至无法使用。针对这一问题,有人提出了基于小样本的SVM模型,其思想是通过预先的筛查机制,从海量数据样本中找出对分离超平面影响最大的样本,用这些样本的子集进行训练来达到减小样本容量的目的。还有学者提出了序列最小最优化算法(Sequential Minimal Optimization,SMO),其思想是每次迭代只使用两个样本同时固定其他样本点,将二次规划问题转化为若干个能够得到解析解的子问题,从而大大提升了求解速度和算法的效率[5]。但是上述两种方法都存在着机制复杂、实现困难等问题,从而给工程实际运用增加了难度。

3 LR和SVM混合模型

本文提出的混合模型结合了LR和SVM模型的各自优点,思想是对于耦合度较高的样本集,用LR模型进行初步分类,同时筛选出低置信样本,由于低置信样本是原样本集合的子集,所以低置信样本集合的样本数量减少,同时耦合度较高,适合SVM径向基核函数模型的非线性分类特性。模型结构如图2所示。

训练集经过LR学习系统拟合出LR模型同时分离出低置信样本的集合,该部分样本的容量小和非线性的特性适合核函数的支持向量机学习系统。经由SVM学习后训练的针对低置信样本集合的SVM模型和LR混合模型对于测试集进行预测,最终得到的预测精度往往要好于单一的模型预测结果。

图2 混合模型

4 实验和结果

要把上述混合学习模型应用到NB-IoT中,首先在云服务器端数据库中读取NB模块传输的数据样本并将其转成混合模型的输入格式,这些都由软件编程实现,具体过程就不再赘述。下面验证混合模型对样本数据的预测结果来说明机器学习方法在物联网领域的应用。由于数据样本具有独立性,同时考虑到验证的便利,本文使用了UCI的Electronic Grid数据集。在不同的应用场景中往往需要获取的数据特征不同,但我们可以很容易地从前文介绍的NB-IoT典型应用中,按照所需要特征来替换监测模块中的传感器从而得到对应的数据样本,过程这里不再赘述。下面对于UCI数据集样本进行混合模型下的性能验证。

原数据集有10 000个样本,对其按照经典7:3的比例划分训练集和测试集,得到容量为7 000的训练集和容量为3 000的测试集。实验环境硬件环境为i5-8300CPU、8G内存;软件为GNU OCTAVE和LIBSVM,LR算法使用梯度下降法求解最优值,其迭代次数为400次,对样本使用了均值归一化,LIBSVM使用默认参数,RBF核函数。

对比在不同阈值下,训练集的低置信样本数以及分别用LR模型和SVM模型分别训练后得到的训练集准确率,结果如表1所示。

从数据中我们可以看出,随着阈值的不断升高,训练集中越来越多的样本被划分到低置信样本集中,LR模型与SVM模型相比较而言,其对低置信样本的拟合准确率明显偏低,在阈值取0.7时差值达到最大,为35.46%。从数据对比可以得出结论:SVM模型在线性可分度较差的低置信样本点集合的分类中具有比较理想的准确率,直观地说明了对样本集中的低置信样本子集使用SVM混合模型可以比直接使用LR模型获得较高的精度。

使用训练模型在测试集(3 000个样本)上进行预测,在不同阈值下获得LR模型和混合模型的预测准确率,结果如表2所示。

表1 训练集准确率

表2 测试集准确率

可以看出随着阈值的不断增大,LR+SVM混合模型的预测准确率逐渐增大,在0.9阈值时达到了14.97%,提升较为明显。注意到当阈值取1时,表示仅使用SVM模型进行预测,此时准确率为92.67%,而阈值为0.9的混合模型准确率为95.3%,这证明了通过阈值的选取,混合模型的预测效果可以优于纯SVM模型。

5 结语

本文结合了机器学习和物联网技术,先介绍了一种常见的NB-IoT技术在智能农业领域的应用,然后探讨了机器学习技术在物联网数据分析领域的应用方法,提出了一种逻辑斯谛回归和支持向量机的混合模型,最后通过数据集的实验比较,证明了混合模型的性能优势。

猜你喜欢
置信准确率阈值
急诊住院医师置信职业行为指标构建及应用初探
基于置信职业行为的儿科住院医师形成性评价体系的构建探索
基于模糊深度置信网络的陶瓷梭式窑PID优化控制
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
高速公路车牌识别标识站准确率验证法
比值遥感蚀变信息提取及阈值确定(插图)
室内表面平均氡析出率阈值探讨
基于CUDA和深度置信网络的手写字符识别