孙志于,王琪,高彬,梁中军,徐晓斌,王尚广
面向边缘智能计算的数据场分类算法
孙志于1,王琪2,高彬2,梁中军3*,徐晓斌2,王尚广4
(1.新疆气象信息中心,乌鲁木齐 830002; 2.北京工业大学 信息学部,北京 100124; 3.国家气象信息中心 资料服务室,北京 100081; 4.网络与交换技术国家重点实验室(北京邮电大学),北京 100876)(∗通信作者电子邮箱 liangzj@cma.gov.cn)
针对聚类算法研究中普遍存在不能充分利用历史信息、参数优化过程慢的问题,结合边缘智能计算提出了一种基于数据场的分布式自适应分类算法,算法部署于边缘计算(EC)节点,提供本地的智能分类服务。该算法通过引入监督信息改造传统数据场聚类模型的结构,使其能够应用于分类问题,扩展了数据场理论可应用的领域。基于数据场思想,该算法将数据的域值空间转化为数据势场空间,依据空间势值将数据分为无标签的多个类簇结果,再将类簇结果与历史监督信息进行云相似度比较,并将其归属于与其最相似的类中;同时,提出了一种基于滑动步长的参数搜索策略以提高算法参数的优化速度。在此算法基础上还提出了一种基于分布式的数据处理方案,通过云中心与边缘设备的协作,将分类任务切割分配到不同层次的节点,实现模块化、低耦合。仿真结果表明,所提算法的查准率和查全率均保持在96%以上,且汉明损失均低于0.022。实验结果表明,所提算法可以准确分类并提高参数优化速度,整体性能优于逻辑回归(LR)算法与随机森林(RF)算法。
边缘智能计算;分布式数据处理;参数优化;数据场;自适应分类
随着数以亿计的智能终端部署于医院、学校、工厂等地,在各个终端内产生了海量的数据。其中,很多数据都需要做出及时的决策,但受限于本地的计算能力,终端无法对数据进行有效处理,这时终端节点就需要占用网络链路将本地数据上传,并等待云端反馈结果[1]。为了减少网络通信时间、实现更快的本地响应,边缘计算(Edge Computing, EC)将云计算的资源、计算、存储能力下沉到本地边缘设备(如网关、基站等),使大量计算可直接在本地进行。近些年来,学者们在关于EC的具体实践提出了两种思路:一是设计合理的通信与计算资源联合分配方案[2];二是将机器学习技术引入EC,提供一种本地的泛智能服务[3-4]。文献[3]中提出了一种用于EC环境中的自动攻击检测系统,利用EC能力来有效地执行基于云上预构建的复杂极限学习机器模型的流量分类;文献[4]提出了一种基于长短期记忆(Long Short‑Term Memory, LSTM)网络的面向移动边缘网络的智能互联车辆信道预测模型,该模型能够捕获序列中有价值的信息,很好地分析信道参数的时空相关性。文献[3-4]将机器学习技术和EC有机结合在一起,不仅为机器学习技术找到了实践应用的方向,也使边缘设备更加智能。
以机器学习为代表的智能技术有效地扩大了EC的应用空间,经过优化的模型并不会占用太多的资源,很适用于部署于边缘设备以提供高效的服务[5]。更进一步地,采用分布式的EC与机器学习框架,可以为整个系统带来更高的智能,利用终端采集大量的数据,联合边缘服务器与云端共同学习算法,智能地通过云中心与边缘节点的协作交换学习参数,通过动态的系统优化与应用级的调整,可以更好地训练和推断模型,达到更高的智能[6]。
现在很多经典的机器学习算法被广泛应用于EC,为边缘设备提供各种服务[7]。本文主要提出一种基于数据场的自适应学习的分类算法,类似于传统机器学习技术,同样可以部署于EC中,提供有效的分类服务。分类算法是当前数据挖掘领域中最重要的技术之一,为数据处理提供重要的支撑作用。分类算法通过学习有标签的样本数据、优化模型参数、训练分类器,从而获得预测未知类型数据的能力[8]。
数据场理论基于传统物理学,将多维数据映射为多维空间内的对象点。映射后的对象会在数据空间内相互作用,通过彼此的牵引形成场域,该场域也被称为数据场。现在,学者们基于数据场提出了多种聚类算法[9-10],这些聚类算法在各自的应用领域均取到了良好的效果。基于数据场的聚类算法具有参数依赖量少、算法适应性强的优点,但是也有不能充分利用历史信息、参数优化过程慢的缺点。
本文改进传统数据场聚类算法的结构,引入了监督信息,使其可以应用于分类问题中;同时,为了加快算法参数的优化,提出了一种基于滑动步长的搜索策略,避免了传统模型陷入过拟合或欠拟合的问题,通过学习数据之间的相互关系将数据分类,且仅依赖于少量的参数;还提出了一种基于分布式的数据处理方案,通过云中心与边缘设备的协作,将分类任务切割分配到不同层次的节点,实现模块化、低耦合。
传统的分类算法有基于决策树的算法、基于贝叶斯的算法和基于神经网络的算法等。文献[11]基于经典的ID3算法提出了一种改进的疾病预测分类方法,解决了数值属性离散化的问题;文献[12]提出了一种用于宽带无线电中的信号分类和干扰检测技术,使用贝叶斯分类器将各种窄带信号分类为各自的调制,检测不同窄带信号的干扰;文献[13]提出了一种基于粒子分类优化的BP网络客户流失预测算法,优化了BP神经网络的初始权值和阈值,提高了预测精度。传统的分类算法存在一些弊端,如容易陷入过拟合、欠拟合,也不易分析数据间的相互关系。
分布式分类算法可以提高分类的效率,很多研究者对基于分布式分类算法进行了研究。如文献[14]提出了一种分布式像素统计方法,探讨了分布式处理技术开发用于监督分割和高分辨率遥感图像分类方法的有效性,以缩短所需的计算时间;文献[15]描述了用于分布式优化的交替方向乘子算法的具体实现,实现在大型数据集上运行具有L2正则化的逻辑回归。
基于数据场的分类方法在聚类中应用较多,文献[16]研究了基于数据场的K‑Means聚类雷达信号分类算法,将数据场引入非自由度雷达信号排序以消除噪声;文献[17]提出了一种基于数据场聚类和云模型分区的算法,以解决相邻群集中心的估计问题。由于数据场没有监督信息,是自适应而形成的类,所以传统的数据场只能用于聚类而不能用于分类。
本文提出一种基于数据场的自学习分类算法,通过将数据场理论应用到分类问题中,引入监督信息,利用类的数量对参数进行优化,充分利用现有信息,使分类更加高效。利用分布式的数据处理方案,将分类任务切割分配到不同层次的节点,实现模块化、低耦合。
在物理学中,某一物理量在空间区域的分布称为场,如磁场、引力场等,物质粒子之间的相互作用通过场的作用来实现。随着场论的发展,它被抽象为一个数学概念来描述物理量或数学函数在空间中的分布[18]。数据场理论突破了在传统数据挖掘领域中数据对象只有一对一的映射关系,因为它认为在数域空间内的数据可以互相作用,从而在整体上形成一个新的势值场域。
式(1)被称为势值函数,其中:是单位数据点的质量;是数据点之间的欧氏距离;是数据场的影响因子。影响因子会影响数据对象之间相互作用力的大小,从而影响数据势场的分布,影响分类决策。图1描述了基于高斯随机函数生成的两团类簇。
图2 影响因子对于分类结果的影响
现有关于数据场影响因子的优化普遍面向聚类过程,不能完全适用于分类任务。优化的核心在于是否对分类标签进行了有效学习。旧有的优化方法一般分为两类:一是基于经验的选取,二是基于信息熵的选取。
如图3所示,多分类的数据集会在数据场内形成多峰的数据势图,越靠近势值中心其势值会越大。其中,峰值代表了分类簇的分类中心,是局部势值的极大点。
图3 面向两个分类簇的3D势图
本文利用滑动搜索框寻找局部势值的极大点,搜索框如图4所示。图4描述了一个简单的数据势场,滑动框会沿着上、下、左、右四个方向向框内势值最大的方向滑动。当框内中心势值达到最大时,滑动框会将此最大点返回,作为分类中心。
图4 局部势值与滑动搜索框
当面对多分类问题时,将在势值场内均匀分布生成与分类个数相同的搜索框,当各个搜索框停止搜索返回后,若发现两个搜索框重合,则需要再随机生成一个搜索框,直到生成与分类目标簇数相同的独立中心。
本文提出了一种基于数据场的自学习分类算法。算法分类器的构造需要学习目标数据样本的期望、熵、超熵、数据场影响因子。
通过对训练集进行参数训练,构造最优分类器模型,接着对未知类别的数据进行分类分析,算法流程如下:
算法1 基于数据场的自学习分类算法。
输出 分类结果。
步骤3 将局部最大势值点确定为类别中心;
在网络中,传感器节点一般只负责收集数据并提交到上行汇聚节点,如一些基站等边缘节点,可以利用本地有限的资源处理一些简单的信息处理任务。但面对不断增长的任务需求,传统小规模集群越来越难以满足机器学习算法训练、学习的需求。云中心可以支持多用户共享物理资源,支持高效执行多个模型任务的训练。
算法主要分为两个部分:一是基于滑动搜索的模型训练阶段;二是基于模型预测的推理阶段。模型的训练是一个探索性的过程,通过反复大量的运算调整训练目标超参数,但EC节点难以满足大量的计算需求,所以可以将模型的训练过程放到性能更为强大的云端进行集中训练,再将训练好的模型分布式下发反馈到EC节点。将训练模型的任务从EC节点抽离,可以更好地减少EC节点的负荷,而且经过优化的模型并不会占用太多的资源,很适于部署到边缘节点[6]。网络拓扑结构如图5所示。
图5 网络拓扑图
基于分布式的智能算法的具体过程如下:
1)传感器节点收集数据并提交到推理层相应的EC节点中。
2)各个EC节点将收集到的数据发送到训练层的云中心进行训练。
本文实验采用了来自UCI(University of California Irvine)大学的鸢尾花数据集和人工生成的二维随机数数据集。其中,二维随机数数据集的数据共有三类。基于二维数据的可视化,本文实验主要对鸢尾花数据集中花瓣长度和花瓣宽度两个维度进行分类处理。对数据集进行分析,由于训练样本具有天然不平衡性,本文实验使用逆向云模型提取数据集原始数据特征,再使用正向云模型重构基于随机数数据集的新数据集和基于鸢尾花原始数据特征的3个不同规模的数据集[21]。本文使用原始数据集作为训练集,将重构数据作为测试集。二维随机数数据集重构数据如图6所示,鸢尾花数据集重构数据如图7所示。
本文实验主要针对本文算法与逻辑回归(Logistic Regression, LR)算法和随机森林(Random Forest, RF)算法对鸢尾花数据集的分类进行比较。实验环境:操作系统为MacOS Catalina,开发软件为Matlab R2019a,CUP为Intel Core i5@2.40 GHz,内存16 GB,硬盘容量512 GB。
表1 混淆矩阵
查准率表示预测正确的结果占预测为正例中的比例,计算公式如下:
查全率表示预测正确的结果占实际为正例中的比例,计算公式如下:
汉明损失表示所有错误预测样本的比例,其值越小,模型的分类能力越强。计算公式如下:
随机数数据集的分类结果如表2所示,由图6可知随机数据分为三类,可以看出在数据量很大的情况下,本文算法的查准率和查全率都大于90%,保持在较高的水平。
表2 随机数测试集规模为1 800时本文算法准确率与汉明损失
图6 使用云模型重构的1 800个随机数数据
不同测试集规模下的鸢尾花分类实验结果对比如表3所示。
对比图7(a)与表3可知,在数据规模为150时,三种算法均对线性易区分的山鸢尾数据有了清晰的分类,在线性较不易区分的杂色鸢尾、维吉尼亚鸢尾的分类中,本文算法相比LR算法和RF算法保持了较高或相近的查准率、查全率水平。对比图7(b)与表3可知,在数据规模为300时,得到了与上一个实验相近的结果。对比图7中的(a)、(b)、(c)可知,在数据规模为600时,杂色鸢尾与维吉尼亚鸢尾数据大量交错在一起,线性极不易区分,分类难度大。通过表3可知,在数据规模为600时,本文算法在杂色鸢尾和维吉尼亚鸢尾的分类中的查准率和查全率仍高于RF算法;在杂色鸢尾数据的分类中,查全率高于LR算法,但查准率略低于LR算法;在维吉尼亚鸢尾的分类中,查准率高于LR算法,但查全率略低于LR算法。
表3 不同测试集规模下鸢尾花分类实验结果对比 单位: %
通过表4可知,在三次不同规模数据集实验中,本文算法的汉明损失都要小于LR算法和RF算法。通过表3和表4可以得出结论:本文算法的分类能力优于LR算法和RF算法,整体性能上也优于LR算法和RF算法。
图7 云模型重构的鸢尾花数据.
表4 不同规模鸢尾花数据集下的汉明损失对比
分类算法是数据挖掘领域的重要组成部分,研究高效可靠的分类算法已经成为广大研究者的重要目标。本文主要提出了一种基于数据场的分类算法,该算法可部署于EC设备中,提供有效的分类服务。在基于分布式的系统中,利用云端训练模型、边缘设备端推演模型,达到分层的协作。下一步的工作中,可以重点探讨算法关于异常点的识别,进一步优化算法;同时,也需要构建更注重细节、更系统性的EC与机器学习的协同框架。
[1] STERGIOU C, PSANNIS K E, KIM B G, et al. Secure integration of IoT and cloud computing[J]. Future Generation Computer Systems, 2016, 78(3): 964-975.
[2] BOZORGCHENANI A, MASHHADI F, TARCHI D, et al. Multi‑ objective computation sharing in energy and delay constrained mobile edge computing environments[J]. IEEE Transactions on Mobile Computing, 2020, 20(10): 2992-3005.
[3] KOZIK R, CHORAŚ M, FICCO M, et al. A scalable distributed machine learning approach for attack detection in edge computing environments[J]. Journal of Parallel & Distributed Computing, 2018, 119: 18-26.
[4] LIU G, XU Y, HE Z, et al. Deep learning‑based channel prediction for edge computing networks toward intelligent connected vehicles[J]. IEEE Access, 2019, 7: 114487-114495.
[5] ZHU G, LIU D, DU Y, et al. Toward an intelligent edge: wireless communication meets machine learning[J]. IEEE Communications Magazine, 2020, 58(1):19-25.
[6] WANG X, HAN Y, WANG C, et al. In‑Edge AI: intelligentizing mobile edge computing, caching and communication by federated learning[J]. IEEE Network, 2019, 33(5): 156-165.
[7] CUI Q, GONG Z, NI W, et al. Stochastic online learning for mobile edge computing: learning from changes[J]. IEEE Communications Magazine, 2019, 57(3):63-69.
[8] SARITAS M M, YASAR A. Performance analysis of ANN and Naive Bayes classification algorithm for data classification[J]. International Journal of Intelligent Systems and Applications in Engineering, 2019, 7(2): 88-91.
[9] 卢意红,王雪红,薛开创,等.一种基于数据场聚类的图片相似性比较方法[J].光电技术应用,2019,34(4):34-38,51.(LU Y H, WANG X H, XUE K C, et al. Image similarity comparison method based on data field clustering[J]. Electro‑Optic Technology Application, 2019, 34(4): 34-38,51.)
[10] 郜丽鹏,沙作金.一种改进的数据场聚类算法[J].应用科技, 2019, 46(6): 30-34.(GAO L P, SHA Z J. An improved data field clustering algorithm[J]. Applied Science and Technology, 2019, 46(6): 30-34.)
[11] YANG S, GUO J Z, JIN J W. An improved Id3 algorithm for medical data classification[J]. Computers & Electrical Engineering, 2018, 65: 474-487.
[12] MUGHAL M O, KIM S. Signal classification and jamming detection in wide‑band radios using Naive Bayes classifier[J]. IEEE Communications Letters, 2018, 22(7): 1398-1401.
[13] YU R Y, AN X M, JIN B, et al. Particle classification optimization‑based BP network for telecommunication customer churn prediction[J]. Neural Computing and Applications, 2018, 29(3): 707-720.
[14] VILLALON T, IVAN E. Distributed land use classification with improved processing time using high‑resolution multispectral data[C]// IGARSS 2012: Proceedings of the 2012 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE, 2012: 6987-6990.
[15] LUBELL D P, SONDAG J. Practical distributed classification using the Alternating Direction Method of Multipliers algorithm[C]// Proceedings of the IEEE International Conference on Big Data. Piscataway: IEEE, 2013: 773-776.
[16] FENG X, HU X, LIU Y. Radar signal sorting algorithm of k‑means clustering based on data field[C]// ICCC 2017: Proceedings of the 2017 3rd IEEE International Conference on Computer and Communications. Piscataway: IEEE, 2017: 2262-2266.
[17] RUAN G Q, GUO Q, GONG X. Underdetermined mixing matrix estimation algorithm based on data field clustering and cloud model partitioning[C]// ICEMI 2017: Proceedings of the 2017 13th IEEE International Conference on Electronic Measurement & Instruments. Piscataway: IEEE, 2017: 337-342.
[18] 李德毅,刘常昱,杜鹢,等.不确定性人工智能[M].北京:国防工业出版社, 2004: 1583-1594.(LI D Y, LIU C Y, DU Y, et al. Artificial Intelligence with Uncertainty[M]. Beijing: National Defense Industry Press, 2004: 1583-1594.)
[19] WANG S L, GAN W Y, LI D Y, et al. Data field for hierarchical clustering[J]. International Journal of Data Warehousing & Mining, 2011, 7(4): 43-63.
[20] 余阳.基于数据场的聚类系统的设计与实现[D].北京:北京理工大学,2016:33-34.(YU Y. Design and Implementation of Cluster System Based on Data Field[D]. Beijing: Beijing Institute of Technology, 2016: 33-34.)
[21] 李杰,邹慧兰.大数据交叉映射融合的逆向云算法仿真[J].计算机仿真,2020,37(2):284-288.(LI J, ZOU H L. Reverse cloud algorithm simulation of big data cross mapping fusion [J]. Computer Simulation, 2020, 37(2): 284-288.)
Data field classification algorithm for edge intelligent computing
SUN Zhiyu1, WANG Qi2, GAO Bin2, LIANG Zhongjun3*, XU Xiaobin2, WANG Shangguang4
(1,830002,;2,,100124,;3,,100081,;4,,100876,)
In view of the general problems of not fully utilizing historical information and slow parameter optimization process in the research of clustering algorithms, an adaptive classification algorithm based on data field was proposed in combination with edge intelligent computing, which can be deployed on Edge Computing (EC) nodes to provide local intelligent classification service. By introducing supervision information to modify the structure of the traditional data field clustering model, the proposed algorithm enabled the traditional data field to be applied to classification problems, extending the applicable fields of data field theory. Based on the idea of the data field, the proposed algorithm transformed the domain value space of the data into the data potential field space, and divided the data into several unlabeled cluster results according to the spatial potential value. After comparing the cluster results with the historical supervision information for cloud similarity, the cluster results were attributed to the most similar category. Besides, a parameter search strategy based on sliding step length was proposed to speeded up the parameter optimization of the proposed algorithm. Based on this algorithm, a distributed data processing scheme was proposed. Through the cooperation of cloud center and edge devices, classification tasks were cut and distributed to different levels of nodes to achieve modularity and low coupling. Simulation results show that the precision and recall of the proposed algorithm maintained above 96%, and the Hamming loss was less than 0.022. Experimental results show that the proposed algorithm can accurately classify and accelerate the speed of parameter optimization, and outperforms than Logistic Regression (LR) algorithm and Random Forest (RF) algorithm in overall performance.
edge intelligent computing; distributed data processing; parameter optimization; data field; adaptive classification
SUN Zhiyu, born in 1973, senior engineer. His research interests include cloud computing, meteorological big data.
WANG Qi, born in 1998, M. S. candidate. Her research interests include space‑air‑ground integrated information network, internet of things, mobile edge computing.
GAO Bin, born in 1996, M. S. candidate. His research interests include network big data.
LIANG Zhongjun, born in 1983, Ph. D., senior engineer. His research interests include cloud computing, meteorological big data.
XU Xiaobin, born in 1986, Ph. D., lecturer. His research interests include space‑air‑ground integrated information network, internet of things, mobile edge computing.
WANG Shangguang, born in 1982, Ph. D., professor. His research interests include service computing, 6G, mobile edge computing.
TP301
A
1001-9081(2022)11-3473-06
10.11772/j.issn.1001-9081.2021091692
2021⁃09⁃29;
2021⁃10⁃29;
2021⁃11⁃08。
孙志于(1973—),男,江苏新沂人,高级工程师,主要研究方向:云计算、气象大数据;王琪(1998—),女,北京人,硕士研究生,主要研究方向:天地一体化信息网络、物联网、移动边缘计算;高彬(1996—),男,山西太原人,硕士研究生,主要研究方向:网络大数据;梁中军(1983—),男,新疆乌鲁木齐人,高级工程师,博士,主要研究方向:云计算、气象大数据;徐晓斌(1986—),男,河南鹤壁人,讲师,博士,CCF会员,主要研究方向:天地一体化信息网络、物联网、移动边缘计算;王尚广(1982—),男,河南周口人,教授,博士,CCF会员,主要研究方向:服务计算、6G、移动边缘计算。