王宛宛 段 浴
1(重庆交通职业学院大数据学院 重庆 402247) 2(重庆邮电大学通信与信息工程学院 重庆 400065)
随着移动通信技术的更新换代,5G通信技术的发展备受社会各界关注[1],根据《5G愿景与需求》白皮书描述,相比于4G的各项指标,5G的性能指标极大提高[2-3]。无论是无线网络的分析还是优化,都迫切需要更高性能的5G终端测试设备。
随着5G技术不断发展,通信系统的设计越来越复杂。目前传统的系统设计的复杂性已经充分逼近移动通信系统存在的性能界限,而人工智能技术在图像识别等领域的成功,给了5G通信技术一个突破口。目前,华为、中兴、高通等世界各国著名科技公司也正在此领域深入研究,期望助力5G各个层面性能的优化,助其突破性能界限。
近年来,有部分研究人员已在此领域进行研究,文献[4]不改变原通信系统结构,在已有的技术基础上,提出了数据模型的双驱动机器学习技术,在某个模块中利用机器学习训练系统相关参数进而提升系统各项性能。文献[5]在无线通信信令数据分析中使用机器学习模型,通过训练信令数据,得到系统数据之间的一种函数关系,并通过该函数关系测试输入的信令数据,推断对应可能的输出值。文献[6]运用机器学习训练数据集,通过训练感知器去识别信令记录中用户的时空状态。然而现有研究并未具体考虑信令分析中的信令分类问题,本文在融合IT领域微服务化风格的5G模拟终端信令分析系统新型架构下,结合人工智能技术中机器学习算法,在监督学习下,提取信令数据的用户特征,建立模型训练信令数据,提升信令分析性能。
5G的网络架构是由3GPP进行定义的,引入了服务化的功能性设计,网络功能可以被定义为多个相对独立的模块,而且可以被灵活调用[7-8]。在5G模拟系统中,L1、L2子系统功能主要是数据采集和解码,L3子系统主要是对信令面与业务面的数据进行解码并合成出表,信令数据训练子系统是完成对信令数据的机器学习模型训练。图1是5G模拟终端中信令分析系统框架。
图1 5G模拟终端信令分析系统框架
在5G模拟终端信令分析系统中,基带板以同向正交IQ的数据形式,将从天线采集获取的数据进行存储。将解码结果合成信令综合业务呼叫/事务详细记录(call/transaction detail record,XDR)并存放到数据库中,通过此系统还可进行信令的反查,将解码结果显示到客户端。按照功能划分,系统分别由数据采集、解码合成、多协议关联和数据训练四大模块组成。
通过数据采集模块可以使用采集卡采集用户的原始信令数据。数据采集模块主要由奇数的卡槽和偶数的卡槽基带板分别采集得到下行数据、上行数据,扫描仪器当前位置小区,并记录下扫描结果。在进行数据扫描前,系统需要配置板卡的参数,在系统上电时,基带板进行自动扫描,记录出当前出现的小区位置,并得到一个系统记录。如图2所示,当工程被重新建立时,将记录到的数据返还给客户端,并用来配置带小区参数。
图2 新建数据采集工程流程
新建工程时,客户端需从服务器获取由扫描基带板获取并记录的活动小区列表,选择要进行数据采集的小区号,进行实时采集。当数据采集模块被启动时,作为IQ数据的采集结果将被存储。
系统通过调用接口,可将从层2板所得的L2数据传输给解码合成模块,并按照信令消息类型,根据信令面和业务面的数据分别进行解码合成,将解码合成得到的XDR和统计表发送到多协议关联模块。
基带板通过高速串行总线PCIe把传输块(Transport Block,TB)及关联信息写入层2板的PCIe空间,层2板保存相关原始数据,同时把PCIe空间的TB数据块拷贝到数字信号处理技术核心(Digital Signal Processing Core,DSP Core)块解析地址,再把解析完成后的裸数据及关联信息写入核心板的PCIe地址空间,则完成了数据从基带板到层2板再到核心板的数据交换。板间数据流如图3所示,在解码合成过程中,在通过消息标识查找L2数据的基础上,通过MAC层获取到相应消息的ID,根据相应消息的ID调用层2板上的原始数据,根据得到的L1、L2原始数据对L3明文数据进行比特解码进而获得数据的详细字段。根据每层协议的不同,通过调用不同的解码器对相应的解码函数进行解码,解码得到的结果为L3数据。
图3 板间数据流
多协议关联分析是指将多个核心网、无线资源控制层和非接入层等不同协议的数据流进行关联,通过将同一用户的信令面与业务面的数据进行多协议关联,并标注出来进行匹配关联并合成XDR。
多协议关联的实现过程是在信令数据解码合成之后,主要是以小区的无线网络临时标识C-RNTI等参数作为Key值构建哈希函数。然后使用哈希算法,将关键信令信息Key值映射到哈希表中。将相同用户的相同信令流程中相互关联的信息进行组合,进而形成整个综合信令XDR流程[9]。关联流程如图4所示。
图4 多协议关联流程
在5G模拟系统中,数据训练主要就是将采集的信令数据进行分类,按标识建立起机器学习的模型。信令分析数据训练过程中,将信令数据按专家特征有监督地进行模型训练,学习得到一种信令数据输入和输出的函数关系。如图5所示,数据采集模块采集的原始信令数据分发为信令面数据和业务面数据,数据预处理的过程就是将一些不合理的数据进行剔除。然后对信令数据中C-RNTI用户标识进行有监督的特征分析,建立机器学习模型进行监督学习训练。最后对训练模型进行性能分析。
图5 数据训练流程
在5G模拟终端信令分析系统中,信令关联合成的主要操作就是查找信令消息的关键Key值,通过判断用户映射的hash表中所对应的消息,再去合成XDR。而输入的信令数据是有专家定义的特征标签,并且有明确标识的预测值要求[10]。因此可用监督学习的方法,根据专家特征对信令数据加以标识作为训练集输入,通过训练出的模型判断用户信令数据的变化规律。
因此,在信令分析中引入机器学习分类算法,在用户信令流程关联合成之前,选取信令关键消息Key值中的C-RNTI作为用户特征;根据用户特征属性进行人工分类训练,将训练得到的数据模型作为分类器模型;在信令关联合成时,使用训练完成的分类器模型对信令数据进行分类,对该用户特征信令流程C-RNTI相同的概率较大的信令数据进行关联合成,提高信令关联效率。
机器学习分类算法预测产生的结果是离散值,而用户信令数据正是带有特征标识、离散的、无序的变量值[11-12],因此可以用机器学习算法中分类的方法构建分类器模型[13]。在5G模拟终端信令分析系统中,由于朴素贝叶斯分类算法简单直观,计算量与所需估计的参数较少,对于缺失数据不敏感,比较适合离散无序的信令数据。
在信令数据训练过程中,Y为信令数据关联过程中的用户类别,X为同一信令流程中用户标识C-RNTI特征,对于信令数据样本集:
(1)
信令数据中X与Y是离散无序的,因此X和Y相互独立。其中:m表示信令数据中有m个用户样本;n表示信令数据有n个用户标识C-RNTI特征。yi(i=1,2,…,m)表示样本类别,取值为{C1,C2,…,CK}。因为信令数据相互独立,则可以得出其条件概率为:
P(X=x|Y=Ck)=P(X1=x1,X2=x2,…,Xn=xn|Y=Ck)=
(2)
式中:条件概率P(X=x|Y=Ck)是指信令数据中,事件Y=y信令流程已经是同一个用户的条件下,特征用户标识C-RNTI仍然相同的事件X=x发生的概率。后验概率是指某特征用户标识C-RNTI相同的事件X=x已经发生,那么该事件是因为信令流程是同一个用户的事件Y=y而发生的概率。其中:W表示X=x事件;S表示Y=y事件。
则后验概率为:
(3)
将式(2)代入式(3)后,经过计算可得:
(4)
(5)
在信令分析过程中,在信令消息关联合成时,查询用户映射到hash表中对应的信令关键消息Key值。如果在信令数据中,存在相同用户类别的特征信令流程,其用户标识C-RNTI也相同,则关联合成XDR。选取信令数据特征属性C-RNTI,由人工对信令数据按特征进行分类,计算信令流程已经是同一个用户的条件下,特征用户标识C-RNTI仍然相同事件的条件概率P(X=x|Y=Ck),系统所需要的后验概率是通过先验概率和条件概率与数据一起综合得到的。最后系统通过输入的训练数据集和特性属性进行训练,输出训练完成的信令分类器P(S|Wj)。
算法1信令分析数据训练算法
输入:信令分析训练数据。
输出:训练好的分类器。
1.for对信令训练数据集中的数据特征属性C-RNTI和用户类别;
2.do
计算所有划分的条件概率P(X=x|Y=Ck);
3.and
④基础工作薄弱,难以满足防汛抗洪需求。嫩江、松花江、黑龙江流域防汛基础工作相对落后,一定程度上影响防汛抗洪工作。仍有重点城市缺乏超标准洪水防御方案,近年制定的一些调度方案、防洪预案的科学性、实用性和可操作性不强。防汛物资储备普遍不足,抗洪抢险专业队伍建设滞后,难以满足流域性大洪水抗洪抢险需求。
计算P(Y=Ck|X=x)
4.end for
本文使用到的系统是根据训练模型的F1得分、精度、准确率和召回率等指标评价模型性能。
信令数据训练模型属于分类的监督学习,使用机器学习中的混淆矩阵去分析模型的性能,如表1所示,用一种特殊的矩阵来可视化展示算法的性能。
在信令分析系统中,信令分类可归为一个二元分类问题,信令数据训练模型分类器的最终结果可分为四类情况,分类结果如下:
(1) True Positive(TP):正确的正例,即同一用户类别的特征信令流程用户标识C-RNTI相同。
(2) False Positive(FP):错误的正例,即不同用户类别的特征信令流程用户标识C-RNTI相同。
(3) False Negative(FN):错误的负例,即同一用户类别的特征信令流程用户标识C-RNTI不同。
(4) True Negative(TN):正确的负例,即不同用户类别的特征信令流程用户标识C-RNTI不同。
在处理机器学习模型时,广泛使用精度和召回率去评判模型的性能,其计算公式为:
(6)
(7)
在信令数据朴素贝叶斯分类器模型中Precision和Recall是相互影响的,F1 scores是量化两个指标的均衡性的合成指标,实际上是调和均值(Harmonic Mean),其计算公式为:
(8)
在信令分析过程中,机器学习模型分类性能指标准确率(Accuracy)表示有多少信令数据被正确预测了,即为正确预测的正负例数与总数的比值,公式为:
(9)
本文为更加直观表示本文信令机器学习模型分类性能,再引入ROC曲线评价系统,以其下方形成的面积来衡量分类的性能,评价信令分析机器学习分类器模型性能。
真正率TPR公式为:
(10)
假正率FPR公式为:
(11)
根据分类结果式(12)计算ROC曲线下方面积公式为:
(12)
实验过程中,根据5G的TS38.331协议,基站在信令流程中为每个UE用户的特征动态标识。根据其003D至FFF3的取值范围,随机性地产生仿真数据源,再进一步赋值,就可获得原始的数据集。然后清洗原始数据,删除部分不合理数据得到实验数据,将实验数据拆分,其中数据的80%用来训练,20%用来测试。
根据系统要求测试环境可分为内场测试与外场测试,包括模拟终端业务能力,以及在多个终端平台部署下,模拟终端在典型场景的业务能力和覆盖能力等验证[14]。图6为测试环境平台的搭建,包括频谱仪、综测仪和信号源。图7为5G模拟终端设备测试结果实物。
图6 测试平台环境搭建
图7 5G模拟终端设备实物
经过对测试结果的分析,在信令数据训练模型中,混淆矩阵可视化如图8所示。
在信令数据训练机器学习分类器模型中,三种分类模型的分类结果如表1所示。
表1 模型分类结果
在信令数据训练模型实验结果中,NB模型、D-Tree模型与SVM模型验证对比结果如图9所示。可知NB模型的精度为54.3%,而D-Tree模型与SVM模型精度均未超过40%;三个模型的召回率都在50%以上,NB模型召回率达90.3%,表明NB模型的查全能力最强;NB模型的准确率达76.2%,超过其他两个模型20百分点左右;而三个模型综合评分F1分数分别为67.8%、49.6%和44.2%,NB模型相对于其他两个模型是最优的。
图9 信令数据分类模型验证对比结果
在信令数据训练机器学习分类器模型中,可得图10中ROC曲线汇总,其中area表示ROC曲线下方面积。根据实验结果,综合以上三种模型的各项性能评价指标,使用朴素贝叶斯分类器模型分类性能较好。而且朴素贝叶斯模型有稳定的分类效率,在很多领域有广泛的应用,因此,朴素贝叶斯分类器的机器学习信令分析算法综合性能相对最优,该算法应用于5G模拟终端系统是可行有效的。
图10 ROC曲线汇总对比
面向5G的智能无线通信技术突破传统移动通信的应用体系,超越传统移动通信设计理念与性能,将是后5G时代发展的主流技术之一。本文在融合IT领域微服务化风格的5G新型网络架构基础上,针对5G模拟终端设计一种新型信令分析系统架构,并提出该架构下一种基于机器学习的信令分析算法。实验结果表明,采用朴素贝叶斯分类算法的信令数据训练模型的Precision、Recall、F1 score、Accuracy和ROC曲线性能指标都相对较好,有更好的分类结果,从而减少了信令关联过程中对一些无用数据的存储与查找,可快速定位分析目标信令,为初步商用的5G网络终端的优化和测试领域提供重要的理论基础和参考意义,推动5G产业的发展。