一种支持语义解析的智能通信服务网络架构

2022-07-18 08:57陈曙东李伟炜高昊君张雪婷董奕辰

无线电通信技术 2022年4期

关键词：知识库分布式语义

陈曙东，李伟炜，杜蓉，高昊君，张雪婷，董奕辰

(1．中国科学院微电子研究所，北京 100029;2．中国科学院大学集成电路学院，北京 100049)

0 引言

随着5G和人工智能技术的融合发展，工业互联网、自动驾驶等物联网应用快速发展。这些新兴应用对通信网络服务的智能化和多样性的需求越来越迫切[1]，未来通信网络将开始更加注重提供更贴近用户需求和体验的智能化服务[2]。

实现面向万物互联的智能化通信服务，当前的通信网络面临以下主要挑战：

① 现有基于标识的通信网络内没有语义信息，无法支持基于网络语义的路由、缓存等智能服务；

② 物联网应用需要实时感知环境语义，进行快速检索和内容获取，支持分布式的高并发请求，现有通信网络需要提升分布式查询效率。

用户访问网络的主要行为之一是对海量内容的获取，因此未来网络应该从当前以“位置”为中心的体系架构，演进到以“信息”为中心的体系架构[3]。2006 年施乐帕克研究中心(Xerox PARC)提出内容中心网络 ( Content Centric Network,CCN)[4],以数据为导向，根据内容访问数据，放弃了传统IP网络架构，不再包含显式的主机或接口地址等位置信息，从根本上改变了IP包的封装结构和寻址方式，具有短时延、低功耗、高可靠等特点。2010年FIA的命名数据网络(Named Data Networking，NDN)[5]项目也采用类似的架构，使用沙漏模型结构，采用类似 URL 的层次化内容命名。由于CCN/NDN构建的新型移动通信架构是一种革命性的解决方案，颠覆了传统的IP技术架构，路由策略、转发策略、缓存机制和安全性尚需进一步研究，当前难以部署和实施。

目前网络层地址统一标识体系的方案主要有HIP(Host Identifier Protocol)[6]、Shim6[7]、MobilityFirst[8]、XIA(eXpressive Internet Architecture)[9]等。HIP在网络层和传输层之间插入主机标识层，为上层应用提供固定不变的主机标识，屏蔽了IP地址变化，同时维护主机标识与IP地址的绑定关系；HIP报文格式采用IPin IP方式，外层为用于路由寻址的IP地址，内层为用于标识身份的128位主机标识。Shim6协议修改终端网络协议栈，在IP路由子层和终端子层之间插入Shim 层，使标识符( Identifier ) 和定位符(Locator)分离。MobilityFirst的体系架构使用ID与Locator分离的机制、扁平地址结构、利用公钥基础设施实现标识的验证，支持快速的全局名称解析、存储转发的路由方式、缓存和逐跳的分段数据传输等。XIA使用标识和地址分离的设计，引入NID代表网络域或子网，路由时用来定位网络地址。这些工作研究将网络标识作为现有网络的补充，将标识和地址分离，但是都没有关注标识的语义信息，难以支持基于语义的路由、缓存等智能网络服务。

其他一些工作研究构建高效的网络资源调度[10]和内容分发[11]，虽然实现了通信感知一体化[12]的体系，但在应对不同场景下智能化网络服务供给方面仍然面临挑战。

为满足更贴近应用需求网络服务，本文提出一种面向万物互联的支持语义解析的智能通信服务网络架构，基于报文相关语义信息构建语义标识，提供可感知场景语义的智能化通信服务。本文提出的新型网络架构沿用现有的IP技术体系，无需协议转换即可实现与网络层IP承载的无缝连接，支持简单便捷的端到端业务部署和管理，便于基于TCP/IP协议栈开发的相关应用快速移植。

本文详细论述所设计的智能通信服务网络的整体架构和支持语义解析的网络报文构建方法；阐述如何利用深度学习模型实现语义信息的编码和解码，构建通信场景的语义知识库；设计如何构建语义标识倒排索引，以实现快速语义检索，赋能智能化应用场景；搭建了视频会议测试场景，对语义编解码的精度和语义查询速度的实验结果进行了分析和总结。

1 智能通信服务网络架构

1.1 支持语义解析的通信网络架构

依据5G的愿景与需求并结合基于语义网络数据与位置解耦、强制签名以及网内缓存等特点，构建一个支持语义解析、标识与地址分离机制的新型网络架构，如图1所示。

图1 支持语义解析的通信网络架构

在现有底层通信和上层应用之间增加了一个基础语义服务层，首先对上层应用中的图像、文本等信息进行语义编码，并作为唯一且不变的语义编码标识SID，生成支持语义解析的网络报文；然后在底层通信设施中构建语义标识的倒排索引，以支持语义标识的快速检索，进而实现基于语义的智能网络路由、缓存等服务。

在语义解析通信服务网络中，语义解析服务维护语义标识SID 与它们的网络地址 NA 之间的映射关系。IP 是互联网的基本路由协议，可作为语义解析通信服务网络的网络地址，语义解析服务维护 SID 和 IP 地址之间的映射关系，用户面可以通过 IP 进行转发。网络层报文的NA 地址字段包括语义标识 SID 对应语义内容的多个候选存储地址集合或其他引用信息。SID为语义标识，由语义编码器输出的语义标识编码、位置编码、实体关联编码等构建而成。SID根据语义解析通信服务网络所支持的智能化应用的不同需要具有不同的类别与形式，通常包含图像类数据索引、文本关键词类索引等内容。语义解析通信服务网络基于语义标识SID和IP之间的映射关系进行路由和转发，实现对数据语义内容的查找和定位，加快路由、转发和查找的速度，缩短响应时间。

语义解析通信服务网络的报文组成方式如图2所示。首先根据入网实体的入网信息和相关场景语义信息生成语义标识SID，然后与报文Header、网络地址NA、数据Payload拼接生成网络报文。

图2 语义解析通信服务网络报文结构

入网信息生成将数据包入网的时空信息以及其他状态信息编码成入网信息，作为网络ID的字段。其中空间信息可使用将经度、纬度等信息作为输入，同时可以加入其他状态信息映射成入网信息，能够提升ID标识自验证的安全特性。

语义编码生成融合语义知识库的语义标识元素编目以及语义标识属性(包括入网实体的位置信息、逻辑及推理关系等)，通过语义编码器处理，截取形成语义编码字段，能够体现语义标识的编码、位置信息、不同实体间逻辑关系和其他相关属性特征。

语义标识SID生成将语义编码和入网信息字段拼接，同时保留一定的预留位形成网络ID，与Header和网络地址NA、Payload共同组成最终的网络报文。

为智能化地支持万物互联场景，所设计的语义解析通信服务网络主要包括支持语义的控制面、面向现场的用户面和语义解析服务，如图3所示。

图3 支持语义解析的5G通信服务

支持语义的控制面提供语义智能网络控制服务，包括基于语义的路由选择、具有弹性的资源控制和计算能力；面向现场的用户面主要考虑边缘端现场计算和现场存储的能力，负责执行一些面向用户应用场景的动作和处理逻辑，可以满足不同应用现场的处理需求，支持时间敏感型的服务；语义解析服务对文本和视频进行编码，构建支持语义解析的语义网络标识和基于语义的倒排索引，支持快速的语义匹配和搜索。

新型通信网络架构在当前底层通信与上层应用中间增加了一层基础语义服务层，通过对入网实体的标签、网络位置等属性构建语义检索，建模语义关系，提供以内容为中心的智能化通信服务。支持执行分布式的快速并发查询，提升网络数据查询以及获取效率和速度，支持快速的内容检索和分发，从而提升网络服务质量。

移动性方面构建基于语义标识的网络服务，使标识与位置解耦，不会因用户地址的改变而降低网络传输效率。由于基于语义标识的网络服务内生支持多径路由与网内缓存，可大大减轻因数据产生者移动而对通信过程产生的影响。因此，在基于语义网络移动通信架构中，不同接口可采用统一的语义标识来支持移动性，提高传输效率。

数据路由方面能够支撑基于语义的转发与路由操作，提供快速的语义查询检索服务，通过语义标识对数据包进行检索，并依据检索结果对存储在转发平面中的记录进行更新、插入和删除。

网络缓存方面使用语义知识库将数据缓存在路由节点中方便后续用户使用，为实现网络资源利用率的最大化，基于语义标识信息可以构建智能的缓存替换策略，适应不同应用场景的数据缓存需求。当前网络中适用于单个节点的缓存替换策略为最近最少和最近最多使用策略、最少频繁使用策略。在加入语义信息后，基于语义特征来支持智能的网络数据缓存，提升整体网络性能。

1.2 视频会议场景下的智能通信服务

本节以视频会议为例，详细介绍语义解析服务的工作原理。如图4所示，在视频场景中，语义编码模块接收视频会议应用的相关图像和文本标签，结合应用时间地点形成语义编码，构建支持语义检索的网络报文，以支持视频应用场景下的智能缓存和路由网络服务。例如：需要检索前一段视频流中特定会议参与者发言数据，语义解析接口接收请求，语义检索语义标识SID中匹配到对应会议参与方发言的时空标签和图像语义标识，将对应数据结果实时反馈。当一个用户加入会议时，可以基于语义查询解析相应属性语义信息，获取会议场景下实体的网络位置，包括摄像头、麦克风等设备信息，语义检索匹配到相应列表，然后进行支持语义的相关操作，例如对特定摄像头的控制操作、基于语义的图像数据网络缓存策略等。

图4 视频会议场景下的智能通信服务工作流程

语义可能受不同主客观环境因素影响，如视频会议应用标签、图像特征等信息均可能对语义产生影响。单纯依靠单个或者一类传感器(如摄像头)采集的信息难以全面识别应用感兴趣的语义信息。因此，将视频会议应用属性、图像特征，以及时间、地点标签等多信息融合编码，构建语义标识，适用于不同的智能应用场景。

视频应用中有着大量数据和请求，网络中的冗余流量占据大量资源，而且在不同场景之间的内容请求差异较大，造成不同语义内容的缓存需求差异较大。面对这种情况，现有的缓存放置算法无法很好地应对。构建基于语义标识的网络报文，使网络具备支持语义的路由、网络内置缓存以及请求聚合等特点，能够有效地减少网络冗余、降低网络开销、缓解网络压力。因此，在视频会议场景中，适合采用支持语义解析的通信网络进行视频的内容分发。利用语义编码信息，能够快速捕捉网络流量的变化；采用沿路径缓存放置算法，能够在内容经过某节点时，智能地根据网络中快速变化的流量，实时调整缓存放置。

2 语义解析通信服务

语义解析通信服务网络在构建数据源的语义标签并形成相应的语义索引时，需要解决如何进行知识和语义表征的问题，即如何从传输的数据源中提取出所支持的语义解析服务需要的语义内容并将之转化为可路由、可转发的语义编码。语义解析通信服务网络支持计算和搜索基于文本、图像、语音等多种数据源生成的语义编码，且能对语义编码所指代的语义实体间的逻辑关系予以表征。

2.1 边缘计算与数据训练存储服务

基于数据源中的语义信息形成语义标识需要消耗大量的运算和储存资源，完成语义分析的计算任务无法仅仅分摊到通信发送方和接收方的终端，往往需要利用外部的运算与储存资源，从而实现数据和信息的融合、共享。一种较有效的处理方法是在整个语义解析通信服务网络中，注册认证大量边缘计算服务器和存储设备，分布式地部署在用户侧形成资源集群，以供辅助完成智能化通信服务所需要的各种语义解析任务。用户侧可以将需要密集计算的语义提取和语义接收对应的编码、解码任务实时加载到最近的资源集群服务器上，并仅在本地执行轻量级的语义标识生成。边缘计算服务器即时地响应用户侧的语义解析算法需求，迅速进行语义编码器、解码器的模型训练和数据传输、存储等任务。为了实现数据和信息的融合共享，支持语义解析整体运行效率的提升，各边缘计算服务器可以通过联邦学习、分布式计算等方式，在数据预处理、训练编码解码模型、知识共享时相互协作，以实现资源集群中的计算资源和负载的最优分配。

2.2 知识库与模型库

语义知识库是构建文本、图像或其他源数据的语义标识的基础，其中包括语义标识库和实体之间的逻辑及推理关系。语义解析服务一般需要依赖于公共的语义知识库对知识表征进行协议化、统一化的规范与管理。语义模型库则根据语义知识库定义的不同编码组成方案的要求，储存面向各种智能化应用场景及图像、文本等常用的源数据中识别和提取语义的主流AI模型和技术流程。

语义知识库的另一个作用是依照语义解析通信服务网络所支持的不同类别的语义解析服务，定义每种服务所需要的语义标识类型、逻辑关系、实体位置、属性等信息，以及相应的编码组成方案。语义知识库中的实体概念和逻辑关系，在语义知识库中被协议化地定义与规范，并作为通信发送与接收方使用语义解析服务的基础协议。

语义随着应用场景的变化而变化，这就要求语义知识库必须具有自学习和自更新的功能：当有新实体出现时，知识库需要识别、分析该实体可能的含义和适用场景，然后将该实体概念和由推理得出的与已有实体间的逻辑关系等信息添加到语义知识库中[13]；同时，知识库还应当能够对新实体的使用热度进行实时的冷热分析与实时更新。这部分工作可基于众包、爬取、多模态感知融合等多种技术来完成，将用户群体在不同背景、语言和场景下积累的普适性知识和语义信息传输给就近的资源集群，识别、分析完成后，再更新至语义知识库中。

2.3 语义编码器和解码器

在一般的通信系统中，对源端数据编码主要为了方便信息的存储和传输，并尽可能地保留源数据的所有信息。其结果只含有输出符号序列的标识，并不包含输出符号序列的语义含义。而在本文提出的语义解析通信服务网络中，语义编码提取源端数据中用户侧需要的语义内容，并进行智能化任务导向式编码。此过程的主要目的是对源端数据中与特定智能化应用任务相关的语义信息通过稠密向量进行表示，丢掉与任务无关的信息，在知识库与模型库的协同下，遵照特定智能化应用对应的语义编码方案对源端信息中隐含的语义信息进行提取与映射获得语义编码。因此，语义编码需要根据语义解析通信服务网络所支持的智能化应用，具有不同的类别与形式。

语义编码器检测与抽取源端信息中所涉及的具体语义特征，并同时压缩和删除与语义无关的信息。语义编码器通常根据不同的智能化处理任务具有不同的模型框架与参数，并支持处理各种形式的源端信息。例如当传输内容为图像或文本时，编码器借助语义知识库在模型库中匹配相应预训练好特征提取模型作为编码器，进而提取传输内容中的语义实体特征、实体间关系特征、实体位置及其他属性特征形成高维特征编码序列，以此作为构建语义标识SID的基础。

当传输内容为文本时，语义编码器采用语义模型库中的面向文本类任务的主要模型(例如LSTM、Transformer模型等)理解与提取语义信息。在预处理阶段，每段待传输的文本为W=[w1,w2,w3,…,wi]，其中，wi为待传输的文本中的第i个词。编码器的作用相当于函数f,待传输的文本W经编码器编码后得到序列B=f(w)。编码器先将输入文本序列t以句子为单位进行拆分，并在每个句子前后添加起始、结束分隔符，再将每个句子s的所有词进行高维度的词嵌入映射，生成高维的表示向量，映射后形成的文本高维嵌入表示序列E=[e1,e2,e3,…,ek],ek指代输入文本序列中第k个词的高维嵌入表示向量，分别包含向量嵌入、关系嵌入与位置嵌入三部分：向量嵌入是将词高维映射后得到的词特征；关系嵌入是第k个词与文本序列的其他词的关系表征；位置嵌入用来表征词的位置编码，以便表征顺序信息。

传输内容中的文本常用基于Transformer及其衍生出的其他语言模型的编码块进行编码，将E通过编码映射为经过Transformer模型提取语义信息后隐含了上下文关系的抽象语义，再经过编码匹配、哈希映射形成不同语义解析服务所需要的语义标识SID。Transformer类模型的编码块由多头注意力层(multi-head attention layer)和位置感知的前馈层组成，对于一组查询向量、键值和值，多头注意力模块执行次注意力计算：

MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO，

对于源数据中的图像类内容，语义编码器采用语义模型库中的面向图像类任务的主要模型(例如CNN、Transformer模型等)理解与提取语义信息。本文不再展开详细论述。

源数据经过语义编码器后形成包含传输的源数据全部语义信息的语义编码，为得到语义标识SID还需要根据语义知识库定义的不同语义解析服务所需的语义标识类型、语义标识的逻辑关系以及实体位置、属性等其他信息，对语义编码进行语义编码匹配与哈希映射，语义编码匹配模型与哈希映射规则来自在边缘计算服务器和存储服务单元内的知识库。

语义解码器将语义编码中隐含的语义信息还原为按照接收端的需求，或智能化任务的期望展现的具体形式。例如可以将语义信息解码为从传输文本中提取的关键词、从2D图像中重建的三维结构、甚至从多模态源数据中生成的AR全息投影并呈现给接收端用户。相关解码的模型与还原规则存储在边缘计算服务器的语义知识库。例如，当进行从传输源数据的文本中提取作者信息的任务时，解码器由双向LSTM模块拼接CRF(条件随机场)模块组成。其中，双向LSTM模块的输入来自语义编码器的输出，用来获取传输文本中的句子表示；CRF模块接收上层双向LSTM模块的输出，并对传输文本中的命名实体进行序列标注。

3 语义查询通信服务

3.1 分布式语义索引

由于网络服务需要处理大量数据和请求，语义查询服务需要满足高并发与可靠性。针对这一需求，支持语义的通信服务网络构建了语义倒排索引来实现分布式语义查询。倒排索引作为典型且高效的信息数据检索结构，对各条记录中所有字段或部分语义编码字段分析处理，各个索引项将排列出一系列带有该索引项的标识，利用查找索引项，能检索出相应的索引结果。基于倒排索引的分布式语义查询架构如图5所示，包括分布式倒排索引构建和在线语义查询处理两个部分。

图5 基于倒排索引的分布式语义查询架构

① 分布式倒排索引构建：根据时间、空间、关联关系等约束条件查询标识，构建分布式倒排索引，支持网络海量数据的语义搜索。

② 在线语义查询：构建支持语义关联的分布式语义查询处理和相关性评分模型，支持网络海量数据的分布式查询标识和快速多级标识解析；支持读写权限分离，保障数据安全性，支持节点自动同步更新，保证数据一致性。

构建属性数据语义知识融合的倒排索引结构，将语义信息封装到倒排索引中，减少查询前处理和后处理，提高语义查询速度和准确率，分布式倒排索引结构如图6所示。

图6 分布式倒排索引构建

构建支持语义关联的分布式语义查询处理和相关性评分模型，输出比传统的倒排索引更具语义相关性的结果。支持读写权限分离，保障数据安全性，节点自动同步更新，保证数据一致性。在查询处理中，可以引入分布式查询处理算法，加上在查询评估过程中检索和排序相关查询答案所需的专用相关性评分措施。此外，可以对索引构建和查询算法的详细复杂性、有效性和效率分析进行查询优化。

3.2 分布式语义查询

将应用场景语义信息直接封装到倒排索引中，根据时间、空间、关联关系等约束条件查询标识，构建离线分布式倒排索引，并支持在线快速解析查询。通信服务网络语义查询服务如图7所示。

图7 通信服务网络语义查询服务

索引模块按照数据信息产生索引文件，并将其存放到索引库中以实现检索功能，数据信息的搜索流程一般包括以下几点：

数据读取数据采集模块中所得到的文本和图像被存放在分布式数据库的各个数据节点中，并使用分布式处理引擎对文本和图像进行预处理，完成数据的格式化。

数据分析对文本数据以块或标签分类，过滤部分非关键字，降低存储和搜索信息功耗。对于图像视频，基于应用编码方式进行单帧或多帧采样，以匹配对应的语义匹配模块输入。然后，根据不同的应用需求，选择相应的处理模块进行处理。

搜索与存储基于Lucene实现索引的创建操作，生成倒排索引文件保存于分布式索引库中，并定时对增量数据进行汇总。

4 实验

基于语义编码对网络位置的查询速度，是支撑快速实时应用的基础。以视频会议场景为例，对视频会议相关图像和文本标签，结合应用时间地点形成语义编码，每个语义编码为一个查询实体。系统在5G模拟环境中运行，使用6台服务器在一个子网中构建分布式集群，包括数据和网络节点。

在构建的模拟环境中验证了系统语义编码功能，支持文本和图片的语义提取，使语义标识与位置解耦，可以支持高移动性应用；测试验证了语义索引构建功能，语义标识分布式倒排索引，支撑快速的语义查询。同时，测试了不同编码实体量下语义检索的性能，语义查询的测试流程如图8所示。在测试用例中，使用目标语义查询匹配的报文网络位置，通过倒排索引从海量的实体中进行语义匹配，从缓存和磁盘中获取目标实体内容，返回结果，测试所用时间。测试结果显示，语义查询耗时随着实体增加而增加，在10万、20万和30万实体下，查询耗时分别达到了12.5 ms、14.5 ms和17.2 ms，能够实现快速的语义检索，提升内容查询和获取效率。

图8 测试用例流程

5 结束语

本文提出一种支持语义解析的智能通信服务网络架构，在现有底层通信和上层应用之间增加基础语义服务层，利用深度学习模型实现语义信息的编码和解码，构建通信场景的语义知识库，设计语义标识倒排索引。网络在服务质量方面，支持执行分布式的快速并发查询，提升网络数据查询以及获取效率和速度，支持快速的内容检索和分发，提升网络服务质量；在移动性方面，将语义标识与位置解耦，支撑高移动性应用；数据路由方面，通过语义标识对数据包进行检索，提供语义查询检索服务；在网络缓存方面，基于语义标识信息可以构建智能的缓存替换策略，适应不同应用场景的数据缓存需求。测试结果表明提出的智能通信服务网络架构实现了语义编码和解码，能够提供语义解析服务，支持快速语义检索和内容获取，有效支撑面向万物互联场景的通信智能化。