基于边缘缓存的数据服务共享技术

2023-12-13 11:43:46任德旺周俊鹏李丽娜李亚晖李运喜
网络安全与数据管理 2023年11期
关键词:数据服务边缘分布式

任德旺,周俊鹏,倪 鑫,李丽娜,李亚晖,李运喜

(1.航空工业西安航空计算技术研究所,陕西 西安 710068;2.机载弹载计算机航空科技重点实验室,陕西 西安 710065)

0 引言

随着信息技术的快速发展,嵌入式装备系统性能不断提升与完善,人机协同作业、有人无人协同工作已逐渐普及,并以成为未来作业模式的主要形态[1],业务应用逐步向以数据密集、智能化、协同化为显著特征的智能应用转变,其实时性需求愈发严苛,对大数据访问、共享、利用的需求,趋向于低时延、低CPU负载,例如,智能态势认知应用需要及时获取周遭环境多源、多维度感知数据,运用人工智能技术,准确认识、分析环境态势[2-3];多源数据融合应用需要快速汇聚不同角度、不同维度的感知数据,融合以获取更有价值的信息[4];协同数据处理应用面向海量数据分析处理,多节点协同处理,加速信息转换与生成[5-6]。显然,实现“从数据到决策”的根本是智能数据融合与分析技术,增强指挥控制系统的智能化数据处理能力是完成“从信息到指令”的前提[7]。然而,异构数据之间难以共享,可将底层数据源以数据服务的形式提供给用户[8],例如,基于数据服务构建县级国土资源“一张图”综合管理系统,实现跨平台的数据传输[9];基于B/S架构,设计动态数据服务发布引擎,解决数据模型的异构性问题[10];基于微服务架构,设计数据服务框架,实现灵活的数据共享[11]。

在嵌入式装备系统领域,既有结构化的时序数据、又有非结构化的图像视频数据,整体呈现数据流量大、带宽需求高的特征,分散的数据源和分布式的任务处理节点,构成分布式数据网络,因此有效管理和利用大数据意义重大。在分布式数据网络中[12],数据的“管”与“用”相辅相成,“管”促进数据的“用”,“用”增强数据的“管”。然而,有限存储、计算、通信资源制约大数据的深度使用,具体表现为:(1)多源异构的数据缺乏统一管理,数据标准不规范,数据模型定义不一致,导致数据使用困难;(2)业务应用之间的壁垒,使数据孤岛现象突出,导致数据共享困难;(3)任务系统相互独立,对数据处理时,存在重复处理与开发;(4)数据源分散,计算资源受限,导致数据缺乏深度加工和利用。为此,本文研究基于边缘缓存的数据服务共享技术,探索以数据服务的形式支撑智能应用,以促进数据的流通与共享、数据价值的实现。具体而言,首先基于边缘计算架构,设计数据加工和服务共享架构,支持数据的加工和数据服务的生产;然后基于元数据管理,提出分布式数据服务管理调度方法,支持集中式调度与分布式调度相配合;最后为加速数据服务请求响应速度,提出数据服务共享方法,通过预先缓存数据服务和元数据目录,提高数据服务检索定位效率和数据服务请求响应效率。

1 分布式数据加工与服务共享架构

在分布式数据网络中,数据除了海量、多源、异构的特性之外,数据源具有分散性,不仅增大数据管理的难度,而且影响数据的流通性和共享性。随着边缘计算概念在移动互联网中的应用普及,带来了诸多益处:缓解核心网络通信压力、降低云中心计算压力、提升数据处理效率、增强用户服务质量等[13-14]。本文基于边缘计算,面向分布式数据加工与数据服务共享,以近数据端的计算节点作为边缘节点,构建多边缘节点协作的数据加工与数据服务共享架构。

1.1 基于边缘计算的数据加工与服务共享架构

数据加工与数据服务共享架构由嵌入式装备系统中的感知终端、边缘节点(含管理节点)、数据访问节点组成,如图1所示。

图1 分布式数据加工与数据服务共享架构

(1)感知终端:由嵌入式系统中的传感设备构成,负责采集、感知周遭环境的数据,并实时回传至最近的边缘节点。

(2)边缘节点:由嵌入式系统中的任务处理机构成,负责将原始数据转化、加工为数据产品,以提升数据的价值,是数据加工和数据服务管理调度的核心,具体负责数据汇聚与预处理、数据存储与索引、数据加工、数据服务构建与封装、数据服务推送与共享;其中一个边缘节点担任数据服务监管与调度职责;边缘节点之间可以相互共享数据或推送数据服务产品。

(3)数据访问节点:主要是显控设备、任务系统等,负责数据服务的请求与访问,是数据产品的消费方,以数据服务的形式促进业务应用的运行;访问的数据服务包括边缘节点推送的和通过边缘节点请求的。

1.2 数据加工过程与数据服务的形态

分布式数据网络中,边缘节点预处理原始感知数据之后进行统一管理,根据数据模型划分数据分类主题、抽取数据标签、采集元数据信息、构建数据索引目录,使数据标准化、规范化、统一化,进而为数据深度加工和数据服务共享提供数据支撑。数据加工过程如图2所示。

图2 数据加工流程与数据服务形态

(1)数据加工:输入是不同的主题数据,目标是贴合业务需求,输出是更通用、更有价值的数据信息。数据加工处理分两类:一类是整合不同主题的数据,以数据集的形式提供给数据访问节点;另一类是对数据进行进一步的计算处理,最终输出是中间分析结果数据。主要的加工处理包括:①数据整合:根据业务应用需求,筛选、整合不同主题数据库中的不同数据作为复合型数据,为业务应用提供不同主题、不同类型数据整合生成的服务信息;②数据挖掘:基于机器学习方法,挖掘数据中包含的关联关系,并形成知识规则;③数据预测:基于历史数据和当前数据,预测未来一段时间的状态、变化趋势等;④数据分析:根据应用需求,对数据进行一定程度的预先分析,如求取最大、最小、平均值等。

(2)数据服务:数据服务与业务应用之间是通过数据API(或数据服务接口)贯通,具体而言,数据服务的形态有两种模式,如图2所示:①经过预处理后更加通用化的数据集,包括单一型主题数据集、复合型主题数据集;②预处理后通用化数据和业务应用的部分通用功能结合体,为业务应用提供的是中间分析结果数据,例如规则知识、业务关联结果数据、组合标签结果数据、多维分析结果数据、预测结果数据等。

(3)业务应用:数据服务的对象是业务应用,业务应用趋向于智能化、协同化,具体包括:①数据智能:包括特征工程、特征选择、模型训练(深度学习、自然语言处理、时序预测、机器学习)、模型可视化、在线服务;②决策支持:通过对多维大数据的深度处理分析,转化或提取为更有价值的信息,为决策提供支撑依据;③数据协同:跨节点、跨任务的多维度、多角度、多层面数据全域协同,提供统一化的数据信息;④推荐服务:通过分析历史记录数据,挖掘用户兴趣点,以匹配合适的产品;⑤数据可视化:以直观的形式呈现数据的特征、变化趋势等。

1.3 数据服务管理与共享逻辑功能

边缘节点利用近数据处理计算的优势,承载数据加工、数据产品生产、数据服务调度等功能,加工的原材料输入是数据,输出是数据服务产品,服务对象是业务应用[15]。基于边缘计算架构,分布式数据加工与数据服务逻辑功能自底向上划分为数据管理层、数据加工层、服务共享层、数据应用层,如图3所示。

图3 数据服务共享与管理逻辑功能

(1)数据管理:为加工提供原材料,为此,具体功能包括:①数据感知与汇聚:通过感知终端采集原始数据,汇聚至边缘节点,并进行预处理;②数据预处理:在保证数据准确、完整的前提下,将原始感知数据规范化、标准化,支撑异构数据的统一管理;③数据存储与索引:预处理后的数据存储于本地边缘节点,根据主题模型,确定数据目录,结合数据的标签,构建全局索引结构,支持分布式边缘节点之间检索查询。

(2)数据加工:将数据加工为更具有价值的服务产品,具体功能包括:①数据加工结合数据属性特征,并承载业务应用的通用功能,从多维、多源的数据中发掘更有价值的服务信息,或将多源异构数据转化为可执行信息,主要包括数据整合、挖掘、分析、预测等;②数据服务构建:抽取数据产品的属性、功能、特征描述,构建数据产品的元数据,并以此作为数据服务的唯一标识,数据服务的标识备份至边缘管理节点;③数据服务封装:将数据服务封装为标准化的服务接口,以方便数据产品的推送与共享。

(3)服务共享:调度、管理数据服务产品,并匹配数据服务与业务应用,具体功能包括:①数据服务注册:数据服务构建封装后,其元数据信息备份至管理节点,以此注册认证数据服务的合法性;②数据服务调度管理:管理全域的数据服务产品,构建数据服务产品索引目录,使数据服务请求、数据服务、边缘节点之间一一映射;③数据服务定位:根据索引目录,检索定位数据服务的位置,并调度数据服务请求至对应的边缘节点;④数据服务推送共享:根据历史访问记录,主动向访问节点推动数据服务产品,并支持分布式边缘节点之间的服务共享。

(4)数据应用:数据应用作为数据服务产品消费方,具体功能包括:①数据服务访问:获取数据服务产品,包括主动数据服务访问和被动数据服务推送;②数据服务应用:数据服务产品应用于具体的业务应用。

2 基于元数据管理的数据服务管理与调度方法

基于分布式数据加工与服务共享架构,边缘节点将多源异构数据加工、生产为数据服务产品;同时,利用多边缘节点协作,实现数据服务产品的管理与服务请求的调度,以解耦数据加工与服务管理,即分布式加工与集中式管理相配合。

2.1 数据服务的元数据信息

元数据信息用于描述、定位、识别对应的数据服务产品,元数据结构如图4所示,以键值对形式管理,其中数据服务标识符作为Key、数据服务主要属性组合作为Value,其结构如下:(1)标识符:唯一标识相应的元数据,通过标识符可以定位对应的数据服务;(2)类别:表明数据服务的形态,即主题数据集形式、中间计算结果形式;(3)属性描述:描述数据服务的属性,包括数据来源、数据是否在线等信息;(4)边缘节点编号:记录提供数据服务的节点编号;(5)访问控制策略:定义数据服务的关键等级,以及对应级别的访问权限控制。

图4 数据服务管理与调度示意图

2.2 数据服务管理与调度

边缘节点生产数据服务产品,按照元数据格式抽取相应的元数据信息,并实时备份至管理节点,管理节点收集、管理全局数据服务产品的元数据信息。如图4所示,元数据构建元数据与数据服务、数据服务与边缘节点之间的映射关系,基于哈希表,维护元数据标识符与元数据之间的映射关系、快速定位元数据的位置[16]。对于元数据写入操作,哈希表使用哈希函数将哈希值计算到存储桶,从中可以找到写入位置,利用哈希冲突算法(如链地址法、线性探测法 )解决冲突;对于元数据读取操作,哈希表对键进行哈希操作,所得到的哈希值便指向其对应值的存储位置。对于服务访问节点的服务请求,响应过程如图4所示,首先通过解析请求、提取元数据标识符,基于哈希表搜寻元数据信息;然后通过元数据确定数据服务对应的边缘节点,并将请求重定向至对应的边缘节点;最后边缘节点向访问节点提供请求的数据服务。

2.3 边缘管理节点选择

在分布式边缘网络架构中,边缘管理节点主要负责数据服务的元数据信息管理、服务请求与数据服务之间的动态映射,其作用不言而喻,边缘管理节点的选择需要兼顾边缘节点服务负载和节点推荐率两方面的属性:(1)服务负载以边缘节点在规定时间段内CPU占用比衡量;(2)边缘节点推荐率指边缘节点的推荐得票率,即每个边缘节点生成全局节点的推荐得分,边缘管理节点汇总、计算、生成每个节点的推荐得票率。因此,本文设计两阶段法选择、确定边缘管理节点:(1)当前边缘管理节点要根据全域节点的推荐率确定候选管理节点集;(2)从候选节点集中按照服务负载高低确定新的边缘管理节点;(3)新旧管理节点更替,即数据服务元数据信息从旧边缘管理节点迁移至新边缘管理节点,旧边缘管理节点向全局所有边缘节点发送新、旧边缘管理节点更替通知消息。

3 基于预先缓存的数据服务共享方法

分布式边缘网络中数据服务的共享模式为“请求-响应”方式,数据服务消费者为服务访问节点,数据服务消费者为边缘节点,在分布式网络中,边缘节点的服务负载动态变化、访问节点的服务请求难以提前预测[17],因此如何将服务请求匹配定位至合适的边缘节点是数据服务共享中的关键问题,该问题分为服务节点的定位选择子问题、数据服务的响应子问题。为此,本文提出基于预先缓存的数据服务共享技术解决上述两个子问题,即在服务访问节点预先缓存数据服务的元数据信息、在边缘节点预先缓存完成加工的数据服务产品,以加速数据服务共享。

3.1 基于本地缓存的数据服务定位方法

数据服务请求的调度有两种方式:(1)集中式调度方式:边缘管理节点调度所有服务访问节点的服务访问请求,包括服务请求解析、数据服务检索查询、服务请求重定向,请求调度与服务响应流程如图5中虚线所示;(2)分布式调度方式:数据服务元数据信息表分发至访问节点,访问节点据此检索数据服务,请求调度与服务响应如图5中实线所示。显然,集中式调度方式容易造成管理节点的负载过重,影响服务请求响应时延和服务质量;分布式调度方式容易造成元数据信息更新不及时、不一致的问题,且需要频繁执行更新操作。为此,本文利用集中式与分布式的优势,将最新的数据服务元数据信息集合分发至每个访问节点,使得访问节点本地检索、直接访问相应的边缘节点;新增加的元数据信息依然备份在边缘管理节点,服务请求经管理节点重定向至对应的边缘节点;访问节点缓存的元数据信息周期性更新。这样不仅可以缓解管理节点的压力,而且可以提高服务检索定位的效率,同时尽最大可能维护元数据信息的一致性。

图5 数据服务请求调度示意图

3.2 基于预先缓存的数据服务响应方法

边缘节点预先缓存已经完成加工的数据服务产品或提前加工将来可能被访问的数据服务产品,当服务请求到达时,直接向访问节点返回访问结果,但受限于边缘节点有限的存储空间,缓存哪些数据服务产品需要考虑。本文设计基于服务热度排名的数据服务缓存策略,即通过统计分析历史访问请求记录,综合计算服务的热度,并结合剩余存储容量的大小,选择热度靠前的数据服务进行缓存。通过周期更新,替换长时间未被访问的数据服务。

4 结论

针对嵌入式装备系统中数据共享、使用的新需求,本文提出基于边缘缓存的分布式数据服务共享技术,旨在通过数据服务的加工生产、管理调度、共享分发,促进“数据→信息→知识→决策”之间的快速转化。首先,基于边缘计算,构建分布式数据加工与数据服务调度架构,并详细介绍架构的逻辑功能、数据加工流程、数据服务形态;然后,为了提高数据服务检索定位效率,设计基于元数据管理的数据服务管理与调度方法,并阐述数据服务管理调度方法、边缘管理节点的选择方法;最后,为了加速数据服务访问请求的响应效率,提出基于预先缓存的数据共享方法,以提升数据服务共享性。

猜你喜欢
数据服务边缘分布式
地理空间大数据服务自然资源调查监测的方向分析
分布式光伏热钱汹涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆发还是徘徊
能源(2017年5期)2017-07-06 09:25:54
一张图看懂边缘计算
如何运用税收大数据服务供给侧结构性改革
中国商论(2016年34期)2017-01-15 14:24:18
基于频繁子图挖掘的数据服务Mashup推荐
基于DDS的分布式三维协同仿真研究
雷达与对抗(2015年3期)2015-12-09 02:38:50
西门子 分布式I/O Simatic ET 200AL
一种基于数据服务超链进行情景数据集成的方法*
电信科学(2014年2期)2014-02-28 06:16:26
在边缘寻找自我
雕塑(1999年2期)1999-06-28 05:01:42