一种星载图像智能处理装置设计与实现

2022-11-02 06:33伍攀峰吴宝林王允森朱其星王明贺郭清源徐明道
空间控制技术与应用 2022年5期
关键词:创智芯片装置

伍攀峰,吴宝林,王允森,朱其星,王明贺,郭清源,杨 宁,徐明道

1.山东航天电子技术研究所,烟台 264003

2.哈尔滨工业大学,哈尔滨 150001

0 引 言

随着遥感卫星在多个领域发挥越来越重要的作用,遥感卫星数量不断增多,所获取的数据量也大幅增加,以往遥感图像下传到地面站进行处理与分发的方式存在时效性差、星地传输链路压力日趋增大等问题,遥感图像进行在轨识别与处理已是大势所趋[1].

目前国内外多个卫星上已采用FPGA或FPGA+DSP/CPU的硬件平台对图像进行在轨压缩和有效区域在轨实时检测[2-5],此类平台的优点在于单个器件的功耗较低,且FPGA等有高等级抗辐照器件可供选择,但此类硬件平台的处理能力相对有限,要实现在轨实时处理与识别往往需要采用多个模块,成本、体积、重量和功耗较大,且算法移植的难度较大.

在图像识别方面,2012年ImageNet图像分类赛上,KRIZHEVSKY等采用深度神经网络获得冠军后[6],深度学习引发研究热潮并取得高速发展[7-8].国外航天领域越来越关注并尝试使用成本低且性能高的GPU、xPU等商用智能处理芯片通过深度学习算法来进行在轨图像处理与识别.IBM公司的智能芯片TrueNorth已被用于光学和SAR卫星上,NVIDIA公司的TK1、TX1、TX2、TX2i GPU和AMD公司的APU均在一些立方体卫星上有所应用[9-10].

同时,NASA和ESA都有专门的项目针对GPU在宇航的应用进行测试与评估,ESA有专门的GPU4S项目进行GPU宇航适应能力测评,其最终目标是制定能让GPU适应空间应用的软硬件加固方法与协议[11],NASA同样对多款GPU进行了测评,并计划对NASA的前高管创立的KnuEdge公司开发的神经网络芯片Hermosa以及Lucid开发的Hydra产品进行测评[12].

近年来国产智能芯片加速发展,十余款人工智能芯片投入商业应用,单芯片的算力已达每秒数百万亿次计算甚至更多[13],且功耗也有在十至几十瓦量级的[14],虽没有专门设计抗辐照指标,但通过系统加固方式解决辐照和散热问题,可以像国外一样尝试在追求高性价比的低轨微小卫星中使用.

本文面向低轨小卫星低成本在轨图像目标识别的需求,采用低成本国产智能芯片NPU作为核心器件构建硬件平台,并有针对性地开展了相关算法设计与实现及系统可靠性加固.本文首先对采用国产智能芯片的星载图像智能处理装置的系统设计方案(含软、硬件)进行介绍,在此基础上对基于该产品的目标检测深度学习算法及性能比对情况进行描述,并总结了该装置在空间环境适应性(抗辐照和热设计)方面采取的措施及效果.

1 系统设计

本设计中星载图像处理装置的主要任务为在轨对海量图像进行快速预处理、目标识别等,确保有效信息能被及时提取与下传,避免原始图像下传延时过长以及大量云层图片等无效数据占用有限的星地带宽等问题,提升卫星的智能化程度与好用性.根据数据量估算,智能处理能力大约需大于10TOPS,在体积、重量、功耗和成本方面要尽可能小以适应微小卫星有限的资源,传统的抗辐照FPGA或FPGA+DSP的方案由于单个器件的算力有限,要实现该运算能力,需要的代价已超出本项目所能接受的范围.本设计需要采用高性价比的器件并采取针对性空间环境加固设计以满足需求.因此,在设计时,为提升系统可靠性,采取双机冷备份设计;同时,为避免共因失效,在本设计中采用异构设计架构,加入了应急处理模块.

1.1 硬件平台设计

本装置的核心在于处理芯片的选择,为提升图像在轨处理速度并降低产品成本,本文采取FPGA+CPU+NPU+DSP/GPU的异构处理架构,其中FPGA用来做数据接口管理及图像预处理,CPU+NPU用来做在轨目标检测与识别,NPU本装置选用中科院计算所研制的创智2号智能处理器,其最大处理能力可达128TOPS,支持主流的深度学习架构,如TensorFlow、Caffe、Mxnet、Darknet等,并支持SSD、YOLO、Fast R-CNN等常用的深度学习网络.DSP或GPU 2者可选择其中之一作为应急处理用,2者的处理能力均低于NPU,仅作为异构备份应急使用(对可靠性要求更高的可选传统的DSP,对成本要求更严的可选GPU).

装置由电源板、接口板、中控CPU板、创智2号板和应急处理板5种标准6U结构VPX板卡组成,系统内部采用PCIe总线互联.装置进行目标识别任务时,数据由外部固存装置通过本装置的光纤接口进入接口板,在光纤接口板内通过FPGA实现图像数据的前端处理,处理后的数据通过PCIe送入中控CPU板,中控CPU板与创智2号协同进行图像在轨识别等.接口板采集CPU和创智2号的电流和温度等状态信息,当发生异常情况时,接口板可将中控CPU板和创智2号关机,并启动应急处理模块.整机框架如下图1所示.

图1 图像处理装置框图Fig.1 The block diagram of the image processing device

各板卡功能描述如下:

1)电源板

•完成整星一次电源接入;

•进行电源变换,为装置内部模块提供二次电源.

2)接口板

•通过光纤接收固存发送的数据,并按照工作模式及指令进行数据转发;

•对原始数据进行预处理操作;

•接收CAN总线指令,通过PCIe发送给CPU板;

•接收RS422上注数据/程序并通过PCIe写入中控CPU板和计算板;

•将处理后的结果返回给固存.

3)中控CPU板

•接收CAN总线指令,重要遥测下传;

•接收RS422数据,做程序上注更新;

•作为创智2号计算板的主控端,与创智2号计算板进行高速数据交互,运行检测与识别程序;

•图像数据处理结果的发送、存储、回放等功能;

•进行定位解算、几何校正等算法实现.

4)创智2号计算板

作为协处理板提供高性能算法加速.

5)应急处理板

作为中控CPU板和协处理板的备份,提供应急模式下基本算力,避免关键信息丢失.在应急情况下接收来自光纤接口板的PCIe数据,并将处理后结果通过PCIe返回给光纤接口板.

该平台的好处在于:

1)性价比高,与传统方案相比,NPU可提供强大算力且成本低;

2)存在CPU、FPGA、NPU、DSP/GPU多种异构计算资源,可满足不同算法对不同计算资源的需求;

3)针对首次应用的NPU,采取了DSP/GPU作为异构备份手段以提升系统可靠性;

4)可扩展性强,采用标准6U VPX板卡和标准PCIe总线互联,可按需配置相应板卡以满足不同应用需求.

不足在于:

1)国产NPU缺乏宇航应用经历和辐照数据,且单芯片功耗较高,需要对其空间环境适应性采取针对性防护措施;

2)国产NPU部分算子没有国外的GPU丰富,在GPU上开发的算法移植到国产NPU时需要开发者进行部分适应性修改.

针对上述不足,本装置在开发过程中均采取了针对性措施以满足使用要求.

1.2 软件架构设计

本装置提供开放式软件接口,用户可以根据任务需求进行相应算法的开发并上注星上处理平台进行应用,建立“平台+插件”的系统架构.利用平台基础软件进行底层硬件资源、数据资源管理,通过插件的形式形成应用软件,实现具体的处理、应用等功能;根据具体应用需求,由平台基础软件集成不同插件构成各数据处理、应用系统.同时,采用空间有效载荷数据处理软件框架对不同载荷的处理插件进行管理,根据不同应用模式的处理需求,通过调用不同的算法插件构建对应的处理流程,实现对数据、产品、算法的高效组织与管理.

1.2.1 基础软件架构设计

本项目采用类似于软件通信体系结构(software communications architecture,SCA)的规范设计基础软件架构[15],如图2所示.

基础软件体系架构可分为4部分:

(1)设备驱动程序

包含了处理器以及各类总线驱动(CAN、RS422、PCIe等),为应用软件的运行提供了可靠的传输机制,包括在总线支持级的错误检测和纠正.

图2 基础软件体系架构Fig.2 Basic software architecture

(2)操作系统

嵌入式操作系统可以为应用程序提供多进程、多线程的支持,它可以屏蔽不同硬件平台间的差异,为上层软件提供标准的硬件访问接口和其它的基本操作系统服务,使得上层应用软件与底层硬件不相关.本装置选用嵌入式Linux操作系统.Linux操作系统是目前世界上最大的开源嵌入式操作系统,具有性能高、安全性好、设计开放易于修改、裁剪的特点,是目前各种嵌入式设备开发的首选[16].近年来NASA、ESA以及各大学和研究所都在探索在星载数据系统中使用Linux操作系统,目前已在包括SpaceX的龙飞船在内的多宇航项目中实装使用[17].

(3)中间件

使用消息队列中间件技术和系统的微服务架构,对星载应用程序进行充分的解耦,并在应用软件发生故障的过程中,对相关的消息数据进行缓存,避免数据的丢失,提高整个系统的可靠性水平.

(4)核心框架

核心框架是应用层接口和服务的基本“核心”集,为应用软件设计者提供底层软件和硬件层的抽象,为应用组件的开发提供基本的接口和服务,并对整个应用提供安装、卸载、配置和管理等.核心框架按功能划分由基本应用接口、框架控制接口、框架服务接口和域描述文件几个部分组成.

1.2.2 应用软件设计

本项目的应用软件采用分层架构,包括通用算法库、图像处理算法层、应用层,可采用APP插件方式管理星载处理算法.

(1)通用算法库

通用算法库包括Python、OpenCV等基础算法库,也提供诸如TensorFlow、Caffe等人工智能深度学习软件框架,同时包含常用的信号处理、数学运算等第三方组件库.本项目中,功能组件库会被应用执行引擎调用封装成开放式公共接口或者直接用于开发平台基础应用.

(2)遥感图像处理算法层

该层主要对遥感图像数据进行预先处理,可根据具体需求部署相应的第三方处理库.本项目中,星载数据处理算法层包括可见光图像预处理算法等,主要包括质量提升、去噪去斑、滤波等.

(3)应用层

本项目中应用层主要实现重点目标的检测与识别等应用.此外,用户可根据卫星应用需求,重新上注新的应用程序APP,应用开发者在不需要知道终端平台具体底层细节的情况下按照一个统一开放的接口标准即可开发出来.

2 目标检测算法设计

近年来,基于深度学习的目标检测技术取得飞速发展[18],深度学习被认为是目前计算机图像处理领域中最先进的技术之一,在众多的目标检测识别算法中,YOLO 算法将目标检测简化成一个回归问题求解,不需要生成候选区域建议和随后的特征重新采样,计算量大幅降低,在多领域取得成功应用并展示了良好的性能和效率,相继推出了v1~v5 多个版本[19].

为了满足低轨卫星在轨图像实时处理与识别需求,本文采用YOLOV3网络对船舶、飞机、港口、桥梁等重点目标进行检测,并对YOLOV3的Backbone结构进行优化,以平衡处理的精度和速度.

2.1 算法设计

为了适应星载智能处理的需求,对YOLOV3网络进行优化,采用SERes模块代替骨干网络中的DBL模块,SERes模块是由SENet[20]中的轻量级SE模块嵌入到ResNet的残差模块[21]中形成的,它能增强网络特征通道之间的信息交互,同时提高目标的检测速度.其中,Concat模块为张量拼接,将Darknet中间层特征和降采样后的深层特征进行拼接,作用是让网络同时学习深层和浅层特征,表达效果更好.

2.2 效果比对

为测试算法和硬件性能,在创智2号平台对改进的YOLOV3算法进行移植和测试,并对包含6类典型目标的1100张遥感图像数据集进行了测试,遥感图像大小为4096 pixel×4096 pixel,目标类型如表1所示.

表1 数据集目标类型Tab.1 The target types of database

选择820张图像作为训练集,280张数据作为测试集.为了提高检测精度,在训练过程和预测过程中,首先对图像进行分割,分割大小为1024 pixel×1024 pixel,切片间重合率为25%.从检测率(Precision)和检测精度(AP)2个维度进行对比,本文提出的改进后YOLOV3比常见YOLOV3-tiny模型识别效果更好,见表2,检测结果如图3所示.

表2 目标检测测试结果Tab.2 The test results of target detection

可以看出,改进的YOLOV3方法每类目标的识别率都达到85%以上,平均检测精度mAP在0.64以上,检测结果优于常用的YOLOV3-tiny模型,可满足星载智能处理的精度要求.

图3 目标检测效果图Fig.3 The renderings of target detection

为了进一步测试硬件平台的性能,将本文提出的模型分别移植到NVIDIA AGX Xavier和NVIDIA Jetson TX2上进行运行时间对比,对比结果如下表3所示.

表3 硬件处理速度对比结果Tab.3 The comparison results of hardware processing speed

通过对比可以看出,相比NVIDIA嵌入式智能处理模块TX2和AGX,采用创智2号的处理速度最快,处理4096 pixel×4096 pixel大小的遥感图像,检测时间仅为30 ms左右,可以满足星载智能处理的实时化需求.

3 抗空间环境设计

3.1 抗辐照设计

空间辐照对电子产品而言,影响最大的是总剂量和单粒子效应.

针对总剂量效应,可采取单独的钽盒或铝盒增加屏蔽厚度的方式来加固,为进行减重,本文采取机电热一体化设计,采用导热铝板既实现散热又进行总剂量加固,铝板的厚度为3 mm.综合考虑所有屏蔽物,建立屏蔽模型,对整机进行分析计算,经过铝板加固后,到达创智2号的总剂量小于1 krad(Si).同时,总剂量具有退火效应,本装置为间歇工作,且采用双机冷备份设计,能有效进行总剂量加固.

针对单粒子锁定效应,除了采用常规的限流保护芯片进行防护,还对芯片电流、结温进行采集,并根据实际工作设置合理阈值,超过阈值即认为异常,进行断电处理重启操作,可及时消除锁定.

针对单粒子翻转问题,间歇工作能大幅减少被单粒子打翻的概率,对于图像数据本身而言,打翻一位对目标识别的影响并不大,主要是要防止程序跑飞等功能中断异常.为此,设置看门狗电路,对程序运行进行实时监控,数据传输过程采用编码等方式防止单比特翻转,同时,采取被多项目验证的三模冗余措施进行单粒子翻转防护.

3.2 散热设计与验证

除空间辐照效应之外,宇航应用与地面还有个很大的不同是热设计,由于没有空气,无法产生对流,空间散热主要通过传导和辐射,器件本身辐射较小,传导是主要的散热方式.为了提升散热效率,本方案采用铝板加热管的方式进行散热,见图5所示.

(1)热分析

为解决创智2号芯片的散热问题,设计焊接热管阵列的散热结构,并使用导热垫对创智2号进行散热.对创智2号单芯片进行热分析,创智2号芯片功耗为20 W,所在印制板功耗为30 W,所在整机典型功耗为120 W,采用Patran2012构建热分析模型及热载荷,建立40℃的恒温热沉面,仿真分析以120 W的典型功耗持续工作600 s后,创智2号工作时的温度,热分析结果如下图4所示.

图4 创智2号单板热分析结果Fig.4 The thermal analysis results of the CHUANGZHI 2 board

通过图4可以看出,创智2号芯片的壳温为54.6℃,创智2号对应的散热凸台的温度为47.2℃,仿真结果符合一级降额要求.

(2)试验验证

为验证散热结构的有效性,进行热平衡试验,试验用的板卡、散热结构及传感器贴装位置如图5所示.热平衡试验过程中热沉控温为40±2℃,对关键器件及散热结构贴装热电偶传感器,考虑短暂工作及较长时间进行智能处理2种工况,进行热平衡试验.试验期间对于间断性工作,使用比实际使用工况开机更频繁的工况进行模拟,运行10 min,关机10 min并进行热启动.在真空环境及热环境建立后,进行包含热启动在内的试验,共持续3 h.

图5 创智2号单板结构及传感器位置Fig.5 Structure and sensor position of the CHUANGZHI 2 board

其中A、B、C 3个传感器贴在如图5所示的结构上,D、E分别贴在与A、C对应的PCB上.A、B、D对应电源,C、E对应创智2号.具体传感器对应情况和试验过程中各传感器的温度记录如图6所示,其中3次下凹段为模拟星上装置断电情况,对应时间分别为1:20-1:30、1:40-1:50、2:00-2:10.

图6 创智2号单板间歇工作热试验结果Fig.6 The thermal test results of the CHUANGZHI 2 board in intermittent work

由图6可以看出,试验过程中,断电10 min后再加电工作10 min时,创智2号芯片结温不超过60℃,满足一级降额要求.对比试验结果及热分析结果可知,热分析中结构的温度和芯片壳温均略低于实测温度,其中结构温度误差在10℃之内,芯片壳温误差在5℃之内,具有一定的参考性.

在3次热启动及热平衡试验结束后,又对智能处理单机进行热真空3.5 h的持续考核,热沉温度调整为45℃,3.5 h考核结果如下:创智2号持续运行约1h后达到热平衡状态,其结温为67℃,并保持稳定到试验结束,过程如图7所示.

图7 创智2号单板持续工作热试验结果Fig.7 The thermal test results of the CHUANGZHI 2 board in continuous work

由此可见,单板及整机散热设计合理,支持装置间断工作和装置长时间运行智能处理算法2种模式的真空散热需求.

4 结 论

本文采用低成本的国产创智2号智能芯片为核心构建了适合低轨小卫星应用的图像在轨处理装置,并完成了算法开发与部署,以6类典型光学目标为例,目标识别率均优于85%,处理速度是NVIDIA公司的Jetson TX2 GPU的2~4倍,并开展了抗辐照与散热设计,通过热仿真分析与热平衡试验验证表明,该装置设计可满足在轨使用要求,为低成本国产智能芯片在轨应用提供了借鉴.

猜你喜欢
创智芯片装置
芯片会议
关于射频前端芯片研发与管理模式的思考
都市区创智中枢 北郑州水韵嘉城
SBS装置VOCs排放控制探讨
轰趴装置指南
经山营海创智天地“台州杯”18th全国设计大师奖
一种新型消除PT二次回路压降的装置与应用
干熄焦装入装置的改进
多通道采样芯片ADS8556在光伏并网中的应用
丁亮:出与进