文鹏程 白林亭 高泽 程陶然
摘要:近年来,以深度学习为代表的人工智能技术在民用领域飞速发展。在航空应用方面,人工智能技术将发挥重要的作用。人工智能技术在航空领域的应用,必须要考虑机载环境的约束和限制,尤其对智能计算处理器更是有着严格的要求。综合考虑人工智能技术的机载应用场景、计算特性和算力需求,通过分析研究通用处理器以及智能专用处理器的架构和适用性,基于异构融合的设计思想,提出了一条可行的技术实施路线,为机载智能应用提供计算支撑服务。
关键词:航空人工智能;机载智能应用;OODA;智能计算;智能专用处理器;通用处理器
中图分类号:V247.1文献标识码:ADOI:10.19452/j.issn1007-5453.2020.10.013
近年来,在算法、数据和算力的推动下,以深度学习为代表的人工智能技术迎来了第三次发展浪潮[1]。计算机视觉[2]、自然语言理解[3]、人机博弈[4]等领域,均取得了长足的进步,特定应用成果甚至已经超越了人类的能力水平。
军事方面,人工智能技术将催生新型作战力量,颠覆传统作战模式,智能化成为未来战争的核心要素。映射至航空[5],人主机辅的辅助智能有助于解决有人飞机的一系列问题,如多任务并发、信息量饱和引发的飞行员工作负荷过载问题,高动态、强对抗、复杂环境下的方案最优选择问题、记忆性序列操作与稀少性操作引发的飞行员动作失误问题等;人辅机主的自主智能有助于使无人飞机变得更加聪明,自动胜任“脏活”“累活”和“枯燥的活”;人机融合的协同智能有助于有人/无人飞机构建最优作战集合,降低“战争迷雾”,提高作战效率,增加灵活性。
人工智能技术的落地,必须依赖于某一种计算平台,而计算平台的核心关键就是处理器。此类处理器基于人工智能技术特定的计算背景,亦可称之为智能计算处理器。人工智能技术在航空领域的应用,必须要考虑机载环境的约束和限制,尤其对智能计算处理器更是有着严格的要求,它是所有智能算法高效执行的硬件基础。为此,本文综合考虑人工智能技术的机载应用场景、计算特性、算力需求,通过分析研究通用处理器以及智能专用处理器的架构和适用性,以期提出一条可行的技术实施路线,为机载智能应用提供计算支撑服务。
1机载智能应用特性分析
OODA理论[6]是由John Boyd从一对一空战经验中提出的,它由“观察”(Observation)、“判断”(Orientation)、“决策”(Decision)和“执行”(Action)4个环节构成,具有循环性、时效性、嵌套性等特点。在作战中,对抗各方会不断观察周围环境、获取相关信息、判断威胁、即时调整、做出决策,并采取相应的行动。如能够努力缩短己方的OODA周期,并尽可能地增加敌方的OODA周期,使己方的响应时间短于敌方的响应时间,就能够掌握作战的主动权,获得巨大的优势。
人工智能技术与OODA相结合,它将实现对OODA4个环节的全覆盖,有助于大幅缩短OODA周期,进而以快制胜。其应用模式如图1所示。当外部战场环境信息经传感器采入后,观察环节利用模板匹配、卷积神经网络(CNN)、循环神经网络(RNN)等算法对信息进行处理,提取出有效特征,完成目标感知与环境理解。判断环节将上述结果进行融合,并结合自身的状态信息,利用知识图谱、专家系统、长短时记忆网路(LSTM)等算法完成战场态势分析与威胁评估。然后转入决策环节,该环节利用决策树、模糊推理[7]、遗传、差分进化、粒子群等算法对己方下一步的行为动作进行引导,完成任务规划与攻防决策。行动环節根据决策结果,利用行为树、强化学习等算法执行具体的任务,完成火力打击与支援保障。
将上述算法进行分类,大体可以分为数据驱动类算法、知识驱动类算法和智能优化类算法三类,如图2所示。
(1)数据驱动类算法
以深度神经网络为代表,基于对数据的表征学习,通过组合低层特征,形成更加抽象的高层表示,进而发现数据的属性类别。
(2)知识驱动类算法
以专家系统、决策树为代表,能够有效利用人类长期总结出的各类先验知识,通过对已有知识的推理,寻求隐藏的关联知识和结论,进而求解相应的问题。
(3)智能优化类算法
智能优化类算法又分为进化优化和群体优化两类。进化优化以遗传、差分进化为代表,它起源于达尔文的进化论思想,通过模拟不同生物的进化过程和机制,以自组织、自适应、自学习的方式求解问题。群体优化以粒子群为代表,它是一种仿生启发式算法,通过模拟自然界中生物的各类生活习性,实现对复杂问题的优化求解。对三类智能算法的计算特性及算力需求进行分析,结果见表1。
此外,智能算法的机载实现还需要考虑以下几点非功能属性要求:
(1)实时性、确定性、可信性要求
机载智能计算系统必须实时给出确定的、可信的计算结果。
(2)高性能密度、低功耗要求
机载智能计算系统必须在计算/通信/存储资源、体积、重量、功耗受限条件下实现对多样化智能应用的高性能计算支撑。
(3)抗恶劣环境、高可靠要求
机载智能计算系统必须适应物理环境、电磁环境、赛博空间环境的影响,具备高可靠的运行能力。
2通用处理器智能计算适用性分析
在机载领域,通用处理器主要包括中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)4大类,它们有着各自特定的应用场景,其计算架构和计算能力有着不一样的设计。映射到智能计算领域,它们适用的智能应用场景以及针对不同类型智能算法的计算速度和功率消耗会有所不同。开发人员上手的难易程度、对关键函数、关键运算的优化加速技巧也是机载实现需要考虑的因素。
2.1 CPU
CPU作为一款灵活性和通用性兼顾的处理器,最初的设计使用串行计算架构,其大量的硬件资源被用于指令调度。CPU在执行逻辑判断与分支跳转指令时,具有极大的优势。专家系统、决策树、遗传进化、粒子群等知识驱动类与智能优化类算法的实现,CPU是很好的选择。
不过,CPU并不适合于神经网络尤其是深度神经网络等数据驱动类算法的计算。尽管使用编程语言在CPU上模拟神经网络的工作原理是神经网络最早也是最基本的研究手段,它实现简单、易于更改,但CPU的架构设计限制了神经网络计算速度的提升。即便是多核CPU能够提供一定的并行计算能力,它仍然无法满足随神经网络飞速发展一起增长的模型规模、乘加计算量、数据交互量的需求。
2.2 GPU
GPU最早是为生成计算机多边形网格图形而设计的。它使用并行计算架构,通过压缩缓存空间、减少逻辑控制单元、增加计算单元、扩大数据吞吐等方法,提供大规模并行计算能力。相比于CPU,GPU在矩阵乘法的计算上十分高效,可以很好地适应神经网络高度并行化的计算特点,大幅缩短计算时间,提升计算效能。
但是,从智能计算的角度看,GPU存在与CPU一样的缺陷——处理器的底层架构并非专为智能计算而设计。GPU核可以看成是更为复杂的(用于分支预测和流程执行的)CPU核的流线型版本。在实现大规模深度神经网络算法时,GPU同样是通过集群的方式提高计算能力,进而也不可避免地会产生过高的功率消耗。只不过相比于CPU,GPU有着更高的性能功耗比。此外,由于GPU将更多的晶体管用于计算,其逻辑控制单元通常设计得比较简单,调度管理能力也就相应地变弱,GPU常常是以协处理器的形式配合CPU共同完成智能计算任务的。
2.3 DSP
DSP从字面意思上讲,它是专用于数字信号处理的,设计的初衷是为了更好地实现矩阵乘加计算。由于主要针对电信应用,DSP核的数量往往不是很多(无须拥有16个或32个以上的核),但是这制约了DSP计算性能的大幅提升。当前,DSP的计算性能很难与GPU相匹敌,市场份额正在逐渐减少。
在智能计算方向,DSP的一种应用模式是将多个DSP核与CPU核集成,进而以SoC的形式为深度神经网络的执行提供硬件基础。
2.4 FPGA
FPGA最大的特点是可编程,通过烧入配置文件可以灵活应对多种应用场景,具备一定的通用性。此外,FPGA可以进行硬件功能的快速验证与评估,加快设计迭代。更为重要的是,FPGA具有大量的逻辑单元和丰富的布线资源,可以让神经网络实现充分的并行,进而达到计算加速的目的。
与CPU相比,FPGA呈现出两个特点。一是FPGA每个逻辑单元的功能在编程(烧写)时就已经确定,不需要指令,也不需要指令存储器、译码器、运算器等,因此功耗更低。二是FPGA中的寄存器和片上内存均属于各自的控制逻辑,不需要额外的仲裁和缓存,因此速度更快。
与GPU相比,FPGA同时拥有硬件流水线并行和数据并行两种处理能力,且整数运算性能更高。对于流式计算任务,FPGA的计算延迟要低很多,因此常用于深度神经网络的推理[8]。不过,FPGA通过硬件逻辑实现软件算法,由于工具层面相对缺失,因此在实现复杂算法时开发难度较大,需要开发人员拥有足够的经验,这也是目前FPGA应用过程中最大的短板。
2.5对比分析
CPU、GPU、DSP、FPGA等通用处理器架构特性及其智能计算适用性对比分析见表2。
3智能专用处理器机载适用性分析
从广义上讲,只要能够运行人工智能算法的处理器都可称为智能处理器。但是,通常意义上,智能专用处理器指的是针对人工智能算法做了特殊加速设计的处理器。现阶段,这些人工智能算法一般以深度学习算法为主,也可以包括其他机器学习算法。
国外智能专用处理器产品相对成熟,市场也较稳定,主要有谷歌的张量处理器(TPU)、IBM的真北(TrueNorth)等。但考虑到自主可控的因素,本文更加关注国内智能专用处理器的发展。目前,国内已呈现出百花齐放的态势,参与竞争的单位既有像寒武纪、比特大陆、地平线这样的创业公司,也有像华为这样的IT巨头,还有像清华大学、浙江大学这样的研究机构。它们都不是针对机载环境设计的,若要应用于机载环境,必须做特殊的处理。
自2013年起,寒武纪先后發布了一系列智能专用处理器,包括国际首个深度学习处理器DianNao[9]、国际首个多核深度学习处理器DaDianNao[10]、国际首个通用机器学习处理器PuDianNao[11],以及专用于摄像头智能识别ShiDianNao[12]。寒武纪系列处理器的主要设计思想是:在提高计算处理能力的同时,优化存储资源的访问效率,使得计算和存储访问更加平衡,进而获得更高的能效比。其关键技术是:通过使用片内存储,取消片外的动态随机存取存储器(DRAM),降低访存时延/功耗;优化存储架构及其物理布局,减小数据传输距离和通信时延。
目前,DianNao已经形成了物理实体,并进行了试验流片,但是未对外出售。DaDianNao也形成了物理实体,并进行了商用流片。不过,由于它面向的是服务器应用,其功耗无法满足机载计算系统约束。此外,由于它目前采用的设计标准是商用标准,其工作温度、振动性能等也与机载计算系统的要求相距甚远。在实际使用时必须进行特殊的关核处理以限制功耗,同时进行严格的芯片筛选筛查工作以确保环境适用性。
比特大陆共推出了三款智能专用处理器。其中,BM1680是第一代产品。它集成有64个神经网络处理单元(NPU),由NPU调度引擎(NPU Schedule Engine)进行统一调度,以最大化提高NPU的使用效率。此外,它还加入了全局直接存储器访问(Global DMA)模块,用于大块数据的读写搬移。BM1682是第二代产品。它更加专注于CNN、RNN等深度神经网络模型的推理。在28nm工艺下算力达到3TFLOPS@FP32,平均功耗仅为30W,实际性能在BM1680的基础上提升5倍以上。
BM1880是面向边缘计算的产品。它的核心是一个张量计算单元,包含512个乘加计算器(MAC),支持Winograd卷积运算。此外,它还配置了2MB的静态随机存取存储器(SRAM),用于系统性能优化、数据重用,以提供最佳的编程灵活性。BM1880的调度引擎可以为张量计算单元提供极高的数据带宽,对于8位数据宽度的数据,其算力可达1TOPS,而在Wingorad卷积加速运算模式下,算力高达2TOPS。BM1880的典型功耗仅有2.5W。
与寒武纪的产品类似,比特大陆的产品目前也采用的是商用设计标准,机载计算系统若想应用,必须进行芯片筛选筛查工作。
地平线自主设计研发的智能专用处理器架构BPU(brain processing unit),是典型的异构多指令多数据架构。由于对存储单元进行了特别优化,数据能够自由传递,并完成多种计算,提高计算效率。
按照感知、建模、决策三个阶段,BPU对应规划了名为高斯、伯努利和贝叶斯的三代产品。作为它们的具化形式,“旭日”和“征程”两个系列的处理器产品分别面向智能摄像头和智能驾驶领域,专用性较强。
机载应用时必须针对特定的场景,完成算法的迁移和适配,并尽可能地实现性能的进一步优化。
华为研制的Ascend310是一款应用于端系统的低功耗智能计算片上系统(SoC)。它集成了两个AI Core,主要负责执行矩阵、向量计算密集的算子任务;集成了8个ARM Cortex A55,其中一部分A55可部署为AI CPU,负责执行不适合跑在AI Core上的算子。此外,它采用层次化的片内memory结构,除了AI Core内部有两级memory buffer外,SoC芯片上还有8MB L2 buffer,专用于为AI Core、AI CPU提供高带宽、低延迟的memory访问。
不过,华为的处理器产品主要供内部使用,对外开放程度并不高,尤其在软件框架和工具支持层面,如何与机载计算系统相结合,是一个不得不考虑的问题。
清华大学类脑研究中心发布的神经形态处理器天机(Tianjic)[13],将人工神经网络(ANN)和脉冲神经网络(SNN)进行异构融合,兼顾目前技术成熟度相对较高的深度学习模型和未来有巨大发展潜力的类脑认知模型,可用于计算机视觉、自然语言理解、目标检测、识别、跟踪等多种应用开发。
尽管清华大学类脑研究中心已经跑通了“建模—仿真—验证—应用演示”的全套流程,拥有完整的硬件平台和软件工具链,但由于Tianjic是一款概念很新的处理器,其开发与测试环境与以往有很大的不同,因此上手并不容易。
浙江大学联合杭州电子科技大学发布的神经形态处理器达尔文(Darwin)[14],仅针对脉冲神经网络处理,其原理和功能特性与IBM的TrueNorth十分相似,但规模比TrueNorth小很多。Darwin支持8个物理神经元,通过时分复用最大能够模拟2048个逻辑神经元、2048×2048个突触,以及15个突触延时。与清华大学的Tianjic一样,Darwin的开发与测试环境上手也很困难。
上述智能专用处理器架构特性及其机载适用性对比分析见表3。
4结束语
综合考虑人工智能技术的机载应用场景、计算特性、算力需求和机载实现的非功能属性要求,通过对通用处理器以及智能专用处理器的架构研究与分析发现,通用处理器在应对不同类型的智能算法时,体现出了截然不同的适用性。而智能专用处理器在应对特定的智能算法时,其计算效能相比于通用处理器有着极大的优势。但是,智能专用处理器往往存在通用计算能力弱和无法进行多任务管理调度的问题,在机载应用过程中也有着诸多限制。因此,一种可行的技术路线是实施通用处理器与智能专用处理器的异构融合设计,以便充分发挥它们各自的优势,进而为机载智能应用提供计算支撑服务,实现对OODA全过程任务链多样化智能应用的全覆盖。相比于之前仅能支撑某一个或某几个特定智能应用以及诸多约束和限制,技术上有了明显的进步。
参考文献
[1]吴朝晖.人工智能的过去、现状和未来[J].未来传播, 2019, 26(3): 2-5. Wu Zhaohui. The past, present and future of artificial intelligence[J]. Future Communication, 2019, 26(3): 2-5.(in Chinese)
[2]He K,Zhang X,Ren S,et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016:770-778.
[3]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proceedings of the 31st Conference on Neural Information Processing Systems(NIPS 2017),2017.
[4]Silver D,Huang A,Maddison C J,et al. Mastering the game of go with deep neural networks and tree search[J]. Nature,2016,529:484-489.
[5]閆晓婧,杨涛,药红红.国外第六代战斗机概念方案与关键技术[J].航空科学技术, 2018, 29(4):18-26. Yan Xiaojing, Yang Tao, Yao Honghong. Conceptual scheme and key technologies of sixth generation fighters[J]. Aeronautical Science & Technology, 2018,29(4):18-26.(in Chinese)
[6]张宇,黄建新.应用OODA环模型研究装备对体系贡献程度[J].现代防御技术, 2017, 45(2):177-182. Zhang Yu, Huang Jianxin. Study on contribution degree of equipment to system of systems using OODA loop model [J]. Modern Defence Technology, 2017, 45(2):177-182.(in Chinese)
[7]陈杰,程胜,徐梦.基于模糊控制理论的智能体运动控制方法[J].航空科学技术, 2019, 30(2):74-78. Chen Jie,Cheng Sheng,Xu Meng. Research on an agent control method based on fuzzy control[J]. Aeronautical Science& Technology,2019,30(2):74-78.(in Chinese)
[8]Shawahna A,Sait S M,El-Maleh A. FPGA-based accelerators of deep learning networks for learning and classification:a review[J]. IEEEAccess,2018(4):1-41.
[9]Chen Tianshi,Du Zidong,Sun Ninghui,et al. DianNao:a small-footprint high-throughput accelerator for ubiquitous machine-learning[C]// Proceedings of the 19th International ConferenceonArchitecturalSupportforProgramming Languages and Operating Systems(ASPLOS 2014),2014.
[10]Chen Yunji,Luo Tao,Liu Shaoli,et al. DaDianNao:a machine-learning supercomputer[C]// Proceedings of the 47th IEEE/ACM International Symposium on Microarchitecture(MICRO 2014),2014.
[11]Liu Daofu,Chen Tianshi,Liu Shaoli,et al. PuDianNao:a polyvalent machine learning accelerator[C]// Proceedings of the 20th International Conference on Architectural Support for Programming Languages and Operating Systems(ASPLOS 2015),2015.
[12]Du Zidong,Fasthuber R,Chen Tianshi,et al. ShiDianNao:shifting vision processing closer to the sensor[C]// Proceedings of the 42nd ACM/IEEE International Symposium on Computer Architecture(ISCA2015),2015.
[13]Shen Juncheng,Ma De,Gu Zonghua,et al. Darwin:a neuromorphic hardware co-processor based on Spiking Neural Networks[J]. Science China(Information Sciences),2016,59(2):1-5.
[14]Pei Jing,Deng Lei,Song Sen,et al. Towards artificial general intelligence with hybrid Tianjic chip architecture[J]. Nature, 2019,572:106-111.(責任编辑王为)
作者简介
文鹏程(1981-)男,博士,研究员。主要研究方向:嵌入式智能计算、智能信息处理、机载智能应用。
Tel:029-89186541
E-mail:wpcheng@avic.com
白林亭(1990-)男,硕士,工程师。主要研究方向:可解释智能、智能计算测评。
高泽(1994-)男,硕士,助理工程师。主要研究方向:知识工程、智能计算测评。
程陶然(1991-)女,硕士,工程师。主要研究方向:智能信息处理、机载智能应用。
Analysis and Research of Intelligent Computing Processors for Airborne Environment
Wen Pengcheng*,Bai Linting,Gao Ze,Cheng Taoran
Aviation Key Laboratory of Science and Technology on Airborne and Missileborne Computer,AVIC Xian Aeronautics Computing Technique Research Institute,Xian 710065,China
Abstract: In recent years, artificial intelligence technology represented by deep learning has developed rapidly in the civil field. While for military application, such as aviation, AI technology will also play an important role. The AI application in the field of aviation must consider the constraints and limitations of the airborne environment, especially for the intelligent computing processors. Considering the airborne application scenario, computing characteristics and computing power requirements, the architecture and applicability of general purpose processors and AI processors were analyzed and studied. Then a feasible technical implementation route was proposed based on the idea of heterogeneous integration. It could provide basic computing services for airborne intelligent applications.
Key Words: aeronautical artificial intelligence; airborne intelligent application; OODA; intelligent computing; AI processor; general purpose processor