邓 睿
(吉林工业职业技术学院,吉林 吉林 132000)
深度神经网络的发展促进了人工智能行业的进步。现在人们评定人工智能的技术水平的指标主要包括模型训练能力、瞬时数据处理能力与算法创新能力三大维度。其中,论评测指标的价值来看,算法及算法创新能力是最为敏感的指标[1]。在人工智能服务器领域,人工智能技术的渗透同样显著,在数据处理方面,利用了CPU+架构模式,数据处理能力较普通CPU架构服务器有着突破性进步。人工智能模式下的数据处理核心,将代替芯片处理方案,引入新型的加速部件,算法优化部件,用以承担部分计算任务负载。计算核心数的增加,神经分析网络的智能化,也使得服务器的计算能力显著提升,服务器可提供的服务也就更加个性化。
两者虽然在宏观构造上看差别不大,均利用GPU加速卡,但两者仍不能等同。人工智能服务器的优势为:(1)技术更为先进:其中涉及的核心技术如AI算力提升,更大的互联带宽、更大内存带宽等,均可满足大数据时代人们的使用要求;(2)设计较为创新:创新化的重要表现之一即为高度独特化的设计。相较于普通服务器,人工智能服务器在数据处理核心GPU方面,配备数量更多。多核心,也可在单位时间内完成更多任务,用户可根据使用需求的不同,定制拓扑算法、散热结构与系统底层结构构造等内容[2]。其中涉及的环节较多,由于人工智能服务器数据的处理是海量的,故在机房设计、机箱安置、系统设计、逻辑规划方面,均需要技术人员统一规划,才能满足人工智能服务器持续、稳定运行的需求。(3)P2P通信模式:人工智能服务器工作时,涉及多条线路信息的传递,普通GPU服务器只涉及一卡或二卡的信息交换,更多元的信息交换鲜有涉及。而针对人工智能服务器,双卡间予以信息的传递是远远不足的,其中涉及的多核心数据的通信处理,数据量越多,通信量越大,应用的模型也就越复杂。当前相关学者制定了人工智能服务器开展的最基础指标要求:SXM3协议下,P2P带宽高值300 GB/s;SXM2协议下,P2P带宽高值50 GB/s;PCI3.0协议下,P2P带宽高值32 GB/s[3];(4)卡的数量不一致:普通服务器可承载数量一二不等,但人工服务器必须增加卡的数量,最基础要求为4块GPU,对于数据处理量特别巨大的,甚至要搭建外部服务器支持系统不断开人工智能服务器集群。
鉴于我国尚未在数据处理核心方面取得新的进展,故在智能服务器全局架构上,仍以普通服务器中的CPU架构为基础。但在数据处理核心、算法、逻辑及芯片类型方面,均有着突破性的进展。通过融入人工智能加速部件,提升数据处理效率,能够起到提升人工智能服务器性能的效果。计算负载的性能的提升可按照如下方式开展:①数据的复制:调动CPU内存,复制想要处理的数据到GPU显存模块中;②开启并行数据处理:按照GPU显存中复制的信息内容,同步接受CPU的数据处理指令,展开并行数据计算;③显存数据的计算:GPU处理核心收到数据与指令后,对显存数据予以计算,所得计算结果置于显存中;④计算结果的复制与转移:将GPU显存结果完整复制到CPU内存核心中。通过上述论述可知,人工智能执行算力的核心有所转移,CPU负责协调数据的流位点及计算结果的总结输出。其中较为繁杂的计算过程,则交由GPU完成。通过分析人工智能数据处理的特点,在实际应用中场景的不同,需对服务器的设计架构予以细微的调整。针对数据可能性预测方面,涉及大量的推理计算过程,此时在进行设计时,须尽可能增添GPU数据处理核心,最大限度提升数据处理效率。而针对海量数据的瞬时处理,则须在算力上加强干预。因此,可以归纳出当今人工智能服务器设计的先导思路:①保证高效的数据双向传递:涉及服务器、计算部件数据加速传输,及时有效的响应,必须要保证高质量的网络连接为基础,满足上述要求后,数据解析时也可呈现出低延迟、高带宽的特征;②存储容量足够大,可满足海量数据处理的要求:即使设备计算能力很强,若无与之匹配的存储条件、缓存、内存、外存等,再高效的算力也无法执行。故设计人员在设计时,既要保证性能,又要保证存储层次设计符合实际要求。③可根据数据处理需求的高低,适当地增设加速部件。并行计算能力强弱是人工智能服务器性能的敏感指标,为满足这一要求,也可加入ASIC,FPGA,GPU等其他类型的加速部件。
CPU+架构下的全局设计理念,充分借鉴了传统架构技术精髓,并通过不断的创新持续化挖掘传统架构技术的潜力。针对CPU技术架构来看,其在现有技术能力基础上,予以算法优化,引入多级缓存、超标量流水线、乱序执行等措施,经由反复训练,有助于提升CPU整体性能水平,基于深度学习理念下,也可增加专用计算指令,实现计算能力的成倍提升;就GPU技术架构来看,其在图形处理单元算法历经不断优化,能在全局角度实现访存存取体系的构建,流处理单元获得更为卓越的图像渲染能力;当今应用FPGA芯片的开发者准入门槛要求降低,更多的技术人员可对其开展编程设计,不仅如此,鉴于FPGA芯片计算性能的卓越性以及可编程的特点,引入专用计算能力,能够满足当今社会对于人工智能的计算需求。当今FPGA芯片在异构计算能力方面表现出色,故其常应用于边缘智能、推理场景中;当前在计算机芯片发展的前沿,ARMCortex-A76芯片能实现深度学习,并能对数据处理中常见的累加运算周期予以算法上的优化;英伟达图灵架构GPU芯片,在计算核心的架构上,则是基于张量算法,提升了单位时间数据处理的能力。借助GPU芯片图形处理的深度学习功能,有助于图像处理质量的提升,弱化低分辨率渲染的问题。
当前主流的网络I/O技术分为以下三大方面:SR-IOV、网卡直通和软件模拟。这三种技术的融合,即为当今网络I/O技术的基础构造[4]。其中软件模拟指的是基于虚拟网卡形式,通过对运行层Hypervisor予以虚拟,创造出与实际设备均一致的接口形式,有助于实现虚拟网卡的直接驱动。但其缺点在于性能水平低。随后相关学者提出了更为先进的SRIOV处理方案,既能保持原有网卡直通的高性能优势,也能实现跨设备间的虚拟机数据相互调动,具备着一定的应用前景。当今主流网络I/O技术引入PFs(物理功能)、VFs(虚拟功能)系统,其中物理功能可得以扩展,一个PF能在现有架构基础上扩展更多的虚拟系统。当下支持SR-IOV虚拟化功能执行,均以单独网卡形式呈现。其中每个虚拟功能模块,均共用一个物理网口,但在配置区域,每个虚拟功能模块PCI配置均是独立的。
根据服务器应用的场景不同,选取最适配的存储方案。对于非结构性数据为主的应用hdfs。但其应用缺点在于对随机写的支持性能不足;对于键值型的写入和查找数据,可采用HBASE。此项技术融入了LSM tree、WAL等精巧的设计模块,其在信息扩展,实时查询反应与数据吞吐能力上较为出色。对于对象型数据或schema多层嵌套的文档来说,采用MongoDB存储更为适合,高性能、易部署、易使用,存储数据非常方便。
当今全球AI服务器市场已呈现出高速发展态势,照此发展趋势,整个人工智能技术及其衍生技术的发展,未来人工智能服务器可提供更多个性化的服务。例如智能边缘计算、设计上的功耗优化、软硬件运算平台等。在神经网络背景下,新一代运算性能更加强劲的人工智能衍生技术,如类脑芯片、量子计算芯片将在几十年后产生突破性的进展。总而言之,人工智能技术正在改变人们捕获、检查和分析数据的方式,人工智能服务器作为算力提升的核心构件,不可或缺。故开展人工智能全局技术的研究,有助于为新技术的发展奠定基础。