基于分布式存储的高性能嵌入式并行处理系统的设计与实现

2017-09-30 02:58江海职业技术学院安长俊周家婕
电子世界 2017年18期
关键词:板卡高性能嵌入式

江海职业技术学院 安长俊 周家婕 魏 斌 高 明

基于分布式存储的高性能嵌入式并行处理系统的设计与实现

江海职业技术学院 安长俊 周家婕 魏 斌 高 明

本文在对嵌入式高性能并行处理系统加速比的数学模型拓展分析的基础上,提出了一种当今更适于高性能信号处理算法的基于分布式存储的并行处理架构,并在此基础上设计实现了基于TMS320C6678的多片多核DSP互联的通用大容量存储实时信号处理卡,使用该板卡构建了某实时信号处理系统。验证了该架构具有标准化、模块化、可扩展、可重构的特点。验证了该系统强大的并行处理性能。

加速比;分布式存储;多层次互联;TMS320C6678

1 引言

随着VLSI技术的进步,嵌入式并行处理系统得到了飞速的发展。广泛应用于航天、通信、医疗电子等领域。随着应用需求的不断调高,对系统处理能力、存储容量、传输带宽的要求越来越高。采用更高性能处理器、更大存储容量与更快读写速度存储器的设计方法已成为硬件系统设计的必然选择[1]。而传统的基于共享总线存储的多处理器并行处理架构受制于总线的负载能力有限、总线时钟频率无法进一步提升以及总线访问竞争等问题,使得并行处理加速比无法随着处理器数量增加而进一步提高,大大限制了并行处理系统处理效率的发挥。因此本文在详细分析了加速比及效率的数学模型的基础上,提出了一种基于高速串行总线互联的分布式存储的并行处理架构,并基于TI公司新一代多核DSP——TMS320C6678,设计实现了多片多核DSP互联的并行处理单板,可实现根据系统处理能力需求灵活扩展处理节点,增缩系统规模,具有标准化、模块化、可扩展、可重构等优点。最后,使用该模块构建了高性能的信号处理系统,充分验证了系统强大的并行处理性能[2-4]。

2 加速比模型分析

加速比是反映系统并行处理能力发挥程度的指标。考虑固定大小的加速比模型即Amdahl定律,如公式(1)所示,其中T(1)为单独使用1个处理器进行处理所需的时间,T(N)为使用P个处理并行处理所需的时间:

结合典型处理算法的固有特点,对(1)式进行扩展性分析。考虑并行处理过程中的主要时间开销包括同步时间Tsync以及数据传输时间Tcom,可得因此扩展后的加速比模型如式公式(2)所示:

设某算法总的运算浮点数为I,系统内处理器的处理速度为P;

该算法的串行瓶颈为δ,即算法中只能串行运算的部分,那么并行运算的部分即为1—δ;

整个算法所需的同步次数为M,且每次同步时间为tsync;

每个处理器每次同步需要交互的数据量为W,互联总线带宽为B。

数据传输的并行度为α;

则:

带入(2)式中可得:

并行效率:

如(6)式所示,对于一个并行度一定的算法,其同步和数据交互的时间开销将会严重影响并行系统的加速比。若忽略同步开销的影响,对于传统的共享总线的并行架构,因共享总线,因此各个处理器的数据存储及传输只能串行执行,因此α=0,可得共享总线其加速比:

由(8)(9)两式可以看出随着着并行互联的处理器数量的增加,受制于总线带负载能力,总线带宽必定减小,因此数据传输的开销将严重影响系统加速比及效率。而且,可并行扩展的处理器数目有限,构建大型处理系统时比较困难。因此,共享总线的并行处理架构越来越不能满系统需求。

根据公式(6)为进一步增大并行处理系统的加速比提高其并行处理效率,充分发挥处理系统性能,我们必须:

(1)尽可能减小串行瓶颈因子δ,主要依靠算法架构设计优化实现;

(2)增大数据传输并行度α;

(3)增大数据传输带宽B;

(4)减小同步时间开销。

因此,构建如图1的分布式存储的并行处理架构。采用基于包交换的高速串行总线如SRIO、PCIE等作为处理器间的数据传输通路以增大数据并行传输因数α,增大数据传输带宽B;增加专门SYNC总线以减小同步时间开销。

图1 基于高速串行总线的分布式存储并行互联架构

3 分布式存储并行处理系统设计

3.1 总体架构设计

基于以上分布式存储并行处理架构的分析,构建基于模块化的高性能嵌入式并行处理系统,系统总体设计如图2所示:

图2 系统总体架构图

系统主要包括IO模块、网络交换模块、处理模块、主控模块。

1)主控模块:该模块是由单板计算机(SBC)构建。主要用来完成系统内PCIE EP设备的枚举,实现系统PCIE网络的组建。提供人家接口、图形化界面,通过PCIE网络或以太网实现对系统内设备进行管理与维护。同时负责完成系统任务分配、参数初始化等功能。另外, 还可使用主控模块进行特定的辅助数据处理。

2)I/O模块:该模块主要主要完成处理系统与外部其系统互联。一般由大型FPGA构建,主要由包括IO接口单元和IO控制单元。IO接口单元实现各类传输接口如ADC、DAC、光纤输入输出接口等;IO控制单元实现数据的分发以及同步定时功能。

3)网络交换模块:该模块主要实现第三代基于包交换的高速串行总线的数据交换,例如SRIO、PCIE和千兆以太网。为系统内各个处理节点提供高速无阻塞的数据传输通道。

4)处理模块:处理模块为该嵌入式高性能并行处理系统的核心。由若干基于分布式存储的高性能处理器互联组成。处理器一般为适于嵌入式系统处理的DSP、FPGA等。多处理器间通过基于包交换的第三代高速串行总线(如SRIO)实现互联,可轻松实现多处理器的扩展。同时,还可根据具体处理器外围接口的不同构建处理器间LINKs,为多处理器间的数据交互提供通路。

如上所述的基于模块化构建的高性能并行处理系统,具有标准化、模块化、可扩展、可重构的特点。系统可根据各类应用的具体需求灵活增减各个模块规模以构建不同性能的系统。

3.2 架构特点分析

3.2.1 多层次的互联网络

系统中引入了三种不同特性的互联方式实现系统内各个单元的互联,包括:

(1)基于点对点互联的高速串行总线互联(如SRIO、PCIE)为各个处理节点提供大带宽的数据传输通道;

(2)千兆以太网互联,实现系统低速、非实时的控制数据流传输;

(3)同步定时总线实现系统内各个处理节点的同步定时。不同的互联方式实现不同类型数据传输的需求,通过三种不同层次的互联网络实现系统中无阻塞的数据交换[5-7]。

图3 多种类的SRIO互联拓扑示意图

3.2.2 灵活多变的互联拓扑

使用SRIO互联网络作为主要的数据传输通道可实现系统中处理节点的灵活扩展。借助于专用SRIO交换模块,通过配置交换芯片的转发ID可使处理节点间实现如图3所示的不同的互联拓扑。通过SRIO switch可实现分布式处理节点的灵活扩展,扩展后的处理节点可实现处理能力、传输能力、储存能力同比增加,因此基于SRIO网络的互联,使得该处理模块具有很强的可扩展性、可重构性。

3.2.3 大容量的数据缓存

系统为分布式存储系统,每个处理器通过自己的SDRAM控制器挂载独立的SDRAM存储。因此系统的数据缓存随着处理器数目的增加成线性增长。当今的高性能处理器一般支持DDR3的控制器,而且随着DDR3颗粒空间的不断增长,处理器支持存储空间也越来越来大(如TMS320C6678最多可以挂载8GB的DDR3 SDRAM),因此基于分布式存储的多处理器并行处理系统可以轻松实现超大容量的数据缓存。

4 硬件设计实现

4.1 基于TMS320C6678的处理单元硬件设计实现

处理模块为嵌入式高性能并行处理系统的核心。本文结合TI公司最新一代多核DSP—— TMS320C6678设计实现了多片多核DSP互联的通用大容量存储实时信号处理单元。

TMS320C6678是TI公司基于KeyStone多核处理器架构的新一代多核DSP,也是目前处理性能最高的定点/浮点DSP。芯片集成了8个C66x™ DSP内核,内核速率可达1.25GHz,单核定点运算能力为40 GMAC @ 1.25 GHz,单核浮点运算能力为20 GFLOP。Keystone架构将RISC、DSP内核以及协处理器和高速IO接口高效的集成在一起,同时,首次实现了处理器内核、外设、协处理器以及IO接口的无阻塞访问。其实现高效集成和无阻塞访问主要基于四个主要的硬件单元:多核资源调度器,TeraNet交换器,多核共享内存控制器以及最高速率可达50GBaud用于芯片级联的Hyperlink接口。

基于多片C6678互联的通用并行处理模块板卡总体设计如图4所示。板载4片C6678,每片DSP下挂8GB DDR3内存,构成高速处理单元。每片DSP分别与PCI-e交换芯片和Rapid IO交换芯片连接X2的PICe和X4的SRIO,两片交换芯片与背板分别连接2个X4的PCIE和4个X4的SRIO。两片DSP之间通过高速的Hyperlink实现互联,为C6678提供高速数据传输通道。

由FPGA作为接口转换器件,实现背板Link接口,RocketIO以及板内RapidIO和PCIe总线之间的接口转换,并编程实现FPDP和同步定时总线。同时,在实际应用中,还可作为DSP的协处理器,对于一些复杂度较低,并行性要求较高的算法可先由FPGA进行预处理,可大大提高板卡的处理速度。CPLD主要实现板卡电源监控管理,复位管理,杂散逻辑控制等功能[8-9]。

图4 板卡总体设计框图

4.2 某实时信号处理系统硬件实现

基于TMS320C6678处理板卡,构建了如图5所示的某高性能嵌入式实时信号处理系统,系统由一块IO板卡、10快4DSP处理板卡、一块PowerPC主控板卡以及一块SRIO交换板卡构成。IO板卡通过多路光纤接受系统其他分机的数据后通过SRIO交换卡实现数据的分发,10块4DSP处理板卡完成信号处理算法并行运算。

系统主要采用基于包交换的高速串行Rapid IO作为主要的数据传输、交换通道,选用PCI Express、以太网作为主要的配置、管理通道,并且增加专门的同步定时总线(SYNC)用以系统内同步定时。

处理模块由10块4DSP处理单板构建,实现复杂的信号处理算法的高速并行运算。处理模块峰值处理能力达到6.4TFLOPs,总的数据缓存达到320GB DDR3 SDRAM。经过典型SAR成像Specan算法验证,在该系统成功进行并行算法映射后,算法中每步处理获得的加速比都达到3.6以上,效率在90%以上,充分验证了该处理系统强大的并行处理能力。

图5 高性能嵌入式实时信号处理系统总线互联图

5 总结

本文结合业界嵌入式并行处理系统的发展,对加速比扩展分析的基础上,提出一种分布式存储的嵌入式高性能并行处理架构,并基于该架构在OpenVPX 6U平台上开发了基于TMS320C6678的多DSP的并行处理板,使用该板卡构建了某高性能嵌入式实时信号处理系统。满足大带宽、大容量存储、高处理性能的系统需求,能较好的适应各种实时信号处理算法。充分验证了本文提出的基于分布式存储的嵌入式高性能并行处理架构具有标准化、模块化、可扩展、可重构的特点。

[1]李方慧,王飞,何佩琨.TMS320C6000系列DSPs原理与应用[M].电子工业出版社,2005.

[2]Sam Fuller等著,王勇,林粤伟,吴冰冰等译. RapidIO嵌入式系统互连[M].电子工业出版社,2006.

[3]丁云霞,胡善清,龙腾.典型SAR算法在多核处理器上并行处理映射实现[J].计算机工程与应用,2012,48(S2).

[4]杨俊,杜金榜,王跃科.基于FPGA和多DSP并行处理的可扩展数字处理终端设计[J].国防科技工业试验技术高层论坛,2007.

[5]TMS320C6678 Multicore Fixed and Floating-point Digital Signal Processor Data Manual,Novembwer 2010.

[6]DDR3 Design Requirements for KeyStone Devices,April 2011.

[7]KeyStone Architecture Peripheral Component Interconnect Express User Guide,December 2010.

[8]KeyStone Architecture Multicore Navigator User Guide,February 2011.

[9]Virtex-6 FPGA SelectIOResouces User Guide,August16,2010.

Design and Implementation of High-Performance Embedded Processing System Based on DSM

AnChangjun,ZhouJiajie,WeiBin,Gao Ming
(Jianghai Polytechnic College, Jiangsu.Yangzhou 225000)

In this paper, on the basis of detailed analysis about an extended speedupof the high-performance embedded parallel processing system, we propose a new parallel processingarchitecturebased on distributed storage, and then design a generic real-time signal processing card with multi DSPs of TMS320C6678. Finally, we construct a real-time signal processing system with multi cards. It validates the proposed architecture has standardized,modular, scalable, reconf i gurable features.

Speedup; distributed storage; multi-level interconnect; TMS320C6678

安长俊(1983—),男,江苏扬州人,硕士,江海职业技术学院讲师,从事电气自动化技术教学与研究。

猜你喜欢
板卡高性能嵌入式
基于PCI9054的多总线通信板卡的研制
基于FPGA的多通道模拟量采集/输出PCI板卡的研制
搭建基于Qt的嵌入式开发平台
一款高性能BGO探测器的研发
嵌入式软PLC在电镀生产流程控制系统中的应用
高性能砼在桥梁中的应用
一种基于光纤数据传输的多板卡软件程序烧写技术
SATA推出全新高性能喷枪SATAjet 5000 B
高性能可变进气岐管降低二氧化碳排放
Altera加入嵌入式视觉联盟