基于PCIe总线的多路实时传输系统设计*

2015-12-07 09:22杨灿美杜学亮

电子技术应用 2015年2期

关键词：传输速率寄存器总线

高　俊，杨灿美，杜学亮

(1.中国科学技术大学信息科学技术学院，安徽合肥230026；2.中国科学院自动化研究所，北京100190)

基于PCIe总线的多路实时传输系统设计*

高俊1，杨灿美1，杜学亮2

(1.中国科学技术大学信息科学技术学院，安徽合肥230026；2.中国科学院自动化研究所，北京100190)

针对多路图像数据的传输及处理带宽需求，使用Virtex-6 FPGA设计实现了基于PCIe总线的多路实时传输系统。该系统主要包括仲裁控制多设备对DDR3的访问，采用PCIe Bus Master DMA方式实现与PC之间的高速传输，以及对全双工传输过程中存在的拥堵问题进行优化。实验结果表明，该实时传输系统最高的传输速率可以达到单工写1 632 MB/s，读1 557 MB/s，全双工写1 478 MB/s，读1 439 MB/s，并且性能稳定，完全满足多路图像采集后的高速传输处理需求。

PCIe；实时传输；仲裁；DMA

0　引言

利用PCIe总线的高带宽优势，设计了一种基于PCIe总线的多路实时传输系统，采用 Bus Master DMA方式实现与PC之间的高速传输，以满足多路图像数据实时采集后传输和处理的高带宽需求。

1　系统结构及工作原理

基于可编程逻辑器件FPGA的设计相比 ASIC具有更好的灵活性和可配置性，因此本文所设计的基于PCIe总线的多路实时传输系统采用了 Xilinx XC6VLX240T FPGA来实现。本系统主要包括 PCI Express Core(EP)、DDR3 MIG模块、PCIe Bus Master DMA(BMD)模块以及DDR3读写控制模块四部分，结构如图1所示。

图1　系统结构图

本系统的主要工作原理是由DDR3缓存相机采集PC处理后的图像数据，通过PCIe总线实现与PC之间高速数据传输。两路相机采集后的图像数据经相机接口模块前期处理后传入DDR3读写控制模块，由MIG模块存入DDR3，然后DDR3中的数据被读入发送缓存，同时PCIe BMD模块发送MSI报文给PC使其配置BMD相应寄存器，BMD模块会读取发送缓存中的数据组成存储器写请求报文经PCIe总线传给PC。对两路图像数据进行基于对象的特征提取后，PC配置BMD相应寄存器使其发送存储器读请求报文，然后PC端将处理后的图像数据组成CPLD数据包发向PCIe EP Core，BMD模块会将收到的 CPLD TLP中的有效数据存入接收缓存，最后DDR3读写控制模块读取接收缓存中的数据，存入DDR3以待DVI接口模块读取输出显示。结构图中FIFO除了缓存的作用外主要是解决位宽及跨时钟域的问题[3]，而DMA FIFO接口模块的作用主要是负责 BMD模块与FIFO间的信号连接及控制。

2　主要模块设计

本系统的设计主要是 DDR3读写控制模块和 PCIe BMD模块的设计，而 PCI Express Core(EP)和 MIG可以通过 Xilinx CORE Generator按需求的配置生成，其中PCIe配置成×4、gen2，利用 Virtex6集成的PCIe IP实现，MIG配置成DDR3控制器、400 MHz。

2.1DDR3读写控制模块

DDR3读写控制模块由读写控制模块和仲裁模块两部分组成，如图2所示。

图2　DDR3读写控制模块结构及仲裁原理图

读写控制模块通过UI接口与MIG连接，按照MIG的时序要求进行读写操作。并且为了读写管理方便，将DDR3按容量划分为两份，分别用于存储采集的两路源图像数据和经PC处理后用于输出的图像数据。

（2）低起动电流，高起动转矩：起动转矩达到额定转矩的150%时，起动电流仅为额定电流的30%；过载能力强；避免对电网的冲击；

仲裁模块主要负责多个设备访问DDR3时的总线切换。由于本系统不同设备读写DDR3所用时间不同，为避免采用轮询机制所带来的带宽利用率的降低，采取仲裁机制，负责对各个设备的访问请求做出应答和总线的切换，效率更高[4]，原理如图2所示。设计时，为避免几个设备同时请求带来不确定性，仲裁模块采用Round Robin仲裁模式，使得各设备能公平得到响应机会。综合考虑带宽利用率和实时性，将十行以内图像像素点的读写时间作为时间宽度，保证本系统的高效可靠。

2.2PCIe BMD模块

PCIe BMD模块主要由三部分构成，包括DMA控制/状态模块、发送模块以及接收模块，结构如图3所示。

图3　PCIe BMD结构

2.2.1DMA控制/状态模块

DMA控制/状态模块包括控制/状态寄存器和控制模块。控制/状态寄存器主要寄存BMD模块的控制及状态信息。PC端采用数据包的形式将配置需求通过PCIe总线传输到EP端，BMD接收模块识别配置数据包(有效数据大小为1DW的存储器写请求TLP)，并根据TLP的地址段将数据写入相应的控制寄存器。PC端也可以发送读控制/状态寄存器的请求，接收模块识别到该类数据包(请求数据大小为1DW的存储器读请求TLP)后，产生CPLD请求，发送模块将根据该TLP的地址读取对应控制/状态寄存器的值，生成CPLD TLP发向PC端。

控制模块根据控制/状态寄存器的配置值发送相应的控制信号给发送及接收模块，还与DDR3读写控制模块相连，控制原图像数据的读取和处理后图像数据的写入，并配合读取操作发送MSI请求[5]，使PC配置BMD模块相应的控制寄存器以进行存储器写请求TLP的发送。

2.2.2发送/接收模块

发送模块作为BMD模块的发送部分，主要负责在接收模块收到读写控制/状态寄存器的请求后完成报文的发送，在发送模块收到MSI请求后MSI TLP的发送，以及根据PC端所配置的寄存器参数进行存储器读/写请求TLP的发送，其中存储器写请求TLP的有效数据来自TX FIFO。

接收模块主要负责接收各种数据包并作出相应操作：当收到配置数据包时，将有效数据写入对应控制寄存器；当收到读控制/状态寄存器的请求，通知发送模块读取对应控制/状态寄存器值组成 CPLD TLP发向 PC端；当收到CPLD TLP，其中的数据段就是发送模块发送的存储器读请求TLP所请求的数据，然后对这些数据进行校验并读入RX FIFO等待存入DDR3。

2.2.3PCIe BMD全双工模式

对于本系统与PC之间的数据传输，单一时间段内只进行读或者写比较简单，但为了满足系统需要以及传输效率的提高，大部分情况下，需要读写数据同时进行。对于发送模块而言，则需要合理安排存储器写请求TLP和存储器读请求TLP的发送，这里采用动态加权循环调度算法(Dynamic Weighted Round Robin，DWRR)。普通的加权循环调度算法(Weighted Round Robin，WRR)是通过设置两个计数器分别记录当前写请求和读请求已经发送的个数，并根据传输特性给两者配置相应的权重值。传输开始后，当某一请求次数达到它的权重值，则将该请求的计数器清零，再跳转到另一请求，如此循环往复直到传输结束。由于读请求的周期数要远小于写请求，如果读写请求的权值设置好后就保持不变，读请求的过快发送会快速消耗PCIe EP CORE的发送缓存从而造成拥堵，使发送模块长期处于等待状态，降低传输速率。本系统根据这一特性对WRR算法进行了优化，开始阶段由于发送缓存为空，为了充分利用总线，将读请求权值设为发送缓存大小3/4，写请求设为其1/4，优先发送读请求，再发送写请求，然后根据写请求个数达到权值后发送缓存的可用数设置读请求的权值，当发送缓存的可用数小于写请求权值一半时，重新设读写请求权值都为1，使读写请求逐个间隔发送直到读请求优先完成，再发送剩余的写请求。在这过程中读写请求权重值根据发送缓存的可用数动态变化，调整读写请求的发送组合，在保证读取速率的情况下尽量减少了拥堵时间，从而提高整体传输速率。

3　设计实现及测试验证

本设计采用 Xilinx XC6VLX240T FPGA定制开发板作为开发平台，并结合对应的驱动程序和处理程序进行测试验证。

3.1设计实现

整个设计采用 Xilinx ISE14.7作为 FPGA的开发工具，利用Verilog HDL进行程序设计。根据图1的结构图在顶层模块中例化各个模块，并进行相应的优化。为了满足测试验证的需求，顶层模块中还需要例化 Chip-Scope测试核。设计完成后，通过ISE综合、映射、布局布线，最后生成可供下载的 bit文件。综合后整个设计占用Register资源 9 317(3%)，占用 LUT资源 11 214(7%)，占用Bram资源12(2%)。

3.2测试验证

将开发板与 PC主板的 PCIe插槽相连接，下载 bit文件，结合 ChipScope软件进行测试。两路相机参数同为1 920×1 080，60 FPS，DVI显示参数也为1 920×1 080，60 FPS。DDR3 SDRAM时钟400 MHz，物理位宽64 bit，读写控制时钟200 MHz，数据位宽256 bit。PCIe配置成×4，gen2。理论上，DDR3的读写速率和 PCIe的传输速率满足多路图像的采集和输出要求。根据仲裁模块的设计，测试时间宽度分别为 1、2、4、8行图像像素点读写时间下的性能，其中7.5 KB对应一行图像像素点的数据量。PCIe BMD单工情况下的测试结果如表1所示，并将表1的测试结果换算为 gen1×8模式，与文献[6]的结果进行对比，如图4所示。

表1　PCIe BMD单工传输速率

图4　DMA单工传输测试结果

对比测试结果，文献[6]在 gen1×8模式时的最高传输速率为写1 311 MB/s，读1 002 MB/s，而本传输系统在相同模式下能达到的最高传输速率为写 1 632 MB/s，读1 557 MB/s，相比文献[6]写入速率提高 24.5%，读取速率提高 55.4%，并且表现出传输数据量越大，传输速率越高，超过60 KB之后趋于稳定。如果PCIe BMD一直工作在单工模式，是不能满足每秒写入和读取900 MB数据量的要求，因此本系统中PCIe BMD只在每帧图像的开始和结束像素行传输时工作在单工模式，其余时间工作在全双工模式。对于PCIe BMD的全双工方式，发送模块采用WRR算法和DWRR算法的测试结果如图5所示。

图5　PCIe BMD全双工传输测试结果

对比该测试结果，可以看出对于不同数据量的传输，采用DWRR的传输速率都高于WRR，写入速率最大提高3.4%，读取速率最大提高9.6%，最高传输速率能达到写1 478 MB/s，读1 438 MB/s，保证了图像数据传输到PC后有充足的时间进行运算处理，满足本系统的传输需求。根据PCIe BMD单双工测试结果，综合考虑整个系统的传输效率、总线切换频率及实时性，传输系统仲裁模块中的时间宽度设为4行图像像素点的读写时间为佳。

4　结论

大数据量采集后的高速传输对于一个采集系统而言至关重要，高性能的传输系统能为大数据量的存储、处理等后期各种操作提供保障。本文设计了一种基于PCIe总线的多路实时传输处理系统，并且通过FPGA验证了该系统的可行性。实际测试表明该系统能达到单工写1 632 MB/s、读1 557 MB/s和全双工写 1 478 MB/s、读 1 438 MB/s的传输速率，完全满足本系统高速数据传输的需求，并且对于其他高速传输系统的设计有一定的借鉴作用。

[1]PCI express base specification revision 2.1[S].PCI-SIG.，Mar 4，2009.

[2]KAVIANIPOUR H，BOHM C.High performance FPGA-based scatter/gather DMA interface for PCIe[C].IEEE NSS/MIC，2012，N19-3，1517-1520.

[3]LI H，LIU Y A，YUAN D M，et al.A wrapper of PCI express with FIFO interfaces based on FPGA[C].IEEE ICICEE，2012，145，525-529.

[4]樊博，王延杰，孙宏海，等.FPGA实现高速实时多端口图像处理系统的研究[J].液晶与显示，2013，28(4)：620-625.

[5]雷雨，任国强，孙健，等.基于 PCIE的高速光纤图像实时采集系统设计[J].电子技术应用，2013，39(10)：136-138.

[6]侯杭呈，王忆文，李辉.一种基于PCI Express总线的DMA高速传输系统[J].微电子学，2013，43(3)：383-386.

Design of multi-channel real-time transmission system based on PCIe bus

Gao Jun1，Yang Canmei1，Du Xueliang2
(1.School of Information Science and Technology，University of Science and Technology of China，Hefei 230026，China；2.Institute of Automation，Chinese Academy of Sciences，Beijing 100190，China)

Acorrding to the requirements of transmission and processing bandwidth of multi-channel image data,a multi-channel real-time transmission system based on PCIe bus which uses Virtex-6 FPGA is designed.The system includes a arbitration controling multiple devices to access DDR3,a high-speed transmission way to PC which uses PCIe Bus Master DMA mode.And the congestion problems exist in the full-duplex transmission are optimized.Experimental results show that the maximum transmission rate of this real-time transmission system can reach 1 632 MB/s of writing,1 557 MB/s of reading in simplex mode and 1 478 MB/s of writing,1 439 MB/s of reading in full duplex mode,which fully meets the needs of high-speed transmission and processing of multi-channel image data after acquisition with stable performance.

PCIe；real-time transmission；arbitration；DMA

TN919.64

0258-7998(2015)02-0065-03

10.16157/j.issn.0258-7998.2015.02.014

中国科学院战略性先导科技专项（XDA06010402）

2014-08-29)

高俊（1990-），男，硕士研究生，主要研究方向：数字SoC、高速互联传输。

杨灿美（1965-），男，博士，研究员，主要研究方向：通信数字基带系统设计、低功耗与高密度SoC架构设计。

杜学亮（1982-），男，博士，高级工程师，主要研究方向：SoC芯片设计。

基于PCIe总线的多路实时传输系统设计*

0 引言

1 系统结构及工作原理

2 主要模块设计

3 设计实现及测试验证

4 结论

0　引言

1　系统结构及工作原理

2　主要模块设计

3　设计实现及测试验证

4　结论