嵌入式软处理器在硅IP开发中的验证加速方法

2011-11-25 02:37
制造业自动化 2011年14期
关键词:乘法器输入输出内存

黄 梅

HUANG Mei

(乐山职业技术学院,乐山 614000 )

0 引言

在现代的集成电路设计过程中,常常使用“用砖头,盖房子”类似的方法来进行大规模项目的设计。硅IP模块就是盖房子用的“砖头”。“砖头”质量的好坏,直接决定了整个集成电路设计的成败。对于集成电路而言,在大多数情况下,任何小缺陷都会造成整个集成电路的失败,因此在商业过程中,往往采用经过市场验证过的硅IP,或者经过反复验证该IP的可用性。验证IP的质量和性能,逐渐成为设计工作中价值最大,最耗费人力和才智的工作。随着计算机软件技术的进步,出现了许多计算机软件工具用于提高设计的自动型,以避免人为错误。然而,由于摩尔定律的作用,集成电路上晶体管的成本在不断下降,越是大型的设计可能反而性价比越高,迫使商业公司和其他机构不断往电路上加入更多更复杂的设计,来保持市场竞争力。在摩尔定律作用下,芯片成本线性降低,规模线性增长,但复杂度却呈现指数上涨趋势,导致原有的软件设计工具越来越难以满足需要。

1 目前软件设计工具存在问题主要表现在以下方面

1)芯片的设计规模不断翻番,但计算机的硬件性能却不能同步增长;2)即使使用最先进的计算机硬件,但操作系统的能力又再次限制了系统的性能。主流的计算机操作系统,从16位,到32位,到64位,三次跨越耗费了近30年时间,但芯片设计规模,仍然保持18个月就翻番。当前主流的操作系统,其程序使用空间如WindowsXP 32bit和NT系统,仅仅在2G~3G Byte之间,但千万门级的设计,在现在已经只能算中等规模设计,就是读入这样的设计,已经让当前的主流计算机系统狼狈不堪,仿真这样的设计,几乎到了无路可走的地步;3)在使用软件对集成电路IP进行设计时候,测试向量的生成可能非常困难。由于软件工具靠手工输入数据,在面临大量数据处理的设计时候,手工输入几乎成为了不可能的事情。典型的就是比如高清视频信号处理,每秒钟的仿真,需要输入的数据量达到了1920X1080X30X3=186624000 byte,也就是说接近200MB。对这么大量的数据,进行大规模软件仿真,已经不现实了。所以,配合新技术新方法的出现,大型商业设计往往采用以下思路进行:

2 软件设计工具改进思路

1)将大型设计尽量分割开,区分可靠设计和待完成设计,重点把时间用在待完成设计上。团队能并行进行设计工作。

2)采用可编程器件(FPGA),将芯片待开发的硅IP映射到可编程器件中,让可编程器件模拟硅IP的工作。

由于可编程器件并行工作,其运行速度远高于计算机软件仿真,还可以反复擦写可编程器件,使测试和调整变得更容易,还可以反复测试和验证修改结果。这个过程常常被称为FPGA原型验证。同时,可编程器件的软件还兼顾一个优点,就是可以通过软件编译结果,查看硅IP大致的资源使用状况,方便设计者调整硅IP流片形成的成本。比较典型的就是信号处理器的乘法器,在算法不断调整优化的情况下,乘法器常常占到设计1/3的晶体管,为了使得芯片成本更便宜,开发者常常想办法降低乘法器使用的晶体管,比如浮点乘法器改定点、高精度转低精度,用几个小型乘法器替代大型乘法器等。

目前,主流的设计,已经开始慢慢接受和采用上述开发手段。但是上述开发手段又出现了新的不匹配。例如IP的输入输出系统。把一个IP看成一组信号输入和输出的系统。在现实的物理世界,每个系统的输入输出通常是比较稳定的。如网络接口、无线广播信号、图像信号、声音信号等等。但采用可编程器件来模拟硅IP,则引起了新的问题,就是每次硅IP调整后,可能占用的可编程资源都不同,其运行速度和性能都将发生变化,从而导致对外部信号的处理能力出现不匹配的状况;再如原先能接受1.25M无线GSM手机信号,运行在80Mhz,修正后只能运行在75Mhz了,尽管内部处理过程逻辑正确、外部信号输入仍然不变,但FPGA仿真系统却无法提供更高性能而正确工作了。因此,要在FPGA里调试IP,并不是容易的事情,为FPGA原型系统提供准确的数据通路,变得非常重要。

3)嵌入式软处理器与待验证的IP相融合,将提高IP的骓证。

若将嵌入式软处理器与待验证的IP相融合,将为IP的验证带来极大的便利。主要原因为:

(1)软处理器本身与待验证IP可以共享时钟和其他FPGA资源,其运行速度很容易与待验证IP匹配;

(2)软件处理器的及其外围资源,比如IO接口、总线、存储器资源,都是动态可配置的成熟IP资源,其运行规模和实时性可配置而达到待验证IP的验证要求;

(3)软件处理器的外部接口资源,容易与PC系统连接,建立起PC资源与待验证IP之间的数据桥接通道;

(4)软处理器和PC资源相配合,能产生超越冯。诺曼体系结构的计算系统(在传统的冯。诺曼结构里,程序被固化在固定的存储空间,处理器按照固定的路径执行和跳转;而软处理器与PC资源相结合,则能随时用PC来更新软处理器运行的程序代码和功能),成为特殊的计算方案,非常有利于IP设计的反复迭代优化过程。

3 待验证的视频解码IP的骓证过程

以Xilinx公司的软处理器MicroBlaze为例,介绍一个待验证的视频解码(或者编码或者图像增强)IP的验证过程,其主要思路是:

待验证IP作为MicroBlazer软处理器的外设运行,其输入和输出由软处理器系统来调度和存储,由于软处理器系统在同一个FPGA中运行,因此能使用高带宽和实时性的外部直连内存池为待验证IP提供足够的实时性和带宽需求;同时由于软处理器本身可编程,就可以对待验证的IP输入输出需求进行模拟和匹配;软处理器系统也提供了与PC通讯的能力,因此PC上能方便地产生测试向量并解读软处理器系统发回的验证结果。当验证开始时,FPGA复位启动了软处理器,软处理器启动后将PC端生成的测试向量通过PC接口下载到FPGA控制的内存池当中;当测试向量下载完成,软处理器的程序再启动待验证IP,并根据待验证IP的需求不断将内存池中的测试向量发送给待验证IP,然后取得处理结果,仍然存放在内存池中;当测试向量完成处理,软处理器就暂停待验证IP,然后向PC发送验证结果;验证结果在PC上就会很容易被检查了。

1)将待验证IP转化为Microblazer能够控制的IP。

MicroBlaze能够以200Mhz的性能运行,其总线接口OPB/PLB基本能同步运行,8条FSL接口各自运行速度在600Mbps。而一般的待验证IP运行速度在50~80Mhz。这样我们就能将待验证IP转化为Microblazer能够控制的IP。

(1)将待验证视频IP接口中的全局时钟,Reset信号上加入控制电路,使得Microblazer通过寄存器操作能对待验证IP进行全局复位和时钟速度切换。

(2)将待验证视频IP的输入输出数据格式,转化为MicroBlazer总线系统接口,由于PLB总线速率较低,一般采用OPB总线,为了达到更大吞吐量,需要配置OPB总线的DMA模块,在需要更大实时吞吐量的场合,则采用FSL接口,与Microblazer实现指令级的同步。这样,在软处理器看来,待验证视频IP可以成为软处理器子系统的两个外设设备。

2)利用MicroBlazer资源进行IO资源转换。

由于软处理器系统与待验证IP系统在同一个FPGA内运行,我们要保证软处理系统能消除待验证系统的输入输出瓶颈。

(1)配置MicroBlazer的存储器接口为DDR2,64bit,533Mhz,4G容量,Xilinx软件能自动生成内存控制器。利用MicroBlazer的32位寻址能力,它能实现4GBye容量的总数据吞吐量作为缓存。就高清视频解码或者压缩来说接近20秒,其性能是8.5GB/s,已经能充分满足验证需求。

(2)配置MicroBlazer系统与PC通讯的资源,这里我们采用USB接口,能实现热插拔,我们采用成熟方便的Cypress68013接口芯片与系统挂接,其极限数据持续传输率在20MB/s左右。因此,比起通常的PC的IO能力用于验证,软处理器系统能轻易提高400倍的性能。

3)生成软处理器与待验证IP的硬件系统

Xilinx在转化用户逻辑到FPGA配置过程中,有一个网表生成的过程,其软处理器和周边资源以宏单元方式在网表阶段,与其他IP网表相结合,这样保证了其软处理和相关资源不会被盗用到其他FPGA平台或者用于ASIC设计。因此,我们可以在Xilinx的设计工具EDK里面,按照Wizard生成包含软处理器、总线、内存控制器等子系统,再将修正过接口的USB通讯接口和待验证IP作为设备连接在子系统上。只要相关接口符合规范,EDK软件就自动完成了网表合并,生成FPGA的硬件配置文件。

4)软处理器的软件编程

(1)软件处理器的软件主要完成3个模块。与PC的通讯模块,实现了内存池与PC的数据交换;待测IP的启动和终止;伺服待验证IP的数据输入输出。前两个模块相对稳定是通用模块,伺服待验证IP的数据输入输出则与待验证IP的特性有关。在待验证IP通过硬件桥接到标准软处理器总线的情况下,软件通用性和移植性就很好保证;若采用简单连接,则用软件来为待测模块提供输入输出特性,灵活性强,但系统运行性能低一些,移植性和通用性也弱一些。Xilinx的EDK工具能使得用户直接采用C语言和C++进行编程,并自动根据硬件配置设置好软件环境。因此调整软件是非常方便的。

(2)软件处理器的软件最好控制软件长度和复杂度。当软处理器软件代码长度能够在FPGA内部放下的时候,能取得最高的性能;其次,就必须映射到外部存储器完成,内存带宽影响到处理器的运行能力;最差就是采用外部的非易失性存储器来存储代码,运行速度最慢。因此建议主要模块在软处理器中完成,但负责调度的工作流程可以不在软件处理器内完成,而由PC软件远程调度。这样能实现更大的灵活性,并节省代码长度。

经验表明,FPGA原型验证方法比PC软件模拟进行IP验证,能提高系统运行速度1000倍以上;而如果采用FPGA进行原型验证,但输入输出结果直接依赖PC,不但效率大大降低,而且对IP的验证覆盖效果也因为待验证IP的IO性能瓶颈大大降低;嵌入式处理器系统的出现,结合了PC的灵活资源与FPGA的性能优势,大大改善了IP设计效果,尤其适合高性能高带宽要求的IP验证。

[1] 数据信号处理FPGA电路设计[M]. 高等教育出版社出版.

[2] FPGA嵌入式系统设计[M]. 电子工业出版社出版.

[3] XilinxFPGA开发实用教程[M]. 清华大学出版社出版.

猜你喜欢
乘法器输入输出内存
一种低开销的近似乘法器设计
Camtasia Studio高清视频输入输出原理及方法
笔记本内存已经在涨价了,但幅度不大,升级扩容无须等待
“春夏秋冬”的内存
铁路信号系统安全输入输出平台
一种高性能快速傅里叶变换的硬件设计
输入输出理论在大学英语听说课堂中的教学探索
输入输出视角下高职英语教学研究
内存搭配DDR4、DDR3L还是DDR3?
基于CPLD的简易串行数字乘法器