姜明飞 冯凤阳 冯赟 魏天东 陆山
摘要:随着神经网络算法的迅猛发展,将其部署在边缘设备上面临着功耗和计算时间的制约。针对YOLOv4-Tiny算法在资源受限的边缘端部署困难等问题,文章提出了一项软硬件协同优化策略。为了提升硬件资源使用率和推理效能,文章采用了输入输出通道与权重通道的双重缓冲机制,并在此基础上,结合双缓冲结构与强化的高度并行流水线设计,开发了一种基于Zynq FPGA硬件平台的目标检测加速系统。实验结果显示,该系统在Zynq KV260平臺上的运行功耗仅为3.712 W,单帧推理时间缩短至0.43 s,与现有的FPGA硬件加速器平台相比,实现了更优的性能表现。
关键词:YOLOv4-Tiny;目标检测;卷积神经网络;硬件加速系统;现场可编程门阵列
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)10-0011-04