吉林大学学报(信息科学版) ›› 2021, Vol. 39 ›› Issue (4): 445-450.
梁洪卫1 , 白鹏程1 , 陈建玲2 , 孙勤江2 , 陈明虎1 , 薛祥凯1 #br#
LIANG Hongwei1 , BAI Pengcheng1 , CHEN Jianling2 , SUN Qinjiang2 , CHEN Minghu1 , XUE Xiangkai1
摘要: 卷积神经网络(CNN: Convolutional Neural Network)计算量较大, 为达到快速处理数据的目的, 需借助硬件手段进行加速。 因此, 利用现场可编程门阵列(FPGA: Field Programmable Gate Array)并行计算的架构特性, 提出了基于 FPGA 的并行计算加速策略。 该策略采用的具体方法包括: 合理分布片上内存与片下存储, 降低数据读取延迟; 采用多通道并行流水结构加速卷积操作; 通过卷积层数据共享减少访存延迟。 利用 PYNQ-z2 开发平台加速卷积神经网络 YOLOv2, 最终实现目标物体的检测识别, 该设计的处理能力为27. 03 GOP/ s(Giga Operations Per Second, 10 亿次运算/ s), 与 CPU(E5-2620V4) 相比, 处理能力是 CPU 的 6. 57 倍, 功耗是 CPU 的 3% 。
中图分类号: