实现高性能浮点设计

  • 格式:pdf
  • 大小:709.21 KB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

FFT 是众多 DSP 应用(包括无线和雷达)中的通用构造模块。高精度雷达系统需要更 大动态的浮点数字精度来检测低可观测目标。Arria 10 浮点 FPGA 和 SoC 实现了这种更 高精度的处理,从而提高了系统动态范围,减少了信号损失,提高了信噪比。此基准测 试使用英特尔®开发的多相 FFT,可以按比时钟速率更快的速率对数据进行采样。多相 FFT 基准测试作为一种基于模型的设计,使用在英特尔 FPGA 专用 DSP Builder 中可用 的可编程 FFT IP 内核,在 MathWorks MATLAB*/Simulink* 软件中得以实现。3
M20K 模块(包括 SIL)
508 (24%)
Leabharlann Baidu
结温 (C)
64
功耗(瓦特)
26
功率效率(每瓦 GFLOPS)
40
§ 使用设计空间探查 (DSE),其中 OPTIMIZATION_MODE 设置为“Aggressive Performance”(强劲性能)
表 1. 三种多相 FFT 配置下的资源利用率和测试结果
1,200 1,000
800
1,037
每瓦特 GFLOPS 874
GFLOPS 832
600
400
200 40
0
4,096
36
16,384 FFT 大小
32 65,536
图 2. 4K、16K 和 64K 的多相 FFT 配置下功率效率 (每瓦 GFLOPS)和持续 DSP 性能 (GFLOPS) 对比
白皮书| 实现高性能浮点设计
32 32
输入寄存器
32
32
IEEE 754
单精度乘法器
32
流水线寄存器
流水线 寄存器
流水线 寄存器
IEEE 754 单精度加法器
32
输出寄存器
图 1. Arria 10 器件的单精度浮点 DSP 模块模式
设计方案
我们使用包含了产品型号为 10AX066N2F40E1SG、速度等级为 -1 (0.95 V) 的量产器件的 Arria 10 SoC 开发套件,在 硬件中测量了三种多相 FFT 配置(4K、16K 和 64K)下的性能 指 标 。 该 软 件 包 包 括 MathWorks MATLAB/Simulink 软 件 R2014a、英特尔 FPGA 专用 DSP Builder 16.0 版以及英特尔 Quartus® Prime 专业版软件 16.0.2。
设计 2 16,384 16 390 2 761,719 874 89,602 (36%) 1,384 (82%) 617 (29%) 61 24 36
设计 3 65,536 32 325 1 158,691 832 113,657 (45%) 1,616 (96%) 1,175 (55%) 63 26 32
多相 FFT
目录 简介 ........................................................ 1 性能基准 ................................................ 1 多相 FFT ................................................ 1
性能基准
为了演示 Arria 10 器件的单精度浮点处理能力,本文探讨了两种数字信号处理 (DSP) 应用: • 多相快速傅里叶变换 (FFT)
• 单精度通用矩阵乘法 (SGEMM)
基于对以每秒浮点运算次数 (FLOPS) 测量的持续 DSP 性能和以每瓦 FLOPS 测量的功率 效率的分析,Arria 10 器件在这两个基准上实现了性能的显著提升。
白皮书| 实现高性能浮点设计
SGEMM
SGEMM 是在线性代数、神经网络和机器学习应用中常用的操作 。利用面向开放计算语言 (OpenCL™) 的英特尔 FPGA 软件开发套 件 (SDK) 开发的 SGEMM 设计§展示了一种实现高效数据移动的计 算架构。可配置的路由免除了对结果队列进行存储的需要,节省 了数据等待时间。图 3 显示了在二维 (2D) 处理单元 (PE) 阵列中 计算和数据移动的路由优势。两个一维 (1D) 纵向输入阵列各自 调用负载A 和负载 B,一维出口阵列将横向输入阵列数据发送至 输出C。该结构将计算内核与输入阵列隔离使存储器存取控制变 得高效。PE 和主机拥有自治功能;通道可高效地移动数据,最 大程度减少扇出。面向 OpenCL4 的英特尔 FPGA SDK 将 GEMM 算法自动转换为可重构硬件,以执行点积运算。图 4 显示了含累 积的四矢量点积。
测试结果
多相 FFT 基准测试表明, Arria 10 FPGA 可以为计算密集 型应用(例如高精度雷达)提供超过每秒 1 tera 次浮点运 算 (TFLOPS) 的持续浮点 DSP 性能,如图2所示,在 4K FFT 配 置下,实现约为每瓦 40 GFLOPS 的功率效率。表 1 显示了三种 多相 FFT 配置下的性能指标和资源利用率。
白皮书
FPGA
实现高性能浮点设计
利用 Arria® 10 FPGA 和 SoC 发挥高性能浮点处理能力
作者
Amulya Vishwanath
DSP 产品营销经理 英特尔可编程解决方案事业部
简介
5G、机器学习、数据中心和高精度雷达等新一代计算密集型市场需要具有增强型浮点 处理能力的 FPGA 和 SoC 来提高数字精度、降低功耗。Arria® 10 FPGA 和 SoC 是业界 首款在专用硬核电路中自然支持单精度浮点数字信号处理 (DSP) 模块模式以及标准精度 和高精度定点计算的 FPGA 和 SoC。单精度浮点 DSP 模块模式遵循 IEEE 7541 标准,由 IEEE 754 单精度浮点加法器和 IEEE 754 单精度浮点乘法器组成,如图 1 所示。全新 Arria 10 单精度浮点 DSP 模块模式可实现浮点算法,在运算效率和功耗方面可与定点运 算媲美。Arria 10 FPGA 和 SoC 中的这种 DSP 模块架构可带来多种生产率优势2,使其 成为高性能计算应用中图形处理单元 (GPU) 强有力的替代选择。
SGEMM.................................................. 3 结论 ........................................................ 4 参考文献 ................................................ 4 获取更多信息的方法 ............................ 4
特性
设计 1
FFT 大小
4,096
平行相位数量
16
f最大值 (MHz) §
360
实例数量
3
吞吐量(每秒 FFT)
4,218,750
持续 DSP 性能 (GFLOPS)
1,037
自适应逻辑模块 (ALM)(包括环 [SIL] 中的系统) 113,096 (45%)
DSP 模块(包括 SIL)
1,687 (100%)