当前位置:主页>物联网

物联网数据需求下,革命性提升存储器的性能

作者:赛灵思Mike Wissolik、Darren Zacher  来源:中国电子商情

发布时间:2017-08-31

0k

随着物联网的逐步扩张和完善,数据将变得越来越庞大,存储器的需求也将变得至关重要。数据中心、有线应用及其它带宽密集型应用所需的性能,远远高于传统的DRAM技术。和市场上已有的存储器相比,HBM存储器在性能、功耗和尺寸上,能为系统架构师和FPGA设计人员带来前所未有的优势。

行业趋势:带宽和功耗
过去十年里,并行存储器接口的带宽功能进步缓慢——如今FPGA中支持的最大DDR4数据速率仍然不足2008年DDR3数据速率的2倍。但就在这段时间内,存储带宽需求增长远远超过了DDR4的性能。考虑以太网的发展趋势:从DDR3时代开始,以太网端口速度从 10Gb/s提高到了40Gb/s,然后提高到100Gb/s,现在到了400Gb/s——原始带宽增加了10倍以上。类似的趋势也存在于高性能计算和视频广播市场。FPGA机器学习DSP容量已从最大型Virtex-6 FPGA 中的2000个DSP增加到了现在的最大型VirtexUltraScale+器件中的超过12000个DSP 元件。视频广播行业已经从标准清晰度过渡到2K,现已达到4K,很快将达到8K。这些应用领域中,所需带宽与DDR4 DIMM能提供的带宽之间都存在明显的差距。见图1。

图1  存储器带宽要求比较

为了弥补带宽差距,系统架构师若要在这些应用中使用DDR4,就必须增加系统中的DDR4 元件数量——这不是为了增加容量,而是为了在FPGA与存储器之间提供所需的传输带宽。四个DDR4 DIMM以2667Mb/s的数据速率运行,所能实现的最高带宽为85.2GB/s。如果应用所需的带宽超过这个值,那么DDR方案就会因功耗、PCB尺寸和成本问题变得不可行。不难看出,这些高带宽应用中需要一种新的DRAM存储方案。

从能效的角度重新审视这十年时间,很显然这种不惜一切代价“提高性能”的时代已经结束。MDPI发表的一篇文章中预测,到2030年,根据当时数据中心设备的实际能效来看,仅数据中心就能消耗3%-13%的全球能源供应。设计人员极为重视能效性能,尤其在这个多兆瓦级数据中心时代。他们还重视高效散热解决方案,因为可靠的通风和冷却需要很高运营支出——总能耗的三分之一。因此,供应商如果能以较低散热量实现最高单位成本计算性能和单位功耗计算性能,则其解决方案会极富吸引力。

DDR4 DIMM的替代方案
为了弥补带宽差距,半导体行业引入了多种巧妙方案来替代DDR4。见表1。最近,业行内兴起了基于收发器的串行存储器技术,例如混合存储立方体(HMC)。这些技术提供更高的存储器带宽,能够在单个芯片中提供相当于几个DDR4 DIMM的存储带宽——但需要将多达64个超高速串行收发器分配至存储器子系统中。

高带宽存储器简介
通过移除PCB,HBM能以不同方式解决存储器带宽问题。HBM利用硅片堆叠技术将FPGA 和DRAM并排放在同一封装内。这样,采用相同封装的DRAM结构能够实现多个Tb/s的带宽。与其它存储器技术相比,该技术使设计人员能够实现带宽的大幅度跨越式提升。

HBM器件采用台积电(TSMC)的业界标准CoWoS(chip-on-wafer-on-substrate)堆叠硅片组装工艺进行组装。赛灵思已经在过去三代高端Virtex器件中采用这种组装技术,因此该技术已得到了证明。CoWoS起初由赛灵思率先采用,作为硅片堆叠互联技术应用于28nm Virtex-7 FPGA 中。CoWoS组装工艺将有源芯片放在无源硅中间层上。硅与硅的堆叠结构允许通过非常小、分布非常密集的微凸块来连接相邻的硅器件——这里是将FPGA 连接到 DRAM,之间有成千上万的信号。见图2。


采用CoWoS组装工艺,与典型的DDR4 PCB走线相比,不仅连接HBM的DQ走线总长度不足3mm,而且电容和电感(LC)寄生效应极低。这样,HBM I/O结构的芯片面积比典型外部 DDR4 I/O 结构的芯片面积小20倍。HBM接口非常小,以致于单个HBM堆栈接口就包含1024 个DQ引脚,而且I/O芯片面积仅为单个DDR4 DIMM接口I/O芯片面积的一半。具有1024个DQ引脚,而且低寄生效应,这样能实现非常高的HBM堆栈输入输出带宽,而时延与DDR4相近。

对于采用HBM的FPGA,所使用的外部DDR4的数量与容量要求有关,与带宽要求无关。这样所用的DDR4组件数量大大减少,为设计人员节省了PCB空间和功耗。有些情况下根本不需要外部存储器。

赛灵思HBM解决方案简介
如图3所示,VirtexUltraScale+ HBM器件通过集成赛灵思合作供应商提供的业经验证的 HBM控制器和存储器堆栈,可使用与已投入量产的赛灵思16nm UltraScale+ FPGA系列相同的构建块来构建。利用经过量产验证的CoWoS组装工艺集成HBM,通过标准的Virtex FPGA 组装流程将基础FPGA组件与HBM简单地堆叠在一起。该方法消除了产能风险,因为基础FPGA系列器件中使用的所有芯片、IP和软件都经过了量产质量级认证。


图3  SSI技术与支持HBM的XCVU37P

VirtexUltraScale+ HBM 器件中新增加的模块只有 HBM、控制器和加速器的缓存一致性互连 (CCIX) 模块。收发器、PCIe® 的集成模块、以太网、Vivado Design Suite等均已经得到量产质量级认证,使设计人员能够集中精力充分发挥HBM的特性与功能,使产品在市场中脱颖而出。

时序收敛创新
由于VirtexUltraScale+ HBM器件的基础已经得到验证,因此赛灵思工程师可将创新工作重点放在优化 HBM 存储器控制器上。HBM与FPGA集成的过程中,最明显的挑战在于有效利用HBM提供的所有存储器带宽。赛灵思在这些器件中提供了几大关键而独特的创新特性,以帮助客户获得HBM堆栈最高可用的输入输出带宽。

扩展的AXI接口
第一个创新是AXI接口,用户可通过该接口连接存储器控制器。典型的集成IP与紧挨着嵌入式IP 模块的可编程逻辑进行接口连接。对于大部分模块来说这已经足够,因为本地路由的汇聚带宽足以从该模块输入输出数据。然而,进出HBM的带宽非常高,因而有必要创建新的接口结构类型,以便扩展到可编程互连。该结构明显增加接口表面积,极大提高用户 AXI接口的可用互连能力,可实现3.7Tb/s的运行速度。见图4。

图4  扩展的AXI接口

灵活寻址
第二个创新是HBM存储器控制器中包含的灵活寻址功能。HBM堆栈将存储器地址空间分成伪通道。这意味着任何给定的HBM DQ位都被分配到特定的存储器地址区域。因此,如果设计人员想把数据写入存储地址,只能通过与该地址关联的伪通道来写入数据。

如果设计人员想把HBM堆栈视为单个连续存储器,或者跨伪通道边界将它们进行分区,那么这种限制并不理想。为了克服这种局限性,赛灵思在嵌入式存储器控制器中包含了一个 AXI 交换网络。这个交换网络能够根据地址从任意源AXI接口将存储器读和写路由到任意 HBM 伪通道。该功能称为灵活寻址,因为它允许任意用户AXI接口访问任意HBM存储器地址。

对于想针对特定存储器访问形式来优化存储器控制器的用户来说,也可以绕开灵活寻址。见图5。

图5  AXI接口(到用户逻辑)和 HBM 伪通道(到 HBM 堆栈)

灵活寻址具备多个重要优势:

1.让用户能够完全控制对HBM堆栈的寻址。由于交换网络能路由整个器件,因而用户无需遵守HBM 固有的严格伪通道要求。32 个AXI接口都能读写任一HBM堆栈上的任意 HBM伪通道,使用户能完全控制地址分区,无需考虑伪通道边界。

2.允许设计人员根据设计的时序收敛情况使用最方便的AXI接口进行连接。例如,向存储器写入数据的逻辑无需与从存储器读取数据的逻辑处在相同位置。在基本流量管理器实例中,数据包写入和数据包读取模块的AXI接口均可处在距离模块最近的位置。见图6。


图6  典型的以太网桥接设计

利用灵活寻址,可将数据包写入和数据包读取逻辑分开,以避免争夺路由资源。

4.大量减少可编程路由资源。存储器控制器中有很多AXI总线,宽度均为256位。因此,如果集成存储器控制器中提供32条在器件中水平路由的通道,就能为FPGA设计人员释放可观的资源,以便用于具有更高价值的功能。AXI交换网络如果完全在FPGA逻辑中实现,会占用250000 个LUT。如果利用灵活寻址,则整个交换网络无需使用LUT。

5.与伪通道方案相比,允许设计人员更高效地使用AXI接口。HBM伪通道具有典型的 DRAM低效特征,例如激活、预充电和刷新延迟。尽管存储器控制器确实通过重新排序来提高效率,但是DRAM不可能达到100%高效。然而,单个AXI接口能够将多个伪通道访问实现流水线,因此获得高于HBM伪通道效率的AXI接口效率。在众多应用中,这意味着所需的AXI接口数量更少,能够释放更多可编程资源。

能效和热管理方面的创新
赛灵思客户非常重视能效性能。TSMC 16nm FinFET+工艺支持双电压运行,使客户能够选择最高绝对性能或者最高每瓦特性能。利用此工艺,赛灵思能够提供业界最低内核电压,将动态总功耗降低30%,提供行业领先的收发器技术,以及在FPGA中混合多种集成模块,例如以太网、Interlaken和PCIe。

HBM技术使赛灵思能够取消外部存储器接口,用中间层上的走线取而代之,从而将节能设计推向新高度。这样做可降低存储器接口电容,从而降低多Tb/s存储带宽所需的功耗,将每比特功耗降低5倍。

热管理方面,赛灵思提供多种独特技术,用以抵消在集成HBM之后产生的不可避免的热密度增加问题。赛灵思的VirtexUltraScale+ HBM器件采用散热片就绪型、无盖、裸芯片、倒装芯片封装,能显著改善散热性能,缓和更高热密度问题。这些无盖封装已用于其它VirtexUltraScale+ FPGA,并在大多数使用案例中将散热设计改善10°C左右。这实现了更高的计算性能上限和/或更低的散热设计成本。见图7。


图 7 :有盖 vs 无盖倒装芯片封装

应用实例:智能网络接口卡
HBM 与高端可编程逻辑的联姻在网络、数据中心、音频/ 视频广播、雷达、测试与测量等众多应用领域中发挥出巨大优势。其中一种应用是智能网络接口卡或智能 NIC。智能 NIC 包含:一个或多个网络端口,一个连接CPU的接口(例如PCIe 或CCIX),要加速的网络功能(例如 OVS、GZIP、IPSec、SSL等),以及用于数据包存储和键值查找的存储器。传统的智能 NIC 需要在 PCB 上安装四个72脚DIMM,以提供足够的存储器带宽来服务两个100G端口。连接四个DIMM 需要驱动624个I/O,会显著增加总功耗。容纳四个DIMM 需要全高全长 (FHFL) 尺寸,会带来一系列功耗和空间效率挑战。

如果在采用HBM的VU35P中实现相同方案,则尺寸能缩减到半高半长 (HHHL),因为外部DRAM元器件被HBM堆栈取代(见图8)。VU35P方案(图9)的功耗约为 50%,因为避免了DIMM接口的I/ O功耗。若使用包含两个HBM堆栈的VU35P器件,那么得益于 HBM带宽,查找速度可提升3倍,而且搜索条目是市场上的TCAM的2倍。除了最终解决方案的这些固有优势外,HBM方案还能简化PCB并降低存储器子系统的复杂性,从而实现更简单、风险更低的设计流程。


图8  现有基础架构

图9  VirtexUltraScale+ HBM解决方案

结论
未来很多系统会超出DDR所能提供的带宽,HBM作为最佳选择,能大幅提高存储器带宽,并实现最佳的单位功耗性能。赛灵思VirtexUltraScale+ HBM器件提供恰当的存储器带宽和可编程计算性能组合。凭借这些器件,赛灵思重点帮助设计人员充分利用HBM的性能,同时将经过验证的芯片工艺和架构、组装技术以及设计工具作为设计开发的基础。设计人员和系统架构师都会领略通过VirtexUltraScale+ HBM 器件将HBM功能引入系统所带来的优势。

0k