中文 英语

AI系统中的HBM问题

加速记忆会带来新的挑战,特别是当记忆是其中的一部分时。

受欢迎程度

所有的系统都面临着限制,当一个限制被消除时,另一个被隐藏的限制就会显现出来。这款打地鼠游戏很可能会在AI系统中进行高带宽内存(HBM)。

大多数系统受到内存带宽的限制。计算系统通常保持了内存接口性能的增加,几乎没有匹配计算性能的增益,这意味着内存传输速率是大多数系统中的瓶颈。反过来,这限制了可以使用的计算量。如果通过任何大量去除该瓶颈,则可以增加计算总量,电力问题上升到表面,产生的热量可以移动到问题空间的前面。

内存问题
计算和内存之间的关系是如此根深蒂固,以至于作为一个行业,我们很少质疑它。缓存能提高程序的性能吗?我们希望答案总是“是”,但这并不总是正确的。缓存的好处假定某些内存访问行为不是普遍正确的。逻辑仿真是当缓存小于设计的内存表示时,缓存会降低性能的一个例子。这当然不是唯一的例子。

多年来,内存开发延续了许多关于数据访问模式的假设。例如,DDR标准不断增加每次访问访问的块大小,因为这是增加总带宽的唯一方法。

其中部分是界面的集中,是克服内存本身的基本限制。“动态随机存取记忆体DRAM仍是一种模拟设备,我们在DRAM设备内部处理的时序参数仍与20年前的设备非常相似,”DRAM产品营销集团总监马克•格林伯格表示节奏IP组。“我们所做的是改变物理层,使其更快。”

如果内存本身不能更快,就必须创建多个并行读取的银行,然后尽可能快地传输数据。这是假设数据局部性的,如果不是这样,这些内存传输将变得越来越昂贵。这是人们谈论近内存处理的原因之一,因为它可以大幅减少需要传输的数据量。

但是,如果数据能够更接近于处理,并且访问大小与问题一致,那么这个概念也适用。“挑战在于,它必须具有商业意义,让那些希望尝试和采用它的人能够接受,”高盛的杰出发明家、研究员吴宇森(Steven Woo)表示Rambus。“它还必须具有技术意义,能够重写应用程序或转换你现有的应用程序。将现有的应用程序转换成一种新的体系结构,并不是那么简单。原则上这是一件好事,但在很多情况下,处理的是最小的部分,而不是数据。挑战是,你已经有一个基础设施,你已经在工作,但没有做到这一点。还有一个问题是,这个行业有多愿意支持这种模式?”

当我们处理新的应用领域时,许多这些限制都不存在,因为现有解决方案不太根深蒂固。其中一个示例是AI应用程序,其中可以通过采用高带宽存储器(HBM)来改变计算/存储器方程。


图1:HBM集成在一个包中。来源:Rambus。

HBM问题
HBM对底层内存技术没有提供根本的改变。HBM的核心是DRAM。因此,它遭受了与通过DDR访问DRAM相同的所有限制和问题,还有一些附加的缺点。

  • DRAM讨厌热,热使其操作变得难以预测。在HBM解决方案中,DRAM被移到了更靠近主热源——处理器的地方。这个问题是如此严重,以至于HBM最初被设想为一种3D堆叠技术,内存将被放置在处理器芯片上,但由于其引发的热问题,这个想法不得不被搁置。因此,2.5D包装解决方案成为了前进的道路。
  • 能力:与通过DDR访问DRAM相比,HBM的容量非常有限。虽然HBM的容量正在增加,但它永远也赶不上外部内存,因为外部内存也能够利用包内的每一项进步。
  • 成本: HBM要求插入器或桥梁这仍然是一项相对较新的技术。一个插入器需要用硅制造基本上就是PCB的东西。

能力
我们需要深入了解HBM的一些局限性。该公司高级产品营销经理布雷特•默多克表示:“HBM的运作方式是一个相当固定的配置synopsys.。“它不像一个标准的DDR接口,你可以有多个通道的DDR和多个级别,你甚至可以构建你想要的任何系统。HBM的定义方式是立方体,它是刚性的。您得到一个立方体,它是4个设备高,8个设备高,12个设备高,使用HBM3它将添加16个设备高。在这个立方体中,你可以得到一个定义的通道数——16个数据通道,128位宽,32个数据通道,64位宽。他们称它为伪信道当他们降到64位宽的时候。所以你有一定数量的数据通道。”

另外,您不能添加任意数量的立方体。“容量受到几件事的限制,”格林伯格说。“物理层通过一个硅干涉器,其长度限制在几毫米。如果有必要,你也许可以再延伸一点。到目前为止,所有的实现都限制了该接口的物理距离,从而限制了您可以在SoC周围安装的HBM die的数量。在一个极端的情况下是8,尽管我还没有见过一个应用程序拥有超过4个HBM堆栈。所以HBM不能得到和DDR一样的密度。HBM的能力要过很多年(或者可能永远不会)才能与DDR的能力相媲美。”

因此,依赖于大量数据的应用程序别无选择,只能坚持通过DDR接口访问DRAM。

带宽和功率
内存传输通常会占系统消耗的大​​部分功率。然而,它并没有得到关注,因为电力不会在死亡本身内消耗。因此,它不需要相同的分析水平和问题缓解。

从一些数据来看,GDDR5X的速度将是普通GDDR5内存的两倍,在未来,GDDR5X的速度有望达到16Gbps,带宽达到72GB/s。

其他内存标准则停滞不前。Synopsys的技术营销经理Vadhiraj Sankaranarayanan说:“我们有JEDEC今年早些时候发布的LPDDR5,而DDR5也将很快发布。”“这些记忆将速度提升到了比它们的前辈更高的水平。对于移动端LPDDR4和dx,最高速度为4267Mb/s,而LPDDR5将达到6400Mb/s。同样,对于企业服务器市场,DDR4(事实上的内存技术)的运行速度可达3200Mb/s,而DDR5的最高速度可达6400Mb/s。所以LPDDR5和DDR5的最大速度都将达到6400Mb/s,这是一个相当大的速度提升。”

HBM的表现如何?Synopsys高级产品营销经理Brett Murdock说:“现在,最快的HBM系统运行速度为3200 Mb/s,这是HBM2e的标准数据速率。SK海力士发布公告称,他们支持3600Mb/s的HBM2e。下一个标准HBM3将于2022年发布,其数据速率将达到6400Mb/s。HBM有很多跑道可以走得更快。因为它是一项新的、未经验证的技术,也因为它更昂贵,所以它的数据传输速度较慢,与其他技术相比,它仍然是一种利基技术。”

HBM的巨大优势
话虽如此,HBM与外部内存相比有一个巨大的优势。访问时间和与此相关的能力只是外部内存值的一小部分。AMD估计GDDR5可以提供每瓦10.66GB/s的带宽,但HBM可以达到超过35GB/s的带宽。

今天的HBM产品具有4/8GB容量,提供307GB/s带宽。这已经大大超过了GDDR5x的预期。HBM2支持307GB/s的数据带宽,而4根DDR4内存条的数据带宽为85.2GB/s。下一个版本,HBM3,有4Gbps的传输速率和512GB/s的带宽。

另外,内存配置也不一样。可以利用访问的不同组织来获得进一步的好处。数据分级对于许多应用程序都很重要。Synopsys的Sankaranarayanan说:“GDDR拥有更小的通道——32位,而HBM只有128位。”“对于矩阵乘法和其他有大量流数据的应用程序,HBM将比GDDR更有效,因为您可以以连续的方式获取数据。为了获得相同的带宽,比较GDDR和HBM,您将需要许多GDDR dram,这就转化为系统级的复杂性。”

这增加了其他问题。Synopsys的Murdock补充道:“系统设计师面临的挑战是,如何最好地利用系统中的渠道或伪渠道。“他们必须解决如何处理它们之间的交错,以最大限度地提高记忆效率。”

新问题
这是如何创造一个新问题的?DRAM核心的静态功率绘制将基本上保持不变,并且将以容量增加。HBM在每个瓦特的比特方面具有更高的功能,并实现更高的传输速率。如果存储器以满体使用存储器,总功率和能量可能会显着增加。

然后我们看看对计算的影响。“所有设计的主要挑战是他们可以投入大量的计算,他们可以增加更多计算,更平行,但实际上是一个计算和内存问题,”Synopsys的战略营销经理Ron Lugman说。“系统受到带宽并将该瓶颈与记忆的混淆。”

那么当这种限制消失后会发生什么呢?“HBM在CPU和内存之间提供了前所未有的带宽,”Cadence的Greenberg说。“HBM2E提供2.4Tbit/s带宽,并将进一步增强规范。通过使用基于干扰的技术,每位的能量保持在较低的水平,但是能量——每位能量和每秒传输的比特数的乘积——在每秒太比特的传输速率下可能相对较高。”

这开始引起一些新的问题。该公司高级区域技术经理Calvin Chow表示:“其中之一就是考虑HBM I/ o的电源噪音影响。有限元分析软件。“尽管每针的功率更低,但有更多的I/ o并行触发,导致电流消耗显著增加。虽然信号轨迹较短,但由于大量I/ o的同时切换,仍然存在噪声问题。”

传输速率的提高意味着处理器可以在更多的时间里保持忙碌。“其中有矩阵乘法部分,但也需要一些向量处理,”Synopsys的Lowman说。“这是一个异构计算环境,所以在这些芯片组中需要不同类型的处理器。将数据传递最小化会降低功耗。尝试建筑探索是有帮助的。”

今天的大多数AI芯片依靠内置静态存储器,这些芯片受到网线尺寸的限制,这意味着如果能够从外部内存获得足够的带宽,比如HBM提供的,SRAM就可以减少,释放的空间中可以包含更多的处理。

有必要在计算和内存带宽之间找到新的余额点,成为系统级设计问题。许多问题都会相似,但尺度不同。“做必要的分析成为一个挑战,”ANSYS高级产品经理Karthik Srinivasan说。“最大的挑战之一将是模拟能力。当我们谈论GDDR时,频道为32或64位宽,而在HBM中,您正在查找每个堆栈的128位通道。您必须与所有信号迹象一起模拟所有信号功率输出网络,从一个晶片穿过硅过孔到插入器痕迹到父逻辑晶片。仿真需要一个优雅的工作流程来构建整个信道,然后你需要实际做必要的仿真的能力,并确保没有信号完整性问题。”

HBM创造美好未来。“随着技术的不断成熟,HBM的发展将继续沿着进化的道路进行,”温迪·埃尔萨瑟(Wendy Elsasser)说手臂的研究组。“随着性能和能力改进,HBM将成为最先进的ML和分析加速器的推动者,以及其他市场的竞争者,如HPC。管理电源(最佳电源中立)和热耗散将继续是焦点,以及为高数据完整性用例定义强大的RA(可靠性,可用性,可维护性)解决方案。“

结论
HBM提供的带宽比以往任何内存系统都要大得多,并且在功率/位级别上比外部DDR内存系统要好一个数量级。目前还不知道系统将如何利用这种新功能。

它还将显著提高总计算吞吐量,但这是以牺牲内存子系统和计算的总功率为代价的。为这些系统提供足够的电力和足够凉爽的温度,以确保DRAM内存的安全操作环境,可能成为一个挑战。

有关的故事
HBM知德赢vwiniOS识中心
德赢娱乐合法吗特别报告,视频,顶级故事,白皮书,更多关于HBM
HBM2E: E代表进化
新版本的高带宽存储标准承诺更大的速度和馈电,仅此而已。
接下来是高带宽内存
打破记忆墙的不同方法。



发表评论


(注意:此名称将公开显示)