中文 英语

内存计算与近内存计算

随着规模效益的减少,新的方法正在竞相吸引人们的注意。

受欢迎程度

新的内存为中心的芯片技术正在努力解决当今系统中的带宽瓶颈问题。

这些技术背后的想法是使内存更接近处理任务,以加快系统。这个概念并不新鲜,之前的版本也不尽如人意。此外,目前还不清楚这些新方法是否会达到预期效果。

以内存为中心是一个具有不同定义的广泛术语,尽管最新的热门话题围绕着两种技术——内存计算和近内存计算。近内存将内存和逻辑集成到一个先进的IC封装中,而在内存中使处理任务靠近或在内存中。这两种技术都是有效的,可以用于不同的应用程序。

内存和近内存都旨在提高当今系统的数据处理功能,或推动神经网络等新架构的发展。对于这两种方法,处理器处理处理函数,而内存和存储存储数据。

在系统中,数据在内存和处理器之间移动。但有时这种交换会导致延迟和功耗,这有时称为内存墙。

该行业正在研究解决方案。美光科技高级计算解决方案副总裁Steve Pawlowski表示:“每个人都在努力开发一个性能达到100太ops的芯片。”“但要获得芯片的效率,你必须同时做几件事。这意味着必须尽快将数据输入芯片,并尽快将数据取出。”

这就是内内存或近内存计算适合的地方,使内存更接近或将其集成到处理任务中以提高系统性能。这两种技术之所以具有吸引力,还有其他原因——除了传统的芯片缩放,它可能给业界提供另一种选择。

在扩展方面,其理念是让设备更小,每个节点的功能更多。但是芯片的扩展变得越来越困难和昂贵,特别是对逻辑设备和动态随机存取记忆体

不过,在某些情况下,这些以内存为中心的体系结构使用不总是需要高级节点的芯片执行不同的任务。内存计算和近内存计算都不能取代芯片扩展,但它们确实提供了其他选择。

什么是内存计算?
在今天的系统中,传统的内存/存储层次结构很简单。为此,SRAM.是集成到处理器缓存,它可以快速访问经常使用的程序。DRAM用于主存,是独立的,位于一个双列直插式内存模块(DIMM)。硬盘驱动器和基于nand的固态存储驱动器(ssd)用于存储。


图1:存储器/存储层次结构。资料来源:林研究

基于此层次结构,系统面临网络上的数据爆炸。例如,据思科称,预计IP流量预计每月达到每月396个exabytes(EB),2017年每月122个EB。

数据增长速度正在加快。“如果你看看其中的一些驱动因素,你会发现有移动应用程序。当你进入的时候需要更多的数据5G网络。您有更多的视频和更高的屏幕解决方案,“Micron副总裁Scott Gatzemeier副总裁Scott Gatzemeier在最近的IEDM会议上的一个小组。“然后,如果您在使用面部识别和身份验证的手机上查看一些AI应用程序,则它不仅可以驾驶更大的内存,而且需要更快的内存。”

数据爆炸对系统产生影响。“随着我们世界中的数量从服务器内部到数百个Tberytes的数据量增加,我们面临着将数据从SSD移动到CPU的问题。这将是一个能源问题,我们将遇到几个系统瓶颈,“Xilinx的数据中心单位副总裁曼文·Muthal说,在小组。

在讨论会上,SK Hynix DRAM设备和过程集成负责人Jung Hoon Lee总结了这个问题:“数据的增长比计算性能更快。我们需要一些中间层来解决这个问题。”

解决此方法的一种方法是将处理器,内存和其他设备集成在传统的冯Neumann建筑。扩展这些设备将提供更好的性能,但这会增加成本和复杂性。

另一种方法是向这些新的和近记忆架构移动。“我们正在看到整合新的记忆技术的趋势,”先进技术开发公司副总裁杨潘说林的研究。“近记忆计算和内存计算的日益增长的趋势将推动整合逻辑(数字和模拟)和新存储器的新架构。”

什么是内存计算?今天,没有单一的定义或方法。

“根据您提出的谁,您将获得对内存计算的不同答案,”内存技术总经理Gill Lee表示应用材料。“有一些产品正朝着这个方向发展。内存中计算正在使用现有的内存技术进行。这些产品是专门为这些应用程序构建的。这将推动内存应用程序进一步细分。”

术语“内存计算”并不新鲜,可以以各种方式使用。其中有:

  • 数据库使用内存计算进行缓存和其他应用程序。
  • 芯片制造商正在开发芯片技术,为神经网络和其他应用程序处理内存中的处理任务。
  • 有一些新奇的方法正在进行中,即神经形态计算。

多年来,Oracle、SAP和其他公司一直在数据库领域使用内存计算。数据库在计算机中存储和访问。在传统的数据库中,数据存储在磁盘驱动器中。但是从驱动器中访问数据可能是一个缓慢的过程。因此,数据库供应商已经开发出了在服务器或子系统的主存储器中处理数据的方法,而不是在磁盘驱动器中。这反过来又提高了交易的速度。

这是一种解释复杂话题的简单方法。尽管如此,在数据库世界中,这被称为内存计算或内存数据库。

在数据库世界中,内存计算的使用基于经典方法。“他们仍然使用相同的冯·诺伊曼能力和编程模型,”美光的Pawlowski说。“它正试图找到将数据与这一过程协同定位的最佳方法,以使其更快。”

在半导体/系统领域中,内存计算具有相同的基本原理,但具有不同的特点——将内存拉近或置于不同系统的处理功能中。在过去,这种技术有时被称为“内存处理”。多年来,供应商们在这个领域引入了各种各样的设备,但很多努力都失败了,或者没有达到他们的承诺。

最近,几家公司已经推出了这项技术的新版本和改进版本。有各种各样的方法使用DRAM, flash和新的内存类型。其中许多被称为内存计算。不要把它与数据库中的内存混淆。

许多新的和所谓的内存芯片架构是为了驱动而设计的神经网络。在神经网络中,系统处理数据并识别模式。它匹配特定的模式,并学习哪些属性是重要的。

神经网络由多个神经元和突触组成。一个神经元可以由一个带有逻辑门的记忆单元组成。这些神经元呈雏菊链状,通过一种叫做突触的连接。

神经网络通过计算矩阵乘积和和来实现功能。它由三层组成—输入层、隐藏层和输出层。在操作中,模式首先被写入输入层的神经元中。这个模式被广播给隐藏层中的其他神经元。


图2:dnn主要是增殖积累

每个神经元对数据作出反应。使用一个加权的连接系统,当网络中的一个神经元感知到匹配的模式时,它的反应最强。答案显示在输出层。

神经网络与传统系统不同。“如果您正在通过神经网络进行传递,您可能需要数十名兆字节甚至需要访问的数百兆字节,即AI Chipmaker的CTO CTO戴夫Fick说。“但是每个图层都基本上访问了它们,然后您必须丢弃该权重,并在网络的后期阶段获得不同的内存。”

在一些系统中,神经网络是基于使用gpu的传统芯片架构。根据谷歌的说法,GPU可以处理多个操作,但它需要“访问寄存器或共享内存来读取和存储中间计算结果”。可能影响系统的功耗。

有不同的方式来执行这些任务。例如,Mythic最近引入了矩阵乘法内存架构。它使用40nm嵌入式NOR闪存技术在内存中执行计算。

这与使用处理器和内存的传统计算不同。“如果你构建了一个拥有数百兆SRAM的处理器,你就可以将整个应用程序放入其中。但你仍然需要读取SRAM,并将数据发送到正确的处理单元,”Mythic的菲克说。“我们通过直接在内存数组内部进行处理来避免这种情况。我们的目标是尽可能减少数据移动。我们有一个激进的方法,我们根本不打算移动数据,更不用说从DRAM转移到芯片上。我们也不会首先担心将数据移出内存。”

通常,也不存储在存储器阵列中的数据。Mythic使用NOR位单元格,但它替换了模拟的数字外围电路。“我们的方法是在阵列内进行模拟计算。我们的数组有数字接口,“他说。“Mythic在40nm的过程中做到这一点,而这些其他系统是更新的过程节点。虽然其他系统设计师正在努力从7nm到5nm,但神话将缩放到28nm。“

根据定义,Mythic在内存中处理计算任务。还有其他新颖的方法来执行内存计算任务。一些公司采用全模拟技术,而另一些公司则在开发SRAM和基于电容的技术。所有的技术都处于不同的发展阶段。

该行业也一直在研究一种非传统的方法神经形态计算。有些人称之为内存计算,这还需要几年的时间才能实现。

在内存中计算也使用神经网络。差异是行业正在试图复制硅中的大脑。目标是模仿信息从一组神经元移动到另一组神经元的方式,使用精确定时脉冲。

“这是在内存或存储过程技术中构建计算结构的地方。你倾向于把计算函数放在里面,”美光的Pawlowski说。“例如,我们可以读取一行内存,然后将其放入一个较小的DRAM结构中,并拥有一个延迟极低的良好缓存。”

为此,业界正在寻找几个下一代存储技术,如FeFETs, MRAM,相变和RRAM。所有这些都很有吸引力,因为它们结合了SRAM的速度和闪存的无波动性和无限的持久性。然而,新的记忆需要更长的时间来发展,因为它们使用奇异的材料和转换机制来存储信息。

然而,神经形态计算是一种不同的范式,具有许多挑战。

“在神经形态上,脉冲可以在任何特定的时间进入。您可以用特定的方式量化它们,但它们是异步类型的计算。这些脉冲来自不同的轴突。它们不在同一个时钟范围内,”Pawlowski说。“另一个问题是,你如何使它足够容易让程序员使用,而不是使它如此困难。我们正在做的很多工作都是在软件框架中找到一种使用模式,开始进行这种转换,减少电力和能源,同时提高处理更接近并最终进入内存阵列的性能。”

同时,仍然可以看出,这是任务的最佳内存类型。“我不知道哪种类型的内存将获胜,但它将成为内存驱动。我们必须解决电力密度问题。我们在更改编程模型的开始时是正确的,以利用这一点。记忆将是等级的。这将是多级和分布式,“SAP云架构和工程副总裁兼首席架构师Renu Raman表示,在最近的IEDM面板上。

near-memory是什么?
除了在内存技术,它也可能把内存和逻辑芯片在一个先进的集成电路方案,例如2.5d / 3d和扇出。

有些人将此称为近记忆计算。就像在内存中一样,这个想法是将内存和逻辑贴在系统中。

“世界正在推动更多的数据进入系统。因此,处理器需要大量的内存。内存和处理器需要非常接近,”ASE业务发展高级副总裁Rich Rice说。“所以,你需要包装解决方案来实现它,无论是2.5D还是带衬底的扇出方法。这也可以是像包对包这样的PoP结构。”

2.5 d,模具堆叠在一个插入器,包含了在矽通过(tsv)。插入器充当芯片和电路板之间的桥梁,提供更多的I/ o和带宽。

例如,供应商可以包含FPGA和高带宽内存(HBM)。HBM堆栈DRAM死亡在彼此之上,使更多的I/ o。例如,三星最新的HBM2技术由8个8Gbit DRAM模组组成,这些模组使用5000个tsv堆叠和连接。这使307GBps的数据带宽成为可能。在传统的DDR4 DRAM中,最大带宽是85.2GBps。

下一个HBM版本称为HBM3,可启用512Gbps的带宽。与HBM2的64Gbit相比,它的密度为128bbit。

除了2.5D之外,整个行业都在努力3D-IC.。在3D-ICs中,其理念是将内存堆在逻辑芯片上,或者逻辑堆在彼此上。模具连接使用一个主动插销。

“2.5D可以使互连密度增加一个数量级。你试图解决的是内存带宽和延迟,”David McCann解释道GlobalFoundries

3D-ICs可以提供更多带宽。麦卡恩说:“你使用的是整个X和Y的表面积,而不是在芯片的边缘互相连接。

此外,该行业正在利用HBM开发高密度扇出的一个版本。“它旨在成为这些市场的干扰者解决方案的替代方案。它提供了一种成本更低的解决方案,而且实际上比硅干涉结构具有更好的电气和热学性能。日月光半导体

显然,内存技术和近内存技术都有很多活动(如果不是混淆的话)。目前还不清楚哪种技术会占上风。这个竞技场的尘埃尚未落定。

有关的故事

内存计算挑战成为焦点

什么是缩放的正确路径?



1评论

Ranga ChaitAnanda信德 说:

英特尔的3D-Xpoint是内存实现的潜在解决方案。

发表评论


(注意:此名称将公开显示)