中文 英语

主流芯片架构的大变化

启用AI的系统正在旨在作为设备缩放益处下降的本地处理更多数据。

受欢迎程度

ChipMakers正在研究新的架构,从而大大增加了每个瓦特和每个时钟周期处理的数据量,在几十年内为芯片架构中最大的换档之一设置阶段。

所有主要的芯片制造商和系统供应商都在改变方向,脱离架构种族,其中包括如何从如何读取数据的内容,并将其写入如何处理和管理 - 并且最终如何在单个芯片上进行各种元素包装在一起。虽然节点缩小将继续,但没有人在扩展方面,以跟上来自传感器的数据的爆炸和机器之间的流量增加。

在变化中:

  • 新的处理器架构关注于在每个周期中处理更大的数据块的方法,有时精度较低,或者根据应用程序将特定操作优先于其他操作。
  • 正在开发新的内存架构,改变数据存储,读取,写入和访问的方式。
  • 更多有针对性的处理元件在系统周围分散,靠近存储器。不依赖于一个最适合应用程序的主处理器,而是通过数据类型和应用选择加速器。
  • AI正在进行工作,以融合不同的数据类型作为模式,有效地增加数据密度,同时最小化不同数据类型之间的差异。
  • 包装现在是架构的核心组成部分,越来越强调易于修改这些设计。

“有一些趋势导致人们试图充分利用他们已经得到的最多,”史蒂文求和,尊敬的发明者兰姆斯。“在数据中心中,您希望挤出硬件和软件的多个区域。这是数据中心正在重新思考其经济学的方式。启用新的东西是非常昂贵的。但是瓶颈正在转移,这就是为什么你看到专门的硅和方式来制造更高效的方式。如果您可以将回到内存和I / O的回复,这可能会抵消,这可能会产生很大影响。“

该更改在边缘更加明显,只是超越边缘,在那里系统供应商突然识别,即将到数十亿个设备生成的数据远远过多,以将所有内容发送到云以进行处理。但是处理边缘的所有数据都会增加了自己的挑战,需要巨大的性能改善而不会显着改变电力预算。

“罗伯特·奥德兰·霍德尔(Tesla),Tesla首席平台建筑师罗伯特·奥德斯“这不仅仅是更多的计算周期。它在内存中的数据包装更多,您可以使用16位指令格式。所以它不是关于在缓存中存储更多,因为更有效。在统计上,结果是两种方式一致。“

OBER预测,通过一系列架构优化,可以在可预见的未来增加每隔几年的处理速度。“我们将看到最先进的变化,”他说。“我们必须处理三条屋顶线,以使其发生。一个是计算的。第二个是记忆。在某些模型中,即内存访问。在其他人,它是计算的。第三个区域是Host Landwidth和I / O带宽。我们需要通过优化存储和网络进行大量工作。“

其中一些已经实施。在Hot Chips 2018年会议上的演示文稿中,杰夫·卢弗利,杰夫·奥斯汀研发领导架构师指出了该公司M3处理器的几个主要建筑变革。人们涉及每个周期的更多指令-6在上一个m2中的六个宽。添加到该分支预测,基本上是几个神经网络在搜索中执行相当于预先获取,以及两倍深的指令队列,挑战开始焦点。

从另一个角度看,这些变化将Nexus从前端的制造和工艺技术转移了创新,并在前端的建筑和设计,以及后端制造后的包装。虽然创新将在流程技术中继续,但在每个新节点的性能和功率的情况下才能提高15%至20%的改善是非常复杂的 - 并且它几乎没有足够的数据,以便与巨大的数据增加。

“改变正在以指数率发生,”总裁兼首席执行官Victor Peng说Xilinx.,在热筹码的演示文稿中。“将有10个zettabytes [1021.每年生成的数据和大多数是非结构化数据的数据。“

记忆中的新方法
处理这款大量数据需要重新思考系统中的每个组件,从数据处理到如何存储它。

“有许多尝试创造新的记忆建筑,“创新高级总监CarlosMaciàn说Esilicon Emea.。“问题是你需要读取每一行,并在每一行中选择一位。一种选择是建立可以从左到右,从上到下阅读的记忆。你还可以更进一步,在不同的内存附近增加计算。”

这些改变包括改变读取内存的方式,处理元素的位置和类型,以及使用人工智能优先考虑如何以及在整个系统中存储和移动数据的方式和位置。

“What if we could read just one byte at a time out of that array in the case of sparse data—or maybe eight sequential bytes out of the same byte lane, without using all the energy associated with other bytes or byte lanes we’re not interested in,” said Marc Greenberg, group director of product marketing at节奏。“未来可能会对这种东西更加适应。如果我们看看架构HBM2.例如,HBM2骰子堆叠被布置成每个64位的16个虚拟通道,并且我们只需要从对任何虚拟信道的任何访问获得4个连续的64位单词。因此,可以建立一个宽和水平写入的数据阵列1,024位,但是一次读取垂直64位x 4个字。“

内存是冯·Neumann架构的核心组件之一,但它也是成为实验的最大领域之一。“一个大型谜题是虚拟内存系统,在AMD的客户端产品首席架构师丹博维尔说,您正在移动数据。”“你有翻译翻译。我们习惯于图形方面。但如果你能消除银行冲突德拉姆,您可以获得更高效的流。因此,离散的GPU可以在90%的效率范围内运行DRAM,这真的很高。但如果您可以获得平滑的流式流,您也可以在80%到85%的效率范围内运行APU和CPU。“


图1:von neumann架构。资料来源:半导体德赢娱乐网站【官方平台】工程

IBM正在开发一种不同类型的内存架构,基本上是磁盘条带的现代化版本。目标是机会使用任何内存,而不是限制在一个磁盘上,而是利用杰夫斯图赫利,系统硬件架构师的连接器技术IBM.,称“瑞士军刀”为连通性。这种方法的优点是它可以混合和匹配不同类型的数据。

“CPU成为高性能信令界面中间坐在的东西,”Stuecheli说。“如果修改微架构,则核心可以每循环执行更多,而无需推频。”

连接和吞吐量越来越重要,以确保这些架构可以处理正在生成的数据量的膨胀量。“现在的大瓶颈在数据运动中,”兰德斯的求爱说。“该行业已经做得很好,使得更好地计算。但是,如果您正在等待数据或专用数据模式,则需要更快地运行内存。所以,如果你看着DRAM和NVM.,性能取决于流量模式。如果你用流数据,你会从记忆中得到很好的效率。但如果数据在空间中随机跳跃,效率就会降低。无论你做什么,随着体积的增加你必须更快地完成所有这些。

更多计算,运动较少
更糟糕的是,边缘设备会以不同的频率和速度产生多种不同类型的数据。为了让数据在各种处理元素之间顺利移动,必须比过去更有效地管理数据。

“有四种主要的配置-多对多,内存子系统,低功耗Io,网格和环拓扑,”Charlie Janac,主席和首席执行官说动脉IP.。“你可以将所有四个中的那些在一个芯片中,这是在决策中发生的事情IOT.筹码。或者您可以使用高吞吐量添加HBM子系统。但复杂性是巨大的,因为这些工作负载中的一些非常具体,每个芯片有多个工作负载和引脚。如果您查看其中一些IOT芯片,他们正在采取大量数据。这对汽车的雷达和连裙的东西尤其如此。没有某种高级互连,它们就不能存在。“

所面临的挑战是如何最小化数据移动,同时在需要时最大化数据流,以及如何在不使用过多能量的情况下实现本地处理和集中式处理之间的平衡。

“一方面是带宽问题,”该公司产品营销经理拉杰什•拉马努贾姆(Rajesh Ramanujam)表示NetSpeed系统。“如果可能,您希望尝试不会移动数据,因此您将数据移到处理器较近。但如果您确实必须移动数据,则要尽可能地凝聚它。但是,没有这一点在真空中存在。它必须从系统级别看。每个步骤都需要考虑多个顺序轴,并且它确定您是否以传统的读写方式使用内存或者是否利用新的内存技术。在某些情况下,您可能希望更改您存储数据本身的方式。如果您想要更快的性能,这通常意味着更高的区域成本,影响力量。现在你抛出了功能安全,你必须担心数据过载。“

这就是为什么在各种处理元件之间的边缘和吞吐量的处理中重点关注的原因。但是,这种处理所实施的如何以及何地将大幅度随着构造和精炼而变化。

案例在点:Marvell引入了一个带内置AI的SSD控制器,因此它可以在边缘处理更大的计算负载。AI引擎可用于固态存储本身内的分析。

“您可以将模型直接加载到硬件中并在SSD控制器进行硬件处理,”主工程师Ned Varnica说Marvell.。“今天,云中的主机执行此操作。但是,如果每个驱动器是将数据发送到云端,那将创建大量的网络流量。最好在边缘进行处理,主机计算机发出仅为元数据的命令。因此,您拥有的更多存储设备,您拥有的加工能力就越多。交通减少的好处是巨大的。“

根据应用,对这种方法特别值得注意的是,根据应用,它强调了数据移动的灵活性。因此,主机可以生成任务并将其发送到存储设备以进行处理,之后只发送元数据或计算结果。在另一种情况下,存储设备可以存储数据,预处理它并生成元数据,标签和索引,然后根据进一步分析的需要由主机检索。

这是一个选择。还有其他人。三星的Rupley强调了无序的处理和融合成语,可以解码两条指令并将其熔化成单一操作。

ai监督和优化
人工智能贯穿于所有这些之上,这是芯片架构中真正的新元素之一。不是让操作系统和中间件管理功能,而是在芯片周围、芯片之间和系统级别上进行监督。在某些情况下,这可能包括芯片内的神经网络。

eSilicon营销副总裁迈克·吉安法尼亚(Mike Gianfagna)说:“关键不在于你如何将更多的东西打包在一起,而在于改变传统的做事方式。”“人工智能和机器学习,你可以将所有这些东西分散到系统中,以获得更高效和预测性的处理。在其他情况下,它可能涉及在一个系统或一个封装中独立运行的独立芯片。”

ARM UncorKED其第一台机器学习芯片,计划在今年晚些时候在多个市场段和垂直方面推出。“这是一种新型处理器,”伊恩布拉特说,杰出的工程师手臂。“它包括一个基本块,它是一个计算引擎,以及带有控制联合网络的DMA引擎的Mac引擎。总而言之,使用7nm工艺技术,有16个计算发动机能够在1GHz下进行4杆。“

由于ARM在合作伙伴生态系统内工作,因此其芯片比正在开发的其他AI / ML芯片更通用和可配置。而不是将所有内容构建到单片结构中,它通过函数分区处理,因此每个计算引擎都在不同的特征图上工作。Bratt表示,四个关键成分是静态调度,高效卷积,带宽减少机制和对未来设计的可编程性。


图2:Arm的ML处理器架构。来源:Arm /热芯片

与此同时,NVIDIA采用了不同的大头钉,在GPU旁边建立专用的深层学习引擎,以优化处理成像和视频的流量。

结论
通过利用这些方法中的一些或所有方法,芯片制造商表示他们可以每隔几年进行两次表现,保持与数据爆炸的速度,同时保持在权力预算的紧张范围内。但这不仅仅是提供更多计算机。它正在改变芯片设计和系统工程的起点,从不断增长的数据量而不是硬件和软件的限制。

“当电脑进入公司时,很多人都觉得世界上得多了更快,”AART de Geus.,主席和合作首席执行官synopsys.。“他们确实会计用堆栈的会计书籍造就纸。那是一个指数变化,我们现在再次看到它。什么是不断发展的 - 这可能会给它一个更快的感觉 - 你可能会对打印卡打印和计算来打印出会计书和计算。精神上,你可以追随每一步。事实上,在农业领域你需要放水和某种类型的肥料,只有在这种温度升高的情况下,这是一种机器学习结合的东西,这些组合是过去不明显的优化。“

他在这项评估中并不孤单。“新的建筑将被接受,”说沃利莱茵河,总统兼首席执行官导师,西门子的业务。他们将被设计入。他们将在许多或大多数情况下都有机器学习,因为您的大脑有能力从经验中学习。我访问了20家或更多公司,做了自己的特殊目的是一个分类的处理器,每个公司都有自己的小角度。但是你将越来越多地看到他们的特定应用,他们将补充传统的冯·诺伊曼建筑。神经形态计算将成为主流,这是我们如何在计算效率的下一步,降低成本,在移动和连接的环境中做事,今天我们必须转到一个大型服务器农场来解决。“

相关案例
AI架构必须更改
使用Von Neumann架构进行人工智能应用效率低下。什么会替换它?
机器学习和人工智能的安全漏洞
机器学习的主要目标是使用机器来训练其他机器。但是如果训练数据中存在恶意软件或其他缺陷会发生什么?
架构为ai.
桌面专家,第1部分:推断出什么样的加工,最好的建筑是什么,可以调试?



3评论

艺术斯科特 说:

没有可逆计算的未来。

米歇尔 说:

更广泛的数据读取/写入,并行计算,较小的数据包装在一起,应用加速器,更深的管道,散射聚集输出......闻起来像一个dsp给我:) ...

威廉·蒂维尔 说:

编辑,

感谢信息丰富的调查。显然这个领域有很多创新。呼应米歇尔评论以上,H&P的“特定于域的处理器”的时代似乎是鹅口疮的。您的调查的一个令人惊讶的方面是缺乏Gen-Z参考。当然,一个新的内存语义互连,具有完全可组装性的是正弦值对于这些新架构的全部成果?当然,我们可以在没有它的情况下在短时间内做很多事情,但如果我们要替换von neumann计算,我们必须脱击,并概括互连。

发表评论


(注意:此名称将被公开显示)