中文 英语

小芯片,更快的互连,更高效率

为什么英特尔,AMD,ARM和IBM专注于体系结构,微体系结构和功能变化。

人气

大型芯片制造商正在转向架构等架构改进,芯片上的吞吐量更快,并且每次运行或循环集中更多工作,以便加速处理速度和效率。

作为一个整体,这代表了主要芯片公司的方向大幅转变。所有这些都在摔跤,加工要求的大规模增加以及传统方法无法提供足够的改进功率,性能和面积。缩放福利自28nm以来一直被削弱,在某些情况下很好。同时,从新设备,新应用程序和增殖中收集的增加数据传感器随处可见,需要更快地处理使用相同或更少的功率。

这对芯片制造商来说是一场完美的风暴,他们过去曾利用投机执行等方法来扩大规模扩张的好处。但是推测性执行已经被证明会产生安全漏洞,仅仅收缩功能不再能提供30%到50%的能力和性能改进。现在这个数字接近20%,即使这样也需要新的材料和结构。

与此同时,大型芯片制造商正目睹谷歌、亚马逊(Amazon)和Facebook等公司侵入其关键市场之一——巨型数据中心。此外,他们正在受到挑战AI./机器学习市场和边缘的初创公司开发专业加速器,通过建筑变革,这是有前进的数量级。

最大的芯片制造商而不是试图打击这一趋势,而是开始拥抱它。例如,AMD已经介绍了其ZEN 2架构,其依赖于它们和其他人的组合 - 以及可以调整的高速芯片到芯片互连和优先级化方案,以便数据可以更快地移动方向或另一个。

AMD客户产品首席架构师Dan Bouvier在一场演讲中表示热芯片小死将提高产量的会议。但他指出,小芯片也可用于将芯片尺寸增加到1000mm2通过使用一个通用互连(AMD的Infinity fabric),并将所有这些组件放在一个衬底上,它的尺寸比网线大。这种互连还可以用于连接在不同流程节点上开发的芯片,具体取决于对特定功能的意义。


图1:AMD的小芯片架构。资料来源:AMD /热芯片

英特尔的战略主要依赖于chiplets它使用多种方法连接,包括其内部开发的芯片对芯片桥(嵌入式多模互连桥,或EMIB)。但该公司也一直在研究内存访问和存储问题。其中一个解决方案涉及到持久内存,它有助于弥合DRAM和固态硬盘之间的差距。

有一段时间,英特尔一直运送一个名为3D XPoint的持久存储器类型。基于相变存储器技术,英特尔将3D XPoint设备集成在自己的SSD和DIMM中,这加速了这些系统中的操作。

“其中一个挑战是您已经需要处理所有这些数据,但您的空间有限公司,”高级首席工程师莉莉·洛伊说英特尔。“在过去的几年里,有一个数据爆发,有两件事已经发生了变化。首先,纳秒重要,所以你需要更多的容量。第二件事是您需要一个持久性功能,以便如果关闭电源,则数据仍在存在。但您不必保存所有数据。您只需保存该数据的块甚至几千字节,这更有效。“


图2:存储更多指数级数据的位置。来源:英特尔/热芯片

更聪明的权衡
但是更大的芯片和更快的互连不是实现更好性能的唯一方法。还有一大堆旋钮转动,在多年来没有认真重新归属。

例如,ARM介绍了其新的N1架构,这显着提高了分支预测的准确性 - 基本上相当于搜索的预先预处理。ARM也继续使用较少的功率来执行更多,具有相干网状网络将IP块连接在一起,允许根据特定应用的需要进行处理。

Arm战略的关键是更大的二级缓存和上下文切换手臂该方法比以前的方法快2.5倍。他表示:“我们还发现,错误预测的分行数量减少了7倍。”Arm还专注于通过减少缓存失误率来减少指令占用,Pellegrini说已经减少了1.4倍。与此同时,L2访问是2。25x。

这是看待处理器效率和每瓦特性能的另一种方式。虽然大多数处理器公司都是在相同的功率预算下做更多的事情,但其他公司正在考虑用更少的功率做更多的事情,这对有电池的设备来说很重要。这包括智能手机,但也包括为电动汽车和机器人开发的芯片。

ARM还将使用其网格网络方法添加为特定数据类型定制的第三方加速器。


图3:Arm可定制的Neoverse架构。来源:Arm /热芯片

同时,IBM介绍了一种简单且非常不同的架构。IBM的目标之一是在数据包到达时做出假设,这主要将预先取代概念提高到更高级别的抽象。它了解如何使这些假设如此困难,因为它有效地提前对架构应用于架构。

IBM的方法是为其芯片使用最可能的配置,预先做出权衡并设置限制。该公司电力系统硬件架构师Jeff Stuecheli表示,这使其能够整合物理层的数量IBM.,通过PCIe Gen 4运行一些数据和通过25g Serdes的剩余部分。“这是更大的电力和面积效率,”斯图赫利说。该公司还完成了朝向不对称架构的方式,这意味着一个加速器的状态不会影响另一个的操作。“我们希望隐藏来自加速器的状态表。”


图4:IBM强调数据吞吐量。资料来源:IBM / Hot Chips

连接片
所有这一切都在透视之中,所有主要的芯片制造商都在解决目标市场中的类似问题。它们通过通用处理器和自定义加速器的组合来提高每个瓦特的性能,并且在许多情况下,他们可以更容易且从一个市场更快地替换模块,并且随着算法更新。它们还在提高片上数据的吞吐量,片材的片外,并优先考虑不同类型数据的运动。

这些方法中有许多都不是新想法,但有些实现这一切的技术在过去并不存在。

“创造一个常见的PHY来实现加速器是发生的关键事情之一,”高级设计工程建筑师斯图尔特·菲斯克说韵律。“你也看到的是,处理器没有更简单。许多这些公司正在尝试为加速器创建接口。这并不能解决复杂性问题。它仍然是一对年度的设计周期,并且没有办法。但是,您可以启用加速器,以适应最新的神经网络是什么。“

关键是平衡所有这些组件的集成,具有足够的灵活性来进行更改。实际上,所有这些芯片制造商都设计了可以为特定市场和用例定制的多芯片平台,同时优化每个瓦特的性能并提高数据吞吐量。

“设计在钟表速度方面正在击中墙壁,”产品和技术营销负责人Loren Hobbs说斯莱西卡。“前进的方式是尽可能高效地使每个时钟周期。并且随着多核异质多处理器的添加,即加速这些芯片的复杂性。您可以将所有这些小芯片组合以提高处理能力,但您需要工具来帮助分发和分析。您必须映射代码库,这些代码库是无限制的。它需要静态,动态和上下文分析。“

这里的共同点是不断增长的数据量,无论这些数据是在边缘还是在云端。数据的处理位置和移动速度是体系结构的关键部分。

“每个人都在努力与CCIX,”K. Charles Janac说,总裁兼首席执行官Arteris IP。“如果你有一个加速器和两个连贯的模具,有太多的角落情况,使它容易工作。但是现在你可以使用3D互连将一个平面CPU和一个平面I/O连接在一起。这对软件来说就像一个系统,在芯片上的网络和不同芯片之间有芯片间的链接。这样您就可以支持两个芯片上的非相干和相干读写。它让互联变得更有价值,但也让它变得更复杂。”

事实上,这也是为什么这些架构已经进行了一段时间的原因之一。事实证明,让所有的部件一起工作比任何人最初想象的都要困难得多。

“记忆控制器和NOC必须更紧密地集成,”Janac说。“问题是,既不理解整个芯片的QoS,也没有任何独立的记忆控制器公司。但内存流量必须更好地集成来实现这项工作。“

对于真正起飞的小杉市场,还需要开放标准。

“没有用于连接小芯片的标准,”营销副总裁Steve Mensor说Achronix。“问题是你必须能够与他们交谈。因此,您应该能够为套接字开发芯片,并具有链接和协议栈以支持它。AMD和英特尔有专有解决方案。还有标准解决方案正在开发。如果我构建ASIC并购买小芯片,我想要一个标准解决方案,所以我可以独立构建该芯片。这对这个模型来说是一个根本要求。“

然而,它确实为不同ISAs(如RISC-V)上的加速器打开了大门。

“这对小型和轻量级硬件加速器来说是一个新的机会,”该公司营销副总裁克里斯·琼斯(Chris Jones)说Codasip。“为初创公司制造芯片提供一个开放界面,可能会为半导体行业提供另一个繁荣周期,这将一直发生在全封装领域。”关于这个问题仍然存在一些问题,比如谁最终负责整个接口的测试,以及这将如何与接口的签名一起工作。我们还需要看看chiplet接口是什么样的,它们是标准化的还是专有的。但它确实为更多的验证IP、仿真和模拟增加了新的机会。”

改变了组件
目前尚不清楚的是,这些架构中还有哪些其他方面可以改变。本周介绍的大多数设计都是平面的,但也可以选择将其中一些设计推入Z轴。

例如,SERDES将延迟添加到设计中,但可以通过先进的封装技术来实现该等延迟。TSMC的电流(晶圆盘上衬底)和信息MS(衬底上的内存集成)是两种这样的选项。埃尔西蒙副总裁帕特里克索赫利(Esilicon)表示,该公司刚刚使用UMC中的插入器开发了一个小型运动员的方法。

“你可以分开它并将它带到不同的抽象层面,”索赫里说。“如果你看一些这些架构,那么有很多少量效率效率低下SRAM如果您有很多数据流过它,并且在您做大记忆时有效。这可能会发出违反直线,但我们发现更大的存储器更有效,特别是对于AI类型的应用程序。“

下一步是什么
所有这些方法的市场才刚刚起步。现在的关键是找出方法重复性和可靠性构建到这些不同的体系结构可以用于对安全性要求苛刻的应用,如汽车或工业,以及在各种各样的结束今天的市场充斥着各种类型的数据。

是什么让这些新的架构如此引人注目的是能够为特定应用程序定制它们,利用作为这种定制的基础的架构。所有处理器供应商正在采用这些类型的架构,从FPGA供应商到像NVIDIA这样的公司,这在六个月的历史记录中推出了新的芯片架构。但是,明确的是,前进,行业需要更多的工具,更多的数据分析,以及随着设备被修改和更新的时间随着时间的推移而更好地了解潜在的交互。

这只是转变的开始,最终将涉及整个半导体供应链。虽然规模还会继续扩大,但在处理器领域,它正成为一长串包括架构、封装、材料和工作量优化在内的列表中的一个额外旋钮。架构师现在是变化的驱动者,他们中的大多数人都预计架构变化将加速摩尔定律减速。一年的差异是什么。

相关案例
主流芯片架构的大变化
启用AI的系统正在旨在作为设备缩放益处下降的本地处理更多数据。
高级包装选项增加
但是将多个芯片集成到一个封装中仍然是困难和昂贵的。
下一个新记忆
研发中的新一批存储器可能会对未来的计算架构产生重大影响。
Chiplet势头建造,尽管权衡
预先表征的瓷砖可以向前移动摩尔的法律,但它看起来并不像它看起来那么容易。
在小芯片上营业到业务
联盟寻求方法以确保硬化IP的互操作性,以削减成本,上市时间,但它不会变得容易。
小芯片的案例
高级包装中的问题。



1评论

约翰后卫 说:

写得很好。

留下一个回复


(注意:此名称将被公开显示)