中文 英语

新的架构,更快的芯片

大量的创新推动了性能上的数量级的改进。

人气

芯片行业正在以多种物理维度和多种架构方法取得进展,为基于更模块化和异构设计、新的先进封装选项和至少多个流程节点的数字逻辑持续扩展的巨大性能增长奠定了基础。

最近会议讨论了许多这些变化。单独地,它们可能很重要。但作为一个整体,他们指出了一些重要的趋势,因为设备扩展的效益Dwindle和市场需求发生变化。他们之中:

  • 对于高性能的应用,芯片的设计基于更有限的数据移动和近内存计算。这可以从I/ o位于芯片外围而不是中心的平面图上看出,这种方法将通过减少数据需要传输的距离来提高性能,从而降低整体功耗。
  • 数字逻辑的缩放将持续超过3nm,使用高NA EUV,各种gate-all-around场效应晶体管(CFET,纳米片/纳米线FET)和碳纳米管装置。同时,掩模版尺寸将增加,以允许更多的组件适合包装,如果不是单芯片。两种动作将通过收缩功能添加大量的房地产,允许更大的计算密度。此外,SRAM的缩放将继续,将为高带宽存储器(HBM)模块和3D-NAND闪存添加更多层。
  • 设计正变得更加模块化和异质化,为更多的定制和更快的上市时间奠定了基础。所有的主要铸造厂和sat现在都认可小芯片策略,他们正在根据价格和性能要求提供多种选项。

其中一些是在工作年份,但大部分发展都是零碎的。过去没有单一行业路线图,过去已被用作所有发展如何合适的指南。在没有那种路线图的情况下,工作继续在所有方面继续,但它经常很难理解大局是如何发展的,因为并非一切都在同步。例如,ASML公开地谈论高数孔径EUV,甚至在EUV商业上可行的情况下,甚至用无变形镜头取代平面透镜。和公司等公司ASE.雅克曾在这十年的较好部分工作,即使这些包装方案的市场比最初思考的方式非常不同,也致力于多个版本的粉丝输出,2.5D和3D-IC。

地平线也有许多新的发展。主要铸造厂台长,,globalfoundries三星正在建设先进的包装能力进入制造后端。TSMC还计划使用较少的混合混合绑定将小芯片添加到前端,互联网。所有这些都可能需要整个行业的重大变化,从EDA工具进行测试和后硅监控。

所有这些不同的元素都融合在一起的速度尚不清楚。没有人喜欢是第一个,此时,这并不明显这些方法和技术中的哪一种赢得,甚至它们是否会彼此竞争。但随着数据量持续增长,变化是必不可少的。这是驾驶更多自定义的解决方案来处理和利用更接近源的数据,其中包括几乎无处不在的智能程度。

在过去,基于下一个进程生成将增加性能的大改进,解决了解决方案,这些解决方案是在最先进的硬件或软件上开发的。不再有效。缩放变得更加困难且昂贵,并且收缩功能的功率/性能优势正在减少。此外,一个尺寸不再适合所有尺寸。它可以差异很大程度上取决于最终客户在计算层级 - 终点,边缘或云中的位置,以及如何结构和优先考虑的数据。因此,芯片制造商已经将焦点转移到能够从云中的大规模仿真和培训算法中的所有功能的新功能和更多的模块架构转移到源中的无用图像和流式视频数据。

处于透视图,需要更快地发生更多的处理,需要使用相同或更少的权力来完成。此外,需要更快地创建系统,并且由于市场需求的进化和算法继续改变,因此需要更快地改变更快的能力。

建筑班次
要发生这种情况,硬件架构需要更改。芯片制造商已经看到这一段时间了。例如,IBM的新电源10芯片集中在芯片中心中的定制计算元件,并将外围设备和I / O移动到边缘。

“加速需要被推入处理器核心,”芯片首席架构师的票据首席建筑师表示,最近的热门筹码会议表示。“围绕芯片周长是phys。”IBM还引入了Pod-Level群集,并添加了一个新的微架构以支持所有这些。


Fig. 1: IBM’s Power 10 chip (L., from Hot Chips 2020), with processing cores concentrated in the middle of the chip served by localized memory and shared L3, vs. Power 9 (R., from Hot Chips 2018) with off-chip interconnect in center. Source: IBM/Hot Chips 2018/20

其他人正在采取类似的方法。英特尔基于内部开发的小芯片推出了一种新的架构,其中将模块化处理元件群组使用其嵌入式多芯片互连桥将桥接到HBM模块。此外,它还更新了其最新的服务器芯片架构,以最大限度地减少数据移动。


图2:与上一代相比,英特尔最新的服务器处理器架构(r)减少了数据移动(l)来源:英特尔/热芯片

同样地,使AI系统成为一个高度模块化的系统,该系统包括与2D双向圆环Noc连接的120个自包含核心。“每个核心以自己的速度进展,”Tenstrent的软件工程总监Jasmina Vasiljevic表示。

缩放继续
数据中心芯片比在消费者应用中的成本敏感得多,因此他们倾向于引领行业的性能。例如,高性能服务器摊销芯片开发成本,而不是通过卷,这对于移动电话应用处理器至关重要。因此,尽管关于摩尔定律结束的永无止境的预测流,但这些设备中的许多数字逻辑将继续使用最新的流程几何形状的密度原因。

但是,不同的是性能关键的电路以及模拟块,越来越多地分开到使用高速接口连接的芯片分开。

“你现在可以按节点分区,”产品总监Matt Hogan说导师,西门子的业务。“所以您可以确定设计特定部分的正确技术是什么。这也允许您扩展一些副作用。“

戈登·摩尔(Gordon Moore)在1965年首次发表他的著名观察时就提到了这种方法。

“随着工艺技术的快速演变,通过现成的解决方案而不是开发定制芯片,通常更便宜,”主要应用工程师蒂姆·科吉说Synopsys对此。“到目前为止,每次新流程节点都有更高的性能和较低功率的自由午餐即将结束。另一方面,像AI,自主驾驶,AR / VR等这样的杀手效果对处理能力和计算效率有难以置信的需求。像谷歌的TPU和Tesla的FSD筹码一样着名的例子表现出令人印象深刻的ROI,以定制架构到目标工作量的具体特征。“

尽管如此,摩尔定律最初的价值正在减弱,这对经济和技术都有影响。平面缩放的经济效益随着finfet的引入而结束,即每个晶体管的成本不再从前一个节点下降。同样地,从大约90nm开始,功率/性能的好处就一直在下降。台积电研发部高级副总裁Y.J. Mii表示,在同样的功率下,3nm的性能只会提高10% - 15%,在同样的速度下,则会降低25% - 30%的功率。

然而,这几乎不是从技术的角度到死胡同。包括不同的包装方法和3D布局,包括不同的包装方法和3D布局,可以通过数量级的顺序提升这种性能。并且缩放仍然有助于将更多密度包装到那些包装中,即使缩小的晶体管本身并没有明显更快地运行。

“我们已经被多年来多年来轰炸了更多的主题,”设计知识产权营销总监Tom Wong说节奏。“但是,是面积减少、功率减少或晶体管性能改进(传统的PPA)推动了这些讨论,还是硅经济学和光刻/设备的局限性导致我们陷入困境?”事实证明,硅经济和网线尺寸的限制是造成颠覆的两大因素,这迫使设计师寻找设计芯片的新方式,并转向新的架构。”

通过不同的封装方案和增加刻线尺寸来解决经济和刻线尺寸限制的问题,从而允许更大的单个模具。台积电研发副总裁Doug Yu表示,使用集成扇出(InFO)封装方法后,刻线尺寸将增加1.7倍。此外,台积电计划在明年第一季度推出110 × 110 mm²的标线,标线尺寸将增加2.5倍。

所有这些都是必要的,因为将所有东西放到一个骰子上的成本持续上升。模块化允许芯片制造商根据平台类型的方法相对快速地定制芯片。CPU、GPU和FPGA芯片设计师早在5年前就发现了这一点,并开始通过多芯片实现分解实现,让插入器/封装处理集成。Wong说,这就是为什么芯片对芯片的连接IP如今占据了中心地位。

“CPU,GPU和FPGA都已经走了一切,因为这些公司自己设计了芯片(小芯片),并且不需要依靠商业巨头生态系统。他们可以利用基于小芯片的设计可以提供的产品,“Wong指出。“包括CPU,GPU和FPGA,包括CPU,GPU和FPGA的多核设计,可以受益于此建筑变革/趋势。可以分离“核心计算”和高速I / O的SOC设计也可以受益于此。AI加速SOC和Crypto SoC是两个示例。和数据中心交换机和织物,例如25.6TB / s用于超云构建和云建设者,也可以从此建筑变革中受益于基于小杉的设计。这些设计可以像20亿+晶体管一样复杂。“

到目前为止,这种方法已经通过IDM,如英特尔,AMD和Marvell,每个IMD和Marvell都使用了自己的模块化方案和互连。因此,而不是建立芯片并尝试在广泛的客户中倾斜其益处,它们提供了使用小芯片的选项菜单,并且在英特尔的情况下,各种各样的连接选项,如高速桥接桥。

随处变化,有些大,一些小
将所有这些变化放入角度往往是艰巨的,因为整个行业都在运动,虽然不一定以相同的速度或相同的原因。因此,当处理器和流程发生变化时,内存滞后很好。

此外,有些技术需要完全训练,而其他技术则保持不变。这与GPU特别明显,这是AI / ML培训的转移解决方案,因为它们很便宜和可扩展。但它们不是最节能的方法。

“我们已经看到了带宽,我们已经看到了它的力量,”产品管理和技术营销高级总监Kristof甜菜说想象力技术“所有这些不同的约束都进入了比赛。从GPU的角度来看,这是一个棘手的演变,因为显然GPU是巨大的数字暗惊,但显示器变大,设备变得更小。所以很多这些问题都在击中。有一个蛮力的阶段,哪种依赖于摩尔定律。我们正在加倍GPU,一段时间是可以的,因为过程技术保持不变。但现在回归正在减少,所以虽然我们可以放下更多逻辑,但我们基本上无法再将其打开,因为它会消耗太多的电源。所以蛮力技巧不起作用。“

动态电压和频率缩放(DVFS)有助于将电压降低,允许在较低频率下运行的更大GPU。尽管如此,即使这种方法也有限,因为只有这么多的GPU核心可以在固定的电源预算中使用。“这为我们提供了每瓦的更好的FPS(每秒框架),但即使现在开始缓慢,因为泄漏再次上升,”甜菜说。“这是GPU的在哪里,射线跟踪一直很有意思。这是一种切换蛮力的方式。它们非常灵活。我们与AI和神经网络处理相同。这是完全相同的概念。这是您真正看到的幅度解决方案的顺序,即通过考虑到数据流,特定操作,所以它非常有趣。它与固定函数处理的旧天不一样糟糕。 We’re not back there yet. But some of it is definitely starting to return with more dedicated processing types.”

有许多方法可以增强缩放性能。“已经有一些领域,如应用处理器,GPU,MCU,DSP,我们已经具有相当通用的架构利用摩尔定律,更新,”高级营销总监Roddy Urquhart说密码。“但现在在尝试新颖的架构,新颖的结构方面存在大量想法,具有一系列可编程性。在收缩系统阵列结束时,有些东西往往是硬连线处理元件,或者它们具有在一段时间内上传固件的过程,并且在一段时间内以静态条件留下的进程。另一个极端是特定于域的进程,这是高度可编程的。我认为在高度平行,高度流水线的阵列结构中恢复创新,这是一种非常合适的不同类型的神经网络。另一方面,人们在盒子外面的思考,以便从MCU,GPU,DSP和应用程序处理器的筒仓出来,并创造更多这些东西的更多这些东西以满足特定需求。“

微架构
除了这些广泛的架构转变之外,还有微架构创新。在许多方面,这是一个分区问题,在较大的系统中,一些计算函数被赋予优先级。这对性能和计算效率都有很大的影响。

“利用固有的并行性,应用程序应映射到最佳的异构处理元素集,”Synopsys'Kogel说。“为每个功能选择提供最小所需灵活性的处理核心提供了最高的计算效率。此外,内存架构的组织对性能和功率的影响非常高。由于外部存储器访问昂贵,因此应保存在片上存储器中,靠近处理的位置。“

然而,这说起来容易做起来难,而且它需要多学科的规划,而且越来越需要多维度的规划。Kogel说:“在具有分布式存储器的异构多处理平台上运行高度并行的应用程序,管理复杂性和预测动态效果是一个相当大的挑战。”“我们建议在开发过程的早期使用虚拟原型来定量分析架构权衡。这使得来自应用程序和实现团队的涉众能够在提交实现规范之前进行协作。”

新权衡
展望未来,如何继续执行权力和性能权衡取决于市场。一些市场是高度成本敏感的,因此他们还没有升级到这个问题。同时,其他人不太成本敏感和更延迟敏感。

“人们越来越不耐烦。你希望尽快得到你想要的东西,”英特尔首席技术官迈克·梅伯里在美国国防部高级研究计划局(DARPA)最近举行的电子复兴计划(ERI)峰会上的一个小组报告中说。“但我们也看到了平衡系统和更多接近数据的计算,这是我们看到的持续趋势之一。”

Mayberry指出,密度缩放没有硬性限制,但它将逐渐包括Z轴。“我们也看到了超越cmos的新型设备,它将实现异构架构。十年后,你就能在书架上看到它们了。”

除其他外,英特尔还通过储存和蚀刻不同的材料来寻找销售设备的方法。这已经谈到了多年的曲线,并以这样的方法自组装。在某些情况下,仍然可能在经济上可行,但普遍的共识可能直到3nm之后。

除此之外,光子学正开始收集一些动量,作为一种以最小的热量在这些日益密集的结构中或周围移动大量数据的方式。一种更新颖的方法是利用光进行处理。LightMatter首席执行官尼克·哈里斯(Nick Harris)表示,光学设备消除了泄漏效应,导致热量降低,性能更稳定。这种方法的特别之处在于,光可以被划分为不同的波长,允许不同的颜色被优先考虑。

“具有100GHz波长,这是非常小的间距,我们可以适应1000种颜色,”哈里斯说。缺点是激光不会永远持续下来,所以需要足够的冗余来允许这些系统持续到它们的预期寿命。

对于更传统的计算,过程节点选项的数量也在增加。Foundries正在提供在节点之间,这在没有完全重新设计的情况下提高性能或电源。例如,台积电不再是其N4进程,该过程将在明年年底进入风险生产。C.C.TSMC首席执行官魏先生在演示文稿中表示,N5(5nm)和N4中使用的IP将兼容,这使得公司可以提高密度和更低的功率,通过最小的重新设计。

尽管如此,选项的数量是令人沮丧的。除了不同的节点号之外,还有低功耗和高性能的不同过程选项。在此之上,不同的衬底材料开始获得牵引力,包括用于功率晶体管的碳化硅和氮化镓,以及用于低成本,低功率应用的硅绝缘体。

所有这些都对设计规则有很大的影响,设计规则是用来防止失败的。“如果你在设计一个插花,你不知道它将如何使用或放置,”门托公司的霍根说。“你不知道它会不会和漫威电影宇宙(MCU)相邻,所以你必须想清楚如何深思熟虑。”你需要保护它免受电磁效应和其他潜在问题的影响。”

由于芯片预计更长的时间段 - 在汽车的情况下,它可能只需为领先节点逻辑的18年 - 所有这一切都需要在老化的背景下进行。这可能会变得非常复杂,特别是在多芯片封装中。

“您需要查看具有不同刺激和场景的门槛等的东西,”Semiconductor Sementrom Business Only)营销副总裁VIC Kulkarni表示,副总裁ansys.。“您可以对寄存器进行精确分析,但如果VDD不会下降,并且VT不会下降,则没有太多的边距。您还需要考虑像电灯过度光滑的东西。工厂不愿意采取。“

权衡范围从电力、性能和成本到服务质量。

“我们曾经总是有无损压缩,”想象力的甜菜说。“大约一到两年前,我们也引入了损失,所以我们可以履行质量。在GPU中,我们开始在董事会中看到质量与成本的权衡,并且损失压缩允许降低质量,这也可以节省带宽和功率。在GPU处理中,我们开始看到同样的事情,这是可变速率阴影。这基本上是当你看一下视频时,你会说所有你真正关心的是脸,你想要完整的细节,所以背景无关紧要。游戏基本上做同样的事情。例如,在赛车游戏中,汽车非常尖锐并且有很多细节,但其余的是它的运动模糊。“

在精度上也有权衡。较低的精度可以大大加快处理速度,而稀疏算法可以编写得不那么精确,无论是16位精度还是1位精度。但这种精度也可以由硬件和固件控制,它可能会对整个系统性能产生重大影响,因为有些功能比其他功能更精确。

结论
对于摩尔定律的前40岁或所以,对于大多数应用而言,权力,性能和面积的改进是足够的,并且数据的增长通常通过古典缩放来管理。在90nm之后,古典缩放开始显示压力的迹象。所以写作已经在墙上有一段时间了,但它并没有过度接受过。

但是,令人惊讶的是,仍然有多少途径仍然可用于大规模改进性能,较低的电源和潜在成本节约。工程团队正在以新的和有趣的方式创新。几十年的研究似乎像当时的模糊主题或切线现在正在偿还,并且在管道上有很多更多。

相关案例
EUV在3nm及以下的未来不确定
从技术角度来看,未来节点的制造芯片是可能的,但这不是唯一的考虑因素。
下一个高级包
新方法旨在实现更好的性能,更大的灵活性 - 以及一些较低的成本。
巨头的好与坏
IDMS利用小费孔模型,其他人仍在努力。
主流芯片架构的大变化(2018年比较)
随着设备扩展优势的下降,人工智能系统正在被设计成在本地处理更多数据。



留下一个回复


(注意:此名称将被公开显示)