中文 英语

《不止摩尔》(More Than Moore)

多芯片设计变得越来越主流,但仍然存在差距。

受欢迎程度

随着功能扩展达到物理极限,半导体行业正在拥抱多模封装,但如何以最少的痛苦和最低的成本实现这一目标仍在研究中。工具和方法方面仍然存在差距,互连标准仍在开发中,而且有如此多的打包实现,选择的数量往往令人难以承受。

今天的多模实施包括一系列在过去40年中发育的包装技术和方法。它在20世纪80年代开始使用多芯片模块。在20世纪90年代后期,介绍了包装系统的方法。随后是2008年左右基于因特工的实现。今天,所有这些都仍然存在,以及扇出,真正的3D-IC和一些专有实施小芯片,有时被称为分解的SoC。

大部分这一部分是通过减少性能和功效从10nm的缩放减少,以及最先进的节点(例如多种类型)的物理学相关问题的数量越来越多噪音,热效果和电迁移。大多数在这些节点上工作的公司已经在利用某种形式的先进封装,以帮助证明转移到下一个节点的巨大成本是合理的。

在这个“超过摩尔”范式中正在进行三大改变:

  • 使用小芯片的异质集成。英特尔,AMD和Marvell等公司已经为自己的设计采用了尖峰方法,但正在进行努力来规范小孔的界面,并将其打开至第三方盗贼。
  • 多芯片性能的大量改进。方法如扇出wafer-level包装最初被定为低成本的替代品2.5 d3D-IC.,但是密度,柱子,高带宽内存和更快的互连使这些方法更具吸引力。3D-IC同样开始在这个市场的高端形成。
  • 所有主要代工厂都转移到先进的包装中。TSMC,UMC,GlobalFoundries,三星及其其他人今天提供先进的包装选项。台积电也在生产线的前端开发包装,其中使用直接粘接方法将尖峰直接蚀刻到硅中。

“MTM的一部分意味着可能是摩尔的法律真的即将结束,有些人认为它已经结束,”IC包装和跨平台解决方案的产品管理集团总监John Park说韵律。“事实上,自从finFET成为一种选择以来,每个晶体管的价格实际上已经上涨了。这是摩尔定律的重要组成部分,所以你可以说它在2012年或2013年结束了。”

无论如何,它绝对将要在某些时候结束,至少对于SoC中的许多组件。“我们不能由于物理法制造一些东西,”公园说。“同时,在最新节点的设计芯片花费数百万美元,需要大型设计团队。如果国防部正在建造1,000次核潜艇,他们将永远不会在7nm或5nm时创建设计。因此,国防部以及中型和低批量工程团队已经开始研究基于摩尔定法律的简单缩放的替代方案,因为它再也没有意义了。“


图1:多模溶液的演变。资料来源:Cadence.

Xilinx在2011年不再是第一个商用的2.5D芯片,基于通过一个连接的四个芯片插入器。该公司在该决定背后的主要司机是较小的筹码取得了更好的收益率。从那时起,重点转移到设计大规模平面芯片的成本,以及增加了更多RF和模拟到高级节点设计的难度,因为模拟不会受益于缩放。事实上,高级芯片中的许多模拟IP块都是混合信号,随着数字部分的强调而增加。

“真正的整体三维3D将在未来几年内联网时增加更多可能性,”Rob Aitken,Sitel和R&D技术总监手臂。“移动两种主要驱动因素,用于多模 - 成本和能力。当预期大管芯上的产量低时,发生成本降低,并且由多个较小模具产生的产量改善将大于覆盖组装和包装中的额外成本和复杂性。在这些情况下,特别是在相邻的模具方法中,设计人员需要首先集中在芯片之间分离设计,这使得在模具之间最小化通信带宽。它们还可以选择在不同的过程中实现个体模具,在在早期节点上实现模拟或混合信号电路的同时将高速数字逻辑定位到出血边缘。一旦决定进行多模,就会有意思地看出可以在单个芯片中无法复制的多模解决方案可以实现的功能。最简单的例子是一种简单太大,无法适合单个掩模版。但其他可能性比比皆是,特别适用于具有高模糊带宽的堆叠模具解决方案。“

堆叠的模具增加了另一个维度,以落地规划,这是一个大益处,因为芯片变大,电线变薄。例如,允许芯片制造商将缓存更靠近处理器移动到处理器。因为数据需要行进的距离减少,并且可以根据需要尺寸大小的互连,它可以提供显着的性能。在某些情况下,这相当于缩放到下一个节点。“选择右函数在多模系统中分开也可以实现底层逻辑,内存和I / O模具的不同组合,这使得可以从几个简单的构建块构成多个不同的复杂性,”Aitken说。

预测性能
然而,这并不总是如此简单。任何设计中的重要考虑都是预测性能的能力。估计可以变化,实现解决方案并不像添加Lego块一样简单。了解不同的块和实现如何影响性能,电源与单个骰子上的权力一样重要,并且从不同组件的良好表征开始。

“有了这样的性能指标,芯片和系统设计师就可以在设计的早期阶段就比较不同的技术风格,比如不同的金属堆栈、阈值电压或不同的技术,”三星系统集成集团经理Andy Heinig表示Fraunhofer IIS的自适应系统部门工程。“这些指标也可以在下一阶段中使用,以比较不同的系统架构彼此。这样,芯片和系统设计人员可以感受到系统性能的可能性。但到目前为止,系统设计器没有此类指标用于包装。此外,目前有很多不同的包技术可用,它们都不能一起使用。适合一个基板技术的不同的球形技术与他人不匹配。只有这样的决定能够由包技术专家决定,但他们没有在电气方面经验。电气系统专家不知道包装技术的INS和输出。因此,从那时起,很好的指标或高级勘探工具是必要的。“

这些工具需要隐藏技术细节,同时仅显示有效的包装选项。“通过这种工具或指标,系统设计人员可以比较不同的架构,例如芯片之间的NOC或芯片之间的互连数,以简单而快速的方式,”Heinig说。

先进的包装的大优势之一是热量可以在模块中的包装中传播,而不是包装到单个模具上。在7nm和以下的FinFET设计,漏电流,电阻和动态功率密度产生如此多的热量,即避免烹饪芯片是必要的复杂电源管理方案。但是包装中的热管理和电力分布并不总是如此简单。

多模具实现了多层复杂性,具有多种这种高性能模具,深深嵌入了2.5D或3D包,观察理查德麦佩帕特兰,技术营销经理Moortec.。“标准做法是在每个模具中包括芯片监测器的织物,例如来自Moortec的芯片监视器,以提供芯片和使命模式的片上的实时条件的可见性。通常,多个温度传感器用于监测已知和潜在的热点。此外,强烈建议使用具有多个感测点的电压监视器。这些直接在关键电路块处使电源电压能够被监控和控制速度如此依赖于电源电压。片上工艺检测器也是一个必不可少的工具,其中处理性能和功率效率是键。当用作完整监控子系统的一部分时,它们可以实现优化方案,如电压缩放和老化补偿。“

为什么选择多死?
尽管存在这些挑战和其他问题,但行业别无选择,只能继续推进多模实现。同时,先进的包装打开了一扇门,一些选项从未存在于过去。

“多模方法”是更具体地定制流程技术的好方法,以便系统的一部分需要做的事情,“史蒂文求和,以及尊敬的发明家Rambus。AMD有一个多芯片解决方案的好例子,计算核心建立在一个芯片上,你需要多少就放多少。然后它们都围绕着另一个die,它的工作是连接到I/O和内存。这种实现的好处是所有这些技术都在以不同的速度发展。所以你可能对DDR4或DDR5之类的东西很满意。但是,从历史上看,内存的改进速度比处理器的改进速度要慢一些,所以当您构建下一个处理器时,您不需要将相同的内存接口移植到下一个进程节点。只要您对它的性能和功率效率感到满意,您就可以把它放在原处。但你要做的是驾驭技术曲线,构建更好的处理核心。从这个角度来看,这真的很好,因为你可以把所有的精力花在需要改进的东西上,也就是处理核心上。而你在上一轮中所做的——内存和I/O接口——变化不是很快,所以你可以再次使用它。”

这也有助于产量。“因为模具产量在模具的大小上取决于骰子的大小,如果你总是加入界面等东西,它自然会使模具更大,”沃奥说。“如此,多死是一种优化成本的一种方式,然后优化您花费努力的地方。”

对多模实施的另一个考虑因素是它将散热延长出来的较大区域。“所有这些东西都受到热量的影响,”他说。“您必须确保的是,执行此操作的性能,成本和物理规模与能够达到性能目标以及成本目标的标准匹配。我们肯定会看到有案件是真的。但是,你需要某种方式来连接这些东西,所以现在有一个更多I / O的机会。有一系列权衡,您可以在设计那些连接芯片的I / O中。“

Multi-die用例
今天的多模实施是芯片世界的开拓者。它们用于从高性能AI培训到推理,基因组学,流体动力学和先进预测应用的所有内容。

“这些都是非常复杂的,复杂的工作量,”Rambus IP核心高级总监Suresh Andani说。“如果您考虑单片模具,则需要拥有所有I / O以获取正在处理它的芯片中的数据。然后,芯片本身内部有很多计算元素需要进行高性能计算。然后,您必须使用最低延迟和最高带宽非常接近内存访问,并且您必须尝试将所有这些东西放入一个整体模具中。“

多模实现是一个全新的机会,潜在的用例才刚刚开始出现。

“设计考虑因素非常依赖于落入两类的用例,”高级产品营销经理Manmeet Walia表示,synopsys.。“一个人分开了模具 - 将大型芯片分成较小的碎片,因为芯片正在接近最大掩模版尺寸限制。他们达到了在经济上可行和技术上可行的那一点,因为产生这些大的死亡是因为产量低。它成为一个经济和技术可行性问题。“

目前,大多数高级包都用于网络交换,服务器和AI培训和推理。但随着这些方法变得更加主流,它们也开始在其他应用中出现。

“沿类似线条的另一个用例是,很多这些计算芯片都希望缩放,具体取决于不同的应用程序,”Walia说。“其中一个公开的例子是AMD Ryzen芯片组。他们可能想要使用相同的骰子进入桌面,高端桌面或服务器,因此为了缩放SOC,他们可以构建一个基础模具,然后可能为笔记本电脑使用一个,两个用于桌面,四个服务器应用程序。这是另一个用例,它正在缩放这些soc。“

多模具实现还允许设计团队在SOC中将多个功能带一起。“他们希望聚合多个函数。这是一个良好的例子是5G无线基站,其可以具有RF芯片,其中天线在较大的几何形状中开发,基带芯片更为数字和缩小。这使其能够基本上重复使用RF芯片。

“但他们会不断优化,引入多种功能,”瓦利亚说。“一些FPGA公司也做了同样的事情。这种情况正在汽车和消费应用中发生。例如,一台电视可能有许多不同类型的连接,包括电缆连接,甚至无线连接。所以一个零件可能有不同的模具,但是数字信号处理,视频处理,是在一个巨大的数字模具中进行的它会不断缩放,并且会在工艺几何上继续向下移动。聚合多个功能或将不同的功能放在一起是另一个用例。”

选择您的节点
关于高级封装的最早争论之一是混合和匹配在不同流程节点上开发的IP的能力。最初的实现基本上是同质化的,但由于摩尔定律的减速和终端市场的分裂,这种情况在过去几年中发生了改变。这反过来又为基于多个过程选择的半定制解决方案提供了许多机会。

“有时我们要呈现的解决方案是多芯片解决方案,所以我们可能有一个啜饮,其中有两个模具,那么Die基本上是它必须管理的功能,”Darren Hobbs副总裁营销和业务发展Adesto Technologies。“一般来说,射频和高速射频是在0.18这类较老的几何图形中完成的,这对于低于6 Gbps仍然是一个非常好的几何图形。超过6gbps,我们可能会达到55nm。这些是射频的最佳节点。与此同时,如果你需要大量的处理,你想要深入到更深层的几何结构,比如28nm或者更低到finFET空间。然后,如果你想从芯片上获取数据,它将需要一个高速接口,而这本身也将决定你可以使用什么几何图形。有很多竞争的要求,每个人都想要一个单片芯片,所有东西都在一个芯片上,因为这通常是最便宜的东西。但不可避免的是,在很多情况下,我们必须提供一个双芯片的解决方案,或者在某些情况下提供一个三芯片的解决方案。它归结为进程和函数之间的最佳权衡。”

SIP演变为小芯片
类似于分列/模块化的SOC方法是传统的系统内容,也不是站立。

“而不是采取多个筹码,我们现在正在谈论小芯片,”Cadence的公园说。“我们总是拥有硬和软的IP,这是驾驶SOC的钥匙。我们现在拥有这个名为Chiplet的第三版IP,这已经建成,制造和测试。好的,准备好插上。今天,它只通过垂直综合的公司来完成,这些公司设计了设计的小费品和他们坐在的芯片。“

但是,随着行业开始拥抱多模实施,这有望改变,对供应链具有广泛影响。

该公司半导体业务部门的营销副总裁兼首席策略师维克·库尔卡尼(Vic Kulkarni)表示:“这一技术目前正在向汽车传感器摄像头以及其他应用领域发展。有限元分析软件。“对于多模集成,你是如何做到的?”这正成为世界各地许多公司的上市渠道。这些不是标准的节点驱动设备。这些是用例驱动的设备。这是人们正在朝着的方向,而不仅仅是标准的技术进化,也就是摩尔定律。”

一个示例是由索尼开发的3D-IC,顶部有一个CMOS传感器,然后是AI芯片,底部的CPU芯片,全部与硅通孔(TSV)连接。“这是一个真正的3D-IC,而不是2.5 D,现在主要是常见的。真正的3D-IC结构将有助于为自主驾驶做出更好的决策,无论是在融合相机的意义上,几乎都是所有的汽车。什么是非常有趣的是,它在一起带来多个问题 - 机械操作,热膨胀,焊料凸起随着热量而松动,以及其他热问题,自主车辆中的发热非常高。这些是具有高性能计算应用程序的相同问题。“

哪种打包方法最适合高性能计算还有待观察。它可能取决于各种因素,例如什么对特定应用程序足够好,以及算法是否能够与硬件紧密地开发以弥补任何效率低下的地方。

“如果您同意这种异构整合的定义和基于小杉的方法是一个分类的SoC,那将是PPA的一个大人物,”公园说。“这些东西将由多个块内构建,而不是集成在单一单体设备中。在高性能计算等应用中,我在那里有问号。会产生影响。唯一的问题是,它在一个可接受的范围内吗?显然有益于,包括降低成本。它更容易做到,它需要较小的设计团队,理论上的风险较低。但在PPA的地区,这是SoC设计世界的每个人都集中在过去十年中,有很多未知数。和标准今天不存在。没有种类的商业模式。 Because of this, there is no general commercialization of chiplets. It’s where the industry wants to go, but there’s no business model for the IP providers, there’s no standards, and there’s no metrics on the PPA impact on using this type of disaggregated approach.”

虽然小斤进方法继续其演变,但今天有很多事情发生了很多,而高性能计算。实际上,许多新的包装方法是由HPC驱动的,这需要包装内存,无论是GDDR6还是HBM2 / 2E。

“将其与以前的计算架构进行比较,其中存储器在PCB主板上分开,”Keith Felton,产品营销经理导师,西门子的业务。“随着当今的性能需求 - 如带宽和低延迟,以及最小化功率 - 内存正在使用处理器移动到包装中。这是一个趋势,将开始延伸到更多的消费者高性能设备(如笔记本电脑)。用户可升级的内存将成为过去的事物。“

HPC采用均匀和异构的装置与单片SOC。“由于产量和成本的挑战,大多数HPC CPU不再使用单片SOC,”Felton表示。“相反,他们经常转向同质的一体化,从字面上分解整体设计成两个或更多的模具。通过均匀,必须将所有模具集成在一起以功能。HPC还可以采用异构集成的技术,其中模具可以单独操作或组合以提供更大的性能缩放。“

通常需要硅插入器或嵌入式硅桥来满足数据速率和延迟性能要求。使用均匀或异构分类方法构建HPC CPU时,必须最大限度地减少数据吞吐量和延迟,而不仅仅是在模具之间形成CPU,而且还可以在内存之间。到目前为止,通常通常是硅插入器或嵌入式硅桥(一个或多个)用于在密钥相互作用函数之间提供硅级信号性能。

所有上述项目都需要创建3D装配级模型,以便定义和理解设备之间的关系和支持基板之间的关系,而且还可作为用于驱动实现的蓝图或金色参考模型(数字双胞胎),验证,建模和分析。还需要是在设计周期早期的芯片包相互作用的热诱导的相互作用应力分析,以防止早期田间失效。由于不同的材料及其相互作用,芯片包相互作用仍然是一个重大挑战。Felton表示,在设计进入全电气设计之前,需要考虑和减轻翘曲和Microbump开裂的效果,并且在一个完整的电气设计方面进行了缓解,并且3D装配模型是至关重要的。

最后,由金色3D虚拟装配模型和系统级网列表驱动的3D装配验证是必需品。

他说:“对于任何多模、多基板的器件,在单个元件制造后必须进行组装,你需要验证制造后的所有部件仍能对齐,电力和机械性能如预期一样。”“这就是3D虚拟模型(或称数字孪生模型)发挥关键作用的地方。它提供了验证、分析和建模工具,并提供了项目应该如何互连的蓝图,然后它可以映射到实际的物理伪造数据,以检测任何变化,如模具收缩导致的错位,可能导致短路或打开或最终的生命周期故障。”

相关文章
热挑战和摩尔定律
为什么有些组件越来越大,更昂贵。
小芯片,更快的互连,更高效率
为什么英特尔,AMD,ARM和IBM专注于体系结构,微体系结构和功能变化。
摩尔定律现在需要先进的包装
表格的专家,第1部分:收缩功能不得不。现在的大挑战是如何实现规模经济并尽量减少复杂的集成问题。
摩尔和更多(博客)
Chiplets,包装和一些有趣的新挑战。



1评论

迈克尔 说:

好看!我也在开展新的框架,这非常有洞察力。

发表评论


(注意:此名称将公开显示)