中文 英语

mcm和芯片在制造测试过程中的调试和可追溯性

数据分析迅速成为完整IC生产流程的不可或缺的一部分。

受欢迎程度

几十年来单芯片和产品一直是常态。此外,在包装(SIP)中具有多芯片模块(MCMS)或系统,可以长一段时间。可以理解的是,在硅几何形状继续变小时,随着ASIC和SOC变得更大,有机会将更多功能与最终产品的较小形状因子相结合。因此,在最新的3D-IC封装中,设计的新设计和架构和架构的推进,设计的新进步继续如此,如最新的3D-IC封装所示。

虽然设计和包装的进步继续追踪硅过程的进步,但这些新的最先进设备的制造和测试中的复杂性和成本也继续以大的速率生长,并且产生更多的数据日常的。直观地,您可以想象今天有更昂贵的包装和总体更彻底的测试,比以往任何时候都更加彻底的测试。如果这没有足够令人生畏,现在有更多的压力来确保从每个MCM封装或多钟包装中托管的各个模具或小芯片中的每个单独的模具或尖峰,因为它只需要一个故障的模具或用于整个设备的小芯片失败。

无论我们讨论的是传统的MCM设计还是最新的置于SiP、2.5D-IC或3D-IC封装中的多芯片组设计,本文中描述的调试和可追溯性贯穿这些器件的制造测试过程的方法都是相同的。因此,在本文的其余部分中,为了简单起见,我一般将mcm称为被测试的封装设备,并将骰子表示封装中的芯片。

回顾不同的制造测试阶段

理解不同的测试阶段非常重要,因为从字面上看,失败可能发生在任何阶段。系统故障发生的时间越晚,公司开发这些设备的成本就越高,因为测试人员花在测试这些最终失败的设备上的时间浪费了。也有损失的收入和成本与制造这些骰子和相关成本,如果这些骰子使其成为一个包装之前失败。


图1:制造试验阶段。

如图1所示的主要制造测试阶段为晶片验收测试(WAT),凸块,晶片排序(WS),组装(ASSY),最终测试(FT)和系统级测试(SLT)。一个昂贵的场景如果设备组装成昂贵的MCM包后,如果设备使其在昂贵的MCM包中,请参阅以高速速率,则该方案将成为FT或SLT。

例如,假设您在FT或SLT上确实发生了重大的收益损失。在这种情况下,您必须正确地识别偏移的来源,并尽快纠正问题。一个合理的地方是在ASSY过程中,因为MCM包中的每个骰子在装配时都被认为是已知的好模具,因为每个模具在之前的测试阶段都经过了严格的测试并通过了。然而,也有可能是MCM的设计或包装中引入的特定属性,或者是产品后期阶段的新测试要求,现在可能会阻止某些骰子通过FT或SLT。但是从哪里开始排除故障并找到问题的根源呢?答案就在数据中。

可追溯性的重要性

要找到根本原因,您需要一种方法来追踪每个失败MCM内的每个模具的寿命通过各种制造测试阶段。还称为数据馈送的过程,如下图2所示。此时,您的任务实际上是看出在制造过程中的早期阶段存在测试参数或FAB条件,这些过程可以预测您在ASSY,FT或SLT期间遇到的故障。这样做将使您能够在此过程中纠正问题,并防止在以后的阶段期间的未来故障,以昂贵的制造包装和测试成本节省了很多。如图2所示,称为数据馈送的过程也在图2中示出。


图2:端到端部分级和mcm级可追溯性和校正。

为了妥善追踪每个模具的寿命需要至少三件事。

  1. 骰子本身需要包含一个嵌入的电子芯片ID (ECID)或一个二维条形码,这些条形码被蚀刻在基板上或标记在树脂上。测试人员现在可以在测试设备之前进行光学扫描来搜索2D条形码。
  2. 您的数据分析解决方案需要能够在整个生产和测试过程中跟踪和跟踪每个模具。这包括跟踪哪个单独的模具最终被放置在每个MCM包中。
  3. 您的数据分析解决方案需要能够在失败的mcm中的每个模具上单独执行的每个测试之间执行自动相关性。因此,在FT期间出现系统故障的情况下,当存在上游根源的下游问题时(如在WAT或WS期间),用户可以自动得到警报。然后,可以在这些早期阶段中的一个阶段纠正问题,防止在后期出现任何进一步的问题。

一个真实的例子

在这个真实的例子中,一家公司正在开发一个4-Die MCM打包产品,并在FT期间经历了MCM的失败,导致84%的收益率,如图3中的失败帕累托图表所示。这并不完全满足他们的MCM产品的目标产量要求,因此,他们需要尽快调试和解决问题。从BIN分析失败,很明显,他们的大部分FT失败来自箱子6,这是功能测试失败。


图3:Bin Pareto图表失败。

接下来他们想看到的是英国《金融时报》失败本结果附加背到晶圆上地图,以检查是否碰巧有地理空间关系这些本故障类型和位置的骰子起源于受人尊敬的晶片上,然后放入当前MCM包。图4显示的晶圆图有趣地显示,失败的Bin 6包中的骰子主要来自晶圆图的中心。


图4:ECID映射将FT结果链接到源模具的X/Y位置。

请注意,给定MCM中的每个芯片选自相同的晶片。这告诉您,所有四个模具都是同一设计在MCM内复制了四次。另一个有趣的发现是为每个MCM产品选择的骰子来自同一晶圆内的一般附近。一般而言,没有要求表明特定MCM内的所有骰子起源于彼此的近距离或甚至来自同一晶片。这是恰好这家公司选择为每个MCM设备选择它们的骰子。这可能是由于感知类似的性能,从相同区域中选择骰子,或者也许在选择骰子中的简单性或便利性,以便在MCM封装中辅助ASSY过程。

另一个重要发现是它出现但不能保证,只有与该特定MCM产品相关的骰子在图4中的该晶片图中表示,而不是其他MCM产品的不同数量的骰子或可能是来自的单一模具产品同样的晶圆。此外,请注意您在橙色骰子周围看到的,描绘了箱6的故障。周围的骰子是“灰色”的颜色。这可能意味着任何数量的东西,而是通常是以下之一:

  • 在进行分析的时候,wafer上的这些灰色的骰子还没有进行测试。
  • 这些灰色的骰子用于“不同的”产品,而不是这个特殊的4模MCM产品。
  • 在WS测试期间,这些灰色的骰子先前已经失败,但被列出并不再可用。

然而,看到有多少橙色骰子在同一个区域失败了FT,你可能会正确地想,也许这些周围的灰色骰子要么是在生产中的某个地方的边缘坏骰子,要么它们之前在WS测试中失败了,已经被丢弃了。因此,如果事实上这些灰色骰子失败有时在WS那么你将见证好死坏邻居的经典模式(GDBN),如果适当的质量措施以前,你想“墨水”那些周边好的骰子(橙色颜色)之前让他们选择和组装成这MCM的产品。因此,如果采取了适当的质量措施,许多橙色的骰子不应该被给予在生产过程中继续的机会,并被放入MCM产品中。

要确定,让我们仔细看看这个特定晶片在WS期间表现的特定晶片。如果我们对GDBN的假设保持真实,我们期望看到一些失败的骰子的中心模式。下面的图5显示了在该晶片图中的骰子上执行的所有WS测试的复合视图。但等等,失败骰子的中心模式在哪里?这丢弃了由于晶片中心中的大部分骰子通过它们各自的WS测试(由白色阴影阴影的骰子表示)的所有骰子来丢弃任何GDBN的概念。因此,晶圆中心的这些良好骰子没有WS的失败。这意味着这些相应的良好骰子在包含FT结果的图4中的上一个地图中也显示为灰色的灰度尚未经过测试,如果它们属于同一MCM产品,或者它们被放入另一个产品中未显示。


图5:晶圆的所有WS栅格结果。

所以,此时你可能会想知道,我们必须找到哪些其他选项来找到问题的来源?嗯,我们可以开始研究在组装失败的这些特定MCM期间执行的测试。我们也可以继续看看是否有任何WS参数,该参数是在FT期间失败MCMS的橙色彩色中心模具模式具有类似的模式。但是,我们应该尝试将FT失败的BIN映射映射相关哪些参数测试?这是良好数据分析解决方案的力量的位置非常方便。

在这种情况下,公司只需选择一个选项,自动使工具在所有WS参数测试结果和FT ECID模块失败的丢弃结果之间关联起来。下面的图6是该工具返回的结果,下面的图7显示了在FT中识别的失败骰子的特定泄漏电流测试的WS参数结果。


图6:所有WS参数测试的相关结果和FT ECID模块分布结果识别来自一个参数测试的匹配模式。


图7:FT对失败骰子的WS漏电流参数测试结果。

该工具回来说它找到了一场比赛!在查看上面的两个晶片图中,就影响两个晶片中心的特定活动模式而言,存在明显匹配。WS泄漏晶片映射中所示的颜色方案表示中心的晶片是“冷”,并且在温度朝向晶片的外边缘向外径向增加。晶圆在中心实际上并不冷。术语感冒通常用于描述非常低的泄漏,这也可以与更慢的执行设备相关。当朝向晶片的外部区域移动时,性能应改善其他设备。但是,热设备不一定更好。虽然更热的设备可能以更快的频率运行,但它们也具有更高的漏电流,并且电池寿命较短。因此,根据应用,甜点可能最终在寒冷和热之间的中间的某个地方,以实现设备的所需功率/性能平衡。

很明显,在WS上显示的低泄漏结果导致FT模块在BIN 6中发生故障。X轴上的数字是毫安的电流测量。如上所述,低泄漏装置很好地绘制非常低的功率并产生更持久的电池寿命。然而,这个真实界限最突出的问题是晶圆中心的骰子只是表现得太慢,很可能不符合MCM规范。精确的是,由于有292个骰子,因此组成了所有BIN 6的失败MCM,那么单独使用来自该晶圆的总共73个MCM(292/4 = 73)失败,并且必须被报废或潜在地降级到以低廉的价格出售,以获得不需要快速执行设备的最终应用程序。

但我们现在可以采取什么措施,来防止英国《金融时报》发生更多这样代价高昂的失败?仔细查看图7中的图表,可以发现该测试的下限被设置为零,而上限被设置为16ma,因为红色的线描述了规格限制。一个简单的解决方案是简单地将规格下限移到右边,这样将来测量到这个新下限左边的骰子将无法通过WS Current leak测试,并在此过程的早期被丢弃。那么问题就变成了你想把规格下限向右移动多远?你会把它移到0。5毫安,1。1毫安,甚至是1。5毫安吗?答案就在你卖这些MCM设备的成本与制造每个MCM设备的成本之间的成本-利润权衡分析中。

但是等待,在决定移动规范限制和多少之前需要考虑。到目前为止,所示的分析仅在一个晶片上;几乎没有产生的产品生产线的代表性采样。在仅在分析一个晶片后,可以做出一个可能会禁止可能很多好的骰子的规格限制,这是一个决定。答案显然不是。不幸的是,当我们决定写这篇文章时,这款MCM产品的全部生产数据不再可用。然而,我们真实例子中的下一个逻辑步骤将是为了迄今为止迄今为止涵盖所有制造的MCM的范围,并执行类似的FT Bin VS WS泄漏图,如上所示,但现在反对整个MCM群体只有一个晶圆。

假设在分析了整个MCM人群之后,您确定FT中所有失败的设备都不可用,如果在WS期间移动这个测试的规格限制,您主要是捕捉那些导致FT失败的骰子,同时也不会扔掉任何好的骰子,那么你的利润率肯定会通过在WS早期淘汰坏骰子而增加。主要原因是你可以通过不将那些糟糕的死亡转移到昂贵的包中而节省构建成本。一个好的数据分析解决方案允许您手动拖动规范限制,以模拟如果您移动限制,在WS期间您将损失多少个骰子的净效应。这个模拟将允许你评估你在FT的总体成本和盈利能力之间的权衡。

最坏的情况,以及解决的方法

如果不适用于能够在几分钟内快速隔离问题的数据分析解决方案,本文中描述的真实例子可能是这家公司的一个极其昂贵的问题。在每次失败的MCM内跟踪每个模具的历史的能力以及在按下按钮的推动下,在那些骰子上执行的每个测试的能力都是能够快速解决这一潜在的经济困难。但这是最糟糕的情况吗?答案是不。更糟糕的事情可能会托运。

对任何公司来说,最大的担忧是他们制造的设备最终会进入指定的最终产品,销售给最终用户,并在使用中失败。公司不仅会遭受潜在的业务损失,还可能对其品牌声誉造成不可弥补的损害。将严重程度提升到另一个水平,如果该设备最终被用于汽车、交通或医疗设备应用中,其中有缺陷的设备可能导致生命损失,该怎么办?这可能是你想要不惜一切代价避免的最坏情况。确保高质量的设备并不是本文的重点。然而,确保高质量的设备是一个好的数据分析解决方案可以交付的东西,通过建立几种不同类型的异常值检测和逃逸预防技术,以确保只有最高质量的设备才能生产和部署在最终产品。

如果在现场使用中,设备的故障超过了可接受的阈值,公司可以采取什么措施?答案还是在制造测试数据中。随着设备最终以退货商品授权(rma)的形式被退回,通过首先识别每个设备中的唯一ECID或2D代码,可以快速地对这些被退回的设备进行分析。从那里,您可以开始显示每个设备中每个模具上的测试数据结果的整个历史。类似地,如果之前还没有对所有数据进行分析,那么您将开始对所有数据进行分析,并让工具识别在分析和交叉相关所有测试数据时可能发现的任何潜在问题。

分析各次的终极目标是双重的:(1)确定问题的根源和纠正它未来的生产设备将不再有同样的问题,后来在使用时失败,(2)主动寻找“喜欢”设备,类似于那些测试作为一个RMA返回但仍在使用。根据问题的严重程度,公司可能希望积极地“召回”其ECID或2D代码识别的特定优秀设备,这些设备可以通过追踪供应链中相应的零件序列号追踪到正在积极使用的最终产品,直到可疑的最终产品被识别并安全地召回。

当然,如果没有正确的数据分析解决方案,并不是所有这些纠正措施都可以合并。

数据分析解决方案的需求

不幸的是,当今市场上并非所有的数据分析解决方案都以同样的方式解决问题,或者使用激光般的时间和精度。虽然大多数或所有的解决方案可能最终得出相同的结论,但差异在于找到根本原因并采取纠正措施以纠正问题的速度有多快。

在评估数据分析解决方案时,你可能需要寻找以下属性:

  • 能够从上面列出的所有各种制造测试阶段接收和分析测试数据(Wat,Bump,Ws,Assy,Ft,SLT)
  • 能够在没有您的任何输入的情况下自动为您提供立即反馈,而没有任何输入,包括根本没有特殊查询或手动操作任何数据集
  • 能够在只需点击几下只需点击几下面就会执行根本原因分析,并且为您提供所有数据并显示
  • 能够执行任何测试数据的交叉分析,例如按下一个按钮,任何测试结果的相关性
  • 能够立即评估任何数据量,对性能没有影响
  • 一旦发现问题,能够向制造供应链提供纠正措施
  • 能够在一个易于使用的协作环境中支持所有用户类型,包括所有工程师、经理和主管

在这个真实世界示例中使用的产品被称为Synopsys的silicondash。请访问我们网站想了解更多关于这一不可或缺的技术的信息,请观看我们最近的节目网络研讨会由Marvell提供的现场演示和主题演讲解释了大数据分析解决方案最终被正确架构所带来的好处。



留下一个回复


(注意:此名称将公开显示)