中文 英语

确保AI/ML在测试系统中工作

AI拥有提高可靠性的承担,但它尚不完美。

人气

人工智能/机器学习正在越来越多地利用芯片制造和测试中的模式和异常数据,提高终端设备的整体产量和可靠性。但是有太多的变量和未知值可以可靠地预测芯片在现场的行为如何使用ai。

今天,每一个AI.用例——无论是自动驾驶汽车还是工业分拣机——解决了一个特定的问题,这使它变得独特。同样,基于人工智能的半导体制造和测试系统是为了解决晶圆厂或封装公司的特定问题。问题是毫克算法 - 这是AI系统的核心 - 随着时间的推移而变化,最新。ML算法和模型需要适应设备的其他变化和所制造和包装的设备。

“我们可能必须建立一个持续的培训和监测过程,”科技与战略副总裁Keith Schaub说安置的美国。“过程漂移,这意味着数据漂移,这意味着你需要不断监控你的数据,并在过程漂移时触发再培训。”我们知道怎么做。挑战在于知道需要培训多少,以及多久再培训一次。在我触发再训练之前,要漂移多少?”

当AI/ML系统被用于制造AI/ML芯片时,整个过程会变得更加复杂,而当机器被用于训练其他机器时,它将变得更加复杂。AI中的测量以概率和分布而不是固定的数字进行报告,并且许多过程步骤中的任何内在变化(包括包装)都可以是增量和累加的。

测试晶圆厂中使用的ML算法和模型
检查ML算法和AI系统的基本技术确实存在有许多方法可以验证ML算法对于制造和测试流程的有效性。B但即使有了这些成熟的技术,人工智能的成功实施也必须考虑到随着时间的推移所发生的变化,比如fab或assembly house的变化。

“当您在FAB中的模型测试模型时,您希望进行熟悉时间的真实生产模拟,”AI解决方案解决方案副总裁Jeff David说PDF解决方案。“我们在工厂有多种测试方法。例如,你有盲目的数据集。基本上,这意味着您拥有一个与用于训练或选择模型的数据完全分离的验证数据集。这个数据集在训练阶段根本没有暴露出来。有许多不同的方法可以进行验证。最著名的方法之一是k折交叉验证,其中k代表任意数量的整数。”

因此,可能存在8倍或10倍的交叉验证。10倍的交叉验证意味着将数据集分为10个块。

“让我们说你分手了在某种程度上完全随意或分层的数据集,在某种程度上,在某种程度上,”大卫说。“您不想从同一批次训练和测试数据。这将是作弊,因为在现实世界中,你永远不会有一个你可以做到这一点的情况。所以这个想法是你将数据集分解为10%的块。块A是数据的10%,当然可以随机选择,当然是跨越界限分层。然后你有10%的块来构成整个数据集。十倍的交叉验证意味着您将基本上通过所有10个块旋转,培训90%的数据,然后在另一个步骤测试。这是在剩下的10%上完成。然后你将其旋转到下一个块,然后是下一块,然后是下一块。你这样做了10次。 You train and test 10 times. Then you’re getting a good feel for that data set or how robust your model is across all that different data.”

大问题是,工厂的条件在物理上和时间上都是运动。在工具漂移中的传感器,设备不断重新校准。此外,许多算法本身更新,而不是FAB或装配房屋中的所有设备都是相同的。需要在这些模型中覆盖模拟以包含所有这些变化,并且在模型中构建这种精度并不重要。

大卫说:“你的工具得出的数据会有漂移和变化。”随着时间的推移,工具设置可能会改变。操作员可能会对测试器进行更改,从而影响从传感器收集到的数据。一种处理添加到算法测试中的时间成分的方法是使用你已有的数据(比如一年的数据)将时间段分解成块,按时间段模拟训练,然后与地面事实进行比较。“当你不断地训练和测试你的模型时,你基本上是在穿越时间,就像你在一个真实的生产模拟中一样。然后你就会看到它是如何站得住脚的,因为在这种情况下,你有了基本事实,”大卫说。

在过去,通过将边距添加到制造过程中可以处理这些类型的问题。但特别是在高级节点,以及在前沿节点开发的一些芯片的异质封装中,公差越来越紧,需要精确。添加太多的余量,可靠性会受到影响。增加太少,收益可能会受到影响。虽然AI / ML可以帮助识别这些问题中的一些问题,但是必须在大量移动件的上下文中处理这些系统生成的数据。因此,现在,而不是拍摄快照 - 时间测量,这些测量需要在各种时间段内融合模拟。

在某种程度上,所有这些都可以分解为可管理的部分。“这个行业使用的是培训数据和验证数据集,”Advantest的肖布说。“验证数据集用于检查ML是否正常工作。”

图1:基于基于FAB的AI系统。“机器学习是一种从数据中学习的算法,以创建部署的模型,并且可以在培训该模型之后进行预测。AI系统是该系统内置的,“PDF解决方案的Jeff David表示。来源:www.fat-nurse.com。

图1:基于FAB的AI系统。机器学习是一种从数据学习以创建模型的算法。一旦培训和部署,该模型可以进行预测。AI系统围绕它构建。资料来源:PDF解决方案/半导体工程德赢娱乐网站【官方平台】

在另一个级别,现在在这个过程中有很多未知数,因此有一个备份策略对此来评估所有这些变化并没有伤害。在这方面,在制造和测试设备中增加更多敏感性可以帮助。实际上,工具的敏感较差,ML模型成功的机会越少,营销高级总监yudong ha进入创新

“首先,在计量学中,一件事是你需要有敏感性,”郝说。“您的工具必​​须具有对过程中发生的尺寸变化的敏感性。没有任何敏感性,没有机器学习或任何其他技术都可以帮助您。其次,由于我们测量的装置的敏感性低,使用基于经典的物理学的建模技术不再足够了。这就是机器学习发挥的地方。另一方面,机器学习本身可能不是唯一的解决方案。物理仍然很重要。“

AI芯片vs. AI设备
随着AI / ml,事情非常迅速地混淆,因为AI / ML技术越来越多地用于制造AI / ML芯片。

“为了测试Fab中的芯片,检查和计量过程用于缺陷检测,”研发副总裁蒂姆斯通说讯连丝器。“在生产过程中,人工智能芯片可以以与其他芯片类似的方式进行检测。”

但这些芯片的外观和性能也与其他芯片截然不同。“在某些方面,一个人工智能芯片到目前为止只是一个真正复杂的SoC,”兰迪·菲什说,他是硅生命周期管理营销总监Synopsys对此。“然而,从历史上看,这种架构或微架构与我们在soc中使用的架构有着根本的不同。”

首先,人工智能因训练和推理而分裂。“这两种环境的约束条件非常不同。但至于如何测试,它来自晶圆厂你可以从晶圆厂获得一些信息,一些测试信息,一些晶圆测试材料。然后你进入晶圆级测试,所以你在奥特拉他们要么做逻辑BiST,要么做内存BiST,要么做DFT。”“我们与一些人工智能芯片合作。对我们来说,在很多情况下,这是另一个测试挑战。它非常分层。有趣的一面是,很多芯片都是排列结构。所以你可以通过这种方式解决测试问题。”

在AI芯片中,阵列结构用于创建网络。但是,而不是将装配代码或映射到二进制,它发生在标准处理器中,这是一个芯片地图到网络。

“你经历了训练阶段,它创造了一个有权重的网络,”他解释道。“然后,在提供此网络之前,那些就会映射到没有个性的芯片。所以这是第一种编程。然后您将数据流过该网络,并且它正在进行推理。它推断出来的东西。我们不会在该级别进行测试,对右,但如果我们在手机上使用应用程序处理器,那么我们没有测试所有这些功能。结构试验和系统级测试是整个区域。“

人工智能芯片可以在测试和维修上花费更多的时间。菲什说:“我们参与了一些非常大的、有十字线限制的设计,尤其是在训练方面。”“测试时间很敏感,因为他们要在测试员身上待很长时间。还有修复。在这些更大的数组结构中,您不仅仅是在进行内存修复。实际上,您可以修复处理器,比如在测试期间您可能会遗漏一个处理元素。您可以单独测试处理单元,如果其中一个不好,它就会被映射出来。因此,在这一点上,还有更多宏观层面的测试和修复。”

进行这样的更改可能需要返回并检查软件编译器。Synopsys仿真和原型产品营销高级总监Johannes Stahl说:“有了这种冗余,或者省略了处理器和重新映射,编译器当然需要理解。”“因此,需要通过硅再次测试这种编译器的能力。”

透视,芯片正在发生变化,片上和测试设备的算法正在发生变化,并且利用AI的制造和包装设备传感器遍布。因此,除了在全球范围内查看所有这些外,必须单独解决不同的碎片。

“支持AI的芯片基于CPU和/或GPU的顶部构建,”Schaub说。“因此,在晶体管水平的测试基本上保持不变。挑战成为一旦嵌入式AI算法,算法可能是“黑匣子”。我们需要提出一种可靠的方法来确保黑匣子正在正常执行。“

这需要一种评估这些测试准确性的方法,而机器学习正在这里应用。“不是所有的机器学习系统都是平等的,”CyberOptics的Skunes说。“你希望你的机器学习算法是有效的。你想要快速获得良好的性能。例如,机器学习算法,如AI2,你可以通过显示良好/无缺陷的图像,或缺陷的图像来进行教学,可以改善过程和产量。操作员可以快速地教,然后监控,从结果中学习,如果需要,通过更新训练集来改进和适应。我们设计机器学习算法的目的是为了不留痕迹,这样就不会有坏产品离开工厂。”

工厂的最后一步是确保AI芯片或系统的功能符合预期,这是系统级测试的工作。“从晶圆到封装(FT),测试仍将在晶体管水平,所以不会有太大变化。它将进行系统级测试,软件将装载人工智能算法,事情会变得有趣,”肖布说。“只要AI/ML是静态的(游戏邦注:也就是事情的发展方向),这在短期内就不会成为大问题。一旦我们开始部署自学系统,事情就会变得有趣起来。有了自学习系统,我们可能会看到特定的人工智能校准和诊断并行部署,持续监测和检查人工智能本身。”

PDF的大卫同意。“你应该不断验证你的系统 - 不断。您可以自信地在某些过去的数据上工作。但前进,我真的很自信我将发布我的生产,并相信系统要上班吗?“答案通常永远不会完全100%信任。

FAB仿真前的AI测试
虽然所有这一切都需要在FAB中被理解,但是它也需要馈回设计过程,在那里可以模拟和结合到测试计划的设计中。在这方面需要做很多工作。AI软件尚未准备好用于AI系统的早期设计阶段的仿真。

Synopsys的Stahl说:“在过去的5到10年里,我们有了CPU、gpu、内存和外设的规范架构。“整个设计界都知道如何做到这一点,他们拥有在现有芯片上运行的软件,比如Android或iOS,或任何需要在这些硅芯片上运行的软件。”所以问题主要是把软件放在硬件上,尝试做这个前硅,以确保以后在这个领域没有意外,或者在制造之后,没有意外。在过去的10年里,行业明白了这一点。在过去的5年里,我们使用了非常快的模拟技术,让这个软件先于硅的发展过程。所以这一切都是在普通CPU或基于处理器的芯片上完成的。”

AI是不同的,并且使用AI软件的编译器可能是一个问题。“AI通过整个水平增加了这个问题,这就是为什么,”STAHL说。“在AI中,软件不作为标准软件存在。它是所有特定于应用程序的。这些公司不仅是这些AI架构中的每一个都不存在的软件,这些公司必须开发一个新的软件堆栈 - 一个编译器,它占用任何AI应用程序,可以编译它们在目标架构上运行。因为所有这些编译器都是新的,所以它们可以是错误和效率低下。所有这些AI公司都创建了硅的软件型号,然后开发基于编译器的软件堆栈的软件模型,但最后还不够。所以当我们与第一家公司一起使用几年后,我们的目标是什么?他们需要在实际硬件上运行所有这些不同版本的软件编译器,并弄清楚它是如何工作的。然后,在几代客户上,我们有一个实际使用仿真的客户。 Over the course of one year they optimized their software stack so that the performance of the chip was 30 times higher than when they started. You can see the potential of what they need to do for success in the market, but they need to all come up with the best performance for these chips so they can function in real life. That’s what we have done over the last several years.”

结论
在半导体制造和测试中的AI / ML仍然是早期的。因此,虽然AI / ML对潜在的角落案件保持巨大的承诺并找到潜在的缺陷,但它不能信任100%。

PDF的David建议对AI/ML进行严格控制,而不是使用层层算法来监控其他算法。大卫说:“如果你创造机器学习算法来做出预测,以修正其他机器学习算法,这在计算上是非常昂贵的。”

总有安全模式。如果客户对人工智能系统预测的信心很低,那么在改进ML算法和模型之前,fab或OSAT总是可以回到没有人工智能系统时的工作方式。

“物理模型和机器学习模型都是预测模型,”郝浩说。“我们发现,通过将物理和机器学习在一起,我们可以获得最佳性能。机器学习与物理学互补。它可以帮助物理,但它不会取代物理。“

相关案例

Fab和测试数据太多,利用率低

ML在集成电路制造中如何应用?在哪里应用

使用机器学习在晶圆厂

用机器学习发现芯片的缺陷



留下一个回复


(注意:此名称将被公开显示)