中文 英语

为什么芯片死亡

半导体器件在制造之前和之后都面临许多危险,可能导致它们过早地失效。

人气

半导体设备包含数亿个在极端温度和恶劣环境下工作的晶体管,因此,许多此类设备不能按预期运行或寿命有限也就不足为奇了。一些设备从未走出实验室,而另一些则在工厂里夭折了。人们希望大多数发布到产品中的设备能够存活下来,直到它们被淘汰,但很多事情可能会导致它们不能走到那一步。即使是运行正常的设备也可能会受到危害,以至于无法提供正确的结果。

常见的危害和导致它们的原因有一个长长的清单。它们通常分为几个类别,下面详细介绍。

死于设计
根据Mentor / Wilson功能验证研究,仅在2018年达到硅成功的26%,从之前的研究结果下降。成功率低的部分原因是新技术节点增加了不完全理解的挑战。一段时间内的问题被纳入工具和流动,使那些已知问题较少的威胁。然而,2018年,混合信号界面,串扰,时序和IR下拉 - 所有已知问题 - 在这些问题引起的速率下锯上升。


图。1:有助于重新旋转的ASIC缺陷的类型。资料来源:威尔逊研究小组和导师,西门子的业务,“2018年功能验证研究。”

“一些客户的芯片之所以失败,是因为他们的设计过程更特别,”该公司产品经理张国健(Kenneth Chang)表示Synopsys对此。“一个客户确实块级功率分析,然后集成。他们认为他们可以解决这个阶段的问题。它是一个不可估计的,芯片死了。芯片死亡,因为旧方法不再是新的攻击先进技术。“

失败不一定是非功能性的。“它可能会失败,因为它没有达到业绩目标,”杰里·赵(Jerry Zhao)表示,他是Digital and Signoff Group的产品管理总监韵律。“如果硅回来的时间比预期慢10%,它可能在市场上不具有竞争力。”

功率是一个挑战,特别是当功率是芯片上的时候。“电力传输网络(PDN)是一个分布式RLC网络,可以划分为三个部分:片上,封装和板,”Lisa Minwell,高级解决方案营销经理说手臂实体设计组。“芯片上需要更快的时钟频率,更低的电压操作和增加晶体管密度。虽然先进的finFET技术使性能持续提升,但增加的功率密度使IR下降关闭成为一个挑战。精确建模和最小化电压裕度对于平衡能源效率和鲁棒性至关重要。”

但是边缘可以悲观,从而限制竞争力。尽管发现问题,有些公司承担了风险并提前移动。“一家大型记忆公司介绍了已知的大型IR下降问题,”张说。“只要它看起来看起来不太糟糕,他们就会出现,因为时间表对他们来说更重要。客户正在学习,在这种情况下,他们的芯片没有失败。如果他们没有失败,他们只是继续做他们正在做的事情。当他们到达更具侵略性节点时,他们需要成为更多的公制驱动并进行鉴别分析。“

越来越多的问题也变得耦合。例如,功率,IR滴,热,定时,电迁移全部链接,并且对于大多数这些都是分开的分析。“电力噪音是一个问题,”赵说。“电源掉落,同时用户想要更多的性能。您没有从电池的驾驶能力,也许是850 MV,但您仍然需要3 GHz性能。电力噪音可以产生重大影响,特别是如果模具上有变化,并且这种[噪音]可以随时间和位置而变化。因此,不同位置的相同电池可能基于电压降,因此定时延迟。您必须在电压下降的背景下分析细胞,并进行静态电压感知定时分析。一些路径可以对电压变化非常敏感。“

由于问题变得更好,因此工具执行更好的分析,设计方法可用于规避问题。“复杂性导致更大的功率密度,这反过来又会在芯片内创造局部加热(热点),”营销副总裁Ramsay Allen解释说:Moortec.。增加的栅极密度也会导致供电电压的更大下降。在整个设计过程中,高精度温度传感器和电压电源监视器使系统能够管理和适应这种条件,通过提供热管理解决方案和电源异常检测,提高设备的可靠性和优化性能。这一点在数据中心和AI设计中尤为重要,因为不断增长的性能要求给温度和电压的设计带来了巨大压力。”

死于制造业
半导体器件的制造涉及仅测量几纳米的结构。为了使其进入视角,直径为2.5nm的人DNA的链,而人的头发在80,000至100,000nm处。单个灰尘粒子可以在晶片上破坏几个模具。如果模具的尺寸变大,则随机故障的机会增加。对于成熟的过程节点,80%至90%的产量是可能的。然而,对于较新节点,产量可能明显低于50%,尽管实际数字是密切保护的秘密。


图2.晶圆缺陷模式。资料来源:Marvell Semiconductor,ITC 2015。

即使没有受到灾难性影响的死亡也不能被认为是可操作的。制造步骤并不完美过程变化只有一个原子可以产生显着差异。虽然这可能不会对设计某些部分产生影响,但如果流程变化发生在临界时序路径中,它可以将设备置于规格之外。

“随着设计演变为深层微米技术先进的包装该公司ESD/Thermal/ reliability产品经理Karthik Srinivasan解释道有限元分析软件。“这会导致设计流程出现漏洞,从而导致一些失败。”

设计流程越来越多地允许在开发早期考虑变化,以将其影响最小化,而设计技术如冗余可以减少需要丢弃的“几乎工作”芯片的数量。“几乎工作”芯片对于大型存储阵列是非常常见的。Binning是另一种经常用于处理器的做法,在这种情况下,运行频率较高的最佳设备可以以更高的价格出售,而那些只有在频率降低时才能正常工作的设备则以折扣价出售。

测试的作用是找出哪些模具是功能齐全的。那些边缘的模具经常被放入弃堆,但一些非功能的模具逃脱并最终成为产品。

通过处理死亡
有多种方法可以杀死一个芯片。假设将0.5V施加到芯片外部,当施加到1nm的介电体上时,会产生0.5MV/m的电场。这足以使高压电线电弧。现在考虑一下当你接触芯片的大头针时会发生什么。

赵解释说:“通常情况下,这是一个更高的电压,并且根据针被触摸的方式,你有不同的模型,比如人体模型或电荷分布模型(CDM)。”“这些模型定义了电流是如何供给到引脚的。这是一个随时间变化的波形。”

通常,芯片将包含静电放电(ESD)保护。“对于一个包装上的单一死,他们针对2kj等标准,”指出了ANSYS的Srinivasan。“多芯片解决方案,如HBM选择稍微低一点的标准。一个去的理由2.5 d三维集成电路是性能,ESD是一种用于性能的障碍。您尝试将ESD最小化或甚至在这些宽I / O接口或任何类型的多模接口通道上摆脱它,这意味着您无法为每个针对单芯定位的标准测试每个骰子。他们必须经过更专业的测试方式,因为它们将具有最小的ESD保护,或可能没有ESD保护。“

即使在操作过程中,ESD事件也可能导致问题。安谋公司的明威尔说:“静电放电会导致便携式电子产品出现许多类型的软错误。”在ESD事件中,由于某些IC(振荡器IC、CPU和其他IC)的灵敏度,或由于场耦合到PDN迹线,配电网络(PDN)上可能会产生噪声。

协会死亡
“软错误可能以多种方式发生,如果这些对设计来说是系统性的,它可能会让人觉得芯片好像没有工作。3D集成电路正在增加对电磁感知设计方法的需求,”Magdy Abadir说螺旋桨。“这是因为产生了更高的功率密度和堆栈层数的增加,这就产生了更高的风险,天线会放大整个设计产生的磁场。”

电力供应不足也会造成问题。“芯片的功能取决于晶体管的转换,”赵说。“这取决于供电电压。如果它在1V时可以工作,它可能会再下降10%或20%仍然可以工作。但时间会有所不同,因此最大时钟频率可能需要降低。”

随着电压的降低,电路因为更容易受到噪声的影响。ANSYS半导体事业部首席技术官Norman Chang表示:“电磁干扰(EMI)是芯片向环境发出的噪音。”“噪声源来自有源电路,它将在电源地线和信号线上产生电流。电源/地线将通过封装到PC板,如果它在封装或板上看到天线结构,将引起通过空气辐射,然后通过天线结构辐射作为对环境的干扰。”

但是出去的东西也会进来。Chang指出:“电磁磁化率(EMS)是人们不得不担心的一个新问题。”“功率注入测试是将1W从150kHz一直注入到1GHz。在每个频率,你将注入1W的能量到系统中。如果你没有足够的保护,你会破坏沿路径进入芯片的电路。我们的目标不是摧毁芯片,而是测试这种噪声是否会影响电路。或者引脚上的电压可能过高,如果电压过高,就会导致电气过度紧张。”

死于手术
此时,芯片已到达该领域,并且已被认为是可操作的。“可靠性是一个很大的关注点,”菲埃恩·赫梅林(Prinkn Sheerin)表示,主要产品营销工程师说微芯片模拟功率和接口部门。“在很多情况下,糟糕的热设计不会导致瞬时的灾难性故障,甚至不会导致平庸的产品。它是设备寿命短的产品。注意布局热点或最佳布局实践和良好的地板规划可以发挥作用。这也是验证和可靠性测试真正重要的地方。这也是汽车应用的功能安全问题。”

乔·戴维斯,产品营销总监门托,西门子的一家企业,同意。“热量导致更多问题,而不是你的手机在口袋里变热。它导致晶体管中的劣化以及它们之间的连接。这会影响性能和可靠性。“

热量产生两个来源。“首先在路由层中,”赵说。“这是与电线中的电流相关的热量。模拟电路的电流比数字更大。所以模拟设计师必须担心温度过高,使其将熔化电线。第二源是晶体管。当我们去的时候finFET自热是新现象之一。热沿着弱电阻路径,从晶体管的鳍片上垂直逸出。这会增加电线的热量。”

当高电流和热量相遇时,电迁移可以慢慢损坏电线。同样,物理效果如负偏置温度不稳定性(NBTI),你有大的电荷,会对设备施加压力,如果保持足够长的时间,可能会导致永久性损伤。

结论
本文仅包含筹码面临从绘图板到产品的挑战中的一些挑战,然后在产品的寿命中存活。

芯片是在一个充满敌意的环境中运作的,半导体行业已经学会了如何应对这些挑战。但随着制造尺寸的减小或采用新的封装技术,新的问题出现了。有时,这些新效应会导致设备失效。但从历史上看,该行业很快就学会了规避新问题或找到最小化问题的方法。

有关的故事

驯化NBTI,提高设备可靠性

晶体管老化增强在10/7nm及以下

虫子杀死



4评论

芭芭拉·卡尔基 说:

到明年1月,我将在半导体行业工作39年,其中大部分时间都专注于ASIC,包括我参加的ASIC工程课程。基于这一经验,我的观点如下:

Brian的文章支持EDA和包装装配公司的观点。这些人试图通过销售软件来解决这些问题。它会彻底解决问题吗?我对此表示怀疑,原因很简单,它为设计交流过程增加了另一个层面。

从成立之初到20世纪80年代末,我们一直是一个垂直行业。asic和其他芯片是由生产、测试和(有时)封装芯片的同一家公司设计的。在设计过程中,ASIC公司和客户之间有一个非常紧密的接口。大约在1985年(前后误差不超过几年),当时我在一家成立已久的专用集成电路公司AMI Semiconductor,我们负责第一个耳蜗植入物的设计、制造、包装和测试。他们过去是,现在仍然是医学上的成功。

让我们回到20世纪90年代初。虽然代工模式已经起步,但像VLSI Technology这样的公司仍然与ASIC设计到制造/封装/测试模式的公司紧密合作。然而,无晶圆厂模式也迅速兴起,集成设备制造商(IDMs)经历了垂直解体,成为一组筒仓专业。

由于“基本”设计问题,我们看到了许多首次制造失败。但我认为主要原因是我们已成为具有不同声音和观点的专家的行业。我们在每个发展阶段的团队之间缺乏凝聚力,因为每个团队代表不同的公司和不同的哲学。这就像是胃痛的10位医学专家,而获得了10个不同的意见,而不是去参加一个全部观看的一般从业者。

通过将任务放在一个“屋顶”下,垂直集成模型利用了管理人员来监督整个ASIC开发过程,并可以在内部解决问题。当来自多家公司的多个团队努力保持步调一致时,为什么ASIC的开发成本如此之高,还有什么好奇怪的呢?

每个公司都有自己的设计理念。软件开发人员、铸造厂、包装、组装和测试服务提供商也是如此。设计师与外部团队紧密合作,创造出解决问题的方法,当失败发生时,在参与的公司中寻找原因。

军事项目遵循旧的“军事标准”。半导体行业如果有更多的标准将会做得很好。SEMI对此有专门的委员会,我相信他们应该得到行业的支持。

我还会建议向垂直整合迈出,是asics的方式。苹果公司,谷歌和其他人现在拥有内部ASIC设计师来处理芯片开发任务。在这样做时,他们已经开始向垂直化漂移来控制质量,并保护他们的IP。

EDA和包装行业可能能够销售更多软件,但我质疑专业模式是否可以显着提高越来越复杂的设计的首次成功率。

我有两种想法:(1)人多误事。(2) ASIC的整个理念一直是:一个公司为一个客户设计一个产品。时期。

Tanj班纳特 说:

我看到的模式是,想要特定功能的公司可能只需要芯片的一小部分。芯片需要IO总线、命令处理器、密钥库、芯片管理处理器、安全引导加载、内部总线或结构等。其中有一些是增值,这可能是少数。所以你实际上会得到一个中间公司,它会带来一些知识产权,专门组装整个团队,并为新的功能部件提供建议。也许是有意义的一个特殊目的公司保留一组硅设计师为其增值,甚至几代人,但相对较少的公司需要雇佣每个人,并提供职业道路等,你需要如果你保留最好的。所以,不管你喜不喜欢,厨房里会有好几个厨师,学习如何从团队合作中获得你的明星质量是很重要的。

Gavin Rider. 说:

我已经参与半导体行业的标准化活动(通过SEMI)超过20年了。我发现的问题往往是,许多半导体公司不愿费心遵守标准!SEMI标准往往被一些芯片制造商用作打击供应商的俱乐部,但如果后来发现问题是由于芯片制造商自己没有正确地遵循标准,他们通常不会费心去纠正任何事情。

如果半导体行业真的采用了为他们制定的标准,那就太好了!

rcgorton 说:

几年前,我去Unisys公司(Unisys)面试。如果我没记错的话,他们的处理器是几年前生产的(asic ?),它们被“储存”在一个保险库里。采访中一个有趣的趣闻是,由于辐射,剩下的芯片有一个不小的失败率。也就是说,这些处理器在被“存入银行”之前通过了合格/测试/老化,但是在安装到机器中时会失败。

留下一个回复


(注意:此名称将公开显示)