中文 英语

芯片热损伤变宽

在高级节点中的热门问题resurface,提出了关于半导体如何随时间对多种应用程序进行的问题。

人气

对半导体和系统设计来说,热正成为一个更大的问题,这是由于更高的密度和在汽车等市场中越来越多地使用复杂芯片造成的,在汽车等市场中,可靠性是以十年为单位来衡量的。

在过去,热量通常是由机械工程师处理的,他们要找出散热器、风扇或散热孔的位置,以便将热量从机箱中排出。但是,随着更多的功能被添加到PCB或SoC中,热正在成为硅级上一个更加重要的考虑因素——一个难以预测、管理和忽视的风险。

可靠性工程服务公司DfR Solutions的高级技术人员格雷格·卡斯韦尔(Greg Caswell)说:“散热一直是个问题,但随着芯片、主板和外壳变得越来越小,问题变得更严重了。”他指出,这个问题在过去一年中明显恶化。“我们发现了焊锡疲劳,镀孔疲劳,零件混合了不同的膨胀系数。如果它需要底填充,底填充不一定与其他部分匹配。大约有700种层压板需要跟踪,而这一切都可以根据板材料的类型而变化。人们说他们用的是FR-4板,但有400种材料被归类为FR-4。在10年的时间里,你开始发现每天的压力,冲击和振动问题,奇怪的温度变化,和许多不同的电压水平。所有这些都有助于产品的生存能力。”

生存是一个相对的术语。由于汽车、航空、医疗、工业等终端市场对可靠性的要求,许多设计现在必须在比过去更长的时间内实现全功能。即使是汽车信息娱乐系统中的芯片也需要使用10到15年,因为它可能与安全关键系统相互作用。

该公司营销副总裁罗恩·摩尔(Ron Moore)说:“一个移动设备的典型使用寿命是5000小时。手臂物理IP部。“对于服务器来说,需要10万个小时。你需要做更多的电磁分析,更多关于人字拖的分析。所以物理IP会根据物理需求而变化。”

对于半导体工程师来说,这并不是一个新的讨论话题。2001年,Pat gelsinger英特尔cto预测,如果不采取任何措施,十年内芯片的能量密度将相当于太阳表面。解决方案以多核、黑硅方阵、新材料和一些非常好的工程和设计技术的形式出现。但这个问题从来没有消失过,现在又卷土重来了finFET这迫使企业考虑2.5D和扇形封装、新架构和微架构,并提出了关于即使温度稍微升高的长期影响的问题。

该公司负责产品工程和支持的副总裁阿维克•萨卡尔(Aveek Sarkar)表示:“热控技术带来了很多未知因素有限元分析软件。“你需要在芯片封装和系统级,在芯片级或互连级评估热影响,如果是finFET,你必须处理局部加热。在10nm和7nm这将变得更糟。你必须预测电力会发生什么,然后为不同的电力场景创建温度剖面图。”

例如,与电压下降的峰值相比,温度是相对稳定的状态。这使得有效处理它具有欺骗性。考虑到硅的导热特性,热量应该从芯片内部散发出去,这似乎是合乎逻辑的。但在一个密度很大的SoC中,并不是所有的热量都能逸出。无论哪个通道被阻塞,都会导致组件过热,有时甚至是完全在芯片的另一边。

FloTherm和FloVent的营销经理Robin Bornoff表示:“发生变化的是,现在你需要考虑更接近硅的热管理。导师图形。“如果您查看汽车中的信息娱乐系统,环境非常极端。仪表板上有热量,难以离开。没有多少冷却通道。这可能导致IGBT体验激进的变化,在某些驾驶简档下使其不可靠。它还可以对数字显示器产生影响,其中亮度变化或颜色变化。我们正在谈论大的温度梯度。对于处理大量功率的粘合线,有粘附线失效的热机械风险。“

预测问题
讨论热问题的何时何时会播出,需要组合工具,历史和健康的运气。

“一切可能看起来还好,但是35秒的模拟你发现一个能够产生热问题的力量问题,”Alan Gibbons,电力架构师Synopsys对此。“你需要一个非常精确的模型,包含更多的细节。但你不希望整个35秒都运行它。所以你换入一个更精确的功能模型,它是精确的周期,找到电源热点,然后退出,继续前进。”

但事情并不总是那么顺利。吉本斯说:“你可能会发现内核的热问题,这可能是由于软件任务在错误的过程中完成了,或者有些事情本来应该用硬件来完成,但却用软件来完成。”“这对EDA社区来说是一个巨大的挑战。我们通常从功率和性能的角度考虑可靠性,但它会受到功率密度的影响。如果你的处理器运行在2到3 GHz,它们会耗电很多。热因素变得更加尖锐。”

在高级节点上,这就更成问题了,因为利润消耗了能力和/或性能。使用更少的缓冲区,设计需要更精确。但是soc的目标之一是在给定的空间中容纳更多的功能,因此在使用模型方面有更多的变量。

Ansys的Sarkar表示:“建模和仿真场景是不同的。你必须理解一个函数是在什么条件下运行的。你必须把它放在整个芯片的背景下。所以芯片可能显示80°C,但它不再是统一的,所以你必须重新计算温度剖面的功率。一个ARM块可能是85°,一个指令缓存可能是75°。温度的计算是一个温度与功率的迭代过程。一旦你得到了温度曲线,你就必须弄清楚根据芯片的寿命,它是过于悲观还是过于乐观。如果你看看铸造厂的电迁移规则,他们说如果你遵循一定的温度,你会有10年的寿命。如果温度从110°上升到125°,芯片就会更快地失效。”

但由于模具温度不均匀,要计算对可靠性的影响就困难得多。

所有主要的EDA公司现在都在研究这个问题。“传统上,分析工具关注的是封装温度,”美国运通的产品工程架构师高CT表示韵律。“但是对于10nm的finFET,你没有从PCB到晶体管所需的粒度。我们需要的是物理分析模拟。在芯片层面,我们可以解决芯片内部的位置和路线,并将其与热量结合起来。所以我们在这个方向上有粒度,但不直接用于PCB。”

很难确定的是不同的工程师在不同的时间需要什么,即使是相同的设计。有些需要对晶体管或晶体管组进行详细的热分析,而另一些只需要系统级的分析。“所有这些都必须与实验和良好的工程判断相结合,”高教授说。“如果单个晶体管相邻,你不需要知道它们的温度,但你需要知道芯片在不同功能要求下的表现,以及它们随着时间的推移会有多热。”

解决方案
finfet为16/14nm的漏电流提供了一个缓冲,自65nm以来,漏电流的管理变得越来越困难。但是问题又开始了,从10nm开始,这就增加了热量。

英特尔首席技术官德鲁•温加德(Drew Wingard)表示:“泄漏没有消失,半导体物理学也没有改变。超声。“对于一个节点来说,它已经变得不那么重要了。我们现在看到的是更多地强调时钟控制来进行电源管理。但现实是,大量的电力仍在时钟树中。另一个挑战是动态电源管理。没有自动化,所以如果不是架构级别,你需要在微架构上工作。”

所有这一切都对热量有直接影响。“在”状态“中的越多,它们仍然越长,它们产生的热量越多,热效应越大。Wayard表示,一个解决方案是更好的时钟控制,因为时钟可以关闭并在一个时钟周期中启动,这非常快。“您可以在组中安排电源管理,因此您可以按顺序转动它们。您还可以首先打开较小的,因此浪涌电流在较长时间内传播。然后当你打开脂肪晶体管时,电阻越低。“

高级封装是另一种选择,在过去的一年中,随着高带宽内存解决方案开始进入市场,它获得了更多的关注。但还有更多的选择,包括如何将单个死亡打包在一起。

“关键问题之一是散热,”Tessera Invensas业务部门的总裁Craig Mitchell说。“这取决于模具的厚度。如果你减少厚度,你就可以减少阻力来吸收更多的热量。”

Tessera已经开始开发一种不同的DRAM堆叠方式,同样,以砖块交错的方式堆叠模具,这样在每一个堆叠上DRAM的一部分都是开放的。这种方法允许更多的冷却、更短的互连和更快的内存访问。

在内存方面,Kilopass等公司一直在研究一次性可编程内存,以替代其他类型的非易失性内存,因为它具有耐热性。“与嵌入式闪存不同,OTP能很好地处理极端高温,”许仁泰(音)说,Kilopass工程部副总裁。“两者都能适应零下40摄氏度的低温。但OTP可以工作到125摄氏度,而嵌入式闪存通常只支持到85摄氏度左右。由于汽车的机械区域会达到极端温度,而且需要永不失效的记忆,所以OTP是一个更好的选择。”

也有一个重要的推动,以消除问题的第一个地方。Mentor公司的Bornoff表示,已经有一些新的领域的研究,比如热在矽通过它就像包裹里的烟囱。“挑战在于,如果遇到任何瓶颈,它会一直备份到热源。解决这个问题的最好办法是在热源附近传递热量。热过孔的使用已经很成熟,但专门的热tsv是一个活跃的研究领域。我们仍然需要了解需要多少,以及如何将这些因素考虑到设计中。但它可能会对设计的其他部分产生巨大影响。”

Bornoff说,模具底部蚀刻的液体通道是另一个积极研究的领域。新的热界面材料也是如此。“我们正在看到使用小金属部件悬浮在基材中的新技术。材料科学在这方面有帮助。我们可以根据材料的厚度和它们不同的特性来进行热模拟。温度总是失效机制的一个很好的领先指标。”

其他问题
热还有其他一些效应,在半导体领域刚刚开始被理解,因为它进入了深层物理领域。

“与高电压相结合时,较高温度的强烈影响是闩锁的风险增加,这是一个严重的可靠性问题,”IROC Technologies总裁兼总经理Olivier Lauzeral表示,另一种可靠性工程服务公司。“来自温度的另一个冲击是房间里的热中子的实际通量。这些中子在硅中与硼10掺杂剂相互作用以产生α颗粒和锂离子。具有硼10的热中子的横截面(或相互作用概率)与硼10变化为1 /√E,E是中子的能量,其与温度正相关(因此术语热中子)。因此,温度越高,它们的能量越高,与^ 10B相互作用的概率越低,α或锂离子的助焊剂越低。“

据DfR Solutions高级技术人员Edward Wyrwas称,Heat在过去的一年里一直在负责更多的比特卡和闪存数据保存问题。“我们也看到了对栅极氧化物完整性的影响,而且我们看到的影响更多负偏置温度不稳定性(NBTI)。随着显卡等组件开始进行更多批判性思维,我们开始使用更多内存和fpga,温度将会进一步升高。”

随着“万物联网”的启动,这些问题可能会变得更加复杂,因为许多设备将需要一直开机,而且随着更多功能被添加到系统中,这些功能可能会受到不同使用模式的影响。两者都能影响热量。

ARM的摩尔说:“设计芯片时,必须让它们完成一定的工作量。”“所以你在做预测的同时,也在分析一系列工作流程的可靠性。也许这个应用程序将驱动接近过载电压。这更多的是一个实现问题,但它是一个不断增长的趋势。执行变得越来越重要,它会影响你的位置。”

总之,热问题越来越成为设计的一部分,需要独立地与电源、材料、建筑、工艺和包装结合起来。从积极的方面来看,这确实提供了一些非常有趣的多物理工程问题需要在未来几年解决。

有关的故事
可靠性随着时间的推移增加了风险
可靠性定义正在改变



1评论

戴夫Duchesneau 说:

我认为其中一个陈述有矛盾之处。iROC总裁兼通用汽车总裁奥利维尔•劳泽尔(Olivier Lauzeral)表示:“高温的强烈影响,再加上高电压,会增加被锁住的风险……”

第一个陈述告诉我,较高的温度会增加被锁住的风险,这是有道理的。

Lauzeral继续说:“温度的另一个影响是热中子的实际通量…[它们]…与硅中的硼10掺杂剂相互作用,产生α粒子和锂离子。”热中子与硼10的横截面(或相互作用的概率)变化为1/√E……所以温度越高,它们的能量就越高,与硼10相互作用的概率就越低,阿尔法或锂离子的通量就越低。”

第二种说法告诉我,更高的温度会降低锁住的风险,因为这是逆变化关系(1/√E),这对我来说没有意义。我承认我有点糊涂了,但凭直觉我认为增加能量会增加阿尔法离子的通量,从而进一步增加被锁住的风险。

评论都关门了。