中文 英语

定制设计,自定义问题

表格的专家:最先进节点的电力和性能问题。

人气

德赢娱乐网站【官方平台】半导体工程坐下来讨论奥利弗国王,CTO讨论电力优化Moortec.;João Geada,首席技术官ansys.;工程高级副总裁Dino Toffolonsynopsys.;Bryan Bowyer,工程总监导师,西门子的业务;营销高级总监Kiran Burli手臂的物理设计组;Kam Kittrell,高级产品管理集团总监韵律的数字和签收组;Saman Sadr,IP核心产品营销副总裁兰姆斯;和康欧的首席执行官Amin Shokrollahi。以下是讨论的摘录。要查看此讨论中的第一个,请单击这里在这里第3部分

当工程团队开始处理更多的自定义和半自定义设计时,他们需要记住什么?

Burli.从架构的角度来看,当你开始为图书馆等设计电网时,你是如何为移动和基础设施设计电网的,又是如何为NPU和CPU设计电网的?这是完全不同的。对于初学者来说,你需要在电网周围有很大的灵活性。人们告诉我们他们想要在设计中加入更多,他们想要达到80%到85%的利用率。当一切都立即开始切换时,你如何把所有的电力需求都引入?然后我们有大数据中心告诉我们,‘我有一个PDP(电源分配面板)和热设计电力预算,你们需要达到这个预算。你们要怎么做才能帮我们到那里?在某些工作负载下,我们可能运行得很快,在某些情况下,我们可能运行得更慢。“这是一个巨大的挑战。如果你看结尾,通常人们说10%结尾的IR下降就足够了。但现在的情况并非如此。 When people are running these designs to get well over 10%, they say, ‘Oh, maybe I need to put more margin somewhere else.’ So do you put that margin in and keep adding margin on top and not put in functionality? Or do you start looking for a way to stabilize your power? If you build new circuits on top, how do you stabilize power? Or how do you bring in power much better? Do you use something like adaptive clocking?

SE:我们看到更加专注于硬件 - 软件共同设计,以提高性能和较低的功率,但大部分都是专门为特定市场的专业化。这种方法将如何影响设计?

Geada的解释:它确实的基本事物之一是改变EDA的作用。你不能等到你得到硅,找出这个东西在所有场景下都可以在所有场景下工作,软件可以做到和所有的所有使用条件,以为这个功能部分设想。这意味着您有可能尽早处理此问题的软件,并按比例。您可以考虑在芯片上放置数千个传感器,这很有意思,但到那时你已经有芯片。。您需要有一些信封绑定了这种设计的操作,以确保无论软件在做什么,您都涵盖了所有情况,并且它将主要留在框中。在我们看来,这需要一种建立EDA软件的不同方法。它必须是以缩放工作的东西,可以处理软件尺度向量,并在该空间中找到有趣的条件。然后它需要告诉您,如果您的软件做了一个特定的东西,那么您的热预算可能会耗尽,您可能希望通过您的核心思考不同的循环方式。或者如果您的软件在Serdes的同时做某事,您将在某种程度上增加“此处”的电压下降。 You need to see the entire picture all at once and analyze it at scale. You need analytics that can actually tell you, ‘What can I do with this? How do I improve my design? How do I make it work under this bounding box of functionality and power and thermal constraints? How do I make it all work, how do I make it yield, and how do I make money?’

Toffolon.:复杂性到处都是。它正在用软件,它正在互连。这些互连不像他们五年前的那样,在那里他们是硬化设计的一部分,'设置 - 忘记'的链接类型。这些链接现在包括大量的固件和软件,因为您需要能够感知您的环境,实时调整,并真正优化链接的性能。现在,对于许多这些串行链接,瓶颈和挑战不是主要的。它们在固件和算法方面,您需要在各种操作条件下优化这些东西。这是一个范式转变。

Kittrell.我们已经看到,一旦客户测试了一个芯片并投入生产——特别是一个进入高性能计算的多核CPU系统,如在云或边缘——他们发现电源逃逸。他们燃烧的能量比他们想象的要多因为他们没有正确地关闭一个核心,或者他们在交换东西的过程中引起了某种总线振动。然后他们必须回去识别并更改他们的固件以缓解这个问题。因此,拥有测试固件的能力,或者至少在架构的早期就预见到这种能力,是非常重要的。

鲍耶:你必须把边缘放在你的建筑中。您必须在不认为您今天需要的硬件中留下配置,以便能够执行此事。我们看到很多硬件可通过可控制的地方看到很多。有些东西你从未想到改变,但你把它们放在那里。这对于AR / VR,AI,5G - 它们都开始看起来像迷你处理器,所有这些重新配置,重新配置,重组,只是因为你担心可能会发生一些事情。如果有一些方法可以走出一些方式,每个人都会更快乐,以便你真正信任,你拥有所有电力数据,你真的了解一切,并且什么都不会改变。但是,我们今天面临的现实是必须建立的硬件,以便通过软件重新编程,以解决各种问题,包括电源。

se:你有那个边缘吗?一旦你开始进入高级节点,那么通过很多不同的资源,那么保证金就开始变得真正受到追捧。

鲍耶:这是一个非常艰难的问题设计问题。但肯定的是,建筑级别内置了很多边缘,以便能够处理可能永远不需要的这些东西。

Shokrollahi.:我们经常被我们的客户询问,以最大限度地减少固件。即使具有非常高级的Serdes,它们也希望某种不使用固件的智能均衡。固件也可以是安全问题。

:有接口,可用于可靠性原因,也许我们选择不实现基于软件的解决方案。但至少在我们看到的广泛界面中,软件在过去的10年里悄悄地悄悄地到了现在必须将其放入建筑规划的地点。如果您使用的是微控制器,软件必须是其中的一部分。也许五年前左右,我们开始看到PVT(过程,电压和温度)变化的功耗趋势,而不利用您的硬件,相对于名义案例约为30%至40%。现在必须必须部署该软件覆盖以优化电路,以便在PVT上的10%的顺序达到它。我们不再拥有30%的边距,因此它绝对必须是您的体系结构规划-software的一部分 - 对于我们计划和处理的界面。那些正在成为挑战的一部分。微控制器应该是您进入基础架构的简单事项,但现在它们成为一个瓶颈,因为固件没有像每秒112千兆位的112千兆位运行。它以低速度运行,但它必须管理很快适应的东西。如果您想要牛肉,请将软件处理组件置于UP,现在您正在刻录额外的电源。 So there’s a lot of a smarts required in the planning of that. It’s a firmware element, and it’s showing up in every part of the vertical stack for thse interfaces. And so security is becoming a concern, as well — how to secure the whole datapath.

SE:其中一些芯片将被使用更长的时间,吧?您必须安全地构建这些设备,处理老化电路,所有这些都更加复杂,这是提高价格。所有这些都需要被监视超过过去。解决方案是什么?

鲍耶:更多的自定义硬件。你无法概括。你必须非常有针对性,具体了解你想做什么,并且你必须建立一个适合的东西。如果不是电力,为什么不只是在问题上扔一个整个CPU的网格?这就是今天驾驶了很多自定义硬件的原因 - 以有效的方式使能量下降。但是,你必须建立自定义硬件,这是一个大任务。如果你要成功,很难预测。在你开始设计时,它现在比10年前更难以知道,无论是真的要工作。Especially in AI, we see a lot of companies that are doing most of their hardware design process, and then they have to scrap it and try again because they realize they’ve blown out the budget, or it’s not fast enough, or something is broken in a way they can’t just tweak and get to work.

Burli.:这些设备将具有更长的生命周期,因此您需要一些灵活性。除非他们可以将设备保持在4年,否则人们不会在新的智能手机上花1,000美元。因此,您需要某种标准化和一起工作的生态系统。当你开始思考3nm或5nm时,你需要开始思考灵活性以及如何最大限度地减少一些数据移动,因此如果有一个新的用例,那么架构也可以照顾这些种类的情况。您必须在彼此协同工作的设备方面考虑架构。它不能只是对npu自身。它如何与不同的元素合作?如果从现在发生的两年不同的用例会出现,它可以管理,您仍可留在预算范围内。

国王:当您考虑软件和老化时,该软件并不是您在设计芯片时足够了解的东西。在理想的世界中,您设计芯片以应对它的任何软件,但这并不总是可行的。我们现在看到的更多客户是他们使用的是使用监控,以便允许它们适应通过芯片的软件负载。我们肯定看到了给定任务的更具体的设计。在Moortec,我们正在与几家有关夫妇的公司合作,你认为从一个到另一个到另一个,你会看到某些相似之处。但是他们中的每一个都在做不同的事情。其中一些可能不起作用,但是有一个可怕的原因原因是他们正在做不同的筹码。其中一些是掩盖规模,但我们也与执行非常小而非常针对特定类型的推理的客户的客户合作。但是我们看到的东西现在的更多信息是这些筹码更具应用程序。它们是为特定用例而设计的。

Geada的解释老化是一个有趣的话题。我们可以模拟和预测一点点老化,但那真的需要数据。但在3nm的时候,我们可能只有一年的数据,如果我们没有积累10年的数据,就很难预测10年后它的表现。我们可以运行物理模型,但很难预测所有这些非常不同的设计和架构将如何表现。这是其中的一个地区,我们真的需要有一个芯片的组合传感器把数据传输到数字的双胞胎,这需要所有的数据对芯片的行为与当前软件或当前的固件,并推断进一步说,“这是可能失败或不吗?如果手机坏了是一回事;但如果你的自动驾驶汽车的行人传感器意外失灵,这是一个非常非常大的问题。它不能这样做。安全关键系统需要有一个故障安全的故障模式。这是很多领域需要开始考虑的问题。传感器需要告诉芯片它是否接近故障。 The software needs to be aware that failure is a possibility. You can’t just assume that hardware is always going to work 100% under all conditions, and you need a plan to deal with it and make sure that you simulate those cases and deal with them.

相关文章
7/5/3nm功率和性能优化
表格的专家:当AI芯片在掩模版尺寸最大化时会发生什么?



发表评论


(注意:此名称将被公开显示)