中文 英语

AI的新用途

功率和性能的大量改善源于低级智能。

人气

AI正在嵌入到大多数芯片内部常见的技术越来越多的技术,并且初始结果显示了功率和性能的戏剧性改进。

与高调不同AI.如自动驾驶汽车或自然语言处理,诸如大多数人的雷达下,这项实现的实施方式很大。它通常采用最不中断,建立或改善已经存在的技术的路径。但除了具有重要影响之外,这些发展还提供了设计团队,为理解AI可以且无法做到的基线,如何在不同的环境和操作条件下以及它与其他系统之间的行为。

直到最近,大部分AI /机器学习被限制在数据中心或专业的MIL / AERO应用程序中。它已经开始迁移到边缘,它自身刚刚开始采取的形式,由上升的数据量驱动,并且需要处理更靠近源的数据。

内存改进
优化数据移动是所有这些市场的一个明显目标。如此多的数据正在产生,它压倒了传统冯诺米曼方法。各家公司都在寻找减少内存和处理器之间来回传输数据的方法,而不是废弃已被证实的架构。内存和近内存计算是两种备受关注的解决方案,但在这些方法中加入人工智能可能会产生显著的增量影响。

三星宣布将在智能手机中加入机器学习功能高带宽内存(HBM)堆栈就是一个很好的例子。

“最困难的部分是如何在不影响任何计算生态系统的情况下,让它成为现有DRAM的临时替代品,”三星内存业务部门高级副总裁金南成(Nam Sung Kim)说。“我们仍然使用现有的机器学习算法,但这项技术是为了更有效地运行它们。有时运行机器学习模型在过去是不可行的,因为它需要太多的内存带宽。但有了内存中的计算单元,现在我们可以探索更多的带宽。”

金表示,这种方法允许总系统能量减少70%,而无需任何额外的优化。是什么让这个如此有价值的是它会增加一个数据级别的“智能”如何移动数据。反过来,可以与其他技术改进配对,以实现更大的功率/性能效率。KIM估计这可以是一个数量级,但其他技术可以推动这种甚至更高。


图1:存储软件栈中的处理。来源:三星

“作为一个行业,我们必须看一些不同的地方,”Steven Woo,Steven Woo说,以及杰出的发明家兰姆斯。“其中之一就是建筑。我们必须思考什么是构建芯片的正确方法,这样它们才会更贴近实际的算法。在过去的四五年里,我们一直看到这种情况发生。人们已经实现了一些真正整洁的架构——比如收缩阵列和更有针对性的实现。还有一些其他的。我们当然知道记忆系统在整个能量消耗中非常非常重要。其中一件必须要做的事情是,我们必须努力使内存访问更加节能。更有效地利用PHY是其中的重要一环。SoC本身正在花费25%到40%的电力预算在PHY上,然后在SoC和PHY之间来回移动数据的行为——大约三分之二的正在使用的电力实际上只是在移动数据。 And that’s just for HBM2. For GDDR, even more of the power is spent in moving the data because it’s a higher data rate. For an equivalent bandwidth, it’s taking more power just because it’s a much higher speed signal.”

图2:数据移动成本的分解。资料来源:兰姆斯

图2:数据移动成本的分解。资料来源:兰姆斯

网络优化
这种方法正在利用这种方法的另一个地方是网络配置和优化。与过去不同,当计算机或智能手机可以利用许多基于标准的协议和网络中的任何一个时,边缘专注于特定于应用程序的优化和唯一实现。需要优化数据流中的每个组件,有时会在连接在一起的不同系统中进行优化。

这导致用户必须集成边缘系统的用户,以及寻求销售横跨许多垂直市场的水平技术的供应商。它是为更智能的设备和组件打开门,可以在网络上或包装中配置自己 - 以及可用于适应这些市场用于这些市场的算法的变化的可配置设备。

“它将开始作为软件定义的硬件,但它将发展成为一种自我修复,自我协调的设备,可以启用AI启用,”数据中心营销总监Kartik Srinivasan说:赛灵思公司。“它可以说,‘我将为特定的交通流进行这一级别的处理,’并根据人工智能的需求进行大量的卸载。”

AI / ML证明非常擅长了解如何基于行为模式和概率的优先考虑和分区数据,以便它可以最佳地利用。并非所有数据都需要立即采取行动,并且大部分地区都可以在本地垃圾。

“我们开始将机器学习视为优化问题,”战略和业务发展高级经理Anoop Saha表示,“西门子eda.。“机器学习历史上已被用于模式识别,无论是监督还是无监督的学习或加强学习。这个想法是你认识到你拥有的数据中的一些模式,然后使用它来对事物进行分类以进行预测或进行Cat-Vers-Dog识别。但是,还有其他用例,例如智能NIC卡,在那里您没有找到网络拓扑,标识如何最大化SDN(软件定义的网络)网络。这些不是纯粹的模式识别问题,对更广泛的行业非常有趣。人们开始为各种任务使用这一点。“

虽然实现是高度特定的,但是一般概念开始焦点跨多个市场。“这取决于您所在的市场细分,”杰夫特特(CEO)的Geoff Tate表示有所不同Flex Logix.。“我们正在致力于所谓的医疗成像等领域的企业优势。我们的客户需要高吞吐量、高精度、低成本和低功耗。所以你必须有一个比gpu更好的架构,我们的基准测试是gpu的3到10倍。我们用更细的粒度来做,而不是用一个大的矩阵乘子,我们用我们的一维张量处理器。它们都是模的,所以我们可以用不同的方式将它们组合起来进行不同的卷积和矩阵应用。这也需要一个可编程的互连,这是我们开发的。最后我们要做的是让我们的计算非常接近内存,这可以最小化延迟和功耗。所有的计算都在SRAM中进行,然后DRAM被用来存储权重。”

在边缘
这种模块化和可编程的方法通常隐藏在许多这些设计中,但强调设计和实施中的灵活性至关重要。更多的传感器,泛滥的数据和缩放的好处的放缓,使芯片制造商枢转到更复杂的架构,可以在提高性能的同时驱动延迟和电源。

在边缘上尤其如此,其中一些设备基于电池,以及在本地和近在地的数据中心,速度是临界因素。解决方案往往是高度定制的,异质的,并且通常涉及包装中的多个芯片。因此,在一切或多个巨大数据中心的一切都是超云云,基于需要采取的数据以及需要处理多少数据,并且需要处理多少数据。

结果是一种大规模的数据分区问题,因为现在必须在不同的服务器甚至在不同的系统之间智能地解析数据。“我们肯定看到了这种趋势,特别是在途中拥有更多的边缘节点,”营销高级总监Sandeep Krishnegowa Sandeep Krishnegowa表示,内存解决方案的应用英飞凌。“当有更多数据进来时,你必须对你想要加速的内容进行划分。您不希望只是将原始信息一直发送到云上。它必须是有意义的数据。与此同时,你希望实时控制器在边缘上做出推论。所有这些都凸显了架构的变化,使它更有效地管理你的流量。但最重要的是,这又回到了数据和如何管理数据的问题上。而且总是会有很多东西回到你的记忆和记忆体系结构的子系统中去。”

此外,这成为一个路由问题,因为一切都是连接的,并且数据是流动的。

“如果您正在进行数据中心芯片,您在解决方案营销的高级团体总监Frank Schirremeister表示,您正在设计数据中心芯片。”韵律。“你有一个加速器,不同的热方面,和3D-IC问题。当你转向可穿戴设备时,你仍然需要处理同样相关的热功率级别,而在汽车上,你有一个人工智能组件。所以这是一个全方位的过程,需要一个整体的方法。你需要优化低功耗/热能/能量活动,不管你处于什么边缘,人们需要根据他们的工作负载调整系统。然后就是如何把这些东西组合在一起了。”

这增加了另一种复杂程度。“最初是,”我需要最高密度SRAM我可以得到,以便我可以尽可能多地对芯片的激活和权重“,”罗恩·洛格曼(Ron Lowman)表示,IP战略营销经理synopsys.。其他公司则表示,他们需要尽可能降低能耗。我们之前有过这类解决方案,但我们看到了许多关于AI的新要求。然后他们进入了下一步,他们会说,‘除了最高密度或最低泄漏之外,我需要一些定制,’因为他们将它们与内存和计算类型技术等专门的处理组件相结合。有一些构建块,比如原始数学块,DSP处理器,RISC处理器,还有一个特殊的神经网络引擎。所有这些组件组成了处理解决方案,其中包括标量、向量和矩阵乘法,以及连接到它的内存体系结构。当我们第一次使用这些处理器时,假设您将拥有某种类型的外部内存接口,最有可能是LPDDR或DDR,因此许多系统都是围绕这些假设构建的。但是有一些独特的结构可以提供高带宽的内存,这改变了外部内存接口的加载和存储方式以及它们的大小。然后顾客就会加入他们特制的酱料。随着更多细分市场的出现,这一数字将继续增长。”

这些利基将增加对更多类型的硬件的需求,但它们也将推动需求继续扩大这些基础级技术,这些基础技术可以形成为特定用例。

“我们的FPGA遍布整个设备的内存,因此您可以将内存直接本地化给加速器,即Xilinx的产品线管理器Jayson Bethurem说。“并且因为架构未修复,它可以适应不同的特征和分类拓扑,其中CNN和其他类似的东西。这就是大多数申请增长的地方,我们看到人们希望在对其作出反应之前对某事进行分类。“

AI在最终设备中的限制
人工智能本身并不是一项固定的技术。随着技术的适应和优化,人工智能解决方案的不同部分正在运行,所以处理结果通常以分布和可接受概率的形式出现。

这使得定义人工智能的精度和可靠性变得尤为困难,因为每个实现和用例的指标都是不同的,这也是芯片行业谨慎对待这项技术的原因之一。例如,考虑AI/ML在辅助驾驶的汽车上。数据输入和决策需要实时进行,但AI系统需要能够对数据的价值进行加权,这可能与其他车辆对数据的加权不同。假设两辆车不相互作用,这不是问题。但如果他们共享信息,结果可能会非常不同。

“这在某种程度上是一个开放的问题,”罗布·艾特肯(Rob Aitken)说武器研发组。“如果您拥有具有给定精度的系统,另一个具有不同的精度,则累积的准确性取决于它们彼此的独立性。但它也取决于你用来组合两者的机制。这似乎在图像识别等事情中相当良好地理解,但是当您正在查看汽车应用程序时,它更加困难,在那里您有一些雷达数据和一些相机数据。它们彼此有效地独立,但它们的准确性依赖于您必须知道的外部因素,除了其他一切。所以雷达可能会说,'这是一只猫',但相机说没有什么。如果它是黑暗的,那么雷达可能是对的。如果下雨,也许雷达也是错误的。这些外部位可以非常迅速地发挥作用,并开始压倒任何经验法则。“

所有这些相互作用都需要详细理解。“汽车中的许多设计都是高度可配置的,并且即使是根据来自传感器的数据,即使在飞行中也可以配置,”营销负责人Simon Rance表示,Simon Rance说ClioSoft。“数据从这些传感器返回处理器。所有从车辆运行到数据中心并返回车辆的纯粹数量,所有这些都必须进行跟踪。如果出现问题,他们必须追踪它并弄清楚根本原因是什么。那是需要填补的地方。“

另一个问题是知道什么是相关数据,而不是什么。“When you’re shifting AI to the edge, you shift something like a model, which means that you already know what is the relevant part of the information and what is not,” said Dirk Mayer, department head for distributed data processing and control in弗劳恩霍夫IIS的自适应系统工程。“Even if you just do something like a low-pass filtering or high-pass filtering or averaging, you have something in mind that tells you, ‘Okay, this is relevant if you apply a low-pass filter, or you just need data up to 100 Hz or so.'”

挑战能够利用跨越AI的多种实现。“即使你看起来基本的东西,就像一台铣刨机一样,这个过程是相同的,但机器可能完全不同,”Mayer说。“工艺材料不同,研磨的材料是不同的,过程速度不同,等等。发明人为智慧非常难以将自己从一台机器带到另一台机器。您总是需要重新培训阶段和时间来收集新数据。这将是一个非常有趣的研究区域,用于发明一个像AI的构建块,其中算法在行业中被广泛接受,您可以将其从该机器移动到该机器,这是预先培训的。因此,您可以添加域专业知识,一些基本的过程参数,您可以参数化算法,以便它更快地学习。“

结论
然而,这不是芯片行业今天的位置。AI及其小组,机器学习和深度学习,为建立在体积和大规模再现性的行业增加了独特功能。虽然AI已被证明对某些事情有效,例如优化基于使用模式的数据流量和分区,但它有很长的路要走,以便在它可以做出更大的决策之前与可预测的结果进行更大的决策。

减少功率降低和性能改善的早期结果是令人鼓舞的。但是,他们还需要在更广泛的系统集中,多个市场段的快速演变以及不同的方法,如异质集成,域特定的设计以及供应链中的数据共享的局限性。

有关的
隐藏的成本更快,低功耗AI系统
AI/ML设计中的权衡可能会影响从老化到可靠性等方方面面,但并不总是以可预测的方式。
权衡提高性能,较低的力量
定制设计正在成为规范,但使他们的工作并不是那么简单。



发表评论


(注:此名称将公开显示)