中文 英语

定义和改进AI性能

在讨论人工智能时,性能意味着什么?许多人都在思考这个问题,但还没有统一的方法。

人气

许多公司正在开发AI筹码,无论是为培训和推理。虽然获得所需的功能很重要,但是许多解决方案将通过它们的性能特征来判断。性能可以以不同的方式测量,例如每秒或每瓦的推断数。这些数字取决于很多因素,而不仅仅是硬件架构。软件工具链的优化比通用处理器更复杂。

一些早期设备尚未达到目标。“在与客户评估AI推理解决方案的客户交谈时,我们一直听到实际结果通常无法接近原始索赔,”首席执行官杰夫特特说Flex Logix.

其中一些是由于该技术的不成熟。“想想从原始设计理念中取出的时间,并通过硅,”高级产品总监Andrew Grant说想象力技术。“这可能是两到三年。他们都赌博,并试图制定市场的轨迹。他们仍然会在两年或五年内执行合适的工作负载吗?如果没有,他们将被路边留下,因为别的东西接管而他们的市场已经消失。“

AI.市场是复杂的,有很多目标。“每个人都在试图弄清楚什么才足够好,”罗尔曼(Ron Lowman)说synopsys.。“它归结为用例。一些用例需要更好的准确性 - 例如在汽车中,与某些简单的对象识别相比。一些关心每毫ij或每瓦特的性能,或每秒推断。这一切都归结为用例以及他们试图完成的东西。“

目前的实现是理想的漫长方式。“估计说,随着人类大脑的整体计算力的处理器核心的网络将在满足至少四个数量级的情况下,罗兰·朱克说:”设计方法技术部门罗兰·朱克说Fraunhofer IIS.自适应系统工程。“效率似乎与具有许多可配置互连的非常小而灵活的计算节点有关。”

电力是一个大问题。该公司技术营销经理Richard McPartland表示:“模具尺寸通常特别大,在先进节点上,数千个核心都在努力实现最大性能和数据吞吐量。Moortec.。“功率需求通常非常大,通常在数百瓦范围内,因此热管理和功率分配是关键问题。如此大的功率注入这些大型模具,关键电路的温度监测是必须的。通常情况下,我们会在大型AI芯片上安装数十个温度传感器,以监控多个核心集群。这可以实现热负载平衡,在这种情况下,工作负载的分布不仅取决于可用的内核,还取决于实时温度。精确的温度传感器使计算元素的更精细的节流,并帮助保持计算节流到最小。”

准确性是一种新的优化标准。“主要指标是性能,意味着我可以在一定的时间内处理多少推论或培训的吞吐量,”Synopsys的主要工程师Tim Kogel说。“第二是能量消耗这适用于嵌入式设备和数据中心,电力已成为主要成本指标。它也是准确性 - 结果的质量 - 推理有多好。我可以通过减少量化来优化实现,但在准确性损失方面具有成本。“

预期一些准确性损失。“他们希望推理的准确性非常接近他们所接近的网络和算法,”Tensilica IP的产品管理,营销和业务开发高级总监Lazaar Louis说韵律。“它受到浮动点的培训,他们有准确的期望。研究和示例表明,您可以通过整数处理实现非常好的推断,并且您不需要浮点。有些公司说他们愿意容忍几个百分比的错误,因为他们的应用是可以的,并且他们想要最好的表现。我们有一个可以满足这些要求的软件堆栈非常重要。“

这就是事情开始变得复杂的地方。Synopsys的Kogel补充说:“这是一个美丽的地方,也是一个挑战。”“所有部分都很重要,因为它们是耦合的。提出漂亮的硬件架构而没有一个好的ML编译器来利用硬件中的所有特性是没有意义的。当谈到算法时,它包括数据的质量和网络本身的架构,它是数据科学家的领域。当从半导体或构建推理芯片的系统公司的角度来看时,它是关于映射这些算法并运行它们的。工具链和硬件共同对结果的质量和度量标准的满足程度负责。另外,指标的组合对于不同的应用程序是不同的。毫升可以在许多领域应用,所有这些都有不同的性能,功率和准确性要求。很难想出一个适合所有人的人。“

三级优化
有三个离散级别,可以进行决策和优化 - 算法开发,映射和硬件架构。

“不同类型的网络Synopsys的Lowman说。”卷积神经网络(CNN)变得越来越成熟,我认为架构看了如何优化那些。最近有新的网络,如经常性神经网络(RNN)在您做基于时间的时间略有不同的数学数学。您正在返回以前的值。然后有尖刺的nn,这是完全不同的。“

网络和推理的最终性能之间的分离是很大的。“数据科学家知道一些参数,”Cadence的路易斯说。“这取决于他们所选择的建筑。他们知道在基于该架构的一帧上进行推理需要多少计算。他们可以据此构建网络,但一旦你训练了它,你才会知道网络的实际性能——所以你的帧每秒在网络上只有在你完成工作后才知道——但他们确实有一些想法。”

这些结果难以告诉这些结果。“它是该算法的属性,即需要多少操作以及需要多少数据,”Kogel说。“但是,在映射步骤中发生了很多,例如选择正确的量化和数据类型,在编译器中制作的优化,例如层融合,流水线,展开,平铺所有处理循环中的编译器 - 哪个结束决定了最终性能,准确性和力量是多少。在某种程度上,使这些早期的假设是甚至是危险的。“

很少有人理解这些权衡的全面影响。“这是早期设备不是满足期望的另一个原因,”Flex Logix的attate说。“在许多情况下,硬件架构已完成,然后聘用软件团队。正确的方法是结合共同开发硬件和软件来实现最佳结果。“

Kogel注意到一些这些权衡可能会产生意想不到的后果。“在数据和处理的数量方面,有一种趋势使NNS更小,但这可能在实施方面具有倒数效果,”他说。“例如,当您减少数据时,还减少计算强度,因此实现变得更加依赖于内存带宽,这成为限制因素。这通常是解决比仅提供更多马力来处理的更困难的问题。或者您使用重量压缩减少数据,但您可以使用更低可预测的数据进行数据。它不再是常规的,这可能对您设计的某些方面产生不利影响。这是一个很多耦合的问题,很多事情都必须一起考虑。“

硬件架构
获取硬件架构权并不容易。“许多AI推理架构具有使建模性能困难的特征,”Tate说。“绘制一个类比,查看多核处理器。考虑一个八个核心处理器不会比单核处理器快8倍。运行有多速度取决于缓存命中率和公共汽车访问争用和共享内存访问争用的内容,这非常难以模拟。“

在谈论AI架构时,大多数人都考虑乘法累加器(MAC)阵列。“有Mac,然后是它周围的架构 - 特别是架构记忆,“Lowman说。“我们在专门的回忆中看到了一个大的升值。有些人需要高度密集的回忆,有些需要非常低的泄漏记忆。我们被要求为这些类型的实施以及他们试图完成的事情做自定义记忆。“

多端口记忆对于AI非常受欢迎。“这意味着当您正在进行数学时,您可以并行化读写读写,”仍然是Lowman。“这可以减少电力。有时他们会想要优化浓度的位线,也许是因为它们需要更多系数。其他人想优化泄漏,这是一个不同的权衡。密度和泄漏或尺寸和泄漏和性能之间总有折衷。“

其他人看到类似的权衡。“我认为对伪两个端口记忆的需求,”IP董事总经理法拉德Zarrinfar说导师,西门子的业务。“传统上,您可以从中读取或写入的单端口,或者可以读取或写入每个端口的双端口。两个端口是一个端口读取,一个端口写入。现在我看到对伪双端口的需求,可以利用六晶体管SRAM.而不是八晶体管电池,这是双重和两个端口使用。您在时钟的两个边缘操作。在一个边缘,您可以读取,另一个您可以写入。当你谈论数千块瓷砖时,那么大小很重要。“

制造这些芯片也会导致惊喜。“大型进程节点上的大型模具的结合立即呼吁对思想进行过程变化的挑战,”Moortec的McPartland说。“嵌入模具的过程探测器,通常使用每个AI核心的一个磁芯,使得能够容易且独立地监测管芯和模芯内部处理变化。这些检测器可用于使能电压缩放方案能够有效地实现,并且在每芯片的基础上进行优化的电源电压或设备速度。“

如上所述,这些架构正在追逐移动目标。“有很多研究进入了这个领域,你可以期待一定的演变,”Kogel说。“估计会发生什么并不容易,并增加了您需要提供一定程度的灵活性的挑战。那么问题是,'多少钱?一个FPGA.非常灵活,但是一个DSP可能更优化。甚至给出了算法或目标应用程序,在架构方面最适合和灵活性的正确水平加上电源/性能度量。“

“灵活性有价值,”路易斯说。“重要的是要在创建一个在所有工作负载中创建一个充足的发动机之间的良好平衡很重要,这也是我们的所有客户今天正在进行的,也是一种具有一些灵活性的发动机,以便利用新的创新。”

编译器
坐在中间,在算法开发人员和硬件架构师之间,是编译器。这比传统ISAS的编译器更复杂。“首先是从浮点到固定点的转换,”路易斯说。“量化相当良好地理解。然后我们可以看待优化。例如,可能存在重复或不需要的神经元或连接,并且我们可以开始去除这些。我们可以开始合并层,从而可以减少您需要为同一应用程序或网络进行的计算量,并实现类似的准确性和性能。此外,还有一些应用程序,客户不希望将网络进行修改,因为它可能是安全关键应用程序,例如汽车。他们不想修改网络,因为它们不知道转角案件可能不再表现良好。“

随着团队努力实现这一权利,软件可以使开发成本颠簸。“公司往往花费两倍的时间来发展软件,因为他们为硬件做了,”洛克加了。“您可以通过onyx或caffe2或tensorflow模拟云中的东西,然后需要一个位映射工具来量化它,压缩它,确保它适合一个非常紧密的资源。这很昂贵。在此过程中,您可能会减掉一些准确性,并且您并不肯定为什么。它可以采取一些迭代来实现它。“

基准
该行业正在制定AI基准的过程中。这总是导致各种意见。“基准标记没有错,但它们应该与计划的工作量相关,”Tate说。“使用224 x 224图像的Reset-50等基准测试不相关。客户有百万像素图像的传感器,精度来自更多分辨率。非常小的图像不会强调存储器子系统,可以导致关于各种芯片的相对优点的结论。“

基准创建一个通用货币。“你不想看到的是我们在图形中看到的内容,特定的基准成为占主导地位,因为每个人都听说过它,并且您发现公司设计以获得最佳成绩,”想象力的补助说。“扭曲了他们所做的事情。您需要的是一篮子相关基准,随着时间的推移,行业可以理解和合作,但这并不扭曲图片。我们不应该试图通过看着后视镜,优化几年前的东西来驾驶AI。“

对该观点的支持没有短缺。“基准是有用的,但不足以解决各种可能的建筑实施,”Fraunhofer Institute的混合信号自动化集团经理Benjamin Prautsch说。“基准不能希望涵盖这种多样性。已经有研究可以在问题类中比较不同的AI结构。标准拓扑源自拓扑,但这更有辅助架构决策,并且尚未解决算法和架构之间的共同设计问题。“

已经进行了几次尝试创建基准套房。“像mlperf一样的新努力,带来了行业中的所有球员,并定义了适用于各种应用程序的正确基准,”路易斯说。“这包括培训和推理。它正试图保持这个共同的竞争场。人们并不试图利用基准。相反,他们定义它是广泛的,适用于现实世界的例子。MLPERF是五个基准的集合,五个网络汇集在一起​​代表了一些现实世界。它最大限度地减少了某人为基准而不是真实应用程序做某事的能力。“

今天,这个行业可能发展得太快了,很多这样的技术在硬件层面上都没有意义。“人们没有足够的时间来优化基准,”洛曼说。“他们会落在后面。他们将其作为一种通用工具来缩小他们的决策范围。例如,当你着眼于移动领域时,这些加速器可能是5到20个TOPs。他们说,未来我们需要超过20个top,但你又问,‘手机能处理这个问题吗?电力预算是多少?’他们心里可能有一些推断或总体指标,但在运行应用程序之前,他们真的不知道。”

相关案例和资源
AI知德赢vwiniOS识中心
德赢娱乐合法吗AI的特殊报告,顶部故事,视频,白皮书和博客
使用FPGA for ai
标准FPGA为AI目的有多良好,以及将基于FPGA的设备有多不同?
在AI芯片上监测热量
如何降低边距,提高在非常大的设备上的性能。
硬件如何影响AI数据
劣化传感器和其他设备可以以难以辨别的方式歪斜AI数据。
为什么数据很难保护在AI芯片中
人工智能系统旨在高速传输数据,而不是限制访问。这就产生了安全风险。



2评论

基因莫舍 说:

真正优秀的文章Brian Bailey先生。谢谢你 !!

Amirali Amirsoleimani 说:

非常有洞察!

发表评论


(注意:此名称将公开显示)