中文 英语

机器学习的越来越大

在机器学习领域,行业是否正朝着另一个硬件/软件领域发展?双方都有不同的目标。

人气

机器学习是最热门的发展领域之一,但到目前为止的大部分注意都集中在云,算法和GPU上。对于半导体行业来说,真正的机会正在优化和包装解决方案,例如在汽车行业内或用于电池供应的消费者或IOT.产品。

由于容易获得的内容,通常会出现效率低下,并且当然是机器学习的情况。例如,GPU已被证明是培训的最高性能解决方案。因为这些设备基于浮点,因此开发了机器学习算法,依赖于浮点。

边缘设备中的推理不能使用浮点,并且有必要将系数转换为固定点。但可以使用定点进行培训吗?虽然只能考虑专用硬件。目前尚不清楚,如果算法开发和工具太根深蒂固,迫使行业继续沿着类似于通用软件的低效路径。

大问题是行业是否向另一个硬件软件划分。这可能表现为这次云/嵌入式的鸿沟,除非可以完成某些东西来将双方带到一起。

Babblabs的首席执行官,对此进行了深入的分析。“在任何时候,可能有数万或数十万个网络正在接受训练,但我们很快就会生活在一个拥有数百亿网络进行推理的世界里。”

我们今天在哪里
大多数算法的开发专注于云,并且在那里也将发生推动的大部分假设。推动所需的计算能力是训练所需的一小部分,从而几乎没有注意。


图1:培训推理分裂。资料来源:nvidia.

鸿沟是真的吗?“你所面对的是一个饱受算法设计者和实施者之间分歧之苦的社区,”麻省理工学院嵌入式系统分部高级研究主任兰迪·艾伦说导师,西门子的业务。“那些设计设计使用Matlab和Python,并没有关于下面的实现的线索。他们不明白的地方,不想去那里。他们只是想让它运行,而不是担心优化它。“

其他人同意。“如果您在Google级别的空间中进行了AI或机器学习,您将使用一个GPU的服务器银行而不是担心,”嵌入式视觉处理器的产品营销经理Gordon Cooper说Synopsys对此。“但如果你的车里有谷歌手机或其他东西,现在你关心的是电力和成本,所以模具的面积直接影响。现在你想要所有的性能,你可以得到低功率,低面积的警告。”

在嵌入式级别,将使用所有可用技术。“机器学习是一项广泛的术语,包括许多非神经网络方法(例如,支持向量机,随机林)以及深度学习方法,特别是神经网络,”雷伦说。“这些”较低“的学习方法几乎是如此计算密集型作为深度神经网络,使GPU的理论效率优势FPGA.可能是相当不重要的。”

总体而言,真正的应用程序 - 甚至那些严重利用机器学习方法 - 包括许多其他部分。Rowen’s list includes image preprocessing, image scaling, MPEG decoding, image and video clipping, region of interest selection, motion detection, background deletion, histograms, transcoding, segmentation, database access, data formatting, smoothing, noise removal, data augmentation, face detection, FFT, frame-to-frame tracking, I/O processing, and sundry stitching together of complete processing pipelines.

硬件解决方案利用历史。Cooper说:“在嵌入式计算机视觉领域,多年来一直在使用传统计算机视觉进行工作,即编写一个程序来确定这是否是一个行人。”“梯度直方图是一个程序,它寻找人周围的边缘,然后试图确定模式和它对应的东西。这就是矢量dsp在像素行上使用大量SIMD乘法进行像素处理的地方。”

这意味着今天许多硬件解决方案是技术的组合,部署矢量处理和紧密地耦合到组合的加速器发动机的神经网络。此外,与许多其他硬件解决方案一样,还有大量的权衡。你可以在ASIC中做点什么,这将提供最低的电力和最小的区域。但如果你想要未来的产品怎么办?现在你想要可编程性。该行业正在寻找在迅速变化的环境中的理想解决方案。

指标
为了优化任何内容,必须有指标可以进行分级的解决方案。“目前用于机器学习表现,我们没有行业基准来衡量,”指出了弗朗西斯科Socal,产品经理的愿景和AI想象力技术。“例如,使用图形,我们有曼哈顿和T-rex得分。有一些神经网络模型出现,但它们绝不是代表性的。我希望在明年内看到行业商定的基准。“

在硬件领域,功率、性能和区域传统上是关键指标。“延迟、吞吐量和功率与机器学习非常相关,”Rowen说。吞吐量通常可以通过简单地应用更多并行硬件来提高,但延迟就有点棘手了。并行硬件在某些情况下很有帮助,但可能存在一些基本的延迟限制,比如处理窗口。”

SoCal需要这一点更远。“在非常高的级别,吞吐量(性能)和功率是测量机器学习性能的正确度量,就像任何其他硬件设计一样,因为它们是真正重要的。低延迟不是一个度量,而是需要。“

延迟取决于应用程序域,其中可以在秒数中具有长期的延迟,对于某些实时应用程序 - 只要吞吐量足够长。在其他应用中,特别是在汽车和机器人这样的直接人类交互或安全关键系统中,您可能需要以毫秒或数十毫秒为单位测量的延迟。

对于机器学习,可能需要考虑其他指标。这些包括准确性和未来的打样。

力量
鉴于所需的计算肌肉量,权力是最大的担忧之一。“力量通常与成本强烈相关,并且成本确实很重要,”罗根说。“它还在技术成熟并且被广泛部署的情况下更加重要。权力也与移动性强烈相关,毫无疑问,我们希望将处理能力携带到我们走的地方。最先进的神经网络发动机(处理器,可重新配置阵列,协处理器)由于围绕神经所需的计算模式和数据类型围绕所需的专业化,对通用CPU具有100个常规能源CPU。网络推断。“

但更多是必需的。“许多自动驾驶汽车都有相当于100辆车全职运行的100台套电脑,”导师Calypto Systems部门营销总监Ellie Burns说。“这是它的力量。您不能拥有100台笔记本电脑的雪佛兰伏特。力量必须下降很多。这个行业目前正在努力,今天GPU是大多数时间可以保持唯一能够保持的东西。这就是为什么许多人正在寻找使用高级合成产生自定义硬件。“

较低的功耗也可以实现新的应用程序。“北京有100万相机,每秒都会生产2.5MB的数据,”总裁兼首席执行官奥克森解决方案。“想象一下,如果在云中完成处理,则需要电源和数据传输。它们需要较小的设备,更便宜的设备,不消耗功率的东西。这就是新架构进来的地方。由于数据运动,标准架构具有瓶子电源。他们试图想出改变这个或优化网络的架构,以便它不那么饥饿。“

权力是机器学习的最大权衡之一,带宽要求创造限制。

“由于需要将要加载到加速器的大量数据以运行单个网络推断,”神经网络非常有带宽饥饿,“添加SoCal。“通过使用端到端和一体化网络模型的使用驱动的系数(重量),输入和输出数据大小,内存带宽要求随着神经网络模型的大小的增加而增加。今天见过。这引入了重大挑战SOC.设计师和OEM。更高的外部内存带宽需要更快的内存模块,这是更昂贵和饥饿的昂贵。许多解决方案的性能都是有限的,而不是由推理引擎的计算功率,而是通过系统为神经网络加速器提供所需带宽的能力。“

LANZA Techventures的董事总经理LucioLanza补充说,“优化的主要指标是能够保持加工单位的能力,即占用。这涉及延迟和吞吐量。随着摩尔的法律分解,我们应该期望看到更多单任务设计的芯片,并且通常是单一指令,多个数据(SIMD)以及远离多个指令,多个数据(MIMD)的移动。“

功率还会影响设计的许多方面。莱迪思半导体(Lattice Semiconductor)高级营销总监迪帕克•博帕纳(Deepak Boppana)表示:“由于电池动力和低成本冷却系统的限制,能源消耗受到严格限制。”“低成本和小尺寸要求使得使用大量引脚的封装变得困难,这限制了外部带宽德拉姆。即使有这些限制,大多数应用程序也需要实时操作。“

准确性
统计过程的准确性意味着什么?“对于视觉,没有明确的算法,”门托的艾伦说。“你可以观察一种光学错觉,很明显,它允许以不同的方式解释某些东西。人们可以看到一些不同的东西。没有100%的正确答案。它更像是归纳而不是演绎。如果你的训练数据准确率达到了97%,那你就做得很好了。”

与其他指标一样,绝对可能不适用。“汽车和消费者在准确性方面具有截然不同的最终目标”,“普林德·德斯·普林斯·德斯泰·德斯·商品系列产品营销总监韵律。“我们都希望确保它是一个安全的设备,因此汽车可能需要高精度。但在消费者设备中,您可能需要一个低功耗唤醒模式和使用模式。总的来说,您希望节省最大能量,但是在操作时,您可以使用更多的能量以获得更好的结果。“

能否经得住时间的考验
机器学习正在快速发展。“事情正在快速播放,我们必须考虑易用和潜力防护,”库珀说。“如果你现在做出了一些伟大的事情,你可能会落后于目标,所以我们必须确保我们为未来有任何腿。我们在产品中发布的设备之间以及当产品释放时,有一个管道,所以我们在过程中很早。我们所做的任何事情都必须持续一段时间从软件的角度来看。“

黛西分享了类似的观点。“今天正在创建的设备将于2019年投入生产。对于汽车,可能是2021年。所以这取决于市场部门。可编程性有助于并提供更多的灵活性。您可以开发硬件加速器,它可能提供最佳解决方案,但它不能与技术发展。专用加速器核心将提供更好的性能/电源选项,即CPU / GPU组合。“

一些申请不起那种奢侈品。“当您需要更多的性能或更低的功率时,您构建硬件,”伯恩斯说。“随着时间的推移,我们将看到这些解决方案的组合。”

关闭鸿沟

硬件社区有责任帮助关闭鸿沟。软件已经掌握了铅,该行业可以证明他们的投资证明不考虑在边缘的处理。硬件行业可能不习惯处于此位,但如果他们想看到改变,他们将不得不开始进行投资。

相关案例
EDA挑战机器学习
除了缺乏培训数据外,EDA中的许多任务可能是机器学习的完美目标。有什么可能改变以解决这个问题?
在EDA使用机器学习
这种方法可以使设计更好,更便宜,但它需要大量的工作和更多的数据共享。
机器学习符合IC设计
有多个层,机器学习可以帮助创建半导体,但到达那里的其他应用领域没有那么简单。
CCIX使机器学习成为可能
系统的平凡方面可以制造或打破解决方案,并且接口通常定义可能的内容。
机器学习人气增长
经过二十几十年的实验,半导体行业正在加争夺这种方法。



7点评论

凯夫 说:

就我个人而言,我看到的更多的是我熟悉的东西的集合——许多神经网络处理是一个类似于电路模拟的代码模式(行为模拟,快速spice)。

像Verilog-AMS这样的语言很容易用于描述神经网络。您甚至可以使用“流量”来加强反馈。

上述人员的认知不分散是因为它们都是数字,可能是讨厌的模拟,并且看不到连接。看不到他们越过任何划分自己。

Brian Bailey. 说:

我不得不笑 - 是的,自晶体管发明以来的模拟/数字鸿沟已经存在。我很乐意看到模拟机器学习的一些工作。我相信这将是一个小的力量。

Brian Bailey. 说:

我不得不笑 - 是的,自晶体管发明以来的模拟/数字鸿沟已经存在。我很乐意看到模拟机器学习的一些工作。我相信这将是一个小的力量。

凯夫 说:

你好运,这些家伙正在进行risc-v包裹的模拟乘数 -

https://www.mythic-ai.com/technology/

Benoit B。 说:

CNN / DNN研究正在进行这么快,未来证明硬件是基础的。一个完全硬逻辑的NN将很快变得过时,并不是去的方式。

可编程HW加速器提供了更多的灵活性,但即使它们无法预测未来网络的结构和运营。这就是为什么HW加速器需要通过SW扩展以处理不支持HW的操作。

最后,也许最重要的是,我很惊讶在这次讨论中没有提到FPGA。他们正在获得数据中心(Microsoft,Amazon,Huawei ......)中的势头,它们存在于许多嵌入式/物联网产品中。它们提供最终的灵活性,包括重新编程NN加速器的能力,以利用NN研究中的最新进展。推理精度快速从32位移动到16位,现在为8位。4bits和以下是视线。与FPGA不同,CPU / GPU / HW加速器具有固定数据路径,不容易利用此演变。

*注:以上内容只适用于推理,不适用于训练。

Brian Bailey. 说:

关于fpga,你是对的。为了推断,eFPGAs更可能是人们想要去的方向,我将在2月份的一篇关于映射的文章中讨论这个问题。我确实希望今年能看到eFPGA芯片大量发布。

Brian Bailey. 说:

关于fpga,你是对的。为了推断,eFPGAs更可能是人们想要去的方向,我将在2月份的一篇关于映射的文章中讨论这个问题。我确实希望今年能看到eFPGA芯片大量发布。

发表评论


(注意:此名称将被公开显示)