中文 英语

到处乘以累积的累积操作

Flex Logix的首席执行官指出,各种新市场对MAC功能的需求日益增长。

人气

杰夫特特,首席执行官Flex Logix,坐下半导体工程讨论如何构建可编德赢娱乐网站【官方平台】程边缘推理芯片,嵌入式FPGA,其中市场正在开发,以及图片在未来几年内将改变。

SE:当你在设计一个可编程推理芯片时,你必须考虑什么?

泰特:与传统的FPGA架构您可以使用计算元素具有完全可编程的互连,但粒度非常低。您有LUT(查找表)和单个MAC(乘法累积),然后您可以以任何您想要的方式连接它们。我们没有采用这种方法,因为我们相信在所有这些架构中,他们将处理1到4百万像素的图像。与我们所针对的客户,即使是最小的图像也可能是半百万像素,这是你用超声所看到的。当图像很大时,在神经网络你知道你会做大量的mac。我们以64组集群MAC,最多可以在环中连接1,000个。特殊的互连在环内移动簇之间的数据。这是非常灵活的,但我们通过将MAC集聚成64组而不是依赖于单个MAC来缩小灵活性以实现灵活性。

SE:所以基本上你已经对这个问题采取了建筑方法。那是怎么解决的?

泰特:我们将在明年揭晓答案。没有人真正知道会发生什么,但我们的预测,基于我们目前所看到的客户,将会有很多奇怪的模型。不灵活的体系结构将很难处理与原来计划的模型不同的模型。模型的多样性将会很大,所以我们认为我们的架构将会给我们一个很大的优势。我们有一个客户,他们的测试显示我们的芯片比竞争对手的快10倍,我们的芯片是两位数,而竞争对手的芯片是2000美元。它还被用于一个与我们预期的完全不同的应用程序。当潜在客户第一次出现在我们家门口时,我们的表现还不如今天。但当我们的研究人员研究它时,他们意识到这是一个与他们预期的非常不同的模型。所以我们考虑了一下,用不同的方式把这些组件连接在一起。因此,我们能够获得2.5倍的性能。 And then we went back in to tune the compiler.

SE:Flex Logix开始作为EFPGA公司。这是一个显着不同的方向。业务的EFPGA方面发生了什么事?

泰特:我们仍在这样做。事实上,我们在eFPGA的一面。

SE:EFPGA和推理处理器之间是否存在大量重叠?

泰特:如果您从客户应用程序中查看它,FPGA使用verilog.。神经网络使用ONYX或TensorFlow Lite深度学习神经网络模型进行编程。从这个意义上说,它们看起来完全不相关。但是如果你深入我们的硬件并查看细节,你会看到我们的推理IP是一个高度优化的嵌入式FPGA。打个比方,第一个fpga只有lut。没有mac。在某个时间点,有人意识到他们的很多客户都在使用fpga来处理信号,做乘法累加,所以他们强化了乘法累加来获得更高的性能,减少硅面积,让他们赚更多的钱。今天,所有的fpga都有分散的倍增器。所以Cheng [Wang],我的共同创始人,观察到你可以在fpga中使用mac——在fpga中有很多mac,这就是为什么有些人使用fpga进行推断——但我们可以添加更多的mac,使其更有效率。我们可以用本地内存聚集64台mac,这样我们就可以做一个一维标量处理器,然后把它们连接起来,进行任意大小的矩阵乘法和卷积运算。 So the hardware guts of this chip has DNA from our embedded FPGA, and about half of our inference IP is in the same blocks that we do for our embedded FPGA. And then we add to it the hardened clusters of 64 MACs in a ring.

SE:你在哪里看到了efpga业务的皮卡?当他们第一次推出时,很多人都在踢了轮胎,而且对他们来说并没有真正做得很多。

泰特:打个比方,当我在Rambus的时候,很多人看着我们的记忆,说它比他们需要的要快。我们最终做到了,但我们的第一个批量应用是任天堂64,这是一个消费玩具。但这是一个非常高产的玩具,这给我们带来了巨大的信誉,打开了我们最初计划进入的所有其他市场。你的第一个采用者永远不会是你所期望的那种人,但你需要一个滩头阵地,而我们已经进入了美国航空航天市场。美国航空航天机构购买的芯片中有三分之一是fpga,因为它们需要可编程性、灵活性,而且它们的容量不是很大。问题是,几乎所有这些产品都是台湾制造的,美国政府认为这与中国太过接近,而中国称台湾是中国的一部分。所以为了保证和供应,我们开始和桑迪亚国家实验室和美国国防部高级研究计划局的人合作。我们已经宣布了与其他政府组织和航空航天承包商的合作项目,他们现在正在与我们一起做大量的设计工作,以使关键芯片在美国的晶圆厂生产,包括GlobalFoundries的12nm和14nm工艺。我们用我们的技术支持这些企业,我们正在考虑支持更多的美国晶圆厂。这给了我们很多收入。 And those chips are complex. The design complexity in some cases is hundreds of thousands of LUTs. That’s allowing us to continue to develop tools at the high end of routing capability. We’ve recently announced commercial customers. The two that we can talk about our Morningcore in China, which is a subsidiary of Datang, a big Chinese telecom company, and Dialog, which announced plans to use this in association with mixed-signal chips. They already have mixed-signal programmable chips, but they get more programmability by using our technology. And we’ve got a lot more activity that isn’t public. So the commercial side is starting to grow. The aerospace side is already paying the bill.

SE:在航空航天方面,很长一段时间,这些都是在老节点上开发的非常基本的设计。这些芯片有多先进?

泰特:就像在商业方面一样,并不是每个应用程序都需要有前沿的流程。我只能谈论一些公开的信息,但是对于我们的第一批客户之一Sandia国家实验室来说,我们为他们的180nm晶片提供了嵌入式FPGA,他们拥有并运营这个晶片。我们曾公开谈论过波音公司使用GlobalFoundries的14nm工艺。是在奥尔巴尼以外的纽约制造的,用的是finFET流程,非常先进。在美国还有其他生产90nm和65nm的晶圆厂。这取决于客户想要做什么,是更高级的信号处理,人工智能,还是任何驱动过程的东西。

SE:当您进入边缘的边缘时,您在理解软件方面找到了什么?AI,本质上是软件定义的硬件,但可以在硬件和软件之间的迭代过程中进一步提高它。

泰特:我们的软件才是真正产生分歧的地方。在用户端,我们用于嵌入式fpga的软件与用于推理产品的软件完全不同。当我们到达地点和路线时,我们使用相同的软件,但是客户永远不会看到下面发生了什么。神经网络模型是非常高级别的。通过一些简单的操作符调用,它们会调用数千亿次计算,而在Verilog和RTL中,这是非常低级的操作。它就像微码或汇编语言。通过神经网络,我们可以处理所有的记忆映射和记忆运动。我们为用户保持很高的水平。

se:望着几年,你在哪里看到新的机会?

泰特:我们正在探索的一个市场是信号处理。fpga常用于无线电和基站等信号处理。美国政府使用了大量的fpga。我们有使用fpga的客户,也有对推理感兴趣的客户。当我们进去和他们交谈时,那些对信号处理感兴趣的人看着我们的NMAX(神经推理引擎)说,‘嘿,看那里所有的乘数累加器。每平方毫米有比FPGA更多的倍增器。我可以用这个来处理信号吗?他们不能把现有的可在FPGA上运行的RTL应用到我们的NMAX上。不工作。但我们一直在探索的是展示有限脉冲响应(FIR)滤波器如何在我们的NMAX IP上运行得非常好。 So we can do FIR filters at throughputs that are as high or higher than the most expensive FPGAs, but do it in a couple of dozen square millimeters.

SE:所以这将把你们推向通信领域,对吗?

泰特:在商业方面,兴趣将在通信中。但我们已经看到了测试仪公司和航空航天公司进行了很多信号处理。这不是我们的x1芯片,它在它内部有nmax ip。X1芯片使用PCIe与外界交谈,这是一个用于处理器的面向块的传输总线。什么A.DSP人们想要更像Serdes - 进入最小化延迟的数据流。

SE:您还可以转动多少旋钮来提高性能或降低功耗?你已经把所有的东西都用上了吗?或者将来还会有更多呢?

泰特:还有一些建筑方面的改进。所以我们可以用我们的信号处理体系结构来做一些事情,让它运行得更快,但我们必须改变当前的体系结构。对于任何给定的架构来说,削减电力的方法都是使用更先进的工艺节点,比如7,5和3nm。如果你从台积电的16nm调到7nm,功率会减少一半,性能会提高20%。现在,口罩的成本上升了,把它推向市场的成本也更贵了。但是,除了任何架构技巧之外,这就是为给定的吞吐量水平削减电力的方法。我们将同时进行这两项工作。

SE:那5G呢?

泰特:有很多方面5G。有基站和收音机。除了您到达频谱时,世界各处的基站架构都是相同的,因为政府已经为不同的载波分配了不同的频谱。当您迈向基站的播放部分时,这就是您需要可编程性的地方以及人们使用大量FPGA的地方。我们听到一些那些玩家,由于各种原因,使用FPGA增加了更多的开销。您基本上必须拥有这些庞大的Serdes,以便进出数据。如果您可以将其集成到ASIC中,那么电源有效远更为重要,因为它们是有限的。所以在某些时候,我们看到嵌入式FPGA进入基站。而且还在信号处理方面,我们看到我们的nmax感兴趣的信号处理5g。然而,这只是早期讨论。

SE:医疗仪器是否为您提供了长期的效果?

泰特:我们正在寻找超声波,MRI,CT扫描和X射线技术。我遇到了一个主要制造商,其中三个中有三个,所有这些都是用AI算法运送的。当我们与边缘上的每个人交谈时,我们听到的是,'我们可以做到这一点,但我们想做更多。“现在他们能做的事情比没有好。这是有用的东西。但在其权力和成本的制约中,它们都是贪婪的更多计算能力。如果我们可以为相同的功率和成本提供两倍的吞吐量,那就太好了。但他们想要更多。所以它会采取多个世代来赶上人们想要的东西,然后我们可能会有更好的神经网络模型。这就像PC时代的早期。人们曾经争论为什么有人需要超过10MHz的PC。

有关的
AI / ML / DL视频
德赢娱乐网站【官方平台】半导体工程的AI顶级视频,包括软件在推理加速器,使意义的推理处理器和更多…
优化机器学习的新方法
在ML系统中改进性能和降低功耗的不同方法。
AI边缘芯片的内存问题
内存计算变得至关重要,但哪个内存和进程节点?



1评论

柯恩weijand 说:

伟大的报价:出血边缘技术

留下一个回复


(注意:此名称将公开显示)