中文 英语

边缘的数据混淆

处理器和数据类型中的差异对AI系统产生不可预测的影响。

人气

与完全缺乏标准化的边缘预处理的差异正在提高关于如何在AI和机器学习系统中优先考虑和管理数据的问题。

最初,这个想法是那个5克将边缘数据连接到云端,大量的服务器群将从数据中推断出模式,并将其发送回边缘设备。但是,快速增长的边缘传感器大军(包括流媒体视频)产生的数据太多,使得这种方法无法实现。相反,处理必须在终点或接近终点的地方完成,该区域现在被模糊地定义为边缘

最近的一次报告思科估计,到2022年,每月的互联网协议流量将从2017年的每月约122艾字节上升到每月396艾字节。此外,将有更多的设备存在——预计到2022年,人均联网设备将达到3.6台,而2017年为2.4台,其中一半将是机器对机器的连接——每个设备将有更多的传感器。在工业过程的每个阶段和制造设备本身也会有更多的传感器。

“三、四年前,我们通过3D非接触式光学传感器每秒收集500万个数据点,”该公司首席执行官苏bodh Kulkarni说CyberOptics。“今天我们有7500万个数据点。所有这些都必须进行分析和存储。”

大量的数据导致了处理内容和地点的根本性转变。一年前,这一前沿概念几乎还没有出现在任何一家公司的技术雷达上。如今,它几乎是每个人的路线图的关键部分。但到目前为止,还没有一个单一的指令集体系结构在这一领域占据主导地位,也没有一家公司在这一领域占据主导地位。不过,这并没有阻止企业提出索赔。这个机会的大小已经创造了大量的竞争对手想要抓住市场股公司从大云提供商如亚马逊、谷歌和微软,思科和苹果等公司系统,以及处理器制造商如英特尔、手臂,Xilinx, Achronix, Flex Logix, RISC-V许可。

但由于这个市场是如此新的,关于如何处理该数据的方式以及在任何特定位置处理它的处理,或者是否应该在任何特定位置处理它,或者是否应该完全处理其中的许多共识。这导致硬件和软件架构中不一致,并且在此市场成熟之前可能持续存在,并且甚至在此之后也许甚至那么长。

“如果有硬件或软件的平台,或者是否会有平台件,”杜安邦特,电气工程教授和麻省理工学院的计算机科学教授表示,这是不清楚的。“但是清楚的是没有互动的平台。重点仍在转移和行动。“

相反,需要的是一种根据处理的多少和数据的价值来权衡数据的方法。现在还不存在这样的情况,现在就把标准强加给这个细分市场还为时过早,因为在这一点上,潜在的问题还没有被完全理解。

“你要么有100万传感器直接与服务器交谈,或者您拥有不同级别的不同模式的系统层次结构,“Rob Aitken说,手臂伙伴。“从硬件角度来看,这不是一个问题,但从软件角度来看,它是一个潜在的噩梦。当所有这些数据都移动到云时,您有一堆以CPU为中心的对象。然后您添加了一层安全性。但是通过本地化服务,现在您需要分析来清理数据和时间序列来弄清楚是否有异常值。“

这就是事情开始变得模糊的地方,因为AI.机器学习都处于一个不断发展的状态。算法几乎每天都在更新,新的硬件架构也在不断推出,以实现更快的推理,使用更少的能量。与此同时,出于安全和隐私的原因,使用私有云和垂直云的势头正在增强。这就开始增加了处理内容的不一致性,不同公司的处理方式可能不同,甚至在同一家公司内部也是如此。

“这是一个非常适合新产品开发的领域,”该公司总裁阿尼鲁德•德瓦根(Anirudh Devgan)表示韵律。“这是矩阵乘数/积累类型的东西,大约有50家公司在做这方面的工作。但最关键的是软件部分,现在很多公司都在自己做。所缺少的是一个贯穿所有这些领域的框架。TensorFlow做了一些,但这还不够,因为你需要数据管理。现在没有真正好的解决方案。”

分区数据
一个关键问题是如何在不同系统之间,甚至在这些系统内的组件之间划分数据。

“数据有两种根本的方法,”企业技术研究员Michael Schuldenfrei说最佳加号。“一种是抛出大量数据,然后就这些数据提出问题。所以你索引,组织和安排,这对很多用例都适用。但它会因为复杂的关系而崩溃,因为你不能单独看待机器,这在系统的系统中很重要。第二种方法是关于系统和数据分析,你看看整个故事。我们使用数据分区看到的很多问题都是围绕数据保留。您需要随时间存储和检索数据,并且您需要进行那种成本有效的方式。“

这在制造中尤为重要,在那里数据可以用于点缺陷或不规则。但它也必须与理解数据真正表明的内容,并且需要深入了解应用程序以及市场细微差别。这就是为什么分析公司开始重点关注招聘或培训垂直市场专家,他们可以开始破译和重量模式作为数据处理。

Schuldrenfrei说:“很多公司都陷入了如何处理收集到的所有数据的困境。“由于一级汽车制造商涉足汽车制造,这是一个反复出现的主题。这就是您需要引入领域专业知识的地方,因为您需要从原始数据和测试数据中提取意义。这是领域驱动的工程,即如何获取原始数据并使其有意义。在半导体制造业,如果你把原始数据输入机器算法,你可能会发现一些有用的东西。但如果你真正了解了x和y数据,你就可以确定离晶圆中心的距离,并确定故障是否真的是随机故障,或预测可能发生的位置。”

还需要一种以一致的方式访问所有数据的方法。“我们看到了对数据语义、跨不同类型设备的互操作性、通信协议和跨服务网络的巨大需求,”该公司营销副总裁Apurba Pradhan说adesto.微软的嵌入式系统部门。“我们需要一种将数据粘合在一起的方法,这包括发现和供应,即分配名称、时间表、警报,以及为一系列服务检索数据的能力。”

比较数据
理解数据最简单的方法之一是将其与其他数据进行比较。这就是作为参考点的数字双胞胎背后的整个想法。它也是英特尔“完全复制”方法背后的驱动因素,以最小化不同晶圆厂之间的差异。

但这并不一定是在每个新节点和各种不同的包装方法上增加变化源的数量。

“这里需要的是数据的模型,”John Kibarian,总裁兼首席执行官PDF解决方案。“有表示级别,并且您对齐数据上下文。这是数字双胞胎背后的完整想法。“

但是,问题是通过边缘传感器生成的数据量来实现这一点,这可能包括从摄像机流向热,振动和其他类型的工业传感器的所有内容。在半导体制造中尤其如此,设备制造商在各种传感器中添加。

Kibarian说:“在铸造厂的边缘必须进行大量的加工。”“大爆炸来自于来自许多来源的分析。”

它还来自于在整个制造过程的各个层次上进行比较。

“您需要在传感器级别进行分段数据,然后在系统级别,然后在工厂级别进行分段,”Cyber​​optics'Kulkarni说。“这就是为什么财富500强或财富50家公司拥有自己的生态系统。如果您查看大型IDMS,他们有自己的软件层。它们正在原始传感器级别收集大量数据。然后,在系统级别,他们应用对它们更有意义的算法。但这也从Fab到Fab。他们部署了不同的技术,所以它不是苹果的苹果。“

很难高估这类数据的价值,因为它对于减少随机失败的数量至关重要。虽然随机故障是高级节点的一个实际问题,但并非所有故障都是随机的。问题在于找到它们并确定显示这些失败原因的模式。

“你不能测试随机失败,”Gert Jørgensen说,营销副总裁三角洲半导体。“因为你要通过这些设备的筛选测试,让它们暴露在外界面前,如果它们通过了很多验收测试,这些测试需要128个小时,也就是一周,你说它们通过了,你就认为它们是好设备。如果故障发生在现场,当然,我们做一个故障分析。我知道汽车制造商正在记录所有的故障,看看每个故障是周期性故障还是随机故障。他们有快速的报告系统,因此,当我们发现故障时,他们会检测出它是否对其他人群有影响。如果他们说,好吧,这是一个随机的故障,我们将把它存储起来,看看是否会有更多的故障。如果这是一个可以治愈的失败,当然,他们通常会做一些事情。”

这意味着在必要时存储数据,但可以存储的数据数量是有限的,这就是为什么处理更多靠近边缘的数据以识别模式是至关重要的。

约根森说:“对于如何处理随机故障和程序,以及我们应该在汽车制造商存储哪些数据,我们有质量衡量标准。”“他们确切地知道什么时候出问题,什么时候生产的,如何生产的,谁参与了,等等。所以每件事都被记录和登记在飞机的同一水平。”

分治,征服,分享
最大的挑战是将所有这些数据连接成一个连贯的画面,然后可以用来将其分割成更容易理解的部分。

“设计集成电路的整个想法是可行的,因为你可以忽略其他阶段,”Joe Sawicki,执行副总裁说门托,西门子公司。“否则,你所需要的知识量和对所有其他部分的意识将是压倒性的。你可以对数据进行本地化,这样你就不必训练6个互不交谈的人。当你开始跨越数据的界限时,你必须寻找一种不需要让人们重返校园的方法。所以,工业机构我们有系统测试,您可以在那里将其与设计过程相关联。“

虽然在边缘同步数据很重要,但还有其他复杂因素,例如愿意在供应链中共享数据。

该公司美国应用研究和技术副总裁Keith Schaub说:“探针卡是非常微小的,上面可能有1万到3万个探针,其产量可以达到99%甚至更高。优点。“也许一小把薯片不好,但很多薯片还是有用的。那么,如何在20,000个错误的探针中找到一个呢?AI可以做到这一点。它可以用于整个制造过程中寻找缺陷,并可以了解无线射频信号。数据归客户所有,并进入他们的云中。我们一直试图与他们合作,通过不同的测试插入来开发数据,这样我们就可以在晶圆上有一堆数据用于自适应测试,前馈测试和异常值检测。但客户不愿分享这些数据。因此,idm将在一开始就用它们自己的堆栈加速这一切,并且它们有适当的结构来利用这些数据。与OSATs,这是一个更复杂的供应链,数据更碎片。“

此外,目前还不完全清楚是否需要将所有数据融合在一起,或者是否会因细分市场而异。例如,工业物联网很少使用流媒体视频,但它确实包括温度和振动传感器等东西。“还有很多数据,”Adesto的Pradhan说。“在一座商业大楼里,每秒钟可能有10万个数据点。最大的问题是如何处理这些数据。不可能在云端处理所有这些。”

结论
构成边缘的定义仍然不断发展,并且该定义具有多个数据分析级别。到目前为止,这是一个全新的空间,以一致的方式在多个系统跨多个系统划分数据方面很少。

但是对于分析真的在边缘真的有效,这种数据需要收集和解析对各种行业细分的方式。到目前为止,数据分析行业只划伤了这个空间的表面。但这是解决它的专业知识的巨大机会,以及适应硬件和软件的几乎永久性变化的意愿。

相关文章
领域专家成为分析的必要条件
除非您知道该怎么做,否则更多数据并不意味着太多。
使用传感器数据来提高产量和正常运行时间
更深入地了解设备行为和市场需求将对半导体供应链具有广泛的影响。
脏数据:传感器故障?
为什么传感器数据需要清理,为什么这对系统设计的每个方面都有广泛的影响。
将AI推入主流
为什么数据过滤和社会问题会限制采用的速度和这项技术的实用性。
数据分析知识中心德赢vwiniOS
关于数据分析的头条新闻、特德赢娱乐合法吗别报道、博客、视频和白皮书
物联网融入数据驱动设计
随着数据量的爆炸式增长,对边缘处理的强调给物联网模型增加了混乱。



发表评论


(注意:此名称将公开显示)