中文 英语

重新思考大数据

要想用数以亿计的传感器精确地挖掘数据,需要一种不同的方法来处理这些数据。

受欢迎程度

您必须在纯粹的天才中扰乱现代日,信封营销计划的边缘可以实现。例如,诸如物联网它也被称为物云,或万物联网,甚至互联网络),已经成为相当沉闷的M2M行业的性感、有趣、激动人心的保护层。

同样的事情也会发生在分析上。它是一套新西装,刮胡子,理发,被称为“大数据”。根据Ian Morris,射频连接解决方案的首席应用工程师NXP半导体“大数据是当今世界最流行的话题之一。”

关于物联网和大数据有很多噪音。从零售到医学,防御,到国土安全,旅游和物流。并且只划伤了表面。据莫里斯介绍,由于潜力从软件到硅,所有厂商都感兴趣了很多供应商。“这不仅仅是一个垂直市场,大数据代表了传感器视角的巨大机会。”

随着数据收集设备的庞大数量,以及一旦物联网真正存在,虚拟宇宙中的数据量将是一个天文数字——到2020年,保守地说,将达到40 zettabytes。而获取这些数据的传感器数量也是天文数字。没有人愿意冒险猜测传感器的数量,但关于物联网设备的数字在500亿到2000亿之间。而且大多数设备都装有传感器。智能手机本身就集成了诸如加速计、罗盘、GPS、光和声传感器、高度计等传感器。如果你想找到一个典型的物联网设备,这就是它。

智能手机被设想成一个智能监测器,可以监测我们的健康状况、我们在哪里、我们旅行的速度、我们的触觉、我们的汽车的速度、地震的震级以及无数其他几年前甚至没有出现在雷达屏幕上的东西。智能手机只是众多智能物联网设备中的一种。

由此推断,如果每个智能设备只有5个传感器,如果这2千亿接近现实,那么传感器的数量最终将达到万亿。有了这些传感器收集的所有数据,我们就能理解为什么分析需要一场革命。

picbigdata

大数据vs.传统分析
大数据与传统分析的不同之处在于如何看待数据,以及预期结果是什么。这实际上是一个可信的案例。由于产生的数据量巨大,传统的分析没有合适的工具,也不能有效地处理数据,即使是下一代的超级计算机,如泰坦和天河2号。需要分析的大量数据将阻碍现有的分析方法,主要是因为分析需要实时和透明。

在大数据伞下,“每个应用程序都需要成为一个分析应用程序,”Gartner Cely David Cearley说。“正在进行任何类型的数据分析的人必须弄清楚一种方法来管理如何最好地过滤来自物联网,社交媒体和可穿戴设备的大量数据,然后向合适的人提供完全正确的信息,在合适的时间。分析将深深地变得深深,但无论如何,无处不在地嵌入。“

对于统计学家来说,大数据挑战一些基本范式。一个示例是“大p,小n”问题(在这种情况下,我们将“p”定义为变量的数量,而不是值)。传统的统计分析通常通过在大量数据上使用少量变量来接近数据分析。在这种情况下,变量的数量P是小的并且数据点N的数量大。典型的例子可能在销售中,冰箱有许多不同的选择,包括颜色,制冰机,门式设施,抽屉,尺寸,门等。虽然仍然是变量的体数,但与用户的数据相比,轮询它们对于他们想要的东西,而变量的数量仍然很小,与消费者的样本大小相比。

大数据则从不同的角度看待这个问题。这里有一个医学上的例子,比如癌症。如果将此应用到大数据应用中,情况就相反了。在一项使用基因组学的癌症研究中,研究人员可能会收集100名癌症患者的数据,以确定哪些基因会导致癌症的风险。挑战在于人类基因组中有2万个基因,甚至更多的基因变异。全基因组关联研究通常着眼于50万个“SNPs”,即基因组上可能发生变异的位置。变量的数量(p = 500,000)远远大于样本容量(n = 100)。

这种大数据方法是范式转移。在传统的分析中,当P大于n时,相对于数据中的信息,参数的数量是巨大的。使用这种方法时,将有一定的无关参数,将出现在统计学上。在古典统计分析中,如果数据包含有一百万机会发生的东西。但是,如果分析了从半百万个地方的数据,一百万个发现将更频繁地出现。诀窍是确定其相关性与机会随机性。

这就是统计学家所说的“到处看”效应,也是困扰大数据的问题之一,因为数据驱动的分析比传统假设驱动的方法产生更多、更广泛的结果。

有许多解决方案已经被开发出来来抑制这种影响。在现实中,大多数数据集,无论多么庞大,只有少数几个紧密的关系。剩下的只是噪音。因此,通过过滤掉这些重要的参数,其余的可以被认为是无关的。如果百万分之一的数据点在有效过滤器之外,那么它们就是机会,可以被丢弃。

如何做到这一点是相当简单的,一个标准的数学方法,以各种分析-设置一些参数为零。这工作得很好,但是需要大量的数据迭代。通过改变哪些参数被设置为零,并运行冗余分析,最终,“极少量”有意义的数据将被发现。

问题是,这是计算密集型的,用传统的统计硬件/软件编译会花费大量的时间。但幸运的是,科技来了救星。今天,由于硬件和软件的技术进步,这种方法是可行的。

这些进步之一被称为L1 - 最小化,或者是由Robert Tibshirani于1996年发明的。它运作良好的位置是在图像处理领域,在那里它能够从剧焦中提取图像模糊或嘈杂的数据。其他人是yoav本杰明和1995年yosi hochberg提出的虚假发现率(FDR),这使得一些假设的假设是一定比例的数据将是假的。可以在数据上进行后续分析以确定假定的假数据的有效性,以确定其是假的随机分配是否有效。

第三维
到目前为止,大多数统计分析都是二维的——n和p。大数据增加了第三个维度。物联网中的大数据分析,将是实时的。数据必须在飞行中进行分析,决策也必须在飞行中作出。而且,这些数据将是一种全新的类型——图像、声音、信号、相对时间的测量和无限空间的测量。这些数据不仅是无限的,而且是复杂的。它们可能需要在几何平面或拓扑平面,或三维悖论中进行分析。

这个新维度的一个更有趣的应用是Web分析。网络公司必须向客户提供有意义的结果,以便客户能够“销售”他们的服务,这种压力是一个无情的驱动力。这些公司通过准确预测用户的反应来产生特定的用户行为(例如,点击客户赞助的广告),从而大大获益。

这是一个完美的大数据分析案例。n的数量将是巨大的(例如一百万次点击)。p也可以很大(上千个,或者更多,变量-哪个广告,在哪,多久一次,等等)。现在,因为n比p大得多,理论上,除了时间因素,经典分析是可以使用的。在许多情况下,算法可能只有几毫秒的时间来响应一次点击,在第一次点击之后会有另一次点击,以此类推。因此,这些算法必须不断改变用户的输入变量(例如旋转广告)。

解决这一挑战的一个很好的解决方案是在Web上使用大量的计算机并行处理。这里有趣的是,这种方法是计算速度和统计分析的结合。最后,这种解决方案实际上是相当有效的。这种方法不是每次都给出正确的答案,但是花费的时间太长,而是在大多数情况下快速给出正确的答案。

隐私——拇指疼痛
了解本网站的读者都很清楚物联网潜在的安全问题。最近这些入侵事件的深度和广度充分提醒我们,我们的数据是多么脆弱。有很多方法可以保护大数据,传统的数据安全方法并不总是有效的。因此,正在拟订各种办法。

ChaoLogix业务发展高级副总裁乔达里•亚纳马达拉(Chowdary Yanamadala)表示:“石油管道监控就是保护大数据至关重要的一个例子。”“每隔这么多英尺(随着管道的不同而不同),他们就会有一个流量监测器,可以感知一些关于石油流量的参数,如压力、密度、流速。来自所有传感器的数据量是惊人的,确保数据的安全至关重要。但由于这种“大数据”的规模,保护数据本身就变得很棘手。大量的安全性意味着大量的开销,这可能会使这种M2M数据收集陷入困境。我们发现一种有效的方法是确保认证的安全,并使用验证技术来确保数据没有被泄露。”

为了保护海量、实时的大数据,将采取一些新颖的解决方案。在传统意义上,匿名化n和p并不能很好地扩展这些变量。类似网络的数据给隐私带来了特殊的挑战,因为很多信息与个人之间的关系有关,这些关系是动态变化的,内容也是动态的。

地平线上有一些亮点。一项正在发展的技术是“差异隐私”,这是一种将安全性商品化的方法,用户可以为他们的数据购买他们需要的安全性。但总的来说,保护大数据的努力仍处于起步阶段。

结论
毫无疑问,大数据将成为物联网信息的支柱。对很多行业来说,大数据都是新事物。不是数据,也不是收集,而是分析。此外,新类型的数据正在出现,需要新的方法来分析它。

最大的挑战之一将是能够同时从多个向量中实时挖掘有意义的统计数据。要做到这一点,就需要结合科学、分析、计算和数学实践。将需要新的方法,以及对正在分析的内容的不同视角。

统计分析是一个强大的工具,它可以在某种程度上确定地预见未来。通过大数据、物联网和下一代统计学,我们可以理解并指导物流、医药、天气、基础设施、经济、环境、金融等方面的影响。统计和分析将有能力拯救和改善生活,提高可靠性和降低成本,改善和无限的事物和过程。



留下一个回复


(注意:此名称将被公开显示)