来源:比特网 更新时间:2013-11-07
大数据和云计算将超级计算机的能力赋予了每一个人,但是会让人产生迷失的是:我们用于解析信息化浪潮的工具有可能存在着致命的缺陷。很多时候我们用于大数据分析的模式是错误的,它意味着出错将不可避免,特别当预期的结果超过我们的判断能力时,其后果是非常可怕的。
这不是类似“大数据不是非常大”的问题,我们所获得的数据量,即使是有缺陷的工具,也能够让我们获得有价值的信息。真正的麻烦在于我们会混淆结果,以为自己无所不知。我们偏爱自己的技术,当模式错误时,我们就会相当失败,错误越大失败越大。
与编程错误相比,更严重的问题在于分析所依赖的程序过于简单化。例如在2011年4月, Peter Lawrence在亚马逊上推出“如何制作一个苍蝇”,这一发育生物学经典,引来了许多生物学家定期资讯,产生了17份销售订单:其中35.54美元的15份,23.698美元和655.93美元(外加3.99航运费用
)各一份。
我们再来谈谈Mark Zuckerberg的《知识经济》一书,该书1992年出版,现在已经绝版,但这不能用来解释其数百万美元的标价,它是两个自动程序的产物,一个由卖方“bordeebook”控制,另外一个卖方是“"profnath”,采取的是迭代和增量竞购策略。一旦某一天profnath将价格提高到bordeebook售价的0.9983倍,几个小时后,bordeebook会增加他们价格到profnath的最新价格的1.270589倍。这是一个典型的例子,显示了即使是最好的计算模型也会因为一些意外因素产生挫败,这并不是一个孤立的事件。
这是不是有些像次贷危机?在2008年之前,最好的人才运用最好的技术,运行着最先进的预设情景,没有意识到迫在眉睫的危机和问题的严重性。事实上,更加广泛的模型蕴藏着更多错误的可能性。这显而易见,但我经常不顾这样的现实:就是模型永远没有办法替代真实。
这里有另外一个案例。一个T恤卖家在Amazon.co.uk上出售印有“保持冷静,强奸很多”字样的T恤衫。有人可能会问,谁会认为这是一个好主意?制作该衬衫的Solid Gold Bomb公司甚至没有意识到有这样T恤出售不知道还有这样的。公司为此进行了公开道歉,但用于纠正的措施只是一个小小的编码错误。事实上,没有任何人设计这样的T恤,也不会印制。这家公司的业务也不是T恤设计,他们的业务是设计类似“Keep Calm and Carry On”这样的流行语代码库,用于T恤制作并自动在亚马逊上出售。它只是4000个词语中的一个错误(幸运的是该公司没有其他攻击性语言和词汇),问题发生在语义上。
同样的,一个简单的模型导致严重的社会后果。制作Solid Gold Bomb T恤的程序并不知道受众如何看待“强奸”,又怎么会知道如何控制T恤的业务呢?以至于由于一个字词内容转化为一个具有破坏力的公众事件。
从这两个事例可以看出,程序与程序之间,以及更广泛含义字词所造成的破环性事件,是没有办法预计的。这是两个典型的模型建立在有缺陷程序代码基础上的事例。
大数据会有大问题。例如我们所收集的数据往往没有进行恰当的归类(确保所有数据都是苹果与苹果的比较),我们的模型没有进行仔细的测试和审阅,而且更为关键的是,这些信息通常来自大企业内部的信息孤岛,而不是民主的可核查的信息。
这并不是说技术无用,我们每天都在使用大大多数应用都非常好,并且在某种称得上,以不同的方式影响和改变着我们的生活。但我们理应对模型进行检查,因为它们不定在某一天,以某种方式导致我们的失败。