大数据:生者与死者
来源:CIO时代网 更新时间:2014-02-13
也许大数据分析总有一天会变成每个企业所必备的,但不要确信仅仅因为管理顾问和主要供应商正投入百万美元在“不使用大数据分析会错失什么?”的讯息上就认为它是目前的案例。更可能,你不会遗漏任何事情而你的时间和金钱更好用于让更多业务用户手中拥有已有的数据,并给他们工具做更深、更快的分析。
  为什么更大并不总是意味着更好
 
  讨论的中心大部分是关于Hadoop。这个让人费解的分布式计算技术的集合可能是开源的, 但是它既不便宜, 也并非友好,尽管有着可爱的大象标志。事实上,对于大存储和大硬件供应商来说Hadoop和大数据看起来像是梦想入场券,他们中的许多人已经让昂贵的收购进入这个有利可图的市场。
 
  但是在我们担心会错过洞察力金砖而开始在企业中保存每一个废弃的数据之前,我们不应该关注我们已拥有的东西吗?当然, 真正的目标是使企业中更多的人在增加新的待定相关和质量的数据之前,用现有的数据做更多的事情。也许更有意义的事情是离开大数据浪潮,并专注于让业务用户更有效地使用已有的数据,而不是喂养大象及其高悬的生态系统。
 
  通常,大数据的讨论被限定在一个隐含的前提之下,越大越好,且增加更多的数据自然会获得的洞察力。你相信这样的宣传吗?大数据项目带来的是在复杂的计算系统上的大投资并有专业技能来处理他们。更糟的是,他们负担了众所周知的长部署时间和糟糕的性能。
 
  你不需要更多的死数据
 
  也许一些大企业和政府部门需要大数据,但是对于我们其他人呢?收集更多的数据真有帮助吗? 也许吧。但你必须首先回答: 从已有的数据中我获得有用的、及时的答案了吗?我有合适的原则去执行洞察力,并测量他们对业务的影响力了吗? 如果答案是否定的,你并不是唯一的。据Freeform Dynamics最近的一项研究表明, 只有15%的企业认为他们在决策上充分利用了传统的数据库信息。
 
  似乎大多数已经存储的数据并未充分用于分析。关于这一点,数据仓库之父Bill Inmon称95%的数据仓库处于“休眠”之中。在你未能充分利用的数据仓库中再添加TB或PB级的非结构化数据能改变这一情况吗?可能不会。事实上,它更增加了数据休眠、死亡数据的机会。
 
  企业所需要的不是休眠或死亡数据。他们需要数据帮助他们获得运营的洞察力, 使他们现有的业务运营得更好。他们需要数据让他们的业务用户能够更高效、更具创造性。他们需要仰仗“快速”数据而不是休眠或死亡数据。如果这对你有意义, 你该如何?
 
  有大的目标,但从小处着手
 
  首先, 盘点一下你已经拥有的:不只是数据,还有知识和技能。选择一个项目, 你可以在现有的资源上证明改进的提高。如果你需要雇佣, 考虑一下业务分析师, 而不是技术专家, 因为用于回答一个业务问题的钱是一种投资, 而一个用于支持这个过程的专业IT技能是沉没成本。
 
  第二,考虑更敏捷的现成工具,它能够让你放眼大数据,但是从小处着手,并迅速扩展。考虑易用的工具, 你现有的工作人员都可访问到。这种方法在目前会带来更多的业务洞察力而且许多这样的工具扩展性好,除非是面对最极端大数据问题的考验。解决方案应该允许业务经理可扩展性的直观使用以支持有经验的分析师更复杂的挖掘。对基础数据结构或处理平台的知识不应是必要的。
 
  分析引擎应该运行在没有专有的硬件或特定配置、数据库模式的标准服务器上,或调整需要以实现所需的性能。因为将数据加载到分析数据库会成为最耗时的工作, 连接到数据源应该基于行业标准和设计来大大简化多种格式的数据加载。
 
  最后,采用敏捷的,迭代的方法,不要在大数据上大爆炸。成功的分析计划是基于与数据意义的持续对话中,有一套问题的答案是在下一轮的发现中。对每个周期更多了解数据所呈现的什么,与什么相关,需要添加什么以及有多少历史数据是值得添加的。从你的数据中(无论大或小)收获价值的最关键因素是快速的回答时间。
 
  也许大数据分析总有一天会变成每个企业所必备的,但不要确信仅仅因为管理顾问和主要供应商正投入百万美元在“不使用大数据分析会错失什么?”的讯息上就认为它是目前的案例。更可能,你不会遗漏任何事情而你的时间和金钱更好用于让更多业务用户手中拥有已有的数据,并给他们工具做更深、更快的分析。
 
  进化向我们展示的一件事情是,小型敏捷物种往往比大的特别的物种做的更好。也许我们应该对我们的数据运用同样的思维?