美国|漫谈大数据
来源:中云网 更新时间:2013-05-19

 
大数据听起来很简单,但CIO要和数量庞大的数据斗智斗勇。虽然数据量大是一个很大的挑战,需要高质量的数据,新的办法来管理和新的处理能力,但是回报可能是一个很强的竞争优势。

通用汽车卫星导航服务,提供司机和远程车辆诊断和响应紧急情况管理,每年已经开始处理多达3PB的数据。安吉星的首席信息官杰夫瑞·雷迪奥知道数据为驾驶者和通用汽车公司带来的业务是前景广阔的。

例如,通用汽车正在为其雪佛兰Volt电动汽车试验一个帮助司机监控和远程管理充电汽车电池移动的应用程序。

竞争对手,包括日产尼桑、福特,已经开始或计划提供类似的功能去监测电动车。司机想厂家减轻他们的“里程焦虑”,或担心是否电动车辆即将没电。但这不是全部。”消费者对电动车是十分感兴趣的,”雷迪奥说。”客户更感兴趣的是分析:我的驾驶技术好吗,我的驾驶习惯,什么是我的燃油经济性。”(Volt也可以运行于汽油。)。

不只是电动车主想要更深入的了解安吉星的卫星数据。企业内部用户和外部合作伙伴也想。雷迪奥说,这就要依靠IT来提供可靠,安全和灵活的数据了。”关键是认识到数据和分析的重要性,”他说。”虽然有时运行一个交易系统并不是核心,但是它是企业运行的一个关键部分。

不是每一个首席信息官都管理超大的信息容量。但即使公司只收集1GB他们自己的数据的同时,也在越来越多的挖掘自己以外的信息系统。有能力处理”大数据”和拥有可以有效地分析它的工具已经成为一个必要竞争力。

每一个组织都在比以往任何时候更好的利用已经获得的数据,”埃森哲首席技术创新官,观察家,加文·迈克尔说,然而,“很多公司已经有了分析小组。他们从来没有把它作为一种企业资源。”CIO们能够以一个企业的角度看待数据,并知道如何将其整合并帮助同事分析它。

因此,IT领导人正在重新考虑如何多方面管理和传递信息,从基础设施投资,制定新策略和访问数据的分析工具,使数据能够更多,更快的提供信息。

为能力和速度投资

当史诗广告合并connexus2010形成史诗媒体集团后,公司就处于一个信息爆炸状态了。connexus,在当时以每一天3亿条的速度为广告网站提供广告,就要没有空余存储空间了。

他们的基础设施已经过时了,他们在试图弄清楚应该怎样做,”首席信息官里克·奥金回忆道。“他们留下了很多的数据。”如果分析师想要深入了解特定的广告活动,他们不得不要求IT去监控它;否则,就不能详细了解与某一个有广告有关的消费者行为。

这不仅是限制妨碍私营公司的现有业务,如果继续,它还将阻碍其增长。任何公司都能买服务器并推出广告。代理的客户价值来自于能够找出如何从每个广告中获得最大的影响,甚至产生新的如何吸引消费者的想法,奥金说。”你的分析可以给你提供什么可行,什么不可行的见解。模型可以抓住人类可能永远也看不到东西。”

当公司评估新的基础设施技术,覆盖能力-同时新添加的服务器和存储器而不牺牲网络运行表现- 是一个至关重要的因素。“普通查询一分钟就要回来,”奥金说。”如果我们增加了一倍的数据加载量,加载时间可能会加倍,但如果我们也加倍我们的硬件,时间将保持一致。”

史诗媒体决定继续推行connexus发展一个私有云基础设施的计划,利用乔恩特的网络平台,计算和存储;Vertica的数据仓;和microstrategy的商务智能软件。公司还在Vertica 的基础之上建立了一个专有的应用预测模型。

随着更多的处理能力和专用工具,史诗媒体能够开始为客户提供深入了解观众的广告,并有能力提供客户可以利用于发展活动的信息,奥金说。”它可以让我们保持与我们合作的机构或广告商的同步。”客户流失逐渐下降。

交易和分析可能不会组合

随着硬件和存储成本下降,CIO们会发现增加现有的系统分析支持是有成本效益的。但一些IT领导人说,在分析大数据时,维持独立的交易和分析系统是保持他们决策正确的关键。

这是因为交易的数据库建立不是以大量数据计算为结构的,这样做可能会损害性能,史诗的奥金指出。

史诗的Vertica和Microstrategy平台独立于公司的交易系统,它们的功能是发广告及获取消费者数据。公司目前的目标是每个小时都加载新的数据到Vertica系统,虽然最终,奥金说,收集来的数据几分钟内就可提供分析。

我们不想影响我们的交易系统 并执行大型查询攻击他们,”他补充道,或尽可能多的存储他们将需要分析的数据。交易系统是为快速数据处理而优化的,而分析系统是为了处理查询。

同样,美国退伍军人事务部为了便于分析数据,在过去的两年中已部署了25个数据仓库。该系为220万退伍军人提供健康保障。首席信息官罗杰贝克说,从退伍军人的电子健康记录得来的分析数据会妨碍医生与患者使用Vista(电子病历系统)的能力。

但这些记录不能轻易的与其他患者或其他年份的记录比较。”我们有一个信息宝库,收集了20至30年的症状,治疗和结果,”贝克说。弗吉尼亚州甚至已经启动了一个征求样本补充退伍军人健康记录的项目。隐藏其中的大容量的临床和遗传数据真谛可以指引更有效的医学治疗。

包括了“注重交易速度层次的数据库”贝克说,“所以当临床医生与病人在病房互动的时候,他们非常,非常的快运行。”分析数据库与此同时在根据临床信息组织信息:药学信息在一个地方,血液的数据在另一个地方。”我们要给研究人员提供相关的信息,提供计算能力,让研究人员找出他们需要什么数据”。

数据太多了,在接下来的一年,贝克将寻找到超级计算机提供更快的大数据运算速度,所以它更容易为研究人员使用。“当我们可以提供更多的访问时,信息就能体现更大的价值”他说。

不是每一个需要大量的数据分析的公司都需要投入超级电脑,但是,你是否需要投入可能取决于你的用户多快需要查询结果。在大型数据集中采取传统的服务器得到的答案的时间可能是好几天,而不是几小时或几分钟。

但不是每个人都需要每一个答案,波士顿儿童医院的信息部主监,哈佛医学院教授,艾萨克·可汗说,他领导哈佛大学及其附属医院研究人员和医生之间的合作发展,以及临床和研究数据的技术应用。他说,大多数用户不会有以“天或周”跑的查询;就是那些需要的,也不能证明它是一个值得为更快处理能力而投资的高优先级工作。

焦点在数据

首席信息官一个更大的问题是确保数据本身是可靠的。大数据使数据管理复杂化,挑战质量和准入控制。公司在努力打破内部信息孤岛同时还要兼顾外部数据来源添加的议程。
 

正如任何花时间与主数据管理交缠的人所认识到的,这是一门需要和企业用户有深入关系的政治、技术以及工作。”把一个组织围绕在一个共同的数据周围,有时候是很难的。”埃森哲的迈克尔说。

组织的共享数据不一定是自然的。但决定什么样的信息,包括如何表现它是至关重要的,因为这些决定了分析师可以做什么。”

去年,蓝十字/蓝盾罗得岛重组,精简其业务。在这个过程中,高管们仔细研究了他们是如何正确及错误的使用企业数据的。

我们的数据资源十分分散。每个部门都在各行其道”金融分析师,保险和保健分析师以及其他部门都建立了他们自己的数据集,比尔·雷说,他在九月成为首席运营官之前担任副主席兼首席信息官。“没有一个把它们拉在一起的中央管理。”

由于联邦卫生保健的改革,蓝十字/蓝盾要改变向医生和医院报销的方式,集团式分析能力的需要已经非常迫切。而不是仅仅处理索赔(每个月1百万件)承保人想给能使患者更健康的医疗人员财政奖励。它还希望鼓励病人与他们的初级保健医生建立密切的关系。

直觉上你知道如果你更好地利用你的初级保健医生,你会更健康,你会花费更少,”雷说。”但是你怎么证明?去看医生的病人情况各不相同。有很多的纵向分析和趋势分析,使证明非常复杂。”

雷也在探索如何整合来自卫生保健提供者的病人数据,这个任务由于医疗隐私权的法律更加复杂。“它现在是完全可行的,而且它已经时时刻刻发生在封闭的系统[如凯撒系统]。问题是在一个虚拟的环境你怎么做?”

公司有一个企业数据库,但它成立的主要目的是收集数据报告到国家蓝盾商务智能系统并用于基准。地方分析人士不使用它。一个问题:它缺少一个公司的两个索赔系统之一(其中之一目前正在被淘汰)。它还没有纳入外部市场数据。在完善它的过程中,公司领导人已经商定了处理数据的政策和程序, 并为“什么是某一特定领域”制定了标准和决策。”雷说。

建立新的数据治理是科罗拉多州教育部在发展全州纵向数据系统(SLDS)做法中的一个关键步骤。该项目旨在将178个学区和28所公立高校学生的福利,收入和劳动力数据建立一个平台,分析学生从学前教育到大学所取得的成绩。

我们甚至已经将感化部门纳入了,”丹尼尔·多马伽拉说。25个目标中有九个项目涉及捕获数据,包括建立共同的课程和课程代码,以集成的方法收集幼儿园的数据。

最终,地方行政人员和教师将能够使用系统去了解和其他国家的学生相比他们学生的表现,并梳理出收入水平,学前和高中课程的准备,参加大学或找工作等因素的影响。这是一个长期的努力,目前阶段始于2009年 -最终会涉及百万兆字节数据。

多马伽拉原来所在的石油和天然气工业,相比起来项目范围似乎很小。“它的数据宽度更大,连接不同的数据源,”他说。但州政府对如何管理和使用信息需要做出很大的改变。

原则上,国家机构想分享数据。但就不同学区而言,汇报信息就有多种方式。“传统上,在教育领域,资金将来自一个程序,而且将建立单一系统监测和跟踪自己的数据要求和访问控制,多马伽拉说。但是,每个地区都有自己的系统和优先权限。

 
因此,多马伽拉说,大城市地区,如丹佛比国家在提供个别学校信息的工作上做的更好,而小农村地区“能力有限或零能力。”其中只有很少系统可以共享数据。
 

学区处理所有这些信息,进行确认和验证是不明智的。当我们更多的采用标准化时,我们就更能减少重复” 多马伽拉说。IT可以更专注于帮助教育工作者使用他们的数据而不是收集和巡查数据。

控制访问,不要控制分析

处理医疗,金融和教育信息的组织有法律和规章来决定谁可以访问不同类型的数据。但是每一个公司以不同方式限制数据。这样做没有什么技术挑战:身份管理技术让首席信息官控制数据如何分布。然而,对于大数据的需求提升了对企业规范的要求,要确定什么类型的访问是允许的,谁可以访问,什么时候可以访问。

例如VA的大量数据档案的访问分布,“超越过去最大型数据库和计算机构所面对的,”贝克说。一方面,贝克确保个人退伍军人通过他们的电子健康纪录获得一切的代理所有的关于他们信息。另一方面,他必须确保没有任何个人身份信息公开发布给研究人员。

 
目前的挑战是“你如何提供大量的去除身份的数据去进行研究,这样你可以减少对于控制的关注,因为你已经删除了泄露威胁”,贝克说。
 

如果有效的解决这一紧张局势,CIO们就可以让分析师放松的去做他们的工作,并告诉他们应该运行什么类型的报告,什么时候运行,或决定他们应该使用什么工具中解脱出来。IT部门就可以成为一个顾问和管家而并不只是一个看门人。

VA为研究人员提供了一些“重量级”的研究工具,但他们中的许多人自给自足。”特别是在我们的研究和开发领域,研究人员将使用专门设计的分析工具去做他们的研究.”贝克说。

雷,在蓝十字/罗得岛蓝盾已经调整了该公司的数据分析师团队,以便创造一个“实践社区”。使他们更容易分享工具和技术。“有人已经开发了你可以应用的程序。有工作人员跟踪和推广他们,人们知道他们不用再自己开发什么了。”

这种灵活性是很关键的,Forrester研究公司的分析师,布瑞恩霍普金斯说。数据量增长很快,而有了它,对新鲜分析需求也在增加。传统领导人确定他们需要什么,IT建立系统并提供什么的商业智能业务已经过时。大数据要求一个全新的态度。

没有一个利益集团拥有所有的答案,”霍普金斯说。“在传统的商务智能环境里,你的业务分析师和数据集成专家一起面对业务运营,但他们从属于IT部门。我们发现,在应用大数据的公司环境里,那个形式不再有效。他们必须一起合作。”

为了建立正确的基调,雷迪奥选择了一个有运行自己数据报告团队经验的经理。

她没有数据库的背景,这是一个过去我们常常关注的资质”,他说。,“这对我们来说是一个大的变化。”(译/张柯西)

原文作者 Elana Varon,来自computerworld