不管你怎么看,大数据既让人头疼,又是一大机遇。从一大堆结构化和非结构化的数据中实时展现有用事实的能力,也许能帮助政府机构更好地决策,简化流程,细化服务。
定义
尽管关于大数据没有一个统一的定义,但大数据主要指的是规模超过一般数据库软件工具能力(捕获能力、存储能力、管理能力和分析能力)的数据集。关于大数据的定义,每个行业不尽相同,主要看使用的软件工具以及数据集的规模。
系统地认识大数据
大数据的发展主要由网络的爆炸性发展而推动。行业观察员估计,2008年,网络接入数量首次超过了全球人口;到2020年,预计网络接入数量将超过500亿。
麦肯锡对大数据进行大量研究后表示,2010年,全球所有机构硬盘上储存的新数据数量超过了7艾字节,而消费者在个人电脑和笔记本电脑上储存的新数据也达到6艾字节。1艾字节的数据量是美国国会图书馆数据量的四倍。市场研究公司IDC说,在美国联邦政府,数据量每两年就翻一番,且近期没有速度放缓趋势。
公私行业的很多机构都面临着大数据处理的挑战。例如,如何从这些数据中获得运营价值。大数据“大”在何处是个不容易回答的问题。NIST信息技术实验室信息存取处负责人Ashit Talukder表示,大数据很难捕获、存储、搜索、分享和分析,而且增长很快。Talukder说:“大数据可能包含了百亿甚至万亿条记录,他们结构松散,甚至没有结构。”
Talukder表示,这些记录大部分都是混杂的,且模式多样,分布在多个网络或云环境中。这些记录还彼此联系,数据来源多样。
同时,AIIM近期的一份调查显示,60%的IT执行官认为把结构化和非结构化的数据集联系起来“非常有用”。调查中,超过半数的被调查者表示,他们认为对非机构性数据展开深入分析“很有价值”(56%)或“非常有价值”(18%)。
大数据的主要特点
大数据主要有如下特点(3V):
容量(Volume)——超大数据规模;
速度(Velocity)——数据流速快;
种类(Variety)——涉及各种数据、网络和节点等。
此外,当提到方法时,大数据通常指的是数据分析的发现方法,即可用数据或使用数据的能力以独特的方式结合后产生了其他方法不可能产生的发现。当前,政府机构收集的数据中只有一小部分进行了处理和分析。Talukder表示,大数据的容量和复杂性引发了很多挑战。然而,大数据也为“知识型”分析和发现(而非“假设性”发现)提供了巨大潜能。“它有望解决以前无法解决的问题,并从以前未处理的数据中获得新的发现。”
云中的大数据
云计算为大数据提供了一个优化储存、计算、存取和虚拟的环境。根据NIST,云的互通性可以让不同云中的数据集彼此协作,增强了共享、协作和分析多个大型数据集的能力。
云计算创造了一个独一无二的作为主机、存储、处理和存取大数据的机会,这种灵活的方式可随时随地按需存取数据。政府机构很快有望利用云计算应对大数据的挑战:
为上百万研究人员提供强大的研究工具;
极大地缩短费时研究的周期;
利用规模经济极大减少IT研究开支。
除了云计算能帮助政府机构分析大数据流这一潜在优势外,Talukder坚持认为,要让大数据分析的承诺变为现实,还有很多地方需要改善。例如,我们需要大数据软件、运算法则、硬件和基础设施方面更好的标准,量度和互通性。“基础数学和统计学需要发展,包括大数据的机器学习,大数据的分析和类型认知,以及二次抽样和不确定性的量度标准。
Talukder还对大量复杂数据的运算法则提出了更高要求,同时还应增强大数据的虚拟化和实用性,更好的集群、分类和安全以及隐私保护。另外,大数据存储、计算和显示/虚拟化方面的网络、硬件和软件基础设施技术的技术改进也很有必要。
(未完待续)
译自:2012年10月【美国】NetApp和CDW?G合作报告 编译:工业和信息化部国际经济技术合作中心陈芸芸