来源:人民网 更新时间:2014-06-18
随着移动互联网、云计算、物联网等的快速发展,及视频监控、智能终端、应用商店等的快速普及,全球数据量出现爆炸式增长。数据也在潜移默化的影响着人们的生活,即使在遭遇金融危机的2009年,全球信息量也比2008年增长62%,达到80万PB(1015字节),2010年增至120万PB。据IDC预测,至2020年全球以电子式形存储的数据量将达32ZB(1021字节)。
截止到2011年底,全球王敏数达22.67亿;截止到2012年6月,中国王敏达5.38亿,庞大的网民每时每刻产生大量的数据。在此背景下,大数据时代(Big Data Era)将会面临新的挑战。
1、大数据时代的基本特征
所谓大数据,就是人类在生产和生活中产生的海量数据信息。
大数据时代的到来,毫无疑问会给人们带来空前便利。据统计,2010年以互联网为基础所产生的数据比之前所有年份的总和还要多;而且不仅是数据量的激增,数据结构亦在演变。Gartner预计,2012年半结构和非结构化的数据,诸如文档、表格、网页、音频、图像和视频等将占全球网络数据量的85%左右;而且,整个网络体系架构将面临革命性改变。由此,所谓大数据时代已经临。对于大数据时代,目前通常认为有下述四大特征:
第一:数据量大:数据量级已从TB(1012字节)发展至PB乃至ZB,可称海量、巨量乃至超量。
第二:类型繁多:愈来愈多为网页、图片、视频、图像等半结构化和非结构化数据信息。
第三:价值密度低:以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
第四:速度快时效高:大数据时代对其时效性要求很高,这是大部分数据挖掘最显著的特征。
2、大数据时代面临的挑战
大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界。
大数据时代下的信息技术日渐成熟,但是在高科技发展的今天,也存在着诸多不足:
第一:运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战;
第二:大数据处理和分析的能力远远不及理想中水平,数据量的快速增长,对存储技术提出了挑战;同时,需要高速信息传输能力支持,与低密度有价值数据的快速分析、处理能力。
第三:部分早期的Hadoop项目将面临挑战;
第四:大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好,乃至企业用户的商业机密,对个人隐私问题必须引起充分重视;
第五:大数据时代的基本特征,决定其在技术与商业模式上有巨大的创新空间,如何创新已成为大数据时代的一个首要问题;
第六:大数据时代对政府制订规则与监管部门发挥作用提出了新的挑战;
第七:大数据的可视化还没有达到人们的需求;
第八:海量数据洪流中,在线对话与在线交易活动日益增加,其安全威胁更为严峻;而且现今黑客的组织能力、作案工具、作案手法及隐蔽程度更上一层楼;
第九:大数据人才的缺乏,大数据时代对数据分析师的要求极高,只有大数据专业化的人才,才具备开发预言分析应用程序模型的技能。
3、大数据时代面临挑战的应对策略
大数据时代的浪潮已经袭来,这对于我们每一个人来说,既是大数据的缔造者,因为我们的认知和行为方式都在源源不断地产生各种各样的数据;又是大数据的使用者,因为人的大脑几乎每时每刻都在对所观察到和所搜集到的各种数据进行分析,以期得出结论;更是大数据的直接受益者,因为通过对数据的分析和挖掘,大数据的大价值最终体现在指导人的行动并由此推动社会的不断进步。面对大数据时代在现如今面临的挑战,个人提出几点应对策略:
1、合理获取数据
在大数据时代,数据的产生速度飞快而且体量庞大,往往以TB或YB甚至是ZB来衡量。各种机构、个人都在不断地向外产生和发布结构化与非结构化的复杂数据,并进行数据交换,如人们当前最常用的数据来源渠道——互联网,每天的数据交换量已极为惊人。
在这种情况下,由于数据传播的速度极快,且在传播过程中本身已有可能通过交换发生多次变换而生成了更多的复杂数据,那么,对我们普通人来说,当数据充分融合在一起的时候就很难分辨其真正的来源。即使能够弄清楚数据的真正来源,你又将面临那些复杂的非结构化数据的考验。
大数据时代应以智慧创新理念融合大数据与云计算,在大数据洪流中提升知识价值洞察力,实施高效实时个性化运作,建立有效增值的商业模式。针对大数据时代的基本特征,加强全方位创新。包括IBM、EMC、HP、Microsoft等在内的IT巨头,纷纷加速收购相关大数据公司进行技术整合,寻找数据洪流大潮中新的立足点。而涉及人工智能、机器学习等新技术的创新应用,已初显效益。将大数据时代全方位创新工作和智慧城市发展紧密结合。借助移动互联网、大数据与云计算的融合、智能运营管道等,建立智能平台,优化配置城市资源,向真正的智慧城市迈进。
电信运营商转型中流量经营已成共识,即以智能管道与聚合平台为基础,以扩大流量规模、提升流量层次及丰富流量内涵作为基本经营方向,并以释放流量价值为基本目标,可见大数据和云计算的深度融合与此流量经营目标十分吻合。实际上已经有一些运营商借助大数据Hadoop云工具管理与分析网络中的用户数据,为日常运维及制定市场战略等提供有效支撑。
借助大数据创新处理技术应对APT安全攻击。APT安全攻击的最主要特征为单点隐蔽能力强、攻击空间路径不确定、攻击渠道不确定;同时APT攻击一旦入侵成功则长期潜伏,攻击时间上具有持续性。目前,全流量审计方案具备强大的实时检测能力与事后回溯能力,并可将安全工作人员的分析能力、计算机存储与运算能力组合在一起,是一种较完整的解决方案。
2、存储随需而变
美国一家知名的 DVD 租赁企业每年都会邀请一些协同处理算法的专家对其用户数据进行分析,从而了解租赁客户的需求。一些美国金融企业甚至提出了分析即服务的理念。陶波表示,金融、电信、互联网等企业对大数据的处理和分析有迫切的需求。与传统的商务智能应用相比,大数据对企业数据的处理能力和商务智能软件提出了更高要求:首先,企业必须具备处理大量数据的能力,因为有的企业可能一天之内就要多次处理 PB 级的数据,这是一些传统的存储设备所不能胜任的;其次,传统的数据仓库软件是针对结构化数据设计的,而大数据包含的主要是非结构化的数据,因此传统的数据仓库软件必须改变。
3、筛选与分析大数据
充分利用数据“洞察”自己身边的人或物,在诸多供给方当中精准地匹配自身需求,从而最大限度地满足自身吁求也是大数据价值的应有之义。为此,即使是普通人也应具备一定的数据筛选和识别能力。这些数据传播渠道所发布的数据往往有其针对性和倾向性,甚至带有误导性,这时就需要数据使用者具备一定的甄别能力,才能真正充分利用大数据实现自身价值的最大化。
大数据能够为我所用而产生价值,离不开使用者具备一定的数据分析技能。当然,普通人未必要掌握数理分析、数据挖掘等专业统计技能,但有必要学会对一些常用的指标数据结合其应用背景进行简单分析。比如,大家熟悉的CPI、天气指数、幸福指数等统计指标,信用卡消费账单等个人信息等,其实这些都是大数据价值的体现形式,要想读懂这些数据信息并了解数字背后所反映的经济运行机理或个人消费行为模式,就需要对其进行一定的分析。
大数据时代对数据分析要求很高,所以培养大数据时代分析的人才必不可少,只有具备大数据专业方面的知识,才能更好地去研究大数据蕴含的特殊技能。
4、理性面对大数据的价值诱惑
毫无疑问,大数据时代将是商业智能“大显身手”的时代。企业利用发达的数据挖掘技术正日益精准地揣摩着消费者心态,并运用各种手段对其“循循善诱” 。如今,当人们上网购物时,只要输入想要购买的物品,大部分商家都会依据所输入的信息弹出相关的推荐产品,更有甚者还能够利用人们的搜索记录和地理位置信息在其浏览网页的过程中植入符合人们需求的精准广告。
5、云计算和大数据相辅相成
为了满足大数据的需求,商务智能软件必须改变。陶波举例说: “随着多核处理器的普及,商务智能软件也要从针对单线程的应用转为针对多线程的应用,因此商务智能软件的代码可能要改变。 ”EMC 已与许多商务智能软件厂商开展了紧密合作。EMC 的硬件平台不仅针对 Greenplum软件进行了优化,而且还能广泛地支持第三方的商务智能软件。
6、处理好非结构化数据
由于非结构化数据量猛增,用户必然面临如何同时处理好结构化数据和非结构化数据的问题,比如什么时候将数据放在传统的数据仓库中,什么时候要用开源的 Hadoop 处理数据。
Informatica 能帮助用户在同一个平台上处理结构化和非结构化数据。郑玮认为,处理好结构化数据和非结构化数据的关键是系统能够根据数据类型的不同,自动将结构化的数据分配到能处理结构化数据的系统中,而将非结构化的数据分配到能处理非结构化数据的系统中。
能不能将结构化数据和非结构化数据先统一成一种格式的数据,然后再进行处理或分析呢?郑玮表示:“在进行数据处理之前,没有必要对数据类型进行转化或解析,因为预处理过程会浪费很多时间。现在,业内一些主流的厂商采取的都是将结构化数据和非结构化数据分开处理的方式。”在处理非结构化数据方面,Hadoop 已经成了一个事实上的标准。
郑玮表示:“大数据仍处于应用的初始阶段。我们曾经访问过40位行业客户,他们对大数据处理表现出浓厚的兴趣。大数据的应用会很快铺开,相关的成功案例也会不断涌现。”
7、与硬件保持距离
为了满足大数据的需要,数据集成产品本身会不会做出改变?郑玮表示:“回顾信息技术的发展历史,其实每五六年就会出现一次新的技术浪潮。我们时刻关注这些变化,而且走在这种变化的前面。因此,对于 Informatica 来说,大数据的出现并不意外,这种变化是自然而然发生的。Informatica 只用了6个月的时间就开发出支持 Hadoop 的解决方案。大数据的出现并不会改变Informatica 软件开发的底层技术核心。但是,由于数据量的快速增长,资源的调配方式或用户的一些使用方式可能会发生改变。”
8、提高大数据的可视化
大数据的可视化就是将大数据分析结果转化为公司能够使用的信息。只有大数据分析结果通过可视化处理后,非数据分析专业人士才能够充分理解语言、图表等表述出来的大数据的信息。
大数据所包含的数据量大,数据类型纷杂,数据模型复杂,数据结果抽象,因此大数据的可视化难度较大。不过企业可以将大数据以四维导图、新闻、网络连接等方式,通过各媒体平台展示给大家,这样更有利于大数据的挖掘与管理。
9、安全防范必不可少
《删除:大数据取舍之道》一书提出了对大数据体系、数字化记忆负面性的六种可能对策:数字化节制、保护信息隐私权、建设数字隐私权基础设施、打造良性的信息生态、调整人类的现有认知、完全语境化。
首先,人作为信息社会的主体,要积极发挥能动性,在洞察到放弃“遗忘” 的潜在影响后,审慎控制个人信息的过度发布,做到“数字化节制” 。其次,政府、互联网行业、法学界要共同努力,对信息隐私权进行界定,尽管概念的界定必然引起争议,但唯有通过广泛的讨论才能取得共识;在此基础上,要建设数字隐私权基础设施,推动相关立法进程 打造良性的信息生态。
保护数据的隐私信息是数据搜集者和分析者应当具备的基本道德和责任。但在对大数据进行价值发掘的过程中,有时候不可避免地会利用到这些隐私数据,才能实现价值的精准匹配。在这种情况下,通过立法保护个人隐私数据信息应是必由之路。对于公民个人而言,在享受大数据时代所带来个性化服务的同时,应当加强风险防范意识,在有可能留下隐私数据的情形下要充分考虑隐私暴露而可能带来的不良后果,并采取相应的防范措施。
利用大数据的基本特征,借助云计算等有效工具,深度挖掘流量与数据的价值,可帮助运营商实施好流量的经营;掌握好大数据的存储、分类、挖掘、快速调用和决策支撑,并应用于企业的日常运营、维护及战略转型中,对企业的可持续发展尤为重要;通过对公共大数据的分析、挖掘与利用,可减少欺诈行为及错误数据的负面作用、追收逃税漏税及刺激公共机构生产力等,帮助政府节省开支。例如英国政府即通过此途径节省大约330亿英镑/年。
大数据时代是信息社会运作的必然结果,它令人类的信息社会更上一个台阶。农业社会人们以土地为核心资源,工业时代转为能源,信息社会则将变更为数据。谁掌握数据,以及数据分析方法,谁就将在这个大数据时代胜出,无论是商业组织,还是国家文明,只要充分发挥大数据时代的价值、迎接好大数据面临的挑战并及时应对,就会处于大数据时代领域里的不败之地。
大数据时代面临的挑战与其应对策略