就像空气和水一样,数据在我们周围自然而然地存在着。每一次点击鼠标,每一次刷卡消费,每一次拨打电话,每一次驾车出行……数据便已生成。我们每一个人既是数据的消费者,也是数据的生产者,每天都生成海量数据。
研究表明,过去5年里,人类行为产生的数据量增长了10倍,而在接下来10年中,这一增长将达到29倍。软件巨头EMC公司预计,到2020年,全球数据使用量将达到大约40ZB(1ZB=10亿TB)。这些数据意味着什么,对我们有何价值?这就是当前最热门的“大数据”研究。中国工程院院士高文说:“不管你是否认同,大数据时代已经来临,并将深刻地改变着我们的工作和生活。”
被视为战略资源
一家电信运营商运用社交分析,筛选了3.65亿段电话记录,找出可能流失的客户并提供针对性的服务,大大提高了季度收益;一家金融服务公司从570亿笔ATM交易中检测出了欺诈模式……这是体现大数据价值的一些典型例子。
凯格总裁兼首席科学家杰米·霍华德说,与传统的、结构化的、关系型数据不同,“电话记录”等数据是非结构化的。据国际数据公司调查,非结构化数据在大数据中约占80%至90%,包括网络日志、语音、视频、图片、地理位置、传感信息等。作为新的尚未开发的信息源,非结构化数据分析可以揭露以前很难或无法确定的重要相互关系。
“这是最关键的。”大数据的出现让人们放弃了对因果关系的渴求,转而关注相关关系,人们只需知道“是什么”,而不用知道“为什么”,这颠覆了千百年来人类的思维模式,对人类的认知方式和交流方式提出了新挑战。
除了体量大、数据类型繁多这两个特征外,能否快速实时处理海量数据是衡量是否是大数据的关键维度。杰米·霍华德说:“大数据并非只有数百个TB才算得上,有时候数百个GB的数据也可称为大数据,这主要要看数据的处理速度。如果能在1秒之内分析处理通常情况下需要花费1个小时的数据,这种变化带来的价值是非常巨大的。”
目前,随着移动互联网、云计算、物联网等新一代信息技术的普及应用,智能手机、平板电脑、PC以及遍布各个角落的传感器,正在越来越多地接入到网络,成为数据来源和承载方式。各种交互数据、传感数据正源源不断从各行各业迅速生成。这些数量庞大、种类广泛、迅速产生和更新的大数据,蕴含着前所未有的社会价值和商业价值。
杰米·霍华德说,像能源、原材料一样,大数据已成为提高未来竞争力的关键要素。比如,通过遍布各地的电子眼和监控摄像头,警务系统可以基于大数据识别一些危险的人或危险的行为,发现苗头进行预警。比如,通过车上的GPS和手机,当交通进入拥堵状态,交管部门可以通过手机信号的大数据运用,提示车主进入某个路段要收费,从而控制交通流量,等等。麦肯锡的最新调查研究显示,大数据可以在任何一个行业内创造更多价值。如,零售业可以利用大数据提高60%的运营利润,欧洲政府利用大数据每年可以减少1000亿欧元的开支,同时避免偷税漏税行为。
鉴于大数据潜在的巨大影响,很多国家或国际组织都将大数据视作战略资源,并将大数据提升为国家战略。美国政府把大数据看成是“未来的新石油”。2012年3月,美国奥巴马政府宣布了“大数据研发计划”,并设立了2亿美元的启动资金,希望增强海量数据收集、分析萃取能力,认为这事关美国的国家安全和未来竞争力。联合国推出的“全球脉动”项目,希望利用“大数据”预测某些地区的失业率或疾病爆发等现象,以提前指导援助项目。
主要是商业应用
尽管大数据应用在国防、反恐、安全以及社会管理等诸多领域,不过,企业应用还是大数据的主要推动者。IBM商业价值研究院的一项研究表明,在各个行业中,大数据业务主要集中在满足以客户为中心这一目标上。被调查企业认为,大数据有能力更好地了解和预测客户行为,并因此改善客户体验。
在互联网时代,在网上留下的每个“足迹”,聚集了大量的“前兆性”行为数据,如购买商品前先浏览、比价,观看电影前先搜索影评等,把这些数据搜集起来,通过进一步分析便可快速获取影响未来的信息。“这就意味着,借助大数据技术,公司可以比以往任何时候都更加了解消费者。”
阿里小贷就是运用大数据了解和预测客户行为的典范。
对于大多数小微企业或个体户而言,规模较小、风险大,如果无抵押、无担保,从银行获得贷款的难度很大。不过,阿里小贷却与众不同,借款者凭借的是企业的“信誉”这一资源,不用提交任何抵押与担保。
信誉从何而来?阿里金融高级专家年劲飞说,阿里巴巴、淘宝、天猫这些“阿里系”的电商平台,每天记录着各个商家、网店等小微企业的销售额、信用记录、顾客流量、评论、商品价格和存货等各类数据。显然,阿里对此了如指掌。“通过分析大量企业以及消费者行为数据,信用体系建立起来了,阿里小贷由此而生。”
像阿里小贷一样,在金融、电信、媒体、制造、医疗、地产等行业,大数据颠覆传统的故事轮番上演。沃尔玛基于数据分析的结果,将某些商品放置在一起;eBay通过数据分析技术,精确计算出广告中的每一个关键字为公司带来的回报以优化广告投放,2007年以来eBay产品销售的广告费降低了99%,而顶级卖家占总销售额的百分比却上升至32%。
除了作为大数据服务消费者的企业跃跃欲试,作为大数据服务提供者的企业也早已卷入其中。IT巨头如英特尔、IBM、甲骨文、微软等,早已对大数据的存储、处理和应用进行布局,在大数据的管理和分析上投入了巨额资金。2010年以来,欧美IT巨头掀起了一轮与大数据相关的并购潮。英特尔并购了安全软件制造商McAfee等大数据处理以及架构厂商来弥补自己在软件上的能力;IBM通过并购数据分析公司来增强自己在海量数据处理上的实力。这些IT巨头几乎抢占了搜索服务、数据库、服务器、存储设备、数据挖掘等核心价值环节。
国内的淘宝、百度、腾讯以及金蝶软件等也加入了大数据的生产、研究、应用行列。金蝶国际[-1.71%]软件集团有限公司首席科学家、高级副总裁张良杰告诉记者:“我们参与搭建的全国中小企业信息平台,汇集了4000万家企业,通过对这些企业海量数据的挖掘和分析,能够对经济运行状况作出准确的预警,有助于国家相关部门作出应对决策。”
无论作为消费者还是供应商,企业开拓了大数据广阔的市场前景。据预计,从2013年到2018年,全球大数据市场将会出现年均26%的增长率,即从今年的148.7亿美元增长到2018年的463.4亿美元。
瓶颈有待突破
大数据在带来机遇的同时,也带来了不可忽视的一系列挑战。
“‘存不下’和‘查不快’,是我们面临的两大难题。”中国工程院院士高文说。现在数据源源不断地产生,除非增加存储设备,但如此一来势必会增加存储成本。“目前,街头摄像头拍摄的视频数据,通常只会存一段时间,有的保存三个月,有的保存一个月,就被覆盖掉,为什么会这样?就是因为存不起,费用太高。”高文表示,提高视频的压缩效率是解决存储问题的途径之一,目前科研人员正在从事第三代编码技术的研究,以减少空间占用。
在数据处理上,由于大数据中大部分都是非结构化的数据,现有的软件和工具主要适用于以结构化数据为主的传统数据,要想及时捕捉、存储、聚合和管理这些大数据,以及对数据进行深度分析和挖掘,需要新的技术和能力。而我国数据存储、处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。
此外,掌握非结构化数据或流数据的分析技能,对大多数企业来说是一个持续的挑战。在这些领域中,尽管硬件和软件已经成熟,但技能仍然缺乏。在美国,对高技能数据分析人才的需求,可能超出目前预测供应量的50%至60%。到2018年,美国需要新增多达14万至19万名专家。“人才紧缺的状况如果不解决将严重影响大数据应用。”凯格总裁兼首席科学家杰米·霍华德说。
“大数据”对个人信息获取渠道拓宽的需求引发了另一个重要问题:隐私和便利性之间的冲突。一方面,大数据需要共享、数据开放、平台利用,而目前我国一些部门和机构拥有大量数据但受行政垄断和商业利益所限,数据开放程度也较低,有些部门把一些数据当成自己的,放那里既不使用,也不提供给研究者。专家指出,这是我国大数据研究的软肋和需要解决的大问题。
另一方面,消费者在享受大数据带来好处的同时,个人购买偏好、健康和财务情况的海量数据被收集,对隐私的担忧也在增大。高文表示,从纯技术角度来说,美国的“棱镜”项目是一个典型的通过分析海量通讯数据获取安全情报的大数据案例,但严重侵犯了个人隐私。
“这些瓶颈与挑战,是国内外大数据发展当中都面临的问题,只是我国在某些方面表现得更为突出。”高文说,“因此我们应该下定决心迎头赶上。”