无论是否出于你的意愿,数据正在每天为你做着人生笔记:你去了哪里?看到了什么?做了什么?你的性格喜好?与谁联络?心情如何?……这些通通可以从你的网络浏览记录、交易记录、手机通话记录、联通视频记录、收发邮件记录、社交网络记录等等当中获得,你在网络上的每一个“足迹”都会以数据的形式被记录并存储下来,它们精准及时、事无巨细。而借助于这些数据,就可以拼出一个比你自己更了解的“你”。
这样由一个个数据描绘出的“你”,有何价值?
“鬼才”制片查理·布洛克(Charlie Brooker)推出的英国“神剧”《黑镜》(Black Mirror)中,出现了一款功能极其强大的“大数据+云计算”产品——“再造人”,一个连思维人格都可以和因车祸而早逝的Ash“一模一样”的机器人。
通过对Ash生前留在互联网世界的数据分析挖掘、统计比较和重新组织,进而发现规律、构建模型,最终实现准确“预测”,“机器人Ash”就可以像“真正Ash”那样与活着的人进行对话和对事物做出反应甚至进行学习。
大数据(Big Data)带来的可能性,当然不会仅仅只是制造一个高级机器人那么简单,否则也不会使得全世界都在为之痴迷和疯狂:它被认为是人类文明第三次浪潮的主角,将改变人类的思考模式、生活习惯和商业法则,被认为将引发社会发展的深刻变革,被美国定位为未来最重要的国家战略之一,是未来大国博弈的决胜关键……
现在,这一切正开始变为真金白银的生意。Amazon和Facebook用它卖出了更多的广告;Netflix用它创造了《纸牌屋》的收视奇迹;ZARA用它实现了比LV还高的利润率;奥巴马用它赢得了总统选举,但又为因它而起的“棱镜门”事件而焦头烂额……
当然,世界对于“大数据所带来的机遇是否被过分炒作”的质疑也从未停歇。在刚刚结束的夏季达沃斯上,一场主题为“大数据还是大忽悠”的辩论异常激烈。
辩论前对现场观众的调查显示,“大数据就是大忽悠”(正方)稍占上风。然而,辩论结束,“大数据不是大忽悠”(反方)成功逆转。反方“辩手”北京大学光华管理学院新媒体营销研究中心副主任苏萌教授的一段话赢得了观众手中的选票:15年前,人们认为互联网存在泡沫,但事实证明其并没有被高估;5年以前,人们又都认为电子商务被夸大,但如今看来这也是错误的结论。新事物的发展需要泡沫,这样才能吸引更多的资金和人才,沉淀下来的才是真正宝贵的东西。
数据大爆炸
你可能并不一定知晓下面这些数字,但你也一定会感受到“数据”正在呈几何基数的爆炸性增长,因为10亿台电脑、40亿部手机、无数的互联网终端……正在使得我们生活的世界高速数字化,“信息爆炸”早已从抽象的概念变为现实的描述。
从出现文字记录到2003年,人类总共创造出的数据量只相当于现在全世界两天创造出的数据量;在如此大的基数之上,全球的数据量仍然每18个月就会翻一番;预计到2020年,全球数据规模会达到今天的44倍;如今人们在一天之内上传的照片数量就相当于柯达发明胶卷之后拍摄的所有图像的总和……
就在10年前,1.44M的3.5寸盘还是我们装机的必备;几年前,体积不大但容量数百M的移动存储还曾让人们兴奋不已;而现在,GB级别的小U盘和TB级别的移动硬盘早已是普通用户的寻常之物,企业级应用则动辄就要跃升至PB、EB级别。(编者注:数据存储单位由小到大依次为Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,后者依次为前者的1024倍。)
数据分析并不是一个新概念,也有人会因此对于大数据不以为然,认为这只不过是新瓶老酒而已。但是,量变引发质变传统数据所采用的获取、存储、分析和解释的方法和技术,早已无法应对现在的数据规模、产生速度和复杂程度了。
“我们今天讲的大数据,和过去的数据挖掘有四个方面比较明显的差异。”中国工程院院士倪光南告诉《中国经济周刊》,“一是数据量大,常为PB量级,而且每年有40%~50%的增幅;二是数据特征复杂,大数据时代我们主要面临的是非结构化信息,比如文本、图形、音频、视频等,而且大多是实时信息;三是数据来源主要是社会日常运作和各种服务中实时产生的,如在线搜索、社交媒体、移动电话、电子商务交易、遥感遥测数据等等,而过去主要是企业交易数据;四是应用领域主要是社会科学范畴,如在经济学和社会学上的应用,而过去主要是自然科学范畴的应用。”
而数据之所以变“大”的最重要的推手便是云计算。从技术上讲,大数据是根植于云计算的,它是云计算的重要延伸,两者相辅相成。数据被搬到了“云”上之后,更容易被收集和获得,过去那种各自分割存储的数据往往不具备太大价值,只有不同领域打通共享,数据金矿才能呈现眼前。而如此庞大的数据也只有依靠云计算强大的处理能力,才能够“淘尽黄沙始得金”。
从概念到生意
尽管在2012年,大数据才逐渐被中国产业界接受和关注,但业界普遍认为2013年将成为中国“大数据元年”,未来三年大数据市场都将呈爆发性增长态势。赛迪顾问统计数据显示,2012年我国大数据市场规模为4.5亿元,同比增长40.6%;而预计到2016年,大数据行业规模将突破百亿元。
和以往一样,美国依然被视为风向标。实际上,大数据已经成为华尔街和硅谷最炙手可热的追逐对象。今年5月两只刚刚挂牌的大数据概念股Tableau和Marketo都受到了市场极大追捧,Tableau首日涨幅63.7%,募资2.542亿美元,成为今年以来美国股市最大一笔科技公司的IPO项目;Marketo股价首日也飙升了78%。
国内的A股市场也随之“激动”了一阵子,如拓尔思、美亚柏科、华宇软件、科华恒盛、浪潮信息、天玑科技等公司近期走势强劲,拉出了多个涨停板。
目前,大数据市场中的商业机会主要有三大方向:一是提供“硬件+软件+数据”的整体解决方案,它以平台性为特征,提供基础服务,这个市场主要竞争者有国外的IBM、微软、惠普、EMC等,国内的有曙光、浪潮、华为、联想等。
二是掌握丰富大数据资源的互联网公司,国外以Google、Facebook、Amazon为代表,国内以阿里巴巴、百度和腾讯等为代表,这些公司掌握海量用户数据,通过数据挖掘形成产品和服务,如精准营销和个性化广告推介,同时也提供“数据租借”服务,为其他公司提供决策辅助。
“这个两个方向并非竞争关系,而是合作关系。因为两者是大数据产业链上的不同分工,前者负责后端平台,是系统供应商,而后者则负责前端的应用。” 曙光公司总裁历军告诉《中国经济周刊》。
三是会出现一大批分工细致的第三方大数据公司,他们虽然没有第一类公司的硬件优势,也不具第二类公司的数据资源优势,但凭借某些细分领域的技术优势和专业性,也会在产业链中争到一杯羹,如专注电子政务和智慧城市的拓尔思就是例子。
行行都爱大数据
杰夫·哈默巴赫(Jeff Hammerbacher)是一位哈佛数学天才,2006年,他离开华尔街投行贝尔斯登(Bear Steams)加入Facebook,成为Facebook最早搭建数据分析模型的人。通过对海量用户数据分析挖掘,他完成了Facebook CEO扎克伯格交给他的使命:弄清楚用户点击广告的动机和方式,这也为Facebook打开了高速盈利的阀门。
2008年,杰夫离开Facebook开始自己创业。谈到原因,他说了一句非常著名的话:“我们这一代人中最聪明的那些都在想着怎么让更多人点击广告,这简直糟糕透了。”现在,杰夫的公司正在帮助医生们找出“癌症患者都有哪些共同基因”,以提示有类似基因的人提前预防和治疗。
《大数据时代》作者维克托·迈尔·舍恩伯格向《中国经济周刊》介绍说,“苹果教父”史蒂夫·乔布斯的癌症实际上非常严重,但他比其他得癌症的人活得时间长,就是因为乔布斯有DNA排序的信息,这使得他有定制化、个体化的专门服务的治疗。
确实,如果我们把大数据的价值仅仅理解为可以更精准地向用户推送广告就太为狭隘了。
舍恩伯格告诉《中国经济周刊》,小到“以最合适价格和时机购买衣服”,大到“重要的经济决策中如何提高经济效益”,大数据都会告诉你如何做。
“与人脑总是喜欢问‘为什么’相比,大数据会直接告诉你‘是什么’。”舍恩伯格举例说,冬天,人们总是被告知要记得戴帽子和手套,否则就会着凉,这是人脑的思维。但大数据分析会告诉你,着凉可能是病毒的问题,跟戴不戴手套和帽子没有很直接关系。再如,到餐馆吃饭,第二天生病了,人脑的思维马上会用可能吃坏了东西这样的理由来解释,但从数据统计学角度,生病还有可能与有细菌的手握手导致的。“如果有了大数据,就可以让脑子慢下来,不用去推测原因,直接回答结果。”
舍恩伯格再以谷歌翻译举例:谷歌依靠互联网做统计方面的工作,并耗资了数十亿,推出谷歌翻译。“谷歌不需要知道为什么一个词要翻译成另外的词,它只知道翻译什么。”
大数据的渗透力极强,从本质上讲,各行各业都已经在数据化了,比如电信业正在变成电信数据业,金融业变成金融数据业,医疗业也变成医疗数据业……这也就意味着,大数据挖掘将成为各行各业的必修课。
根据全球最具权威的IT研究与咨询公司Gartner统计,2012年大数据带动了全球280亿美元的IT支出,2013年带动的规模有望增至340亿美元,到2016年全球在大数据上的总花费将达到2320亿美元。
“中国一线的大型城市,仅仅健康档案的数据,一年就有5PB之多;一个智慧城市的数据一个季度就是200PB之多,这在过去很难想象。这些数据如果是无序的就是垃圾。我们需要把这堆垃圾变得井井有条,从中去寻找金矿。”历军说。
“2012年底,中国共计发行了37亿张卡,是全球的第一大发卡国家,每天大概有500亿~600亿交易通过600万张银行卡交易,这是一个非常庞大的数据量。”中国银联副总裁柴洪峰告诉《中国经济周刊》,对于银联来说,这些数据已经在变成非常重要的资产,而提升大数据处理的能力将会成为银联,甚至整个国家的核心竞争力。
全国农信银资金清算中心运行保障部总经理王永刚告诉《中国经济周刊》:“阿里金融的小额贷款几个小时就发放,而我们作为一个全力支持小微企业和个人金融服务的农村金融机构,最快也得7到10天。他们靠的是什么?就是利用开放平台的渠道的优势,还有一个就是数据挖掘的竞争性。他们大大降低了这种信贷、增信的成本和效率。我们银行不缺数据,但缺少把数据转为智慧,没有充分挖掘数据的商业价值。”
“10年前我们还只是温饱社会,但今天已步入小康社会,未来大数据会有怎么样的发展,可能会突破我们的想象。比如,现在正在发展的移动支付,就需要我们和运营商的数据合作才能为用户提供更好的服务。未来,医疗、教育、养老服务都有可能因为大数据而得到升级和改善。”柴洪峰说。
狂欢下的隐忧
今年6月,30岁的爱德华·斯诺登(Edward Snowden)一个人几乎搅动了整个世界,这位美国防务承包商雇员、前CIA特工因为曝光了美国的“棱镜”计划而成为全球媒体的焦点。原来,美国国家安全局多年来一直通过直接接入苹果、微软、谷歌、雅虎等九大互联网公司的中心服务器,获取大量用户的邮件、聊天记录、视频及登录信息,中国内地和香港从2009年开始也在监控之列。
尽管美国政府称已经有“数十起”可能的恐怖攻击因为“棱镜”而流产,但是这件事还是激起了全球大讨论:国家安全和个人隐私的微妙边界在哪里?而今年的“3·15”,央视等媒体也针对许多互联网公司通过Cookies“窃取”用户信息的行为进行了曝光,同样引发了大数据收集和分享与个人隐私保护之间的争论。不少业内人士忧虑,这会成为大数据产业发展的巨大障碍。
大数据毕竟是新兴事物,相关的政策法规即使在美国也离完善差距甚远。倪光南认为:“我国大数据产业也同样面临着人才匮乏、数据开放程度较低、相关法律法规不完善等问题。”
“大数据有可能是大机会、大发展、大创新,也可能是大危机、大破坏、大淘汰。云计算和大数据将注定带来一次革命。”历军说。
就像在电影《点球成金》中,希望通过数据化思考代替经验思考的棒球队总经理所面临的最大困难并不是数据分析技术难题和资金投入,而是整个团队的不认同,因为经验丰富的教练和自认为慧眼识珠的球探,不认为一个数学天才可以用电脑代替他们多年修炼得来的经验和直觉。在我们的政府决策和商业判断中也是如此,能不能转变观念,才是大数据能否发挥实效的关键。
“如果一个公司有数据,但没有数据的文化,它是很难开展让更多人用数据的,所以大数据实际是一种态度。”阿里巴巴集团数据委员会首任会长车品觉告诉《中国经济周刊》。
目前在中国,“大数据”尚未直接以专有名词被国家提出。但是,工业和信息化部发布的物联网“十二五”规划中,把信息处理技术作为四项关键技术创新工程之一提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是“大数据”的重要组成部分。不过,已经有机构倡议将大数据像美国一样上升为国家战略。
“中国的云计算和大数据产业是国内信息产业最有可能实现弯道超车的产业,我们的数据资源极为丰富,技术研究上我们已经实现了紧跟国际前沿,国内已有一些企业抓住这个机遇,扩展业务,进行转型,希望他们能实现跨越式发展。”倪光南说,但他也表示最大的瓶颈还在于“应用相对滞后”,但他相信发展前景会非常广阔。
阿里巴巴:未来将是数据公司
很多行业都想借助大数据提高决策准确度、提升业务水平,但首先遇到的问题便是数据量还不够大。相比之下,有一些公司足可以称得上是超级“大矿主”了,只是矿山性质不同:百度拥有最大的网页搜索数据,阿里巴巴拥有最大的电商数据,腾讯拥有最大的社交数据。
阿里巴巴集团主席马云在多个场合都表达过阿里巴巴的“三大战略”,即平台、金融、数据,在他的计划中,阿里巴巴最终将会是一个数据公司。
这一点从阿里最近几年接二连三的大手笔并购中已经初见端倪:新浪微博、陌陌带来的社交数据,高德带来的地理数据,UC浏览器带来的移动浏览数据,虾米带来的音乐数据,还有墨迹天气、友盟、美团……这些几乎涵盖了人们互联网生活的方方面面。再加上阿里巴巴原本拥有交易数据和信用数据,俨然一张让人充满无限遐想的“大数据拼图”。
2012年,阿里巴巴设立的首席数据官(CDO),由后来接任马云担任CEO的陆兆禧担任。在今年年初,阿里巴巴在进行公司架构战略调整时,又专门成立了数据委员会,“这个部门会为阿里集团所有事业部提供数据支持。”阿里巴巴集团数据委员会首任会长车品觉告诉《中国经济周刊》,这位大半生痴迷于数据的香港人肩负着为阿里巴巴寻找开启大数据之门钥匙的重任。
据车品觉介绍,淘宝的“千人千面”计划是电商大数据最突出的代表,通过数据挖掘实现精准化的营销和产品推送。同时,阿里金融也是大数据衍生产品开发的一个范例,利用云计算和大数据的技术和思想,阿里金融实现了高效和创新。
9月,阿里巴巴先后与中国电信、民生银行合作,联手鏖战大数据平台。凭借大数据优势,阿里巴巴再次加重了其在云计算、互联网金融上的砝码。
“数据是一种信仰。”车品觉说。
百度:“深度学习”大数据
百度拥有中国最大的网民行为数据库,覆盖95%的中国网民,日均响应50亿次搜索请求,搜索市场占比达80%,日处理数据量达100TB。同时,百度还构建了百度联盟,60万联盟合作伙伴每天有50亿次的日均行为产生,一起构成了巨大的数据基础。
数据规模越大,处理难度也越大,但对其进行挖掘可能得到的价值更大。宝洁公司数字媒体与创新平台经营部市场总监陈万峰回忆,2012年百度帮助宝洁对旗下重点品牌“玉兰油”做了一次大数据分析,结果发现与其他竞争品牌相比,消费者在“玉兰油”关键词后跟着“适合几岁”的比例明显偏高,这意味着玉兰油的年龄定位比较模糊。为此,宝洁及时调整了营销策略,还顺势推出了一款针对25岁人群的细分产品,结果市场反响非常好。
当然,这只是百度大数据的初级梦想。百度魔图推出的“PK大咖”功能成为时下最为流行的App(应用),上线10天便成为苹果iOS免费应用的首位,它能够帮你找到和你最像的明星,这背后其实就是百度对图像识别的阶段性成果,即超越文字搜索的多媒体搜索,包括语音、图像和视频等。
余凯是百度技术副总监、多媒体部负责人,中组部“千人计划”国家特聘专家。多媒体部门是去年百度新成立的部门,这位曾在NEC美国研究院担任研究部门主管和在斯坦福大学执教人工智能课程的数据科学家,现在主要带领整个部门从事语音、图像等方面的研究,这些都是未来大数据重要应用,而语音、图像和视频都是非结构化数据,处理和分析难度更高,但非结构化数据将是未来大数据的主流。
今年年初,李彦宏成立了深度学习研究院(Institute of Deep Learning)并亲自任院长,还亲自出马去招揽人才,而这一切目的是通过大数据“深度学习”出互联网的未来。
“我们目前最关注的是大幅度提高语音识别的准确率,把图像、视觉搜索变为可能。”余凯告诉《中国经济周刊》,“深度学习是模拟人脑神经元的机制,我们希望利用它实现人工智能的梦想,业界顶尖公司达成了一个共识:大数据+深度学习缺一不可。我们有海量数据,里面有丰富信息,用一个简单模型不足以把丰富信息提取出来,所以我们要用深度学习模型,把里面数据的价值给找出来。”
曙光:造“云”掘金
坐拥金山但却还在啃馒头的人还是大有人在,于是,有一些人就在做“帮你挖金山的人”,比如布局云计算许久的曙光。
“曙光所谓的大数据战略,实际上源于曙光的云计算战略。4年前,曙光发布云计算战略,现在,国内拥有云计算中心最多、行业云最多、城市云最多的公司,曙光绝对算一个。”曙光公司总裁历军告诉《中国经济周刊》,这也是曙光掘金大数据的重要资本。
如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算的延伸和升级。
今年5月30日,曙光正式对外发布了其大数据战略——“平台一体,智汇应用”,同时还推出了曙光大数据的核心技术和产品:XData大数据一体机。这也被视为大数据是曙光从硬件设备供应商向解决方案和服务提供商过渡的重要战略转变。
“如果把大数据比作一种工具,那么这种工具可以帮助企业实现盈利,帮助包括政府在内的各行业,制定更合理、更有针对性的政策,通过加工实现数据的增值。”历军说。
据记者了解,曙光的大数据服务内容,更多的是针对不同的行业客户提供定制式的大数据解决方案。而中国银联、中国移动、中国电信、中国农业银行、上海同济大学等早已是曙光大数据服务的客户,此外,在交通、医疗等领域,曙光也已有诸多实际案例。用历军的话来讲,曙光的大数据战略及解决方案,属于先做后说型,这样外界才会觉得曙光务实。
按照历军的计划,曙光会首先帮助客户进行“数据落地”,即先把数据高效、低成本地存起来;第二步是“分析简化”,化繁为简,基于我们当前的数据处理、数据标准化的软件系统,进行一个分析、简化、编制,让它更有序;第三步是“价值新生”,即应用开发,根据我们顾客的需求,为它量身定制非常适合这个行业应用的一体化的系统,实现业务集成化和决策智能化。
“随着我们技术、理解的不断增强,过去我们看不到的一些金矿,会逐渐显现出来。”历军说。
专访《大数据时代》作者、牛津大学教授维克托·迈尔·舍恩伯格
舍恩伯格:大数据的价值并不仅仅局限于它初始被收集的目的,而在于它之后可以服务于其他目标而被重复使用。因此,大数据的价值将会是所有这些用途的总和,并且将远远大于其初次使用的价值。正如在海洋中漂浮的冰山,起初我们只能够看到它浮在水面上的一部分,但事实上冰山的体积要大得多。随着更便宜的存储和分析技术、分析工具的发展,以及“大数据观”的建立,我们会获得大数据“表面下”的价值。
目前,中国依然缺乏全面综合的数据收集。事实上,与其他国家相比,中国具有根本的优势:中国很大,因此可以提供远超他国的、多种用途所需的数据规模。此外,中国具有值得骄傲的数学传统,这在大数据时代非常有益。
《中国经济周刊》:目前,大数据技术成本是否过高?
舍恩伯格:是的,正是这个原因阻碍了大数据分析的发展。在许多方面,我们仍然生活在一个“小数据”时代,在这个时代收集数据时非常耗时、昂贵和困难。因此,对许多问题的解决是基于尽可能少的数据收集。这也意味着,如果没有特定的数据,我们不能回答不同的问题,否则我们的样本就会太小,取样会产生偏见。而在大数据时代,这些都会得到改变:数据收集和存储将会更便宜,更容易;重复使用数据的成本将会更低;数据分析工具也会更加优化。未来,大数据是“付得起的”。
《中国经济周刊》:谁将会成为大数据的真正受益者?公司、政府还是民众?
舍恩伯格:我相信大数据将带来所有层面的变化——并且是积极的变化。公司将会受益,并不仅仅是因为其现有的流程将会更加廉价和有效,更重要的是,在大数据的驱动下,他们将会有能力提供新的商品和服务。这将会为现存企业和新创企业都带来巨大的机遇,当然前提是他们足够聪明并且反应迅速。
对政府来说,在政治决策过程中,将会更完善、更理性并且更基于事实。对于管理一个愈加复杂的社会,这是至关重要的。
民众也将受益,无论事关教育和卫生保障选择,还是具体到买哪一辆车,由他们自己做出的决定必将更好地服务于他们。
《中国经济周刊》:大数据在哪些方面存在安全问题?公司应如何保护其来源、流程和决策,防止盗窃和舞弊?
舍恩伯格:当数据变得有价值,保护它们就将成为关键。目前数据并不作为一项知识产权而受到保护,因此,版权和知识产权法将不足以应对可能的盗窃和挪用。我认为需要改善法律框架。问题是,建立这种框架或可导致公司不愿分享数据资源,而只针对一些他们信任的合作伙伴做有限的资源共享。这种情况就会导致数据市场产生流动性问题,是十分让人困扰的。最终,解决方案可能会是法律、科技、组织和行为方式的综合体。