作者单位:上海科学技术情报研究所
人类的判断、决心和行为需要依靠智慧,而这些智慧需要外部信息的不断输入,在未经处理以前,这些外部信息常常被叫作数据。不仅人群产生数据、机器产生数据、数据自身也产生数据,所有的天然和人造物体任何时间都在产生大量数据。而今天的信息社会发展得如此之快,近年来人类能够获取和存储的数据量正在急剧增长,其数量和复杂程度都达到人类难以应对的地步,但是汹涌而来的数据并不可怕,人们发现一旦它们得到充分利用,我们的智慧或许能够得到量子跃迁般的提升。
那么,有着如此神奇魅力的“大数据”到底是什么?它的与众不同之处在哪里?前景又会如何呢?
今天情景
这是个平常的上班日,你出门时照例先看天气预报再听交通广播。当然你懂的,能不能心情很爽地准时在办公室亮相可不仅取决这些。你无法知道的是,来路上那位出租车司机昨晚被人“碰瓷”诈了五百元,一早就脾气很坏;今天空气悬浮颗粒中花粉比例突然增高,你的过敏体质将会强烈反应;而你在途中查看iPhone找到一款满意的相机打算出差回来去下单,却不知道因为水灾,明天那款“泰国制造”的优惠折扣就要取消……
未来情景
X年后也是这一天。出门前你的手持设备已经收到了今天的天气、这一刻出行方式和路线的最佳方案(以后根据获取的新数据每分钟更新一次),包括要带好抗过敏药和餐巾纸的提醒。当你接近那辆出租车时,你被建议再等大约3分半钟可以换一辆(物联网报告刚刚监测到前面那位驾驶员有轻度的异常操作行为,需要继续观察);而当你长时间盯着那个型号相机的画面时,一个专题讨论组和微博的搜索和文本挖掘已经在“云”上自动完成,对其供应链模型分析的结论是,因产地水灾近期现货出现紧缺的概率高达87%……
上述对未来的描绘不是科幻电影中的场景,也不是商业广告中的宣传,而是即将发生在我们身边的事实。能够帮助我们提高智慧的各种数据本来都存在,而随着信息技术的发展,我们会有越来越多的设备和方法记录下人和自然界事物的各种行为,“大数据”由此产生。而那些每分钟更新的“万宝全书”则是分析这些数据而产生的智慧,它将为人们带来更加美好的生活。
何谓大数据
IBM公司把大数据概括成了三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个V就是大数据的基本特征。
“大数据”是从英语“Big data”一词翻译而来,过去常说的“信息爆炸”、“海量数据”等等已经不足以描述这个新出现的现象,“大数据”一说就在近几年崭露头角,并首先为全球各大IT企业所重视。这些企业基于自身的商业目标,对“大数据”做出了各种解释,其中有一条已成共识:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”
当然,大数据首先是数据量大。过去常用的千字节(KB)容量今天已像人民币的分币,人人口中已经是兆(MB)和吉(GB),专业的则在大谈太(TB),甚至是拍字节(PB)。这从一个侧面表明,数据容量增长的速度大大超过了硬件技术的发展速度,以至于引发了数据存储和处理的危机。
然而,大数据不只是大。海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的改变。原来的数据都可以用二维表结构存储在数据库中,如常用的Excel软件所处理的数据,称之为结构化数据。但是现在更多互联网多媒体应用的出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。有统计显示,全世界结构化数据增长率大概是32%,而非结构化数据增长则是63%,预计至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。用于产生智慧的大数据,往往是这些非结构化数据。
如果说大数据的特点是海量和非结构化,那也是不全面的。大数据带来的挑战还在于它的实时处理。在当今快速变化的社会经济形势面前,把握数据的时效性,是立于不败之地的关键。
智慧城市的“大脑”
如果将智慧城市比喻为人,将组成智慧城市感知功能的传感器比作人的五官,将连接传感器的网络比作神经,将控制和存储信息的云技术比作中枢,那么大数据就是智慧城市的大脑。
交通
当前,出行难问题对各大城市来说都迫在眉睫亟待解决。在信息技术的蓬勃发展时期,人们利用先进的传感技术、网络技术、计算技术、控制技术、智能技术,对道路和交通进行全面感知。例如在路面放置传感器,在路口安装监控视频,在车辆上配置全球定位系统(GPS),可以对每一条道路实时监控,对每一辆车进行控制,以提高交通效率和交通安全性。可是,如果要实现右上图表中的“未来情景”,上述技术仅仅达到“中枢神经”的控制层面,远没有发挥“大脑”的智慧。
大数据下的智慧交通,就是融合传感器、监控视频和GPS等设备产生的海量数据,甚至与气象监测设备产生的天气状况等数据相结合,从中提取出我们真正需要的信息,及时而准确地推送给我们,并且这些信息不是简单地告诉我们到达目的地的几条路径或是显示各种路况信息,而是直接提供最佳的出行方式和路线,从而省却了我们在多个信息中做出选择的麻烦。
医疗
医疗健康问题是城市快节奏生活下人们普遍关注的焦点。以往,我们总是在发现自己生病时看病就医,而且到了医院还要挂号、求诊、配药,大多数情况下还需要排队等候,容易形成就医难的困境。如今,由于电子医疗记录时代的来临,电子病历正逐渐为各大医疗机构所采用。在去医院前,可以通过网上预约挂号;在就医时,仅使用一张IC卡就能付费;医生还可以将问诊过程中的记录,病人的化验单、拍片等诊断数据输入电脑以备随时调用。
这些技术大大提高了医疗机构的工作效率,也使得病人有了良好的就医体验。然而,美国著名的医疗健康组织KaiserPermanente又往前多走了一步,该组织通过将下属所有医疗机构的电子病历记录标准化,形成多方位多维度的大数据。这些需要在同一时间分析的众多因素包括病人基本资料、诊断结果、处方、医疗保险情况和付款记录等数据。将这些不同的数据综合起来,Kaiser的决策支持软件将提供给医护人员完整的病人历史,并选择最佳的医疗护理解决方案。
社会安全
每个市民的切身利益都与社会安全相关,当中的问题包括灾害天气、环境污染等城市的小毛小病,也有如火灾和犯罪等各种重大突发状况。这些层出不穷的安全问题无时无刻不在考验着城市的应急体系。幸好,我们有先进的信息技术支撑,确保当安全问题发生时,能第一时间发现,并且快速启动相应的应急预案来处理。
美国的纽约市在2003年3月建立了市民求助热线311电话中心,至今已经接听了1亿多个电话,日接待量达到5万多个。该系统能够向市民提供3600多个门类的信息和解答,可以用180种语言回答问题,其中有垃圾如何分类、下雪天学校何时停课、是否有恐怖袭击……。但该热线除了直接解决各种问题外,还有个重要的功能――为城市收集信息。每一通电话都被记录、并在地图上标记出来,以方便深入分析。其实,城市中每天所产生的数据不仅包含热线电话的记录,还包含其他与社会安全相关的数据,如社交网站上的信息、道路监控设备的信息等。城市管理者可以通过对数据的分析,察觉哪里出了什么样的问题,并安排处理它们的优先顺序;市民则能知道怎么去规避危险,在突发事件发生的情况下自己该做什么。所以,如何用好这些大数据,对城市管理者和市民来说都很重要。
科技创新的“种子”
产业转型升级依赖于科技创新,而科技创新又是一个螺旋上升的过程,这个过程萌芽于科学发现,生长于成果转化,收获于产业发展,产业发展又需要有新的科学发现来打破旧有的模式来获得重生。在这样一个往复循环的过程中,科学发现就成了科技创新的原点。
一直以来,科学发现主要基于实验和理论。在古代,人们利用自然法则来观察未知的世界。到了17世纪,以牛顿为代表的科学家试图对新现象做出预测,并且通过实验对各种假设进行检验。而现在,随着计算机性能的不断提高,研发人员可以精确求解大规模方程组,从而探索一些无法运用实验法和理论法的领域,例如气候建模和星系形成等。可是,这些研究正在被大数据淹没,数字信息从各种各样的传感器、工具和模拟实验那里源源不断地涌来,令数据的组织能力、分析能力和储存能力捉襟见肘。因而,在数据量快速增长之时,必须重新考虑科学研究发现的一整套方法。图灵奖得主、已故科学家吉姆・格雷针对这种情况提出了科学研究的“第四范式”。这第四种范式同样要用到性能强大的计算机,差别在于研发人员不是根据已知的规则编写程序,而是从各种各样的数据入手。他们用程序对海量数据进行挖掘,寻找隐藏在其中的关联;实际上,就是利用程序去发现未知的规律。2009年以来,微软研究院的科学家们致力于对第四范式和大数据的研究。有一个案例说明了他们的研究成果:
在20世纪80年代,有一家医院发现收治的充血性心力衰竭病人在节假日期间会飙升,他们只是注意到这一现象却没有深入研究。20年后,微软研究院对此现象及大量数据开发出了一套分析方法,可以相当准确地预测一名充血性心力衰竭病人在出院后的30天内会不会再次入院。其做法不是编一个程序对某个医生的提问进行分析,也不是对可能会有多少病人做一个总体的估计,而是来自一种“机器学习”的方法――利用程序对大数据进行分析挖掘的过程。这个大数据包括约30万名患者的数万个数据点。通过分析结果不同病例之间的差异,计算机能够“得知”最有可能再次住院的病人的特征。借助这个程序,医生在收治一个新病人时,把他的数据特征输进去就可以判断他“再进宫”的可能性。这样的预测工具能在改善病人健康状况的同时,还能省去一大笔医疗费用。
除“机器学习”以外,科学研究的第四范式还发展了另一种众包研究模式,使得科学发现不再是专业学者埋头于实验室的苦差事,而是全球科学家、学生和感兴趣的民众都可以参与的大众活动。谷歌公司在这个领域做了许多工作,他们开发了Google.org――这是一个利用谷歌在信息技术处理数据方面特长建立的全球公众都能够参与的科学研究平台。从2008年11月起,Google.org启动了名为“流感趋势”的项目,使用一种复杂的算法,对关于流感的网络搜索进行跟踪,从而对流感在人群当中传播的方式做出估计。其后,Google.org还组织了地球引擎项目,将大量的卫星图像和数据开放给公众,让每个人都可以对气候影响下的水源变化和沙漠化进行跟踪研究。这些项目都在寻求一种“长尾效应”,用来解决过去一直无法展开研究的科学难题。
对社会科学的研究,大数据可能带来更为巨大的积极影响。由于每次观察和量度都必然会影响对象的行为,长期以来以人及其社会联系为对象的社会科学一直面临难以严密和精准的困难。多年前超市POS机开始使用,就使得商场得以进行数据挖掘,从而发现隐秘的消费规律;而目前微博和手机的普及、社交网络的广泛应用使得以往几乎不可能完成的一些人群活动规律研究成为可能。例如人群在物理上如何移动?人又何以“群分”?而全球无数监视器无时无刻不在把它的所见一网打尽。一旦快速廉价的图像分析技术突破,人群的许多细微感情、动作和行为都能够被观察分析,这将是研究发现行为规律、大大提升社会管理水平的大好机会,当然也给保护隐私和个人信息安全提出巨大挑战。
尽管利用大数据的科学发现工作目前还只是一种设想,尚未出现实证的证明,但在大数据背后隐含的智慧力量是任何科学创新工具所不能比拟的,它赋予了科技发展一种全新的生命力,犹如深埋在创新土壤里的种子,等待未来的某一天结出丰硕的果实。
产业升级“助推器”
大数据作为智慧城市的“大脑”正在悄然改变着人们的日常生活。与此同时,大数据也给城市的产业发展创造了前所未有的机遇。不管是在制造业还是服务业中,大数据在信息化技术革命之时,又将再一次推动产业转型升级,为新的经济发展方式开创变革契机。
制造业
我们的制造业已在向信息化和自动化的方向发展。在产品的设计、生产和销售中,越来越多的企业使用如计算机辅助设计(CAD)、计算机辅助制造(CAM)等软件,数控机床、传感器等设备,物料需求计划(MRP)、企业资源计划(ERP)等系统。这些信息技术的应用在很大程度上提高了工作效率和产品质量,为人们带来了日益丰富的物质享受。
然而,人的需求是无限和潜在的。制造业目前所面临的挑战就是在整个产业信息化之后,如何提升获取和开拓需求的能力,从而创造出更有价值的商品。如今,企业管理信息系统中存储的信息,各种工业传感器和数控设备中产生的数据,汇集到一起形成了大数据,将以提高生产效率为目标的信息化制造业转变成了以掌握用户需求为目标的智慧化制造业。例如,日本小松公司的挖掘机安装了GPS定位系统,在实时监控车辆运行情况的同时,还根据挖掘机每个月的工作时间,统计全年的工作情况,由此判断下一年度的市场需求。此外,我们还可以在产业链的各个环节中汲取大数据用之不尽的动力:从产品开发、生产和销售的历史大数据中找到创新的源泉,从客户和消费者的大数据中遇见新的合作伙伴,以及从售后反馈大数据中发现额外的增值服务。大数据为制造业的创新转型――无论是精益化提升还是服务化转型,提供了新的路径和方式。
服务业
传统的服务业有着悠久的历史。当信息时代到来的时候,服务业就衍化出现了两种形态:一种是信息技术与服务业相结合的信息服务业,另一种是应用信息技术改造传统服务业而来的服务业。前者包括计算机软件服务、通信服务、信息咨询服务等,后者包括信息化改造后的商业、金融业、旅游业等。大数据恰恰就在这两者之间起到牵线搭桥的作用,一方面它使得信息服务业从提供软硬件技术服务升级到提供智慧解决方案,另一方面它将改变现有的服务业业态模式,将关注点转向数据。
在信息服务业,耳熟能详的例子要数多家网络公司收集用户的网页点击行为来提供有针对性的推送服务了,但这些企业并不轻易使用自己收集到的数据。可能是出于对企业秘密的保护和对用户隐私问题的谨慎,他们没有充分利用大数据来挖掘巨大的价值。
在零售业,美国的沃尔玛公司很早就开始利用日常交易数据的关联分析来赢得竞争优势。例如2005年卡特里娜飓风来袭之前,沃尔玛就从手电筒和电池的销售数据中分析出馅饼将在未来热销,将两者的关联归因为飓风来袭时导致停电使得方便食用的馅饼会受青睐。
在金融业,银行可以从大量数据中发现信用卡欺诈和盗用,保险公司通过大数据能够找出可疑的权利要求,理财网站从统计的消费数据中来预测宏观的经济趋势。
在旅游业,企业致力于旅游预订数据的处理,如微软的Bing搜索引擎,能够根据其存储的机票历史数据,帮助用户决定购买航班的最佳时间和最优惠价格。
上述的例子有些或许还称不上大数据的应用,但对数据利用的成果已经初见端倪。可以预见,以大数据为源动力,服务业将获得更多的商业机会。
大数据我们“hold”得住吗
信息技术的发展创造了大数据,也改变了大数据。终有一天,大数据不再是信息存储和处理的瓶颈,而是开启智慧的钥匙。在大数据茁壮成长的今天,我们需要对它更多地关心呵护,需要有专业园丁来对它精心照料,需要有医生为它治病除害,还要关注它的生存环境。
人才为大数据“浇水施肥”
大数据的一个挑战是人才的培养。例如仅美国就面临14万至19万分析和管理人才缺口,以及150万具备理解和基于大数据研究做出决策的经理和分析师人才缺口。当前,能让大数据对商业更有利和更有价值的分析和管理人才还很有限。因而我们还要建立大数据相关的人力资源储备。
新安全观为大数据“杀虫除害”
技术的进步为大数据的存储与处理扫清了障碍。但对大数据来说,更为重要的问题是个人隐私等信息安全问题能否得到解决。这里所说的安全问题不同于以往的信息安全问题,而是一种新的安全观。这种新安全观需要在大数据的利用时找到开放和保护的平衡点。例如涉及个人隐私的数据,既要能够深入挖掘其中给人类带来利益的智慧部分,又要充分保护隐私数据不被滥用,损害到个体的利益。国外的做法通常是设置安全机制,采用第三方信息安全审计,并对数据的使用作了明确的规定。
物联网和云计算为大数据“开荒翻土”
大数据可以来自方方面面,从生活中的购物交易,到工业上的生产制造;从社交网络媒体信息,到在线视频图像资料;从企业的信息管理系统,到政府部门的电子政务,都有着大量的数据产生。随着物联网和云计算产业的蓬勃发展,大数据的价值还会进一步显现。物联网时代,成万上亿计的网络传感器被嵌入到现实世界的各种设备中,如移动电话、智能电表、汽车和工业机器中,用来感知、创造并交换数据,无处不在的传感网络带来了无处不在的数据,这些数据正日益成为与实物资本和人力资源同等重要的生产要素。同时,云计算为物联网所产生的海量数据提供了存储的空间,并使得实时在线处理成为可能。近几年,IBM、甲骨文、微软、SAP、谷歌等IT企业不仅在全球部署了多个数据中心,还花费了150亿美元收购了专攻数据管理和分析方面的软件企业。较早行动起来的IBM在2005年-2009年间就投入120亿美元,创立了6个达4000员工的全球分析中心。不难发现,当人们还在热衷于物联网和云计算概念炒作的时候,全球领先的IT企业们已经开始把注意力转向物联网和云计算产业背后的大数据,其潜在的价值正在被逐渐挖掘。“大数据比物联网、云计算更重要”的判断也许有点夸张,但是可以肯定的是:云计算不单是提供云存储等服务,对大数据的智能化处理不仅是云计算的题中之义,更是其核心与关键。
任何机遇都稍纵即逝。大数据在产业界已不再是新鲜事物,大数据的这块蛋糕正在被全球跨国企业切分。但从另一角度看,大数据所产出的财富也不是一家企业或者一个解决方案所能囊括的。信息泛在的时代数据无处不在,无论是有意还是无意,人们时刻都在创造着大数据。我们要看到“大数据”所蕴藏的智慧价值,它如同虚拟世界的智慧基因,正等候我们去解密,只有掌握了“大数据”分析处理技术,我们才可能让它成为智慧城市的“大脑”、产业升级的“助推器”和科技创新的“种子”,使之造福人类。