邬贺铨 大数据时代的发展趋势
来源:中国互联网大会网 更新时间:2014-04-04

大数据作为云计算、物联网之后IT行业又一大颠覆性的技术革命,其商业价值正逐渐成为行业人士争相追捧的利润焦点。去年,光纤传送网与宽带信息网专家、国家信息化专家组咨询委员会委员、中国通信协会副理事长、中国工程院院士、中国互联网协会理事长邬贺铨就发表了题为【大数据时代的发展趋势】的演讲,预言了大数据的机遇和挑战,可谓字字珠玑。今天的CEO早晚课上,我们再次将它呈现,供大家学习参考。

  以下为演讲实录:

  尊敬的北大的各位老师、各位专家、各位CIO,很高兴来参加这次论坛。最近这几天好像有点“CIO热”,上个礼拜Gartner在北京有CIO论坛,明天在上海也有CIO论坛,大数据论坛也是到处在开。今天的标题是“大数据应用”,我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用,所以我这里就只讲一下大数据时代的ICT趋势,会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。

  第一,大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量,1998年每个网民一个月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每个月要10个G的下载量。右边的图是讲全世界互联网流量累计达到1EB所需要的时间,2001年需要一年,2004年需要一个月,而今年只需要一天。2012年去年全世界互联网一天的信息量大概是1EB,可以刻满1.68亿张DVD,。现在全世界新产生的数据量每年增加40%,每两年数据翻一番。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为1.8ZB,假如把这个数据装在32G的IPad上,要装575亿个,把这些iPad摞起来,可以摞起两座中国的长城。2020年全球数据将达到40ZB,如果将数据装在光盘上,这些光盘总重量等于424艘尼米兹号航母。所以说,大数据时代到来了。

  大数据有网络数据、企事业单位数据、政府数据,网络数据自媒体数据(比如社交网络、博客、微博等),有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等),每天的数据量很大。比如淘宝每天数据量就超过50个TB;新浪微博晚上高峰的时候一秒钟就要接收100万以上的响应请求;百度每天大概处理60亿次搜索请求,几十PB;中国联通每天记录用户上网条数,一秒钟记录83万条,一个月大概是300TB;国家电网信息中心目前累计收集了2PB的数据;北京公交一卡通,每天用公交一卡通的旅客有4000万刷卡记录,而北京地铁每天乘客1000万,把这些数据每天收集起来分析数据可以用于改善北京的交通状况,优化北京的公交线路。

  最大的流量是视频。美国TouTube网站一分钟有72小时的视频上载,到2016年互联网上的忙时流量是720Tbps,相当于全世界有6亿人同时看不一样的高清电影。到2016年每3分钟互联网传送360万小时视频,相当于全球已经生产的全部电影。这个电影用什么量衡量呢?如果一个人要看3分钟所传送的电影,需要34年不吃饭、不睡觉才能看完。最近两个月在TouTube上载的视频量是美国三大电视台--ABC、NBC、CBS自1948年以来24/7/365连续播出的内容,可以看到视频流量非常大。

  大数据无所不在。图中是美国的一家医院(UPMC),一年能收500TB数据;伦敦有200个交通摄像头,每天是8TB数据;伦敦才200个,北京有八十万个摄像头,数据量要比伦敦大得多了。还有其他方面的数据量,大数据无所不在。

  就监控而言,很多城市的摄像头多达几十万个,一个月的数据就达到数十个PB。北京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸部,以防投毒,防用针管装艾滋病毒、传染病毒打到液体里等,那么产生的数据就更大了。飞机的汽轮机产生的数据是Twitter的七倍,例如波音787,它每一个飞行来回可产生TB级的数据,美国每个月收集360万次飞行记录;监视机队25000个引擎,每个引擎的数据一天产生588GB;空客380软件有10亿行,每30分钟产生10TB的数据;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度;一个具有500个风机的风场一年会产生2PB的数据。这些数据用于预防性维护,可使风机寿命延长3年即达到18年,每年每风机的成本将降低17%。根据上面监测的统计,今天所有企业的信息存储总量已达2.2ZB,未来几年将年增67%。

  大数据的应用很多,比如淘宝,通过采集淘宝网上成交额比较高的390个类目的商品价格来搞出淘宝的CPI,比国家统计局公布的CPI更早的预测到经济状况。为什么?国家统计局统计的CPI主要根据是刚性的物品;比如食品,经济好、经济不好,人们都要吃饭,因此差别不大。可是淘宝上都是买化妆品、电子产品、服装,经济不好就会少买,因此淘宝CPI更能反映价格走势,一般来讲比我们国家统计局公布的CPI,能提前一个月到半个月预测到走势。中央首长到了淘宝看了以后就说“你们每天把淘宝的CPI送到中南海”。最近经济情况的下行压力很大,很多中小企业贷款很难,因为他们没用担保。阿里公司根据在淘宝网上中小公司遭遇的状况,筛选出财务健康、诚信企业,不要他们担保,阿里放贷300多亿元,坏账率仅0.3%。去年公布的四大商业银行坏账率是这个数字的13倍。商业银行是有担保的,而阿里没有担保。

  Google把5000万美国人频繁的搜索跟美国疾控中心流感数据进行比较,一个地方发生流感肯定有很多人在网上搜索这些词汇,因此根据这些词汇出现频率可以判断这个地方出现流感,Google在2009年的甲型H1N1流感出现时,它比美国疾控中心提前几个月发布公告。Google前雇员创办了Climate公司,从美国气象局获得几十年的天气数据,并与各地的农业状况、土壤状况关联起来,尚有需求的农场主说“谁问我明天种什么能赚钱,我告诉你,如果我说错了,我的赔偿要比保险公司还要更高。”到现在为止,据说他们从来还没赔过,不像我们国家的农民只是根据简单的判断,今年猪肉贵了,明年大量养猪,明年猪肉就便宜了,然后年猪肉又贵了。所以农业上的大数据应用是很有帮助的。

  第二,大带宽发展趋势。大数据必然驱动大带宽,这是全世界国际互联网干线的流量状况,根据美国的预测显示,2010年比2009年全世界的数据量增长了62%,按这个推断,10年国际互联网流量要增长1000倍,美国自身的互联网流量也是10年增长1000倍。这个曲线是全世界骨干网的流量,无论亚洲金融危机还是其他危机互联网,流量都不受影响,依旧保持高速增长。首先是光纤浏览,早年的是模拟的频分复用,90年代开启了光纤复用,当时叫数字的时分,TDM,当时一对光纤传2.5GB的三万电话电路;波分复用,一对光纤不仅仅可以传一个波长,可以同时传输多个波长,叫做波分复用。一对光纤在工程上已经传送1.6TB,相当于2000万电话电路。光纤通信虽然还可以采用更多的光纤技术,做到一对光纤传输16个TB,两亿电话电路。当然随着干线容量增加,我们希望系统更灵活,所以光互联网就出来了。总之,光纤传输能力十年扩大1000倍,目前来看还有很大发展空间,而且现在光纤光缆成本很低,中国生产世界一半的光纤光缆,同时也消耗了世界一半的光纤光缆,10年前中国的翻新光纤一公里卖到两千多人民币,去年报价是53元一公里光纤,现在光纤比面条便宜,极大地支撑了宽带化发展。可以看到,95年的时候数据总容量比较小,只有2.5G到10GB,波分数量也只有8到40个。到2010年可以看到,信道单波长已经做到100G,信道容量做到15个、50个波长。到2020年单波长要做到1T,总容量还会增大。右下角的图是中国联通169的网络,可以看到它每年都在扩容、增长。随着大数据时代来临,运营商还要大量的增加光纤容量。

  另外,不单是干线容量增加,我们也希望用户节路带宽增加,所以新的运营商会推动“光纤到户”,实际上“光纤到户”是广义的,并不真正是’光纤到户”,而是光纤到大区、光纤到大楼。在中国光纤到了一个大楼之后剩下的路线很短了,也可以传高比特率。现在光纤传输用的是无源光网络,从局域端到用户端是一个光纤,快到用户家门口进行分支,这里面向行叫10分,下行是广播式的。这样用户的带宽能做到,现在可以上到100兆。说了光纤,除了有线,我们希望无线也是宽带的。第一代移动中国通信在90年代的时候中国就退网了,那个时候是模一的电路交换,带宽比较差,现在大家比较多用的是第二代移动通信,它是GSM CDMA,带宽当时只有几百K,3G带宽是Mbps,现在中国基本上都是增强型3G,几十M。前年上海世博会上周围搞了眼镜型的3G,也叫LTE实验,现在在全国已经有16个城市在开展实验了。

  最近,工信部预计今年年底可能要发4G牌照,4G是在LTE基础上有进一步的改进,高速移动时就可以支持100M,低速在家里可以不要网线1G下载(这是峰值),在中国4G牌照没有发放的时候国际上已经开始第五代移动通信标准的研究了,第五代移动通信希望能够使用户享受到在运动状态下也能享受到1G峰值速率。当然每一代移动通信都是革命的,第一代移动通信蜂窝小区靠频率不同区分用户,叫做FDMA频分多址。第二代移动通信GSM是靠时分区分用户,叫TDMA时分多址,从第二代开始,第三代移动通信有CDMA的是码分多址,现在到第四代移动通信叫OFDMA,是正交频分多址,把频率的时间的、空间的因素都利用起来,使得移动通信的峰值速率平均每年加倍,10年1000倍。提高移动通信的峰值速率,当然这里面要付出很大的代价。你们可以看到,早年GSM只有kbps,后来到100k,到3G是Mbps甚至是10M量级,现在到LTE开始是百兆量级,随着移动通信峰值速率越来越高,我们的终端能力也越来越强,来不断提升终端的宽带化的能力。当然了,要提升这个能力现在面临很多挑战,比如说当手机离基站很近的时候,它可以直接从基站获得信号,当手机回到家里,可能楼的墙壁钢筋水泥太厉害了,这个时候穿不过去了,就要加上室内中继来接力,如果你在马路上当然你很靠近天线时没问题,当远离天线时要发展终端到终端,也就是你拿着手机走在路上,你没打电话、上网,但是不知不觉当了第三者,当了别人的二传手。

  回到家里,最好转到WIFI上,节省带宽和频率。总体来说,未来我们需要通过多点协作、多个基站服务一个用户,通过中继、各种天线以及终端的接力以及异构的网络来支撑移动通信的宽带化。比如说这个基站是回龙观,很多人晚上会住在那,晚上基站会很忙。而白天这些人都上班了,回龙观那边用手机打电话、上网的人少了,基站忙闲不均,有潮汐效应,怎么办呢?把每个小区基带处理部分集中起来,成为一个基带池,每个蜂窝小区只剩下射频,如果某个蜂窝小区的资源富裕可以调整给另外一个小区用,当然了形成基带池的好处不仅仅实现忙闲调配,而且有利于运营商集中调控,节省能源,也有利于基站选址。现在老百姓环保意识比较强,不希望自己的楼顶放基站天线,一方面大家抱怨信号不好、希望基站加密,另一方面老百姓又抱怨这个可能会对身体有影响。但实际上,中国移动通信环保标准是全球最高的。

  第三,大网络布局的演变。从图上可以看到,这是数据中心,整个高度是数据中心的总量,绿色部分是数据中心使用云计算的比例。我们可以看到,到2015年一般以上的数据中心都会用到云计算,连增22%。过去没有人谈云计算,80年代谈数据库、90年代谈IBC,现在谈云计算。实际上云计算应该更准确的是云服务,当然未来会发展成什么?不知道。云计算底层有一个基础设施,像我们很多企业把它的数据库托管到运营商那里,这就使用了云计算,使用了IaaS系统。IaaS里头有数据中心、存储器、服务器,如果仅仅这样还不够,对运营商来讲,无非是“数字房地产”。运营商希望进一步在上面增加开发工具,叫PaaS,可以提供JAVA、Web2.0一些开发工具、中间件等等,企业可以租用这些开发工具,开发企业要的一些软件,比如说数据挖掘等等。对于一些小企业而言,根本没有开发能力,因此干脆直接租用你的软件,这是SaaS。比如说现在谈大数据分析,哪个企业都希望大数据分析,但是每个企业去买这些数据分析软件是很不划算的,因此租用第三方的分析软件可能是一个方向。当然更进一步的有Business,有能力的企业可以在上面更多的开发。所以云计算并不是为大数据而诞生的,但云计算正好适应了大数据的需要。

  另外一点,网络节点位置要从信源中心向能源中心扩展。我国有20个省市制定云计算规划,大规模数据中心建设成为各地发展热点,11个省市云计算投资均超过100亿元。内蒙要建云计算中心、他说他那里有煤、能源,而且气侯比较好;重庆市长说,别看我这里热,但是长江水比较冷,可以拿来降温,而且这里没有地震,我这里要尽云计算中心。按照工信部等八部委2013年1月14日发布的《关于数据中心建设布局的指导意见》,中国的数据中心要考虑气候环境、能源供应,建议我们国家的云计算中心向高纬度地区集中,也就是内蒙、西北这些地区。过去的数据中心放在上海、北京、广州这些地方,而将来数据中心一半是云计算中心,而它们更多要放到内蒙、西北,也就是说网络结点位置会从信源中心往能源中心拓展,实际上云计算会改变互联网的流量和流向。

  另外,由于数据量非常大,过去运营商并不是每个省线路都互相直联的,往往通过北京互联,有些通过上海、广州。现在中国电信ChinaNet网络每个省之间都直联了。为什么?因为数据量太大了,所以希望网络要扁平化。过去我们都说什么东西都到IP层做交换,随着数据发展以后我们希望的路由器容量会很大,一个纯IP电的Tpbs的路由器,一个端口就一千瓦,功耗很大,如果光的类型的交换,一个端口才25瓦,而且大数据里面大量的数据是过路的,而不是落地的,因此现在改变了互联网的格局,凡是能在光层上做的交换绝不在电层上做,凡是能在MPI(层上做的交换绝不在IP层上做。过去我们常说什么东西都在要IP上交换,现在IP要变成包装,能不在IP上交换的绝不在IP上交换。

  你可以看到,这是大数据的发展。另外,过去的路由器本身具有转发和控制功能,也有节点控制功能、业务控制功能,每个路由器都是独立的,也是自我的,它根据来的数据来选路,但是这样的方式很难适应大数据时空动态性,大数据产生的位置、发生时间可能是不均的,也不平衡,如果动态需求希望我们的网络也是动态的,那么传统路由器刚性的设计很难适应动态需求,因此现在提出SDN(软件定义网),希望把路由器里头操作系统提起来,然后把路由器控制集中,这样造成网络操作系统,而路由器就剩下传输与转发功能,这是执行机构,可以根据网络需求来集中调用配置,可以使网络变的更柔性化,这是软件定义网,能实现转发与控制分离。

  大数据推动城域网体系的演变,早年我们都是大计算机连大服务器,后来常常很多时间提的是客户服务器,计算机连到服务器。当一个热门的节目所有终端都希望下载的时候,这个服务器就是瓶颈。因此就出来了P2P,也就是说,各个终端能力都很强,每个终端没必要全部下载下来,每个终端只下载其中一部分,各个终端下载不同的部分然后相互交换,我们叫做Peer-to-Peer,现在很多发现这个体系架构也需要改变了,因为大数据的出现,一个终端到一个服务器之间很多数据不是一个服务器能装得下的,当一个终端接入到一个服务器的时候,可能需要调用其他服务器存储数据来支持,因此最近五年我们国家接入网流量带宽增长了6倍,而城域网流量增长了22倍,有更大流量在服务器之间交换。也就是说,网络的体系会从客户服务器的垂直架构向服务器之间的水平架构优化。大数据推动了城域网体系的演变。

  另外,由于数据量很大,所以现在Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷的把它的数据通过CDN写到不同地方。腾讯总部在深圳,可是它把很多服务器放在北京、广州、上海等等,甚至分散到很多省,目的是缩短用户接入到服务器的距离,所以内容分配网应用而生,最近发展得很快,内容分配网会对整个互联网流量流向产生重大的影响。走了捷径,那么省间长途流量就可以下来。所以内容分配网拉近了信源和用户的距离。全球互联网去中心化,这个图是全世界用户互联网带宽,国际互联网带宽是增加的,但是比例是下降的。左上角的图就是美国全球各个州到美国的国际互联网的流量,除了上面的线是拉丁美洲,下来之后略有回升,其他的亚洲、欧洲、美国互联网国际流量比例是下降的,也就是说绝对值增加、相对值下降,这是因为很多东西只需要就近访问,并不需要跨洋越境了。

  第四,大数据挖掘的挑战。大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等,涉及到很多环节。比如说挖掘就需要对数据进行清洗,进行合并、压缩,要转换格式,然后进行统计分析,知识发现以及可视化处理。然后找出它的关联规则,分类、聚类,排序列,优化路径。这里涉及到一大批的数据挖掘的软件,简单来说,首先是MapReducers,左边的图上很多数据,不同颜色表示不同类型,首先通过Map把这些数据进行分类,不同业务类型的数据分到不同的存储服务器里头,这样就是为了简化运算,在分类过程当中数据是要加标签的,同时要把重复的去掉,这是进行大数据的预分析前的一些操作。另外,大数据需要有很多服务器。

  曾经有人认为买高端服务器才可靠,后来Google首创利用低端的服务器,它认为没必要用高端,只要用低端服务器就够了,而低端服务器可靠性不好,怎么办呢?冗余配置。就是把一个数据拷到三个服务器里头,三个低端服务器的价格仍然比一个高端的服务器便宜,这样一来既提高可靠性又降低了成本。所以大数据的分析需要分布存储和冗余备份。还有Map Reducers要通过映射、调度,最后把结果归纳起来得出我们要得结果。大数据跟过去的分析不一样,过去的数据都是存下来,存到静止的数据库里头,然后再分析。而大数据每时每刻都有,比如说几毫秒就要送一个数据出来,飞机引擎也是不断的送数据出来,数据根本没有停止的时候,我们不可能等数据停下来再来分析,我们必须一边走一边分析,怎么办呢?过去的分析是静止的,叫做“带数据进程序”,现在的分析是在活动的,也就是“带程序进数据”。所以大数据分析也会带来很大的挑战。

  另外,更难的挑战是非结构化的数据。所谓结构化就是说可以用文本表格等方式来表达,即便文本表格表达从语意理解还是比较难的。比如地震的时候,网络上为了监控舆情,看看究竟是正面的评论多还是负面的评论多,有一条信息说“当他发现他儿子还活着的时候,他抱头痛哭。”按照分析,“痛哭”肯定是负面的。但实际上这是正面的。这是因为什么呢?要让计算机懂得人的感情,这就难了。文字的分析况且这么难,那么对照片的分析就更难了,要通过OCR扫描出里面的文字,把文字作为标签加到照片上。照片还好说一点,而视频分析就更难了,你怎么找这个人?去年1月份周克华在南京杀了人,当时摄像头把他拍下来的,南京市调出几十万个摄像头视频,拍多长就要看多长,没有分析的办法就靠人看,所以这是很慢的。因此大数据互换智能化的处理、智能化的分析。

  另外,大数据需要虚拟化和可视化。举个例子,上海江苏路,路上有很多摄像头,每个摄像头背后连一个电视屏幕,在交通管理中心的一面墙上放了很多屏。当然了,再大的墙壁也放不下全上海这么多交通摄像头,所以只能10秒钟显示一条马路的摄像头,这些都是分离的,一个一个看很难看出问题。我们希望通过软件把这条马路的摄像头合成一个视频,只要看这个视频就知道全马路摄像头的状况了。当然只有一条马路还不够,我们还要把它合成全上海一幅图,就像上海市领导坐着直升机俯视上海一样,看到上海市整个城市里头,在东京北纬某个纬度,在某个时刻段,哪段路交通堵塞。大数据,无论数据有多大,无论是PB还是TB,最重要结果都应该非常直观的一幅图。

  Gartner公司在发布2012-2016的IT发展趋势,有五点:大数据、云存储、移动应用、社交网络、网络安全。我们可以看到其中最主要的是大数据。大数据推动ICT发展的时代,云计算、移动互联网、下一代互联网、大数据、物联网、社交网络,我叫做“大智移云”,你可以看到这些新的信息技术适应大数据新一代发展。

  最后,宽带化、移动互联网、物联网、社交网络等催生大数据,大数据预示信息化发展进入新阶段,大数据是信息化新浪潮的结晶。为适应大数据的需求,光纤通信和移动通信加速宽带化。大数据加快了云计算、CDN和对等直联(或NAP)节点的部署,网络节点位置从信源中心向能源中心转移,信源中心向用户靠拢,互联网显现去中心化。大数据挖掘对数据采集、存储、分析、决策、呈现和安全等技术带来大挑战。谢谢大家!