大数据技术发展态势跟踪
来源:科技发展研究杂志 更新时间:2014-08-14

——关于大数据的几个重要观点和产业技术路线发展

大数据(Big Data),普遍认为是指在特定行业中,超出常规处理能力、实时生成、类型多样化的数据集合体,具有海量(Volume)、快速(Velocity)、多样(Variety)和价值(Value)的4V 特征。
最早提出大数据特征的是2001 年麦塔集团(后被Gartner 公司收购)分析师道格·莱尼(Douglas Laney)发布的《3D 数据管理:控制数据容量、处理速度及数据种类》(3D Data Management: ControllingData Volume, Velocity and Variety),提出了4V 特征中的3V。最早提出词汇“Big Data”的是2011 年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告。之后,经Gartner 技术炒作曲线和2012 年维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》的宣传推广,大数据概念开始风靡全球。
一、关于大数据的几个重要观点
大数据发展至今,伴随着很多争议。有人称之为“新瓶装旧酒”,也有人认为大数据的机遇被过于夸大,企业就是在这种怀疑和忐忑中抓紧推进大数据应用。客观上看,大数据在研究范式、企业战略层面具有变革的潜力,但不宜过于强调其新颖性,不应同过去的数据学科领域割裂开来;21 世纪以来,大数据技术发生了革命性突破,主要体现在对3V 特性的“适应”和“运用”上,目前受益最大的是云计算产业,对其他产业和社会发展的变革作用尚未落地。
有如下几个重要判断和观点:
1、大数据的核心思想本质是数据挖掘。数据挖掘(Data Mining)借助计算机从海量数据中发现隐含的知识和规律,是一门融合了计算机、统计等领域知识的交叉学科,其核心的人工智能、机器学习、模式识别等理论在上世纪90 时代推行知识管理时已有显著进展。从本质上看,大数据带来的“思维大变革”以及一些数据驱动类的商业智能(Business Intelligence)模式创新,都是数据挖掘理论的延伸,表达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。比如,因果关系是数理统计中的重要内容,基于完善的数学理论,代表是回归模型;而相关关系是数据挖掘中的重要内容,基于强大的机器运算能力,代表是神经网络、决策树算法,这使得人们不需要了解背后复杂的因果逻辑也可以获得良好的分析和预测结果。从某种程度上说,必须感谢大数据的宣传者,正是这样的热炒才让数据挖掘这样一门小众却极具价值的科学展现在大众眼前,起到了很好的科普作用。
2、突破主要来自技术上的“能力拓展”。表现在对多样(Variety)、海量(Volume)、快速(Velocity)特征的“适应”和“运用”上:一是存储数据从结构化向半结构化、非结构化拓展,如基于Web 异构环境下的网页、文档、报表、多媒体等,导致了一批基于非结构化数据的专有挖掘算法的产生和发展。二是数据库从关系型向非关系型、分布式拓展,关系型数据库是以行和列的形式组织起来的结构化数据表,如Excel 表格,缺点在于存储容量小、数据扩展性和多样性差,而新的非关系型、分布式数据库可以弥补上述不足。三是数据处理从静态向实时交互拓展,新的大规模分布式并行数据处理技术能够实时处理社交媒体和物联网应用产生的大量交互数据,有效应对多样(Variety)和海量(Volume)带来的复杂度和时效性要求。
3、能力拓展直接促成了价值(Value)的实现。得益于上述技术,数据挖掘理论获得了呈几何倍数增长的数据量和处理能力,原本很多无法验证的设想和方法得以实现。比如,传统BI 分析有一个“集中”步骤,即在分析前需要对大量数据抽取和集中化,形成一个完整的数据仓库,这个步骤往往成为BI 分析全过程的能力瓶颈;而基于大数据分布式技术的BI 分析无需“集中”,大大提升了敏捷度和智能水平,从而推动机器学习、语义处理等领域发生重大突破,直接促成了Mahout 机器学习算法集、Siri 语音助手等一批商用化产品的问世。
4、变革的潜力主要体现在数据开放战略和数据驱动范式上。在战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变,引发了社区、众包、网格等新业态、新模式蓬勃发展,在此基础上将推动机构数据开放和公众共享运动的兴起。在研究范式层面,科学研究出现从推理演绎驱动向数据驱动拓展的苗头,如生物基因与健康等研发密集型产业开始向数据研究科学拓展;许多传统的科学研究如历史、文学等也开始尝试运用数据分析技术。但上述重大变革目前尚未真正实现。大数据现有技术水平的主要受益产业仍然是云计算和各类基于云计算的商业模式,在信息基础设施普及率、社会开放性以及与网络智能交互技术的结合度没有达到一定能级时,大数据的应用是有限的,达不到面向社会的“无所不能”。
5、大数据技术的主要推动者是互联网企业。由于更多地围绕云计算,所以大数据的底层架构和核心技术主要由谷歌、亚马逊、脸谱以及美国Apache 基金会等互联网企业机构掌握。谷歌公司研发了大数据“三核心”——文件系统(GoogleFileSystem )、处理算法(MapReduce)和分布式数据库(BigTable),打造了全球大数据开发的主流框架和范式。雅虎和Apache 基金会基于谷歌的算法思想,开发了Hadoop 开源框架,向广大企业和创业者开放,推动产业生态系统的不断壮大;亚马逊、脸谱、推特等企业在此框架基础上开发各类功能性工具;而微软、IBM 等传统IT 企业在产业链上更多关注下游应用,开发产品和系统解决方案。
6、大数据的提出有助于进一步明晰云计算的概念。从专有领域的角度看,原来的云计算包括两层概念:一类是海量数据的高效处理,主要是大规模分布式并行运算技术,代表是谷歌公司;另一类是硬件资源的虚拟化分配,更多聚焦虚拟机技术和对象存储出租商业模式,代表是亚马逊公司。这两层概念相互交织,往往让外界分不清楚。大数据概念的提出,可以将前者完全涵盖,侧重微观、技术和前端;云计算这个概念今后可更多地在商业模式层面进行定义,侧重宏观、服务和后端。任何IT 企业的云战略都可以分成两条线:一个是大数据,一个是云计算,分别对应不同的产品。比如微软公司,如果说的是其并行数据仓库与Hadoop 集成的解决方案,那么谈论的是大数据;如果提到的是其Azure 数据库服务租用平台和IaaS、PaaS、SaaS 三类服务模式,那么谈论的是云计算。
7、数据并非越大越有价值。大数据支持者的一个重要论断是:基于全量,大数据分析的准确性将超越传统数理统计,因果关系将为相关关系所取代,而事实并非如此乐观。一方面,传统的数理统计没有过时。其经历四百年的发展,仍然在经济社会各方面发挥着重要作用。比如,抽样是一门古老且成熟的统计方法,如果目标明确、方法科学,其在绝大多数情况下得出结论的正确性,并不逊于全量数据。客观上看,全量的价值更多体现在一些传统数理统计基本假设可能失效之处,如互联网“长尾”现象的出现,导致正态分布、帕累托法则在个别领域不再适用,此时需要依靠全量数据寻求规律。另一方面,全量伴生的“噪音”有时会影响精准度。例如,被誉为大数据杰出案例的“谷歌流感趋势”近期陷入低谷,错误率高达90%以上(108 周中错了100 周),不能预测甲型H1N1 等重大疫情。它的核心逻辑是:搜索“流感”的人数与实际患症的人数之间存在相关性,而事实上,即便去医院看流感的人都有80%~90%实际没有得流感,表面的网络搜索行为与可靠的信息来源还存在较大差距以及“去噪”过程。很多专家认为,就目前而言,相关关系还不足以替代因果关系,而只是作为其补充。
二、大数据技术发展经历了从萌芽到成熟的过程
基于Web of Science 数据库1中1994 年后涉及大数据概念的4495篇文献,采用Citespace 知识图谱工具,通过热点关键词和高被引文献分析,勾勒出了大数据技术从萌芽到成熟的发展历程(如图1、2)。
1、萌芽期:数据挖掘技术(上世纪90 年代-本世纪初)随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,对于大数据的研究主要集中于“Algorithms”(算法)、“Model”(模型)、“Patterns”(模式)、“Identification”(识别)等热点关键词,高被引文献侧重于数据挖掘和机器学习的基础技术,如1993 年Quinlan JR 发明的C4.5 数据挖掘算法,1995 年VladimirN.Vapnik 撰写的机器学习教材,以及1998 年Eisen MB 等关于聚类分析和全基因组表达模式的研究等。
2、突破期:围绕非结构化数据自由探索(2003-2006 年)非结构化数据的爆发带动大数据技术的快速突破。以 2004 年Facebook 创立为标志,社交网络的流行直接导致大量非结构化数据的涌现,而传统处理方法难以应对。此时的热点关键词较为分散,包括了“Systems”(系统)、“Networks”(网络)、“Evolution”(演化)等,高被引文献也很少,说明学术界、企业界正从多角度对数据处理系统、数据库架构进行重新思考,且尚未形成共识。期间,谷歌公司Jeff Dean 和Sanjay Ghemawat 发表了三篇论文,分别提出GoogleFileSystem(2003)、MapReduce 算法(2004)和BigTable 数据库(2006),奠定了大数据技术的核心基础。
3、成熟期:形成并行运算与分布式系统(2006-2009 年)Jeff Dean 在BigTable 基础上开发了Spanner 数据库(2009)。此阶段,大数据研究的热点关键词再次趋于集中,聚焦“Performance”(性能)、“CloudComputing”(云计算)、“MapReduce”(大规模数据集并行运算算法)、“Hadoop”(开源分布式系统基础架构)等。在高被引文献方面,有两篇引人注目,分别是2008 年谷歌公司正式发表的MapReduce 论文和2009 年Tom White 发表的Hadoop 论文。
4、未来:大数据技术仍在快速发展(2010 年至今)随着智能手机的应用日益广泛,数据的碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。老“三核心”面临能力瓶颈,而2010 年谷歌为应对这种趋势而开发的Percolator、Dremel 和Pregel 日趋成为新“三核心”。与此同时,非关系型数据库(NoSQL)再次自我革新,开始转向兼具关系型易查询和非关系型高扩展性的新型云数据库(NewSQL),代表如谷歌的Spanner、亚马逊的RDS、微软的SQL Azure 等,大数据的核心技术仍在快速发展。

——全球大数据研究的进展、分布和前沿

二十年来,全球大数据研究经历了一个从起步到活跃的过程。基于大数据相关的4573 篇文献和8571 项专利,对其研究进展、分布和前沿进行分析,可以得出如下结论:1、美国是大数据研究的中心地带,技术创新活跃,国际间合作频繁。2、我国对大数据研究的资助力度较大,学术论文较多,但与国外创新合作较少。3、系统、性能和算法是大数据研究的重点方向和核心基础。4、大数据产业创新不仅聚焦软件技术研发,还在硬件技术上重点布局。
一、大数据研究文献的国别和机构分布
1、美国是大数据研究的中心地带,我国紧随其后。美国是研究者最多的国家,约占总数的34%,中国紧随其后,占23%,美中两国合计占到总数的一半以上。其余的前10 位国家包括:德国、英国、日本、印度、加拿大、法国、澳大利亚和韩国。
2、大数据研究文献发展的“三阶段”特征显著。第一阶段是1994-2001 年,年均文献不超过50 篇,研究文献主要为“美国籍”。第二阶段为2002-2010 年,年均文献超过100 篇,且以年均20%的幅度稳步增长,突出特点是我国文献开始出现,并在2008-2009 年超过了美国。第三阶段为2011-2013 年,研究文献出现爆发式增长,3 年文献共达到2053 篇,占20 年累计总数的44.9%;主要原因是美国文献的再次崛起,3 年内贡献了735 篇,而我国为489 篇。
3、我国政府对大数据研究的资助力度较大。文献数前25 位的研究机构中,美国16 所大学上榜,共发表论文559 篇,占美国文献总数的36.4%。中国则有6 所大学机构上榜,其中中科院发表论文数居世界第一,达到109 篇,之后依次是清华大学、上海交通大学、哈尔滨工业大学、浙江大学和华中科技大学。6 所大学机构共计发表论文244 篇,约占我国大数据文献总数的四分之一。
从资助机构上看,资助5 篇以上的机构一共有36 家,大多为国家基金组织和政府部门。其中,中国国家自然科学基金、美国国家科学基金和国立卫生研究院是三家资助发表文献最多的机构,分别达到122 篇、109 篇和57 篇。而企业更多聚焦专利领域进行布局,仅有谷歌和微软两家公司资助的研究文献超过5 篇。
4、我国大数据研究的质量有待进一步提升。一方面,从合作关系上看,我国的大数据研究与世界联系不多,仅与台湾地区、德国有少量合作,而美国与韩国、澳大利亚、法国、瑞典、瑞士、土耳其等国家保持着密切的合作关系,德国、加拿大、英国之间也有不少合作。另一方面,从文献被引频次来看,研究文献的质量低于美国,美国1537 篇论文平均引用次数达到14.20 次,高引用指数为66,而我国文献的高引用指数仅有20。
二、大数据研究的学科领域分布
1、大数据研究开始渗透进入应用领域。文献涉及的学科领域超过100 个。在排名前15 位的学科领域中(图5),除了数学、物理学等基础学科外,更是出现了微生物学、环境生态学、运筹学与管理科学等应用学科,说明大数据技术已经渗透进入各个基础和应用学科领域。
2、系统、性能和算法是大数据研究的重点方向。从大数据涉及的主要学科领域分布中可以看到,大量文献集中在数据处理的系统、性能和算法上,如数据挖掘、机器学习、主成分分析与分类等方向位于核心层,其次为神经网络、降维运算、数据存储、关联规则、数据集等。
3、核心基础技术文献被大量引用。以谷歌公司的Mapreduce 为例,作为大数据的基础技术,该文献后续被近700 篇论文所引用,切实推动了分布式计算、Hadoop 等热点研究的开展。
三、大数据产业技术创新的重点方向
与学术文献研究不同的是,从企业专利布局角度出发,更有利于分析大数据产业技术创新的重点方向。为此,基于Orbit 专利数据库和VOSviewer 软件,对14 家国际性的IT 企业、互联网企业以及新兴大数据企业自2006 年以来的8571 项专利进行分析:
1、大数据软件技术已趋于体系化。在数据的基本框架、采集传输、存储、处理分析等各个环节上,都有不同于以往抽样、封闭、小规模条件的新技术予以支撑,大数据软件技术体系逐步趋于完整。在此基础上,传统的IT 企业、互联网企业纷纷开发了基于大数据的行业解决方案和商业应用平台,一批新兴大数据企业加快发展并进行商业模式创新,产业创新生态系统所需的各项条件日趋完备。
2、企业在大数据硬件技术上的布局不亚于软件。与学术研究侧重于软件技术不同,企业十分重视相关硬件设备的技术布局。一方面,按照国际专利进行分类,数据处理、存储和相关设备依然是专利较为集中的领域,如大数据专利数量较多的G06F-017、G06F-015、G06F-007、G06F-003、G06F-009、G06F-021 等分类号,均侧重于计算机数据的处理、存储、控制、接口、安全等硬件电路、设备和零部件。另一方面,8571 项专利集聚形成几个较大的专利群,包括采集显示和传输、处理分析、记录存储、数据管理、共享与协作等,其中规模最大的专利群,依然是与采集、显示和传输相关的外围信息硬件设备。
值得一提的是,14 家国际性企业大数据技术专利的一部分贡献来自于其在华分公司。8571 项专利中,公开国为中国的有1757 项,优先权国在中国的有170 项,说明了我国研究人员在大数据领域研究水平的不断提升。

——产业链格局、竞争策略与商业模式

当前,全球大数据产业正处于蓬勃发展的孕育期和机遇期。核心关键技术也在加快发展和更新换代,各类解决方案提供商加大力度宣传造势,尤其是围绕电信、航空、交通、生物、城市管理等重点领域描绘美好蓝图,力求推动行业应用和商业模式创新,抢占产业增长点;与此同时,小微企业和创业者对大数据热情高涨,期望借此机会实现高速成长的梦想。简言之,由于整个产业开始转向应用创新阶段,高成长的预期让各方都对未来抱以乐观的态度。
一、大数据产业从“技术驱动”转向“应用驱动”
大数据产业的“技术驱动”色彩十分明显,与“应用驱动”阶段尚有一定差距,但这一转变过程正在加速进行。
1、“两纵三横”的产业体系趋于成熟。作为一个独立的产业来看,大数据的产业体系框架表现为“两纵三横”:“两纵”基于技术的基础程度,分为底层技术和应用层技术,前者是共性、基础性技术,如Hadoop 框架、Hbase 数据库、Mahout 算法集等;后者是“二次开发”行为,包括各类个性化方案、产品与服务。而“三横”基于处理的流程顺序,分为基础设施、分析系统和应用工具,也可进一步细化为数据的采集、存储、处理、分析、服务五方面。这一框架体系已经趋于成熟,能够应对绝大多数的产业应用需求。
彭博创投(Bloomberg Ventures)在2012 年对大数据产业进行了调研,也曾将大数据领域的企业和产品分为三类:基础设施、分析和大数据开源技术大数据基础设施大数据分析系统 大数据应用工具分析基础设施操作基础设施基础设施即服务(IaaS)数据库分析解决方案可视化数据即服务(DaaS)商业智能(BI)垂直(产业)应用日志应用广告/媒体应用采集、存储、处理、分析、服务应用,这种划分方法对应了大数据的产业体系框架,基本覆盖了数据处理技术的全链条、各环节。
2、产业发展的方向大都与大数据关联。广义的大数据应用本质上是一种“增值分析”,前景有着近似无限的可能,不受任何行业、资源、地域、用户的约束。从此角度上讲,产业的未来发展方向几乎都能和大数据挂钩。以“十二五”国家战略性新兴产业发展规划为例,很多技术前沿的描述和布局,均与大数据相一致或关联,或是可以通过大数据实现。如新一代信息技术产业布局了物联网、移动终端设备、云计算、海量数据处理软件;节能环保产业布局了高效储能、节能监测和能源计量;生物医药产业布局了生物资源样本库、基因测序、以及基于物联网的远程健康管理服务等。
3、技术的开源特点加速了应用转化过程。大数据技术兴起于互联网时代,而互联网企业大都持有共享开放的价值观,不偏好也不需要依靠垄断有限资源生存,这导致大数据技术早在萌芽阶段就是开源技术,无偿供给全世界的开发者使用;后续包括Hadoop 等底层技术均为开源性质,也没有任何专利门槛。这种免费、去专利化的特点催生了开源项目、开源社区、开放性创新联盟组织的兴起,有效降低了产业技术的壁垒,推动更多的企业和创业者介入,进一步加快了技术应用转化的过程,有助于产业的迅速成长。
二、产业竞争策略逐步成型
大数据产业是典型的知识密集型服务业,除了基础设施环节会带来一定能耗之外,其余环节均为零能耗、高附加值。其在初始资本、法规监管等方面的准入门槛极低,但对人才资源的要求较高。为此,产业竞争呈现出数量大、水平高的特点,企业竞争策略逐步分化。
1、竞争者虽多,却未形成过度竞争。大数据从业者正在急剧增加,几乎所有的信息技术企业都在此领域布局,同时创业者持续不断地进入此领域。然而,由此带来的并非是过度竞争,而是良性竞争,最终将推动技术的创新和价值的实现。这主要归功于两个原因:一是高创新的属性。大数据技术是ICT 领域中的高附加值环节,以谷歌、亚马逊等为代表的大数据企业,无论是在技术先进性、创新活跃度还是在市场份额上,都在全球处于领先位置。二是高增长的预期。作为企业个体,在产业急速成长的预期之下,基本都选择了追求专业性的策略,依靠产品性能和服务取胜,而摈弃了追求低成本的策略。
2、三类竞争者各具优势。按照技术的变革性与应用水平,主要分化为三类竞争者:一是“互联网颠覆者”,谷歌、亚马逊、Apache基金会开发了全新的基础技术与数据库构架,依靠免费、开源的所谓互联网模式,彻底改变了原有的技术标准与游戏规则,颠覆了ICT 产业。二是“初生牛犊”,在新的规则面前,大公司与创业者处在同一条起跑线上,一些拥有核心人才与市场嗅觉的创业企业,如SPLUNK、Cloudera、Evernote 等企业,在特定工具、专业平台方面迅速抢占先机,填补市场空白,获得快速发展,在产业链中拥有了一席之地。三是“系统集成商”,微软、IBM、HP、Oracle、EMC2、SAP,这些传统IT 巨头拥有强大的资金、研发能力和市场资源。面临大数据的冲击,他们能够敏锐意识到自我革命的紧迫性,并且马上采取应对举措。他们的策略更多是防御性和商业化的,即依靠已有客户资源、成熟的产品线、丰富的行业经验加上商业并购予以应对。
在技术布局方面,大数据的竞争策略分为两类:一是做细分市场专业产品,主要是“互联网颠覆者”和“初生牛犊”,专注于技术领域的耕耘,大量的不同创新产品与应用层出不穷,形成了大数据的技术创新生态。二是整合资源,主要是“系统集成商”,依靠并购“初生牛犊”企业,整合各类资源,将大量专业技术产品组装为面向行业的应用解决方案。如IBM 在7 年内(2006-2013 年)并购了30 多家公司,均指向数据库、存储、商务智能、非结构化分析工具等,IBM还计划2015 年前再支出145 亿美元用于大数据并购。
3、政府是大数据产业的重要一环。与金融、化工、医药等行业相比,大数据并不是一个需要政府强力监管的行业。目前,各国也只有在网络安全与隐私保护方面出台了相关监管法案。与此相反,政府将在促进产业发展上扮演更加重要的角色,主要体现在公共数据的开放上。2009 年,美国总统奥巴马签署了首份总统备忘录《透明和开放的政治》,成立了统一的政府数据开放门户网站:Data.Gov,全面开放政府拥有的公共数据,提供多种应用程序接口,供开发者创建特色应用。这一开放式平台极大地刺激了数据驱动型创新,截至2014年初,该网站开放的数据集已经超过了85000 项,汇集了1200 余个应用程序和软件工具、手机插件,其中超过300 个是由个人或民间组织开发,新的商业模式和企业随之产生,如FlightCaster 公司基于美国交通统计局、联邦航空局交通管制中心警报、美国气象局和航班运行状况信息网站FlightStats 的数据,提供航班晚点预报,比航空公司的正式通知早6 个小时,且准确率达到85%-90%。
三、大数据的商业模式创新
数据驱动型的商业模式有如雨后春笋,在全球加快涌现。为对应产业体系框架,进一步明确价值流向,本文按照数据的获取、管理、分析、应用环节的区分方式,将大数据的商业模式分为数据托管和交易平台、关系挖掘和沉淀价值利用、数据社交和跨界连接三种类型。
1、数据托管和交易平台模式
该模式应用已有数十年之久,是发展最为成熟、最为普遍的大数据商业模式,本质是发挥规模效应,降低单个企业在数据信息存储和寻找上的投入成本。主要业务形态有空间出租托管、数据商店、数据市场等,典型的代表企业为亚马逊、EMC2、DropBox。近年来,该模式引入“云”的概念,从简单的数据存储,逐步扩展到数据聚合平台,最终形成云服务;而以独特数据资源进行的整合朝着纵向产业链上下游整合和横向多种产业整合两个方向发展,促使了一站式数据商店和数据交易平台的出现。如亚马逊、微软等企业均建立了可以交易应用程序和高级数据集的数据商店,目前已有数万亿个数据点、数千个订阅、数百个应用程序。
2、关系挖掘和沉淀价值利用模式
关系挖掘是媒体热炒的主流大数据商业模式,也是数据科学的主要应用模式。核心是通过数据发现隐藏的相关性,最终用于指导商业、精准化服务与辅助决策。该模式的实现需要一些先决条件,主要是面向数据的处理分析环节:一是目标领域的完全量化,如互联网广告领域,从广告点击到用户购买行为,均有完整详实的数据记录;二是数据处理能力的大幅提升,要能够处理非关系型数据,并在海量条件下保持实时快速的性能。该模式的难点在于需要颠覆常规的用户思维和需求逻辑,典型类型是沉淀价值的利用,即将一些通常无意义的数据甚至是垃圾数据进行利用,最终得出有价值的结论。比如,谷歌公司利用了数十亿用户搜索时的错误拼写记录,用以提升其拼写检查器的智能性。就目前而言,基于关系挖掘的大数据模式尚未成熟,但这种模式获得了社会各界的较高期望,认为其将有助于驱动产业转型和发展新兴产业,如推动生物医药等研发密集型产业、企业咨询等知识密集型产业向数据密集型产业转型,推动零售、交通等传统服务业向现代服务业转型,推动传统制造业向智能制造业转型等。
3、数据社交和跨界连接模式
与前两种模式不同,该模式直接面向每一个社会个体,本质上是充分挖掘物理世界的个体资源,将其变成虚拟世界的一个节点,与其他的节点进行连接、交互和交易,从而大大降低各类商业化业务的推广成本,并形成新兴业态。该模式正在走向成熟,最典型的代表就是O2O(线上-线下连接)。比如,微信不光是聊天工具,更成为了连接线上线下、开展移动支付的重要入口;打车软件有效降低了供需双方的信息不对称,提升了出租车市场的智能化程度;可穿戴设备将人体的讯息进一步量化,并提供决策建议;苹果Passbook 软件为用户提供一个智能的电子卡包,整合信用卡、护照、登机牌、优惠券等各类卡牌的信息功能。该模式的推行也有几个必要条件,主要是针对数据的采集传输环节:移动化,需要带有位置服务、能够发射无线信号的智能终端;稳定连接,需要高速、泛在的外部网络环境;在线支付,依靠用户最终的支付行为实现盈利;持续感知能力,需要先进的传感器技术、低功耗芯片技术以及电池技术作为保障。