理解大数据时代的数字鸿沟
来源:新闻研究导刊 更新时间:2014-09-08
 
大数据时代,来自硬件的数字鸿沟在缩小,而来自软件的数字鸿沟在扩大。 拥有数据、分析数据和大数据思维等,成为分析数字鸿沟的三个维度。 消弭大数据时代的数字鸿沟,需要把握三点,其一是把大数据当做一种公共开放的资源,其二是媒体要担当数据与真相的“摆渡人”职责,其三是要提升整个社会的大数据素养,实现“数字化生存”向“数据化生存”转变的目标。
一、研究的缘起
    1995 年,美国商业部电信与信息局(NTIA)发布了一份名为《被互联网遗忘的角落———一项有关美国城乡信息穷人的调查报告》,报告中提到的“数字鸿沟”问题开始引起人们的普遍关注。显然,数字鸿沟是伴随着互联网时代的“比特”范式而出现的,指人们在数字化生存过程中利用媒介的机会与能力上存在的差异。一般认为,数字鸿沟包含“硬件”与“软件”两个方面的差异:“硬件”差异是在设备接入上的差异,“软件”差异是新技术应用能力上的差异;“硬件”所改变的是媒介的技术环境,而“软件”则是新的媒介环境下的生存法则与文化偏向。
    中国互联网信息中心(CNNIC)官方网站分析师专栏有两份关于数字鸿沟的解读,其一是王恩海的《中国网民地区分布的数字鸿沟正在减小》,其二是吴丹的《互联网数字鸿沟问题加剧》,这两份分析报告看似矛盾,实则指向我国数字鸿沟所面临的同一个问题:由“硬件”所带来的数字鸿沟正在随着社会的发展和网络的普及不断减小,而在网络信息的应用与处理方面(“软件”方面)数字鸿沟仍有扩大的趋势。
    当下,媒介环境依然在发生着深刻的变化,在互联网上,数据被大量生产、分享、搜集和应用,而这一切都潜移默化地变革着人们的生活、工作与思维,国外学者舍恩伯格把这个时代称为“大数据时代”(Time of Big Data)。大数据时代使得数字鸿沟“软件”方面上的差异再一次进入人们的视野。因此,笔者拟思考的一个问题是:除去“硬件”因素,在同样的媒介环境下,同在大数据时代,数字鸿沟是如何形成的?又如何弥合数字鸿沟?
二、两个关键概念
    大数据是近几年来炙手可热的话题,大数据的优势以及大数据所带来的新思潮形成研究热潮。从随机抽样到全体样本,从要求精确到应对混杂,从追求因果到发现关联,大数据时代改变着我们的信息环境与信息处理思维模式。但是,并非所有的人都能同时走入大数据时代,如同媒介技术的每一次创新与扩散一样,敏感的企业和组织是大数据的先行者和实践者,也是最早的大数据受益者;而普通的个体则在面对大数据时呈现差异,有的在时间上跟进迟缓,有的在数据分析能力上存在欠缺,有的不知道如何寻找开放数据,有的在数据噪音前不知所措。传统互联网时代的数字鸿沟尚未完全填平,而在大数据时代新的数字鸿沟又在形成并不断影响与改变着人们的政治经济地位。
    讨论大数据时代的数字鸿沟,需要明确区分“数字差异”与“数字鸿沟”。从词源上看,两者意义接近,都是由“Digital Divide”翻译而来。但从传播效果或情感色彩上看,数字鸿沟比数字差异更能引起人们的警示。在大数据时代,人们创造数据并被数据所包围,囿于人的视野及精力,人们在面向数据并做出选择时必然会出现差异。比如,互联网提供的个性化的搜索引擎,个性化藏夹等都会导致信息浏览的个人化,大数据时代的数字差异不可避免。数字鸿沟比数字差异更能引起人们的警惕,数字鸿沟更强调在认识和机会上的差异。数字差异是知道有机会而不为,数字鸿沟则是想为而没有能力或机会。同在大数据背景之下,数字鸿沟可能会在拥有数据、分析数据和数据思维三个层面存在数字鸿沟。
三、三个不同的分析维度
    (一)拥有数据的数字鸿沟
    大数据时代,“全新”“、革命”“、颠覆性”等术语频繁出现,但“大数据”这一标签下所指涉的问题却由来已久。伴随着互联网的勃兴,数据的指数增长、信息超载和数据处理问题等一直是人们不得不面对的问题。在大数据时代,数据的掘取、存储、处理与应用方面的技术有了快速的发展,但是在谁拥有数据这个造成数字鸿沟最基本的问题上,当下关于大数据的讨论并未给出让人满意的答案。
    1.数据开放
    对于企业和政府来讲,大数据是一笔宝贵的财富,“对大数据的掌握可以转化为经济价值的来源”也可以从更为准确的角度了解社会,并进行管理。因此,企业和政府需要从普通公众那里搜集数据,数据的传播是一种自下而上的过程,最先拥有和掌控大数据的也是来自企业和政府的“数字先锋”。但是,消弭数字鸿沟恰恰需要另一种形式的数据流动,即开放数据———让数据从企业和政府所有而变成被公众所共享,这是一个自上而下的过程。在现实生活中,这种自上而下的信息流动处处面临着阻力:一方面企业把数据当做核心竞争力或者核心机密,并且花费了大量的人力、物力、财力去做数据分析,因此很难实现数据的共享;另一方面政府的数据公开步伐还比较缓慢,公众获得有价值的信息依然有难度。
    数据开放所形成的数字差异需要开放数据来解决。哪些数据能够开放,以何种形式向公众开放,具体的实施者是谁,谁又能为数据开放过程中的“搭便车”行为买单都是需要思考的问题。大数据既可以产生商业价值,同时又兼具公共性的特质,在此过程中,和公众利益密切相关的数据需要开放,我国早在 2007 年 1 月 17 日就通过了《中华人民共和国信息公开条例》,明确规定原则、范围、方式、程序和监督保障制度。在大数据时代,政府开放数据的力度应该进一步加大,同时对公众进行获取数据的素养教育,实现数据的民有和民享。作为一种公共资源,数据分配的公平性和财富分配的公平性一样,都会对社会结构产生非常大的影响,政府和企业可以依靠数据存储与分析技术的发展做“数据银行”业务,让每个公民都有机会在“数据银行”存储和提取自己想要的数据。国内学者涂子沛在《大数据》一书中,把开放数据放在数据民主的角度去思考,指出开放数据运动会推动“开放政治、开放政府、开放媒体、开放城市等等一系列的运动和口号”。这对消除数据所有权所形成的数字鸿沟,建设一个数据公平的美丽新世界提供了一条可行之路。
    2.数据搜集
    大数据时代的基础在于海量数据,究竟多大才是大数据呢?“麦肯锡全球研究所”的最新报告对大数据下了一个定义:“大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群”而且,大数据的标准随着数据的指数增长也在不断发生变化。今天,我们在谈论大数据时往往以 pb 为单位,海量数据提供了更为详细的信息,但是也存在一些隐忧,即数据的价值密度太小,因而搜集数据以及在海量数据中寻找有价值信息的成本太高。舍恩伯格在接受《中国经济周刊》记者谢玮专访时说:“在许多方面,我们仍然生活在一个‘小数据’时代,在这个时代收集数据非常耗时、昂贵和困难。”大数据时代的数据搜集是一项庞大的工程,而且,大数据还远远未达到普通人能够支付得起的阶段。
    搜集数据的数字鸿沟在大数据时代似乎没有减少,反而随着大数据处理技术的发展而在逐步扩大。对于媒体和企业来讲,搜集数据和处理数据都并非易事,著名的《哈佛商业评论》杂志对全球财富1000强的企业应用大数据的情况做了一项科学调研,发现“大多数企业还处于大数据的入门阶段,还小具备真正挖掘大数据的能力”,而且,“只有巧%的受访者认为所在企业的数据可访问性够好或者达到世界级水平,只有21%的受访者认为所在企业的分析能力够好或者达到世界水平”。显然,对于普通公众来说,搜集数据、挖掘数据的难度更大,差异也更大。在搜索引擎主宰信息流向的时代,公众就因为使用不同的搜索引擎而产生数字鸿沟,使用普通的搜索引擎与使用较为专业的搜索引擎和数据库之间存在着差异。在大数据时代,公众不仅要知道如何利用专业的搜索引擎,还需要在海量的信息中迅速寻找最有价值的信息,囿于公众能力的差异,在搜集阶段产生的数字鸿沟将难以避免。而且,互联网下的数据处于不断更新的状态,时效性是非常重要和关键的。在对“知识鸿沟”的研究中,西方学者 J.S.艾蒂玛和 F.G.克莱因曾经提到“上限效果”,指的是随着时间的推移,知识鸿沟会逐渐减少。但是在互联网时代,信息的价值和及时性有密切的关系,即使随着时间的推移公众在搜集数据上的“鸿沟”逐渐缩小,但是后来者所拥有的数据价值也会大打折扣。媒介环境学派的代表性人物莱文森对信息超载的论述可能会对缓解大数据时代数据搜集所产生的差异提供帮助,他认为建立信息分类法则可以解决信息超载的困扰,比如在图书上建立图书分类法则并依据这一法则运作,就能够解决图书馆的信息超载问题,这一思想对解决长期困扰人类的信息超载具有普遍的启示意义。
   (二)分析数据的数字鸿沟
    谁拥有数据会产生差异,而在同等拥有数据的情况下,公众利用数据的能力不同,也会产生差异。大数据既包含以数量关系为基础的结构化数据,也包含以定性描述为主的非结构化数据,而且,非结构化数据往往占有很大的比例。因此,在大数据时代,同样拥有数据并不代表着同样能够利用数据,分析数据和掘取价值上的数字鸿沟依然需要引起我们的警惕。
    1.数据删除
    大数据时代是一个信息高度碎片化的时代,信息中的重复、噪音、冗余和信息中的人为因素(网络水军)等,都影响到人们对数据的分析与利用,此时,删除数据与收集数据同样重要。除《大数据时代:生活工作与思维的大变革》之外,舍恩伯格还有一部影响深刻的著作—《删除:大数据取舍之道》。在这部著作中,舍恩伯格提醒人们在大数据时代“记忆成为常态,而遗忘成为例外”,因此要注意信息取舍之道;在这个“没有遗忘的世界里”,遗忘恰恰成为一种宝贵的信息处理方式与权利数据删除是一个人性化的问题,随着“电脑原生代”的成
长,每个人都有着青涩的、尴尬的、甚至小堪回首的过去,互联网之前人们会尝试遗忘这些小愉快的过去,但是互联网的记忆让每个人小得小而对这样一个现实:人们可能会为若十年前犯过的错误买单。
    删除同样是一个技术性的问题,在互联网时代,历史悠久的数据会逐渐成为“数据垃圾”,不但占用大量的存储资源,而且也会影响对当下数据的分析,评估数据与删除数据成为大数据时代必不可少的数据处理方式。但是具体到个人就会产生一个问题,人不可能像机器一样去评估和处理,只能按照过往的经验来处理信息。另一位国外学者蒂奇诺在分析“知识鸿沟”所形成的原因时提到,个人的信息储备也会产生“知识鸿沟”,即“正规教育和从大众媒体中获得的信息会帮助受教育程度较高的人提供理解知识的背景”。大数据时代并未改变人们接受信息的习惯,因此,在大数据时代依然是受教育程度较高的人先学会接受和删除信息。删除还有一个颇具哲学意味的意义,在大数据时代,选择即删除。人对数据的接受具有零和效果”,朝向一组数据的同时意味着放弃另外的数据,这也是另外一种意义上的删除,处理掉低质量的过时数据是发现大数据意义的前提。知名学者马修·E·梅所著的《精简:大数据时代的商业致胜法则》,同样也提到大数据时代的信息删除与精简问题。在大数据时代,能够快速在第一时间获得最有价值数据的企业会逐渐发展起来,而不懂大数据或沉迷于大数据的企业会逐渐落伍。
    2.数据可用
    大数据时代提供了一个多元、详细且复杂的数据环境,在大数据时代,一切现实都可以量化为数据。但是如果用大数据来创造价值就需要从海量数据中找出有价值的数据,并把数据还原为现实。因为“,拥有一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。”大数据的最终价值还是体现在数据的“可用”之上。与此同时,关于数字鸿沟的问题也出现在数据的“可用”上,大数据如同提供了一个美味的坚果,不借助工具很难打开它,而大数据所使用的“云存储、云计算”又不是任何公众都能轻易掌握的。少部分人掌握了分析数据与应用数据的能力,还有相当多的大众面对浩如烟海的大数据不知所措,最终陷入信息超载的焦虑之中。
    弥补数据可用的“数字鸿沟”需要让数据变得直观而可视,这仍然是一个涉及公共性的话题。把数据还原为现实既需要数据分析的人工智能技术,也需要人的敏锐的分析与判断能力,更为关键的是,需要把对数据所提示的环境真实地传达给公众。政府和媒体要做的依然很多,首先需要数据处理技术的普及,把解读关于公共事务的大数据当做一个公共事业,如在 20世纪 60 年代,被称为“人工智能之父”的约翰·麦卡锡曾预言“有朝一日,计算可能变成公共设施”。其次,媒体要做好数据与现实之间“摆渡人”的角色,不仅要用大数据来分析受众获得收益,更要体现媒体的公共性,让受众能够读懂大数据并受用于大数据。比如,美国记者在报道龙卷风时“将龙卷风破坏房屋的损毁数据,与地图相重叠,制成大数据地图。”这样,受众既能够比较精确地了解龙卷风带来灾害的大体区域,又能够精确理解某个区域龙卷风造成损失的具体情况。
    (三)数据思维的数字鸿沟
    大数据热所带来的重要变化是关于数据思维的变化,关于大数据的讨论有很多,但并非有了“大数据”这样一个概念我们的信息环境就自然而然发生了质的变化,而是在互联网逐渐走向海量数据的今天,从“数字化生存”转向“数据化生存”的大数据思维让人们多了一个认识世界的视角。在大数据技术之外的数字鸿沟来自于人们的思维层面,即人们对待数据的思维存在差异。
    1.超越大数据
    大数据时代的思维之一是要超越“数据迷思”,把数据当成一种工具而不是一种数据霸权。舍恩伯格在《大数据时代》一书中指出大数据带来的三种变化:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。这些变化对于传统的定量研究方法有极大的影响,可是定量方法的改进并不能取代定性的研究,必须超越数据才能发现数据背后的意义与价值。于是,大数据思维包含了三个层次。第一个层次是发现海量数据,了解海量数据的潜在价值,但并不能很好的利用数据;第二个层次是能够较好的利用数据,但是往往陷入数据崇拜,解决不了关于意义的问题;第三个层次是能够利用数据,但是也能够同时超越数据,发现价值。这三个层次在大数据的发展过程中既是一个历时的过程,也是一个共识的过程。大数据概念的兴起与扩散还需时日,因此在数据思维上三个层次的“数字鸿沟”仍将长期存在。
    2.大数据素养
    数字鸿沟的减小也需要在硬件与软件两个方向上作出努力,在大数据时代仍然如此。从最近几年的中国互联网络统计报告来看,硬件的数字鸿沟在逐渐缩小,而软件的数字鸿沟仍在扩大。消弭数字鸿沟需要政府、企业等开放公共数据并提供利用公共数据的方法,还需要提升全体公民的大数据素养,实现大数据的民有与民享。数据素养也被称为数据信息素养,主要指人们在科学数据的采集、组织和管理、处理和分析、共享与协同创新利用等方面的能力,以及在数据的生产、管理和发布过程中的道德与行为规范。全面提高全民的数据素养,我们才能自信地迎接大数据时代的到来,并利用大数据为人类创造新的福祉。