2002年,有一部上映的科幻片——《少数派报告》,讲述的是在2054年的美国,谋杀已经消失,犯罪可以被预知。有三个具有感知未来超能力的人——先知,可以在事前得到犯罪的信息,经过司法部的预防犯罪小组破译犯罪证据之后,罪犯在实施犯罪之前就会得到惩罚。而这一切似乎将要变为现实,只不过电影中用的是超能力,而今运用大数据。
2009年,在甲型H1N1流感爆发的前几周,谷歌通过观察人们在网上的搜索记录就提前预测了流感的传播。谷歌保存了多年来所有的搜索记录,每天收到来自全球超过30亿条的搜索指令,通过分析这些庞大的数据资源,而得出了这个结论。
世界著名咨询机构麦肯锡公司于 2011年5月发布了《大数据:下一个创新、竞争和生产力的前沿》报告,掀开了大数据研究的序幕。作为从经济和商业维度诠释大数据发展潜力的第一份专题研究成果,该报告系统阐述了大数据概念,详细列举了大数据的核心技术,深入分析了大数据在不同行业的应用,明确提出了政府和企业决策者应对大数据发展的策略。
一、大数据简介
麦肯锡认为,“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。目前,大数据的一般范围是从几个TB到数个PB。
大数据(big data),究竟这个数据有多大。很多人试图测量出一个确切的数字。南加利福尼亚大学的马丁?希尔伯特(Martin Hilbert)试图得出人类所创造的、存储和传播的一切信息的确切数目。据他估算,2007年,人类大约存储了超过300艾字节的数据[1]。他预测,到2013年,世界上存储的数据能达到约1.2泽字节。这意味着:如果把这些数据全部记在书中,可以覆盖整个美国52次,如果将其存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以延伸到月球[2]。
IBM将大数据的特点总结为4个V:
(一) Volume
数据体积巨大,在我们需要处理数据的时候,不再需要随机样本,而是全体数据。即样本=全体。小数据时代随机抽样,我们用最少的数据获得最多的信息。因为技术的限制,取得过多的样本会消耗大量的成本和精力。现在,技术环境已经有了很大的改善,依然进行抽样分析就类似于在汽车时代依然骑马一样。大数据注定对社会科学有最大的撼动,因为我们再也不用依赖抽样调查了。
(二)Variety
数据的类型及来源繁多并且包含越来越多的非结构化数据(如图像、声音等信息);大数据的来源主要有这样几个方面[3]:
一是媒体数据,特别是互联网、社交媒体产生的数据,包括人们浏览网页的数字化记录等;
二是各类企业的生产、销售、管理等等数据;
三是政府部门的数据;
四是物联网、各种传感器产生的数据,以及未联网的各种摄像头拍摄的数据;
五是民众个人留存的数据,包括个人、家庭文字及音像数据。
数据类型和数量的繁多,各种数据鱼龙混杂,直接带来的结果就是错误数据的增多,精确度的下降。在小数据时代,在抽样调查的时候我们要对我们的调查的信度和效度负责,所以数据越精确越好。但是现在不是这样了,在大数据时代,我们掌握的数据越来越全面,它不仅包括现象的一点点数据,而是包括了与这些现象相关的大量甚至全部的数据。我们要做的就是接受这些纷繁的数据并从中获益,而不是以高昂的代价消除所有的不确定性。
(三)Velocity
数据增长速度快,其对于实时处理速度的要求也很高。
(四)Value
数据价值高但密度低,海量数据背后拥有价值的数据比例低。
二、大数据对传媒的影响
(一)对传统媒体的影响
传统的纸媒在互联网的冲击下依然摇摇欲坠,报纸、杂志的受众纷纷转投更先进、更具现代气息的互联网,或者手机、iPad等移动终端。更不用提现在这些新媒体有了大数据作为支撑。
亚马逊网站最初的时候,聘请了20多个书评家和编辑组成的团队,他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊声音”这个版块,成为当时公司这顶皇冠上的一颗宝石,是其竞争优势的重要来源。后来林登创立了基于大数据分析的系统,应用在网站上之后,亚马逊可以根据客户个人以前的购物喜好,为其推荐具体的书籍,而且除了书籍,更可以推荐电子用品,烤面包机这些产品。这个系统创造了亚马逊销售额的三分之一。最终,书评组被解散了。很多大型书店和音乐唱片商店也歇业了。
现在的网络已经可以在新闻下方列出一长串的相关新闻的链接了,视频新闻也会在播放完毕之后自动弹出相似视频供挑选。而纸媒还完全做不到这一点,如果继续发展下去,任由新媒体在用户个性化方面做的更好,纸媒势必也面临着亚马逊书评组的命运。
(二)对传播效果的影响
大数据时代,新闻传播将更有针对性,更精准,传播将更有效果。大众传播是粗放型、广种薄收的传播,把所有的新闻信息向所有人传播,缺乏针对性、精确度。受众必须从众多新闻信息中寻找自己需要的、感兴趣的内容。
新闻媒体自产生以来,都是以大众传播为主,综合性报纸、综合性的广播电台电视台都是传播界的王者。能做大做强的,都是面向大众的综合性媒体。大数据时代,情况将发生变化,人们上网浏览都会留下“足迹”——各种数字化记录,即浏览数据。对一位受众——固定 IP 地址或同一终端浏览器上的所有浏览数据或相当长时间的浏览数据进行分析,便可获知其上网习惯、喜好等等,根据这些数据,在最合适的时间以最恰当的方式向他推送最感兴趣的新闻,这就是精准传播、“长尾营销”,这样的新闻不仅不会被当做垃圾,还很可能被定制。随着大数据时代的发展,精准传播会越来越普及,越来越受欢迎。
(三)对新闻价值的影响
智能手机普及、社交媒体发达,使得人人都是记者,手机便是媒体,新闻报道、信息发布已经不再是媒体人的专利了。“我在现场”曾经是传媒业及其从业人员倍感骄傲的事情,时效性也成为业内比拼最为激烈的指标。大数据时代,联网的网民和各种电子记录设备(如摄像头)散布在社会各个角落,不断观察和上传实时情况,在经过网民们的“分布式”集体选择后,形成热点新闻。甬温动车事故,雅安地震,第一时间传出来的消息都来自于事件现场的人的微博。都说明最有时效的新闻来自“在现场”的人,而不是“到现场”的人。“独家新闻”已经成为了明日黄花,再也没有媒体用时效性来标榜自己。
更加具有颠覆性的是,应用了大数据分析的网站如果能够判断哪些新闻更加符合大众的口味,新闻价值将失去其意义,新闻编辑的新闻敏感性也将无用武之地。读者喜欢什么样的新闻,编辑所要做的就是按照大数据分析的结果去呈现那样的新闻,只要“知其然”,无需“知其所以然”。只需要关注新闻类型和读者的相关关系,无需花费多余的精力深究因果关系。除非是要进行学术研究。
(四)媒体数据库
大数据时代,媒体要有强烈的数据意识,要善于收集数据、分析数据、使用数据,挖掘数据的潜在用途。媒体业本身是信息产业,并且是信息业的前沿,在大数据时代拥有先天优势。邮政行业有最全的地址数据,淘宝网积累了10年来网购用户交易和浏览记录,新浪微博和人人网拥有了所有注册用户的人际关系网络信息。媒体拥有天然的信息优势,每天都有难以计数的文字、图片、视频被创作出来,只不过这些信息没有被数据化。很多传统媒体纷纷触网,信息已经很大程度上完成了数字化——即转换成了可被电脑识别的二进制信号,但是大数据时代,这些信息需要数据化——即变成可量化制表分析的过程,这样,方能发挥大数据的核心威力:预测。
除了传统的文字、图片、视频等数据,媒体仍需拓宽自己的数据范围。媒体不仅要有自己的采编队伍,有自己的原创新闻、原创评论,还应该围绕自身优势建立一个数字化的平台——一个互动的、社交化的、拥有广泛人气、能够容纳广大网民上贴、交流、讨论的平台[4]。它可以汇聚各方信息,形成庞大的、拥有巨量信息与数据的平台。
大量的数据也需要被妥善的利用,需要挖掘数据背后潜在的价值。消费者信贷领域的一些公司考虑开发以Facebook社交图谱为依据的信用评分,因为他们发现:个人会偿还债务的可能性和其朋友会偿还债务的可能性成正相关。“社交网络分析之父”贝尔纳多?哈柏曼的分析显示,微博中单一主题出现的频率可以用来预测好莱坞的票房收入,从而预测一部电影的成败。可以说,数据的真实价值就像漂浮在海洋的冰山,第一眼只能看到冰山的一角,而绝大部分则隐藏在表面之下。
(五)对媒体功能的影响
媒体在做好社会记录者与信息传播者外,更应定位成社会解读者和分析预测者,深度解读和去伪存真本是媒体的重要职责,而大数据赋予的全面深刻的洞察恰好能为传媒再添一双慧眼。媒体数字化转型正在进行中,从采集、处理、储存、传播,完全地数字化后,媒体产生的数据量将急速增大,成为大数据的重要生成与应用行业。
大数据的核心思想是预测,是用数学算法来分析数据,预测事物发生的可能性。奈飞(Netflix)是一家在线电影租赁公司,通过记录分析用户的搜索和使用记录,分析前后数据的相关性,从而了解用户的喜好,推荐后续产品。亚马逊则是依据类似的原理推荐书籍等产品。
大数据应用到新闻领域,必然利用其最核心的竞争力——预测,相比于数据新闻学,预测新闻学更有可能大行其道。数据新闻的精髓或许在于将传统的新闻敏感和使用数字信息讲述一则好故事的能力相结合而带来新的可能性, 这些可能性会出现在新闻报道的任何一个阶段[5]。预测新闻是根据事物发展现阶段的影响要素和特点,对事物发展的规律和走向,进行判断和推测的一种报道[6]。数据新闻学把数据作为一种新闻要素,辅助新闻的表达,使得新闻更具有可读性、可信性,可以增加新闻的深度。新闻本身是一门社会科学,相比较于自然科学,有其模糊性。但是,如果合理的利用大数据,将数据化的新闻信息进行分析,得出事物发展的趋势,社会变迁的方向。对这样的趋势、方向的报道无疑和预测报道更加的相像。
在专业性比较强的报道,如体育、财经,大数据更能施展其预测的功能。如同在电影《点球成金》里面,棒球星探在统计学家面前相形见绌——直觉的判断被迫让位于精准的数据分析。对赛事结果的预测,对经济衰退的预警,甚至地震预测也能真正让人们提前有所防备。这一切几乎是思维的全新的转变,将迫使人们调整在管理、决策和教育方面的传统理念。
(六)媒体从业人员需要新的技能
大数据时代,传媒业还要避己之弱,补足自身发展的短板。大数据时代要求人们具备三种能力:数学运算与建模的能力、网络工程与分析能力、能够洞见事物本质的能力。麦肯锡咨询公司报告预测,到 2018 年,仅美国将面临 14 万到 19 万高级数据分析师短缺的情形。中国的短缺情况应相去不远。但是,专业的工程师、数据挖掘师擅长数据处理技术,对国情、社会及社会问题、对政治经济的了解却并非长项。传媒从业者与人与社会打交道,以整个社会为思考对象,对人对事有特殊的洞察力,因此媒体需着力培养数据时代的媒体专家:让编辑记者尽快了解大数据,掌握基本的机器学习、各种算法及数据分析方法,懂得用大数据技术分析解剖社会问题,分析处理民众关注的社会热点、难点、焦点问题;让数据工程师熟悉社会、了解社会,认清国情,增强政治辨识能力,培养社会洞察力,拥有这样一批“全才”,传媒业才有更大的发展潜力。
三、负面影响:隐私
大数据带来的变革毋庸置疑,但是这一切都是建立在正确利用它的基础上。换个角度想一想,我们每天都暴露在“第三只眼”之下:淘宝、亚马逊监视着我们的购物习惯,谷歌、百度监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听了我们心目中的“TA”,还有我们的社交网络。
《窃听风暴》是这样一部电影:1984年,全东德百姓被一百万国家秘密警察(盖世太保)控制着,国家安全局的窃听手段像《1984》中的电幕系统一样掌握和控制着人民的思想。“你只能在这样的假定下生活——从已经成为本能的习惯出发,你早已这样生活了:你发出的每一个声音,都是有人听到的,你作的每一个动作,除非在黑暗中,都是有人仔细观察的。”
现在这一切好像又要重演。一旦这些数据落入了不法之徒手中,后果不堪设想。当所有的信息都已经在数据库里面的时候,有意识的避免某些信息就是此地无银三百两。谷歌街景在采集道路和房屋的图像的数据的时候,遭到了很多人的反对,因为民众认为这些图片会帮助盗贼选择有利的目标。于是,谷歌将不同意的业主的房屋和花园的照片模糊化的时候,起到了反作用,对盗贼来说,反而暴露了目标[7]。
而且,在大数据时代,匿名化也是不可行的。在新闻报道的时候,可以用化名取代真实的人物,但是,其他的数据,时间、地点、事件的细节必须保持真实。只要有足够的数据,很容易将范围缩小到唯一的目标身上。匿名化与大数据同时存在几乎成了一个悖论。
本文开头的时候谈到的《少数派报告》中,仅仅根据某人又犯罪的倾向就对他经行惩罚,违背了法律或者公平的基石——无罪推定原则。因为我们被追究责任,居然是为了我们永远都不会实施的行为。虽然这仅仅是电影,但是依然可以窥见大数据在未来给我们带来的道德和伦理的挑战。
大数据并不是一个充斥着算法和机器的冰冷的世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助时暂时的,更好的方法和答案还在不远的未来。