大数据技术对科学方法论的革命
来源:江南大学学报 更新时间:2014-08-27

 【英文标题】Revolution on Scientific Methodology by Big Data Technology

  【作者简介】黄欣荣(1962- ),江西赣州人,哲学博士,江西财经大学管理哲学研究中心教授,博士生导师,主要研究方向为复杂性哲学、技术哲学、管理哲学,江西 南昌 330013

  【内容提要】 大数据技术的兴起对传统的科学方法论带来了挑战和革命。大数据方法论走向分析的整体性,实现了还原论与整体论的融贯;承认复杂的多样性,地方性知识获得了科学地位;突出事物的关联性,非线性问题有了解决捷径,由此复杂性科学提出的科学方法论原则通过大数据得到了技术的实现,从而给科学方法论带来了真正的革命。

  The rise of big data technology has brought challenge and revolution for the traditional scientific methodology. The methodology of big data approaches toward integrated analysis and has realized the combination of reductionism and holism; it has admitted the variety of complexity while the local knowledge has gained its scientific position; it has protruded the connective and solved the problem of linearity. Therefore, the principle of scientific methodology obtained a technical realization through big data, thus brought a genuine revolution to the scientific methodology.

  【日 期】2013-11-10

  【关 键 词】大数据技术/科学方法论/整体性/多样性/关联性Big Data/Big Data Methodology/Methodology/Revolution

  [中图分类号]NO3;N941 [文献标识码]A [文章编号]1671-6973(2014)02-0028-06

  大数据,这个原本属于专业人员的词汇,近年来走进了大众的视野,对我们的工作、生活和思维产生了巨大的影响。[1]大数据技术不但掀起了一场新技术革命,让我们的时代迅速进入信息时代,而且对传统的科学方法论带来了巨大的挑战,给我们带来了许多新的科学方法和技术手段,因此我们有必要从科学方法论的角度反思这场新技术革命的意义和影响。

  一、大数据技术的兴起

  2013年被称为中国大数据时代的元年。从这一年开始,大数据(Big data)这个词铺天盖地出现在各种媒体;有关大数据的图书迅速出版且发行量巨大,而大数据的富豪们,如百度的李彦宏、腾讯的马化腾、阿里的马云等,更是成了家喻户晓的神话般的数字财富人物。

  如今,大数据彻底地改变了我们的工作和生活方式。对一般老百姓来说,大数据的最大影响莫过于网购。曾几何时,我们购物就必须上百货大楼,但是现在许多人都喜欢网上淘宝购物,读书人不逛书店逛网店,因此造就了淘宝、亚马逊、当当等著名的购物网站,带来了实体店的迅速衰亡。印象最深刻的莫过于近两年的11月11日所谓“光棍节”,网民们个个疯狂购物,一天网购数百亿元,真正达到疯狂的程度。对有一点年纪的读书人来说印象深刻的是文献资料搜索查询的艰难。当时全靠手工查卡片等原始方式来寻找自己所需的文献资料,虽然历尽艰难仍然挂一漏万。但如今的Google、百度等网络搜索工具让我们在数秒钟之内将世界上所有相关文献一网打尽。对现在的读书人来说,我们不缺少文献资料,只怕缺少独到的思想。此外,只是一两年的功夫,智能手机就迅速取代以往只能打电话发短信的传统手机,手机迅速变成了无所不能的智能工具,成了我们不可或缺的随身伴侣。从这些事例中,我们不难感受到无孔不入的网络以及背后的大数据技术对我们的影响。我们可以毫不夸张地说,大数据时代正以迅雷不及掩耳之势来到了我们的面前。不管是否情愿,我们都已经迅速地跨入了大数据时代。

  大数据时代似乎来得特别迅猛,以至于我们似乎毫无思想准备。其实,大数据时代的征兆早已经有了诸多的表现。1980年代初,美国未来学家阿尔文·托夫勒在《第三次浪潮》,丹尼尔·贝尔在《后工业社会的来临》中宣布人类即将从工业社会进入信息社会。[2]1990年代,微软总裁比尔·盖茨在《未来之路》详细描述了信息社会的蓝图,尼葛洛庞帝则在其《数字化生存》中描绘了信息时代的生活方式,当时的美国总统比尔·克林顿则提出了《信息高速公路》计划,将学者们的设想变成了国家政策。兴起于20世纪末的复杂性科学则从科学思维和方法上为目前大数据时代的来临奠定了坚实的科学基础。进入21世纪互联网的普及和智能设备的风行为大数据时代的来临准备了物质基础,而电子商务的兴起则为大数据时代的来临进行了前期的尝试。因此,人类如今进入大数据时代是一种必然。当全球知名的咨询公司麦肯锡于2012年初正式提出大数据的概念和框架时,立即得到了世界各国的响应,并由此掀起了一场大数据风暴。

  究竟什么是大数据?目前国内外都还没有统一的定义或认识。从狭义的字面来理解的话,它应该与小数据相对应,意指数据量特别巨大,超出了我们常规的处理能力,必须引入新的科学工具和技术手段才能够进行处理的数据集合。[3]所谓的小数据指的是数据规模比较小,用我们的传统工具和方法足以进行处理的数据集合。比如牛顿时代的各门自然科学,其数据量都不大,第谷观测了20年的天文数据,开普勒很快用手工就处理完毕,并从中发现了开普勒定律。后来,随着科学的发展,数据量有了比较大的增加,为了处理这些当时看来的“大数据”,统计学家创造了抽样方法,由此解决了数据处理难题。现在的大数据却是所谓的海量数据,各种数据的差别又特别巨大,用抽样方法也难于处理,只能用现在的数据挖掘和云计算、云存储等新技术才能解决。从广义来说,大数据指的是一种新的数据世界观,它将世界上的一切事物都看作是由数据构成的,一切皆可“量化”,都可以用编码数据来表示。这就是舍恩伯格所说的:“大数据是人们获得新认知、创造新价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”[4]9

  大数据的特点被人总结为4个“V”:[5]第一,Volume(大量),即数据数量巨大。从TB级别,跃升到PB级别。第二,Variety(多样),即数据类型繁多。除了标准化的结构化编码数据之外,还包括网络日志、视频、图片、地理位置信息等等非结构化或无结构数据。第三,Value(价值),即商业价值高,但价值密度低。在数据的海洋中不断寻找,才能掏出一些有价值的东西,可谓“沙里淘金”。第四,Velocity(高速),即处理速度快,实时在线。各种数据基本上实时、在线,并能够进行快速的处理、传送和存储,以便全面反映对象的当下状况。

  大数据技术与传统的小数据技术有着本质的差别,它是一场新的技术革命,是上世纪末所说的信息革命的真正来临,也是上世纪末复杂性科学革命的技术实现。科学革命更多地局限于思想界、学术界,而技术革命则更加深入和具体,影响范围几乎遍及社会的每个神经末梢。因此这次大数据技术革命比以前信息革命的鼓动宣传以及复杂性科学革命对我们的工作、生活和思维产生的影响会更广泛、更深入。大数据技术革命还将为科学研究提供新的思维方式和新的科学方法,因此大数据技术必然会对传统的科学方法论产生巨大的挑战,带来科学方法论的革命。大数据权威舍恩伯格论述了大数据带来的三大思维变革,即要全体不要抽样,要效率不要绝对精确,要相关不要因果。这三大思维变革如果更具体化地落实到科学方法论上,必然会对传统的科学方法论产生革命性的转变。

  二、走向分析的整体性,实现了还原论与整体论的融贯

  科学方法论从宏观来说主要由整体论和还原论两种方法论体系构成。整体论把研究对象当作一个完整的黑箱来看待,它不打开作为黑箱的研究对象,不破坏对象的完整性,主要从系统的输入输出中猜测黑箱内部的结构和内部机制。还原论也叫机械还原论,是一种与整体论相对立的一种科学方法论,它主张把研究对象尽可能打开,尽量还原到某个逻辑基点,找出系统的构成要素及其内部机制,以解释系统的行为和功能。

  整体论由来已久,应该说它比还原论更久远得多,因为在人类的早期,由于科学技术手段的落后,先人们根本没法打开作为研究对象,只能把它作为一个整体来进行研究。无论是西方还是东方都是如此。例如中医把人体作为一个完整的研究对象,通过把脉、看舌等所谓的“望闻问切”等手段来诊断人体内部的运作状况,从而达到诊治疾病的目的。由于只从整体、宏观层面来考察对象,缺乏微观、深入的研究,只能依靠黑箱透露出来的少量信息猜测内部的结构和机制,难于对研究对象进行科学表述。因此随着西方科学的进步,特别是分析、还原科学的兴起,作为早期重要科学方法论的整体论慢慢走向衰落。

  西方的分析、还原思想出现得比较早,当古希腊第一个哲学家、科学家泰勒斯提出水是万物的本源之时,还原论的思想就凸显出来。古希腊哲学家的所谓本原问题,其实就是试图将研究对象还原为其构成要素的基本成分,并试图为万事万物寻找到逻辑的出发点,也就是“始基”。亚里士多德的演绎方法就是还原论的哲学总结和逻辑表述。随着牛顿力学的巨大成功,还原论被当作一种万能的科学方法论运用于分析世间万物,而且一路高歌,纷纷取得辉煌成就。也就是说,万物都按照牛顿力学的隔离、分解的原则,打开黑箱,条分缕析,寻找着其基本的构成要素及其运作机制。在还原论的帮助下,近代科学的各门学科先后从哲学中独立出来,成为现代科学的基础。物理学是所有其他学科的楷模,机器是当时各门学科的共同模型。通过解剖刀的逐一分解,人体也像机器一样不断被拆卸,所以拉美特里才会将人比拟成机器,因此机械自然观和分析还原论成了近现代科学取得巨大成就的重要哲学基础。还原论曾经为科学的发展立下了汗马功劳,也正因如此才成为近现代科学方法论的主流,而早期的整体论在还原论面前几乎没有还手之力。

  随着科学问题的越来越复杂,特别是面对有机世界的各种生命现象,还原论显得越来越力不从心,各种问题和矛盾越发突出。因此,1980年代末,美国的三位诺贝尔奖获得者才会带头“老帅倒戈”,起来造还原论的反,正式提出超越还原论的口号,并成立从事整体、综合研究的圣菲研究所。1990年代,基于超越还原论的复杂性科学逐渐兴起,并很快被称为“21世纪的科学”,而将以前的所有基于还原论的科学都被称为“简单性科学”。由此,沉寂千年的整体论随着复杂性科学而逐渐复兴,还原论被批得体无完肤,甚至大有用整体论来彻底取代还原论之势。[6]不过复杂性科学兴起近30年来,虽然取得了不少成绩,甚至曾形成复杂性科学运动,各门学科都试图用复杂性科学方法来突破原来的学科瓶颈。但因整体方法没有得到具体的落实,所以目前复杂性科学并没有因此取得真正革命性的成果。

  在小数据时代,由于采集数据和处理数据的能力都极其有限,因此我们就尽量减少数据量,例如试图通过还原来找到撬动整体的杠杆,只要几个数据便可知晓研究对象的一切。后来随着数据量的增加,例如人口统计数据,社会经济调查等,需要处理的数据量急剧增加,但由于处理能力有限,我们必须进行简化,以便有能力处理。于是统计学发明了抽样统计方法,通过对抽样出来的少量数据能够反映出研究对象的全貌。这些数据并没有“全息”功能,不一定能够完全反映对象的真实情况,因此带来了现代科学的种种问题。从本质上来说,这两种方法虽然有所不同,但其本质是相通的,都是还原论思想的体现,都是我们企图以少御多的反映,也是简单性科学思想的体现。

  随着计算技术和网络技术的发展,采集、存储、传输和处理数据都已经成了易如反掌的事情。面对复杂对象,我们再没有必要做过多的还原和精简,而是可以通过大量数据甚至是海量数据来全面、完整地刻画对象,通过处理海量数据来找到研究对象的规律或本质。正如舍恩伯格所说:“当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有数据,‘样本=总体’”。[4]27在大数据中,这个“总体”正好刻画了整体论中的所谓“整体”,但这个整体是由科学、具体的全部数据集合构成的,而每个具体的数据正是数据集合的部分,也就是对象系统的部分。在大数据中,整体和部分都有了科学、具体的所指,整体和部分的关系是一个具体、实在的关系。这样,在大数据技术中,由于处理了所涉问题的全部数据,这就让整体论中所说的全面、完整把握对象就有了科学的表述并落实到了具体的数据。而这全部数据是由一个个具体的数据构成的,因此还原论中的要素、部分也得到了科学的表述。因此,大数据方法论通过处理所涉问题的全部数据实现了科学、具体的整体论和还原论,实现了还原论与整体论的贯通和辩证统一。总之,大数据技术给科学方法论带来的第一个革命就是为实现复杂性科学的还原、整体辩证统一的融贯方法论提供了具体的技术实现途径。

  三、承认复杂的多样性,地方性知识获得了科学地位

  由于西方近代科学的飞速发展及其对社会的巨大影响,西方近现代科学成了科学的“标杆”和代名词,以至于我们在说到科学之时基本上指的都是西方近现代科学,而与西方近现代科学不一致的其他知识,例如中医药知识,都被排斥在科学的大门之外。

  西方科学哲学从逻辑实证主义起就有一个重要议题,那就是科学与非科学的划界问题。所谓科学的划界问题就是试图用某种标准将科学和非科学区分开来,并且将非科学或伪科学赶出科学的阵营。此外,科学被当作一切学科的标杆和榜样,凡是要加入科学阵营的知识,必须具备西方近代科学所具有的特征,否则不但会被拒斥,而且有可能被贴上非科学或伪科学的标签。

  那么,西方近现代科学最根本的特征究竟是什么?西方科学哲学一直没有统一的意见,逻辑实证主义认为是理论的逻辑表述与结果的经验证实,波普尔则认为是理论的逻辑表述与结果的经验证伪。库恩则认为一门学科是否是科学要看这个学科是不是有了成熟的学科范式,而费耶尔阿本德则认为根本不存在这样一条明确的分界线。不过不管各家观点怎么样,但基本上都认为科学必须建立在理性与逻辑的基础上,特别是各门学科必须找到自身的逻辑基点。

  从科学方法论上来说,西方科学强调还原论,除了任何理论,不管有多复杂,都必须能够还原到逻辑原点之外,各门学科还存在还原关系。物理学是各门学科的基础,其他学科都最后可以还原到物理学。通过还原,整个西方科学的大厦都可以建立在统一的基础之上。例如爱因斯坦毕其一生追求着统一场理论,法国著名的布尔巴基学派试图将整座数学大厦建立在统一的基础上。有了统一性,科学就具有了可重复性和可检验性。这也就是说,任何科学理论,最终都可以而且必须具有统一的理论表述,而且可以在世界不同的场合用相关设备进行重复实验,以便检验科学理论的真与假。

  但是,科学哲学家费耶尔阿本德以及后来的后现代主义者却不太认可上述观点,认为科学并没有一个统一的基础和标准,任何知识和经验都有其存在的理由。复杂性科学更是从科学视野强调了知识的多样性、语境性和多样性。不过,以往的科学和哲学批判都还停留在理论层面,缺少了技术层面的具体操作。直到大数据技术的兴起才为打破统一性,提倡多样性找到了具体的方法和实现途径,从而真正实现了科学方法论的革命。

  追求统一性、标准化是小数据时代的标志。过去为什么要还原、统一?因为过去我们没有有效的科学手段来处理复杂、多样、多变的海量数据。为了能够用简单手段和设备能够处理,便首先在理论上进行简化,把复杂、多样的东西首先通过还原论还原到一个基点,而且按照统一标准来进行统一,这样数据便简单方便,容易处理。在计算机发展的早期,所有数据都要用统一的数据格式,即按照标准化的数据结构对所有要处理的数据首先进行标准化、格式化处理,这就是所谓的结构化数据,以便达到更加精确无误的目的。例如在人口统计中,每个人都必须按照标准格式进行填表登记,凡是不符合统一标准的都被当作无效或不精确的数据而被废弃。“对‘小数据’而言,最基本、最重要的要求是减少错误、保证质量。”[4]46

  在大数据时代,时时处处都在实时地产生各种数据,这些数据没有按照某种标准或某种指令而产生,之后也没法进行标准化处理,各种数据类型都同时存在,例如除了标准化的结构化编码数据之外,微博、聊天记录、网络日志、视频、图片、地理位置信息等等非结构化或无结构数据都成了大数据这个大家庭的成员。随着网络技术的发展,个性化成了潮流,因此结构化、标准化数据所占比例越来越少,非结构化或无结构数据越来越多。大数据技术不要求数据的标准化和结构化,真正体现了兼容并包的原则,用费耶尔阿本德来说就是“怎么都行”。一切都有其存在的理由,存在的就是合理的,因此再也不像小数据时代按照统一标准对数据的精挑细选,而是容纳了多样性的存在,并能够从沙里淘金。

  复杂性哲学和科学实践主义哲学都提出了知识的多样性和地方性的主张,认为知识的形式和内容都允许不同的存在,除了全世界都统一的标准化科学知识外,还存在地方性知识。例如中医药、藏医药、伊斯兰医药等不同地方的医药知识都有着悠久的历史,并为当地不同民族的人民健康做出过巨大的贡献,因此其形式和方法都与西医有很大的不同,但都有存在的必要。[7]另外,有些实践性知识有时候就是一次性的经验知识,不具备可重复性和可检验性,但不能因此就否认这种知识的存在及其价值。复杂性哲学与科学实践主义哲学的这些主张都是革命性的,但这些主张并不那么容易实现,因此在实践中往往仍然按照理性主义的主张来判断知识的科学性。

  大数据技术的兴起,为复杂性哲学和科学实践主义哲学的主张得到了真正的落实。大数据方法论认为:“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界之窗。”[4]45所以大数据技术把语境性知识、地方性知识、多样性知识统统纳入知识的范围,科学不再挑三拣四,不再排斥异己,而是体现了更多包容心。“要想获得大数据带来的好处,混乱应该是一种标准途径,而不应该竭力避免的。”[4]60因此,舍恩伯格得出结论说:“相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相”。[4]46总之,大数据技术给科学方法论带来的第二个革命是复杂性、多样性得到了承认,多样性、地方性知识获得了科学的地位。