拆穿数据的胡扯
来源:科技日报 更新时间:2022-05-06


不久前,读完了《拆穿数据胡扯》,顿感这是一本迟来的好书,一来是因为我们已经对很多“噪声”习以为常,且深受其害,如果我们能早些明白这些“噪声”的来龙去脉,那么也许就会豁然开朗;二来如果我们能把书中提到的一些方法用到科普实践之中,也许可以少走一些弯路。

该书谈论的是我们每天都在遇到甚至是从事的一种行为,那就是扯淡。虽然没有去统计,但是我敢说扯淡这个词是书中出现频率最高的一个词。两位作者认为,“扯淡就是全然不顾事实、逻辑连贯性或实际传播的信息,而是利用语言、统计数字、数据图表和其他表现形式,通过分散注意力、震慑或恐吓等方法,达到说服或打动听话人的目的”“扯淡的目的根本不是表述事实,而是利用某种修辞手段来掩盖事实”。

书中指出,“……要解决当前扯淡泛滥的问题,需要的不仅仅是看清它的本质,还要照亮所有角落,让扯淡无所遁形,增加扯淡传播的难度。”作者们通过娓娓道来的叙述,回应了他们提出的这个论断。

首先,作者们追根溯源,主张扯淡无处不在,它起源于更广泛意义上的欺骗。虽然我们常说“科技让生活更美好”,不过两位作者却认为技术的进步并没有消除扯淡的问题,反而让其更加恶化。比如在社交媒体大行其道的时代,“标题党”也是某种意义上的扯淡,它是一种“空热量”,因为有研究发现,最成功的标题都没有阐述事实,而只是给你一种情感体验。算法是很多平台赖以获取用户黏性的利器,但是某一平台的算法并不是为了帮我们了解更多信息,而是为了让我们在该平台上保持活跃度,否则我们就有可能会跑到其他平台上去了。这实际上就会导致所谓的“过滤器泡泡”和“回音壁效应”,这本身也是一种扯淡的表现。就此而言,“扯淡在点击驱动的大规模网络化社交媒体世界中比在以前的任何社会环境中更容易传播”。

其次,科学也会牵涉到扯淡的问题。两位作者对此着墨甚多。把相关性呈现为因果性往往是扯淡的一个表现,也是一种扯淡的做法。比如在大众媒体的报道中,往往会基于相关性就认为存在因果关系,而我们在这上面读到的很多权威性推荐意见,依据的都是关联性,没有证据证明存在因果关系,也就是所谓的“在此之后,因此之故”。

作者们之所以主张“数字成了扯淡者的杀手锏”,是因为仅仅数字正确是不够的,还需要将它们放在合适的上下文中,以便读者或听众能够正确地理解它们。否则,这些数字就有可能会成为某种意义上的扯淡。在这方面,两位作者给出了大量的案例来支撑自己的主张,而且他们还认为并非所有的东西都可以用数学公式来表示,他们将其界定为数学滥用。

在科学的易感性问题上,两位作者着重探讨了p值(用来判定假设检验结果的一个参数)及其操纵的问题。科学研究领域很少或者说不发表负面(用科学术语来说是,阴性的)研究结果实际上也是某种p值操纵,这会导致发表的偏倚。而媒体报道又进一步放大了这些偏倚,因为新闻报道往往不明确说明他们所报道的只是初步的研究结果,更糟糕的是,他们几乎不会报道之前报道过的研究后来没有成功的消息,“难怪公众会被那些不能确定红酒到底是好是坏的科学家搅得晕头转向,也难怪他们很快就对所有媒体产生了怀疑”。当然,两位作者在这一章的最后重申,科学依然是重要的,我们需要相信科学。

最后,经过本书前面大部分的铺垫之后,两位作者给出了如何辨别这些现象的一些小妙招,比如,我们要学会“质疑信息来源”,我们要注意“小心不公平的比较”,我们要知道“从数量级上考虑”,我们要去“避免证真偏差”,以及我们需要“考虑多个假设”等。

(作者系中国科普研究所副研究员、中国科普作家协会理事)