统计真的科学吗?警惕统计陷阱

我们每天都生活在数字的包围中。商业报告用数据说话,新闻标题用数据引人注目,甚至我们选择哪家餐厅,都可能基于评分这个数字。

我们倾向于相信,数字是客观的,是理性的,是不会骗人的终极真理。

这个信念,恰恰是当代社会中最普遍、也最危险的一个认知陷阱。

数字本身确实是中立的,但呈现数字的方式、解释数字的语言,以及隐藏在数字背后的东西,却充满了可以操纵的空间。我们对数字的盲目信任,让我们在不知不觉中,成了被精心编排的结论所引导的提线木偶。

一)

我们来看一个最常见的场景,招聘广告。

一家公司宣称,我们公司员工的平均月薪高达两万元。这个数字听起来非常有吸引力,似乎加入这家公司就意味着迈入了高薪阶层。但这里就隐藏着第一个,也是最经典的一个统计花招。

这个花招的核心在于“平均”这个词。

在统计学里,至少有三种算法可以被称为平均数,分别是平均值、中位数和众数。通常我们理解的平均,是指平均值,也就是把所有人的工资加起来,再除以总人数。

这个算法最大的问题是,它极易受到极端值的影响。

假设这家公司有十个人。九个员工的月薪都是五千元,而老板自己的月薪是十五万五千元。那么这十个人的总月薪是二十万元,除以十,平均月薪正好是两万元。这个数字在数学上完全正确,但它能反映这家公司真实的薪酬状况吗?显然不能。

对于那九个员工来说,这个数字毫无意义,甚至是一种冒犯。

在这种情况下,中位数是更能反映真实情况的指标。把所有人的工资从高到低排列,排在最中间的那个数字就是中位数。在这个例子里,第五个和第六个员工的工资都是五千元,那么中位数就是五千元。这个数字告诉我们,至少有一半的人,工资不超过五千元。

还有一个是众数,也就是人群中出现次数最多的那个数字。在这个例子里,五千元出现了九次,所以众数也是五千元。它告诉我们,这家公司最普遍的薪资水平是五千元。你看,同样一批人,同样的数据,我们得出了三个截然不同的“平均”工资:两万元,五千元,五千元。

一个精明的宣传者,会根据自己的需要选择最有利的那个“平均数”。如果想显得公司待遇优厚,吸引人才,他就会用那个被极端高薪拉高的平均值。如果一个地区的政府想说明当地房价稳定,可能会选择用中位数,来抵消少数豪宅天价成交额对整体数据的拉升。

所以,当我们再看到“平均”这个词时,头脑里必须拉响警报。

这个选择平均数的游戏,本质上是一种信息差的博弈。发布数据的人知道三种平均数的区别和效果,而大多数接收信息的人只知道一个模糊的“平均”概念。利用这种信息不对称,就可以在不撒谎、不说假话的前提下,巧妙地引导公众得出他们想要的结论。

二)

接下来我们看第二种常见的陷阱,样本偏差。

任何一项调查研究,都不可能把所有人都问一遍,只能抽取一部分人作为样本,用这个小群体的特征来推断大群体的状况。这里的关键是,这个被抽出来的小群体,是否能代表那个大群体。如果不能,那么得出的结论就毫无价值,甚至是有害的。

一个著名的历史案例发生在一九三六年的美国总统选举。当时的《文学文摘》杂志,通过邮寄调查问卷的方式,进行了一次规模空前的民意测验。他们寄出了一千万份问卷,回收了二百四十万份。根据统计结果,他们信心满满地预测,共和党候选人兰登将以绝对优势击败现任总统罗斯福。

但选举结果却截然相反,罗斯福获得了压倒性的胜利,《文学文摘》的预测成了新闻史上的一个大笑话。

问题出在哪里?就出在样本上。他们的调查问卷,邮寄地址主要来源于两个地方:电话号码簿和汽车登记册。在一九三六年的美国,经济大萧条的背景下,能装得起电话、买得起汽车的家庭,大多是相对富裕的阶层。

这个群体天然地更倾向于支持代表商界利益的共和党。而那些没有电话、没有汽车的穷人,也就是罗斯福新政的主要支持者,从一开始就被排除在了调查样本之外。

所以,《文学文摘》那二百四十万份问卷,调查的根本不是全体美国选民的意见,而只是美国中上层阶级的意见。用一个富人俱乐部的投票,去预测全国大选的结果,失败是注定的。

这个逻辑在今天依然普遍存在。

比如,一个网站在自己的首页上发起一个投票:“你每天花多长时间上网?”结果显示,百分之九十的用户每天上网超过四小时。这个结论可靠吗?当然不可靠。因为能看到这个投票并参与的,本身就是这个网站的活跃用户,他们当然上网时间长。那些很少上网的人,根本不可能参与这个投票。

川普在第一任选举时,民调数据反应的是,他当选不了。但他当选了,事后机构们去分析为什么错得这么严重,发现很多人不敢在当着其他人的面支持川普,因为他的形象太差了。

你看,数据反应的只是一个人的语言,却不能反应这个人的行动。

我们日常接触到的很多所谓“民意调查”,都存在类似的样本偏差问题。

一个美妆博主在自己的粉丝群里做的化妆品使用调查,结果必然偏向于那些对美妆有浓厚兴趣的群体。一个只在老年人活动中心做的健康调查,得出的结论也不能代表全体市民的健康状况。

所有依赖于“自愿参与”的调查,都天然地会吸引那些对这个话题特别感兴趣、或者有强烈看法的人,而他们的观点往往是偏激的,不能代表沉默的大多数。

所以,面对一个调查结论,我们必须先问一个问题:这个样本是怎么来的?它能代表它所声称的那个全体吗?如果样本本身就是歪的,那么从这个样本里生长出来的任何结论,都必然是歪的。

三)

第三个陷阱,是那些被刻意隐藏起来的“小数字”。有时候,一个数据之所以看起来很有说服力,不是因为它本身有多么惊人,而是因为它旁边那个本该用来和它作比较的基准数据,被人为地抹掉了。这样一来,我们看到的就成了一个悬在半空中的、无法被评估的孤立信息。

比如一个牙膏广告宣称,使用我们的新产品,可以减少百分之二十五的蛀牙。这个数字听起来很不错。但减少百分之二十五,是和什么相比?是和使用其他品牌的牙膏相比,还是和完全不刷牙相比?如果是和后者相比,那这个广告就毫无意义,因为任何牙膏都能做到这一点。

再比如,一个财经新闻标题写着:某款理财产品去年回报率高达百分之三百。这听起来像是一个千载难逢的投资机会。但这里面缺少了太多关键信息。这个回报率是单利还是复利?是在哪个时间段内实现的?更重要的是,有多少人真的拿到了这个回报率?也许这只是在市场最好的某一天,某个特定条件下才可能出现的瞬时峰值,而绝大多数投资者的实际回报率远低于此。

这种手法在企业财报和政府工作报告中也屡见不鲜。比如,一家公司宣布,本季度我们的利润增长了百分之五十。这听起来是一个巨大的成功。但如果他们没有告诉你,上个季度的利润基数是一个极低的数字,甚至是亏损状态,那么这个百分之五十的增长就可能只是从亏损十万变成亏损五万,或者从盈利一万变成盈利一万五。绝对值的变化可能微不足道,但用百分比来表达,就显得格外亮眼。

还有一个变种,是利用人们对数字精确性的天然信任。比如一个报告说,经过我们严谨的测算,这座大楼的价值是三亿一千五百七十二万四千三百元。这个精确到个位数的数字,会给人一种非常科学、非常可信的感觉。但实际上,不动产的估值本身就存在很大的弹性空间,受市场波动影响巨大。那个精确的零头,除了增加报告的权威感之外,没有任何实际意义,它只是一个心理学上的道具。

因此,当我们看到一个孤零零的、没有上下文的、或者过于精确的数字时,要格外警惕。我们要追问,比较的基准是什么?这个数字的统计口径是什么?时间范围是多久?影响这个数字的其他变量又有哪些?一个不提供比较对象和背景信息的数字,很可能不是为了告知我们真相,而是为了塑造我们对真相的特定认知。

四)

第四个陷阱,是利用视觉错觉来操纵情绪。相比于枯燥的数字,我们的大脑更容易被图形化的信息所吸引和影响。一张图表,如果运用得当,可以比几千字的文字更有说服力。但也正因为如此,图表也成了制造统计假象的重灾区。

最常见的手段是操纵图表的坐标轴。假设我们要展示一家公司过去五年的销售额增长情况。第一年是一百万元,之后每年增长十万元,到第五年是一百四十万元。这是一个非常平稳、甚至可以说有点缓慢的增长。如果用一个从零开始的纵坐标轴来绘制这张图表,我们看到的就是一条坡度很小的、缓慢上升的斜线。

但如果一个急于展示政绩的经理来做这张图表,他可能会对坐标轴做一点手脚。他把纵坐标的起点,不从零开始,而是从九十五万元开始。这样一来,图表上显示的就只有一百万到一百四十万这个很小的区间。原本平缓的增长曲线,在这张被“截断”过的图表上,就会变成一条非常陡峭的、仿佛要一飞冲天的直线。增长的绝对值没有变,但它带给人的视觉冲击和心理感受,却发生了天翻地覆的变化。

这种被截断的坐标轴,在新闻报道和商业演示中随处可见。当有人想强调一个微小的变化时,他们就会用这种方法在视觉上将其放大。反之,如果想弱化一个剧烈的变化,比如想掩盖一次严重的业绩下滑,他们也可以通过拉长坐标轴的刻度,让那条下降的曲线看起来尽可能平缓。

另一种更隐蔽的视觉欺骗,是使用图形的面积或体积来代表数值。比如,要展示我们工厂的产量在两年内翻了一番。第一年,我们用一个高度为一厘米的工厂小图标来代表。第二年,因为产量翻倍,我们画了一个高度为两厘米的工厂图标。这看起来很合理,对吗?

问题在于,当图标的高度变成两倍时,它的宽度也等比例地变成了两倍。它的面积,实际上变成了原来的四倍。我们的大脑在解读这张图表时,感知到的不是高度的线性增长,而是面积的指数级增长。一个两倍的增长,在视觉上被夸大成了四倍。如果用三维的立方体来表示,一个两倍的增长,在视觉上会被夸大成八倍。

这些视觉上的花招,利用的是我们大脑处理信息的直觉系统。我们很少会仔细去研究一张图表的坐标轴刻度和具体数值,而是凭第一感觉来判断趋势的好坏。而图表的制作者,正是利用我们这种认知上的“懒惰”,在不改变任何原始数据的情况下,成功地操纵了我们对这些数据的解读和情绪反应。

五)

第五个,也是最底层、最容易迷惑人的一个逻辑陷阱,就是混淆相关性与因果性。当两件事情总是伴随着发生时,我们很容易下意识地认为,是第一件事情导致了第二件事情。这种思维捷径在日常生活中可以帮助我们快速决策,但在面对严肃的数据时,却可能得出荒谬的结论。

一个经典的例子是,数据显示,夏天冰淇淋的销量越高,城市里的犯罪率也越高。这两个变量之间存在着非常强的正相关关系。那么,我们能得出结论说,是吃冰淇淋导致了人们去犯罪吗?或者说,是犯罪率的提升,刺激了人们吃冰淇淋的欲望?显然都说不通。

真正的原因是,这两件事情背后存在一个共同的第三方因素:天气。炎热的夏天,人们更愿意买冰淇淋解暑。同时,炎热的天气也让人们更多地进行户外活动,人与人之间的接触和摩擦增多,从而导致犯罪率的上升。冰淇淋销量和犯罪率,只是两个被同一个原因驱动的、碰巧同步变化的独立事件,它们之间没有任何因果关系。

这种“相关不等于因果”的谬误,在我们的生活中比比皆是。比如有研究发现,一个家庭里,孩子的学习成绩和家里书的数量呈正相关。于是很多家长开始疯狂买书,把家里堆得像个图书馆,期望以此提高孩子的成绩。但他们可能忽略了,家里书多的家庭,通常意味着父母更重视教育、有更好的学习习惯、能为孩子提供更优越的教育资源。真正影响孩子成绩的,是这些背后的家庭因素,而不是书的数量本身。

在商业领域,这种错误归因也常常导致代价高昂的决策失误。一家公司发现,自从他们给员工换了新的咖啡机之后,公司的生产效率提升了百分之五。于是,管理层得出结论,更高品质的咖啡能提升员工效率,并决定在所有分公司推广这款昂贵的咖啡机。但真实的原因可能完全无关。也许效率的提升,只是因为员工感觉到自己受到了公司的关注和重视,从而产生了更强的工作动力。这在心理学上被称为“霍桑效应”。

政治宣传中也经常利用这一点。当一位领导人在任期间,国家的经济恰好处于上升周期。他的支持者就会把经济增长归功于他的英明领导和正确政策。而当经济进入下行周期时,他的反对者又会把所有问题都归咎于他。但实际上,一个国家的经济运行,受到全球宏观环境、科技周期、产业结构等无数复杂因素的影响,任何单一的政策或者个人,其作用都是有限的。

所以,当我们看到两个变量同步变化时,一定要克制住立刻建立因果关系的冲动。我们要多问一句:是否存在一个隐藏的第三方因素,在同时影响着这两件事?或者,有没有可能,因果关系的方向是相反的?甚至,这一切都只是纯粹的巧合?不经过这样审慎的思考,我们就很容易被数据表面的相关性所误导,做出错误的判断。

六)

那么,面对一个被数据包裹的世界,我们应该如何保护自己,不掉入这些精心布置的陷阱呢?我们不需要成为一个专业的统计学家,但我们需要建立一套思维上的防火墙。这套防火墙由几个简单而关键的问题构成。

第一个问题:是谁在说?发布这个数据的人或机构,是谁?他们的立场是什么?他们想通过这个数据达到什么目的?

一个烟草公司资助的研究,得出的吸烟危害性不大的结论,我们显然要打一个问号。一个房地产开发商发布的区域房价即将暴涨的报告,我们也需要多一分警惕。

这并不是说要预设所有人都在说谎,而是要明白,利益相关方有足够强的动机,去选择、包装和解释那些对他们最有利的数据。

第二个问题:他们是怎么知道的?这个数据的来源是什么?是通过全面的普查,还是小范围的抽样调查?如果是抽样,样本量有多大?样本是如何选取的?我们在前面已经看到,一个有偏差的样本,可以轻易地扭曲整个结论。一个只有几十个人参与的调查,其结果的偶然性也必然很高,不具备普遍的代表性。

第三个问题:有没有遗漏什么?这个数据是否提供了完整的上下文?“平均数”背后,有没有隐藏着极端值的扭曲?“增长率”背后,基数是多少?一个看似惊人的结论,有没有可能是通过巧妙地省略掉关键的背景信息而制造出来的?永远要警惕那些孤立呈现的、缺乏比较对象的数字。

第四个问题:是不是偷换了概念?我们讨论的A事件,最后被数据证明的却是和A很像的B事件。比如,商家宣称他们的保健品可以“增强免疫力”。但他们提供的证据,可能只是服用者血液中某种免疫细胞的数量在短期内略有增加。细胞数量的增加,和真正的、能够抵抗疾病的免疫力提升,是两个完全不同的概念。商家正是利用这种概念上的模糊和替换,让我们误以为他们证明了自己最初的那个宏大宣称。

第五个问题:这一切有意义吗?这个数据得出的结论,符合我们的常识和逻辑吗?有时候,一个统计结论虽然在数学上无懈可击,但在现实世界中却毫无意义。比如,有统计显示,乘坐飞机的安全性远高于乘坐汽车。这个结论本身是正确的。

但如果一个人因为害怕坐汽车而选择每天坐飞机去上班,我们会觉得这个人很荒谬。因为统计上的概率,和我们个体在特定场景下的风险决策,是两回事。

通过反复地在内心叩问这五个问题,我们可以逐渐养成一种对数据的“健康怀疑主义”。我们不再是信息的被动接收者,而是一个主动的、审慎的鉴别者。

我们开始理解,任何数据都只是对复杂现实的一种简化和抽象,它永远不可能等同于现实本身。

数字不是我们思考的终点,而应该是我们思考的起点。一个数字,一个图表,一个报告,它们向我们发出的不是一个结论,而是一个邀请。它们邀请我们去探寻背后的故事,去审视被隐藏的假设,去思考被忽略的可能。在这个过程中,我们锻炼的不仅仅是分辨数据真伪的能力,更是我们在这个复杂世界中保持独立思考和清醒判断的核心能力。