人民日报社中国经济周刊官方网站  中央新闻网站  互联网新闻信息稿源单位

经济网 中国经济论坛


首页 > 周刊杂志 > 正文

【悦读】如何看穿统计数据造假

并不是你遇见的所有统计信息都能用化学分析或化验室里那一套设备来检验。但是你可以提出几个简单的问题来探讨,从而通过问题的答案来避免被一些明显似是而非的东西所迷惑。

编者按:

《统计数字会说谎》是达莱尔·哈夫的传世之作,该书大胆地揭露了至今仍然被销售员、广告撰稿人、记者甚至专家频频使用的大量的统计操纵技巧,同时还配有众多幽默的案例。神秘的统计学在这里被作者像讲故事一样,莞尔一笑中让你知晓深奥的统计学基本原理,掌握揭露“虚假数据”的最有力武器。

p86

《统计数字会说谎》

推荐指数:★★★★

作者:[美] 达莱尔·哈夫

出版社:中信出版社

出版时间:2018年1月

作者简介:

[美] 达莱尔·哈夫

美国统计专家,1913年出生在美国爱荷华州,毕业于爱荷华州立大学(the State University of lowa),获得学士学位和硕士学位。他的文章多见于《哈泼斯》《星期六邮报》《时尚先生》以及《纽约时报》等美国媒体。1963年,被授予国家学院钟奖(National School Bell )。

如何看穿统计数据造假

[美] 达莱尔·哈夫

编辑:蒋莉莉

(本文刊发于《中国经济周刊》2018年第13期)

并不是你遇见的所有统计信息都能用化学分析或化验室里那一套设备来检验。但是你可以提出几个简单的问题来探讨,从而通过问题的答案来避免被一些明显似是而非的东西所迷惑。

是谁这么说?

首先,要找的第一样东西是偏差。

要找有意识的偏差。这种偏差可以体现为直接的错误陈述或是含糊不清的措辞,这两种手段都很高明,一般情况下人们不会觉得它们有问题。有意识的偏差还可以体现为选出对自己有利的数据,剔除对自己不利的数据;也可以改变衡量的标准,比如在对比时先用某一年为基期,而后又选择对自己更为有利的另一年为基期;或是使用不恰当的测算方式,例如,明明是中位数更能说明问题(或许是过于能够说明问题),却使用了均值来计算,最后还用了一个狡猾的措辞——平均数——来掩盖事实真相。

更要注意那些无意识的偏差,因为它的危害更大。1928年,正是由于无意识的偏差使得不少统计学家和经济学家通过图表,预测出惊人的结论。经济结构中出现的漏洞被过于乐观地忽略,专家们不但引用了各种各样的证据,还从统计学的角度予以支持,从而试图说明国家已进入繁荣时期。

之前提到的那个声称上大学会导致女性结婚概率降低的作者正是利用了康奈尔大学的“专家”地位。请注意,这里虽然作者使用的数据来自康奈尔大学,但结论却完全是作者自行研究得出。但是康奈尔大学的“专家”声誉却让你糊里糊涂地将结论看成了康奈尔大学说的。

当你再看见“专家”的字样,先确定字面信息下隐藏的那个人到底是不是权威人士,还是说只和权威沾了点边儿。

也许你曾看过芝加哥《商业日报》上一份引以为豪的声明。报纸做了一个关于囤积物品、哄抬物价的调查,在169 家公司的答复中,有2/3 的公司认为自己是朝鲜战争造成的物价上涨的受害者。“调查表明,”这份报纸如是说(看到这里你要格外警惕这些字眼!),“这些公司的做法与美国商业系统的敌人所控诉的完全相反。”由于《商业日报》是这件事的相关一方,因此我们要问清“是谁这么说”。这里,我们更应该提出我们的第二个问题。

他怎么知道?

事实证明,起初该报社是向1200家大型公司发去了调查问卷,但只有14%的公司予以回复。86%的公司压根儿就不愿意公开表明自己对“囤积物品、哄抬物价”这一问题的看法。

《商业日报》对这件事表面上是一副若无其事的态度,但事实表明它没有什么可以炫耀的资本。据说情况是这样的:收到问卷的1200 家公司中,9%的公司表示它们没有抬高物价,5%的公司表示它们抬高了,还有86%的公司什么都没说。这些回复了问卷的公司就组成了一个可能带有偏差的样本。

要格外注意那些带有偏差的样本,到底是因为选择不当,还是像这个案例一样,调查者有意识地选择对自己有利的资料从而造成了偏差?不妨提出一个问题:这个样本的规模是否足够庞大,以确保任何根据这个样本而得出的结论都真实可信?

同样,当你看到关于“相关性”的报道时也要想想:它的规模是否大到足以说明问题?案例是否多到具备显著性?作为一般读者,你无法使用显著性检验或通过足够大的样本得出一个准确结论。但对于许多报道中的内容,你在一瞥之下(或者是长长的一瞥),就能发现这些内容都缺乏足够的案例,无法让人信服。

漏掉了什么?

通常,你无法得知样本中包含了多少案例。尤其是当数据来源关系到利益问题时,数据缺乏就会让人对整件事情产生怀疑。同样,一个相关如果缺乏可信的测算方式(比如概率误差、标准误差)检验,那么也就没必要把这个相关当真。

要留心那些未加说明的平均数,因为无论在什么时候,均值和中位数都有着本质的差别。

许多数据由于无法进行对比而变得没有意义。《观察》(Look)杂志上的一篇文章在讲到唐氏综合征时曾说:“在2800个案例中,一大半患者母亲的年龄都达到或超过了35岁。”事实上,如果你想获知更有意义的信息,你还需要了解一下这些母亲普遍的生育年龄。但很少有人知道这些。

有时,材料只给出了百分数,却没有给出原始数据,这种数据也带有欺骗性。很久之前,约翰·霍普金斯大学开始招收女性学生,有个特别反对男女同校的人报道了一则让人大吃一惊的消息:约翰·霍普金斯大学33%(也就是1/3)的女生嫁给了该校的男老师!最后还是原始数据还原了事实的真相——其实当年只有3 名女生入学,其中之一嫁给了大学老师。

一家公司宣布3003人持有该公司的股份,每人平均持有约660股。这倒是实话。不过同样是实话的还有,公司共有200万股股票,其中,3位大股东的股份就占了3/4,而剩下的3000人总共持有的股份只占1/4。

如果给你一个指数,你也许要问是不是漏掉了什么。该指数也许是被挑来用以扭曲事实的。一个全国性的工人组织曾经表示:经济萧条过后,利润和生产指数的增长要比工资指数的增长快得多。但是,有人找到漏掉的数据时,这个作为要求涨工资的论据就失去了效力。这是因为经济萧条时期利润已经降至一个较低水平,其基数较小,所以利润在此基数上增长的百分比一定会比工资的大。

(本文节选自《统计数字会说谎》一书,内容略有删节,标题为编辑所加。)


 

fm

《中国经济周刊》2018年第13期封面


中国经济周刊-经济网版权作品,转载时须获得授权并注明来源,违者将被追究法律责任。

(网络编辑:何颖曦)
  • 微笑
  • 流汗
  • 难过
  • 羡慕
  • 愤怒
  • 流泪
0