统计陷阱
- 格式:doc
- 大小:31.50 KB
- 文档页数:3
《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。
抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。
这一发现令我兴趣大增。
而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。
其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。
原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。
也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。
书中提到的事例是关于某一住宅区居民的年均收入。
当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。
他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。
均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。
相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。
实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。
所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。
《统计陷阱》《统计陷阱》本书是美国著名的统计学家达菜尔·哈夫的名著。
该书自1954年出版至今,多次重印并被译成多国文字,是一本影响深远的经典性著作。
《统计陷阱》一书之所以能够历久弥新,是因为其实用性,作者重说明、轻证明,重文字描述、轻理论推导,并结合活生生的案例,语方轻松诙谐,深入浅出,介绍了一些统计语和方法,更揭示了许多统计骗局,本书一共分八章:第一章内在有偏的样本主要将通过偏差的样本来获得想要的数据,文中举例耶鲁大学毕业生的工资来说明这个问题,给出统计结论时却并未给出样本,通过合理的猜测,可以知道这样的样本是有偏差的,例如能联系上的人一般都不穷,愿意告诉别人自己工资的人更不穷第二章精心挑选的平均数一般给统计结论时却并不给出是哪种平均数,是算术平均还是中位数或者是众数,通过这种方式来欺骗人,例如最近很流行的居民平均居住面积,平均收入等第三章没有披露的数据反复做试验,指给出对自己有利的数据,例如我想证明抛硬币正面出现的次数是80%,那么我每次抛10次,反复抛,直到某次试验正面出现8次,以此作为支持我结论的数据第四章毫无意义的工作计算某一个数据时,需要知道这个数据可能的误差,如果不考虑这个误差,则数据毫无意义,例如智力测验,需要首先明确测验可能的误差,例如正负3,平均智力是100正负3,如果不考虑这个误差,而直接说平均智力是100,a的智力是98,b的智力是101,b的智力比a的好,这样的结论是没有意义的第五章惊人的统计图形通过对图形的夸张画法,来达到误导读者的目的,例如将y轴不从0开始,x,y比例不一致等第六章平面图形本章与上一章比较类似,不过图形换成了平面图形,平面图形不只有高度还有宽度,例如通过钱袋子来比较工资,本来2倍的工资只需要钱袋子高两倍就可以,但这样不协调,因此要更宽,更鼓,导致的结果就是不是2倍,看着是8倍第七章不相匹配的资料问题本身并不能真实地反映这个问题所代表的观点,例如黑人与白人的就业机会均等 == 黑人与白人平等,事实上有种族歧视的人更愿意回答二者的工作机会相等,而同情黑人的人更愿意回答不等,另外很多数据与最终的结论也没有多大的关系,例如药物实现,实验室的环境,药物与最后在药店里购买的药物有可能很不一样,或者实验室环境与人体环境差别很大,等等,都导致数据的不准确性。
统计陷阱读后感第一篇:统计陷阱读后感由于知识,信息和地位的不对称,普通人在面对行业精英专门设计的陷阱总是无法防备.就像普通美国民众无法理解华尔街“金融天才”搞的次级抵押贷款的潜在风险一样...恩,不光是普通人,就连中石油这样的顶级上市公司,在顶级ceo的带领下也会中套,油价顶点超高价大笔收购国外油田例如TYK之类的...信息欺骗有很多种,而利用统计数字来进行欺骗可能是比较普遍的了,就像马克吐温说的,There are three kinds of lies: lies, damned lies and statistics.这本书就是揭露说明专家们的欺骗行为的.比如报社为了吸引眼球,如何发布关于名牌大学毕业生高收入的报道,政府部门如何利用同样的原始数据,算出不同的统计结果,房地产为了卖房子,如何统计出小区业主的超高收入,一般人如何误读智商测验的一般统计结论,大公司的销售和市场部门如何用图形上的视觉欺骗来提高统计数字给人的感官效果,广告商如何用不匹配数据对大众进行误导....接着,在罗列了种种利用统计欺骗的手段后,书里描述了一系列方法和手段,告诉我们在面对统计数字的时候,如何去理解和评估那些数据,如何揭穿有意或无意的统计骗局.这本书的特色就是案例非常多,用案例的好处是比较容易能理解,缺点就是有的时候比较罗嗦,有时候一眼就能看出问题所在,书里还要花个几千字去描述他...好比那个经典的二维图形欺骗案例...书里我最喜欢的一段是介绍平均工资偏高的案例,不过有些地方用词太学术了:“当数据的分布呈现正偏态时,均值往往偏离一般水平。
收入分布是典型的正偏态分布,这样一来,平均工资偏高就十分正常了。
"囧。
这有优点像概率统计课程了。
这个还不如我的解释通俗易懂:假如有10个穷人工资是1块,1个富人工资是12块”,算术平均数的算法,就是22块除以11人,平均工资是2块。
这个结果明显高于普通人“平均”工资.所以统计局平时说的大家平均工资有2k了,其实一般人是没有2k的,大家感觉偏高了,可是统计局可以言之确凿的说,这确实是某种统计方法算出来的还有一种常用的统计方法我记得是平方平均数,计算方法是平方数相加后取平均,再开根号,用上面的例子就是(10+12*12)/11=14,14开根号就是 3.7块.还有一种统计数值,调和平均数(將数值个数除以数值倒数的总和)算出来是1 我发现最夸张的是几何平均数算出来是11。
【统计陷阱】分析数据时常见的7 类统计陷阱我们会发生各种极有可能出现的混淆,数据抽取之后「迷恋」于数字,脑子里没有分析的目标,自己的局限影响指标选择......当分析数据的时候我们都很容易犯错。
不过,用户体验团队需要用户行为的准确画像,你就要记下分析数据(用户体验分析)时最常见的几个错误,或者说读数据时几个最大的失误。
这些都与对用户行为进行错误的假设有关,然后你就会发现:o较小的数字通常表示负面信号o如果数据结果表明有一个相关性,那么肯定存在一个因果关系·····等等。
现在,允许我向你揭示当做统计说明时7 个最常见的错误。
1. 访问和浏览:混淆它们并且过度依赖它们不管是不是新手数据分析师,都会陷入交替使用这两个概念的陷阱:不同的数据分析工具对同一概念使用不同的术语,(甚至)在同一工具中都会使用令人感到模糊的术语,难怪你会将浏览当作访问,反之亦然。
不过要确保你完全理解术语,否则你就有以下风险:o使用错误的数据做报告o将一些极不准确的报告整合在一起毫不意外,这是进行数据解释时最常见的错误。
现在,让我们定义浏览和访问,并一次性地将它们的区别列出:o浏览(页面浏览)是指浏览网站上的一个页面,可被追踪分析代码所追踪。
o访问(session)是指用户在特定时间内,在你网站上进行的所有动作。
现在说到浏览和访问还有一个在分析解释数据时颇为常见的错误,那就是:过于依赖浏览和访问!作为UX 设计师,你也许想要将提升访问量和浏览量的任务交给做市场的人。
然后集中处理与用户体验有关的数据。
2. 要有全局观而不是深挖数据简要地浏览一下可以获取的数据:o快速评估手头的数据o迅速浏览「头行」数字这样只能得到一些网站当前的运行状态,不会给你任何提升用户体验的线索。
怎样提高数据分析效率呢?换句话说:访问量仅仅是一个指标用来告诉你有多少人在给定时间段内到达你的网站,不会告诉你怎样鼓励这些人浏览网页。
《统计陷阱》读后感放寒假前,经学长的介绍,特地在图书馆里借了一本《统计陷阱》在假期里读,看完之后的感触到真不少,而且总想着什么时候写一点读后心得之类的东西,无奈,因为惰性,总是找各种各样的理由来推迟.这次还得感谢学校这个次机会,让我终于可以完成早该结束的任务了。
先来谈谈写这本书的背景:在20世纪50年代,美国出现了一种尊崇统计风,太多的人都乐意,也轻易的相信了那些统计数据,原因很简单,大多数的统计数据都可以让不同的人产生不同的效果。
例如,一个企业可以让员工看出今年的效益,同样的数据,换一种统计方法,也可以反映出企业的不景气,这就是为什么太多的公司,企业,甚至政府部门都习惯用统计的方法来传达自己的意思。
介于这个背景之下,美国作家达莱尔·哈夫以一个经验老道,且退休的窃贼的身份,用回忆录的形式,在本书的前八章讲述了常用的一些行骗手段,在第九章总结了前面所列出的所有方法,而在最后一章中,教人们如何识破统计数据中的陷阱,告诫人们以一个正确的态度去看待一个数据,从而不做一个被数据玩弄于手的玩偶.本书中列举出的,常用统计手段大致可分为:利用内在有偏样本,选出不同的平均数,隐藏总要的数据,忽略必要的误差,滥用统计图形,采用不完整匹配的资料以及误解相关关系等。
当读完这本书时,回过头在,如果你用书中的衡量标准来看任何一组数据,都会发现其中的不可行性,所有的数据都是可以质疑的,那么不禁会有两种念头:其一,为什么统计着要这样做,公布这样的数据是为什么?答案很简单,无非是利益所趋,商家,政府乃至所有人都想隐藏掉那些自己认为很重要的数据,公诸于世的无非是想博得同情或者获得荣耀。
其二,这个世上不就没有可以相信的数据,因为没哟绝对的正确,那么我们是否就因此而否定自己看到的,听到的一切呢?显然不是,这本书最重要的是,教会我们如何正确的看待数据,正确的从数据中拿去自己需要的,不可全信,但不意味着一点也都不可信。
在这里,我重点来谈谈:内在有偏样本,选取不同平均数,采用不完整匹配的资料以及误解相关关系这几种“行骗手段”。
读书笔记《统计陷阱》《统计数字会撒谎》两本⼀样的书,不同的出版社⽽已,晕...本来是个怀疑主义者,看过了就更怀疑了,呵呵~~P16从总体中抽出的样本(第⼀次抽样)远不能称为随机抽样,因此可能对所有的总体都不具有显著的代表性。
同样,我们需要了解到:任何⼀个调查问卷都只不过是所有相关问题的样本(第⼆次抽样)。
⽽绅⼠或⼥⼠们所给的答案也只不过是他(或她)关于每个问题的态度或经历的样本(第三次抽样)。
脑筋急转弯,以下说法的问题在哪⾥?1、随处可见某种榨汁机的⼴告:“经过实验室的证明”该榨汁机的“榨汁功能增强了26%”,并且“得到了好管家研究院的推荐”。
2、“⼤多数——约78%的职员反对⼯会。
”3、在美国与西班⽛交战期间,美国海军的死亡率是千分之9,⽽同时期纽约市居民的死亡率是千分之16。
后来海军征兵⼈员就⽤这些数据来证明参军更安全。
4、在1942年杜威当选州长时,⼀些地区教师的最低年收⼊只有900美元;⽽今天,纽约州的教师享有全世界最⾼的收⼊⽔平。
在杜威政府的建议下,在由杜威指定的委员会的表决下,⽴法机构于1947年从州财政盈余中拨出3200万美元直接⽤于提⾼教师收⼊⽔平,这使得纽约市教师最低收⼊⽔平提⾼到2500-5323美元之间。
5、康奈尔⼤学对1500名普通的、年龄中等的毕业⽣进⾏了调查。
他们中的男孩,93%已婚(同年龄层的该⽐例为83%)。
但是⼥孩中只有65%已婚。
未婚笔记是同年龄层⼥孩的3倍。
结论:如果你是个⼥孩,上⼤学会提⾼你成为未婚⼥⼦的⼏率。
但如果你是⼀个男⼦,结果相反——它将减少你单⾝的机会。
6、英国新赫布⾥群岛⼟著居民的信条:⾝上的跳蚤会带来健康。
因为通过⼏个世纪的观察,⼟著居民发现健康⼈的⾝上总有⼀些跳蚤,⽽⾝体羸弱的⼈⾝上通常没有跳蚤。
于是他们得出结论:跳蚤使⼈⾝体健康,每个⼈⾝上都应该有跳蚤。
P131谁说的?⾸先要寻找的是偏差....他们提供的数据都有可能产⽣偏差。
使⽤不正确的测量⽅法也是产⽣偏差的原因之⼀,⽐如在进⾏⽐较时,⼀次采⽤某年为⽐较年份,⽽另⼀次却采⽤更有⼒的年份。
谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。
抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。
这一发现令我兴趣大增。
而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。
其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。
原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。
也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。
书中提到的事例是关于某一住宅区居民的年均收入。
当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。
他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。
均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。
相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。
实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。
所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。
统计陷阱案例
1.相关性不代表因果关系。
当两个变量有高度相关性时,不能简单地认为其中一个变量是另一个变量的原因。
例如,日销量与天气之间可能存在相关性,但并不能因此得出结论,说天气是销量增加的直接原因。
2. 偏差样本可能导致误导性结论。
如果样本数据不具有代表性,即其中一些群体或类型被过度或不充分地表示,那么分析结果可能会产生偏差。
例如,如果一项研究只涉及高收入者而没有低收入者,结论可能不适用于整个人群。
3. 懒惰统计可能导致错误结论。
懒惰统计是指使用简化方法来处理数据,而不是采用更复杂的方法来获得更准确的结果。
例如,使用平均数来代表整个数据集合时,可能会忽略掉一些极端值,从而影响结论。
4. 小样本量可能产生误导性结果。
当样本量太小时,结果可能不足以代表大多数情况。
例如,一个小样本的调查可能会导致错误的结论,因为样本不足以代表整个人群。
5. 非随机抽样可能导致偏见。
当抽样方法不是随机的时,可能会有一些群体被过度或不充分地代表,从而导致分析结果产生偏差。
例如,如果一个政治调查只针对某一个党派的人群,那么结果可能不具有代表性。
这些统计陷阱案例强调了在数据分析中需要谨慎对待数据,同时需要使用适当的统计方法来获得准确的结论。
《统计陷阱》读后感——关于辩论《统计陷阱》读后感——关于辩论韩小蝶粗读达莱尔·哈夫的《统计陷阱》这本书后,感觉将高中所学统计学知识复习了一遍,比如选取样本的代表性及广泛性,统计数值的选取以及统计表图的绘制。
然而《统计陷阱》这本书并不是教我们如何应用统计,而是告诉我们其中存在的陷阱,帮助我们更好的辨别数据的真假和衡量数据的价值。
在辩论中,我们经常需要使用广泛的具有代表性的统计数据来支撑我们的论点,是论证更加充实有力,可以将论点展开分析,从而使逻辑连贯,论据翔实。
所以,在从《统计陷阱》我们可以学到很多,让我们有能力去甄别数据对我们的利用价值和在辩论过程中,对对方辩友提出的数据提出合理质疑,从而达到拆论的目的。
本书共分为十个章节,分别为第一章内在有偏的样本第二章精心挑选的平均数第三章没有披露的数据第四章毫无意义的工作第五章惊人的统计图形第六章平面图形第七章不相匹配的资料第八章相关关系与因果关系第九章如何进行统计操纵第十章对统计资料提出的五个问题其实章节的标题就可以概括其中的中心思想。
第一章所提醒我们的是样本的代表性。
在一个辩题中,往往会确定一个主体,有时候很明显而有时候需要我们自己判断,在这个时候就需要明确这个主体,围绕其来寻找资料,多求权威的数据,。
但我觉得辩论还有一点很重要就是预判能力,你若是能预先知道别人会如何拆你的论,做好防御便可。
第二章告诉我们各种统计数值的陷阱,如平均数,众数,中位数。
当初在学习它们的时候我们就学习了使用方法区别,但往往对方都会选择最有利于自己论点的那个数据,在此时便可想法进行拆解。
第三章所讲是指商家往往会披露有利于自己的实验数据,其实此时也是与代表性挂钩,人为的选择让统计本身失去了意义。
在辩论中表现为正反与反方的冲突。
其实任何事物都存在正反两面,当我们想要赢得辩论赛胜利的时候,便要从本方角度出发,拆解对方的论点,从逻辑上征服。
第五六章所讲的是通过绘制统计图形或图像的技巧来夸大或缩小数据变化带来的直观感受,我记得当初我们物理老师所讲越均匀越有美感越好,而此时所带来的视觉上的冲击会让我们产生错觉。
统计陷阱分析报告1. 引言统计陷阱是指在数据分析和统计研究中常见的一些误区和陷阱。
这些陷阱可能导致对数据的错误解读、错误的结论以及无效的决策。
本文将分析并总结一些常见的统计陷阱,以帮助读者更好地理解和应对这些问题。
2. 样本偏差样本偏差是指从总体中选择的样本并不代表整个总体特征的情况。
这可能导致在分析和建模过程中出现偏差和错误的结论。
为了避免样本偏差,研究者应该采用随机抽样的方法来选择样本,并注意样本的代表性和样本量的合理性。
3. 选择性报告选择性报告是指在数据分析中只报告符合某种预期结论的结果,而忽略了其他可能的结果。
这种做法可能导致对数据的错误解读和不准确的结论。
为了避免选择性报告,研究者应该全面收集和报告数据,避免主观选择性。
4. 多重比较问题多重比较问题是指在进行多次假设检验或对比实验时,由于进行多次统计检验而增加了发现假阳性(即错误拒绝原假设)的可能性。
为了解决多重比较问题,可以采用一些统计方法,如Bonferroni校正、False Discovery Rate等。
5. 相关与因果关系的混淆在统计分析中,经常会出现相关性与因果关系的混淆。
相关性仅仅表示两个变量之间存在某种关联,而不能确定其中的因果关系。
为了避免相关与因果的混淆,研究者需要进行更多的实验证明,并结合领域知识进行推断。
6. 数据窥探与多重假设检验数据窥探是指在观察到某种模式或趋势后,进一步进行假设检验以验证这一模式或趋势的假设。
然而,由于进行多次假设检验,可能会出现假阳性的问题。
为了避免数据窥探带来的多重假设检验问题,研究者应该提前规定好假设,并进行合理的样本容量估计。
7. 数据缺失与处理数据缺失是指数据集中某些观测值或变量的缺失情况。
在处理数据缺失时,需要考虑缺失的原因和机制,并采用合适的方法进行处理,如删除缺失值、插补缺失值等。
同时,研究者需要注意在数据处理过程中可能引入的偏差和不确定性。
8. 结论统计陷阱是数据分析和统计研究中常见的一些误区和陷阱,可能导致对数据的错误解读和错误的结论。
统计陷阱分析报告1. 引言本报告对统计陷阱进行了分析和解释。
统计陷阱是指在统计分析中常见的误导性或偏误的情况。
这些陷阱可能会导致错误的结论或误导决策。
本报告旨在提醒读者在进行统计分析时要意识到这些陷阱的存在,以便采取适当的措施来避免它们。
2. 假设偏误陷阱假设偏误是指在统计分析过程中使用了错误的假设或背景假设,从而导致了错误的结论。
以下是一些常见的假设偏误陷阱:2.1. 假设数据正态分布假设数据正态分布是使用许多统计方法的前提。
然而,在现实生活中,许多数据并不服从正态分布。
如果在分析过程中假设了数据服从正态分布,而实际数据不服从该分布,则可能导致错误的结论。
因此,在进行统计分析之前,应对数据进行正态性检验,并在数据不服从正态分布时,寻找其他适当的统计方法。
2.2. 假设样本独立同分布在许多统计方法中,通常假设样本是独立同分布的。
这意味着每个样本观测值是独立的,并且来自相同的总体分布。
然而,在某些情况下,样本之间可能存在依赖性,或者来自不同的总体分布。
如果不满足样本独立同分布的假设,则可能导致错误的统计推断。
因此,在进行统计分析之前,应检查样本之间的依赖性,并根据情况选择合适的统计方法。
2.3. 假设样本足够大在某些统计方法中,假设样本足够大以满足中心极限定理。
然而,当样本较小时,中心极限定理可能不适用。
在这种情况下,使用这些统计方法可能会导致错误的结论。
因此,在进行统计分析之前,应考虑样本的大小,并根据样本大小选择适当的统计方法。
3. 数据选择偏误陷阱数据选择偏误是指在统计分析过程中选择了不代表总体的样本或数据集,从而导致了误导性的结果。
以下是一些常见的数据选择偏误陷阱:3.1. 抽样偏误抽样偏误是指在抽样过程中,因为抽样方法或样本选择过程的偏误,导致样本不能代表总体的特征。
例如,在调查中使用方便抽样而不是随机抽样,可能导致样本不具有代表性。
因此,在进行统计分析之前,应选择恰当的抽样方法,并确保样本能够代表总体。
统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。
甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。
实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。
陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。
这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。
解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。
同时,对于数据变化可能产生的原因应进行深入分析。
案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。
他们得出结论,冰淇淋销量增加导致溺水事故增多。
陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。
例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。
解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。
案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。
结果显示,60%的用户对该产品表示满意。
然而,当该机构对线下用户进行类似调查时,满意率仅为30%。
于是他们得出结论,线下用户对产品的满意度明显低于线上用户。
陷阱点:这里的问题在于样本选择偏差。
在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。
因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。
统计陷阱读后感《统计陷阱》读后感《统计陷阱》一共分为十章,前八章讲了各种利用统计数据说谎的方法,第九章综合了前八章的各种方法编造甚至操纵统计,而第十章则是教人们如何识破统计数据中的陷阱,看到真正的统计现实。
读完了这本书首先感慨的是原来数据不是万能的,不是所有的数据都是值得相信的。
一样数据在经过众多极具“聪明才智”的人的手后,将会表现出完全不同的情况。
那么为什么这些人要这么做呢?我想无非就是利益所趋吧。
商家要获得更好的销售量必须有更好的产品或者说更加诱惑力的产品,而统计数据真是提高这种诱惑力的最佳武器并且让产品更令人信服。
公司为了提高自己公司的声誉,获得更好的市场预期,于是利用统计数据让自己的业绩的发展更加的耀眼等等。
的确数据在很多人眼中(包括我)是客观的令人信服的,于是人们便利用这一种漏洞制造各种数据上的陷阱来迷惑众人已达到自己所期望的结果。
在我看来,这些看来这些现象是不可避免的,因为这是社会竞争的产物。
那么既然无法避免,我们就得学会识破这些陷阱的表象,看到事物的本质。
《统计陷阱》中也提到了也一方面。
首先要在数据中寻找偏差,然后看样本是否有偏,在看自己看到的数据中是否有重要数据遗漏,最后就要看是否有人偷换了概念是否用了毫无意义的或者完全不匹配的数据。
统计的谎言可以如此隐蔽,造成的危害也是不容忽视的。
2022年10月,现任希腊总理帕潘德里欧领导的新政府一上台便公布了一个爆炸性消息:希腊2022年财政赤字预计将达到国内生产总值的12.7%,而非上届政府预估的5%。
这暴露出了希腊统计数据的造假。
而这造假也造成了巨大的财政窟窿,使得希腊陷入了空前的经济困境。
统计的谎言也会得出令人难以置信的荒谬的结论。
曾有人得出一个结论:某大学有三分之一的教授与他的学生结婚了。
而建立在这结论基础上的样本仅仅是一个4人小样本。
这本书不仅让我有了识辨和看破那些统计数据的陷阱的能力,更加客观真实的了解现在社会,也为我提供了反面教材。
统计陷阱
一、统计陷阱的发现
20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。
二、统计陷阱的揭示
数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。
要认清这些骗子伎俩,唯有对统计学本身有一定的了解。
毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。
通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。
于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。
这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。
比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。
错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。
就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。
尤其是对于政府做出的统计数据,我们几乎是当笑话在看了,比如平均工资的统计,我们经常会觉得自己的工资连平均都没达到,那么是不是这些统计错了呢?不是,它们没有错,显然是因为有部分群体工资偏高,从而导致了总体平均数偏高,这里的平均数是指均值,平均数有均值、中位数、众数三种,均值一般是三者中能够得到的最大平均数,在没有点明是哪种平均数的情况下,通常就是均值,但人们正是可以利用这点来做出各种不同的平均数来达到自己的目的。
类似这种统计数据,它本身并没有错,错的是我们赋予了它与原统计数据含义不同的其他意义,以致被误读了,当然,很多时候并不是我们在赋予,而是调查者本人有意为之。
比如,XXX的覆盖率有多高,并不是表示XXX的使用率也是这样,它说明的就是覆盖率而不是其他,所以当我们看到原始数据中的XX率被替换成另一种XX率时,我们就应该注意,这样的替换多数是牵强附会的(其实,未必需要别人帮我们替换,我们自己的思维会主动做其他理解,统计骗子显然深谙此道)。
三、统计陷阱的辩证与实践
掷骰子,连续掷出5个6,很多人都会认为下一次再出现6的几率会降低,因为
在我们看来,掷出个6本身就不容易,再加上已经连续掷出了5次,那下次再掷出6的几率自然是更低了,其实掷出6的概率还是1/6,这在我们高中数学排列组合时就已经学过,相互独立事件是不会影响彼此概率的。
然而,尽管我们知道这个,感性上我们还是会认为概率降低了,类似这样的事多不胜数。
当我们经常看到飞机失事和犯罪的新闻,就会认为飞机失事率和犯罪率越来越高了,感慨坐飞机越来越不安全,世风日下。
而实际上,这些只是媒体对某一方面有所侧重的报道所导致的“假象”。
某某产品真垃圾,某某网站服务态度真差,这样的抱怨网上到处都是,几乎没有产品和网站能够躲得过,那么是不是真的如那些人说的那么差?未必,因为人们往往只会抱怨那些不幸的事,而我们眼里也往往只容得下这些负面的言论,对这些印象也会格外的深,于是,我们忘记了还有很多沉默的大多数用户和其他正面的言论。
同媒体一样,我们的记忆也会有选择性,尤其是当我们遇到重大事件后,往往容易回忆起事情发生之前某些事发后觉得“异常”的事,认为这是征兆,而事实是这样的行为经常发生,只是平常这些东西对我们没多大用处,所以都忘记了。
这就是“事后诸葛亮”。
我之前提的那个跳高导致地震的例子,由于地震这件事比较特别,我在事后回忆时想起了当时做过这个比较特殊的事,于是我认为是跳高导致了地震,如果没有发生地震我就不会记得这件我经常在做的事,而与此同时,同样在跳高的人显然不会只有我一个,我有幸成为其中一员,正好碰到了,就是这么巧。
电视剧里的人常说,“怎么这么巧?”,我答,就是这么巧。
是的,就是这么巧。
我们往往低估了巧合发生的概率。
比如,我们碰到一个与自己同一天生日的,就会大叹真巧啊,进而感慨一下缘分。
以一个班为例,假设这个班有60名学生,至少有2人是同一天生日的概率超过99%,50名学生也有97%,40名就是89%,没有碰到反倒是低概率事件了,事实上只要有23人就足以让概率达到50%,需要注意的是,这里只是指有两个人是同一天生日的概率,而不是给定的一个具体日期,如若是这样,那么概率就要低很多了。
一个篮球运动员,投篮20次,至少连入4球的概率几乎是50%。
再比如地震预测,不要以为这个难预测,其实我们每个人都可以很容易地做出预测,每年发生那么多大的小的地震,蒙对的概率是很高的,就是这么巧,蒙对了,何况在做预测的人多着呢,你碰不到,也有他碰到。
同一个统计结果,换不同的方式来表达会让人有不同的感觉,比如说一个手术,跟病人说有10%的概率会死,那么病人多数会犹豫不决,如果跟病人说有90%的存活率,那么病人选择做的可能性就会大很多。
想象,一个号称自己具有超能力的电视直播节目的主持人,他说只要观众配合,集中注意力,他就能够远距遥控硬币,让他们连掷十次硬币都是同一个面朝上,成功的观众就打电话来告知,由于电视观众众多,假设有一百多万,那么大概就会有十多万观众被成功远距遥控,不用全部的十万来打电话,只用上千个人甚至几百个人来证实就足矣,即使有很多人怀疑这个没用,但是当看到这么多人在证实后,你于是动摇了,认为是自己当时精力不够集中。
这是算命的常用的把戏的一个变种,屡试不爽,换个马甲照样忽悠我们,我们自己身上也有很多变种。
以上,只是藏在我们身上的一小部分统计骗子,因为这些骗子,我们不止被人骗还被自己骗。
骗人不一定要用数字,统计学的逻辑无处不在,要活学活用统计思想。
对待统计数据,作者告诉我们要问5个问题,“谁说的”,”他是如何知道的”,“遗漏了什么”,“是否有人偷换了概念”,“这个资料有意义吗”,以后看数据看新闻,如果自己看到后激动了,有话要说,那么先憋着,然后提醒自己问一下这几个问题,别骂完后才发现原来是假的,很丢脸的。
四、统计陷阱的思维逻辑
如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事,这就是我们常犯的逻辑谬误,偷换概念。
统计学中所包含的思维,利用统计学所犯的错误,归根到底就是逻辑。
把相关性当成因果性,这是事后归因;小样本得出大结论,这是以偏概全;为了证实自己的观点,刻意用统计方法放大比例,这是诉诸公众谬误,因为大家都这样,所以我是对的。
商品广告说统计数据显示自己的产品在某一权威群体里的使用率很高,言下之意是他们的产品是好的,这是诉诸权威谬误;等等。
基本上每一个统计陷阱就是一个逻辑谬误,学会统计学,就是学会怎么说理。
任何事最怕的就是走向极端,看了后对一切统计数字不再相信,以为看了一本书就成了个统计专家,没成统计专家也成了个分辨真假专家,这无疑是进入了另一种统计陷阱。
《统计陷阱》达莱尔·哈夫著
该书自1954年出版至今,多次重印并被译成多国文字,是一本影响深远的经典性著作。
《统计陷阱》一书之所以能够历久弥新,是因为其实用性。
随着我国经济持续发展,我们将接触到越来越多的统计数据和资料,例如,公司财务报告、证券信息、国家权威机构公布的各种统计数据等等,去粗取精、去伪存真,进行鉴别,相同的问题就会摆在我们面前。
这是一本强调统计思维的书。
该书列选英国作家利奥·高夫撰写的《25本投资经典:透视所有时代最伟大的投资名著》,由此可见其不凡的魅力和影响力。
在日常的经济生活中,我们将接触到越来越多的统计数据和资料,例如各种证券信息、投资可行性研究报告、公司财务报告等,这些资料、数据如何去伪存真,如何进行鉴别?这本《统计陷阱》回答了这些问题。
作者简介:
达莱尔·哈夫,美国统计专家。
1913年出生在美国爱荷华州,毕业于爱荷华州立大学(the State University of lowa),获得学士学位和硕士学位,在此期间他由于成绩优异加入了美国大学优等生的荣誉学会(Phi Beta Kappa),同时还参加了社会心理学、统计学以及智力测验等研究项目。
达莱尔·哈夫的文章多见于《哈泼斯》、《星期六邮报》、《时尚先生》以及《纽约时报》等美国顶尖媒体。
1963年,由于他的贡献被授予国家学院钟奖(National School Bell )。