生活中的统计学陷阱
- 格式:doc
- 大小:136.00 KB
- 文档页数:2
数据·2011/0254在用事实说话的社会里,统计越来越受到重视。
但如同任何事物具有两重性一样,统计有时也被利用为恶意夸大或简化事实、迷惑他人的工具,往往堂而皇之出现,而不易让人察觉。
不懂统计的人很容易被误导、被欺骗,从而做出错误的判断或决策。
为了避免更多的人被误导,在此介绍几招生活中常见的统计骗术。
其实,只要我们掌握了相关的统计知识,那些别有用心的人就再没用武之地了。
“蒙人”的绝对数绝对数是统计绝对数的简称。
它是反映现象总体在一定时间和空间条件下所达到的总规模、总水平或工作总量的综合指标。
有以货币单位(元、美元、日元等)计量的价值指标,如2010年我国GDP(初步测算数)为397983亿元,也有以实物单位(包括自然单位、度量衡单位、标准实物单位等)计量的实物指标,如2010年我国的粮食产量为54641万吨。
数值的大小受总体范围的制约,总体范围增大,数值也随之增大;相反总体范围缩小,数值也随之减小。
因此,对于规模不等的总体,其绝对数值不能直接对比并以此判断事物的优劣。
但在日常生活中,常常有人有意无意忽视总体规模的大小,用不匹配的绝对数数据达到蒙人的目的。
最为常见的是有关交通意外事故的数据,如果不懂得它们是极其不匹配的数据的话,无论哪种交通手段的事故记录,都可能让人们得出错误的结论。
公安部发布的2005年中国道路交通事故统计分析数据指出:2005年,全国公路上发生交通事故272840起,造成76689人死亡,其中高速公路上交通事故造成6407人死亡,二三级公路上交通死亡事故最多,共造成47448人死亡,给人的感觉好似二三级公路比高速公路更容易出事故。
其实不然,虽然中国的高速公路近年发展很快,到2005年底,高速公路总里程达到4.1万公里,位居世界第二位,但二级公路有24.6万公里、三级公路有34.5万公里,合计达59.1万公里。
在营运里程14倍余高速公路的二三级公路上出现的交通事故较多是很自然的事,因为二三级公路的营运里程长,行驶的车辆和行人更多,出现事故的可能性更大。
统计中的骗局致谢语:在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。
在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。
这些人,我猜想,将乐意成为无名英雄。
同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》;George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。
Darrell HuffⅠ序言:我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。
"在他所阅读的关于加州的报道的确如此。
但是,这些报道通常来自一份爱荷华州的报纸。
这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。
我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。
类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。
几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。
所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。
这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。
人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。
平均数是统计中最常用的概念之一,小到日常计算,大至GDP核算,都离不开平均数的身影;简单如速度测量,复杂至航天器稳定性测试,都要仰仗平均数出马。
它让纷繁复杂的群体有了可度量的标准,但也将事物的全貌单一化,数据的结构、数据的周期、数据的优劣全部掩盖在一个数字后面,这就给我们客观全面了解事物埋下了“陷阱”,如何跨越平均数的缺陷去客观地考察事物呢?这就需要我们熟悉平均数的陷阱。
陷阱一:安思科姆四重奏由耶鲁大学统计学教授佛朗西斯·安思科姆提出的“四重奏”理论表明:迷信平均值而忽略数据结构将导致数据认识的严重偏差。
以下4组数据是一个典型的“安思科姆四重奏”。
对表1中4组数据统计平均数,结果如下:X1=X2=X3=X4=9Y1=Y2=Y3=Y4=7.54组数据X和Y平均值相同,单从平均数指标看4组数据是无区别的。
但是在对以上4组数据绘制散点图后(见图1~图4),我们惊奇地发现,平均数“欺骗”了我们,4组数据呈现形态迥异的4种图形分布,它们之间并没有共同之处。
这是因为平均数的集中性使得我们对数据的结构分布视而不见,高度的综合掩盖了数据背后的图形规律。
陷阱二:辛普森悖论这是某高校的研究生录取情况,从总体看,男生的平均录取率为21%,远低于女生的平均录取率42%,从平均值看男生考取这所学校可比女生难多了,实际情况是否真的如此呢?让我们分学院再看一下录取情况,怪事发生了!无论是统计学院还是外语学院,男生的录取率都远高于女生,为什么每个学院录取中都占据优势的男生,在取总体平均数之后反而变成了弱势一方呢?从表格上我们可以看出,统计学院考取的难度较外语学院要大得多,虽然男生在两个学院的录取上都比女生有优势,但他们大多选择报考低录取率的统计学院,女生则基本选择报考录取率高的外语学院,所以男生的录取率平均后被大幅拉低,被女生的平均录取率超越了。
陷阱三:依赖平均数进行决策的误区一家连锁餐厅做了详尽的统计分析后推出以螃蟹为主打的海鲜特惠自助餐促销,他们事先统计了吃螃蟹顾客的平均比例,每位顾客的平均螃蟹消费量以及螃蟹的市场平均售价,并以此为依据制定了促销价格,按照这个价格每位顾客可以为餐厅带来25元的利润。
50个思维陷阱,很容易掉进去,不得不防1.差理由偏误:“为什么要把蓝色和黑色的衣服分开洗?”,“因为我想分开洗”。
事实:人们只要听到“因为”,就倾向于产生理解,理由好坏有时并不重要。
所以,注意不要被差理由忽悠。
2.疲劳决策:劳累一天头昏脑胀的时候,做了一个重要决定,后来发现很不明智。
事实:做决定是需要消耗能量的,疲劳后人容易做出不理性的决定。
所以,不要在疲劳的时候,做重要的决定。
3.关联谬误:选择了自己吉祥数字的房间,尽管这个房间其实没那么好。
事实:人们倾向于把本身不相关的事,赋予某种荒唐的关联,在没有因果的地方强加因果。
所以,谨防关联偏误,做出错误决策。
4.平均数偏误:尝试去蹚一条平均1米深的河,以为完全没危险。
事实:人们经常把平均数当真相,但平均数很多时候并没有意义,因为它常常不具有代表性。
所以,了解事实还是要看,数据整体分布情况。
5.激励排挤效应:出于友情帮朋友搬家,结果朋友给我发了一个100的红包。
事实:有些时候人的动力源于精神层面,金钱上的激励会排挤掉非金钱意义上的动力。
所以,有些时候,给钱并不管用,可能还会引起负面的效果。
6.废话倾向:一个人滔滔不绝,但似乎听起来,并没有表达什么有价值的信息。
事实:人常有废话倾向,害怕不说话,别人把自己当傻瓜,于是废话连篇,彻底暴露了自己糊涂的思想。
所以,没有什么可说的时候,最好就什么也不说。
7.移民效应:有个笑话说,那些从俄克拉荷马州搬到加利福尼亚州的人,一下提高了两个州的平均智商。
事实:数据变好,事情并不一定就变好,比如,通过调换组员,将两组的平均值都变好,但其实并没有实质上让两组都变好。
所以,要警惕移民效应。
8.信息偏倚:拿一张1比1的地图,是学不到知识的。
事实:人们总是希望尽可能多地获取信息,来支撑自己决策,但过量的信息反而会干扰决策。
所以,重要的是,掌握关键信息,而不是更多信息。
9.聚集性幻觉:从天空中的一堆云里看到一只猫,便以为是一种上天的启示。
【统计陷阱】分析数据时常见的7 类统计陷阱我们会发生各种极有可能出现的混淆,数据抽取之后「迷恋」于数字,脑子里没有分析的目标,自己的局限影响指标选择......当分析数据的时候我们都很容易犯错。
不过,用户体验团队需要用户行为的准确画像,你就要记下分析数据(用户体验分析)时最常见的几个错误,或者说读数据时几个最大的失误。
这些都与对用户行为进行错误的假设有关,然后你就会发现:o较小的数字通常表示负面信号o如果数据结果表明有一个相关性,那么肯定存在一个因果关系·····等等。
现在,允许我向你揭示当做统计说明时7 个最常见的错误。
1. 访问和浏览:混淆它们并且过度依赖它们不管是不是新手数据分析师,都会陷入交替使用这两个概念的陷阱:不同的数据分析工具对同一概念使用不同的术语,(甚至)在同一工具中都会使用令人感到模糊的术语,难怪你会将浏览当作访问,反之亦然。
不过要确保你完全理解术语,否则你就有以下风险:o使用错误的数据做报告o将一些极不准确的报告整合在一起毫不意外,这是进行数据解释时最常见的错误。
现在,让我们定义浏览和访问,并一次性地将它们的区别列出:o浏览(页面浏览)是指浏览网站上的一个页面,可被追踪分析代码所追踪。
o访问(session)是指用户在特定时间内,在你网站上进行的所有动作。
现在说到浏览和访问还有一个在分析解释数据时颇为常见的错误,那就是:过于依赖浏览和访问!作为UX 设计师,你也许想要将提升访问量和浏览量的任务交给做市场的人。
然后集中处理与用户体验有关的数据。
2. 要有全局观而不是深挖数据简要地浏览一下可以获取的数据:o快速评估手头的数据o迅速浏览「头行」数字这样只能得到一些网站当前的运行状态,不会给你任何提升用户体验的线索。
怎样提高数据分析效率呢?换句话说:访问量仅仅是一个指标用来告诉你有多少人在给定时间段内到达你的网站,不会告诉你怎样鼓励这些人浏览网页。
不靠谱的统计数字如何欺骗了你?【⼀】在这个信息爆炸的时代,我们的周围总是充斥着各种各样的新闻和数据,⽐如“⼴东本科⽣平均⽉薪7000,你拖后腿了吗?”、“北京⼈初婚平均年龄为27岁,结婚越晚越稳定”、“从除⼣开始放假会让很多员⼯觉得浪费⼀天假期”……⾯对这些数字时,你是否会在被戳中痛点后默默回⼀句“我⼜⼀次被代表了”或者“哥⼜拖后退了”?当然,还有⼀些所谓的研究结果甚⾄通过⽹络被快速传播,成为了⼈⼈都知道的“科学”事实:“近视眼戴眼镜会眼球变突”、“家⽤电⼦设备辐射⼤,所以⼿机不要放床头、电脑⼀定要⽤防辐射的机箱,接电话时不要离⽿朵太近”、“碱性体质的孕妇更容易⽣⼉⼦”……这些所谓的“科学”通过“⽤数字说话”的⽅式吸引了你的注意⼒。
可是,客观真实的数字摆在那,我们就能正确认识世界了吗?今天,精读君就为⼤家推荐⼀部美国统计专家达莱尔·哈夫的著作《统计数字会撒谎》,看看我们周围的数据中都暗含了哪些骗局。
作者达莱尔是⼀名⾃由记者,因其1954年出版的这本精彩、⼤为畅销的《统计数字会撒谎》⽽深受数代极客的爱戴。
【⼆】“平均年收⼊10万”,对你来说是什么概念?作为揭露数据造假的经典⼯具书,这本《统计数字会撒谎》在50年代⼀出版,就成为有些⼈的“⼼头⼤患”,他们在全世界对其进⾏围追堵截,就是因为害怕读者看到书中的真相。
它诞⽣之后,不仅被奉为“世界统计学普及读物第⼀畅销书”、“25本投资经典之⼀”、“经典社会学读本”,⽽且被誉为“数据造假曝光宝典”,在世界畅销50年⽽不衰。
达莱尔⽤风趣的插图和通俗的语⾔把⾼深的统计写得像“故事书”⼀样精彩,这种独具⼀格的⾏⽂和编排使得此书更具魅⼒。
此外,书中还揭露了⼤量⾄今仍被销售员、专家、记者或者⼴告撰稿⼈频频使⽤的“⾏骗⼯具”,如:有偏的样本,精⼼挑选的平均数,遗漏某些重要的数据,混淆因果关系,滥⽤⼀维图形等。
更为重要的是,达莱尔在书中破解了如何识破虚假统计数据。
现代经济信息不要掉入统计数字的陷阱王心仪 广州市第四十七中学摘要:我们生活在信息时代,信息的主题就是统计数据,统计数据覆盖经济和社会的各个领域,但是并非所有的统计数据都是客观真实的,本文通过实例来分析有偏的样本、精选的平均数、隐藏的部分数据、误解的相关关系、不完全匹配的资料等几种统计数字说谎的方式及其破解的方法。
关键词:统计数字;陷阱;破解方法中图分类号:F713.8;F712.3 文献识别码:A 文章编号:1001-828X(2017)001-000154-02在这个信息爆炸的时代,各种各样的数据充斥在我们周围,比如“广东本科生平均月薪7000元,你拖后腿了吗?”、“北京人初婚平均年龄为27岁,结婚越晚越稳定”……可是,数字摆在那儿,我们就能正确认识世界了吗?我们要如何才能够看清这些漫天飞舞、貌似客观真实的统计数据背后的谎言?下面我们就来看看几种统计数字说谎的例子及其破解的方法。
一、有偏的样本我们来看一则媒体报道:“6月15日,人工智能公司在北京发布了《2015年中国大学薪酬排行榜》,清华大学高居榜首,复旦大学和上海财经大学分列二三位。
这份薪酬排行榜是根据来自招聘和猎头公司的4000万大学毕业生真实毕业去向数据分析所得,由各大学毕业五年薪酬指数计算所得。
”(来自新浪教育频道,2015年6月17日)2015年本科毕业生薪酬最高的100所大学名次学校名称毕业五年薪酬数值(元/月)北上广深就业比例(%)学校类型所在城市1清华大学128072复旦大学116613上海财大11235……事实上,这个数据中就使用了一个有偏的样本,从以下几个方面,我们可以看出破绽:首先,对于一群已经离开学校的人,了解他们的平均收入,且精确到以元为单位,几乎不太可能;其次,对于年收入10万元以上的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水;再次,这些毕业生不一定坚持说真话,有些人可能出于虚荣或天生乐观而夸大数据,还有一些人也有可能故意缩小数字;最后,没有人能够掌握那些不通过招聘和猎头公司的学生就业情况,比如自我创业者。
谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。
抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。
这一发现令我兴趣大增。
而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。
其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。
原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。
也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。
书中提到的事例是关于某一住宅区居民的年均收入。
当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。
他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。
均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。
相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。
实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。
所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。
统计学揭开生活骗局作者:刘仔来源:《课堂内外(高中版)》2019年第09期你以为乘坐“飞机很危险,统计学却证明飞机远比汽车安全;你以为有钱人都是大腹便便的秃头老哥,统计学却告诉你富人偏瘦。
假如生活欺骗了你,统计学帮你揭开骗局。
银色是我的保护色据新西兰奥克兰大学的休·弗内斯教授及其科研小组,对奥克兰公路上所有轿车事故的调查分析结果表明:银色轿车看似小众,实际上占据了整个调查车辆的11%,位列白色、蓝色、红色之后,是大众第四喜欢的颜色。
(好奇怪,居然没有黑色!)此外,统计结果还显示:银色轿车比其他颜色的轿车发生恶性事故的可能性更小(从调查资料上看,银色轿车危险性低的原因与轿车的质量及价格无关),即便发生交通事故,银色轿车驾驶员受伤的概率也比其他颜色的轿车低50%,而黑色、棕色或绿色轿车发生恶性事故的概率则是其他色系轿车的200%以上,这……难道就是传说中的保护色?清华大学汽车碰撞试验室的调查分析数据同样表明:黑色系的轿车事故发生率最高,达到50%,其次是绿色、棕色、红色,达到15%,而事故率最低的是白色和银灰色轿车,只有2%左右。
看到这里,还不赶紧回家告诉爸妈,想要安全出行,一定要买银色车!人类的嘴,骗人的鬼你以为炫耀是人类的天性,但一项数据表明:大多数人,特别是女性,在购物后往往会将花费的金额降低20%汇报给家人。
“宝贝,今天妈妈给你买了一件新衣服,打8折,才100块。
”也许这件衣服的实际价格是125块,而且并没有打折。
“儿子,爸爸这部手机4000多,不贵!”也许这部手机的真正价格超过了5000块,只是这位父亲因为花钱太多,回家不敢说。
如果你留意生活中的细节,就会发现,在钱这件事上,我们总是很容易说谎。
在公交车上丢了100块,你很可能会告诉父母只丢了80;朋友向你借了50块钱结果不想还,你很可能说你就借了30块……都说“男人的嘴,骗人的鬼”,其实无论是男性还是女性,无论是大人还是儿童,都是会说谎的啦!被误解的女司机说起交通事故,女司机们往往被冠以“马路杀手”的恶名,网上甚至还一度出现过“珍爱生命,远离女司机”的戏谑警示語。
小心,别掉入陷阱!作者:刘金龙来源:《数学大王·趣味逻辑》2019年第09期在生活中,你做过调查统计吗?其实啊,统计中有很多“陷阱”,一不小心就可能会“掉”进去。
不信?那就看看乐乐做过的那些统计吧!乐乐妈妈在几个小区的中心位置开了一家水果店。
夏天到了,水果不好保存。
为了避免水果滞销或者坏掉,在进货前,妈妈想做一个调查,了解周围这几个小区的居民对各种水果的喜爱程度。
乐乐自告奋勇担起了大任——帮妈妈做调查,并进行了统计。
不过,当乐乐兴高采烈地将他制作的统计图拿来时,妈妈却傻眼了。
乐乐画的统计图如右图:乐乐说:“妈妈,你看,人们最喜爱吃香蕉,苹果第二,葡萄第三。
”妈妈疑惑地问:“可是,这个‘其他’是什么呀?”“那是指其他水果。
水果太多了,我就都放在一起了。
”乐乐说道。
妈妈拉着乐乐坐下,给乐乐讲解道:“乐乐,你看,这个‘其他’的比例占据了39%呢,比你现在统计出的香蕉、苹果和葡萄都要多。
虽然这是人们喜爱的多种水果占据比例的总和,但人们对这些水果的喜爱还是有多有少的啊。
也许,人们对‘其他’里的某一种水果的喜爱程度要大于葡萄和苹果,甚至香蕉呢!”乐乐若有所思地点点头,说:“妈妈的意思是再将‘其他’里的水果种类分别进行详细的统计?可是,有太多种水果了,我是写不完的。
”妈妈笑着说:“你不用将所有的水果都写完,但也不能太少了。
你只要将人们喜爱的水果占比从多到少再往下统计,直到‘其他’所占百分比不足10%,最好能到5%,这样你就可以帮助妈妈粗略预计出各种水果的进货量了。
”乐乐重新将小区里居民喜爱的水果进行了调查统计,发现大家对梨的喜爱比例竟然高于葡萄。
乐乐吐吐舌头,没想到自己的一个偷懒,差点导致妈妈进货时出现了偏差。
幸好乐乐对统计结果及时进行了修正,不然可能出现有的水果供过于求,有的供不应求了。
所以说,统计时一定要做到详细,尤其在用到“其他”这个综合项目时,如果“其他”包含的项目较多,那么很容易导致所得结果不符合事实。
统计陷阱案例
1.相关性不代表因果关系。
当两个变量有高度相关性时,不能简单地认为其中一个变量是另一个变量的原因。
例如,日销量与天气之间可能存在相关性,但并不能因此得出结论,说天气是销量增加的直接原因。
2. 偏差样本可能导致误导性结论。
如果样本数据不具有代表性,即其中一些群体或类型被过度或不充分地表示,那么分析结果可能会产生偏差。
例如,如果一项研究只涉及高收入者而没有低收入者,结论可能不适用于整个人群。
3. 懒惰统计可能导致错误结论。
懒惰统计是指使用简化方法来处理数据,而不是采用更复杂的方法来获得更准确的结果。
例如,使用平均数来代表整个数据集合时,可能会忽略掉一些极端值,从而影响结论。
4. 小样本量可能产生误导性结果。
当样本量太小时,结果可能不足以代表大多数情况。
例如,一个小样本的调查可能会导致错误的结论,因为样本不足以代表整个人群。
5. 非随机抽样可能导致偏见。
当抽样方法不是随机的时,可能会有一些群体被过度或不充分地代表,从而导致分析结果产生偏差。
例如,如果一个政治调查只针对某一个党派的人群,那么结果可能不具有代表性。
这些统计陷阱案例强调了在数据分析中需要谨慎对待数据,同时需要使用适当的统计方法来获得准确的结论。
警惕统计数据误读!随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。
言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。
在第二次世界大战中一个关于统计学的小故事流传甚广。
讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。
只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。
结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。
并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。
统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。
厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。
这个故事被看作是说明统计学应用的经典案例。
看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师专家提醒说,这个简单故事背后的专业论文,长度有百页之巨。
说到日常生活中经常遇到的统计学先陷阱,专家表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。
比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。
“这很容易知道不是因果关系,而是因为有共同的原因——天气热。
天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。
”专家解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。
“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。
又A和C共同作用导致了B,也有可能B和C共同作用导致了A。
这个著名的统计学悖论,第一次听说的人很可能怀疑人生原创把科学带回家把科学带回家 2018-11-21作者七君我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等。
像是,哪个学校的就业率高,我们就会去报考这个学校。
统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。
不光是个人,公司和国家也是这样做决策的。
那么这样做对吗?其...实...不...对今天我们就来介绍一个让人非常头疼,但非常有用的悖论,它会告诉你,很多时候统计数字相当不可靠,特别容易误导人。
先来看一个假设的例子。
小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。
小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:医院A最近接收的1000个病人里,有900个活着,100个死了。
医院B最近接收的1000个病人里,有800个活着,200个死了。
作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。
呵呵,如果小明的选择是医院A,那么她就中计了。
就这么说吧,如果医院A最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。
在这100个病情严重的病人里,有30个活下来了,其他70人死了。
所以病重的病人在医院A的存活率是30%。
而在病情不严重的900个病人里,870个活着,30个人死了。
所以病情不严重的病人在医院A的存活率是96.7%。
在医院B最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在医院B的存活率是52.5%。
有600个病人病情不严重,590个人存活,所以病情不严重的病人在医院B的存活率是98.3%。
画成表格,就是这样的——医院A:病情死亡存活总数存活率严重70 30 100 30%不严重30 870 900 96.7%合计100 900 1000 90%医院B:病情死亡存活总数存活率严重190 210 400 52.5%不严重10 590 600 98.3%合计200 800 1000 80%你可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是医院B。
《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。
抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。
这一发现令我兴趣大增。
而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。
其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。
原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。
也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。
书中提到的事例是关于某一住宅区居民的年均收入。
当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。
他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。
均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。
相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。
实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。
所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。
统计陷阱——正确解读统计数据“统计局发布的平均工资水平,在咱们单位要副主任医师才有可能达到。
医生在那个地址属于收入中等偏上的职业,咱们都达不到,低收入家庭就更别提了。
”看到国家统计局发布的上半年全国城镇单位在岗职工平均工资10990元,比去年同期增加18.5%。
上半年城镇居民人都可支配收入,实际增加14.2%的统计数据,云南一所医院的陈医生感觉有些疑惑。
“此刻的全世界首富前5位中,有3位是在大学半途退学的学生。
请问咱们此刻是不是应该抓住国家鼓舞大学生自主创业的机遇,退学去创业呢?”在11月28号晚上举行的学习17大、探讨宏观形势与大学生微观生活的论坛活动中,一名同窗如此提问。
“80后是垮掉的一代,你看那么多沉迷网络游戏的,生活作风糜烂的,没有独立生活自理能力的,……,处处都是如此报导的。
”……咱们所见所闻的许多东西也和上面的事例一样。
平均数、作用关系、趋势图表与看上去的并非老是一致。
统计是一种神秘的语言,在一个用事实说话的社会里是如此的吸引人,因此在咱们社会生活的各个领域,统计方式或统计术语是如此不可或缺。
但如果是作者不能正确明白得并适当利用这些统计语言,而读者又并非能真正知道这些术语的含义,那么,统计结果就只能是一堆废话。
咱们不能要求每一个人都成为统计专家,那一般百姓如何正确解读统计数据,从中识别有效信息以避免掉入统计陷阱呢?让咱们一路来看看咱们看到的数字陷阱。
一、内在有偏的样本。
我曾做过如此一个调查:年初,我给好些毕业后联系不太多同窗打,直言我想做个薪情的调查,一部份同窗收入不错,很爽快的配合我,跟我在中交谈得超级愉快;另一部份同窗那么诲莫如深。
二个月后,我再次给这些同窗打,宣称我想借点钱买房,这次那部份收入不错的同窗开始说自己收入不多,匆匆挂了;而那部份收入较低的同窗跟我深切沟通,尽管说没钱借给我,却真实的跟我提及他们的收入。
调查进程中类似如此的样本有偏的情形相当普遍,尤其是在进行商业、民意调查等时,结果不必然被人为操纵,但有偏样本却致使结果的扭曲。
生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。
让我们来看几个不可轻率做出结论的例子。
①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。
这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。
统计关系往往不能表明因果关系。
由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。
②有一个调查研究说脚大孩子的拼音比脚小的孩子好。
这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。
这个研究对象是一群年龄不等的孩子。
它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。
③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。
④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。
这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。
由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。
上述例子表明,统计学论述在涉及因果关系时很容易造成误读。
现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。