故事中的数学-生活中的统计学陷阱
- 格式:doc
- 大小:15.50 KB
- 文档页数:2
统计陷阱一、统计陷阱的发现20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。
二、统计陷阱的揭示数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。
要认清这些骗子伎俩,唯有对统计学本身有一定的了解。
毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。
通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。
于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。
这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。
比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。
错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。
就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。
统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。
甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。
实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。
陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。
这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。
解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。
同时,对于数据变化可能产生的原因应进行深入分析。
案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。
他们得出结论,冰淇淋销量增加导致溺水事故增多。
陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。
例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。
解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。
案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。
结果显示,60%的用户对该产品表示满意。
然而,当该机构对线下用户进行类似调查时,满意率仅为30%。
于是他们得出结论,线下用户对产品的满意度明显低于线上用户。
陷阱点:这里的问题在于样本选择偏差。
在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。
因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。
这也是有实际数据佐证的。
简单结论是,单方面做数据推算,而忽略了与用户、客户的交互影响,就会做出错误的推断。
3、某同事,名校计算机博士,算法达人,做了一条曲线,A和B高度相关,得到结论,A会导致B ,看一眼结论我就骂人了,狗屎结论,实际上是A和B均受C的影响,所谓高度相关是C的因素带来的,这是只看数据不懂业务的典型。
4、样本偏差,特典型的就是沉默的大多数现象,简单举例,去IT论坛,发个投票,百度好不好,腾讯好不好,多数人会说不好。
但是真正的用户是不会去IT论坛,更不会参与这种无聊的投票;所以这种投票得到的结论,你要真信,你就傻了。
此外,还有比如送礼品的票选,喜欢这种礼品的用户,本身就有倾向性,如果票选内容与礼品有关,那么结论显然是不可靠的。
5、有人提到预测未来,补充一点,就是用户不知道自己的未来。
这也是普遍做样本调查容易产生的误区。
如果时间前溯10年,你问一个用户,你会去买苹果手机吗?他肯定会说,你是不是疯了。
但是当真的很酷的苹果手机放到他手上,他才会有感觉。
这是有真实案例的,十几年前,手机还叫大哥大,还是大款们才特有的玩物,真有调查公司跑到路边采访行人,说你需要买手机吗,行人纷纷表示不需要。
他们不知道这玩意对他们人生的改变有多大。
10年前,又有类似的事情,上网当时被认为是不务正业的表现,报纸媒体开始忧心忡忡年轻人的网瘾和被网络的伤害;然后又有媒体去采访,很多人表示,上不上网无所谓。
这些都是当年一些新闻电视里出现过的典型场景。
如果你相信,你就真完了。
这里的问题是,用户不能预知技术的发展和对人类群体乃至自身的改变;当然,有的人能看到,1997年,还在读书,我一直纠结大学毕业能做什么,第一次接触到了互联网,我坚定,这是改变人类的东西,这是我一辈子的职业。
6、举一个前几天碰到的真实的例子吧。
选取音乐电台用户的一个子集,共2W人;分成AB两组,每组1W人;对每一组使用不同的推荐算法。
统计在一天内每一组的用户一共点击了多少次喜欢的按钮和不喜欢的按钮。
数据·2011/0254在用事实说话的社会里,统计越来越受到重视。
但如同任何事物具有两重性一样,统计有时也被利用为恶意夸大或简化事实、迷惑他人的工具,往往堂而皇之出现,而不易让人察觉。
不懂统计的人很容易被误导、被欺骗,从而做出错误的判断或决策。
为了避免更多的人被误导,在此介绍几招生活中常见的统计骗术。
其实,只要我们掌握了相关的统计知识,那些别有用心的人就再没用武之地了。
“蒙人”的绝对数绝对数是统计绝对数的简称。
它是反映现象总体在一定时间和空间条件下所达到的总规模、总水平或工作总量的综合指标。
有以货币单位(元、美元、日元等)计量的价值指标,如2010年我国GDP(初步测算数)为397983亿元,也有以实物单位(包括自然单位、度量衡单位、标准实物单位等)计量的实物指标,如2010年我国的粮食产量为54641万吨。
数值的大小受总体范围的制约,总体范围增大,数值也随之增大;相反总体范围缩小,数值也随之减小。
因此,对于规模不等的总体,其绝对数值不能直接对比并以此判断事物的优劣。
但在日常生活中,常常有人有意无意忽视总体规模的大小,用不匹配的绝对数数据达到蒙人的目的。
最为常见的是有关交通意外事故的数据,如果不懂得它们是极其不匹配的数据的话,无论哪种交通手段的事故记录,都可能让人们得出错误的结论。
公安部发布的2005年中国道路交通事故统计分析数据指出:2005年,全国公路上发生交通事故272840起,造成76689人死亡,其中高速公路上交通事故造成6407人死亡,二三级公路上交通死亡事故最多,共造成47448人死亡,给人的感觉好似二三级公路比高速公路更容易出事故。
其实不然,虽然中国的高速公路近年发展很快,到2005年底,高速公路总里程达到4.1万公里,位居世界第二位,但二级公路有24.6万公里、三级公路有34.5万公里,合计达59.1万公里。
在营运里程14倍余高速公路的二三级公路上出现的交通事故较多是很自然的事,因为二三级公路的营运里程长,行驶的车辆和行人更多,出现事故的可能性更大。
统计数字会撒谎观后感第一篇:统计数字会撒谎观后感统计数字会撒谎生活中我们会接触到各式各样的谎言,每个人都需要对各种信息进行识别,因此、掌握书中的工具是防止受骗的可行方法。
培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。
”我想对数据资料的判断和接受也是如此。
统计学是一个很大的课题。
统计这种神秘的语言,在一个用事实说话的社会里是如此的吸引人,但有时它却别利用并成为耸人听闻、恶意夸大或简化事实、迷惑他人的工具。
在报告社会经济趋势、商业状况、民意测验和普查的大量数据时,统计方法或者统计术语是必不可少的。
但如果人们不能正确理解并恰当地使用这些统计语言,而读者又并不能真正懂得这些术语的含义,那么,统计结果只能是一堆废话。
统计数据通常被人们所滥用,把一些重要的事实弄得似是而非。
本书中也例举了很多很多例子,让我们深入了了解了统计学的另一面,让我们知道很多时候数字是要一定的范围,一定的限定,否则总是有这里哪里的缺陷。
本书常常提到的“平均数”,有的时候人们把中位数当作平均数,有的时候人们又把众数当作平均数,然后再把信息公布于社会。
各个国家、企业、个体把数据公诸于世的时候都是想另读者相信自己的能力,也许食用的是均值,以便利用高收入读者群来大道吸引广告商的目的。
总有那些漏洞可以让人们有机可趁,使报出的这些数据逃避法律的责任,这样就让他们既不用负到法律的责任,又可以以此获得巨大的利益。
群众总是被他们的数据所欺骗,即使是再精明的老统计学专家,也不一定是这组数据的对手。
有的调查报告也是不完整、不规范的,很多时候为了利益,他们也可能会去做一些调查,但是做的调查为了使其更有真实感,不一定会让自己的统计数字十全十美,但是的确又都是利于自己的,在调查的过程中,他们抽样的样本是不是具有片面性,是不是够广泛也是调查结果差异的重要原因。
为了吸引读者,现今大多人开始使用图形来说明数据,形象化的图形的前身是普通的柱状图,在比较两种或两种以上事物时,柱状图是一种描绘数量的便捷常用的方法。
警惕统计数据误读!随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。
言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。
在第二次世界大战中一个关于统计学的小故事流传甚广。
讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。
只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。
结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。
并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。
统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。
厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。
这个故事被看作是说明统计学应用的经典案例。
看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师专家提醒说,这个简单故事背后的专业论文,长度有百页之巨。
说到日常生活中经常遇到的统计学先陷阱,专家表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。
比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。
“这很容易知道不是因果关系,而是因为有共同的原因——天气热。
天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。
”专家解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。
“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。
又A和C共同作用导致了B,也有可能B和C共同作用导致了A。
《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。
抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。
这一发现令我兴趣大增。
而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。
其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。
原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。
也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。
书中提到的事例是关于某一住宅区居民的年均收入。
当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。
他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。
均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。
相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。
实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。
所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。
生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。
让我们来看几个不可轻率做出结论的例子。
①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。
这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。
统计关系往往不能表明因果关系。
由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。
②有一个调查研究说脚大孩子的拼音比脚小的孩子好。
这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。
这个研究对象是一群年龄不等的孩子。
它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。
③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。
④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。
这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。
由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。
上述例子表明,统计学论述在涉及因果关系时很容易造成误读。
现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。
统计陷阱读书笔记(摘抄为黑色字体,个人感悟为蓝色字体)译者的话20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言”—一说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
从1950年开始,越来越多的人开始注重数据的作用,但是,由于数据被一些机构和商家滥用,甚至是被不正确的利用,很有可能使人们形成错误观念,而达成这些机构和商家的目的。
协助行骗的工具有很多,包括:有偏的样本、刻意挑选的平均数、遗漏某些重要的数据、样本的误差、统计图、平面图、不匹配的资料、混淆相关关系与因果关系以及不正确地使用资料。
每一种工具从某种角度上都可以提高人们对某一数据的信服度,但也可以诱导人们信服错误的虚假的数据。
对“统计资料”应该“提出的五个问题”:“谁说的?”“如何知道的?”“是否遗漏了什么?’’“是否偷换了概念?’’"资料是否有意义?”通过寻找这5个问题的答案,读者能初步判断资料是否真实可信在遇到数据时,应该对数据保持一种怀疑的态度,可能看起来那么真实的数据也有可能是被故意歪曲真相所创造的。
所以对于数据可以提出五个问题来验证数据的可信度,同时在自己运用数据时也要求做到更加真实客观。
培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意艳着怀疑的态度开始,那么他必将获得肯定的结论。
”我想对数据资料的判断和接收也是如此。
对一个事情一个说法留有怀疑的态度,并为之去检验验证,那么最终得到的结论会有检验的结果作为依据去支撑它的正确性,但如果从一开始就肯定各种事物,那么最后也只能得到一个看似是肯定,实际上可能错误的结论。
有3种谎言:谎言,楷糕透顶的谎言和统计资料。
---Disraeli这句话体现统计资料被滥用后缺乏真实性,常常会引导大众产生错误观念。
绪言平均数、作用关系、趋势和图表与看上去的并不总是一致。
有趣的统计学案例
第一个案例是有关“猜猜看”的游戏。
在这个游戏中,一个人会想一个数字,然后其他人可以猜这个数字是多少。
我们可以用统计学的方法来分析这个游戏。
比如,我们可以计算所有猜测的平均值,然后和真实的数字进行比较,看看平均值是否接近真实值。
通过这个案例,我们可以了解到平均值在统计学中的重要性,以及如何利用平均值来估计未知的数值。
第二个案例是有关“点菜”的餐厅统计。
假设我们去一家餐厅吃饭,我们可以观察到不同菜品被点的频率。
通过统计每道菜被点的次数,我们可以得出哪些菜是最受欢迎的,哪些菜是不受欢迎的。
这个案例可以帮助我们了解如何利用统计学来分析消费者的偏好,以及如何根据统计结果来调整菜单和经营策略。
第三个案例是有关“天气预报”的统计分析。
天气预报是我们日常生活中经常关注的事情,而天气预报的准确性也是大家关心的问题。
我们可以通过统计方法来分析天气预报的准确性,比如计算实际天气和预报天气的差异,然后得出准确率和误差范围。
通过这个案例,我们可以了解到如何利用统计学的方法来评估和改进天气预报的准确性。
通过以上几个案例,我们可以看到统计学在日常生活中的应用和意义。
无论是游戏、餐厅还是天气预报,统计学都可以帮助我们理解和解释现象,从而更好地应对各种问题。
希望这些有趣的统计学案例能够激发你对统计学的兴趣,让你在日常生活中也能够运用统计学的知识来思考和解决问题。
平均数是统计中最常用的概念之一,小到日常计算,大至GDP核算,都离不开平均数的身影;简单如速度测量,复杂至航天器稳定性测试,都要仰仗平均数出马。
它让纷繁复杂的群体有了可度量的标准,但也将事物的全貌单一化,数据的结构、数据的周期、数据的优劣全部掩盖在一个数字后面,这就给我们客观全面了解事物埋下了“陷阱”,如何跨越平均数的缺陷去客观地考察事物呢?这就需要我们熟悉平均数的陷阱。
陷阱一:安思科姆四重奏由耶鲁大学统计学教授佛朗西斯·安思科姆提出的“四重奏”理论表明:迷信平均值而忽略数据结构将导致数据认识的严重偏差。
以下4组数据是一个典型的“安思科姆四重奏”。
对表1中4组数据统计平均数,结果如下:X1=X2=X3=X4=9Y1=Y2=Y3=Y4=7.54组数据X和Y平均值相同,单从平均数指标看4组数据是无区别的。
但是在对以上4组数据绘制散点图后(见图1~图4),我们惊奇地发现,平均数“欺骗”了我们,4组数据呈现形态迥异的4种图形分布,它们之间并没有共同之处。
这是因为平均数的集中性使得我们对数据的结构分布视而不见,高度的综合掩盖了数据背后的图形规律。
陷阱二:辛普森悖论这是某高校的研究生录取情况,从总体看,男生的平均录取率为21%,远低于女生的平均录取率42%,从平均值看男生考取这所学校可比女生难多了,实际情况是否真的如此呢?让我们分学院再看一下录取情况,怪事发生了!无论是统计学院还是外语学院,男生的录取率都远高于女生,为什么每个学院录取中都占据优势的男生,在取总体平均数之后反而变成了弱势一方呢?从表格上我们可以看出,统计学院考取的难度较外语学院要大得多,虽然男生在两个学院的录取上都比女生有优势,但他们大多选择报考低录取率的统计学院,女生则基本选择报考录取率高的外语学院,所以男生的录取率平均后被大幅拉低,被女生的平均录取率超越了。
陷阱三:依赖平均数进行决策的误区一家连锁餐厅做了详尽的统计分析后推出以螃蟹为主打的海鲜特惠自助餐促销,他们事先统计了吃螃蟹顾客的平均比例,每位顾客的平均螃蟹消费量以及螃蟹的市场平均售价,并以此为依据制定了促销价格,按照这个价格每位顾客可以为餐厅带来25元的利润。
统计陷阱读后感第一篇:统计陷阱读后感由于知识,信息和地位的不对称,普通人在面对行业精英专门设计的陷阱总是无法防备.就像普通美国民众无法理解华尔街“金融天才”搞的次级抵押贷款的潜在风险一样...恩,不光是普通人,就连中石油这样的顶级上市公司,在顶级ceo的带领下也会中套,油价顶点超高价大笔收购国外油田例如TYK之类的...信息欺骗有很多种,而利用统计数字来进行欺骗可能是比较普遍的了,就像马克吐温说的,There are three kinds of lies: lies, damned lies and statistics.这本书就是揭露说明专家们的欺骗行为的.比如报社为了吸引眼球,如何发布关于名牌大学毕业生高收入的报道,政府部门如何利用同样的原始数据,算出不同的统计结果,房地产为了卖房子,如何统计出小区业主的超高收入,一般人如何误读智商测验的一般统计结论,大公司的销售和市场部门如何用图形上的视觉欺骗来提高统计数字给人的感官效果,广告商如何用不匹配数据对大众进行误导....接着,在罗列了种种利用统计欺骗的手段后,书里描述了一系列方法和手段,告诉我们在面对统计数字的时候,如何去理解和评估那些数据,如何揭穿有意或无意的统计骗局.这本书的特色就是案例非常多,用案例的好处是比较容易能理解,缺点就是有的时候比较罗嗦,有时候一眼就能看出问题所在,书里还要花个几千字去描述他...好比那个经典的二维图形欺骗案例...书里我最喜欢的一段是介绍平均工资偏高的案例,不过有些地方用词太学术了:“当数据的分布呈现正偏态时,均值往往偏离一般水平。
收入分布是典型的正偏态分布,这样一来,平均工资偏高就十分正常了。
"囧。
这有优点像概率统计课程了。
这个还不如我的解释通俗易懂:假如有10个穷人工资是1块,1个富人工资是12块”,算术平均数的算法,就是22块除以11人,平均工资是2块。
这个结果明显高于普通人“平均”工资.所以统计局平时说的大家平均工资有2k了,其实一般人是没有2k的,大家感觉偏高了,可是统计局可以言之确凿的说,这确实是某种统计方法算出来的还有一种常用的统计方法我记得是平方平均数,计算方法是平方数相加后取平均,再开根号,用上面的例子就是(10+12*12)/11=14,14开根号就是 3.7块.还有一种统计数值,调和平均数(將数值个数除以数值倒数的总和)算出来是1 我发现最夸张的是几何平均数算出来是11。
《统计陷阱》读后感放寒假前,经学长的介绍,特地在图书馆里借了一本《统计陷阱》在假期里读,看完之后的感触到真不少,而且总想着什么时候写一点读后心得之类的东西,无奈,因为惰性,总是找各种各样的理由来推迟。
这次还得感谢学校这个次机会,让我终于可以完成早该结束的任务了。
先来谈谈写这本书的背景:在20世纪50年代,美国出现了一种尊崇统计风,太多的人都乐意,也轻易的相信了那些统计数据,原因很简单,大多数的统计数据都可以让不同的人产生不同的效果.例如,一个企业可以让员工看出今年的效益,同样的数据,换一种统计方法,也可以反映出企业的不景气,这就是为什么太多的公司,企业,甚至政府部门都习惯用统计的方法来传达自己的意思.介于这个背景之下,美国作家达莱尔·哈夫以一个经验老道,且退休的窃贼的身份,用回忆录的形式,在本书的前八章讲述了常用的一些行骗手段,在第九章总结了前面所列出的所有方法,而在最后一章中,教人们如何识破统计数据中的陷阱,告诫人们以一个正确的态度去看待一个数据,从而不做一个被数据玩弄于手的玩偶.本书中列举出的,常用统计手段大致可分为:利用内在有偏样本,选出不同的平均数,隐藏总要的数据,忽略必要的误差,滥用统计图形,采用不完整匹配的资料以及误解相关关系等。
当读完这本书时,回过头在,如果你用书中的衡量标准来看任何一组数据,都会发现其中的不可行性,所有的数据都是可以质疑的,那么不禁会有两种念头:其一,为什么统计着要这样做,公布这样的数据是为什么?答案很简单,无非是利益所趋,商家,政府乃至所有人都想隐藏掉那些自己认为很重要的数据,公诸于世的无非是想博得同情或者获得荣耀.其二,这个世上不就没有可以相信的数据,因为没哟绝对的正确,那么我们是否就因此而否定自己看到的,听到的一切呢?显然不是,这本书最重要的是,教会我们如何正确的看待数据,正确的从数据中拿去自己需要的,不可全信,但不意味着一点也都不可信。
在这里,我重点来谈谈:内在有偏样本,选取不同平均数,采用不完整匹配的资料以及误解相关关系这几种“行骗手段”.首先说说内在有偏样本,我用原文中的一个例子来解释这种方法的意思:“1924级的耶鲁毕业生平均年收入有25111美元。
谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。
抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。
这一发现令我兴趣大增。
而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。
其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。
原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。
也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。
书中提到的事例是关于某一住宅区居民的年均收入。
当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。
他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。
均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。
相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。
实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。
所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。
小心,别掉入陷阱!作者:刘金龙来源:《数学大王·趣味逻辑》2019年第09期在生活中,你做过调查统计吗?其实啊,统计中有很多“陷阱”,一不小心就可能会“掉”进去。
不信?那就看看乐乐做过的那些统计吧!乐乐妈妈在几个小区的中心位置开了一家水果店。
夏天到了,水果不好保存。
为了避免水果滞销或者坏掉,在进货前,妈妈想做一个调查,了解周围这几个小区的居民对各种水果的喜爱程度。
乐乐自告奋勇担起了大任——帮妈妈做调查,并进行了统计。
不过,当乐乐兴高采烈地将他制作的统计图拿来时,妈妈却傻眼了。
乐乐画的统计图如右图:乐乐说:“妈妈,你看,人们最喜爱吃香蕉,苹果第二,葡萄第三。
”妈妈疑惑地问:“可是,这个‘其他’是什么呀?”“那是指其他水果。
水果太多了,我就都放在一起了。
”乐乐说道。
妈妈拉着乐乐坐下,给乐乐讲解道:“乐乐,你看,这个‘其他’的比例占据了39%呢,比你现在统计出的香蕉、苹果和葡萄都要多。
虽然这是人们喜爱的多种水果占据比例的总和,但人们对这些水果的喜爱还是有多有少的啊。
也许,人们对‘其他’里的某一种水果的喜爱程度要大于葡萄和苹果,甚至香蕉呢!”乐乐若有所思地点点头,说:“妈妈的意思是再将‘其他’里的水果种类分别进行详细的统计?可是,有太多种水果了,我是写不完的。
”妈妈笑着说:“你不用将所有的水果都写完,但也不能太少了。
你只要将人们喜爱的水果占比从多到少再往下统计,直到‘其他’所占百分比不足10%,最好能到5%,这样你就可以帮助妈妈粗略预计出各种水果的进货量了。
”乐乐重新将小区里居民喜爱的水果进行了调查统计,发现大家对梨的喜爱比例竟然高于葡萄。
乐乐吐吐舌头,没想到自己的一个偷懒,差点导致妈妈进货时出现了偏差。
幸好乐乐对统计结果及时进行了修正,不然可能出现有的水果供过于求,有的供不应求了。
所以说,统计时一定要做到详细,尤其在用到“其他”这个综合项目时,如果“其他”包含的项目较多,那么很容易导致所得结果不符合事实。
统计陷阱分析报告1. 引言本报告对统计陷阱进行了分析和解释。
统计陷阱是指在统计分析中常见的误导性或偏误的情况。
这些陷阱可能会导致错误的结论或误导决策。
本报告旨在提醒读者在进行统计分析时要意识到这些陷阱的存在,以便采取适当的措施来避免它们。
2. 假设偏误陷阱假设偏误是指在统计分析过程中使用了错误的假设或背景假设,从而导致了错误的结论。
以下是一些常见的假设偏误陷阱:2.1. 假设数据正态分布假设数据正态分布是使用许多统计方法的前提。
然而,在现实生活中,许多数据并不服从正态分布。
如果在分析过程中假设了数据服从正态分布,而实际数据不服从该分布,则可能导致错误的结论。
因此,在进行统计分析之前,应对数据进行正态性检验,并在数据不服从正态分布时,寻找其他适当的统计方法。
2.2. 假设样本独立同分布在许多统计方法中,通常假设样本是独立同分布的。
这意味着每个样本观测值是独立的,并且来自相同的总体分布。
然而,在某些情况下,样本之间可能存在依赖性,或者来自不同的总体分布。
如果不满足样本独立同分布的假设,则可能导致错误的统计推断。
因此,在进行统计分析之前,应检查样本之间的依赖性,并根据情况选择合适的统计方法。
2.3. 假设样本足够大在某些统计方法中,假设样本足够大以满足中心极限定理。
然而,当样本较小时,中心极限定理可能不适用。
在这种情况下,使用这些统计方法可能会导致错误的结论。
因此,在进行统计分析之前,应考虑样本的大小,并根据样本大小选择适当的统计方法。
3. 数据选择偏误陷阱数据选择偏误是指在统计分析过程中选择了不代表总体的样本或数据集,从而导致了误导性的结果。
以下是一些常见的数据选择偏误陷阱:3.1. 抽样偏误抽样偏误是指在抽样过程中,因为抽样方法或样本选择过程的偏误,导致样本不能代表总体的特征。
例如,在调查中使用方便抽样而不是随机抽样,可能导致样本不具有代表性。
因此,在进行统计分析之前,应选择恰当的抽样方法,并确保样本能够代表总体。
生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。
让我们来看几个不可轻率做出结论的例子。
①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。
这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。
统计关系往往不能表明因果关系。
由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。
②有一个调查研究说脚大孩子的拼音比脚小的孩子好。
这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。
这个研究对象是一群年龄不等的孩子。
它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。
③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。
④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。
这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。
由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。
上述例子表明,统计学论述在涉及因果关系时很容易造成误读。
现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。