统计数据背后的真相 — 读《How to lie with statistics》
- 格式:pdf
- 大小:146.78 KB
- 文档页数:4
统计学数据背后的故事统计学是一门研究数据收集、分析和解释的科学。
通过统计学,我们可以深入了解数据背后的故事,揭示出隐藏在数字背后的真相。
本文将探讨统计学数据背后的故事,从而窥探数据背后的真实意义。
一、数据背后的故事数据,并不仅仅是一些冰冷的数字,它是对于现实世界的抽象和总结。
而这些数字背后,往往隐藏着人们的行为、心理和社会规律。
统计学正是通过分析这些数据,帮助我们理解背后的故事。
以人口统计为例,通过对人口数量、年龄分布、性别比例等数据进行分析,我们能够了解到一个地区的人口结构和发展趋势。
从这些数据中,可以发现人口老龄化的程度,以及一些社会问题的原因和解决方案。
数据背后的故事可能包括某一地区经济的繁荣或衰退,社会的稳定或动荡等等。
同样,对于经济统计数据的分析也能揭示出一国或地区的经济发展状态。
通过分析国内生产总值(GDP)、消费指数、就业率等经济指标,我们可以判断一个经济体的发展速度、经济结构的改善和投资方向的优化等。
这些数据背后的故事可能包括某个行业的兴衰,某个地区的经济合作模式等。
二、揭示数据背后的真相统计学不仅仅是对数据的收集和整理,更重要的是通过适当的方法,揭示数据背后隐藏的真相。
在数据的分析中,我们需要小心陷入到数据的陷阱中,避免被误导。
首先,我们需要考虑数据的来源和采集方法。
数据的来源和采集方法会对数据的可靠性和有效性产生重要影响。
如果数据来源不确切或采集方法存在偏差,那么分析结果可能会出现错误的偏差。
因此,在进行数据分析时,我们需要注意对数据进行可靠性和有效性的验证。
其次,我们需要关注数据之间的关系和相关性。
在统计学中,我们通过相关性分析等方法来探究不同数据之间的关系。
相关系数的计算可以帮助我们了解两个变量之间的相关性,从而进一步解读数据的背后故事。
最后,我们需要审慎地解读数据。
数据本身并没有价值,真正的价值在于我们如何解读并运用数据。
我们需要避免盲目追求数字背后的表面含义,而是要有系统的思维和深入的分析。
《统计学基础:透过数据看世界》读书笔记目录一、统计学基础概述 (2)1.1 统计学定义与作用 (3)1.2 统计学的基本概念 (3)1.2.1 总体与样本 (5)1.2.2 参数与统计量 (5)1.2.3 随机变量与概率分布 (7)二、数据收集与整理 (7)2.1 数据的来源与类型 (9)2.2 数据收集方法 (11)2.3 数据整理与描述 (12)三、数据分析方法 (13)3.1 描述性统计分析 (15)3.1.1 均值、中位数与方差 (16)3.1.2 偏度与峰度 (17)3.1.3 数据可视化 (17)3.2 推断性统计分析 (18)3.2.1 假设检验 (20)3.2.2 置信区间 (22)3.2.3 方差分析 (22)四、回归分析与预测 (24)4.1 线性回归分析 (25)4.2 多元线性回归分析 (26)4.3 时间序列分析 (28)五、统计学应用案例 (30)5.1 经济学领域 (31)5.2 社会学领域 (32)5.3 生物学领域 (34)六、总结与展望 (35)6.1 本书重点回顾 (36)6.2 统计学的未来发展趋势 (38)一、统计学基础概述作为一门处理数据的科学,为我们提供了一种系统的方法来收集、整理、分析和解释数据,从而揭示事物的内在规律和趋势。
在日常生活和工作中,我们经常需要面对大量的数据,如销售数据、人口统计数据、医疗记录等。
这些数据背后隐藏着许多有价值的信息,但只有通过科学的统计方法才能被挖掘出来并加以利用。
统计学的基础主要包括描述性统计和推断性统计两部分,描述性统计主要通过对数据的整理和展示,提供对数据的基本认识,如平均数、中位数、众数等统计量。
这些统计量可以帮助我们概括和描述数据的中心趋势和离散程度。
而推断性统计则是基于样本数据对总体进行推断和预测,它可以帮助我们估计总体的参数值,并检验我们对总体的假设是否成立。
统计学还涉及数据的收集和抽样方法,有效的收集方法能够确保数据的准确性和完整性,而合理的抽样方法则能够使我们以较小的成本获取足够的信息来支持决策和分析。
每周一本书《揭开数据真相》:质疑“看得见”的数据,挖出“看不见”的真相本周给大家推荐的书是《揭开数据真相:从小白到数据分析达人》,这本书的技术门槛不高,主要目的是让读者学会如何质疑“看得见”的数据,并挖出“看不见”的数据真相,还原基本的事实。
来源:数据猿作者:jean小编寄语:“你看到的,只是我想让你看到的”,让数据说话,说客观其实也不客观,所以别太迷信数据啦~统计数据之所以强大有力,是因为它一点都不care我们的情怀、梦想和信仰——数据让我们客观地看待事物。
但是,当数据耿直的显示了人们讨厌的结果时,命运只能被操纵,最终变成“漂亮”的数据(企业财报、销售额、阅读量等等)……因此懂得解释统计数据,了解各种歪曲、滥用数据的技术对于理解数据真相是非常必要的。
本周给大家推荐的书是《揭开数据真相:从小白到数据分析达人》,这本书的技术门槛不高,主要目的是让读者学会如何质疑“看得见”的数据,并挖出“看不见”的数据真相,还原基本的事实。
有人会担心,我没有经过系统科学训练,是不是要再去读一个数学课程呢?其实完全没必要,那些复杂的数学公式主要用来让你崩溃的(回想自己的高数课程),最重要的还是见识一些常见套路,遇到类似的能举一反三,升华出来一些方法论就更棒了。
这本书就从很多实例中总结了数据分析的技巧和“骗人”招数。
比如通过内在不完备的样本,精心挑选的平均数,统计图表范围的切割,相关系数因果关系的误解,混淆逻辑,操控是非,达到一些不可告人的目的。
这并不是一本教科书,让你去学习深奥枯燥的统计数学,而是用风趣幽默的例子从别的视角来观察世界,启迪智慧。
比如本书的第十章在讲确认性偏差时,作者就“分母”的重要性举了一个很有趣的例子:假设有一群人看见你盯着一根树枝就把树枝折断了只要你不告诉这些人一个事实——你盯着这些树枝看了很久而树枝迟迟不断,那么,这些人肯定会对你表面上的断树功力大感敬畏。
在奇妙的统计学讨论中,只提分子、不提分母可以让不真实的事情看上去很真实。
统计数字会撒谎作者:廖颖林来源:《中国纺织》2010年第03期“自从使用了某某牌牙膏,我们的蛀牙减少了23%。
”或许你刚被这样的广告宣传攻陷,对这新款牙膏的“神奇功效”深信不疑,但是美国统计专家达莱尔·哈夫(Darrell Huff)告诉你:“没有比这更无聊的广告了。
”没错,问题就在这个“23%”上。
在一个用事实说话的社会,我们接触到了越来越多的统计数据和资料,例如各种经济数据、证券信息、投资可行性研究报告、公司财务报告等。
但是却有不少销售员、公关公司、广告撰稿人等在滥用书中所揭露的“数据造彼方法”来蒙蔽对数据知识不甚了解的客户、消费者和上司。
面对这些良莠不齐、真伪并存的数据或资料,我们需要去粗取精、去伪存真的过程。
我们又该如何进行鉴别?20世纪50年代,美国的各大媒体和宣传机构就已经开始越来越重视利用统计——“这个神秘的语言”——说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
达莱尔·哈夫——一位具有深厚统计背景的新闻记者一发现了这一现象。
他在广泛调查的基础上,从报刊、杂志、书籍中,从美国统计学会一些统计学家提供的实例中,收集了大量案例,并在1954年写下了《How to Lie with Statistics》一书。
该书一经出版,便畅销美国,成为美国20世纪50年代的畅销书之一,并受到了当时美国各种书评杂志的好评,至今依然常常被美国不少权威媒体所引用。
《管理评论》认为:“哈夫先生用如此生动的,充满人情味的方式来论述统计这个干巴巴的课题,真是一剂灵丹妙药,我们太需要这本书了,它虽然娱乐性强、浅显易读,却十分具有说服力。
”《图书期刊》如此评价:“作者和制图者倾注了全力,给大家提供了一本十分轻松活泼的读物和卡通画。
它们能给你带来娱乐,又能引发思考,而且还揭穿了许多统计方法的谎言。
”《大西洋》评价道:“这是一本具有善意破坏性的书,读完它后,你对于‘万能统计’的信任将大大降低。
《统计陷阱》《统计陷阱》本书是美国著名的统计学家达菜尔·哈夫的名著。
该书自1954年出版至今,多次重印并被译成多国文字,是一本影响深远的经典性著作。
《统计陷阱》一书之所以能够历久弥新,是因为其实用性,作者重说明、轻证明,重文字描述、轻理论推导,并结合活生生的案例,语方轻松诙谐,深入浅出,介绍了一些统计语和方法,更揭示了许多统计骗局,本书一共分八章:第一章内在有偏的样本主要将通过偏差的样本来获得想要的数据,文中举例耶鲁大学毕业生的工资来说明这个问题,给出统计结论时却并未给出样本,通过合理的猜测,可以知道这样的样本是有偏差的,例如能联系上的人一般都不穷,愿意告诉别人自己工资的人更不穷第二章精心挑选的平均数一般给统计结论时却并不给出是哪种平均数,是算术平均还是中位数或者是众数,通过这种方式来欺骗人,例如最近很流行的居民平均居住面积,平均收入等第三章没有披露的数据反复做试验,指给出对自己有利的数据,例如我想证明抛硬币正面出现的次数是80%,那么我每次抛10次,反复抛,直到某次试验正面出现8次,以此作为支持我结论的数据第四章毫无意义的工作计算某一个数据时,需要知道这个数据可能的误差,如果不考虑这个误差,则数据毫无意义,例如智力测验,需要首先明确测验可能的误差,例如正负3,平均智力是100正负3,如果不考虑这个误差,而直接说平均智力是100,a的智力是98,b的智力是101,b的智力比a的好,这样的结论是没有意义的第五章惊人的统计图形通过对图形的夸张画法,来达到误导读者的目的,例如将y轴不从0开始,x,y比例不一致等第六章平面图形本章与上一章比较类似,不过图形换成了平面图形,平面图形不只有高度还有宽度,例如通过钱袋子来比较工资,本来2倍的工资只需要钱袋子高两倍就可以,但这样不协调,因此要更宽,更鼓,导致的结果就是不是2倍,看着是8倍第七章不相匹配的资料问题本身并不能真实地反映这个问题所代表的观点,例如黑人与白人的就业机会均等 == 黑人与白人平等,事实上有种族歧视的人更愿意回答二者的工作机会相等,而同情黑人的人更愿意回答不等,另外很多数据与最终的结论也没有多大的关系,例如药物实现,实验室的环境,药物与最后在药店里购买的药物有可能很不一样,或者实验室环境与人体环境差别很大,等等,都导致数据的不准确性。
统计陷阱读书笔记(摘抄为黑色字体,个人感悟为蓝色字体)译者的话20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言”—一说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
从1950年开始,越来越多的人开始注重数据的作用,但是,由于数据被一些机构和商家滥用,甚至是被不正确的利用,很有可能使人们形成错误观念,而达成这些机构和商家的目的。
协助行骗的工具有很多,包括:有偏的样本、刻意挑选的平均数、遗漏某些重要的数据、样本的误差、统计图、平面图、不匹配的资料、混淆相关关系与因果关系以及不正确地使用资料。
每一种工具从某种角度上都可以提高人们对某一数据的信服度,但也可以诱导人们信服错误的虚假的数据。
对“统计资料”应该“提出的五个问题”:“谁说的?”“如何知道的?”“是否遗漏了什么?’’“是否偷换了概念?’’"资料是否有意义?”通过寻找这5个问题的答案,读者能初步判断资料是否真实可信在遇到数据时,应该对数据保持一种怀疑的态度,可能看起来那么真实的数据也有可能是被故意歪曲真相所创造的。
所以对于数据可以提出五个问题来验证数据的可信度,同时在自己运用数据时也要求做到更加真实客观。
培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意艳着怀疑的态度开始,那么他必将获得肯定的结论。
”我想对数据资料的判断和接收也是如此。
对一个事情一个说法留有怀疑的态度,并为之去检验验证,那么最终得到的结论会有检验的结果作为依据去支撑它的正确性,但如果从一开始就肯定各种事物,那么最后也只能得到一个看似是肯定,实际上可能错误的结论。
有3种谎言:谎言,楷糕透顶的谎言和统计资料。
---Disraeli这句话体现统计资料被滥用后缺乏真实性,常常会引导大众产生错误观念。
绪言平均数、作用关系、趋势和图表与看上去的并不总是一致。
统计数据会说谎读后感
你知道吗,以前我总觉得统计数据那就是板上钉钉的事实,就像数学公式一样,一加一肯定等于二。
可是这本书完全颠覆了我的想法。
书里讲了好多例子,都是关于那些看似确凿的统计数据,其实背后藏着各种猫腻。
我当时就想,原来我们平时看到的数据,说不定很多都是在“骗”我们呢!
就比如说,有些数据的样本选取就很有问题。
可能只选了一小部分特定的对象,然后就得出一个看似普遍适用的结论。
这就好比你只看了一群爱运动的人的健康状况,就说所有人只要运动就肯定健康,这显然不合理嘛。
看到这里的时候,我就忍不住摇头,心里想着,这也太能糊弄人了吧!
还有那些数据的呈现方式,那也是大有文章。
同样的数据,用不同的图表或者表述方式,给人的感觉就完全不一样。
这让我想起了有时候在广告里看到的数据,看着好像很厉害,可仔细一琢磨,可能就是被“美化”过的。
这真的很容易误导我们消费者啊,你说是不是?
不过呢,这本书也不是一味地在揭露黑暗面。
它其实也在提醒我们,要学会正确地看待统计数据。
不能盲目相信,要有点批判性思维。
我觉得这一点对我们在这个信息爆炸的时代特别重要。
现在到处都是数据,各种各样的统计结果在我们眼前晃悠,如果我们没有一点分辨能力,那就只能被牵着鼻子走了。
我在想,要是更多的人能读一读这本书就好了。
这样大家在面对那些看似权威的统计数据时,就不会轻易被忽悠了。
你看了这本书也会有同样的感觉吗?这真的是一
本能让你对数据有全新认识的好书啊!我感觉我以后再看到数据,肯定会多留个心眼儿了。
这书的影响,真的是很深远呢!。
统计陷阱读后感第一篇:统计陷阱读后感由于知识,信息和地位的不对称,普通人在面对行业精英专门设计的陷阱总是无法防备.就像普通美国民众无法理解华尔街“金融天才”搞的次级抵押贷款的潜在风险一样...恩,不光是普通人,就连中石油这样的顶级上市公司,在顶级ceo的带领下也会中套,油价顶点超高价大笔收购国外油田例如TYK之类的...信息欺骗有很多种,而利用统计数字来进行欺骗可能是比较普遍的了,就像马克吐温说的,There are three kinds of lies: lies, damned lies and statistics.这本书就是揭露说明专家们的欺骗行为的.比如报社为了吸引眼球,如何发布关于名牌大学毕业生高收入的报道,政府部门如何利用同样的原始数据,算出不同的统计结果,房地产为了卖房子,如何统计出小区业主的超高收入,一般人如何误读智商测验的一般统计结论,大公司的销售和市场部门如何用图形上的视觉欺骗来提高统计数字给人的感官效果,广告商如何用不匹配数据对大众进行误导....接着,在罗列了种种利用统计欺骗的手段后,书里描述了一系列方法和手段,告诉我们在面对统计数字的时候,如何去理解和评估那些数据,如何揭穿有意或无意的统计骗局.这本书的特色就是案例非常多,用案例的好处是比较容易能理解,缺点就是有的时候比较罗嗦,有时候一眼就能看出问题所在,书里还要花个几千字去描述他...好比那个经典的二维图形欺骗案例...书里我最喜欢的一段是介绍平均工资偏高的案例,不过有些地方用词太学术了:“当数据的分布呈现正偏态时,均值往往偏离一般水平。
收入分布是典型的正偏态分布,这样一来,平均工资偏高就十分正常了。
"囧。
这有优点像概率统计课程了。
这个还不如我的解释通俗易懂:假如有10个穷人工资是1块,1个富人工资是12块”,算术平均数的算法,就是22块除以11人,平均工资是2块。
这个结果明显高于普通人“平均”工资.所以统计局平时说的大家平均工资有2k了,其实一般人是没有2k的,大家感觉偏高了,可是统计局可以言之确凿的说,这确实是某种统计方法算出来的还有一种常用的统计方法我记得是平方平均数,计算方法是平方数相加后取平均,再开根号,用上面的例子就是(10+12*12)/11=14,14开根号就是 3.7块.还有一种统计数值,调和平均数(將数值个数除以数值倒数的总和)算出来是1 我发现最夸张的是几何平均数算出来是11。
范围、方法等都不一样,两方面数据结果根本没有可比性。
新浪公布的那个结果是我们在国内128个城市采取计算机辅助电话访问的调查结果,而搜狐公布的那份结果是我们在北京、上海、广州、青岛、南京5个重要城市采取街访方式的调查结果。
那5个最重要的城市和其他128个城市的网络普及率、人对网络的偏好都不一样,数据结果反映的东西肯定也不同”,普通网民在关注到“第一”的同时会去关注这些背后的数据吗?
另外就是同一个数据,但是图表的基准值、刻度等不一样,也会导致图表表达出的效果截然不同,比如下面两个图,左边第一眼给人的感觉是2名用户之间的上网时长差异不大,而右边这个给人的感觉是差异非常大。
这个资料有意义吗?
许多统计资料在我们一眼就能看出是有误的。
比如前一阵因为BT事件,一调查机构宣称:在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina;有时在对用户进行分类时,对于分类结果,分成的各个类别的用户是否都能在现实中找到对应的人群,或者说周围认识的每一个人是否都能找到属于自己的类别,这都是一眼能够看出是否有意义的。
最后再举一个最常见但也最经常被误导的两个例子:
很多人在学生时代肯定都听过老师有过这样的计算:离某某考试还有1个月时间,扣去一天8小时共10天的睡眠时间,扣去一天约4小时共5天的进餐活动等时间,再扣掉每周两天共8天的双休日,这时余下的学习时间就只剩7天了,这时一听都觉得很紧张,但是感觉没有这么短啊,其实是我们被老师忽悠了;一个产品开发项目计划本来总时长是1个月,后来因为某种变更,需求规划时间要增加15%,界面设计时间要增加20%,开发的时间要增加10%,测试时间要增加5%,则总时间要增加50%?实际总时间增加肯定不到20%。
在这个信息爆炸的时代,统计本是一个通过数据揭露本质的有力工具,但遗憾的是,统计未必能够揭示真实,有时候还可能成为假象的帮凶。
当我们面对生活中形形色色的统计数据时,还要多保持一些理智和清醒,并要有所保留地看待问题。
因为“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。
”
(本文出自Tencent CDC Blog,转载时请注明出处)
人人都是产品经理()中国最大最活跃的产品经理学习、交流、分享平台。