轻松学统计(1)
作者:张忠朴
1.刻版印象
现代人其实离不开统计,但是现代人却又普遍有『统计很难学』的刻版印象,所以在学校上统计课时,学生翘课或上课打瞌睡就成了思空见惯的现象,而相对的老师也就只好搬出活当、死当来以儆效尤,这种怨憎会的场景真的是学统计的宿命吗?
曾经也被统计公式搞的七晕八素,曾经也在统计课堂中无聊入眠,但是没想到自己居然会成为教统计的老师,因此我一直希望自己的学生不要重入自己当年的恶梦,我立志要让学生轻松学统计。
但是如果他们已有统计难学的刻版印象,那该如何先让他们放轻松呢?第一招当然是要打破心结,因此统计的第一节课需要先发制人,先问学生一个问题:『统计难学吗?』学生几乎都异口同声的哀叫『难!』
我沉默以对,让他们迟疑30秒之后再问:『有没有听过常态分配?』学生们几乎都会略为安心地说『有!』
我微笑以对,在他们安心30秒之后再问:『请问是先有常态分配,所以人长的不高不矮,还是先有身高的事实再有常态分配?』同学一阵交头接耳之后,几乎全数举手赞成是先有身高的事实,再有常态分配。
既然这是大家的共识,当然要乘胜突破他们的心防,和颜悦色的告诉大家:『既然统计学是事实在先,理论在后,那么我们何苦要自己吓自已,认为统计很难呢?』
当大家默默点头之后,就可以继续向他们挑战:『既然统计是前人将事实归纳出的结论,那么让我们也一起重新走过这段寻幽访胜的趣味古道好不好?』
欢呼声中,我们开始了寻幽访胜之旅。
2.寻幽访胜
寻幽访胜的第一个问题是:『统计必备的原料是什么?』几乎立刻会有人想到『统计的原料是数据』,这当然是正确的答案,在兴奋之余再向他们挑战,
『请问是不是有数据就是统计?』
『老师,那可不见得!』
『那你认为除了数据,还需要加上什么才可能让统计更完整呢?』
一阵沉思之后,有人提出『要将数据拿来计算』
『Good!但是要算出什么东西呢?』
『譬如要算出平均身高』
『对!平均身高是最重要的统计量之一,一般用表示,是代表集中趋势的统计量』
这就上路了,这群学生已渐渐会寻幽访胜了,
『除了计算平均值,这些数据还可以算出那些名堂?』
『还可以算出差距』
『请问你说的差距是什么意思?』
『就是指最高身高减最低身高嘛!』
『OK!你所谓的差距就是统计学上所说的全距,一般用R来表示,R是代表离中趋势的一种统计量』
这群学生现在已能慢慢体会到推理的自信与学习的乐趣了,这时不妨给他们一点更Tough的问题:
『那么请问是不是有了这些计算(R等)就算是统计呢?』
学生由兴奋陷入沈思,沉思之后有些学生开始轻轻的摇头,
『那你们是不是认为原始数据加上计算并不完全等于统计呢?』
他们如释重负地拼命点头,但是为了帮他们更趋于严谨而成熟,这时候不但不能丢救生圈给他们,反而要用铁石心肠来逼问──『那么统计倒底是什么「碗糕」?』
3.柳暗花明
虽然他们还不能立即回答这个难题,但是他们至少已明白统计中少不了数据与计算,而那仍然不足的部分倒底是什么呢?换言之,计算若不是统计的终点,那么统计最终的目的倒底是什么呢?慢慢地有学生会说:
『统计的目的是要让我们得到有意义的情报!』
『对!但是什么才是有意义的情报呢?』
有位同学在经过连番追问后,若有所悟,他突然反守为攻,
『请问老师能不能举几个有关情报的例子,这样我们就可以回答什么是有意义的情报了。』
真是孺子可教,既然问的合情合理,那就先举一个例子让他们揣摩。
『例1:请问“拉力强度很好”算不算是有意义的情报?』
『老师,不算!』
『为什么不算?』
『老师,因为“拉力强度很好”太笼统了,它根本没有任何数据可作判断的参考。』
既然初生之犊不畏『唬』,那就只有加一点料,再来试试他们。
『例2:好,那么我们加上数据“拉力强度平均为5kg/cm2”,请问这算不算有意义的情报?』
『老师,这样的情报虽然有意义,但是仍不理想。』
『为什么?』
『因为只有提到平均值是5kg/cm2,但是我们并不知道这是0与10的平均,还是4.99与5.01的平均,所以很难单凭平均值来判断此一情报是否有意义。』
这些学生真是成材,他们的思绪已愈来愈严谨了,居然已能从推理中体会到集中趋势并无法完全代表统计量的事实,不偾不启古有明训,所以只有再为他们指点迷津。
『例3:你们的考虑没错,既然如此,那么我们就再加上范围“大多数产品的拉力强度在5kg±0.6kg之内”,这样你们满意了吗?』
『不满意!』学生齐哄,
『为什么?』
『因为大多数太不明确了!』
得天下英才而教之的喜乐这时一起涌现,这群学生真的太可爱了,
『那我们把大多数更明确化一点好不好?』
『好!』
『例4:如果修改成“99.73%的产品拉力强度在5kg±0.6kg/cm2之内”,你们满意吗?』
一些参与度较高的同学马上表示满意,但仍有一部分没有表示意见,为了确认全班的认知程度,所以再一次改采主动,请全班同学从例1到例4中,要挑出一个他认为最有意义的情报,经过两分钟的表决,结果全班同学一致认为例4才是相对而言最有意义的情报。
4.水落石出
经过这一连串的讨论,需要帮学生将思绪重新整理一下,于是在黑板上先画了下面这张图:
然后向学生解释,这是一般生产系统简单的示意图,I代表Input也就是指原料,P代表Production也就是指加工,O代表Output也就是成品,接着我请大家想一下如果统计也是一个系统,那么就统计而言上图中的I、P、O分别代表什么呢?
有一位同学立刻自告奋勇的冲上黑板,在上图的每一个框框下分别填上
数据算有意义的情报
『等一下!』当他要冲回座位时我大叫一声,一面把另一枝粉笔交给他,一面向他说:
『谢谢您刚才的答案,这的确是很恰当的答案,但是可否请您再将您的答案作一点整合,能否试试看将“数据”、“计算”及“有意义的情报”整理成一个关系式?』
这位同学考虑了一下,重新在黑板上写了一个关系式。
他一面写、我一面替他高兴,当他写完后,我请他向全班同学解释一下,他充满自信地说:
『这个公式的意思是说,数据经过计算后若能产生出有意义的情报,那就是统计。』
不待我的邀请,全班同学已对他的解释报以热烈的掌声,一面欣赏地看着他走回座位,一面向全班同学说『你们看,只要大家肯不断地发挥创意、努力思考,我们就可以自己体会出统计的真谛,所以我们为什么要怕统计呢?』
『但是,下课之前最后我要请各位从大家例4中,归纳出有意义的情报应包括那些构成要素?』
『老师,5kg代表集中趋势』甲同学说
『那±0.6kg应该是代表离中趋势』乙同学接着说
『但是,剩下的99.73%呢?』我反问
『老师,那是指含盖在5±0.6kg这个范围之内的机率』
『完全正确,所以希望各位同学能将刚才讨论的例子一般化,其实就统计学而言,任何有意义的情报都有三个构成要素,分别是:
1.集中趋势(通常以作代表)
2.离中趋势(通常以作代表)
3.被含盖在特定范围内的机率』
为了加深同学的印象,所以下课之前才请他们翻开课本上的常态分配图
然后请问他们,
『如果成年男子的身高平均值()是167cm,标准差()是8cm,那么请问大约有多少成年男子的身高在159至175cm之间?』
立刻有学生回答:『68.26%』
『为什么?』
『因为159cm等于167-8,175cm等于167+8,所以,老师举的例子正好是
±1的范围,而参考上图,落在±1的机率正好是68.26%』
『太好了,所以统计就是这么简单也这么好玩对不对?』
同学非常兴奋地大声说『对!』
在兴趣盎然中,正好下课钟声响起,看着他们快乐地走出教室,我知道他们已变成了一群喜爱统计的新朋友。
轻松学统计(2)
作者:张忠朴1.深入浅出
上课钟一响,这群统计学子已经就座,这个现象与上一节课的姗姗来迟成鲜明对比,他们似乎想用行动来说明他们已开始喜欢统计了。
为了验证上一节的学习效果,先考考他们统计的定义
是什么?『统计就是数据透过计算产生出有意义的情报』。
异口同声的响应,真令人饱尝得天下英才而教之的喜悦!
『那么有意义情报的构成要素是什么呢?』『1. 集中趋势(通常以作代表)
2. 离中趋势(通常以σ作代表)
3. 被含盖在特定范围内的机率』
这么正确而流畅的回答,令人一则以喜,一则以忧,喜的是他们学的实在真好,忧的是过分的熟练,会不会也是另一种形式的僵化呢?
于是决定帮他们在热忱与理想之间均衡一下,使他们在熟练中仍不失应变的弹性,于是反问他们『你们的答案完全正确,但是这样的答案对于没有学过统计的人有没有帮助呢?换句话说,你所计算的与σ,如何才能让没学过统计的人一目了然呢? 』
大家彼此对看,热忱的脸上慢慢多了一抹沉思,学而不思则罔真是必要的提醒,有些有学问的人却没有影响力,根本问题也许并非怀才不遇,而是掉入了孤芳自赏的陷阱,以致于他的学问不但不能用来服务人群,反倒让他与许多局外人壁垒分明。因此真有必要帮这群学生将思绪拉出教室,让他们多想一想如何运用统计知识,才能帮助更多没有学过统计的人。
思索中,有一位学生鼓起勇气回答
『老师,我们可不可以把那些情报(,σ)转换成图形?』『当然可以啊!但是为什么要转换成图形呢?』
『因为图形比较容易一目了然啊!』
『太好了,你这种想法与古早时统计大师构思直方图
(Frequency Histogram)时的想法正好不谋而合。』
然后用投影机打了一张直方图的范例在屏幕上
图1:直方图
『请问对一般没学过统计的人是与σ比较容易懂呢?还是直方
图比较容易懂呢?』
『直方图!』异口同声的回答
『对,那我们开始学直方图好不好?』
『好!』
2.走过从前
传统做直方图之前要先斟酌 (1) 样本数,然后依据样本数来决定 (2) 分组数,然后再决定 (3) 每组之组距与组界,而后根据上述(1)(2)(3)来设计 (4)次数分配表,最后再依据次数分配表来绘制(5)直方图
如果我们有一组数据如下:
63 60 64 62 63 64
63 62 66 64 60 62
61 65 62 63 66 63
67 64 63 62 65 63
65 61 62 64 63 61
那么依据上述(1)(2)(3)(4)的步骤,我们可以得到它的次
数分配表
=63.1σ=1.72906
根据这张次数分配表,就可以得到图(1)的直方图。
为了让局外人明白统计量的意义,直方图真是帮了大忙,但是相对的为了作直方图,前辈们就必须研究分组法与下功夫作次数分配表,这都是很累人的事,所以其实不可小看深入浅出,因为它也是须要下一番功夫的。
所幸在计算机普及后,如今借助计算机软件包,上述
(1)(2)(3)(4)那些繁琐的程序都可以用计算机来代劳,而事半功倍地获得直方图。
3.学以致用
既然我们现在可以事半功倍的获得直方图,那么我们就应该将省下的时间,更多花在应用上,换句话说我们不妨要多想一想:
──直方图的目的是什么?
──直方图可能有那些基本模式?
──每一种基本模式透露了那些重要的讯息?
──如何运用直方图来改善品质?
『直方图是目的吗?』再一次用问题刺激学生去思想。『不是!』
『那你们认为直方图的目的该是什么?』
『我并不确定,但是能不能与上一节课学过的常态分配图作一些结合?』
『很好啊!但是你想怎样结合呢?』
『我想看一下每组数据所呈现的直方图是否与标准常态分配的形式相吻合。』
『如果吻合,那代表什么意义呢?』
『如果吻合,那似乎证明这组数据是出自于一组近似常态分配的制程。』
这样的推理逻辑真令人激赏,但是若要打通任督二脉就必须狠心将他再逼到死角。
『好极了,但是如果直方图与常态分配不吻合呢?』
『如果不吻合..........』
他果然陷入了苦思。苦思中,他似乎又回想起上节课中反守为攻绝处逢生的那一招,灵光一闪他开始平心静气地反问。
4.参透玄机
『老师,过去的统计学家是不是已经发现了一些不吻合常
态分配的基本模式?』
『没错,直方图中的确有许多不吻合常态分配的案例,经
过统计学家的整理,他们将这些案例归纳成三大类型,这
也就成了直方图研判的理论架构。』
『老师,请问用这三大『另类』直方图来作研判时,有公
信力吗?』
这些学生真的很另类,用词很另类,旁敲侧击的功夫更另
类,明明想学三大『另类』直方图,却不肯明讲,既然如
此,那也不必明说,不妨先让他们伤脑筋一下。
『在回答你的问题以前,请你先告诉我,在直方图(如图一)
中的高度与宽度分别代表那些统计意义?』
『高度应该是代表集中趋势,宽度则应该是代表离中趋势,不知道这种想法对不对?』
『完全正确,所以正常的直方应该长什么样子呢?』
『应该是中间一个主峰,左右对称下降吧!』
『没错,正常的直方图理当如此,所以某一张直方图若与正常情况明显不同,那就表示这组数据大有玄机,现在我们来参透一下如何?』
『好啊!』
4.1来源混杂多峰并起
打开投影机,将下面这张直方图投在屏幕上
图2A:多峰型直方图(层别前)
等大家看过之后,请问大家
『这张直方图有何特殊之处?』
『这张直方图怪怪的,它有两个主峰耶!』
『没错它为什么会有两个主峰呢?』