关于高中数学教材中卡方检验公式的解释
- 格式:doc
- 大小:19.50 KB
- 文档页数:6
卡方检验的基本原理卡方检验是一种常用的统计方法,用于判断两个或多个分类变量之间是否存在显著性关联。
它基于卡方统计量的计算,通过比较实际观察值与理论预期值之间的差异来判断变量之间的关系。
一、卡方统计量的计算卡方统计量的计算基于观察频数与期望频数之间的差异。
观察频数是指实际观察到的数据,而期望频数是指在假设条件下,根据总体比例计算出的预期值。
卡方统计量的计算公式如下:χ² = Σ (观察频数 - 期望频数)² / 期望频数其中,Σ表示对所有分类进行求和。
二、卡方检验的步骤卡方检验的步骤主要包括以下几个方面:1. 建立假设在进行卡方检验之前,需要先建立假设。
通常有两种假设,即原假设(H0)和备择假设(H1)。
原假设是指变量之间不存在显著性关联,备择假设是指变量之间存在显著性关联。
2. 计算卡方统计量根据观察频数和期望频数,计算卡方统计量。
根据计算得到的卡方统计量,可以判断变量之间的关系是否显著。
3. 确定自由度自由度是指可以自由变动的独立变量的个数。
在卡方检验中,自由度的计算公式为自由度 = (行数 - 1) * (列数 - 1)。
4. 查找临界值根据自由度和显著性水平,查找卡方分布表中的临界值。
显著性水平通常设定为0.05或0.01,表示在这个水平下,拒绝原假设。
5. 判断结果比较计算得到的卡方统计量与临界值,如果计算得到的卡方统计量大于临界值,则拒绝原假设,认为变量之间存在显著性关联;如果计算得到的卡方统计量小于临界值,则接受原假设,认为变量之间不存在显著性关联。
三、卡方检验的应用卡方检验广泛应用于各个领域,特别是在医学、社会科学和市场调研等领域。
以下是一些常见的应用场景:1. 健康调查卡方检验可以用于分析不同因素对健康状况的影响。
例如,可以通过卡方检验来判断吸烟与患肺癌之间是否存在显著性关联。
2. 市场调研卡方检验可以用于分析不同市场策略对销售额的影响。
例如,可以通过卡方检验来判断不同促销活动对销售额的影响是否显著。
高中卡方检验原理说起高中卡方检验原理,我有一些心得想分享。
你知道吗?在我们的生活中,经常会碰到一些要判断事物之间有没有关系的情况。
比如说,我们学校有两个社团,一个是绘画社,一个是音乐社。
我们想知道男生和女生对这两个社团的喜好有没有差异。
这时候呢,卡方检验就能派上用场了。
卡方检验啊,简单来说,就是看实际观察到的数值和理论上如果没有关系时应该出现的数值之间的差距有多远。
打个比方吧,假设我们认为男生和女生对两个社团的喜好是一样的,这就是我们的理论假设。
就好像我们觉得把一堆同样颜色和形状的球随机放到两个盒子(这里就好比是绘画社和音乐社)里,每个盒子里男女球的比例应该差不多。
但是呢,当我们实际去调查的时候,可能会发现绘画社里女生特别多,音乐社里男生比较多。
这就和我们当初假设的“应该差不多”有了差异。
这个差异要用一个数值来衡量,这就是卡方值。
卡方值越大,就说明实际观察值和理论值相差越远,也就越能说明男生和女生对两个社团的喜好是有关系的。
老实说,我一开始也不明白为啥要这么复杂地去计算这个关系。
后来我慢慢理解了,这就像是裁判在判断一场比赛是不是公平。
理论上的情况就像是比赛规则下理想的状态,而实际观察的情况则是场上真实发生的。
卡方检验就是这个裁判,来判定变量之间的关系是否显著。
说到这里,你可能会问,那这个卡方检验具体是怎么计算的呢?这就要说到公式了,不过公式理解起来还需要一些时间。
简单说呢,就是先根据理论假设算出每个格子(比如在我们这个例子里就是绘画社里男生、绘画社里女生、音乐社里男生、音乐社里女生这四个格子)的理论频数,然后用(实际频数- 理论频数)的平方除以理论频数,最后把所有格子的这个值加起来,得到卡方值。
那这个在实际中有啥用呢?比如说生物里研究不同环境下某种植物的生长情况是不是和某种昆虫的分布有关,或者社会调查中不同年龄段的人对某种政策的看法有没有差异,卡方检验都能帮我们判断这些变量之间是否有联系。
不过呢,我也知道我的理解肯定还有一定的局限性。
卡方检验原理和公式好嘞,以下是为您生成的文章:在咱们的统计学世界里,卡方检验可是个相当重要的角色。
它就像是一个超级侦探,能帮咱们找出数据背后隐藏的秘密。
先来说说卡方检验的原理。
想象一下,咱们有一堆数据,就像是一堆五颜六色的糖果。
卡方检验呢,就是要看看这些糖果的分布是不是符合咱们预期的模式。
比如说,咱们预期红色糖果应该占 30%,蓝色糖果应该占 50%,绿色糖果应该占 20%。
然后咱们实际数一数,发现红色的只有 20%,蓝色的有 60%,绿色的还是 20%。
这时候卡方检验就出马了,它要判断这种差异是纯属巧合,还是真的有什么不对劲的地方。
那卡方检验到底是怎么做到的呢?其实它是通过比较观察值和期望值之间的差异来判断的。
如果观察值和期望值相差不大,那可能就是随机波动,没什么大问题;但如果相差太大,那就得引起咱们的注意啦,可能有一些因素在影响着结果。
接下来,咱们聊聊卡方检验的公式。
卡方值= Σ(观察值- 期望值)² / 期望值。
这个公式看起来有点复杂,但是别怕,咱们慢慢拆解。
就拿一个班级的考试成绩来举例吧。
假设咱们预期这个班级的优秀率是 20%,良好率是 50%,及格率是 25%,不及格率是 5%。
然后实际统计下来,优秀的有 15 人,良好的有 40 人,及格的有 30 人,不及格的有 5 人。
这个班级一共 90 人。
那期望值分别就是 18 人(90×20%)是优秀,45 人(90×50%)是良好,22.5 人(90×25%)是及格,4.5 人(90×5%)是不及格。
然后咱们来计算卡方值,先算优秀这部分:(15 - 18)² / 18 ≈ 0.5 。
良好这部分:(40 - 45)² / 45 ≈ 0.556 。
及格这部分:(30 - 22.5)² / 22.5 = 5 。
不及格这部分:(5 - 4.5)² / 4.5 ≈ 0.111 。
χ2值计算公式χ2值,全称为卡方检验统计量(chi-square statistic),是一种用于衡量观察值与理论值之间偏离程度的统计量。
它适用于分析两个或多个分类变量之间的关系,并判断这些变量是否独立。
在进行χ2值的计算之前,我们首先需要明确两个概念:观察频数和期望频数。
观察频数是指我们在实际调查或实验中观察到的各个分类变量的频数,而期望频数则是指根据某种假设或理论模型计算得到的各个分类变量的预期频数。
χ2值的计算公式如下:χ2 = Σ [(观察频数 - 期望频数)² / 期望频数]其中,Σ表示对所有分类变量进行求和运算。
假设我们有一个研究问题:想要了解男女性别与是否喜欢篮球之间是否存在关联。
我们进行了一项调查,共有1000名男性和1000名女性参与,他们被要求回答是否喜欢篮球。
我们将调查结果整理如下:喜欢篮球不喜欢篮球总计男性 600 400 1000女性 400 600 1000总计 1000 1000 2000我们可以根据以上观察频数计算期望频数。
在独立性假设(即男女性别与喜欢篮球之间无关联)下,我们可以使用以下公式计算期望频数:期望频数 = (各行总计× 各列总计) / 总样本数以男性喜欢篮球为例,其期望频数计算如下:期望频数= (1000 × 1000) / 2000 = 500同样地,我们可以计算其他分类变量的期望频数。
接下来,我们可以根据观察频数和期望频数,使用χ2值的计算公式计算出χ2值。
根据上述数据,我们可以得到如下计算过程:χ2 = [(600-500)²/500] + [(400-500)²/500] + [(400-500)²/500] + [(600-500)²/500] = 40在进行卡方检验时,我们需要根据自由度和显著性水平查找χ2临界值,以判断计算得到的χ2值是否显著。
自由度的计算公式为自由度 = (行数-1) × (列数-1)。
关于高中数学教材中卡方检验公式的解释统计案例教学中如何让思路来得自然一些王文彬(江西省抚州市第一中学 344000)2统计案例的教学内容主要有三项:线性回归、线性相关与独立性检验(检验).笔者在,教学中发现(所使用的教材是北师大版《高中数学选修教材2-3》),回归方程、相关系数公2式与检验公式得出的思路在某些地方显得不自然,有突兀之感(人教版教材的这些内容与,北师大版相近).如何让这些知识来得更自然一些,值得我们作进一步的探讨.1.线性回归方程为了说明问题,不妨将教材(指北师大版教材,下同)有关内容摘录如下: 设有个样本点,并设其线性回归方程为.这个(,),(,),(,)xyxyxy?nnyabx,,1122nn点与回归直线的“距离”平方和为n2 ? Qabyabx(,)(),,,,ii,1i引入以下记号nnn22,,,不难知道,lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1iinnnn,,从而 ()0xxxnx,,,,()0yyyny,,,,,,,,iiii,,11,,11iiiin2,, ? Qabyyyabxbxx(,)()()(),,,,,,,,,,ii,,,1i22llxyxy2,, ? ()(),,,,,,,,?lnyabxlbyyxx,,llxxxxlxy显然当且时,取最小值. 0b,,Qab(,)yabx,,,()0lxx由此可得出的计算公式,由此可求出线性回归方程. ab,在这里,教材通过求的最小值而得出的值,总体思路是比较自然的,但为Qab(,)ab,什么要将?改写成?,其中的原因却不易说清.为此我们可作如下改进:22对于含有两个变量的函数,应通过配方将其化成形如“(常数)”Qab(,)( )( )C,,的式子,这样,只要令两个括号都为零即可求出的最小值以及的值. Qab(,)ab,n2222事实上, Qabyabxaybxyabx(,)(+222),,,,,,iiiiii,1innnnn2222 ,,,,,ynabxaybxyabx+222,,,,,iiiiii,,,,,11111iiiiinnnn222(常数) ,,,,,,naabxaybxbxyC222,,,,1iiiii,,,,1111iiiinn222,,,,,,nanabxnaybxbxyC222,,1iii,,11iinn222 ,,,,,,naabxaybxbxyC(22)2,,1iii,,11ii1nn222,, naaybxbxbxyC2()2,,,,,,,,1iii,,,,11iinn22222,,naaybxybxnybxbxbxyC2()()()2,,,,,,,,,,,,1iii,,,,11iinn22222,,(常数)naybxbxnxbxynxyC()()2(),,,,,,,,,,2iii,,,,11ii2n,,xynxy),,iin,,22222,i1,,(常数) ,,naybxxnxbC()(),,,,,,,,i3n,,22,,,i1xnx,,i,,,i1,,n22显然,如果有(可用数学归纳法证明),令两个中括号都为零即可得出xnx,,0,i,1i的计算公式了. ab,在高中数学教材必修3(北师大版)中介绍了一种方法:先将视为关于的一元二aQab(,)bb次函数,看为何值时取最小值,再将视为关于的一元二次函数,看为何值时aQab(,)取最小值,从而得出有关的计算公式.然而二元函数可以这样求其最小值这在中学阶段ab,是缺乏理论依据的,因此不能从根本上为学生所接受.2.线性相关系数个数据,不论它们的线性相关程度如何,是否具有线性相关性,显然,对于任意给定的n我们都可以用上述方法求得相应的线性回归方程.为使所建立的回归方程有意义,我们有必要在求出回归方程之前先对变量之间的线性相关程度作出一个判断.首先需要构造一个能合理度量线性相关程度的模型或公式,其次需要知道按所构造的公式计算出来的值多大时,相关程度才比较高.对于前者,教材利用?式得到22llxyxyQabll(,)(1),,,, minyyyylllxxxxyy2lxy2r,,101r,1r如令,因Qab(,)0,,故,而且当接近时,上式接近,minllxxyy这表明相关程度越高,反之越低.故将作为度量两个变量之间的相关程度是合理的,称之r为相关系数.可以看到,在已有?的前提下,这样得出相关系数公式,思路是比较自然的.问题在于我们对?的来源心存疑问,故按这个思路心中总有一个解不开的疙瘩.其实稍作变化即可有效克服这一点:由于,故 aybx,,nn22Qabyabxyybxbx(,)()(),,,,,,,,,iiii,,11iinnnn2222,, ,,,,()()yybxx,,,,,,,bxxbxxyyyy()2()()(),,,,iiiiii,,,,,,1111iiiinnn22再令,,,则上式就可变为lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1ii2Qablblbl(,)2,,, ? xxxyyy其最小值为222244lllll,xxyyxyxyxy. Qabll(,)(1),,,,,minyyyy4llllxxxxxxyynxynxy,),iillxyxyi,1从?式知,当时,取最小值.容易验证,即这里b,,b,Qab(,)n2ll2xxxxxnx,,ii,1b得到的有关的计算公式与前面所得公式是一致的,而且显得更为简洁.实践证明,这时引进记号不仅显得自然,而且能够使学生产生一种简单性的lll,,xxxyyy美感.至于第二个问题,即的值到底多大时,两个变量才具有线性相关性,教材没有作任何r2介绍,笔者认为应像教材介绍“检验”那样,给出一个具体的判定标准为好. ,23.检验 ,如何让学生理解假设检验的基本思想,与教材相比,笔者认为以下方案更为有利.首先通过实例(用教材所举的例子)让学生明白吸烟对患肺癌有影响,然后给出一般性问题:问题:为了调查吸烟与患肺癌是否有联系,经随机调查得到如下数据(单位:人): 变量? 合计 B(患肺癌) (未患肺癌) BA abab, (吸烟) 变量? A cdcd, (不吸烟)abcd,,, ac,合计 bd,记为 n怎样利用这些样本数据,来分析“吸烟对患肺癌有影响”,下面我们采用类似于反证法的思想方法来进行推理.假设“吸烟对肺癌没有影响”(即变量?和?是独立的),也即吸烟患肺癌的人数与不吸ac,PB(),烟患肺癌的人数相差不多.由上表知,患肺癌的频率,未患肺癌的频率为nbd,PB(),,因此,在假设下可推得: nac,,ab,aab,,,()在个吸烟的人中,患肺癌的频数为,未患肺癌的频数为n bd,,bab,,,(). nac,,cd,ccd,,,()在个不吸烟的人中,患肺癌的频数为,未患肺癌的频数为nbd,,dcd,,,(). n,,,,把样本值abcd,,,称为实际频数,把在假设下推得的频数称为与abcd,,,对abcd,,,,应的理论频数.,,,,如果假设成立,则理论频数abcd,,,与实际频数的差异不会很大.如果发生差abcd,,,异很大的情况,我们就有理由怀疑并推翻假设,从而得出“吸烟对患肺癌有影响”的结论.3于是我们需要解决两个问题:一是如何刻划理论频数与实际频数之间的差异;二是差异多大时才能肯定或否定假设.对于第一个问题,为了度量实际频数与理论频数偏离的程度,最简单的办法就是求出实际频数与理论频数的差,由于这些差会彼此抵消,因此可考虑如下办法:42. M,()实际频数,理论频数,k,1显然的值越大,实际频数与理论频数相差越大,反之越小.但利用上式度量实际频数M5055005与理论频数偏离程度尚有不足.例如,某一组实际频数为,理论频数为,相差,2655005另一组实际频数为,理论频数为,相差也是.前者是相对于理论频数相差,后215者则是相对于理论频数21相差,显然这两组实际频数与理论频数的偏离程度是不一样的.2为了弥补这一不足,可考虑将各差平方和除以相应的理论频数后再相加,并设为,即 ,24(实际频数,理论频数)2 ,,,理论频数k,1由此可得22222()()()()aabbccdd,,,,nadbc(),2,. ,,,,,?,()()()()abcdacbd,,,,abcd2至于第二个问题,的值多大才能怀疑并推翻假设,可按教材给出的标准向学生介绍. ,4。
卡方检验是一种统计检验方法,用于比较两个或多个分类变量之间的差异是否具有统计学意义。
它主要用于推断两个分类变量之间是否存在关联或独立性。
卡方检验的原理是通过比较实际观察到的频数与期望频数之间的差异来判断两个变量之间是否存在显著的关联。
在卡方检验中,首先计算每个单元格中的实际频数与期望频数之间的差异,然后将这些差异平方后相加,得到卡方值。
最后,根据卡方分布的概率密度函数来确定卡方值是否落在拒绝域内,从而判断两个变量之间的关联是否具有统计学意义。
卡方检验可以用于多种情况,如检验两个分类变量之间是否存在关联、检验多个分类变量之间的独立性、检验频数分布的拟合优度等。
在实际应用中,需要根据具体问题选择合适的卡方检验方法,并结合样本大小和显著性水平来判断结果的可靠性。
需要注意的是,卡方检验的前提是样本必须是随机样本,并且每个单元格中的频数不应过小。
如果样本不满足这些条件,可能会导致卡方检验的结果不准确。
此外,卡方检验只是一种统计推断方法,不能证明因果关系的存在,需要结合实际情况进行综合分析。
卡方值的计算公式举个例子卡方值的计算公式举例。
在统计学中,卡方值是一种用于衡量两个变量之间关联程度的指标。
它通常用于分析两个分类变量之间的关系,例如性别和喜欢的音乐类型之间的关系。
卡方值的计算公式如下:卡方值 = Σ((观测频数-期望频数)² / 期望频数)。
其中,Σ表示求和,观测频数是实际观测到的频数,期望频数是在假设两个变量之间没有关联的情况下,根据总体频数和各个变量的边际频数计算得到的期望频数。
为了更好地理解卡方值的计算公式,我们举一个例子来说明。
假设我们对一所中学的学生进行了一项调查,调查内容包括学生的性别和是否喜欢阅读。
我们得到了以下数据:男生喜欢阅读 100人。
男生不喜欢阅读 50人。
女生喜欢阅读 120人。
女生不喜欢阅读 80人。
我们想要分析性别和喜欢阅读之间是否存在关联。
首先,我们需要计算各个变量的边际频数:男生总数 150人。
女生总数 200人。
喜欢阅读总数 220人。
不喜欢阅读总数 130人。
然后,我们可以计算期望频数。
以男生喜欢阅读为例,其期望频数为:(男生总数喜欢阅读总数) / 总样本数 = (150 220) / 350 = 94.29。
同样地,我们可以计算其他单元格的期望频数。
接下来,我们可以使用卡方值的计算公式来计算卡方值:卡方值 = ((100-94.29)² / 94.29) + ((50-55.71)² / 55.71) + ((120-125.71)² / 125.71) + ((80-74.29)² / 74.29) = 3.04 + 2.46 + 2.11 + 4.07 = 11.68。
最后,我们可以根据卡方分布表来查找对应自由度下的卡方临界值,从而判断卡方值是否显著。
如果卡方值大于临界值,我们就可以拒绝原假设,认为性别和喜欢阅读之间存在关联。
通过以上例子,我们可以看到卡方值的计算公式在实际应用中的重要性。
关于高中教材上卡方检验公式的解释
卡方检验公式是统计检验中比较常用的统计检验方法,可以用来检验样本中样本数据是否符合特定分布,并且检验比例水平之间是否存在显著性差异。
高中教材上卡方检验公式是用来计算卡方检验结果的公式。
卡方检验公式一般由3部分构成,即总和部分、类别部分以及个别部分。
总和部分表示总量,类别部分用来表示总量的类别,而个别部分则是根据类别求得的各个数据的总和。
其格式为:观测值与期望值之差的平方根据总量和各类别计算得出,这样就得到了一个卡方的结果值。
通常情况下,当我们对一组分布数据进行卡方检验时,我们需要建立一个表格,例如2元检验时,表格大体格式为:分类1+分类2+和。
在这张表格中,观测值用
实际观测到的样本数据代替,期望值则是被检验的数据中期望出现该分类的比例计算出来的。
最后,将观测值与期望值相减,然后将该差值求平方根,最终得出卡方公式的值,便完成了一次卡方检验。
总而言之,卡方检验公式是用来计算卡方检验结果的公式,以观测值与期望值之差的平方根据总量和各类别计算得出,卡方检验能够比较常用来检验样本中样本数据是否符合特定分布,以及检验比例水平之间是否存在显著性差异。
关于高中数学教材中卡方检验公式的解释统计案例教学中如何让思路来得自然一些
王文彬
(江西省抚州市第一中学 344000)
2统计案例的教学内容主要有三项:线性回归、线性相关与独立性检验(检验).笔者在,教学中发现(所使用的教材是北师大版《高中数学选修教材2-3》),回归方程、相关系数公
2式与检验公式得出的思路在某些地方显得不自然,有突兀之感(人教版教材的这些内容与,
北师大版相近).如何让这些知识来得更自然一些,值得我们作进一步的探讨.
1.线性回归方程
为了说明问题,不妨将教材(指北师大版教材,下同)有关内容摘录如下: 设有个样本点,并设其线性回归方程为.这个(,),(,),(,)xyxyxy?nnyabx,,1122nn
点与回归直线的“距离”平方和为
n2 ? Qabyabx(,)(),,,,ii,1i
引入以下记号
nnn22,,,不难知道,
lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1iinnnn
,,从而 ()0xxxnx,,,,()0yyyny,,,,,,,,iiii,,11,,11iiii
n2,, ? Qabyyyabxbxx(,)()()(),,,,,,,,,,ii,,,1i22llxyxy2,, ? ()(),,,,,,,,?lnyabxlbyyxx,,llxxxx
lxy显然当且时,取最小值. 0b,,Qab(,)yabx,,,()0lxx
由此可得出的计算公式,由此可求出线性回归方程. ab,
在这里,教材通过求的最小值而得出的值,总体思路是比较自然的,但为
Qab(,)ab,
什么要将?改写成?,其中的原因却不易说清.为此我们可作如下改进:
22对于含有两个变量的函数,应通过配方将其化成形如“(常
数)”Qab(,)( )( )C,,的式子,这样,只要令两个括号都为零即可求出的最小值以及的值. Qab(,)ab,
n2222事实上, Qabyabxaybxyabx(,)(+222),,,,,,iiiiii,1i
nnnnn2222 ,,,,,
ynabxaybxyabx+222,,,,,iiiiii,,,,,11111iiiiinnnn222(常数) ,,,,,,naabxaybxbxyC222,,,,1iiiii,,,,1111iiiinn222,,,,,,
nanabxnaybxbxyC222,,1iii,,11ii
nn222 ,,,,,,naabxaybxbxyC(22)2,,1iii,,11ii
1
nn222,, naaybxbxbxyC2()2,,,,,,,,1iii,,,,11iinn22222,,naaybxybxnybxbxbxyC2()()()2,,,,,,,,,,,,1iii,,,,11ii
nn22222,,(常数)
naybxbxnxbxynxyC()()2(),,,,,,,,,,2iii,,,,11ii2n,,
xynxy),,iin,,22222,i1,,(常数) ,,naybxxnxbC()(),,,,,,,,i3n,,22,,,i1xnx,,i,,,i1,,
n22显然,如果有(可用数学归纳法证明),令两个中括号都为零即可得出xnx,,0,i,1i
的计算公式了. ab,
在高中数学教材必修3(北师大版)中介绍了一种方法:先将视为关于的一元二aQab(,)
bb次函数,看为何值时取最小值,再将视为关于的一元二次函数,看为何值时aQab(,)
取最小值,从而得出有关的计算公式.然而二元函数可以这样求其最小值这在中学阶段ab,
是缺乏理论依据的,因此不能从根本上为学生所接受.
2.线性相关系数
个数据,不论它们的线性相关程度如何,是否具有线性相关性,显然,对于任意给定的n
我们都可以用上述方法求得相应的线性回归方程.为使所建立的回归方程有意义,我们有必要在求出回归方程之前先对变量之间的线性相关程度作出一个判断.首先需要构造一个能合理度量线性相关程度的模型或公式,其次需要知道按所构造的公式计算出来的值多大时,相关程度才比较高.对于前者,教材利用?式得到
22llxyxyQabll(,)(1),,,, minyyyylllxxxxyy
2lxy2r,,101r,1r如令,因Qab(,)0,,故,而且当接近时,上式接近,minllxxyy
这表明相关程度越高,反之越低.故将作为度量两个变量之间的相关程度是合理的,称之r
为相关系数.
可以看到,在已有?的前提下,这样得出相关系数公式,思路是比较自然的.问题在于我们对?的来源心存疑问,故按这个思路心中总有一个解不开的疙瘩.其实稍作变化即可有效克服这一点:
由于,故 aybx,,
nn22
Qabyabxyybxbx(,)()(),,,,,,,,,iiii,,11iinnnn2222,, ,,,,()()yybxx,,,,,,,bxxbxxyyyy()2()()(),,,,iiiiii,,,,,,1111iiii
nnn22再令,,,则上式就可变为
lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1ii2Qablblbl(,)2,,, ? xxxyyy
其最小值为
2
22244lllll,xxyyxyxyxy. Qabll(,)(1),,,,,minyyyy4llllxxxxxxyy
n
xynxy,),iillxyxyi,1从?式知,当时,取最小值.容易验证,即这里
b,,b,Qab(,)n2ll2xxxxxnx,,ii,1
b得到的有关的计算公式与前面所得公式是一致的,而且显得更为简洁.
实践证明,这时引进记号不仅显得自然,而且能够使学生产生一种简单性的lll,,xxxyyy
美感.
至于第二个问题,即的值到底多大时,两个变量才具有线性相关性,教材没有作任何r
2介绍,笔者认为应像教材介绍“检验”那样,给出一个具体的判定标准为好. ,
23.检验 ,
如何让学生理解假设检验的基本思想,与教材相比,笔者认为以下方案更为有利.
首先通过实例(用教材所举的例子)让学生明白吸烟对患肺癌有影响,然后给出
一般性问题:
问题:为了调查吸烟与患肺癌是否有联系,经随机调查得到如下数据(单位:人): 变量? 合计 B(患肺癌) (未患肺癌) B
A abab, (吸烟) 变量? A cdcd, (不吸烟)
abcd,,, ac,合计 bd,记为 n
怎样利用这些样本数据,来分析“吸烟对患肺癌有影响”,下面我们采用类似
于反证法的思想方法来进行推理.
假设“吸烟对肺癌没有影响”(即变量?和?是独立的),也即吸烟患肺癌的人数
与不吸
ac,PB(),烟患肺癌的人数相差不多.由上表知,患肺癌的频率,未患肺癌的频
率为n
bd,PB(),,因此,在假设下可推得: n
ac,,ab,aab,,,()在个吸烟的人中,患肺癌的频数为,未患肺癌的频数为n bd,,bab,,,(). n
ac,,cd,ccd,,,()在个不吸烟的人中,患肺癌的频数为,未患肺癌的频数为
n
bd,,dcd,,,(). n
,,,,把样本值abcd,,,称为实际频数,把在假设下推得的频数称为与abcd,,,
对abcd,,,,应的理论频数.
,,,,如果假设成立,则理论频数abcd,,,与实际频数的差异不会很大.如果发生
差abcd,,,
异很大的情况,我们就有理由怀疑并推翻假设,从而得出“吸烟对患肺癌有影响”的结论.
3
于是我们需要解决两个问题:一是如何刻划理论频数与实际频数之间的差异;二是差异多大时才能肯定或否定假设.
对于第一个问题,为了度量实际频数与理论频数偏离的程度,最简单的办法就是求出实际频数与理论频数的差,由于这些差会彼此抵消,因此可考虑如下办法:
42. M,()实际频数,理论频数,k,1
显然的值越大,实际频数与理论频数相差越大,反之越小.但利用上式度量实
际频数M
5055005与理论频数偏离程度尚有不足.例如,某一组实际频数为,理论频数为,相差,
2655005另一组实际频数为,理论频数为,相差也是.前者是相对于理论频数相差,后21
5者则是相对于理论频数21相差,显然这两组实际频数与理论频数的偏离程度是不一样的.
2为了弥补这一不足,可考虑将各差平方和除以相应的理论频数后再相加,并
设为,即 ,
24(实际频数,理论频数)2 ,,,理论频数k,1
由此可得
22222()()()()aabbccdd,,,,nadbc(),2,. ,,,,,?,()()()()abcdacbd,,,,abcd
2至于第二个问题,的值多大才能怀疑并推翻假设,可按教材给出的标准向学
生介绍. ,
4。