列联表独立性分析案例
- 格式:ppt
- 大小:388.50 KB
- 文档页数:14
活页作业(三) 列联表独立性分析案例1.对于分类变量X 与Y 的统计量χ2的值说法正确的是( ) A .χ2越大,“X 与Y 有关系”的把握性越小 B .χ2越小,“X 与Y 有关系”的把握性越小 C .χ2越接近于0,“X 与Y 无关系”的把握性越小 D .χ2越接近于0,“X 与Y 无关系”的把握性越大解析 χ2越大,X 与Y 越不独立,所以关联越大;相反,χ2越小,关联越小. 答案:B2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强( ) A .a a +b 与c c +dB .a c +d 与c a +bC .a a +d 与c b +cD .a b +d 与c a +c解析a a +b 与c c +d相差越大,说明ad 与bc 相差越大,两个分类变量之间的关系越强. 答案:A3.对两个分类变量进行独立性检验的主要作用是( ) A .判断模型的拟合效果 B .对两个变量进行相关分析C .给出两个分类变量有关系的可靠程度D .估计预报变量的平均值解析 独立性检验的目的就是明确两个分类变量有关系的可靠程度. 答案:C4.为了了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机选取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计 课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计3030602>7.879时,有99.5%的把握判定两个变量有关联)( )A .没有充足的理由认为课外阅读量大与作文成绩优秀有关B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关D .有99.5%的把握认为课外阅读量大与作文成绩优秀有关 解析 χ2≈9.643>7.879,P (χ2≈9.643>7.879)=0.005.∴在犯错误的概率不超过0.005的前提下认为作文成绩优秀与课外阅读量大有关. 答案:D5.已知某校文理科教师与性别的列联表如下:解析χ2=300×(37×143-85×35)2122×178×72×228≈4.513 9.答案:4.513 96.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.解析 ∵χ2=8.01>6.635,∴有99%的把握说学生性别与喜欢乡村音乐有关系. 答案:99%7.某次全国性会议在北京召开.为了做好对外宣传工作,会务组选聘了16名男记者和14名女记者担任对外翻译工作,调查发现,男、女记者中分别有10人和6人会俄语.(1)根据以上数据完成以下2×2列联表:(2) 解 (1)对应的2×2列联表如下:(2)χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=30×(10×8-6×6)2 16×14×16×14≈1.157 5<2.706.∴不能在犯错的概率不超过0.10的前提下认为性别与会俄语有关.8.某校对高三部分学生的数学质检成绩作相对分析.(1)按一定比例进行分层抽样抽取了20名学生的数学成绩,并用茎叶图(图1)记录,但部分数据不小心丢失了,已知数学成绩[70,90)的频率是0.2,请补全表格并绘制相应频率分布直方图(图2).分数段(分)[50,70)[70,90)[90,110)[110,130)[130,150]频率理成绩进行比较,得到统计数据如下表:物理成绩优秀物理成绩一般合计数学成绩优秀15318数学成绩一般51722合计202040时,有99.9%的把握判定两个变量有关联)解(1)填表如下:分数段(分)[50,70)[70,90)[90,110)[110,130)[130,150]频率0.10.20.40.20.1(2)假设学生的物理成绩优秀与数学成绩优秀没有关系, 则χ2=40×(15×17-5×3)220×20×22×18≈14. 55>10.828.∴有99.9%的把握认为物理成绩优秀与数学成绩优秀有关系.1.两个分类变量X 和Y 的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35.若X 与Y 有关系的可信程度不小于97.5%,则c 等于(已知当χ2>5.024时,则有97.5%的把握认为变量X 与Y 有关系)( )A .3B .4C .5D .6解析χ2=66×[10(35-c )-21c ]231×35×(10+c )(56-c )>5.024,把选项A ,B ,C ,D 代入验证可知选A .答案:A2.在打鼾与患心脏病之间的关系研究中,通过收集数据、整理分析数据得“打鼾与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是( )A .100个心脏病患者中,至少有99人打鼾B .1个人患心脏病,则这个人有99%的概率打鼾C .在100个心脏病患者中,一定有打鼾的人D .在100个心脏病患者中,可能1个打鼾的都没有解析 由题意知,“打鼾与患心脏病有关”的结论有99%以上的把握正确,而不是心脏病患者打鼾的概率为99%,故选D .答案:D3.独立性检验中,若两个分类变量“X 和Y 有关系”的可信程度是95%,则随机变量χ2的取值范围是________________.解析 当χ2>3.841时,有95%的把握判定X 与Y 有关系,当χ2>6.635时,有99%的把握判定X 与Y 有关系,∴3.841<χ2≤6.635.答案:(3.841,6.635]4.假设有两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表如下:________.(填序号)①a =5,b =4,c =3,d =2; ②a =5,b =3,c =4,d =2; ③a =2,b =3,c =4,d =5; ④a =2,b =3,c =5,d =4.解析 四个选项中a +b +c +d 的值与(a +b )(a +c )(c +d )(b +d )的值分别相等,则由χ2的计算公式,可知只需计算(ad -bc )2.经计算,知其值最大的一组是④.答案:④5.某城市随机抽取一年内100天的空气质量指数API 的监测数据,统计结果如下表:(1)ω)的关系式为S =⎩⎪⎨⎪⎧0(0≤ω≤100),4ω-400(100<ω≤300),2 000(ω>300).试估计在本年内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率. (2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关.解 (1)设“600元”为事件A ,由200<S ≤600,得150<ω≤250,频数为39. ∴P (A )=39100.(2)根据已知数据得到如下列联表:χ2=100×(22×7-63×8)85×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.6.目前,在“互联网+”和“大数据”浪潮的推动下,在线教育平台如雨后春笋般蓬勃发展,与此同时,很多学生家长和相关专家对在线教学也产生了质疑,主要原因就是对在线教学,学生是否能认真听讲存在疑虑.在这种情况下,某市教育主管部门在该市各中小学采用分层抽样的方式抽出15周岁以下和15周岁以上各200人进行调查研究,其中15周岁以下的能认真听讲的有150人,不能做到认真听讲的有50人,15周岁以上的170人能认真听讲,不能做到认真听讲的有30人.(1)完成下列2×2列联表:97.5%的把握判定两个变量有关联)(3)现用分层抽样的方法,从15周岁以下的人中抽取8人,在这8人中任取2人进行座谈,求抽到的人中至少有1人能认真听讲的概率.解 (1)填表如下:(2)χ2=400×(50×170-30×150)280×320×200×200=6.25.因为6.25>5.024,所以有97.5%的把握认为能否认真听讲与年龄有关.(3)由题意可知,从15周岁以下抽8人,其中能认真听讲的为6人,不能认真听讲的为2人.设能认真听讲的人为a 1,a 2,a 3,a 4,a 5,a 6,不能认真听讲的人为b 1,b 2,于是,在8人中任意抽取2人有(a 1,a 2),(a 1,a 3),(a 1,a 4),(a 1,a 5),(a 1,a 6),(a 2,a 3),(a 2,a 4),(a 2,a 5),(a 2,a 6),(a 3,a 4),(a 3,a 5),(a 3,a 6),(a 4,a 5),(a 4,a 6),(a 5,a 6),(b 1,a 1)(b 1,a 2),(b 1,a 3),(b 1,a 4)(b 1,a 5),(b 1,a 6),(b 2,a 1),(b 2,a 2)(b 2,a 3),(b 2,a 4),(b 2,a 5),(b 2,a 6),(b 1,b 2)共28种,其中,至少有1人能认真听讲的对立事件是2人都不能认真听讲,只有(b 1,b 2)一种情况.于是,设事件A =“至少有一人认真听讲”, 则P (A )=1-P (A -)=2728.。
列联表独立性分析案例一、学习目标1、通过对典型案例〔如“肺癌与吸烟有关吗〞〕的探究,了解独立性检验〔只要求2×2列联表〕的根本思想、方法及初步应用。
2、让学生经历数据处理的过程,提高探索解决问题的能力。
二、学习重点让学生体会独立性检验的根本思想三、学习难点了解独立性检验的根本思想;了解随机变量的含义。
四、学习过程〔一〕引入课题在许多实际问题中,我们需要考察两种因素的关系。
例如:数学解题能力是否与性别有关;高考升学率是否与补课有关。
为了分析这些问题,我们需要获取一些数据,并对数据进行分析处理,对所得的结论作出判断。
〔二〕案例讲解案例患肺癌与吸烟是否有关?肺癌与吸烟的调查数据分析:吸烟的人在调查总人数中所占的百分比:54%患肺癌的人在调查总人数中所占的百分比:60%既吸烟又患肺癌的人在调查总人数中所占的百分比:39%显然,54%60%39%。
我们有理由相信吸烟是与肺癌有关的。
在解决具体实例的根底上,教师要引导学生总结出一般情况下的解决问题的方法。
假设,那么吸烟是与肺癌无关联,可以认为它们相互独立。
这个式子还可以改写为:.在吸烟与患肺癌问题中,,这说明既吸烟又患肺癌的人数比独立时要多,在这种情况下,吸烟会使患肺癌的人数增加。
需要注意的是,在式子中的各个分式在实际中都是频率,不能等同于概率。
实际上,为了应用概率论得到统计量的近似的分布,统计学家最终选用了:来衡量独立性的大小,它可以化简为当时,有95%的把握判定两个属性不独立;当时,有99%的把握判定两个属性不独立。
〔三〕稳固练习打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打鼾与患心脏病有关系吗?有多大把握认为你的结论成立?解:由题意:,所以我们有99.9%的把握认为每一晚都打鼾与患心脏病有关系。
〔四〕课堂小结1.在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。
独立性检验的思想来自于统计上的假设检验思想,它与反证法类似。
4.3列联表独立性分析案例
1.如果有99%的把握认为“x与y有关系”,那么χ2满足()
A.χ2>6.635B.χ2≥5.024
C.χ2≥7.879 D.χ2>3.841
答案:A
2.为了了解中学生近视情况,在某校开展调查,已知该校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()
A.平均数B.方差
C.回归分析D.独立性检验
解析分析已知条件,易得如下表格:
根据列联表可得χ2,故利用独立性检验的方法最有说服力.
答案:D
3.高二第二学期期中考试,按照甲、乙两个班级学生数学考试成绩优秀和不优秀统计后,得到如下表格:
班组与成绩统计表
则统计量χ2的值为
解析由列联表易得a=11,b=34,c=8,d=37,
则χ2=
(a+b+c+d)(ad-bc)2 (a+b)(a+c)(b+d)(c+d)
=90×(11×37-8×34)2
19×71×45×45
=0.600 4≈0.60.
答案:0.60
4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
已知P(χ2>3.841)表中数据,得到χ2=50×(13×20-10×7)2
≈4.844.则认为选修文科与性别有关系出错的可能性为________.
23×27×20×30
解析∵χ2≈4.844>3.841,∴认为选修文科与性别有关系出错的可能性为5%.
答案:5%。
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
8.4 列联表独立性分析案例(3)一、教学目标(一)知识目标通过对典型案例(如“色弱与性别是否有关”“中学生物理考试成绩和吃早点是否相关”)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
(二)能力目标让学生经历数据处理的过程,会用所学知识对具体案例进行检验,提高探索解决问题的能力。
(三)情感目标从实例中发现问题,提高学习兴趣,激发学习积极性和主动性,不断自我完善,养成不断探求知识完善自我的良好态度。
二、教学重点进一步理解独立性检验的实施步骤三、教学难点对临界值的理解作出判断四、教学过程(一)引入课题独立性检验的步骤。
1.若要推断的论述为H1:“X与Y有关系”。
可按如下步骤判断H1成立的可能性。
A 通过三维柱形图和二维条形图,粗略判断两个分类变量是否有关系。
B 可以利用独立性检验来考察两个分类变量是否有关系。
并能精确判断可靠程度。
2.由观测数据算2χ,其值越大,说明“X与Y有关系”成立的可能性越大。
3.由临界值表确定可靠程度。
(二)案例讲解分析:设从表格中提供的统计数据,可以计算得到如下数值:男性所占百分比:132120.48300+=;女性所占百分比:15150.52300+=在这300人的样本中,男性色弱患者的百分比:120.04300≈;女性色弱的百分比:50.017300≈直观上看,300人中男性色弱的比例高于女性(0.040.017>)。
色弱应该与性别有关。
下面进一步运用独立性的概念进行检验。
从300人中随机选取一人,设1A 表示男性,2A 表示女性,1B 表示色觉正常,2B 表示色弱。
则:1()0.48P A =,2()0.52P A =,2125()0.06300P B +=≈ P (此人为男性且色弱)=12()0.04P A B = 而12()()0.480.060.028P A P B =⨯= 显然1212()()()P A B P A P B ≠P (此人为女性且色弱)=22()0.017P A B =,22()()0.520.060.031P A P B =⨯=显然2222()()()P A B P A P B ≠因此,1A 与2B 、2A 与2B 都不是独立的。
《4.3 列联表独立性分析案例》教案教学目标(一)知识与技能:通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。
明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
(二)过程与方法: 在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。
从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。
最后介绍了独立性检验思想的综合运用(三)情感、态度与价值观:通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。
加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。
明确数学在现实生活中的重要作用和实际价值。
教学中,应多给学生提供自主学习、独立探究、合作交流的机会。
养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。
教学重点:理解独立性检验的基本思想及实施步骤.教学难点:K的含义.了解独立性检验的基本思想、了解随机变量2教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结。
教学过程:一、复习准备:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.二、讲授新课:1. 教学与列联表相关的概念:①分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表).一般我们只研究每个分类变量只取两个值,这样的. 如吸烟与患肺癌的列联表:列联表称为222. 教学三维柱形图和二维条形图的概念:由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异.(教师在课堂上用EXCEL软件演示三维柱形图和二维条形图,引导学生观察这两类图形的特征,并分析由图形得出的结论)3. 独立性检验的基本思想:①独立性检验的必要性(为什么中能只凭列联表的数据和图形下结论?):列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.②独立性检验的步骤(略)及原理(与反证法类似):③ 上例的解决步骤第一步:提出假设检验问题 H 0:吸烟与患肺癌没有关系↔ H 1:吸烟与患肺癌有关系第二步:选择检验的指标 22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大.第三步:查表得出结论三,例题讲解1.三维柱形图中柱的高度表示的是( )A .各分类变量的频数B .分类变量的百分比C .分类变量的样本数D .分类变量的具体值解析: 三维柱形图中柱的高度表示图中各个频数的相对大小.选A2. 统计推断,当______时,有95 %的把握说事件A 与B 有关;当______时,认为没有充分的证据显示事件A 与B 是有关的.解析:当841.3>k 时,就有95 %的把握说事件A 与B 有关,当076.2≤k 时认为没有充分的证据显示事件A 与B 是有关的.3.为了探究患慢性气管炎与吸烟有无关系,调查了却339名50岁以上的人,结果如下表所示,据此数据请问:50岁以上的人患慢性气管炎与吸烟习惯有关系吗?分析:有表中所给的数据来计算2K 的观测值k,再确定其中的具体关系. 解:设患慢性气管炎与吸烟无关.a=43,b=162,c=13,d=121,a+b=205,c+d=134, a+c=56,b+d=283,n=339所以2K 的观测值为469.7))()()(()(2==+++-=d b c a d c b a bc ad n k .因此635.6>k ,故有99%的把握认为患慢性气管炎与吸烟有关.四,课后练习:1. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A.越大B.越小C.无法判断D.以上都不对 2.下列关于三维柱形图和二维条形图的叙述正确的是: ( ) A .从三维柱形图可以精确地看出两个分类变量是否有关系B .从二维条形图中可以看出两个变量频数的相对大小,从三维柱形图中无法看出相对频数的大小C .从三维柱形图和二维条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对3.对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是() A . k 越大," X 与Y 有关系”可信程度越小; B . k 越小," X 与Y 有关系”可信程度越小; C . k 越接近于0," X 与Y 无关”程度越小D . k 越大," X 与Y 无关”程度越大4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( ) A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确.5.若由一个2*2列联表中的数据计算得k2=4.013,那么有 把握认为两个变量有关系6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到250(1320107) 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯因为23.841K ≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 ____;7.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。