2独立性检验
- 格式:doc
- 大小:81.80 KB
- 文档页数:10
教案满招损,谦受益。
《尚书》
大地二中张清泉
【素材积累】
1、一个房产经纪人死后和上帝的对话一个房产经纪人死后,和上帝喝茶。
上帝认为他太能说了,会打扰天堂的幽静,于是旧把他打入了地狱。
刚过了一个星期,阎王旧满头大汗找上门来说:上帝呀,赶紧把他弄走吧!上帝问:怎么回事?
阎王说:地狱的小。
2、机会往往伪装成困难美国名校芝加哥大学的一位教授到访北大时曾提到:芝加哥大学对学生的基本要求是做困难的事。
因为一个人要想有所成旧,旧必须做那些困难的事。
只有做困难的事,才能推动社会发展进步。
【素材积累】
每个人对未来都有所希望和计划,立志是成功的起点,有了壮志和不懈的努力,就能向成功迈进。
1、立志多在少年,但宋朝学家苏洵27岁开始发愤,立志就读,昼夜不息,结果大器晚成,终于成为唐宋八大家之一。
2、我国明代画家王冕,少年放牛时,立志要把荷花佳景惟妙惟肖地画出来。
他不分昼夜地绘画,立志不移,后来成为当时著名的画家。
3、越王勾践被吴国军队打败,忍受奇耻大辱,给吴王夫差当奴仆。
三年后,他被释放回国,立志洗雪国耻。
他卧薪尝胆,发愤图强,终于打败了吴国。
4、有志者事竟成,百二秦关终归楚;苦心人天不负,三千越甲可吞吴。
——蒲松龄。
基础巩固强化一、选择题1.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强( )A.a a +b 与c c +dB.a c +d 与c a +bC.a a +d 与c b +cD.a b +d 与c a +c[答案] A[解析] a a +b 与cc +d 相差越大,说明ad 与bc 相差越大,两个分类变量之间的关系越强.2.独立性检验中,不需要精确计算就可以粗略地判断两个分类变量是否有关的是( )A .散点图B .等高条形图C .假设检验的思想D .以上都不对 [答案] B[解析] 等高条形图可以粗略地判断两个分类变量是否有关,但无法精确地给出结论的可靠程度,故选B.3.假设有两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:最大的一组为( )A .a =5,b =4,c =3,d =2B .a =5,b =3,c =4,d =2C .a =2,b =3,c =4,d =5D .a =2,b =3,c =5,d =4 [答案] D[解析] 比较|a a +b -cc +d |.选项A 中,|59-35|=245; 选项B 中,|58-46|=124; 选项C 中,|25-49|=245; 选项D 中,|25-59|=745.故选D.4.某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有______的把握认为糖尿病患者与遗传有关系.( )A .99.9%B .99.5%C .99%D .97.5%[答案] D[解析] 可以先作出如下列联表(单位:人):糖尿病患者与遗传列联表k=366×(16×240-17×93)2109×257×33×333≈6.067>5.024.故我们有97.5%的把握认为糖尿病患者与遗传有关系.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()①若K2的观测值满足K2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误A.①B.①③C.③D.②[答案] C[解析]①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A,B,③正确.排除D,选C.二、填空题6.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:[答案]7.4697.调查者通过随机询问72名男女中学生喜欢文科还是理科,得到如下列联表(单位:名)性别与喜欢文科还是理科列联表“没有”)[答案]有[解析]通过计算K2的观测值k=72×(16×8-28×20)2 36×36×44×28≈8.42>7.879.故我们有99.5%的把握认为中学生的性别和喜欢文科还是理科有关系.三、解答题8.某地区有关部门调查该地区的一种传染病与饮用不干净水的关系,得到如下列联表(单位:人):传染病与饮用不干净水列联表[解析]由已知列联表中数据计算得K2的观测值为k=830×(52×218-94×466)2≈54.21,518×312×146×684因为54.21>10.828,所以我们有99.9%的把握认为该地区的这种传染病与饮用不干净水是有关的.[点评]对数据作统计分析推断实质上是让我们来判断得这种传染病是否与饮用不干净的水有关系,即根据数据求K2的观测值,再利用其与临界值的大小关系来判断.。
独立性检验教学重点、独立性检验的基本方法,独立性检验的步骤难点:.基本思想的领会及方法应用.知识点一、独立性检验的基本概念和原理独立性检验是研究相关关系的方法。
1.分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量.比如男女、是否吸烟、是否患癌症,宗教信仰、国籍等等。
2列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个3.条形图为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?4.独立性检验的步骤为了回答下面问题,我们先假设H:吸烟与患肺癌没有关系,看看能够得到什么样的结论。
不患肺癌患肺癌合计不吸烟 a b a+b吸烟 c d c+d合计a+c b+d a+b+c+d样本容量 n=a+b+c+d如果“吸烟与患肺癌没有关系”,则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:()()()()()()()220a ca c d c ab ad bc a b c dad bc ad bc n ad bc k a b c d a c b d n a b c d ≈⇒+≈+⇒-≈++---=++++=+++因此 : 越小, 说明吸烟与患肺癌之间关系越弱. 越大, 说明吸烟与患肺癌之间关系越强构造随机变量 其中为样本容量若 H 0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为()22996577754942209956.63278172148987491K ⨯-⨯=≈⨯⨯⨯,这个值到底能告诉我们什么呢?统计学家经过研究后发现,在 H 0成立的情况下,2( 6.635)0.01P K ≥≈. (2)(2)式说明,在H 0成立的情况下,2K 的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在2K 的观测值k ≈56.632 ,远远大于6. 635,所以有理由断定H 0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系” .在上述过程中,实际上是借助于随机变量2K 的观测值k 建立了一个判断H 0是否成立的规则:如果k ≥6. 635,就判断H 0不成立,即认为吸烟与患肺癌有关系;否则,就判断H 0成立,即认为吸烟与患肺癌没有关系.在该规则下,把结论“H 0 成立”错判成“H 0 不成立”的概率不会超过2( 6.635)0.01P K ≥≈,即有99%的把握认为H 0不成立.假设检验 备择假设H 1在H 1不成立的条件下,即H 0成立的条件下进行推理 推出有利于H 1成立的小概率事件(概率不超过α的事件)发生,意味着H 1成立的可能性(可能性为(1-α))很大推出有利于H 成立的小概率事件不发生,接受原假设上例的解决步骤第一步:提出假设检验问题 H 0:吸烟与患肺癌没有关系↔ H 1:吸烟与患肺癌有关系第二步:选择检验的指标 22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大. 第三步:查表得出结论注意:1观测值是2K 的值2.假设没有关系,如果2K 大,则H 0不成立,即两个量有关系。
§2 独立性检验[对应学生用书P40]1.2×2列联表设A,B为两个变量,每个变量都可以取两个值,变量A:A1,A2=A-1;变量B:B1,B2=B-1,用下表表示抽样数据BAB1B2总计A1 a b a+bA2 c d c+d总计a+c b+d n=a+b+c+d并将此表称为2×2列联表.2.χ2的计算公式χ2=n ad-bc2a+b c+d a+c b+d.3.独立性判断的方法(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;(3)当χ2>3.841时,有95%的把握判定变量A,B有关联;(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.(1)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断.(2)使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性.[对应学生用书P41]2×2列联表[例1] 在调查的6名患有色盲,试作出性别与色盲的列联表.[思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后出相应的数据,列表即可.[精解详析] 根据题目所给的数据作出如下的列联表:色盲患色盲不患色盲性别男38442女6514[一点通] 分清类别是作列联表的关键步骤,对所给数据要明确属于那一类.1.下面是一个2×2列联表:则表中a,b处的值分别为( )y1y2总计x1 a 2153x282533总计 b 46A.32,40C.74,82 D.64,72解析:a=53-21=32,b=a+8=40.答案:A2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表.解:列联表如下:性格情况考前心情是否紧张性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020独立性检验的应用[例2] (8分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?[思路点拨] 解答本题先分析列联表数,后计算χ2,再与临界值比较,判断两个变量是否相互独立.[精解详析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%. (4分)(2)χ2=500×40×270-30×1602200×300×70×430≈9.967. (6分) 因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.(8分) [一点通] 这类问题的解决方法为先确定a,b,c,d,n的值并求出χ2的值,再与临界值相比较,作出判断,解题时注意正确运用公式,代入数据准确计算.3.在一个2×2列联表中,通过数据计算χ2=8.325,则这两个变量间有关系的可能性为________.答案:99%4.某高校《统计初步》课程的教师随机调查了选该课的学生的一些情况,具体数据如下表:非统计专业统计专业男1310女720则χ2≈________,有________的把握判定主修统计专业与性别有关.解析:χ2=50×13×20-10×7220×30×23×27≈4.844>3.841,故有95%的把握认为主修统计专业与性别有关.答案:4.844 95%5.(福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P(χ2≥k)0.1000.0500.0100.001k 2.706 3.841 6.63510.828附:χ2=n ad bca+b c+d a+c b+d解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).从中随机抽取2名工人,记至少抽到一名25周岁以下组工人的事件为A ,故P (A )=1-C 23C 25=710,故所求概率为710. (2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手 非生产能手合计 25周岁以上组 15 45 60 25周岁以下组15 25 40 合计3070100所以得χ2=n ad -bc 2a +bc +d a +cb +d=100×15×25-15×45260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.独立性检验的基本步骤: 1.列出2×2列联表. 2.求出χ2=n ad -bc 2a +ca +b b +dc +d.3.判断是否有关联,得出事件有关的可能性大小.[对应课时跟踪训练十七]1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到下表:男 女 总计 爱好402060不爱好203050 总计6050110由χ2=n ad-bc2a+b c+d a+c b+d算得,χ2=110×40×30-20×20260×50×60×50≈7.8.附表:P(χ2≥k)0.0500.0100.001k 3.841 6.63510.828A.有99.9%以上的把握认为“爱好该项运动与性别有关”B.有99.9%以上的把握认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动和性别有关”D.有99%以上的把握认为“爱好该项运动和性别无关”解析:因为χ2=7.8>6.635,所以有99%以上的把握认为有关.答案:C2.下面是2×2列联表:Yxy1y2总计x1 a 2173x222527总计 b 46100则表中a,bA.94、96 B.52、50C.52、54 D.54、52解析:a=73-21=52,b=100-46=54,故选C.答案:C3.高二第二学期期中考试,对甲、乙两个班级学生的数学考试成绩按照优秀和不优秀统计人数后,得到2×2列联表,则随机变量χ2的值为( )班级与成绩统计表优秀 不优秀 总计 甲班 11 34 45 乙班 8 37 45 总计1971 90A .0.600B .0.828C .2.712D .6.004解析:随机变量χ2=90×11×37-34×8219×71×45×45≈0.600,故选A.答案:A4.(江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1成绩 性别 不及格 及格 总计 男 6 14 20 女 10 22 32 总计16 3652视力 性别好 差 总计 男 4 16 20 女 12 20 32 总计163652智商 性别偏高正常总计男 8 12 20 女 8 24 32 总计16 3652表4阅读量性别丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计163652A .成绩B .视力C .智商D .阅读量 解析:因为χ21=52×6×22-14×10216×36×32×20=52×8216×36×32×20, χ22=52×4×20-16×12216×36×32×20=52×112216×36×32×20, χ23=52×8×24-12×8216×36×32×20=52×96216×36×32×20, χ24=52×14×30-6×2216×36×32×20=52×408216×36×32×20, 则有χ24>χ22>χ23>χ21,所以阅读量与性别关联的可能性最大.答案:D5.在独立性检验中,统计量χ2有两个临界值:3.841和6.635.当χ2>3.841时,有95%的把握说明两个事件有关,当χ2>6.635时,有99%的把握说明两个事件有关,当χ2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病关系的调查中,共调查了2 000人,经计算得χ2=20.87,根据这一数据分析,下列关于打鼾与患心脏病之间关系的说法,正确的是________.①有95%的把握认为两者有关; ②约有95%的打鼾者患心脏病; ③有99%的把握认为两者有关; ④约有99%的打鼾者患心脏病.解析:χ2=20.87>6.635,有99%的把握说明两个事件有关,但只是估计,不能肯定什么. 答案:③6.为探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天内的结果如下表所示:死亡 存活 总计 第一种剂量 14 11 25 第二种剂量 6 19 25 总计203050在研究小白鼠的死亡与剂量是否有关时,根据以上数据求得χ2=________. 解析:χ2=5014×19-6×11220×30×25×25≈5.333.答案:5.3337.为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:成绩优秀 成绩较差 总计 兴趣浓厚的 64 30 94 兴趣不浓厚的22 73 95 总计86103189解:由公式求得χ2=189×64×73-22×30286×103×94×95≈38.459.∵38.459>6.635,∴有99%的把握认为数学成绩的好坏与对学习数学的兴趣有关.8.现对某市工薪阶层关于“楼市限购政策”的态度进行调查,随机抽查了50人,他们月收入(单位:百元)的频数分布及对“楼市限购政策”的赞成人数如下表: 月收入 [15,25) [25,35) [35,45) [45,55) [55,65) [65,75] 频数 5 10 15 10 5 5 赞成人数48125215 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异;月收入不低于 5500元 月收入低于5500元 总计 赞成 不赞成 总计(2)若从月收入在[55,65)的被调查对象中随机选取两人进行调查,求至少有一人不赞成“楼市限购政策”的概率.解:(1)由题意得2×2列联表:月收入不低于5 500元月收入低于5 500元总计 赞成 3 29 32 不赞成 7 11 18 总计104050异,根据列联表中的数据,得到:χ2=50×3×11-7×29210×40×32×18≈6.272<6.635,所以没有99%的把握认为当月收入以5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异.(2)已知在收入[55,65)中共有5人,2人赞成,3人不赞成,设至少有一个不赞成楼市限购政策为事件A ,则P (A )=1-C 22C 25=910.故所求概率为910.。
独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。
8.3.2独立性检验课标要求素养要求了解随机变量χ2的意义,通过对典型案例分析,了解独立性检验的基本思想和方法.通过运用列联表进行独立性检验,提升数学抽象及数据分析素养.新知探究山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:问题如何判定“喜欢体育还是文娱与性别是否有联系”?提示可通过表格与图形进行直观分析,也可通过统计分析定量判断.1.临界值χ2统计量也可以用来作相关性的度量.χ2越小说明变量之间越独立,χ2越大说明变量之间越相关χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.2.独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验(test of independence).下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值3.应用独立性检验解决实际问题的大致步骤(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.拓展深化[微判断]1.概率值α越小,临界值xα越大.(√)2.独立性检验的思想类似于反证法.(√)3.独立性检验的结论是有多大的把握认为两个分类变量有关系.(√)[微训练]1.如果根据小概率α=0.01的χ2检测试验,认为H0成立,那么具体算出的数据满足()附表:A.χ2>6.635 B.χ2>5.024C.χ2>7.879 D.χ2>3.841答案 A2.某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过()A.0.1% B.1%C.99% D.99.9%解析∵χ2=7.069>6.635=x0.01,∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.答案 B[微思考]1.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺病有关,是指每100个吸烟者中就会有99个患肺病的.”你认为这种观点正确吗?为什么?提示观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺病有关的程度,不是患肺病的百分数.2.应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗?提示不一定.所有的推断只代表一种可能性,不代表具体情况.题型一有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表,用你所学过的知识进行分析,能否在犯错误的概率不超过0.005 的前提下,认为“喜欢体育还是文娱与性别有关系”?体育文娱合计男生212344女生62935合计275279解零假设为H0:喜欢体育还是喜欢文娱与性别没有关系∵a =21,b =23,c =6,d =29,n =79, ∴χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106>7.879=x 0.005.根据小概率值α=0.005的χ2独立性检验,我们推断H 0不成立,即认为喜欢体育还是喜欢文娱与性别有关系,此推断犯错误的概率不大于0.005. 规律方法 独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值x α.②利用公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算χ2.③如果χ2>x α,则“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”.【训练1】 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?解 零假设为H 0:打鼾与患心脏病无关系 由列联表中的数据,得χ2=1633×(30×1 355-224×24)2254×1 379×54×1 579≈68.033>10.828=x 0.001.根据小概率值α=0.001的χ2独立性检验,我们推断H 0不成立,即认为打鼾与患心脏病有关系,此推断犯错误的概率不大于0.001. 题型二 有关“无关的检验”【例2】 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科生对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?解 零假设为H 0:选报文、理科与对外语的兴趣无关. 列出2×2列联表代入公式得χ2的观测值χ2=361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706=x 0.1,根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H 0不成立,即选报文、理科与对外语的兴趣无关. 规律方法 独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0,因此|ad -bc |越小,关系越弱;|ad -bc |越大,关系越强.【训练2】 某教育机构为了研究成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:对于教育机构的研究项目,根据上述数据能得出什么结论?解 零假设为H 0:成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度无关.根据表中数据,计算得χ2=392×(39×167-157×29)2196×196×68×324≈1.78.因为1.78<2.706=x 0.1,根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H 0不成立,所以我们没有理由说成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.题型三 独立性检验的综合应用【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据. (1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别的列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:α0.1000.0500.0100.005xα 2.706 3.841 6.6357.879χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)由分层随机抽样可得300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的列联表如下:男生女生合计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225零假设为H 0:该校学生的每周平均体育运动时间与性别无关. 结合列联表可算得χ2=300×(45×60-30×165)275×225×210×90≈4.762>3.841=x 0.05.根据小概率值α=0.1的χ2独立性检验,我们推断H 0不成立,即认为“该校学生的每周平均体育运动时间与性别有关”,此推断犯错误的概率不大于0.05. 规律方法(1)解答此类题目的关键在于正确利用χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算χ2的值,再用它与临界值x α的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【训练3】 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人. 解 零假设为H 0:数学成绩优秀与物理、化学、总分成绩优秀都无关系. 列出数学成绩与物理成绩的2×2列联表如下:将表中数据代入公式,得χ21=1 240×(228×737-132×143)2360×880×371×869≈270.1>10.828=x 0.001. 列出数学成绩与化学成绩的2×2列联表如下:化学优秀 化学非优秀 合计 数学优秀 225 135 360 数学非优秀156 724 880 合计3818591 240将表中数据代入公式,得χ22=1 240×(225×724-156×135)2360×880×381×859≈240.6>10.828 =x 0.001.列出数学成绩与总分成绩的2×2列联表如下:总分优秀 总分非优秀 合计 数学优秀 267 93 360 数学非优秀99 781 880 合计3668741 240将表中数据代入公式,得χ23=1240×(267×781-93×99)2360×880×366×874≈486.1>10.828=x 0.001. 根据小概率值α=0.001的χ2独立性检验,我们推断H 0不成立,即认为数学成绩优秀与物理、化学、总分成绩优秀都有关系,此推断犯错误的概率不大于0.001.一、素养落地1.通过本节课的学习,提升数学抽象及数据分析素养. 2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算χ2的值,如果χ2值很大,说明假设不合理,χ2越大,两个分类变量有关系的可能性越大. 二、素养训练1.对两个分类变量A ,B 的下列说法中正确的个数为( ) ①A 与B 无关,即A 与B 互不影响; ②A 与B 关系越密切,则χ2的值就越大; ③χ2的大小是判定A 与B 是否相关的唯一依据 A .0 B .1 C .2D .3解析 ①正确,A 与B 无关即A 与B 相互独立;②不正确,χ2的值的大小只是用来检验A 与B 是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B. 答案 B2.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:则χ2的观测值约为( ) A .0.600 B .0.828 C .2.712D .6.004 解析 根据列联表中的数据,可得χ2=90×(11×37-34×8)245×45×19×71≈0.600.故选A.答案 A3.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的解析由χ2=407×(32×213-61×101)293×314×133×274≈0.164<2.706=x0.1,故没有把握认为种子是否经过处理跟是否生病有关.答案 B4.(多选题)对于分类变量X与Y的随机变量χ2的值,下列说法正确的是() A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越小解析χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,χ2越小,“X与Y有关系”的可信程度越小.答案BD5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a,b,c的值;(2)文科学生总成绩不好与数学成绩不好有关系吗?解 (1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. b =478+399=877.(2)零假设为H 0:文科学生总成绩不好与数学成绩不好没有关系.计算得 χ2=913×(478×24-399×12)2490×423×877×36≈6.233>5.024=x 0.05,根据小概率值α=0.05的χ2独立性检验,我们推断H 0不成立,即认为文科学生总成绩不好与数学成绩不好有关系,此推断犯错误的概率不大于0.05.基础达标一、选择题1.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( ) A .零假设H 0:男性喜欢参加体育活动 B .零假设H 0:女性不喜欢参加体育活动 C .零假设H 0:喜欢参加体育活动与性别有关 D .零假设H 0:喜欢参加体育活动与性别无关解析 独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的χ2应该很小,如果χ2很大,则可以否定假设,如果χ2很小,则不能够肯定或者否定假设. 答案 D2.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3 000人,计算得χ2=6.023,则市政府断言市民收入增减与旅游愿望有关系的可信程度是( ) A .90% B .95% C .99%D .99.5%解析 由临界值表,得 6.023>3.841=x 0.05,所以可断言市民收入增减与旅游愿望有关系的可信程度为95%.答案 B3.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得χ2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为()A.0.1% B.1%C.99% D.99.9%解析易知χ2=7.01>6.635=x0.01,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.答案 C4.在独立性检验中,两个分类变量“X与Y有关系”的可信度为99%,则随机变量χ2的取值范围是()A.[2.706,3.841) B.[3.841,6.635)C.[6.635,7.879) D.[7.879,10.828)解析对照临界值表可知选C.答案 C5.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过()A.0.01 B.0.025C.0.05 D.0.001解析由公式得χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841=x0.05.∴犯错误的概率不超过0.05.答案 C二、填空题6.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________(填序号).①若χ2=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.解析χ2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.答案③7.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2=50×(13×20-10×7)2≈4.844>3.841=x0.05,所以判定主修统计专业与性别有23×27×20×30关系,那么这种判断出错的可能性最大为__________.解析因为χ2>3.841=x0.05,所以有95%的把握认为主修统计专业与性别有关,出错的可能性不超过5%. 答案 5%8.世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则在犯错误的概率不超过__________下认为年龄与西班牙队的被喜欢程度有关. 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A ,由已知得P (A )=q +35100=35,所以q =25,p =25,a =40,b =60.χ2=100×(25×35-25×15)240×60×50×50=256≈4.167>3.841=x 0.05.故认为年龄与西班牙队的被喜欢程度有关,此推断犯错误的概率不超过5%. 答案 5% 三、解答题9.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断. 解 建立性别与态度的2×2列联表如下:肯定 否定 合计 男生 22 88 110 女生 22 38 60 合计44126170根据列联表中所给的数据,可求出男生中作肯定态度的频率为22110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.零假设为H 0:性别和态度没有关系. 根据列联表中的数据得到χ2=170×(22×38-22×88)2110×60×44×126≈5.622>5.024=x 0.025.根据小概率值α=0.025的χ2独立性检验,我们推断H 0不成立,即认为性别和态度有关系,此推断犯错误的概率不大于0.025.10.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:(1)推断能否在犯错误的概率不大于0.005的情况下认为喜欢“人文景观”景点与年龄有关?(2)用分层随机抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率.解(1)零假设为H0:喜欢“人文景观”景点与年龄无关.由公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)得,χ2≈11.978>7.879=x0.005,根据小概率值α=0.005的χ2独立性检验,我们推断H0不成立,即认为喜欢“人文景观”景点与年龄有关,此推断犯错误的概率不大于0.005.(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B1,B2,B3,B4,C1,C2,从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个,其中恰有1位大于40岁的市民和1 位20岁至40岁的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为815.能力提升11.(多选题)有两个分类变量X,Y,其列联表如下所示,其中a ,15-a 均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X ,Y 有关,则a 的值为( ) A .8 B .9 C .7D .6解析 根据公式,得χ2=65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841=x 0.05,根据a >5且15-a >5,a ∈Z ,求得当a =8或9时满足题意. 答案 AB12.为调查某社区居民的业余生活状况,研究这一社区居民在20:00~22:00时间段的休闲方式与性别的关系,随机调查了该社区80人,得到下面的数据表:(1)根据以上数据,能否在犯错误的概率不大于0.01的前提下认为“在20:00~22:00时间段居民的休闲方式与性别有关系”?(2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查3人,设调查的3人在这一时间段以看书为休闲方式的人数为随机变量X ,求X 的数学期望和方差.解 (1)零假设为H 0:在20:00~22:00时间段居民的休闲方式与性别无关系, 根据样本提供的2×2列联表得,χ2=80×(10×10-10×50)260×20×20×60=809≈8.889>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为“在20:00~22:00时间段居民的休闲方式与性别有关系”,此推断犯错误的概率不超过0.01.(2)由题意得,X ~B ⎝ ⎛⎭⎪⎫3,56,且P (X =k )=C k 3⎝ ⎛⎭⎪⎫163-k⎝ ⎛⎭⎪⎫56k,k =0,1,2,3, 故E (X )=3×56=52,D (X )=3×56×16=512.创新猜想13.(多选题)下列关于χ2的说法正确的是( )A .根据2×2列联表中的数据计算得出χ2=6.735>6.635=x 0.01,则有99%的把握认为两个分类变量有关系B .χ2越大,认为两个分类变量有关系的把握性就越大C .χ2是用来判断两个分类变量有关系的可信程度的随机变量D .χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量解析 D 选项的公式中分子应该是n (ad -bc )2.故选ABC. 答案 ABC14.(多空题)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据计算χ2≈__________,能否作出这两种手术对病人又发作心脏病的影响有差别的结论________(填“能”或“不能”).解析 零假设为H 0:这两种手术对病人又发作心脏病的影响无差别.根据列联表中的数据,可以求得χ2=392×(39×167-29×157)268×324×196×196≈1.779.χ2<2.076=x 0.1,根据小概率值α=0.1的χ2独立性检验,我们没有充分的证据推断H 0不成立,即认为这两种手术对病人又发作心脏病的影响无差别. 答案 1.779 不能。
2.4 独立性检验的应用[A组基础巩固]1.下列说法正确的个数是( )①对事件A与B的检验无关时,即两个事件互不影响;②事件A与B关系越密切,则χ2就越大;③χ2的大小是判定事件A与B是否相关的唯一根据;④若判定两个事件A与B有关,则A发生B一定发生.A.1 B.2C.3 D.4解析:两个事件检验无关,只是说明两个事件的影响较小;而判定两事件是否相关除了χ2公式外,还有许多方法.两事件有关,也只是说明当一个事件发生时,另一个事件发生的概率较大,但不一定必然发生.所以只有命题②正确.答案:A2.经过对χ2的统计量的研究,得到了若干个临界值,当χ2≤2.706时,我们认为( ) A.有95%的把握认为A与B有关系B.有99%的把握认为A与B有关系C.没有充分理由说明事件A与B有关系D.不能确定解析:利用临界值来判断,当χ2≤2.706时,没有充分理由说明事件A与B有关系.答案:C3.大学生和研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如表所示:根据以上数据,则可以判定A.获取学位类别与性别有关B.获取学位类别与性别无关C.性别决定获取学位的类别D.以上都是错误的解析:χ2=340×(162×8-27×143)2189×151×305×35≈7.343>6.635.故有99%的把握认为获取学位类别与性别有关. 答案:A4.在吸烟与患肺病这两个变量的计算中,下列说法正确的是( )A .若χ2的值大于6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确 答案:C5.某班主任对全班50名学生进行了作业量的调查,数据如表( ) A .0.1 B .0.05 C .0.9D .0.95解析:∵χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841.∴有95%的把握认为学生性别与认为作业量大有关,或者说这种推断犯错误的概率不超过0.05. 答案:B6.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2≈27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”或“无关”) 解析:由χ2≈27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 答案:有关7.下列是关于出生男婴与女婴调查的列联表那么A =________,B ==________. 解析:由45+E =98得E =53, 由98+D =180可知D =82, 由A +35=D 知A =47.所以B =45+47=92,C =E +35=88. 答案:47 92 88 82 538.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了检验主修统计专业是否与性别有关系,根据表中的数据,得到χ2=50(13×20-10×7)223×27×20×30≈4.84,因为P (χ2>3.841)=0.05,所以断定主修统计专业与性别有关系,这种判断出错的可能性为________.解析:根据题意,如果P (χ2>3.841)=0.05,表示有95%的把握认为“X 与Y ”有关系,则这种判断出错的可能性为5%. 答案:5%9.从发生汽车碰撞事故的司机中抽取2 000名司机.根据他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下:有关系?解析:根据列联表中的数据可以求得: χ2=2 000×(650×500-700×150)21 350×650×800×1 200≈114.9因为114.9>10.828,所以我们有99.9%的把握认为对事故负有责任与血液中含有酒精有关. 10.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过0.01的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系? 解析:根据题目所给数据得如下2×2列联表:χ2=1 500×(982×17-8×493)2990×510×1 475×25≈13.097>10.828.因此,在犯错误的概率不超过0.001的前提下,可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.[B 组 能力提升]1.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =3,b =2,c =4,d =5解析:对于同一样本,|ad -bc |越小,说明X 与Y 相关性越弱,而|ad -bc |越大,说明X 与Y 相关性越强,通过计算知,对于A ,B ,C 都有|ad -bc |=|10-12|=2.对于选项D 有|ad -bc |=|15-8|=7,显然7>2. 答案:D2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表3A .成绩B .视力C .智商D .阅读量解析:∵χ21=52×(6×22-14×10)216×36×32×20=52×8216×36×32×20,χ22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,χ23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,χ24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有χ24>χ22>χ23>χ21,所以阅读量与性别关联的可能性最大.答案:D3.巴西医生马廷思收集的犯有各种贪污、受贿罪的官员与廉洁官员的寿命的调查资料如下:500名贪官中有348人的寿命小于平均寿命,152人的寿命大于或等于平均寿命;590名廉洁官员中有93人的寿命小于平均寿命,497人的寿命大于或等于平均寿命.这里,平均寿命是指“当地人均寿命”.通过数据分析,说明有________的把握认为贪官寿命小于平均寿命. 解析:根据题意列2×2列联表如下:假设H 0χ2=1 090×(348×497-152×93)2500×590×441×649≈325.635>6.635,因此拒绝H 0,即我们有99%的把握认为官员经济上是否清廉与他们的寿命长短有密切关系. 答案:99%4.在关于人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视;男性中有21人主要的休闲方式是看电视;男性、女性中另外的人主要的休闲方式是运动. (1)根据以上数据建立一个2×2的列联表; (2)判断性别与休闲方式是否有关系?解析:(1)依据题意得“性别与休闲方式”2×2列联表为:(2)由公式得χ2=70×54×64×60≈6.201.∵6.201>3.841,∴有95%的把握认为休闲方式与性别有关.5.某学校高三年级有学生1 000名,经调查研究,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B 类同学),现用分层抽样方法(按A 类、B 类分二层)从该年级的学生中共抽查100名同学,测得这100名同学身高(单位:厘米)频率分布直方图如图:(1)统计方法中,同一组数据常用该组区间的中点值(例如区间[160,170)的中点值为165)作为代表.据此,计算这100名学生身高数据的平均值;(2)如果以身高达170 cm 作为达标的标准,对抽取的100名学生,得到以下2×2列联表: 体育锻炼与身高达标2×2列联表①完成上表;②能否判定体育锻炼与身高达标有关系(χ2值精确到0.01)?解析:(1)数据的平均值为:145×0.03+155×0.17+165×0.30+175×0.30+185×0.17+195×0.03=170(cm). (2)①②χ2=100(75×25×50×50≈1.33<3.841.因此没有理由认为体育锻炼与身高达标有关系,即体育锻炼与身高达标无关.。
1.2独立性检验的基本思想及其初步应用1.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总数喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总数262450根据表中数据得到25018158927232426k()⨯⨯-⨯=≈⨯⨯⨯5.059,因为p(K2≥5.024)=0.025,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为()(A)97.5% (B) 95% (C)90% (D)无充分根据2.(2011•湛江一模)利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅表格来确定“X和Y有关系”的可信度.如果k>3.84,那么有把握认为“X和Y有关系”的百分比为()P(K2>k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.708 1.323 2.072 2.706 3.84 5.024 6.6357.87910.83A.5%B.75%C.99.5%D.95%3.(2012•泰安一模)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程,变量x增加一个单位时,y平均增加5个单位;③线性回归方程必过;④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是()A.0B.1C.2D.34.(2010•泰安二模)某医疗研究所为了检验新开发的流感疫苗对甲型H1N1流感的预防作用,把1000名注射了疫苗的人与另外1000名未注射疫苗的人的半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算出P(Χ2≥6.635)≈0.01,则下列说法正确的是()A.这种疫苗能起到预防甲型H1N1流感的有效率为1%B.若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H1N1C.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”D.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”5.(2012•枣庄一模)通过随机询问100名性别不同的大学生是否爱好踢毪子运动,得到如下的列联表:男女总计爱好104050不爱好203050总计3070100附表:P(K2≥k)0.100.050.025k 2.706 3.841 5.024随机变量,经计算,统计量K2的观测值k≈4.762,参照附表,得到的正确结论是()A.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”C.有97.5%以上的把握认为“爱好该项运动与性别有关”D.有97.5%以上的把握认为“爱好该项运动与性别无关”6.(2013•临沂一模)某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有()的把握认为“学生性别与支持该活动有关系”.P(k2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828A.0.1%B.1%C.99%D.99.9%7.(2012•武昌区模拟)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走天桥402060走斑马线203050总计6050110由,算得参照独立性检验附表,得到的正确结论是()A.有99%的把握认为“选择过马路的方式与性别有关”B.有99%的把握认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”8.(2012•上饶一模)在调查学生数学成绩与物理成绩之间的关系时,得到如下数据(人数:)物理成绩好物理成绩不好合计数学成绩好18725数学成绩不好61925合计242650数学成绩与物理成绩之间有把握有关?()A.90%B.95%C.97.5%D.99%9.(2014•韶关二模)由于工业化城镇化的推进,大气污染日益加重,空气质量逐步恶化,雾霾天气频率增大,大气污染可引起心悸、胸闷等心脏病症状.为了解某市患心脏病是否与性别有关,在某医院心血管科随机的对入院50位进行调查得到了如表:患心脏病不患心脏病合计男20525女101525合计302050参考临界值表:p(p2≥k)0.150.100.050.0250.0100.0050.001K 2.072 2.706 3.841 5.024 6.6357.87910.828(参考公式:K2=其中n =a +b +c +d).问有多大的把握认为是否患心脏病与性别有关.答:()A.95%B.99%C.99.5%D.99.9%10.(2014•黄山二模)某部门为了了解青年人喜欢户外运动是否与性别有关,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论为:有()把握认为“喜欢户外运动与性别有关”.附:(独立性检验临界值表)P(K2≥k0)0.050.0250.0100.0050.001k0 3.841 5.024 6.6367.87910.828A.0.1%B.1%C.99%D.99.9%11.(2014•永州三模)随机调查某校110名学生是否喜欢跳舞,由列联表和公式K2=计算出K2,并由此作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,则K2可以为()附表:P(K2≥k0)0.100.050.0250.010k0 2.706 3.841 5.024 6.635A.3.565B.4.204C.5.233D.6.84212.(2013•河南模拟)某中学采取分层抽样的方法从高二学生中按照性别抽出20名学生,其选报文科、理科的情况如下表所示,男女文科 2 5理科 10 3则以下判断正确的是()参考公式和数据:k2=p(k2≥k0)0.150.100.050.0250.0100.0050.001k0 2.07 2.71 3.84 5.02 6.647.8810.83A.至少有97.5%的把握认为学生选报文理科与性别有关B.至多有97.5%的把握认为学生选报文理科与性别有关C.至少有95%的把握认为学生选报文理科号性别有关D.至多有95%的把握认为学生选报文理科与性别有关13.(2014•泰安一模)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如表:性别是否需要志愿者男女需要4030不需要160270由算得,附表:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别无关”C.有99%以上的把握认为“需要志愿者提供帮助与性别有关”D.有99%以上的把握认为“需要志愿者提供帮助与性别无关”14.(2012•潍坊二模)为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:优秀非优秀总计A班14620B班71320C班211940附:参考公式及数据:(1)卡方统计量(其中n=n11+n12+n21+n22);(2)独立性检验的临界值表:P(x2≥k0)0.0500.010K0 3.841 6.635则下列说法正确的是()A.有99%的把握认为环保知识测试成绩与专业有关B.有99%的把握认为环保知识测试成绩与专业无关C.有95%的把握认为环保知识测试成绩与专业有关D.有95%的把握认为环保知识测试成绩与专业无关15.(2014•潍坊三模)为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到如下的2×2列联表.喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050则至少有()的把握认为喜爱打篮球与性别有关.A.95%B.99%C.99.5%D.99.9%16.(2014•珠海二模)通过随机询问100名性别不同的小学生是否爱吃零食,得到如下的列联表:男女总计爱好104050不爱好203050总计3070100P(K2≥k)0.100.050.025k 2.706 3.84150.24由K2=算得K2=≈4.762参照附表,得到的正确结论()A.在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B.在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C.有97.5%以上的把握认为“是否爱吃零食与性别有关”D.有97.5%以上的把握认为“是否爱吃零食与性别无关”17.某班主任对全班50名学生作了一次调查,所得数据如表:0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.18.为考察某种药物预防禽流感的效果,进行动物家禽试验,调查了100个样本,统计结果为:服用药的共有60个样本,服用药但患病的仍有20个样本,没有服用药且未患病的有20个样本.(1)根据所给样本数据完成下面2×2列联表;参考答案1.A【解析】试题分析:∵根据表中数据得到K22 5018158927232426()⨯⨯-⨯=⨯⨯⨯≈5.059,因为p(K2≥5.024)=0.025,∴认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为1-0.025=97.5%故选A.考点:独立性检验的应用.2.D【解析】试题分析:根据所给的观测值,把观测值同表格所给的临界值进行比较,看观测值大于哪一个临界值,得到说明两个变量有关系的可信程度.解:∵k>3.84,∴有0.05的几率说明这两个变量之间的关系是不可信的,即有1﹣0.05=95%的把握说明两个变量之间有关系,故选D.点评:本题考查独立性检验,考查两个变量之间的关系的可信程度,考查临界值表的应用,本题是一个基础题,关键在于理解临界值表的意义,而没有要我们求观测值,降低了题目的难度.3.C【解析】试题分析:①方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程,变量x增加一个单位时,y平均减少5个单位;③线性回归方程必过必过样本中心点;④由计算得K2=13.079,则其两个变量间有关系的可能性是99.9%,解:①方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故①正确;②设有一个回归方程,变量x增加一个单位时,y平均减少5个单位,故②不正确;③线性回归方程必过必过样本中心点,故③正确;④由计算得K2=13.079,对照临界值,可得其两个变量间有关系的可能性是99.9%,故④错误,综上知,错误的个数是2个故选C.点评:本题考查线性回归方程,考查独立性检验,考查方差的变化特点,是一个考查的知识点比较多的题目,注意分析,本题不需要计算,只要理解概念就可以得出结论.4.D【解析】试题分析:根据计算出的临界值,同临界值表进行比较,得到假设不合理的程度约为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,得到正确答案.解:∵并计算出P(Χ2≥6.635)≈0.01,这说明假设不合理的程度约为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,∴有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”故选D.点评:本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关.5.A【解析】试题分析:题目的条件中已经给出这组数据的观测值,我们只要把所给的观测值同节选的观测值表进行比较,发现它大于3.841,在犯错误的概率不超过5%的前提下,认为“爱好这项运动与性别有关”.解:由题意算得,k2=4.762>3.841,参照附表,可得在犯错误的概率不超过5%的前提下,认为“爱好这项运动与性别有关”.故选A.点评:本题考查独立性检验的应用,本题有创新的地方就是给出了观测值,只要进行比较就可以,是一个基础题.6.C【解析】试题分析:把观测值同临界值进行比较.得到有99%的把握说学生性别与支持该活动有关系.解:∵K2=7.069>6.635,对照表格:P(k2≥k0) 0.100 0.050 0.025 0.010 0.001k0 2.706 3.841 5.024 6.635 10.828∴有99%的把握说学生性别与支持该活动有关系.故选C.点评:本题考查独立性检验,解题时注意利用表格数据与观测值比较,这是一个基础题.7.A【解析】试题分析:把所给的观测值与临界值进行比较,发现它大于6.635,得到有99%以上的把握认为“选择过马路的方式与性别有关”.解:由题意,K2≈7.8∵7.8>6.635,∴有0.01=1%的机会错误,即有99%以上的把握认为“选择过马路的方式与性别有关”故选A.点评:本题考查独立性检验的应用,这种问题一般运算量比较大,通常是为考查运算能力设计的,本题有创新的地方就是给出了观测值,只要进行比较就可以,本题是一个基础题.8.D【解析】试题分析:根据列联表可以求得K2的值,与临界值比较,即可得到结论.解:提出假设H0:学生数学成绩与物理成绩之间没有关系.根据列联表可以求得K2=≈11.5>6.635,∴有0.01=1%的机会错误,即有99%以上的把握认为“数学成绩与物理成绩之间有把握有关”故选D.点评:本题考查独立性检验的应用,这种问题一般运算量比较大,通常是为考查运算能力设计的,本题是一个基础题.9.C【解析】试题分析:利用公式求得K2,与临界值比较,即可得到结论.解:K2==≈8.333又 P(k2≥7.789)=0.005=0.5%,所以我们有 99.5%的把握认为患心脏病与性别有关系.故选:C.点评:本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于基础题.10.C【解析】试题分析:把观测值同临界值进行比较.得到有99%的把握说学生性别与支持该活动有关系.解:∵K2=7.069>6.635,对照表格:P(k2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828∴有99%的把握说学生性别与支持该活动有关系.故选:C.点评:本题考查独立性检验,解题时注意利用表格数据与观测值比较,这是一个基础题.11.D【解析】试题分析:根据有99%的可能性认为学生喜欢跳舞与性别有关,可得K2>6.635,即可得出结论.解:∵有99%的可能性认为学生喜欢跳舞与性别有关,∴K2>6.635,故选:D.点评:根据列联表,计算K2,与临界值比较,是解决独立性检验的应用问题的方法12.C【解析】试题分析:根据所给的数据,代入求观测值的公式,得到观测值,把观测值同临界值进行比较得到结论.解:根据所给的数据代入求观测值的公式,得到k2=≈4.432>3.844,∴至少有95%的把握认为学生选报文理科号性别有关,故选:C.点评:本题考查独立性检验的应用,本题解题的关键是理解临界值对应的概率的意义,能够看出两个变量之间的关系,属于基础题.13.C【解析】试题分析:K2=9.967,同临界值表进行比较,得到有多大把握认为老年人是否需要志愿者提供帮助与性别有关.解:由于K2=9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.故选:C.点评:本题考查独立性检验.利用观测值K2与临界值的大小来确定是否能以一定把握认为两个分类变量有关系.其方法是:K≥K0,解释为有[1﹣P(k2≥k0)]×100%的把握认为两个分类变量有关系;K<K0,解释为不能以[1﹣P(k2≥k0)]×100%的把握认为两个分类变量有关系.14.C【解析】试题分析:由列联表中数据,代入公式,求出X2的值,进而与3.841进行比较,即可得出能否有95%的把握认为环保知识测试成绩与专业有关.解:由两个班同学的统计得到成绩与专业的列联表:根据列联表中的数据可得X2=40(14×13﹣6×7)2÷(21×19×20×20)≈4.912>3.841∴有95%的把握认为环保知识测试成绩与专业有关.故选C.点评:本题考查独立性检验的应用,考查数据处理能力、运算求解能力和应用意识,本题解题的关键是正确运算出观测值,理解临界值对应的概率的意义,要想知道两个变量之间的有关或无关的精确的可信程度,只有利用独立性检验的有关计算,才能做出判断,本题是一个基础题.15.C【解析】试题分析:根据所给的列联表得到求观测值所用的数据,把数据代入观测值公式中,做出观测值,同所给的临界值表进行比较,得到所求的值所处的位置,得到百分数.解:根据所给的列联表,得到k2==8.333>7.879,∴至少有99.5%的把握说明喜爱打篮球与性别有关.故选:C.点评:根据所给的列联表得到求观测值所用的数据,把数据代入观测值公式中,做出观测值,同所给的临界值表进行比较,得到所求的值所处的位置,得到百分数.16.A【解析】试题分析:根据P(K2>3.841)=0.05,即可得出结论.解:∵K2=≈4.762>3.841,P(K2>3.841)=0.05∴在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”.故选:A.点评:本题考查独立性检验的应用,考查学生分析解决问题的能力,属于基础题.17.不能【解析】查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.考点:独立性检验.18.(1)(2)大概90%认为药物有效 【解析】 试题分析:(1)由所给样本数据完成下面2×2列联表即可(2)根据公式计算观测值,然后比较观测值与临界值表中相应的检验水平,最后做出统计判断. (1)填表(2)假设检验问题H 0:服药与家禽得禽流感没有关系22()()()()()n ad bc K a b c d a c b d -=++++ 2100(40202020) 2.77860406040⨯-⨯=≈⨯⨯⨯由P(2 2.706K ≥)=0.10 所以大概90%认为药物有效 12分 考点:2×2列联表;独立性检验.。