第三章统计案例
- 格式:ppt
- 大小:439.50 KB
- 文档页数:3
§3.2 独立性检验的基本思想及其初步应用学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.知识点一 分类变量及2×2列联表思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计270520790如何判定“喜欢体育还是文娱与性别是否有联系”?答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表.y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d知识点二 等高条形图1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.2.如果通过直接计算或等高条形图发现aa +b 和cc +d相差很大,就判断两个分类变量之间有关系.知识点三 独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.1.列联表中的数据是两个分类变量的频数.( √)2.事件A与B的独立性检验无关,即两个事件互不影响.( ×)3.K2的大小是判断事件A与B是否相关的统计量.( √)类型一等高条形图的应用例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?考点定性分析的两类方法题点利用图形定性分析解等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.反思与感悟在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.两个比例的值相差越大,X与Y有关系成立的可能性就越大.跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?考点定性分析的两类方法题点利用图形定性分析解根据题目所给的数据得到如下2×2列联表:经常上网不经常上网总计不及格80120200及格120680800总计200800 1 000得出等高条形图如图所示:比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.类型二独立性检验例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.考点独立性检验及其基本思想题点独立性检验的方法解 将2×2列联表中的数据代入公式计算,得K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(60×10-20×10)270×30×80×20=10021≈4.762. 因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.反思与感悟 (1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0,因此|ad -bc |越小,关系越弱;|ad -bc |越大,关系越强. (2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k 0.②利用公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算随机变量K 2的观测值k .③如果k ≥k 0,推断“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”. 跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系. 考点 独立性检验及其基本思想 题点 独立性检验的方法 解 (1)2×2列联表如下所示:(2)假设“对新课程教学模式的赞同情况与教师年龄无关”. 由公式得K 2=50×(10×6-24×10)234×16×20×30≈4.963<6.635,所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关. 类型三 独立性检验的综合应用例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).考点独立性检验思想的应用题点分类变量与统计、概率的综合性问题解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,由P (A )=P (BC )=P (B )P (C ),则旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62,新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66,则事件A 的概率估计值为P (A )=P (B )P (C )=0.62×0.66=0.409 2, ∴A 发生的概率为0.409 2.(2)根据箱产量的频率分布直方图得到列联表:则K 2=200×(62×66-38×34)2100×100×96×104≈15.705,由15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. 反思与感悟 两个分类变量相关关系的判断(1)等高条形图法:在等高条形图中,可以估计满足条件X =x 1的个体中具有Y =y 1的个体所占的比例aa +b,也可以估计满足条件X =x 2的个体中具有Y =y 1的个体所占的比例cc +d.两个比例的值相差越大,X 与Y 有关系成立的可能性就越大.(2)观测值法:通过2×2列联表,先计算K 2的观测值k ,然后借助k 的含义判断“两个分类变量有关系”这一结论成立的可信程度.跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X ,求X 的分布列与均值. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题 解 (1)列联表补充如下:喜爱打篮球不喜爱打篮球合计 男生 22 6 28 女生 10 10 20 合计321648(2)由K 2=48×(220-60)228×20×32×16≈4.286.因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. (3)喜爱打篮球的女生人数X 的可能取值为0,1,2. 其概率分别为 P (X =0)=C 210C 220=938,P (X =1)=C 110C 110C 220=1019,P (X =2)=C 210C 220=938,故X 的分布列为X 0 1 2 P9381019938X 的均值为E (X )=0+1019+919=1.1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A .平均数 B .方差 C .回归分析 D .独立性检验 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 D2.对于分类变量X 与Y 的随机变量K 2的观测值k ,下列说法正确的是( )A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大考点独立性检验及其基本思想题点独立性检验的思想答案 B解析k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是( )考点定性分析的两类方法题点利用图形定性分析答案 D解析由等高条形图易知,D选项两个分类变量关系最强.4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有考点独立性检验及其基本思想题点独立性检验的方法答案 D解析独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.总成绩好 总成绩不好 总计 数学成绩好 478 a490 数学成绩不好39924423 总计b c913(1)计算a ,b ,c 的值;(2)文科学生总成绩不好与数学成绩不好有关系吗? 考点 独立性检验及其基本思想 题点 独立性检验的方法解 (1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系. 2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K 2的值,如果K 2的值很大,说明假设不合理.K 2越大,两个分类变量有关系的可能性越大.一、选择题1.下面是一个2×2列联表:y 1 y 2总计 x 1 a21 73 x 2825 33 总计b46106则表中a ,b 的值分别为( ) A .94,96 B .52,50 C .52,60D .54,52考点 分类变量与列联表 题点 求列联表中的数据 答案 C2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得K 2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( ) A .0.1% B .1% C .99% D .99.9% 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 C解析 易知K 2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.3.在独立性检验中,两个分类变量“X 与Y 有关系”的可信度为99%,则随机变量K 2的观测值k 的取值范围是( ) A .[3.841,5.024) B .[5.024,6.635) C .[6.635,7.879) D .[7.879,10.828)考点 分类变量与列联表 题点 求观测值 答案 C4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:则随机变量K 2的观测值约为( ) A .0.600 B .0.828 C .2.712D .6.004考点 分类变量与列联表 题点 求观测值 答案 A解析 根据列联表中的数据,可得随机变量K 2的观测值k =90×(11×37-34×8)245×45×19×71≈0.600.故选A.5.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )A.a a +b 与c c +d B.a c +d 与c a +b C.aa +d 与cb +cD.ab +d 与ca +c考点 定性分析的两类方法 题点 利用图形定性分析 答案 A 解析 由题意,⎪⎪⎪⎪⎪⎪a a +b -c c +d =⎪⎪⎪⎪⎪⎪ac +ad -ac -bc (a +b )(c +d )=⎪⎪⎪⎪⎪⎪ad -bc (a +b )(c +d ),因为|ad -bc |的值越大,两个分类变量有关系的可能性就越大,故选A.6.有两个分类变量X ,Y ,其列联表如下所示,其中a,15-a 均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X ,Y 有关,则a 的值为( ) A .8 B .9 C .8或9D .6或8考点 分类变量与列联表 题点 求列联表中的数据 答案 C解析 根据公式,得K 2的观测值 k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,根据a >5且15-a >5, a ∈Z ,求得当a =8或9时满足题意.7.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.025 C .0.005 D .0.001 考点 独立性检验及其基本思想 题点 独立性检验的方法答案 B解析 由公式得K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024.∵P (K 2≥5.024)=0.025,∴犯错误的概率不超过0.025. 二、填空题8.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K 2的观测值k >6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________. 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 ③解析 K 2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确. 9.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为K 2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 5%解析 因为K 2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.10.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 95%解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A ,由已知得P (A )=q +35100=35,所以q =25,p =25,a =40,b =60.K 2=100×(25×35-25×15)240×60×50×50=256≈4.167>3.841.故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关. 三、解答题11.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断. 考点 定性分析的两类方法 题点 利用图形定性分析解 建立性别与态度的2×2列联表如下:根据列联表中所给的数据,可求出男生中作肯定态度的频率为110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值k =170×(22×38-22×88)2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.12.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:喜欢 不喜欢 合计 大于40岁 20 5 25 20岁至40岁10 20 30 合计302555(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率. 考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题解 (1)由公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得,观测值k ≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人文景观”景点与年龄有关.(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B 1,B 2,B 3,B 4,C 1,C 2,从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,C 1),(B 1,C 2),(B 2,B 3),(B 2,B 4),(B 2,C 1),(B 2,C 2),(B 3,B 4),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),(C 1,C 2),共15个,其中恰有1位大于40岁的市民和1位20岁至40岁的市民的事件有(B 1,C 1),(B 1,C 2),(B 2,C 1),(B 2,C 2),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为815.四、探究与拓展13.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表为:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d对同一样本,以下数据能说明X 与Y 有关的可能性最大的一组是( ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =3,b =2,c =4,d =5考点 分类变量与列联表 题点 求列联表中的数据 答案 D解析 对于同一样本,|ad -bc |越小,说明x 与y 相关性越弱,而|ad -bc |越大,说明x 与y 相关性越强,通过计算知,对于A ,B ,C 都有|ad -bc |=|10-12|=2.对于选项D ,有|ad -bc |=|15-8|=7,显然7>2. 14.2017年世界第一届轮滑运动会(the first edtion of Roller Games)在南京举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱轮滑,其余不喜爱.得到2×2列联表如下.(1)根据2×2列联表,判断能否在犯错误的概率不超过0.10的前提下认为性别与喜爱轮滑有关? (2)从女志愿者中抽取2人参加接待工作,若其中喜爱轮滑的人数为ξ,求ξ的分布列和均值. 考点 独立性检验思想的应用题点 独立性检验与线性回归方程、均值的综合应用解 (1)假设:是否喜爱轮滑与性别无关.由已知数据可求得K 2的观测值为 k =30×(10×8-6×6)216×14×16×14≈1.157 5<2.706.因此不能在犯错误的概率不超过0.10的前提下认为喜爱轮滑与性别有关. (2)喜爱轮滑的人数ξ的可能取值为0,1,2, 则P (ξ=0)=C 06C 28C 214=2891=413,P (ξ=1)=C 16C 18C 214=4891,P (ξ=2)=C 26C 08C 214=1591.所以喜爱轮滑的人数ξ的分布列为4 13+1×4891+2×1591=67.所以喜爱轮滑的人数ξ的均值为E(ξ)=0×。
第三章统计案例(综合训练1)一、学习要求1.通过典型案例的探究,了解统计学中对两个变量统计分析的思想方法和步骤;2.能综合运用概率、统计的知识解决有关问题。
二、问题探究■合作探究例1.【10新课标(文19)】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女需要40 30不需要160 270(1)估计该地区老年人中,需要志愿者提供帮助的老年人比例;(2)能否有的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:0.050 0.010 0.0013.841 6.635 10.828。
【解析】(1)样本中,该地区的老年人需要志愿者提供帮助的有:403070+=(人),∴估计该地区老年人中,需要志愿者提供帮助的老年人比例为:707 50050=。
(2)根据表中数据,得到:,∵,∴有的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关。
(3)根据(2)的结论可知,地区的老年人是否需要志愿者提供帮助与性别有关,所以可按性别进行分层抽样调查,从而能更好地估计该地区的老年人中需要志愿者提供帮助的老年人的比例。
■自主探究1.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查,得到了如下的列联表:喜爱打篮球不喜爱打篮球合计男生 5女生10合计50已知在全部50人中随机抽取1人,抽到喜爱打篮球的学生的概率为。
(Ⅰ)补充完整上面的列联表,并判断是否有的把握认为喜爱打篮球与性别有关?(Ⅱ)若采用分层抽样的方法从喜爱打篮球的学生中随机抽取3人,则男生和女生抽取的人数分别是多少?解:(Ⅰ)这50人中喜爱打篮球的人数为:(人)。
列联表补充如下:喜爱打篮球不喜爱打篮球合计男生20 5 25女生10 15 25合计30 20 50,∵,∴有的把握认为喜爱打篮球与性别有关。
假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
3.1 第二课时 残差分析及回归模型的选择一、课前准备 1.课时目标(1) 了解残差分析回归效果; (2) 了解相关指数2R 分析回归效果;(3) 了解常见的非线性回归转化为线性回归的方法. 2.基础预探1.在线性回归模型y bx a e =++中,a b 和为模型的未知参数,e y 是与y bx a =+之间的误差,通常e为随机变量,称为_______.它的均值E(e)=0,方差2()0D e σ=>.线性回归模型的完整表达形式为2()0,()y bx a eE e D e σ=++⎧⎨==⎩.在此模型中,随机误差r的方差2σ越小,通过回归直线y bx a =+预报真实值y的精度越高. 2.对于样本点1122(,),(,),,(,)n n x y x y x y 而言,相应于它们的随机误差为(1,2,,)i i i i e y y y bx a i n =-=--=,其估计值为(1,2,,)i i i i i e y y y bx a i n =-=--=,i e 称为相应于点(,)i i x y 的______.类比样本方差估计总体方差的思想,可以用21(,)2Q a b n σ=-(n>2)作为2σ的估计量,其中a b 和由公式给出,()Q a b ,称为残差平方和.可以用2σ衡量回归直线方程的预报精度.通常2σ越小,预报精度越高.3.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差12,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为_______.4.用相关指数2R 来刻画回归的效果,其计算公式是:22121()1()nii nii y y R y y ==-=--∑∑.显然2R 取值越大,意味着残差平方和_______,也就是说模型的拟合效果________. 二、学习引领1. 进行回归分析的步骤是什么?(1)确定研究对象,明确是哪两个变量之间的相关关系.(2)画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关系数的值来精确判断它们之间是否存在相关关系.如果不存在线性相关关系,判断散点图是否存在非线性相关关系.(3)若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选用线性回归方程ˆy=bx+a ;否则可选择指数模型、对数模型或二次函数模型等. (4)利用残差图或者相关指数2R 对回归效果进行判断2.随机误差e的产生及估计的方法(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其它变量的影响;(2)由于前面相关关系公式中的a b 和为截距和斜率的估计值,它们与真实值a b 和之间也存在误差.(3)因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差2来衡量随机误差的大小. 3.如何利用2R 判断回归效果在线性回归模型中,2R 表示解释变量对于预报变量变化的贡献率. 2R 越接近于1,表示回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个2R ,选择其值大的模型.4.常见的可线性化的回归模型(1)幂函数曲线y=ax b(如图所示), 作变换u=lny ,v=lnx,c=lna,得线性函数u=c+bv.(2)指数函数y=ae bx(如图所示) 作变换u=lny, c= lna,得线性函数u=c+bx.(3)倒指数曲线y=a b xe (如图所示).(4)对数曲线y=a+blnx(如图所示)三、典例导析题型一相关系数的应用例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车r,由此判断交通事故数y与机动车辆数x是否线性相关.解析:将数据列成下表由此可知x=128.875 y=8.95,进而求得0.9927≈.因为|r|接近1 ,所以可得交通事故数y和机动车辆数x有较强的线性相关关系.规律总结:进行回归分析时,通常先进行相关性检验,若能确定两个变量具有线性相关关系,再去求其线性回归方程,否则所求的方程无意义.两个变量正(负)相关时,它们就有相同(反)的变化趋势,即当由小变大时,相应的有由小(大)变大(小)的趋势.变式训练:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工完成下列要求:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验。
第三章 3.1 回归分析的根本思想及其初步应用A 级 根底稳固一、选择题1.(2021·深圳一模)其食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一局部不同年份的该酒品,并测定了其芳香度(如表).年份x 0 1 4 5 6 8 芳香度y由最小二乘法得到回归方程y ^x +1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为( A )[解析] 由表中数据:x =16(0+1+4+5+6+8)=4,回归方程y ^x +1.13,∴y ^=1.03×4+1.13=5.26,∴y =16(1.3+1.8+5.6+?+7.4+9.3)=5.26,解得:?=6.1. 应选A .2.由变量x 与y 相对应的一组数据(1,y 1)、(5,y 2)、(7,y 3)、(13,y 4)、(19,y 5)得到的线性回归方程为y ^=2x +45,那么y -=( D )A .135B .90C .67D .63[解析] ∵x -=15(1+5+7+13+19)=9,y -=2x -+45,∴y -=2×9+45=63,应选D . 3.观测两个相关变量,得到如下数据:x -1 -2 -3 -4 -5 5 4 3 2 1 y-25A .y ^x -1 B .y ^=x C .y ^=2x +0.3 D .y ^=x +1[解析] 因为x -=0, y -=,10)=0,根据回归直线方程必经过样本中心点(x -,y -)可知,回归直线方程过点(0,0),所以选B .4.一位母亲记录了儿子3~9岁的身高,数据(略),由此建立的身高与年龄的回归模型为y ^x +73.93,用这个模型预测这个孩子10岁时的身高,那么正确的表达是( C )A .身高一定是B .身高在以上C .身高在左右D .身高在以下[解析] 将x 的值代入回归方程y ^x +73.93时,得到的y ^值是年龄为x 时,身高的估计值,应选C .5.(2021·西宁模拟)为了规定工时定额,需要确定加工零件所花费的时间,为此进展了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4)(x 5,y 5).根据收集到的数据可知x =20,由最小二乘法求得回归直线方程为y ^x +48,那么5i =1y i =( D )A .60B .120C .150D .300[解析] 由题意,x =20,回归直线方程为y ^x +48,∴y ^=0.6×20+48=60.那么 i =15y i =60×5=300.应选D .6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^x -85.71,那么以下结论中不正确的选项是.......( D ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x -,y -)C .假设该大学某女生身高增加1cm ,那么其体重约增加gD .假设该大学某女生身高为170cm ,那么可断定其体重必为 [解析] 此题考察线性回归方程.D 项中身高为170cm 时,体重“约为〞58.79,而不是“确定〞,回归方程只能作出“估计〞,而非确定“线性〞关系.二、填空题7.以下五个命题,正确命题的序号为__③④⑤__. ①任何两个变量都具有相关关系; ②圆的周长与该圆的半径具有相关关系;③某商品的需求量与该商品的价格是一种非确定性关系; ④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进展研究.[解析] 变量的相关关系是变量之间的一种近似关系,并不是所有的变量都有相关关系,而有些变量之间是确定的函数关系.例如,②中圆的周长与该圆的半径就是一种确定的函数关系;另外,线性回归直线是描述这种关系的有效方法;如果两个变量对应的数据点与所求出的直线偏离较大,那么,这条回归直线的方程就是毫无意义的.8.(2021·兰州模拟)变量 x ,y 具有线性相关关系,它们之间的一组数据如下表所示,假设y 关于 x 的线性回归方程为y ^x -1,那么m =____.x 1 2 3 4 ym4[解析] 由题意,x =2.5,代入线性回归方程为y ^x -1,可得y =2.25, ∴0.1+1.8+m +4=4×2.25, ∴m =3.1. 故答案为3.1.9.以下是某地区的降雨量与年平均气温的一组数据: 年平均气温(℃)年降雨量(mm) 542507813574701432464根据这组数据可以推断,该地区的降雨量与年平均气温__不具有__相关关系.(填“具有〞或“不具有〞)[解析] 画出散点图,观察可知,降雨量与年平均气温没有相关关系.三、解答题10.为了迎接2021年俄罗斯世界杯,某协会组织了一次“迎2021世界杯,手工制作助威旗〞活动,将俄罗斯世界杯的标志以手工刺绣的方式刺绣到红色的三角形的旗子上面,来为世界杯加油.在10次制作中测得的数据如下: 助威旗数x (个) 10 20 30 40 50 60 70 80 90 100 加工时间Y (小时)626875818995102108115122试问:(1)x 与Y 是否具有线性相关关系?(2)如果x 与Y 具有线性相关关系,求出Y 对x 的回归直线方程,并根据回归直线方程,预测加工2021个助威旗需多少天(准确到1)?注:每天工作8小时.(参考数据:x =55,y =91.7,∑i =110x 2i =38500,∑i =110y 2i =87 777,∑i =110x i y i =55950,38500-10×552-8250,38500-10×552≈91,错误!≈61)[解析] (1)作散点图如下图从图中可以看出,各点都散布在一条直线附近,即它们线性相关. (2)由所给数据求得b =∑i =110x i y i -10xy∑i =110x 2i -10x 2=,38500-10×552)∴a =y -b x =91.7-0.668×55∴Y 对x 的回归直线方程为 y ^x当x =2021时,y ^=54.96+0.668×2021=1397.64(小时)又1397.64÷8=174.705(天)∴加工2021个助威旗所需时间约为175天.B 级 素养提升1.(2021·保定一模)具有线性相关的变量x ,y ,设其样本点为A i (x i ,y i )(i =1,2,…,8),回归直线方程为y ^=12x +a ,假设OA 1→+OA 2→+…+OA 8→=(6,2),(O 为原点),那么a =( B )A .18B .-18C .14D .-14[解析] 计算x =18×(x 1+x 2+…+x 8)=68=34,y =18×(y 1+y 2+…+y 8)=28=14;回归直线方程为y ^=12x +a ,∴14=12×34+a , 解得a =-18.应选B .2.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,那么( C )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1[解析] ∵变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),∴X =10+11.3+11.8+12.5+135=11.72,Y =1+2+3+4+55=3,i =15(x i -x)(y i -y )=(10-11.72)×(1-3)+(11.3-11.72)×(2-3)+(11.8-11.72)×(3-3)+(12.5-11.72)×(4-3)+(13-11.72)×(5-3)=7.2,∑i =15 x i -x2∑i =15 y i -y2=19.172,∴这组数据的相关系数是r 1=,19.172)=0.3755,变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),U =15(10+11.3+11.8+12.5+13)=11.72, V =5+4+3+2+15=3,∑i =15(U i -U)(V i -V )=(10-11.72)×(5-3)+(11.3-11.72)×(4-3)+(11.8-11.72)×(3-3)+(12.5-11.72)×(2-3)+(13-11.72)×(1-3)=-7.2,∑i =15U i -U2·∑i =15V i -V2=19.172.∴这组数据的相关系数是r 2=-0.3755,∴第一组数据的相关系数大于零,第二组数据的相关系数小于零,应选C . 二、填空题3.(2021·张店区校级模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…(x 6,y 6)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-1附近波动.经计算∑i =16x i =11,∑i =16y i =13,∑i =16x 2i =21,那么实数b 的值为__1921__.[解析] 根据题意,把对应点的坐标代入曲线y =bx 2-1,y 1=bx 11-1,y 2=bx 22-1,…y 6=bx 26-1,∴y 1+y 2+…+y 6=b (x 21+x 22+…+x 26)-6, ∴13=b ×21-6,∴b =1921,故答案为1921.4.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间 二月上旬二月中旬二月下旬 三月上旬 旬平均气温x (℃)381217旬销售量y (件) 55 m 33 24由表中数据算出线性回归方程y ^=bx +a 中的b =-2,样本中心点为(10,38). (1)表中数据m =__40__;(2)气象部门预测三月中旬的平均气温约为22℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__14件__.[解析] (1)由y =38,得m =40. (2)由a =y -b x 得a =58, 故y ^=-2x +58, 当x =22时,y ^=14,故三月中旬的销售量约为14件. 三、解答题5.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:房屋面积(m 2) 115 110 80 135 105 销售价格(万元)22(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为150m 2时的销售价格. [解析] (1)数据对应的散点图如以下图所示:(2)x =15∑5 i =1x i =109,l xx =∑5i =1 (x i -x )2=1570, y =23.2,l xy =∑5i =1 (x i -x )(y i -y )=308.设所求回归直线方程为y ^=b ^x +a ^,那么b ^=l xy l xx =3081570≈0.1962,a ^=y -b ^x =1.8166.故所求回归直线方程为y ^x +1.8166.(3)据(2),当x =150m 2时,销售价格的估计值为y ^=0.1962×150+1.8166=31.2466(万元).6.(2021·全国卷Ⅱ理,18)以下图是某地区2000年至2021年环境根底设施投资额y (单位:亿元)的折线图.为了预测该地区2021年的环境根底设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2021年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^t ;根据2021年至2021年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^t .(1)分别利用这两个模型,求该地区2021年的环境根底设施投资额的预测值. (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解析] (1)利用模型①,可得该地区2021年的环境根底设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2021年的环境根底设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2021年的数据对应的点没有随机散布在直线yt 上下,这说明利用2000年至2021年的数据建立的线性模型①不能很好地描述环境根底设施投资额的变化趋势.2021年相对2021年的环境根底设施投资额有明显增加,2021年至2021年的数据对应的点位于一条直线的附近,这说明从2021年开场环境根底设施投资额的变化规律呈线性增长趋势,利用2021年至2021年的数据建立的线性模型y ^t 可以较好地描述2021年以后的环境根底设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2021年的环境根底设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比拟合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)C 级 能力拔高炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x 与冶炼时间y (从炉料熔化完毕到出钢的时间)的一组数据,如下表所示:x /0.01% 104 180 190 177 147 134 150 191 204 121 y /min100200210185155135170205235125(1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗? (2)求回归直线方程;(3)预测当钢水含碳量为160时,应冶炼多少分钟?[解析] (1)x 轴表示含碳量,y 轴表示冶炼时间,可作散点图如图.从图中可以看出,各点分布在一条直线附近,所以它们线性相关. (2)列出下表,并用科学计算器进展计算:i 1 2 3 4 5 6 7 8 9 10 x i 104 180 190 177 147 134 150 191 204 121 y i 100 200 210 185 155 135 170 205 235 125 x i y i10 40036 00039 90032 74522 78518 09025 50039 15547 94015 125x =159.8,y =172,∑i =110x 2i=265 448,∑i =110y 2i=312 350,∑i =110x i y i =287 640设所求的回归直线方程为=x +,=∑i =110x i y i -10x·y∑i =110x 2i -10x 2≈1.267,=y -x ≈-30.47,即所求的回归直线方程为=1.267x -30.47.(3)当x =160时,=1.267×160-30.47≈172(min ),即大约冶炼172 min .。
一、选择题1.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==2.已知x 与y 之间的几组数据如下表: x 1 2 4 5 y 0 2 3 5假设根据上表数据所得线性回归直线方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b'x+a',则以下结论正确的是( ) A .b>b',a>a' B .b<b',a<a' C .b>b',a<a' D .b<b',a>a'3.经过对K 2的统计量的研究,得到了若干个观测值,当K 2≈6.706时,我们认为两分类变量A 、B ( )A .有67.06%的把握认为A 与B 有关系 B .有99%的把握认为A 与B 有关系C .有0.010的把握认为A 与B 有关系D .没有充分理由说明A 与B 有关系 4.有如下几个结论: ①相关指数R 2越大,说明残差平方和越小,模型的拟合效果越好; ②回归直线方程:y bx a =+,一定过样本点的中心:(,)x y ③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适; ④在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,说明“两个分类变量有关系”的可能性越强.其中正确结论的个数有( )个. A .1B .2C .3D .45.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C .若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭, 则()1E ξ=; D .am bm >是a b >的充分不必要条件;6.已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元D .105万元7.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关8.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:数学85~100分 数学85分以下 总计 物理85~100分 37 85 122 物理85分以下 35 143 178 总计72228300现判断数学成绩与物理成绩有关系,则犯错误的概率不超过 ( ) A .0.005 B .0.01C .0.02D .0.059.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )A .男、女人患色盲的频率分别为0.038,0.006B .男、女人患色盲的概率分别为,C .男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D .调查人数太少,不能说明色盲与性别有关10.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.已知变量x ,y 的一组观测数据如表所示: x 3 4 5 6 7 y4.02.5-0.50.5-2.0据此得到的回归方程为y bx a =+,若a =7.9,则x 每增加1个单位,y 的预测值就( ) A .增加1.4个单位 B .减少1.2个单位C .增加1.2个单位D .减少1.4个单位12.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .4二、填空题13.x ,y 的取值如下表: x-2-1.5-1-0.50.51y 0.26 0.35 0.51 0.71 1.1 1.41 2.05则x ,y 之间的关系可选用函数___进行拟合.14.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程=x +必过(,);④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是90%.其中错误的个数是________. 15.教材上一例问题如下:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表,试建立y 与x 之间的回归方程. 温度 x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325某同学利用图形计算器研究它时,先作出散点图(如图所示),发现两个变量不呈线性相关关系. 根据已有的函数知识,发现样本点分布在某一条指数型曲线21c xy c e =的附近(1c 和2c 是待定的参数),于是进行了如下的计算:根据以上计算结果,可以得到红铃虫的产卵数y 对温度x 的回归方程为__________.(精确到0.0001) (提示:21c xy c e =利用代换可转化为线性关系) 16.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.17.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果服从正太态布,则; ④对于两个分类变量和的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大.以上命题中其中真命题的个数为___________.18.在吸烟与患肺病这两个分类变量的计算中,“若2x 的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系”这句话的意思: ①是指“在100个吸烟的人中,必有99个人患肺病 ②是指“有1%的可能性认为推理出现错误”; ③是指“某人吸烟,那么他有99%的可能性患有肺病”; ④是指“某人吸烟,如果他患有肺病,那么99%是因为吸烟”. 其中正确的解释是______.19.一个三位自然数百位,十位,个位上的数字依次为a ,b ,c ,当且仅当有两个数字的和等于第三个数字时称为“有缘数”(如213,134等),若{},,1234a b c ∈,,,,且a ,b ,c 互不相同,则这个三位数为”有缘数”的概率是__________. 20.下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<” ③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表:三、解答题21.今年疫情期间,许多老师进行抖音直播上课某校团委为了解学生喜欢抖音上课是否与性别有关,从高三年级中随机抽取30名学生进行了问卷调查,得到如下列联表:男生 女生 合计 喜欢抖音上课 10不喜欢抖音上课8合计 30已知在这30人中随机抽取1人抽到喜欢抖音上课的学生的概率是815. (1)请将上面的列联表补充完整,并据此资料分析能否有95%的把握认为喜欢抖音上课与性别有关?(2)若从这30人中的女生中随机抽取2人,记喜欢抖音上课的人数为X ,求X 的分布列、数学期望. 附临界值表:()20P K k ≥0.10 0.05 0.010 0.005 0k2.7063.8416.637.879参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.22.某校从高三年级的男女生中各随机抽取了100人的体育测试成绩(以下称体测成绩,单位:分),数据都落在[)60100,内,其统计数据如表所示(其中不低于80分的学生为优秀).(1)请根据如表数据完成22⨯列联表,并通过计算判断,是否有95%的把握认为体测成绩与性别有关?(2)视频率为概率,在全校的高三学生中任取3人,记取出的3人中优秀的人数为X ,求X 的分布列和数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++23.支付宝和微信支付是目前市场占有率较高的支付方式,某第三方调研机构对使用这两种支付方式的人数作了对比,从全国随机抽取了100个地区作为研究样本,计算了各个地区样本的使用人数,其频率分布直方图如下,(1)记A表示事件“微信支付人数低于50千人”,估计A的概率;(2)填写下面2╳2列联表,并根据2╳2列联表判断是否有99%的把握认为支付人数与支付方式有关;支付人数<50千支付人数≥50千人总计人微信支付 支付宝支付 总计附:2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828()()()()()22n ad bc K a b c d a c b d -=++++.24.2020突如其来的疫情让我们经历了最漫长、最特殊的一个假期,教育行政部门部署了“停课不停学”的行动,全力帮助学生在线学习.复课后某校进行了摸底考试,某数学教师为了调查高二学生这次摸底考试的数学成绩与每天在线学习数学的时长之间的相关关系,对在校高二学生随机抽取45名进行调查,了解到其中有25人每天在线学习数学的时长不超过1小时,并得到如下的等高条形图:(1)根据等高条形图填写下面22⨯列联表,并根据列联表判断能否在犯错误的概率不超过0.05的前提下认为“高二学生的这次摸底考试数学成绩与其每天在线学习数学的时长有关”;数学成绩不超过120分 数学成绩超过120分 总计 每天在线学习数学不超过1小时 25每天在线学习数学超过1小时总计45(2)从被抽查的,且这次数学成绩超过120分的学生中,再随机抽取3人,求抽取的3人中每天在线学习数学的时长超过1小时的人数ξ的分布列与数学期望. 附临界值表()20P K k ≥0.050 0.010 0.001 0k3.8416.63510.828参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.25.某单位组织开展“学习强国”的学习活动,活动第一周甲、乙两个部门员工的学习情况统计如下:学习活跃的员工人数 学习不活跃的员工人数甲 18 12 乙328(1)根据表中数据判断能否有95%的把握认为员工学习是否活跃与部门有关; (2)活动第二周,单位为检查学习情况,从乙部门随机抽取2人,发现这两人学习都不活跃,能否认为乙部门第二周学习的活跃率比第一周降低了?说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:2(0.1) 2.706P K ≥=,2(0.05) 3.841P K ≥=,2(0.01) 6.635P K ≥=. 26.根据国家统计局数据,1999年至2019年我国进出口贸易总额从3万亿元跃升至31.6万亿元,中国在国际市场上的贸易份额越来越大对外贸易在国民经济中的作用日益突出.将年份1999,2004,2009,2014,2019分别用1,2,3,4,5代替,并表示为t ,y 表示全国进出口贸易总额.(1)根据以上统计数据及图表,给出了下列两个方案,请解决方案1中的问题. 方案1:用y bt a =+作为全国进出口贸易总额y 关于t 的回归方程,根据以下参考数据,求出y 关于t 的回归方程,并求相关指数21R .方案2:用dt y ce =作为全国进出口贸易总额y 关于t 的回归方程,求得回归方程0.57212.3259x y e =,相关指数22R .(2)通过对比(1)中两个方案的相关指数,你认为哪个方案中的回归方程更合适,并利用此回归方程预测2020年全国进出口贸易总额. 参考数据:①0.140.340.66 1.86 2.048.192++++=②222220.140.34 1.86 2.04 2.1412.336++++=③8.1920.0147555.792≈④12.3360.0222555.792≈参考公式:线性回归方程中的斜率和截距的最小二乘法估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-,相关指数()()221211ni ii n ii y y R yy==-=--∑∑.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【解析】 【分析】 根据公式()()()()()22n ad bc K a b c d a c b d -=++++,分别利用4个选项中所给数据求出2K 的值,比较所求值的大小即可得结果. 【详解】选项A :22160(535155)3204010502K ⨯⨯-⨯==⨯⨯⨯,选项B :22260(5251515)152040204016K ⨯⨯-⨯==⨯⨯⨯,选项C :22360(5201520)24204025357K ⨯⨯-⨯==⨯⨯⨯,选项D :22460(5101530)96204035257K ⨯⨯-⨯==⨯⨯⨯,可得222431K K K >>22K >,所以由选项D 中的数据得到的2K 值最大,说明X 与Y 有关系的可能性最大,故选D . 【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2 K 越大两个变量有关的可能性越大这一性质.2.D解析:D 【解析】 【分析】先根据()()1,0,2,2求得直线y b x a ='+'的方程.然后计算出回归直线方程y bx a =+,由此比较大小,得出正确的结论. 【详解】由于直线y b x a ='+'过()()1,0,2,2,将两点坐标代入直线方程得022b a b a +=⎧⎨+=''''⎩,解得2,2b a ''==-.124534x +++==,02352.54y +++==,1122334414122542x y x y x y x y +++=+++=.2222123414162546x x x x +++=+++=,故24243 2.54230121.24643463610b -⨯⨯-====-⨯-, 2.5 1.23 2.5 3.6 1.1a =-⨯=-=-.所以,a a b b >'<',故选D.【点睛】本小题主要考查利用直线上的两点坐标求直线方程的方法,考查回归直线方程的计算,属于中档题.3.B解析:B 【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据P (K 2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A 与B 有关系. 【详解】 依据下表:2 6.635K > , 2 6.6350.01P K =(>)∴我们在错误的概率不超过0.01的前提下有99%的把握认为A 与B 有关系, 故选B . 【点睛】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可.4.D解析:D 【分析】根据相关指数定义、残差平方和含义可得①为真,根据回归直线方程特征可得②为真,根据残差点含义可得③为真,根据卡方含义可得④为真. 【详解】相关指数R 2越大,则残差平方和越小,模型的拟合效果越好;回归直线方程:ˆy bx a =+,一定过点() ,x y ;若残差点比较均匀地落在水平的带状区域中,则选用的模型比较合适; 在独立性检验中,若公式()()()()()22n ad bc K a b c d a c b d -=++++,中的|ad-bc|的值越大,则2K 越大, “两个分类变量有关系”的可能性越强.选D. 【点睛】相关指数R 2越大,残差平方和越小,残差点比较均匀地落在水平的带状区域,则模型的拟合效果越好;在独立性检验中,若2 K 越大,则两个变量有关系越强;回归直线方程:ˆy bx a =+,一定过点() ,x y .5.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.6.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.7.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .8.D解析:D 【解析】因为K 2的观测值k=2300(371433585)12217872228⨯-⨯⨯⨯⨯≈4.514>3.841, 所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D.9.C解析:C 【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为,差值较大,所以认为患色盲与性别是有关的.考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A. 点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.D解析:D 【解析】由表格得 5x =, 0.9y =,∵回归直线方程为7ˆ9ˆ.y bx=+,过样本中心, ∴57.90.9b +=,即75b =-,则方程为77.95ˆyx =-+,则x 每增加1个单位,y 的预测值就减少1.4个单位,故选D.12.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。
一、选择题1.已知x 与y 之间的几组数据如下表: x 1 2 3 4 y1mn4参考公式:线性回归方程y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑.上表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5得到三条线性回归直线方程分别为11y b x a =+,22y b x a =+,33y b x a =+,对应的相关系数分别为1r ,2r ,3r ,下列结论中错误..的是( ) A .三条回归直线有共同交点 B .相关系数中,2r 最大 C .12b b >D .12a a >2.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是A .10200ˆyx =-+ B .10200ˆyx =+ C .10200ˆyx =-- D .10200ˆyx =- 4.设导弹发射的事故率为0.01,若发射10次,其出事故的次数为ξ,则下列结论正确的是 ( ) A .0.1E ξ=B .•01D ξ=C .10()0.01?0.99k k P k ξ-==D .1010()0.99?0.01k k kP k C ξ-==5.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算2K 的观测值10k =,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响 6.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .17.在独立性检验中,统计量2χ有三个临界值:2.706、3.841和6.635,在一项打鼾与患心脏病的调查中,共调查了1000人,经计算的2χ=18.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A .有95%的把握认为两者无关B .约有95%的打鼾者患心脏病C .有99%的把握认为两者有关D .约有99%的打鼾者患心脏病8.对于独立性检验,下列说法正确的是( ) A .K 2>3.841时,有95%的把握说事件A 与B 无关 B .K 2>6.635时,有99%的把握说事件A 与B 有关 C .K 2≤3.841时,有95%的把握说事件A 与B 有关 D .K 2>6.635时,有99%的把握说事件A 与B 无关9.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 与Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( ) A .0.25 B .0.75 C .0.025 D .0.97510.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.通过随机询问2016名性别不同的大学生是否爱好某项运动,得到2 6.023K =,则根据这一数据查阅表,则有把握认为“爱好该项运动与性别有关”的可信程度是( )A .90%B .95%C .97.5%D .99.5%12.下列说法:①将一组数据中的每个数据都乘以同一个非零常数a 后,标准差也变为原来的a 倍; ②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位; ③线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.6⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大 其中正确的个数是 A .1B .2C .3D .4二、填空题13.在一次独立试验中,有200人按性别和是否色弱分类如下表(单位:人)你能在犯错误的概率不超过_____的前提下认为“是否色弱与性别有关”?14.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.15.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:男公务员 女公务员 生二胎 80 40 不生二胎4040则________(填“有”或“没有”)99%以上的把握认为“生二胎与性别有关”. 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.82816.为了解某班学生喜爱打篮球是否与性别有关,对该班50名 学生进行了问卷调查, 得到了如下22⨯ 列联表喜爱打篮球 不喜爱打篮球 合计男生20 525 女生 10 1525合计30 2050则至少有_____的把握认为喜爱打篮球与性别有关(请用百分数表示). 17.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.18.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温(如表),并求得线性回归方程为^=-2x +60.不小心丢失表中数据c ,d ,那么由现有数据知2c+d=______. x c 13 10 -1 y243438d19.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)20.2018年春季,世界各地相继出现流感疫情,这已经成为全球性的公共卫生问题.为了考察某种流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:关系.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++.)三、解答题21.第十八届中国国际农产品交易会于11月27日在重庆国际博览中心开幕,我市全面推广“遂宁红薯”及“遂宁鲜”农产品区域公用品牌,并组织了100家企业、1000个产品进行展示展销,扩大优质特色农产品市场的占有率和影响力,提升遂宁特色农产品的社会认知度和美誉度,让来自世界各地的与会者和消费者更深入了解遂宁,某记者对本次农交会进行了跟踪报道和实际调查,对某特产的最满意度()%x 和对应的销售额y (万元)进行了调查得到以下数据:关系数r 的绝对值在0.95以上(含0.95)是线性相关性较强;否则,线性相关性较弱.请你对线性相关性强弱作出判断,并给出理由;(2)如果没有达到较强线性相关,则采取“末位淘汰”制(即销售额最少的那一天不作为计算数据),并求在剔除“末位淘汰”的那一天后的销量额y 关于最满意度x 的线性回归方程(系数精确到0.1). 参考数据:24x =,81y =,52215146ii x x =-=∑, 52215176i i y y =-=∑,515151i ii x y xy =-=∑13.27≈≈.附:对于一组数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅.其回归直线方程 ˆˆˆy bx a =+的斜率和截距的最小二乘法估计公式分别为:1221ˆ·ni ii ni i x y nx y bx nx ==-=-∑∑,ˆa y bx=-,线性相关系数·ni ix y nx y r -=∑22.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件,试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?23.2020年初,新型冠状病毒(2019-nCoV )肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为22.25.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:(1)是否有95%的把握认为“长期潜伏”与年龄有关;(2)假设潜伏期X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,2σ近似为样本方差2s .(ⅰ)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;(ⅱ)以题目中的样本频率估计概率,设1000个病例中恰有()*k k ∈N 个属于“长期潜伏”的概率是()g k ,当k 为何值时,()g k 取得最大值. 附:()()()()()22n ad bc a b c d a c b d χ-=++++若()2,N ξμσ则()0.6862P μσξμσ-<<+=.()220.9544P μσξμσ-<<+=,()330.9974P μσξμσ-<<+=.24.某地一所妇产科医院为了解婴儿性别与出生时间(白天或晚上)之间的联系,从该医院最近出生的200名婴儿获知如下数据:这200名婴儿中男婴的比例为55%,晚上出生的男婴比白天出生的男婴多75%,晚上出生的女婴人数与白天出生的男婴人数恰好相等. (1)根据题意,完成下列2×2列联表;(2)根据列联表,判断能否有99%的把握认为婴儿的性别与出生时间有关,说明你的理由.附:22()()()()()n ad bcKa b c d a c b d-=++++(n=a+b+c+d),参考数据:221999≈0.0368.25.在第十五次全国国民阅读调查中,某地区调查组获得一个容量为200的样本,其中城镇居民150人,农村居民50人,在这些居民中,经常阅读的城镇居民100人,农村居民24人.(1)完成上面2×2列联表,并判断是否有95%的把握认为经常阅读与居民居住地有关?(2)从该地区居民城镇的居民中,随机抽取5位居民参加一次阅读交流活动,记这5位居民中经常阅读的人数为X,若用样本的频率作为概率,求随机变量X的分布列和期望.附:K2=2()()()()()n ad bca b c d a c b d-++++,其中n=a+b+c+d.26.“微粒贷”是腾讯旗下2015年9月开发上市的微众银行网货产品.腾讯公司为了了解“微粒贷”上市以来在C市的使用情况,统计了C市2015年至2019年使用了“微粒货”贷款的累计人数,统计数据如表所示:(1)已知变量x ,y 具有线性相关关系,求累计人数y (万人)关于年份代号x 的线性回归方程y bx a =+;并预测2020年使用“微粒贷“贷款的累计人数;(2)“微粒贷”用户拥有的贷款额度是根据用户的账户信用资质判定的,额度范围在500元至30万元不等,腾讯公司在统计使用人数的同时,对他们所拥有的贷款额度也作了相应的统计.我们把拥有货款额度在500元至5万元(不包括5万元)的人群称为“低额度贷款人群”,简称“A 类人群”;把拥有贷款额度在5万元及以上的人群称为“高额度贷款人群”,简称“B 类人群”.根据统计结果,随机抽取6人,其中A 类人群4人,B 类人群2人.现从这6人中任取3人,记随机变量ξ为A 类人群的人数,求ξ的分布列及其期望.参考公式:1122211()()()()nni iiii i nniii i x y nx y x x y y b xn x x x ====---==--∑∑∑∑, a y bx =-参考数据:5162i ii x y=≈∑【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】由题意可得5m n +=,分别取m 与n 的值,由公式计算出1122123,,,,,,b a b a r r r 的值,逐一分析四个选项,即可得到答案. 【详解】由题意,1410m n +++=,即5m n +=. 若 1.5m =,则 3.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 1.5 2.53 2.5 3.5 2.54 2.54 2.5 5.5iii x x y y =--=--+--+--+--=∑ ,()()()42222211.50.50.5 1.55i i x x =-=-+-++=∑ ,()()()42222211.511 1.5 6.5i i y y =-=-+-++=∑.则1 5.51.15b ==,1 2.5 1.1 2.50.25a =-⨯=- ,1r =≈; 若2m =,则3n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.52 2.53 2.53 2.54 2.54 2.55iii x x y y =--=--+--+--+--=∑,()4215ii x x =-=∑,()()()42222211.50.50.5 1.55i i y y =-=-+-++=∑.2515b ==,2 2.51 2.50a =-⨯=,21r ==; 若 2.5m =,则 2.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 2.5 2.53 2.5 2.5 2.54 2.54 2.5 4.5iii x x y y =--=--+--+--+--=∑,()4215i i x x =-=∑,()()422211.5 1.5 4.5i i y y =-=-+=∑,3r ==由样本点的中心相同,故A 正确;由以上计算可得,相关系数中,2r 最大,12b b >,12a a <,故B ,C 正确,D 错误. 故选:D . 【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.2.B解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.3.A解析:A 【解析】试题分析:因为商品销售量x 与销售价格ˆy负相关,所以排除B ,D 选项, 将0x =代入10200ˆyx =--可得2000ˆy =-<,不符合实际.故A 正确. 考点:线性回归方程.【方法点睛】本题主要考查线性回归方程,属容易题.线性回归方程ˆˆˆy bx a =+当ˆ0b<时ˆ,x y 负相关;当ˆ0b >时ˆ,x y 正相关. 4.A解析:A 【解析】 【分析】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,实验的结果只有发生和不发生两种结果,故本题符合独立重复试验,由独立重复试验的期望公式得到结果. 【详解】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,故本题符合独立重复试验,即ξ~(10,0.01)B . ∴100.010.1E ξ=⨯= 故选A . 【点睛】解决离散型随机变量分布列和期望问题时,主要依据概率的有关概念和运算,同时还要注意题目中离散型随机变量服从什么分布,若服从特殊的分布则运算要简单的多.5.A解析:A 【解析】 【分析】由题意结合2K 的观测值k 由独立性检验的数学思想给出正确的结论即可. 【详解】由于2K 的观测值10k =7.879>,其对应的值0.0050.5%=,据此结合独立性检验的思想可知:有99.5%的把握认为使用智能手机对学习有影响. 本题选择A 选项. 【点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.6.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4).【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.7.C解析:C 【解析】因为统计量2χ有三个临界值:2.706、3.841和6.635,而2χ=18.87>6.635,所以有99%的把握认为两者有关,选C.8.B解析:B【解析】由独立性检验的知识知:K 2>3.841时,有95%的把握认为“变量X 与Y 有关系”;K 2>6.635时,有99%的把握认为“变量X 与Y 有关系”.故选项B 正确.9.C解析:C【解析】∵P (k >5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X 和Y 有关系”. 考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A.点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.C解析:C 【解析】因为2 6.023K =,且5.024 6.023 6.635≤≤,所以有把握认为“爱好该项运动与性别有关”的可信度P 满足10.02510.010P -≤≤-,即0.9750.99P ≤≤,应选答案C 。