第三章 统计案例 章末专题整合
- 格式:ppt
- 大小:1021.50 KB
- 文档页数:8
知识点一 线性回归方程 求线性回归方程的基本步骤:(1)列出散点图,从直观上分析数据间是否存在线性相关关系.(2)计算(3)代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. (4)写出线性回归方程并对实际问题作出估计.在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:(1)画出表中数据的散点图; (2)求y 对x 的回归方程;(3)若一个村的水源中砷超标的倍数为7,试估计这个村的患癌症的人数.砷超标的倍数x 3 4 5.5 4.2 5.8 6 3.5 患癌症人数y15202824354434解析:(1)散点图如图所示:(2)观察散点图,可知x 、y 成线性相关关系. 计算得=327,=2007,根据求b ^公式代入数据计算得 b ^≈6.065,a ^=2007-6.065×327≈0. 846.所以患癌症人数y 对水源中砷超标的倍数x 的回归直线方程为y ^=6.065x +0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,y =6.065×7+0.846=43.301. 即该村患癌症的人数约为43人. 知识点二 回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出两个变量的散点图,然后利用常见的函数模型去拟合样本点,对于用什么类型的函数去拟合该组数据,拟合的效果如何,常用方法有残差分析、求相关指数R 2.一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:零件数x /个 102030405060708090100加工时间y /min627275818595103108112127且知x 与y 具有线性相关关系,试求出线性回归方程并说明拟合效果的好坏. 解析:设回归模型为y ^=a ^+b ^x ,y ^i 61.833 68.533 75.233 81.933 88.633 y i -y ^i0.1673.467-0.233-0.933-3.633y i-y--30-20-17-11-7y^i95.333102.033108.733115.433122.133y i-y^i-0.3330.967-0.733-3.433 4.867y i-y-311162035知识点三独立性检验独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k>6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.现对某市工薪阶层关于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入的频数分布及对“楼市限购令”赞成人数如下表所示:月收入/百元[15,25)[25,35)[35,45)[45,55)[55,65)[65,75) 频数51015105 5赞成人数481252 1根据以上统计数据填写下面2×2列联表,并问:是否有99%的把握认为以月收入5 500元为分界点对“楼市限购令”的态度有差异?月收入不低于5 500元的人数月收入低于5 500元的人数合计赞成a=c=不赞成b=d=合计解析:2×2列联表如下:月收入不低于5 500元的人数月收入低于5 500元的人数合计赞成a=3c=2932不赞成b=7d=1118合计104050由公式得K2的观测值为k=50×(3×11-7×29)2(3+7)(29+11)(3+29)(7+11)≈6.27<6.635.所以没有99%的把握认为以月收入5 500元为分界点对“楼市限购令”的态度有差异.一、选择题1.下列关系中:①吸烟有害健康;②粮食产量与施肥量;③名师出高徒;④乌鸦叫,没好兆.不具有相关关系的是(D)A.①B.②C.③D.④2.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y^=7.19x+73.93,用这个模型预测这孩子10岁时的身高,则正确的叙述是(D)A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm以下D.身高在145.83 cm左右3.变量X与Y相对应的一组数据为(10,1)、(11.3,2)、(11.8,3)、(12.5,4)、(13,5);变量U与V 相对应的一组数据为(10,5)、(11.3,4)、(11.8,3)、(12.5,2)、(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则(C )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:画散点图,由散点图可知X 与Y 是正相关,则相关系数r 1>0,U 与V 是负相关,相关系数r 2<0,故选C.4.(2014·泰安一模)为了调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样的方法从该地区调查了500位老人,其结果如下表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=500×(40×270-30×160)2200×300×70×430≈9.967.附表:P (K 2≥ k )0.050 0.010 0.001 k3.8416.63510.828参照附表,可得到的结论是(C)A .在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别无关”C .有99%以上的把握认为“需要志愿者提供帮助与性别有关”D .有99%以上的把握认为“需要志愿者提供帮助与性别无关” 解析:由数据知,选项C 正确. 能力提升5.(2014·重庆卷)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是(A )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4解析:因为变量x 与y 正相关,则在线性回归方程中,x 的系数应大于零,排除B ,D ;将x =3,y =3.5分别代入A ,B 中的方程只有A 满足,故选A.6.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为(A )A .83%B .72%C .67%D .66%解析:将y =7.675代入回归方程,可计算得x ≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.7.如果K 2的观测值8.654,可以认为“X 与Y 无关”的可信度为(B ) A .99.5% B .0.5% C .99% D .1%解析:∵K 2=8.654≥k =7.879, ∴P (K 2≥7.879)=0.005=0.5%. 8.有下列数据:下列四个函数中,模拟效果最好的为(A) A .y =3·2x -1 B .y =log 2x C .y =3x D .y =x 2解析:分别将x =1,2,3,代入求值,结果最接近y 的函数是y =3·2x -1. 故选A.9.已知一个回归方程为y ^=1.5x +45,x ∈{1,5,7,13,19},则y =________. 解析:=9,∴=1.5× 9+45=58.5.答案:58.510.在对某小学的学生进行吃零食的调查中,得到如下数据:吃零食 不吃零食 合计 男学生 24 31 55 女学生 8 26 34 合计325789根据上述数据分析,我们得出K 2的观测值k =________. 解析:K 2的观测值k =89×(24×26-31×8)255×34×32×57≈3.689.答案:3.68911.下表为收集到的一组数据:x 1 3 5 7 9 y48111720已知变量x 、y 呈线性相关关系,则二者对应的回归直线方程为________________________________________________________________________.12.(2014·韶关一模)设某大学的女生体重y (kg)与身高x (cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的线性回归方程为y ^=0.85x -85.71,给出下列结论:①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ;④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 其中,正确结论的序号是________. 解析:利用有关概念可知,①②③正确. 答案:①②③13.已知x 、y 之间的一组数据:(1)分别计算:x -,y -,x 1y 1+x 2y 2+x 3y 3+x 4y 4,x 21+x 22+x 23+x 24; (2)求出回归直线方程y ^=b ^x +a ^. 解析:(1)x -=0+1+2+34=1.5,y -=1+3+5+74=4,x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14.(2)b ^=x 1y 1+x 2y 2+x 3y 3+x 4y 4-4x -y -x 21+x 22+x 23+x 24-4x -2=34-4×1.5×414-4×1.52=2;a ^=y --b ^x -=4-2×1.5=1, 所以回归方程为y ^=2x +1.14.在调查学生数学成绩与物理成绩之间的关系时,得到如下数据(人数):试判断数学成绩与物理成绩之间是否相关,判断出错误的概率有多大. 解析:由公式得K 2的观测值为 k =135×(62×22-28×23)290×45×85×50≈4.066.因为4.066>3.841,所以有95%的把握认为数学成绩与物理成绩相关,判断出错的概率只有5%. 15.为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的试验结果(疱疹面积单位:mm 2).表1 注射药物A 后皮肤疱疹面积的频数分布表表2 注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3解析:70 mm 2于70 mm 2 注射药物A a =70 b =30 100 注射药物B c =35 d =65 100 总计10595n =200由列联表中的数据,得K 2的观测值为 k =200×(70×65-35×30)2100×100×105×95≈24.561>10.828.因此,有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 16.(2014·沈阳市质检)为了研究“教学方式” 对教学质量的影响,某高中老师分别用两种不同的教学方式对入学数学平均分数和优秀率都相同的甲、乙两个高一新班进行教学(勤奋程度和自觉性都一样).以下茎叶图为甲、乙两班(每班均为20人)学生的数学期末考试成绩.(1)现从甲班数学成绩不低于80分的同学中随机抽取两名同学,求成绩为87分的同学至少有一名被抽中的概率;(2)学校规定:成绩不低于75分的为优秀.请填写下面的2× 2列联表,并判断有多大把握认为“成绩优秀与教学方式有关” .甲班 乙班 合计 优秀 不优秀 合计下面临界值表供参考:打印版高中数学⎝⎛⎭⎪⎫参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) 解析:(1)甲班成绩为87分的同学有2个,其他不低于80分的同学有3个“从甲班数学成绩不低于80分的同学中随机抽取两名同学” 的一切可能结果组成的基本事件有C 25=10个,“抽到至少有一个87分的同学” 所组成的基本事件有C 13C 12+C 22=7个,所以P =710. (2)K 2=40×(6×6-14×14)220×20×20×20=6.4>5.024, 因此,我们有97.5%的把握认为成绩优秀与教学方式有关.。
第3章统计案例一、独立性检验1.独立性检验的思想及方法独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个对象没有关系”成立,在该假设下构造的随机变量χ2应该很小,如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理.根据随机变量X的含义,可以通过概率来评价假设不合理程度.2.独立性检验的一般步骤(1)提出假设H0;(2)根据样本数据列2×2列联表,计算χ2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d);(3)比较χ2与临界值的大小并作出判断.二、回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.建立回归模型的基本步骤:(1)确定两个变量;(2)画出散点图;(3)进行相关系数检验;(4)确定线性回归方程类型,求出回归方程.建立回归模型的基本步骤,不仅适用于线性回归模型,也适用于非线性回归模型的建立.(考试时间:120分钟试卷总分:160分)一、填空题(本大题共14小题,每小题5分,共70分)1.下列有关线性回归的说法①变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到具有相关关系的两个变量的一组数据的图形叫做散点图;③线性回归直线得到具有代表意义的线性回归方程;④任何一组观测值都能得到具有代表意义的线性回归方程.其中错误的是________. 解析:任何一组观测值并不都能得到具有代表意义的线性回归方程. 答案:④2.下表是x 与y ________.解析:∵x =0+1+2+34=1.5,y =1+3+5+74=4,∴样本点的中心为(1.5,4),而回归直线必过样本点的中心,故必过(1.5,4).答案:(1.5,4) 3.对两个变量y 和x 进行线性相关性检验,已知n 是观察值组数,r 是相关系数,且已知:①n =7,r =0.953 3;②n =15,r =0.301 2;③n =17,r =0.999 1;④n =3,r =0.995 0,则变量y 和x 具有线性相关关系的是________.(填序号)解析:判断变量y 与x 是否具有线性相关关系时,观察值组数n 不能太小.若y 与x 具有线性相关性,则相关系数|r |≥0.75,故②④错.答案:①③4.由线性回归直线方程y ∧=4.75x +157,当x =28时,y ∧为________. 解析:将x 的值代入回归直线方程得估计值y ∧=4.75×28+157=290. 答案:2905.一家保险公司调查其总公司营业部的加班情况,收集了10周中每周加班工作时间y (小时)与签发保险单数目x 的数据如下表所示:已知用最小二乘法估计求出的线性回归方程的斜率为0.003 585,则线性回归方程为________________________________________________________________________.解析:线性回归直线y ∧=b ∧x +a ∧过样本中心点(x -,y -),故将x -,y -求出代入即可.答案:y ∧=0.118 2+0.003 585x6.某班主任对全班50名学生进行了作业量多少的调查,数据如下表,则喜不喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为________.解析:假设H 0:喜欢玩电脑游戏与认为作业量的多少没有关系,根据列联表中的数据,可以求得χ2=50×(18×15-9×8)227×23×26×24≈5.06,对照临界值表,当假设成立时,χ2≥5.024的概率约为0.025,所以我们有97.5%的把握认为喜欢玩电脑游戏与认为作业量的多少有关系.答案:97.5%7.下列关于回归分析与独立性检验的说法正确的是________.(填序号) ①回归分析和独立性检验没有什么区别;②回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系; ③回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验;④独立性检验可以100%确定两个变量之间是否具有某种关系.解析:由回归分析、独立性检验的意义知,回归分析与独立性检验都是研究两个变量之间的相关性,但方法与手段有所不同,研究角度不同.由其意义知,③正确.答案:③8. 如图,有5组数据对(x ,y ),去掉哪组数据后剩下的4组数据的线性相关程度最大________.解析:由散点图可知,除D 之外的其余各点近似地在某条直线附近,而D 点则偏离这一直线.故应去掉D . 答案:D9.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,由表中数据得线性回归方程y ∧=b ∧x +a ∧,其中b ∧=-2.现预测当气温为-4 ℃时,用电量的度数约为________.解析:由题意可知x =14(18+13+10-1)=10,y =14(24+34+38+64)=40,b ∧=-2.又回归方程y ∧=-2x +a ∧过点(10,40),故a ∧=60,所以当x =-4时,y ∧=-2×(-4)+60=68.答案:6810.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表给出性别与吃零食的2×2列联表:解析:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=85(140-480)217×68×45×40≈4.722>3.841.故约有95%的把握认为“吃零食与性别”有关. 答案:有11.变量x ,y 具有线性相关关系,当x 的取值分别为8,12,14和16时,通过观测知y 的值分别为5,8,9和11,若在实际问题中,y 的预报值最大是10,则x 的最大取值不能超过________.解析:因为x =16时,y =11;当x =14时,y =9,所以当y 的最大值为10时,x 的最大值属于区间(14,16).答案:1512.下表是某厂1~4月份用水量(单位:百吨)的一组数据,由某散点图可知,用水量y y ∧=-0.7x +a ∧,则该厂6月份的用水量约为________.解析:∵x =2.5,y =3.5,b ∧=-0.7,∴a ∧=3.5+0.7×2.5=5.25. ∴当x =6时,y ∧=-0.7×6+5.25=1.05. 答案:1.05百吨13.为研究变量x 和y 的线性相关关系,甲、乙两人分别作了研究,利用线性回归方程得到回归直线l 1和l 2,两人计算知x 相同,y 也相同,则l 1与l 2的位置关系是________.解析:每条回归直线都过样本的中心(x ,y ). 答案:l 1与l 2有公共点(x ,y )14.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则________.(填序号)①r 2<r 1<0;②0<r 2<r 1;③r 2<0<r 1;④r 2=r 1.解析:对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.答案:③二、解答题(本大题共6小题,共90分,解答应写出必要的文字说明、证明过程或演算步骤)15.(本小题满分14分)某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:画出散点图并判断热茶销售量与气温之间是否具有线性相关关系.解:由表中数据画出散点图,如图所示.由散点图可知热茶销售量与气温之间具有较强的线性相关关系.16.(本小题满分14分)有两个分类变量x 与y ,其一组观测值如下面的2×2列联表所示:其中a ,15-a 均为大于5的整数,则取何值时,有90%的把握认为x 与y 之间有关系?解:查表可知,要有90%的把握认为x 与y 之间有关系,则χ2≥2.706,而 χ2=65×[a (30+a )-(20-a )(15-a )]220×45×15×50=65×(65a -300)220×45×15×50=13×(13a -60)260×90.由χ2≥2.706,得a ≥7.19或a ≤2.04.又a >5,且15-a >5,a ∈Z ,即a =8,9. 故a 为8或9时,有90%的把握认为x 与y 之间有关系.17.(本小题满分14分)某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:解:根据列联表中的数据,得到 χ2=189×(54×63-40×32)294×95×86×103=10.76.因为10.76>7.879,所以有99.5%的把握说:员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.18.(本小题满分16分)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高约为多少?解:由题意父亲身高x cm 与儿子身高y cm 对应关系如表:则x -=173+170+1763=173,y -=170+176+1823=176,∑3i =1 (x i -x )(y i -y )=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)(182-176)=18,∑3i =1(x i -x )2=(173-173)2+(170-173)2+(176-173)2=18.19.(本小题满分16分)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.解:(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%.(2)列联表如下:因为χ2=100×(30×25-20×25)250×50×55×45=10099≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.20.(本小题满分16分)某运动员训练次数与运动成绩之间数据关系如下:(1)作出散点图; (2)求出回归方程;(3)计算相关系数,并利用其检验两变量的相关关系的显著性; (4)试预测该运动员训练47次和55次的成绩.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)计算得x =39.25,y =40.875,b ∧≈1.0415,a ∧≈-0.004,所求回归方程为y ∧=1.0415 x -0.004.(3)计算得∑8i =1x 2i =12 656,∑8i =1y 2i =13 731,r=∑8i=1x i y i-8x-y-∑8i=1x2i-8x2∑8i=1y2i-8y2=345.2512 656-8×39.252×13 731-8×40 8752≈345.25347.79≈0.993,查表得r0.05=0.707,r>r0.05,由此可得出,训练次数与运动成绩有较强的线性相关关系.(4)由上述分析可知,我们可用回归方程y=1.041 5x-0.004作为该运动员成绩的预报值.将x=47和x=55分别代入该方程可得y≈49和y≈57.故预测该运动员训练47次和55次的成绩分别为49和57.。