2010-2019十年高考理科数学专题十一 概率与统计第三十三讲 回归分析与独立性检验答案
- 格式:doc
- 大小:269.00 KB
- 文档页数:4
专题十一概率与统计第三十二讲统计初步2019年1 (2019全国II理5)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是A.中位数B.平均数C.方差D.极差2(2019全国II理13)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为__________.3(2019全国III理17)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A、B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每组小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).4(2019浙江7)设0<a<1,则随机变量X的分布列是则当a在(0,1)内增大时A.D(X)增大B.D(X)减小C.D(X)先增大后减小D.D(X)先减小后增大5.(2019江苏5)已知一组数据6,7,8,8,9,10,则该组数据的方差是.2010-2018年一、选择题1.(2018全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番,为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:建设前经济收入构成比例建设后经济收入构成比例则下面结论中不正确的是A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半2.(2017新课标Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月份D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳3.(2017江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取件.4.(2016年山东)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是A.56 B.60 C.120 D.1405.(2016年全国III)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图。
2010高考复习数学回归课本:概率与统计一.考试内容:离散型随机变量的分布列. 离散型随机变量的期望值和方差. 抽样方法.总体分布的估计.正态分布.线性回归. 二.考试要求:(1)了解离散型随机变量的意义,会求出某些简单的离散型随机变量的分布列.(2)了解离散型随机变量的期望值、方差的意义,会根据离散型随机变量的分布列求出期望值、方差.(3)会用随机抽样、系统抽样、分层抽样等常用的抽样方法从总体中抽取样本.(4)会用样本频率分布去估计总体分布. (5)了解正态分布的意义及主要性质. (6)了解线性回归的方法和简单应用.【注意】这部分复习的重点是随机变量的分布列、期望、方差、抽样方法与样本方差、标准方差公式. 三.基础知识:1.离散型随机变量的分布列的两个性质 (1)0(1,2,)i P i ≥=; (2)121P P ++=.2.数学期望170.数学期望的性质 (1)()()E a b aE b ξξ+=+.(2)若ξ~(,)B n p ,则E np ξ=.(3) 若ξ服从几何分布,且1()(,)k P k g k p q p ξ-===,则1E pξ=. 4.方差 5.标准差 σξ=ξD .6.方差的性质(1)()2D a b a D ξξ+=;(2)若ξ~(,)B n p ,则(1)D np p ξ=-.(3) 若ξ服从几何分布,且1()(,)k P k g k p q p ξ-===,则2q D p ξ=.7.方差与期望的关系()22D E E ξξξ=-.8.正态分布密度函数()()()2226,,x f x x μ--=∈-∞+∞,式中的实数μ,σ(σ>0)是参数,分别表示个体的平均数与标准差.9.标准正态分布密度函数()()22,,x f x x -=∈-∞+∞.10.对于2(,)N μσ,取值小于x 的概率()x F x μσ-⎛⎫=Φ ⎪⎝⎭.21x x μμσσ--⎛⎫⎛⎫=Φ-Φ ⎪ ⎪⎝⎭⎝⎭.11.回归直线方程y a bx =+,其中()()()1122211n ni i i i i i n ni i i i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎨--⎪⎪=-⎩∑∑∑∑. 四.基本方法和数学思想1.理解随机变量,离散型随机变量的定义,能够写出离散型随机变量的分布列,由概率的性质可知,任意离散型随机变量的分布列都具有下述两个性质:(1)p i ≥0,i=1,2,...; (2) p 1+p 2+ (1)2.二项分布:记作ξ~B (n,p ),其中n,p 为参数,,)(k n k kn q p C k P -==ξ并记),;(p n k b q p C k n k k n =-; 3.记住以下重要公式和结论:(1)期望值E ξ= x 1p 1 + x 2p 2 + … + x n p n + … ;(2)方差D ξ=⋅⋅⋅+-+⋅⋅⋅+-+-n n p E x p E x p E x 2222121)()()(ξξξ ; (3)标准差ξξξξξδξD a b a D b aE b a E D 2)(;)(;=++=+=; (4)若ξ~B (n,p ),则E ξ=np, D ξ=npq,这里q=1- p;4.掌握抽样的三种方法:(1)简单随机抽样(包括抽签法和随机数表法);(2)系统抽样,也叫等距离抽样;(3)分层抽样,常用于某个总体由差异明显的几部分组成的情形;5.总体分布的估计:用样本估计总体,是研究统计问题的一个基本思想方法,一般地,样本容量越大,这种估计就越精确,要求能画出频率分布表和频率分布直方图;6.正态总体的概率密度函数:,,21)(222)(R x ex f x ∈=-σμσπ式中σμ,是参数,分别表示总体的平均数与标准差;7.正态曲线的性质:(1)曲线在x =μ 时处于最高点,由这一点向左、向右两边延伸时,曲线逐渐降低;(2)曲线的对称轴位置由确定;曲线的形状由确定,越大,曲线越矮胖;反过来曲线越高瘦;(3)曲线在x 轴上方,并且关于直线x=μ 对称;8.利用标准正态分布的分布函数数值表计算一般正态分布),(2σμN 的概率 P (x 1<ξ<x 2),可由变换t x =-σμ而得)()(σμφ-=x x F ,于是有P (x 1<ξ<x 2)=)()(12σμφσμφ---x x ;9.假设检验的基本思想:(1)提出统计假设,确定随机变量服从正态分布),(2σμN ;(2)确定一次试验中的取值a 是否落入范围)3,3(σμσμ+-;(3)作出推断:如果a ∈)3,3(σμσμ+-,接受统计假设;如果a ∉)3,3(σμσμ+-,由于这是小概率事件,就拒绝假设; 五.高考题回顾一、离散型随机变量的分布列的性质:1. (04年湖北卷.理13)设随机变量ξ的概率分布为P (ξ=k )=5ka ,a 为常数,=k 1,2,…,则a =______.2(04年辽宁卷.8)已知随机变量ξ的概率分布如下:则(10)P ξ==( ). A. 93 B. 103 C. 93 D.103 二.基本概念的考察.0.3.经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多人4. (江苏卷)在一次歌手大奖赛上,七位评委为歌手打出的分数如下:( )9.4 8.4 9.4 9.9 9.6 9.49.7去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为:( A ) 9.4 , 0.484 ( B ) 9.4 , 0.016 ( C ) 9.5 , 0.04 ( D ) 9.5 ,0.0165. .(湖南)一工厂生产了某种产品16800件,它们来自甲.乙.丙3条生产线,为检查这批产品的质量,决定采用分层抽样的方法进行抽样,已知甲.乙.丙三条生产线抽取的个体数组成一个等差数列,则乙生产线生产了件产品.6. 江西卷)为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图,如右,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a, b的值分别为()A.0,27,78 B.0,27,83C.2.7,78 D.2.7,837. 从存放号码分别为1,2,…,10的卡片的盒子中,在放回地取100次,每次取一张卡片并记下号码,统计结果如下:则取到号码为奇数的频率是()(A)0.53 (B) 0.5 (C) 0.47 (D) 0.37三.典型大题举例.8.甲、乙两队进行一场排球比赛.根据以往经验,单局比赛甲队胜乙队的概率为0.6.本场比赛采用五局三胜制,即先胜三局的队获胜,比赛结束.设各局比赛相互间没有影响.令ξ为本场比赛的局数,求ξ的概率分布和数学期望.(精确到0.0001)9.(广东卷)箱中装有大小相同的黄、白两种颜色的乒乓球,黄、白乒乓球的数量比为s:t.现从箱中每次任意取出一个球,若取出的是黄球则结束,若取出的是白球,则将其放回箱中,并继续从箱中任意取出一个球,但取球的次数最多不超过n次.以ξ表示取球结束时已取到白球的次数.(Ⅰ)求ξ的分布列;(Ⅱ)求ξ的数学期望.10(湖北卷)某地最近出台一项机动车驾照考试规定;每位考试者一年之内最多有4次参加考试的机会,一旦某次考试通过,使可领取驾照,不再参加以后的考试,否则就一直考到第4次为止。
专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.8585.71知y 随x 的增大而增大,所以y 与具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下由2×2列联表中数据代入公式计算,得222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b =∴7()10P A。
§11.3 变量间的相关关系、统计案例1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i-n x y ∑n i =1x 2i-n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.题组一 思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得线性回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )题组二 教材改编2.[P97A 组T2]为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 3.[P97练习]下面是2×2列联表:则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52答案 C解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.4.[P81例1]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题组三 易错自纠5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和K 2统计量研究患肺病是否与吸烟有关.计算得K 2=4.453,经查阅临界值表知P (K 2≥3.841)≈0.05,现给出四个结论,其中正确的是( )A .在100个吸烟的人中约有95个人患肺病B .若某人吸烟,那么他有95%的可能性患肺病C .有95%的把握认为“患肺病与吸烟有关”D .只有5%的把握认为“患肺病与吸烟有关” 答案 C解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y ^=0.36x +a ^,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数) 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ^,a ^=40.8,即线性回归方程为y ^=0.36x +40.8.当x =90时,y ^=0.36×90+40.8=73.2≈73.题型一相关关系的判断1.观察下列各图形,其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③答案 C解析由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.2.(2018·广州质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案 D解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.3.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =21ec xc 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =21ec xc 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 思维升华 判定两个变量正,负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关. 题型二 线性回归分析典例 (2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =i =1n (t i -t )(y i -y )i =1n (t i -t )2i =1n (y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=i =1n (t i -t )(y i -y )i =1n (t i -t )2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得 t =4,i =17(t i -t )2=28,i =17(y i -y )2=0.55.i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i=40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.327≈1.331及(1)得b ^=i =17(t i -t )(y i -y )i =17(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.跟踪训练 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=i =1n (u i -u )(v i -v )i =1n (u i -u )2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=i =18(w i -w )·(y i -y )i =18(w i -w )2=108.81.6=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.题型三 独立性检验典例(2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知,P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表如下:K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35 (kg).思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .③比较k 与临界值的大小关系,作统计推断.跟踪训练 (2017·石家庄质检)微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有23是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由已知可得,该公司员工中使用微信的有200×90%=180(人). 经常使用微信的有180-60=120(人), 其中青年人有120×23=80(人),使用微信的人中青年人有180×75%=135(人), 故2×2列联表如下:(2)将列联表中数据代入公式可得: K 2=180×(80×5-55×40)2120×60×135×45≈13.333,由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2018年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2018年的粮食需求量大约为 6.5×(2018-2010)+260.2=6.5×8+260.2=312.2(万吨).[12分]1.根据如下样本数据:得到的线性回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 B解析 根据给出的数据可发现:整体上y 与x 呈现负相关,所以b ^<0,由样本点(3,4.0)及(4,2.5)可知a ^>0,故选B.2.(2017·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表,正确的结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 ∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C. 3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝⎛⎭⎫34,38,则38=13×34+a ^,解得a ^=18. 4.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 答案 C解析 ∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴线性回归方程为y ^=4x +70.将x =24代入上式,得y ^=4×24+70=166.故选C.5.(2018·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′答案 C解析 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑i =16x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.6.某地2009年至2015年中,每年的人口总数y (单位:万)的数据如下表:若t 与y 之间具有线性相关关系,则其回归直线y ^=b ^t +a ^一定过点( ) A .(3,9) B .(9,3) C .(6,14) D .(4,11)答案 A解析 t =17(0+1+2+3+4+5+6)=3,y =17(8+8+8+9+9+10+11)=9,所以回归直线y ^=b ^t +a ^一定过点(3,9).7.(2017·遵义联考)某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额t 满足线性回归方程t ^=6.5m +17.5,则p =________. 答案 60解析 由于回归直线过样本点的中心,m =5,t =190+p5,代入t ^=6.5m +17.5,解得p =60.8.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的统计量K 2来说,K 2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量K 2越小,说明两个相关变量有关系的把握程度越小. 9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意,K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.10.(2017·武邑模拟)对具有线性相关关系的变量x ,y 有10组观测数据(x i ,y i )(i =1,2,…,10),其线性回归方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i =________. 答案 4解析 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过(x ,y ),∴y =-3+2x =-3+2×1.7=0.4,∴∑10i =1y i =0.4×10=4. 11.某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2018年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=i =1n (t i -t )(y i -y )i =1n (t i -t )2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,i =17(t i -t )2=9+4+1+0+1+4+9=28,i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=i =17(t i -t )(y i -y )i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2018年的年份代号t =10代入(1)中的线性回归方程,得y ^=0.5×10+2.3=7.3, 故预测该地区2018年农村居民家庭人均纯收入为7.3千元.12.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)“赞成定价者”的月平均收入为x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=50×(3×11-7×29)210×40×18×32≈6.272<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.13.(2017·通州一模)对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )A .由样本数据得到的回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好C .用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 答案 C解析 R 2的值越大,说明残差平方和越小,也就是模型的拟合效果越好,故选C.14.(2018·河北保定模拟)中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以45岁为分界点,从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求至少有1人是45岁及45岁以上的概率. 参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)2×2列联表如下:因为K 2=100×(35×5-45×15)250×50×80×20=254=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休年龄政策”的人中抽取8人,则45岁以下的应抽6人,45岁及45岁以上的应抽2人.则8人中随机抽2人共有C 28=28种抽法,至少有1人是45岁及45岁以上共有C 16C 12+C 22=13(种)抽法,故所求概率为1328.15.(2018·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.答案 12解析 设男生人数为x ,由题意可得列联表如下:若有95%的把握认为是否喜欢韩剧和性别有关, 则k >3.841,即k =3x 2⎝⎛⎭⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x 8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2017·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74, ∑7i =1(y i -y ^i)2=94. 参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1 (t i -t )2∑ni =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^t .反映回归效果的公式为:R 2=1-∑ni =1 (y i -y ^i )2∑ni =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好.解 (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18, 所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^=34×8+51=57,所以预测2017年该企业污水净化量约为57吨. (3)因为R 2=1-∑7i =1(y i -y ^i )2∑7i =1(y i -y )2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。
(六)统计1.随机抽样(1)理解随机抽样的必要性和重要性.(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.2.用样本估计总体(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.学科#网(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.3.变量的相关性(1)会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.(七)概率1.事件与概率(1)了解随机事件发生的不确定性和频率的稳定性,了解概率的意义,了解频率与概率的区别.(2)了解两个互斥事件的概率加法公式.2.古典概型(1)理解古典概型及其概率计算公式.(2)会用列举法计算一些随机事件所含的基本事件数及事件发生的概率.3.随机数与几何概型(1)了解随机数的意义,能运用模拟方法估计概率.(2)了解几何概型的意义.(十七)统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.1.独立性检验了解独立性检验(只要求2×2 列联表)的基本思想、方法及其简单应用.2.回归分析了解回归分析的基本思想、方法及其简单应用.概率与统计作为高考的必考内容,在2019年的高考中预计仍会以“一小一大”的格局呈现.小题一般比较简单,出现在选择题或填空题中比较靠前的位置,命题角度主要有两个方面:一是统计数据的分析,多以统计图表(折线图或柱状图)的形式提供数据,进行数据的特征分析,如均值、方差、最值点及趋势分析等;二是概率的求解,以古典概型的求解为主,几何概型可能会与其他知识模块内容结合起来考查,如与函数、不等式、解析几何等相结合.解答题一般出现在第18题或第19题的位置,属于中档题目,题目涉及两个以上的知识模块,具有一定的综合性.命题角度主要有三个方面:一是统计图表的数据分析与古典概型的概率求解,样本数据的数字特征比较等相结合,涉及用频率估计概率、互斥事件、对立事件的概率求解,以数据的分析与概率求解为核心;二是统计数据的数字特征与回归分析、独立性检验等的综合,此类问题计算量较大,注重数据的分析与应用;三是统计图表与函数知识的综合,特别是统计与分段函数的综合,这有可能成为命题的热点.考向一三种抽样方法样题1从某社区65户高收入家庭,280户中等收入家庭,105户低收入家庭中选出100户调查社会购买力的某一项指标,应采用的最佳抽样方法是A.系统抽样C.简单随机抽样【答案】BB.分层抽样D.各种方法均可考向二样本的数字特征样题2(2017新课标全国Ⅰ文科)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x,x,…,x,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的12n是A.x,x,…,x的平均数12nC.x,x,…,x的最大值12n B.x,x,…,x的标准差12nD.x,x,…,x的中位数12n【答案】B【解析】评估这种农作物亩产量稳定程度的指标是标准差或方差,故选B.【名师点睛】众数:一组数据出现次数最多的数叫众数,众数反映一组数据的多数水平;中位数:一组数据中间的数(起到分水岭的作用),中位数反映一组数据的中间水平;平均数:反映一组数据的平均水平;学科*网方差:反映一组数据偏离平均数的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小).在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定.标准差是方差的算术平方根,意义在于反映一组数据的离散程度.考向三频率分布直方图的应用样题3(2017新课标全国Ⅱ文科)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50kg箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:P()0.0500.0100.001k 3.841 6.63510.828K2n(ad bc)2(a b)(c d)(a c)(b d).(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55kg 之间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法. 【名师点睛】(1)频率分布直方图中小长方形面积等于对应概率,所有小长方形面积之和为 1.(2)频率分布直方图中均值等于组中值与对应概率乘积的和.学科.网(3)均值大小代表水平高低,方差大小代表稳定性.考向四 线性回归方程及其应用样题 4(2018 新课标全国文科)下图是某地区 2000 年至 2016 年环境基础设施投资额 (单位:亿元)的折线图.为了预测该地区 2018 年的环境基础设施投资额,建立了 与时间变量 t的两个线性回归模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2 ,…,17)建立模型①: y ˆ30.4 13.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为1,2 ,…,7)建立模型②: y ˆ99 17.5t.(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.【答案】(1)见解析;(2)利用模型②得到的预测值更可靠.理由见解析.y y(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.考向五概率的求解样题5(2018新课标全国Ⅱ文科)从2名男同学和3名女同学中任选2人参加社区服务,则选中的2人都是女同学的概率为A.0.6C.0.4B.0.5D.0.3【答案】D【解析】设2名男同学为,3名女同学为,从以上5名同学中任选2人总共有,共10种可能,选中的2人都是女同学的情况共有,共3种可能,则选中的2人都是女同学的概率为,故选D.【名师点睛】应用古典概型求概率的步骤:第一步,判断本试验的结果是否为等可能事件,设出事件;第二步,分别求出基本事件的总数与所求事件中所包含的基本事件个数;第三步,利用公式求出事件的概率.样题6如图,茎叶图表示的是甲,乙两人在5次综合测评中的成绩,其中一个数字被污染,则甲的平均成绩超过乙的平均成绩的概率为A .C .1 24 5B .D .3 5710【答案】C考向六 独立性检验样题 7 (2018 年高考新课标Ⅲ卷文)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单 位:min )绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 m ,并将完成生产任务所需时间超过m 和不超过 m 的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2n ad bca b c d a cb d,P K2≥k0.0500.0100.001k3.841 6.63510.828【答案】(1)第二种生产方式的效率更高,理由见解析;(2)见解析;(3)能.【解析】(1)第二种生产方式的效率更高.理由如下:学科*网(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m 7981280.列联表如下:超过m不超过m第一种生产方式第二种生产方式1555152。
高考回归分析知识点回归分析是统计学中一种重要的分析方法,用于研究变量之间的关系和预测。
在高考数学中,回归分析也是一个重要的知识点。
本文将介绍高考中常见的回归分析知识点,并结合具体例子进行解析。
一、简单线性回归1. 定义:简单线性回归是指在研究两个变量之间关系时,其中一个变量为自变量,另一个变量为因变量,且二者之间存在线性关系的情况。
2. 公式:简单线性回归模型的数学表示为:Y = α + βX + ε,其中Y为因变量,X为自变量,α和β为常数,ε为误差项。
3. 参数估计:通过最小二乘法可以估计出回归系数α和β的值,从而建立回归方程。
示例:假设我们想研究学生的学习时间与考试分数之间的关系。
我们收集了一组数据,学习时间(自变量X)和考试分数(因变量Y)的数值如下:学习时间(小时):[5, 10, 15, 20, 25, 30]考试分数(分数):[60, 70, 75, 80, 85, 90]通过简单线性回归分析,我们可以建立回归方程为:Y = 55 + 0.75X,说明学习时间对考试分数有正向影响。
二、多元线性回归1. 定义:多元线性回归是指在研究多个自变量与一个因变量之间关系时的回归分析方法。
它可以用来探究多个因素对因变量的影响程度,并进行预测和解释。
2. 公式:多元线性回归模型的数学表示为:Y = α + β₁X₁ + β₂X₂+ ... + βₚXₚ + ε,其中Y为因变量,X₁、X₂、...、Xₚ为自变量,α和β₁、β₂、...、βₚ为常数,ε为误差项。
3. 参数估计:同样通过最小二乘法可以估计出回归系数α和β₁、β₂、...、βₚ的值,从而建立回归方程。
示例:我们想研究学生的考试分数与学习时间、家庭收入、家庭教育水平等因素之间的关系。
我们收集了一组数据,学习时间(自变量X₁)、家庭收入(自变量X₂)、家庭教育水平(自变量X₃)和考试分数(因变量Y)的数值如下:学习时间(小时):[5, 10, 15, 20, 25, 30]家庭收入(万元):[8, 10, 12, 15, 18, 20]家庭教育水平(年):[10, 12, 14, 16, 18, 20]考试分数(分数):[60, 70, 75, 80, 85, 90]通过多元线性回归分析,我们可以建立回归方程为:Y = 50 +0.7X₁ + 1.2X₂ + 1.5X₃,说明学习时间、家庭收入和家庭教育水平都对考试分数有正向影响。
专题十一 概率与统计第三十二讲 统计初步答案部分2019年1.A 解析:根据题意,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,最中间的一个数不变,即中位数不变.故选A .2.0.98 解析 经停该站高铁列车所有车次的平均正点率的估计值为:100.97200.98100.990.98102010x ⨯+⨯+⨯==++. 3.解析(1)由已知得0.700.200.15a =++,故0.35a =.b =1–0.05–0.15–0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.4. 解析 1111()03333a E X a +=⨯++=, 222111111()1333333a a a D X a +++⎛⎫⎛⎫⎛⎫=⨯+-⨯+-⨯ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭ ()()()22222122111232(1)279926a a a a a a ⎛⎫⎡⎤=++-+-=-+=-+ ⎪⎣⎦⎝⎭ 因为01a <<,所以()D X 先减小后增大.故选D .5. 解析 一组数据6,7,8,8,9,10的平均数为1(6788910)86x =+++++=, 所以该组数据的方差为 222222215[(68)(78)(88)(88)(98)(108)]63s =-+-+-+-+-+-=.2010-2018年1.A 【解析】通解 设建设前经济收入为a ,则建设后经济收入为2a ,则由饼图可得建设前种植收入为0.6a ,其他收入为0.04a ,养殖收入为0.3a .建设后种植收入为0.74a ,其他收入为0.1a ,养殖收入为0.6a ,养殖收入与第三产业收入的总和为1.16a ,所以新农村建设后,种植收入减少是错误的.故选A .优解 因为0.60.372<⨯,所以新农村建设后,种植收入增加,而不是减少,所以A 是错误的.故选A .2.A 【解析】由折线图,7月份后月接待游客量减少,A 错误;选A .3.18【解析】应从丙种型号的产品中抽取30060181000⨯=件. 4.D 【解析】由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D .5.D 【解析】由图可知0℃在虚线框内,所以各月的平均最低气温都在0℃以上,A 正确;由图可知七月的平均温差比一月的平均温差大,B 正确;由图可知三月和十一月的平均最高气温都约为10℃,基本相同,C 正确;由图可知平均最高气温高于20℃的月份不是5个,D 不正确,故选D .6.C 【解析】由扇形统计图可得,该校女教师人数为11070150(160%)137⨯+⨯-=.7.D 【解析】根据柱形图易得选项A ,B ,C 正确,2006年以我国二氧化碳年排放量与年份负相关,选项D 错误.8.C 【解析】设样本数据1x ,2x ,,10x 8=,即方差64DX =,而数据121x -,221x -,,1021x -的方差22(21)2264D X DX -==⨯,16=.故选C .9.C 【解析】由10002540=,可得分段的间隔为25.故选C . 10.A 【解析】所抽人数为(350020004500)2%200++⨯=,近视人数分别为小学生350010%350⨯=,初中生450030%1350⨯=,高中生200050%1000⨯=,∴抽取的高中生近视人数为10002%20⨯=.选A .11.D 【解析】根据抽样方法的概念可知,简单随机抽样、系统抽样和分层抽样三种抽样方法,每个个体被抽到的概率都是n N,故123p p p ==,故选D . 12.C 【解析】因该地区小学、初中、高中三个学段学生的视力情况有较大差异,故最合理的抽样方法是按学段分层抽样,故选C .13.B 【解析】由图知道60分以上人员的频率为后4项频率的和,由图知道(0.030.0250.0150.01)*100.8P =+++=,故分数在60以上的人数为600×0.8=480人.14.B 【解析】由图可知去掉的两个数是87,99,所以8790291294+⨯+⨯+90917x ++=⨯,4x =.22222136[(8791)(9091)2(9191)2(9491)2]77s =-+-⨯+-⨯+-⨯=. 15.A 【解析】由概念知中位数是中间两数的平均数,即45+47=462,众数是45,极差为68-12=56.所以选A.16.90【解析】由茎叶图可得分数的平均数为8989909191905++++=. 17.4【解析】由茎叶图可知,在区间]151,139[的人数为20,再由系统抽样的性质可知人数为435720=⨯人. 18.24【解析】由频率分布直方图可得树木底部周长小于100cm 的频率是(0.025+0.015)×10=0.4,又样本容量是60,所以频数是0.4×60=24.19.1800【解析】分层抽样中各层的抽样比相同,样本中甲设备生产的有50件,则乙设备生产的有30件,在4800件产品中,甲、乙设备生产的产品总数比为53,所以乙设备生产的产品总数为1800件.20.60【解析】应从一年级抽取4604556300?+++名.21.10【解析】设五个班级的数据分别为a b c d e <<<<。
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(1,y 1),(2,y 2),…,(n ,y n )(n ≥2,1,2,…,n 不全相等)的散点图中,若所有样本点(i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:g )与身高(单位:cm )具有线性相关关系,根据一组样本数据(i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.8585.71,则下列结论中不正确...的是 A .y 与具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85gD .若该大学某女生身高为170cm ,则可断定其体重必为58.79g 8.(2011山东)某产品的广告费用与销售额y 的统计数据如下表广告费用(万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii yy =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.6563 6.8289.81.61469108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷 合计 男 女 合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:)(2k P ≥χ 0.050.01 k3.8416.635。
专题十一 概率与统计
第三十三讲 回归分析与独立性检验
答案部分
1.C 【解析】因为22.5x =,160y =,所以160422.570a =-⨯=,42470166y =⨯+=,
选C .
2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b
=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4y
x =+,把15x =代入上式得, ˆ0.76150.411.8y
=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),
代入A 、B 得A 正确.
4.A 【解析】画出散点图知0,0b a <>.
5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故
选D.
6.D 【解析】因为22
2
1
52(6221410)5281636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
22
2
2
52(4201612)521121636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
22
2
3
52(824128)52961636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
22
2
4
52(143062)524081636322016363220
χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,
则有2222
4231χχχχ>>>,所以阅读量与性别关联的可能性最大.
7.D 【解析】由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的
线性相关关系,由最小二乘法建立的回归方程得过程知
ˆ()y
bx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不
正确.
8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1a
y bx =-=-⨯=,所以回归方程是ˆ9.49.1y
x =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
ˆ30.413.519226.1y
=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为
ˆ9917.59256.5y
=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.
这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据
建立的线性模型ˆ9917.5y
t =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得
4=t ,28)(7
1
2
=-∑=i i t t ,
55.0)(7
12=-∑=i i
y y
,
40.1749.32 2.89==-⨯=,
99.0646
.2255.089
.2≈⨯⨯≈
r .
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性
回归模型拟合y 与t 的关系.
(Ⅱ)由331.17
32.9≈=
y 及(Ⅰ)得7
1
7
2
1
()()
2.89
ˆ0.10328
()i
i i i
i t
t y y b t
t ==--==
≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a
. 所以,y 关于t 的回归方程为:t y
10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y
. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.
11.【解析】
(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的
回归方程类型.
(Ⅱ)令w =
y 关于w 的线性回归方程,由于
8
1
8
2
1
()()
108.8
ˆ681.6
()
i
i
i i
i w w y y d
w w ==--==
=-∑∑. ˆˆ56368 6.8100.6c
y dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为
ˆ100.6y
=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值
ˆ100.6576.6y
=+= 年利润z 的预报值
ˆ576.60.24966.32z
=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值
ˆ0.2(100.620.12z
x x =+-=-+.
13.6
6.82
=
=,即46.24x =时,ˆz
取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得1
7
t =
(1+2+3+4+5+6+7)=4
1
7
y =
(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7
21
1()t t
t =-∑=9+4+1+0+1+4+9=28
7
1
11
()()t t
t y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-
00.110.520.93 1.614+⨯+⨯+⨯+⨯=
7
1
11
7
2
1
1
()()
14
0.528
()t t t
t y y b t
t ==--=
=
=-∑∑, 4.30.54 2.3a y bt =-=-⨯=. 所求回归方程为0.5 2.3y t =+.
13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列
联表如下:
由2×2列联表中数据代入公式计算,得:
222
112212211212()100(30104515)100
3.0307525455533
n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯
因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.
(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b
3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本
事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7
()10
P A =。