2021年高考数学一轮复习第十章统计与统计案例第三节变量间的相关关系统计案例课后作业理
- 格式:doc
- 大小:192.00 KB
- 文档页数:10
2021年高考数学第十章第3课时变量间的相关关系、统计案例知能演练轻松闯关新人教A版1.(xx·辽宁六校联考)某产品在某零售摊位上的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得回归直线方程y=b x+a中的b=-4,据此模型预计零售价定为15元时,每天的销售量为( )A.48个B.49个C.50个D.51个解析:选B.由题意知x=17.5,y=39,代入回归直线方程得a^=109.当x =15时,y^=109-15×4=49.2.(xx·湖南省五市十校联合检测)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=n(a+b)(c+d)(a+c)(b+d)算得,K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:选A.因为6.635<7.8<10.828,所以有99%以上的把握认为“爱好该项运动与性别有关”.3.(xx·云南昆明市调研测试)变量U与V相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U与V的线性回归分析,R2表示解释变量对于预报变量变化的贡献率,则R2=( )A.35B.45C.1 D.3解析:选C.依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=2.2-1.42-1(x -1),即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1.4.下列说法错误的是( )A .回归直线过样本点的中心(x ,y )B .线性回归方程对应的直线y ^=b ^x +a ^至少经过其样本数据点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 解析:选B .回归直线必过样本点的中心,A 正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C 正确;在回归分析中,R 2越接近于1,模拟效果越好,D 正确;线性回归方程对应的直线y ^=b ^x +a ^一定经过样本点的中心(x ,y ),但不一定经过样本数据点,所以B 错误.5.(xx·山东东营模拟)已知变量x 与y 之间的回归直线方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i 的值等于( ) A .3 B .4 C .0.4D .40解析:选B .依题意x =1710=1.7, 而直线y ^=-3+2x 一定经过(x ,y ),所以y =-3+2x =-3+2×1.7=0.4,∴∑10i =1y i =0.4×10=4. 6.下面是一个2×2列联表则表中a ,b 解析:∵a +21=73,∴a =52. 又∵a +2=b ,∴b =54. 答案:52,547.(xx·辽宁大连市双基测试)已知下列表格所示数据的回归直线方程为y ^=3.8x +a ,则a 的值为________.解析:由已知得,x=4,y=258,因为点(x,y)在回归直线上,所以a=242.8.答案:242.88.(xx·山东济南市模拟考试)为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入x(单位:万元)和年教育支出y(单位:万元),调查显示年收入x与年教育支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元.解析:由题意知,0.15(x+1)+0.2-(0.15x+0.2)=0.15.答案:0.159.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K2的观测值k=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.10.某农科所对冬季昼夜温差与某反季节大豆种子发芽多少之间的关系进行分析研究,他们记录了12月1日至5日的昼夜温差与每天100颗种子的发芽数,数据如下:求线性回归方程,再用被选取的两组数据进行检验.(1)若先选取的是12月1日和5日的数据,请根据2日至4日的三组数据,求y关于x的线性回归方程y^=b^x+a^;(2)若由回归方程得到的估计数据与检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试判断(1)中所得到的线性回归方程是否可靠?解:(1)由数据,求得x=12,y=27,由公式,求得b^=52,a^=y-b^x=-3,所以y关于x的线性回归方程为y^=52x-3.(2)当x=10时,y^=52×10-3=22,|22-23|<2,同样,当x=8时,y^=52×8-3=17,|17-16|<2.所以,该农科所得到的线性回归方程是可靠的.[能力提升]1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”解析:选C.由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c=20,b=45,选项A、B错误.根据列联表中的数据,得到K2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.2.(xx·安徽合肥检测)由数据(x1,y1),(x2,y2),…,(x10,y10)求得线性回归方程y^=b^x+a^,则“(x0,y0)满足线性回归方程y^=b^x+a^”是“x0=x1+x2+…+x1010,y0=y1+y2+…+y1010”的( )A.充分不必要条件B.必要不充分条件C.充要条件D.既不充分也不必要条件解析:选B.(x0,y0)为这10组数据的平均值,又因为回归直线y^=b^x+a^必过样本中心点(x,y),因此(x0,y0)一定满足线性回归方程,但坐标满足线性回归方程的点不一定是(x,y).3.(xx·山东菏泽调研)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学做出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列命题中,真命题的序号是________.(把你认为正确的命题序号都填上)①p∧綈q②綈p∧q③(綈p∧綈q)∧(r∨s)④(p∨綈r)∧(綈q∨s)解析:由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.由真值表知①④为真命题.答案:①④4.(xx·广东梅州一模)在xx 年8月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:直线方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.解析:x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,线性回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎪⎫8+m 5+40, 即3.2m +n =42.又∵m +n =20,即⎩⎨⎧3.2m +n =42,m +n =20,解得⎩⎨⎧m =10,n =10,故n =10.答案:105.(xx·福建泉州一模)甲、乙两台机床生产同一型号零件.记生产的零件的尺寸为t(cm),相关行业质检部门规定:若t∈(2.9,3.1],则该零件为优等品;若t∈(2.8,2.9]∪(3.1,3.2],则该零件为中等品;其余零件为次品.现分别从甲、乙机床生产的零件中各随机地抽取50件,经质量检测得到下表数据:将频率视为概率,试根据样本估计总体的思想,估算甲机床生产一件零件的利润的数学期望;(2)对于这两台机床生产的零件,在排除其他因素影响的情况下,试根据样本估计总体的思想,估计约有多大的把握认为“零件优等与否和所用机床有关”,并说明理由.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).参考数据:则有E(X)元).所以,甲机床生产一件零件的利润的数学期望为2.48元.(2)由表中数据可知:甲机床优等品40个,非优等品10个;乙机床优等品30个,非优等品20个.制作2×2列联表如下:≈4.762.计算K2的观测值k=50×50×70×30考察参考数据并注意到3.841<4.762<5.024,可知:对于这两台机床生产的零件,在排除其他因素影响的情况下,根据样本估计总体的思想,约有95%的把握认为“零件优等与否和所用机床有关”.6.(选做题)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧人数占女生人数的23.(1)若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有多少人;(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人?解:设男生人数为x ,依题意可得列联表如下:(1)则k >3.841,由K 2=3x 2(x 6×x 6-5x 6×x 3)2x ×x 2×x 2×x =38x >3.841,解得x>10.24.∵x2,x6为整数,∴若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有12人.(2)没有充分的证据显示是否喜欢韩剧和性别有关,则k≤2.706.由K2=3x2(x6×x6-5x6×x3)2x×x2×x2×x=38x≤2.706,解得x≤7.216,∵x2,x6为整数,∴若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有6人.30580 7774 睴21734 54E6 哦36831 8FDF 迟E28794 707A 灺26561 67C1 柁333343 823F 舿27008 6980 榀30664 77C8 矈Z。
2021高考数学考点突破——统计与统计案例变量间的相关关系与统计案例学案【考点梳理】1.回来分析回来分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判定相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,关于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)假如散点图中点的分布从整体上看大致在一条直线邻近,称两个变量具有线性相关关系.2.线性回来方程(1)最小二乘法:使得样本数据的点到回来直线的距离的平方和最小的方法叫做最小二乘法.(2)回来方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回来方程为y ^=b ^x +a ^,则b ^=∑ni =1x i -x y i -y ∑ni =1 x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y-b ^x .其中,b ^是回来方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:关于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估量值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1y i -y ^i2∑ni =1 y i -y2.4.独立性检验(1)利用随机变量K 2来判定“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d则随机变量K2=n ad-bc2a+b a+c b+d c+d(其中n=a+b+c+d为样本容量).【考点突破】考点一、相关关系的判定【例1】(1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③ B.②③①C.②①③ D.①③②(2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(3)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3[答案] (1) D (2) C (3) A[解析] (1)第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,因此应该是①③②.(2)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y+a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(3)由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1. 【类题通法】1.利用散点图判定两个变量是否有相关关系是比较直观简便的方法.假如所有的样本点都落在某一函数的曲线邻近,变量之间就有相关关系.假如所有的样本点都落在某一直线邻近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强. 【对点训练】1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.依照该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20% [答案] B[解析] 因为散点图出现上升趋势,故交体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.四名同学依照各自的样本数据研究变量x ,y 之间的相关关系,并求得回来直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④[答案] D[解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12 D .1[答案] D[解析] 因为所有样本点都在直线y =12x +1上,因此这组样本数据完全正相关,故其相关系数为1.考点二、线性回来方程及应用【例2】某地随着经济的进展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:为了研究运算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:(1)求z 关于t 的线性回来方程;(2)通过(1)中的方程,求出y 关于x 的回来方程;(3)用所求回来方程推测到2020年年底,该地储蓄存款额可达多少?(附:关于线性回来方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解析] (1)由已知,得t =3,z =2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-1.2×3=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)∵y ^=1.2×2 020-2 410.8=13.2,∴推测到2020年年底,该地储蓄存款额可达13.2千亿元. 【类题通法】回来直线方程中系数的2种求法(1)公式法:利用公式,求出回来系数b ^,a ^.(2)待定系数法:利用回来直线过样本点中心(x ,y )求系数. 【对点训练】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的阻碍.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑i =18(x i -x )2∑i =18(w i -w )2∑i =18(x i -x )(y i -y )∑i =18(w i -w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18w i .(1)依照散点图判定,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回来方程类型?(给出判定即可,不必说明理由)(2)依照(1)的判定结果及表中数据,建立y 关于x 的回来方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .依照(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:关于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回来直线v =α+βu 的斜率和截距的最小二乘估量分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .[解析] (1)由散点图能够判定,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回来方程类型.(2)令w =x ,先建立y 关于w 的线性回来方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,因此y 关于w 的线性回来方程y ^=100.6+68w , 因此y 关于x 的回来方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②依照(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.因此当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【例3】如图是我国2008年至2020年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2020.(1)由折线图看出,可用线性回来模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回来方程(系数精确到0.01),推测2021年我国生活垃圾无害化处理量. 参考数据:∑ 7i =1y i =9.32,∑ 7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ ni =1t i -ty i -y∑ ni =1t i -t2∑ni =1y i -y2,回来方程y ^=a ^+b ^t 中斜率和截距的最小二乘估量公式分别为b ^=∑ni =1t i -ty i -y∑ ni =1t i -t2,a ^=y --b ^t .[解析] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,∑7i =1(t i -t )(y i -y )=∑ 7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89, 因此r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而能够用线性回来模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑ 7i =1t i -t y i -y∑7i =1t i -t2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92.因此y 关于t 的回来方程为y ^=0.92+0.10t .将2021年对应的t =9代入回来方程得y ^=0.92+0.10×9=1.82. 因此推测2021年我国生活垃圾无害化处理量约为1.82亿吨. 【类题通法】线性回来分析确实是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,能够推测可能的结果,这确实是线性回来方程的差不多应用,因此利用最小二乘法求线性回来方程是关键,必须熟练把握线性回来方程中两个重要估量量的运算.【对点训练】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经运算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i xx i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否能够认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则能够认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,假如显现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能显现了专门情形,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估量这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.[解析] (1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16116162211()(8.5)0.180.2121618.439()(8.5)ii ii i x x i r x x i ===--==≈-⨯⨯--∑∑∑.由于||0.25r <,因此能够认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于9.97,0.212x s =≈,由样本数据能够看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估量值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈, 这条生产线当天生产的零件尺寸的标准差的估量值为0.0080.09≈.考点三、独立性检验【例4】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收成时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估量A的概率;(2)填写下面列联表,并依照列联表判定是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)(精确到0.01).附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n2a+b c+d a+c b+d.[解析] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估量值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估量值为0.66.因此,事件A的概率估量值为0.62×0.66=0.409 2.(2)由(1)知可得列联表箱产量<50 kg箱产量≥50 kg旧养殖法6238新养殖法34 66由表中数据及K 2的运算公式得, K 2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估量值为50+0.5-0.340.068≈52.35(kg). 【类题通法】解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一样步骤:(1)依照样本数据制成2×2列联表; (2)依照公式K 2=n ad -bc 2a +ba +cb +dc +d运算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断. 【对点训练】为了了解某学校高二年级学生的物理成绩,从中抽取n 名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.(1)求a 和n 的值;(2)依照样本估量总体的思想,估量该校高二学生物理成绩的平均数x -和中位数m ; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判定能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.男生女生合计优秀 不优秀 合计附:参考公式和数据:K 2=n ad -bc 2a +bc +d a +cb +d, P (K 2≥k 0)0.500.05 0.025 0.005 k 00.4553.8415.0247.879[解析] (1), 解得a =0.05,则n =2010×0.05=40.(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1, 因此x -=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m -70)×0.05=0.5-(0.05+0.2),得m =75.(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.因此优秀的男生为6人,女生为4人; 不优秀的男生为10人,女生为20人. 因此2×2列联表如下:男生 女生 总计 优秀 6 4 10 不优秀 10 20 30 总计162440因此K 2=40×216×24×10×30≈2.222<3.841,因此在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.。
第三节变量间的相关关系与统计案例[备考方向要明了]考什么怎么考1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用. 高考对本节内容的考查主要是线性回归分析和独立性检验的统计分析方法,三种题型都有可能出现,难度中档,如2012年湖南T4,辽宁T19等.[归纳·知识整合]1.两个变量的线性相关(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.[探究] 相关关系和函数关系有何异同点?提示:(1)相同点:两者均是指两个变量的关系.(2)不同点:①函数关系是一种确定的关系,而相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归方程(1)最小二乘法:求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n x i -x -y i -y-∑i =1n x i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i-a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y-2, R 2越大,意味着残差平方和越小,即模型的拟合效果越好;R 2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +dK 2=n ad -bc 2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.[自测·牛刀小试]1.下列结论正确的是( ) ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①② B .①②③ C .①②④D .①②③④解析:选C 由回归分析的方法及概念判断.2.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y =0.95x +a ,则a =( )A.3.25 C .2.2D .0解析:选B x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.3.工人月工资y (元)关于劳动生产率x (千元)的回归方程为y =650+80x ,下列说法中正确的个数是( )①劳动生产率为1 000元时,工资为730元; ②劳动生产率提高1 000元,则工资提高80元; ③劳动生产率提高1 000元,则工资提高730元; ④当月工资为810元时,劳动生产率约为2 000元. A .1 B .2 C .3D .4解析:选C 将数据代入方程计算可判断①②④正确.4.一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的回归模型为y ^=7.19x +73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 左右D .身高在145.83 cm 以下解析:选C 用回归模型y ^=7.19x +73.93,只能作预测,其结果不一定是一个确定值.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确解析:选C 根据独立性检验的思想知.相关关系的判断[例1] 在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)143156159172165体重(kg)4149617968身高(cm)171177161164160体重(kg)6974696854根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.[自主解答] 以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示.由散点图可知,两者之间具有相关关系,且为正相关.———————————————————利用散点图判断相关关系的技巧(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量间的关系,即变量之间具有函数关系.(2)如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.线性回归方程及其应用[例2] 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[自主解答] (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. ———————————————————求回归直线方程时的注意点求回归方程,关键在于正确求出系数a ,b ,由于计算量较大,所以计算时要仔细谨慎,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的回归方程才有意义.2.某种产品的广告费支出x 与销售额(单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070如果y 与x 之间具有线性相关关系. (1)作出这些数据的散点图; (2)求这些数据的线性回归方程;(3)预测当广告费支出为9百万元时的销售额. 解:(1)(2)x =5,y =50,∑i =15x i y i =1 390,∑i =15x 2i =145,b ^=∑i =15x i y i -5x·y∑i =15x 2i -5x -2=7, a ^=y --b ^x -=15,∴线性回归方程为y ^=7x +15. (3)当x =9时,y ^=78.即当广告费支出为9百万元时,销售额为78百万元.独立性检验的基本思想及其应用[例3] (2012·湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.优秀 非优秀 合计 甲班 10乙班 30合计110(1)请完成上面的列联表;(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”; 参考公式与临界值表:K 2=n ad -bc 2a +bc +d a +cb +dP (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828[自主解答] (1)列联表如下:优秀 非优秀 合计 甲班 10 50 60 乙班 20 30 50 合计3080110(2)根据列联表中的数据,得到K 2=110×10×30-20×50260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”. ———————————————————独立性检验的步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值.(3)比较K 2与临界值的大小关系作统计推断.3.地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越引起人们的重视,某校为了了解学生对紧急避险常识的了解情况,从七年级和八年级各选取100名同学进行紧急避险常识知识竞赛.图(1)和图(2)分别是对七年级和八年级参加竞赛的学生成绩按[40,50),[50,60),[60,70),[70,80]分组,得到的频率分布直方图.(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩(注:统计方法中,同一组数据常用该组区间的中点值作为代表);(2)完成下面2×2列联表,并回答是否有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”?成绩小于60分人数成绩不小于60分人数合计 七年级 八年级 合计附:K 2=n ad -bc 2a +bc +d a +c b +d.临界值表: P (K 2≥k )0.10 0.05 0.010 k2.7063.8416.635解:(1)七年级学生竞赛平均成绩为(45×30+55×40+65×20+75×10)÷100=56, 八年级学生竞赛平均成绩为(45×15+55×35+65×35+75×15)÷100=60. (2)2×2列联表如下:成绩小于60分人数成绩不小于60分人数合计 七年级 70 30 100 八年级 50 50 100 合计12080200∴K 2=200×50×70-50×302100×100×120×80≈8.333>6.635.∴有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”.1种求法——相关关系的判定和线性回归方程的求法(1)函数关系一种理想的关系模型,而相关关系是一种更为一般的情况.(2)如果两个变量不具有线性相关关系,即使求出回归直线方程也毫无意义,而且用其进行估计和预测也是不可信的.(3)回归直线方程只适用于我们所研究的样本的总体.样本的取值范围一般不超过回归直线方程的适用范围,否则就没有实用价值.1个难点——独立性检验思想的理解独立性检验的思想类似于反证法,即要确定“两个变量X和Y有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没关系,也就是它们是相互独立的,利用概率的乘法公式可推知,(ad-bc)接近于零,也就是随机变量K2=n ad-bc2应该很小,如果计算出的K2的观测值k不是很小,通a+b c+d a+c b+d过查表P(K2≥k0)的概率很小.又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言X与Y之间有关系.答题模板——概率与统计的综合问题[典例] (2012辽宁高考改编·满分12分)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为“体育迷”与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附K 2=n ad -bc 2a +bc +d a +cb +d, P (K 2≥k )0.050.01 k3.8416.635[快速规范审题]第(1)问1.审条件,挖解题信息观察条件:100名观众收看节目时间的频率分布直方图及日均收看时间不低于40分钟的观众称为体育迷,女体育迷10名―――――――→借助直方图可确定非体育迷及体育迷人数 2.审结论,明确解题方向观察所求结论:完成2×2列联表并判断“体育迷”与性别的相关性――――→需要确定a ,b ,c ,d 及K 2的值3.建联系,找解题突破口由直方图及条件确定体育迷与非体育迷人数―→完成列联表―→计算K 2可判断结论 第(2)问1.审条件,挖解题信息观察条件:―→确定“超级体育迷”标准且有2名女性“超级体育迷”―――――――→由频率分布直方图 确定“超级体育迷”的人数 2.审结论,明确解题方向观察结论:―→从“超级体育迷”中任取2人求至少有1名女性观众的概率―――――→分类分析1名女性观众或两名女性观众3.建联系,找解题突破口由频率分布直方图确定“超级体育迷”的人数―――――――→列举法列举出 所有基本事件并计数为n 和至少有1名女性的基本事件,计数为m mP n=−−−−→代入求概率 [准确规范答题](1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:非体育迷体育迷合计男301545女451055合计7525100 ⇨(3分)将2×2列联表中的数据代入公式计算,得K2=100×30×10-45×152 75×25×45×55=10033≈3.030.因为3.030<3.841,所以我们没有95%的把握认为“体育迷”与性别有关.⇨(6分)(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件为(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),其中a i表示男性,i=1,2,3,b j表示女性,j=1,2.⇨(9分)由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A为(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),⇨(11分)由7个基本事件组成,因而P(A)=710.⇨(12分)[答题模板速成] 解决概率与统计的综合问题的一般步骤:第一步⇒第二步⇒第三步⇒第四步⇒第五步⇒第六步忽视直方图纵轴表示为−−−→频率组距导致每组人数计算失误.K2的计算不准确、导致结果判断出错.1.“超级体育迷”人数计算错误导致失误.2.由5人中任取2人列举出所有可能结果时重复或遗漏某一情况导致失误.理清题意,理解问题中的条件和结论.尤其是直方图中给定的信息,找关键量 由直方图确定所需的数据,列出2×2列联表利用独立性检验的步骤进行判断确定基本事件总数及所求事件所含基本事件的个数利用概率公式求事件的概率反思回顾、检查关键点易错点及答题规范一、选择题(本大题共6小题,每小题5分,共30分) 1.下列关系中,是相关关系的为( ) ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A .①② B .①③ C .②③D .②④解析:选A ①中学生的学习态度与学习成绩之间不是因果关系,但具有相关性是相关关系.②教师的执教水平与学生的学习成绩之间的关系是相关关系.③④都不具备相关关系.2.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x+1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1解析:选D 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.3.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程为( )A.y ^=1.23x +4 B.y ^=1.23x +5 C.y ^=1.23x +0.08D.y ^=0.08x +1.23解析:选C 因回归直线方程必过样本点的中心(x ,y ),将点(4,5)代入A 、B 、C 检验可知.4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x (cm) 174 176 176 176 178 儿子身高y (cm)175175176177177则y 对x 的线性回归方程为( ) A .y =x -1 B .y =x +1 C .y =88+12xD .y =176 解析:选C 设y 对x 的线性回归方程为y =bx +a ,因为b =-2×-1+0×-1+0×0+0×1+2×1-22+22=12, a =176-12×176=88,所以y 对x 的线性回归方程为y =12x +88.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58 总计8880168A .99%B .97.5%C .95%D .90%解析:选A 可计算K 2≈11.377>6.635.6.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线203050总计60 50 110由K 2=n ad -bc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:选A ∵K 2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.二、填空题(本大题共3小题,每小题5分,共15分)7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2458.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.解析:平均命中率y =15×(0.4+0.5+0.6+0.6+0.4)=0.5;而x =3, i =15(x i -x )(y i -y )=(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,∑i =15(x i-x )2=(-2)2+(-1)2+02+12+22=10,于是b ^=0.01,a ^=y -b ^x =0.47,故y ^=0.01x+0.47,令x =6,得y ^=0.53.答案:0.5 0.539.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2=50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%三、解答题(本大题共3小题,每小题12分,共36分) 10.已知x ,y 的一组数据如下表:x 1 3 6 7 8 y12345(1)从x ,y (2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +12,试利用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =925.(2)用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=⎝ ⎛⎭⎪⎫43-12+(2-2)2+(3-3)2+⎝ ⎛⎭⎪⎫103-42+⎝ ⎛⎭⎪⎫113-52=73.用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2-2)2+⎝ ⎛⎭⎪⎫72-32+(4-4)2+⎝ ⎛⎭⎪⎫92-52=12.∵S 2<S 1,∴直线y =12x +12的拟合程度更好.11.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.数学 88 83 117 92 108 100 112 物理949110896104101106(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.(其中,数据(x i ,y i )(i =1,2,…,n )的线性回归方程为y ^=b ^x +a ^,b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2,a ^=y --b ^x -)解:(1)∵x -=100+-12-17+17-8+8+127=100,y -=100+-6-9+8-4+4+1+67=100,∴s 2数学=9947=142.∴s 2物理=2507,∵s 2数学>s 2物理,∴该生的物理成绩更稳定. (2)由于x 与y 之间具有线性相关关系,∴b ^=i =17x i y i -7x - y-i =17x 2i -7x -2=497994=0.5, a ^=y --b ^x -=100-0.5×100=50.∴线性回归方程为y ^=0.5x +50.当y =115时,x =130. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,这将有助于物理成绩的进一步提高. 12.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.优秀 非优秀 总计 甲班 10乙班 30合计105已知从全部105人中随机抽取1人为优秀的概率为27.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”; (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.附:K 2=n ad -bc 2a +bc +d a +cb +d,P (K 2≥k )0.05 0.01 k3.8416.635解:(1)优秀 非优秀 总计 甲班 10 45 55 乙班 20 30 50 合计3075105(2)根据列联表中的数据,得到 K 2=105×10×30-20×45255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,∴P (A )=836=29.1.观察下列各图形:其中两个变量x、y具有相关关系的图是( )A.①②B.①④C.③④D.②③解析:选C 相关关系有两种情况:所有点看上去都在一条直线附近波动,是线性相关;若所有点看上去都在某条曲线(不是一条直线)附近波动,是非线性相关.①②是不相关的,而③④是相关的.2.考察黄烟经过培养液处理是否跟发生青花病有关系.调查了457株黄烟,得到下表中数据:培养液处理未处理合计青花病25210235无青花病80142222合计105352457根据表中数据可知K2=( )A.40.682 B.31.64C.45.331 D.41.61解析:选D 代入K2公式得K2≈41.61.3.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号1234 5工作年限x/年35679推销金额y/万元2334 5(1)以工作年限为自变量x,推销金额为因变量y,作出散点图;(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.解:(1)依题意,画出散点图如图所示,(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为y ^=b ^x +a ^.则b ^=∑i =15x i -xy i -y-∑i =15x i -x2=1020=0.5,a ^=y -b ^x -=0.4, ∴年推销金额y 关于工作年限x 的线性回归方程为 y ^=0.5x +0.4.(3)由(2)可知,当x =11时, y ^=0.5x +0.4=0.5×11+0.4=5.9(万元).∴可以估计第6名推销员的年推销金额为5.9万元.4.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:杂质高 杂质低 旧设备 37 121 新设备22202根据以上数据试判断含杂质的高低与设备改造有无关系? 解:由已知数据得到如下2×2列联表:杂质高 杂质低 合计 旧设备 37 121 158 新设备 22 202 224 合计59323382由公式K 2=382×37×202-121×222158×224×59×323≈13.11,由于13.11>10.828,故有99.9%的把握认为含杂质的高低与设备改造是有关的.附:什么样的考试心态最好大部分学生都不敢掉以轻心,因此会出现很多过度焦虑。
第 3 讲变量间的相关关系、统计案例、知识梳理1 •变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2. 两个变量的线性相关(1) 从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2) 从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. _______n ______^x i y i —nx y A A—AAA A i(3) 回归方程为y= bx+ a,其中b=—n , a= y —b x •i皆 x 2—n x 2(4) 相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越弓—r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.3. 独立性检验(1) 2X 2列联表:假设有两个分类变量X和Y,它们的取值分别为{x i, x2}和{y i, y2},其样本频数列联表(称2 X 2列联表)为:⑵K2统计量n (ad —be) 2 K =(a + b)( e+ d)( a+ e)( b+ d)(其中n= a+ b+ e+ d为样本容量).常用结论1. 求解回归方程的关键是确定回归系数a, b,应充分利用回归直线过样本中心点(—,y).2.根据K 2的值可以判断两个分类变量有关的可信程度 ,若K 2越大,则两分类变量有 关的把握越大.3.根据回归方程计算的y 值,仅是一个预报值,不是真实发生的值.二、习题改编 1.(必修3P90例题改编)已知x 与y 之间的一组数据如表:x 0 1 2 3 ym35.57已求得y 关于x 的线性回归方程为y = 2.1x + 0.85,则m 的值为 ____________ 答案:0.5 2.(选修1-2P16习题1.2T2改编)为了判断高中三年级学生是否选修文科与性别的关系, 现随机抽取50名学生,得到如下 2 X 2列联表:理科文科 男 13 10 女720已知 P(K 2> 3.841) ~ 0.05, P(K 2> 5.024) ~ 0.025.根据表中数据,得到 K 2的观测值解析:K 2的观测值k ~ 4.844>3.841,这表明小概率事件发生. 根据假设检验的基本原理应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%50 X( 13X 20— 10X 7) 23X 27X 20X 302-〜4.844.则认为选修文科与性别有关系出错的可能性一、思考辨析判断正误(正确的打“V”,错误的打“X”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )(4)事件X,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( )(5)通过回归方程y= bx+a可以估计和观测变量的取值和变化趋势.()答案:(1)X (2)V (3)V (4)V(5)V二、易错纠偏常见误区(1)混淆相关关系与函数关系;(2) 对独立性检验K2值的意义不清楚;(3) 不知道回归直线必过样本点中心.1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A .①②③B.②③①C.②①③D.①③②解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②•2•某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2X 2列联表进行独立性检验,经计算K2= 7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.()附:A. 0.1%B. 1%C. 99%D. 99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1—0.010 =0.99 = 99%的把握认为“学生性别与支持该活动有关系”.3. 已知x, y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为y= 0.95xA A+ a,贝U a = ______ .解析:由已知得乂 = 2, y = 4.5,因为回归方程经过点& , y ),所以a = 4.5 —0.95X 2=2.6.答案:2.6相关关系的判断(师生共研)已知变量x和y满足关系y=—0.1x + 1,变量y 与z 正相关.下列结论中正确的是( )A . x与y正相关,x与z负相关B. x与y正相关,x与z正相关C. x与y负相关,x与z负相关D. x与y负相关,x与z正相关【解析】因为y=—0.1x+ 1的斜率小于0,故x与y负相关•因为y与z正相关,可A A A A A 八八八丄j —宀丄乂设z= by+ a, b>0,贝y z= by+ a =—O.lbx + b + a,故x 与z 负相关.【答案】C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0 时,正相关;r<0 时,负相关.⑶线性回归方程中:b>0时,正相关;b<0时,负相关.1.对变量x, y有观测数据(x i, y i)(i= 1, 2,…,10),得散点图如图①,对变量u, v 有观测数据(u i, v i)(i = 1, 2,…,10),得散点图如图②•由这两个散点图可以判断()A .变量x 与y 正相关,u 与v 正相关B .变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关 D •变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.对变量x, y有观测数据(x i, y i)(i = 1, 2, 3, 4, 5),得表1 ;对变量u, v有观测数据(U i, v i)(i = 1, 2, 3, 4, 5),得表2•由这两个表可以判断()表1 :A.变量x与y正相关,u与v正相关B .变量x与y负相关,u与v正相关C.变量x与y负相关,u与v负相关D .变量x与y正相关,u与v负相关解析:选D.由题可知,随着x的增大,对应的y值增大,其散点图呈上升趋势,故x 与y正相关;随着u的增大,v减小,其散点图呈下降趋势,故u与v负相关.线性回归方程及其应用(师生共研)(2020福州市第一学期抽测)随着我国中医学的发展,药用昆虫的使用相应愈来愈多. 每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫•已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:C )有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日15日和22日这3组的数据,求出y关于x的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?n _ _A 附:回归直线的斜率和截距的最小二乘估计公式分别为苕(X i—X )( y i- y ) A b = n —, a =苕(X i —X ) 2y ― b x .3 —— 3 ———【解】(1)由已知数据得亍=12, 了= 27,其1 (x i—x)(y i —y ) = 5,若1(x i —x)2=2.3反映样本数据的相关程度,|r|越大,则相关性越强.A i = 1所以b =(x i — x ) ( y i — y )3 i t1(xi — x ) 2A — 5— 5a = 7 — |x = 27 — |x 12= — 3. 5 所以y 关于x的线性回归方程为y = 2x — 3.A5(2)由(1)知,y 关于x 的线性回归方程为y = -x — 3. A 5当 x = 10 时,y = 2 X 10— 3 = 22, |22— 23|<2, A5当 x = 8 时,y = |X 8 — 3 = 17, |17— 16|<2.A5所以(1)中所得的线性回归方程 y = |x — 3是可靠的.线性回归分析问题的类型及解题方法(1)求线性回归方程①利用公式,求出回归系数b , a ;②待定系数法:利用回归直线过样本点的中心求系数. (2)样本数据的相关系数n1 •对两个变量x, y进行线性回归分析,计算得到相关系数r =- 0.996 2,则下列说法中正确的是()A • x与y正相关B • x与y具有较强的线性相关关系C. x与y几乎不具有线性相关关系D. x与y的线性相关关系还需进一步确定解析:选B.因为相关系数r =- 0.996 2,所以x与y负相关,因为|r|= 0.996 2,非常接近1,所以相关性很强,故选B.2. (2020成都第一次诊断性检测)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码. 为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:(1)已知销售单价y与等级代码数值x之间存在线性相关关系,求y关于x的线性回归方程(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(X1 , y1),(X2, y2),…,(x n, y n),其回归直线y= bx+ a的斜率n_ _Xx i y i — n xy 人 _ A _ 和截距的最小二乘估计分别为b = n — , a = y — b x .g x i 2— n x 26 6参考数据:斗=侧=8 440, g 1x 2= 25 564.8 440 — 6 X 63 X 21.5~ 0.2,25 564 — 6 X 63 X 63a = y —b x = 21.5— 0.2 X 63= 8.9.故所求线性回归方程为 y = 0.2x + 8.9.⑵由(1),知当 x = 98 时,y = 0.2X 98 + 8.9= 28.5. 所以估计该等级的中国小龙虾销售单价为28.5元.38 + 48 + 58 + 68 + 78 + 88解:(1)由题意,得x = =63,16.8+ 18.8 + 20.8+ 22.8+ 24 + 25.8=21.5,独立性检验(师生共研)(2019高考全国卷I )某商场为提高服 务质量,随机调查了 50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满 意的评价,得到下面列联表:(1)分别估计男、女顾客对该商场服务满意的概率; (2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2= n (ad — be ) (a + b ) (c + d )( a + e )( b + d ) 【解】(1)由调查数据知,男顾客中对该商场服务满意的比率为 詐0.8,因此男顾客 对该商场服务满意的概率的估计值为 0.8. 女顾客中对该商场服务满意的比率为 30 沪0.6,因此女顾客对该商场服务满意的概率的 估计值为06 ⑵K 2= 100 X (40X 20— 30X 10) 50 X 50 X 70 X 302=4.762. 由于4.762>3.841 ,故有95%的把握认为男、女顾客对该商场服务的评价有差异.⑴独立性检验的一般步骤①根据样本数据制成2X2列联表;②根据公式c n (ad —be) 2oK2= 计算K2的值;(a+ b)( c+ d) ( a + e)( b+ d)③查表比较K2与临界值的大小关系,作出统计判断.⑵解独立性检验的应用问题的关注点①两个明确:(i )明确两类主体;(ii )明确研究的两个问题;②两个准确:(i )准确画出2 X 2列联表;(i )准确理解K2.(2020长沙市统一模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生。
第3讲 变量相关关系与统计案例基础知识整合1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非01确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为02正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为03负相关.2.回归方程与回归分析 (1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在04一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程①最小二乘法:求回归直线使得样本数据的点到回归直线的05距离的平方和最小的方法叫做最小二乘法.②回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定数.(3)回归分析06相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心:在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,x -=1n(x 1+…+x n ),y -=1n(y 1+…+y n ),a ^=y --b ^x -,(x -,y -)称为样本点的中心.③相关系数,当r>0时,两变量07正相关;当r<0时,两变量08负相关;当|r|≤1且|r|越接近于1,相关程度09越强;当|r|≤1且|r|越接近于0,相关程度10越弱.3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”表示个体所属的11不同类别的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d(2)独立性检验利用随机变量 (其中n=a+b+c +d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:P(K2≥k0.50.400.250.150.100.050.0250.0100.0050.0010)k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828 00就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内; 负相关:样本点分布在从左上角到右下角的区域内.3.回归直线y ^=b ^x +a ^必过样本点的中心.1.下面是一个2×2列联表:y 1 y 2总计 x 1 a21 73 x 22225 47 合计b46120A .94 72B .52 50C .52 74D .74 52答案 C解析 由a +21=73,得a =52,a +22=b ,得b =74.故选C.2.(2019·湖南衡阳联考)甲、乙、丙、丁四位同学各自对A ,B 两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r 与残差平方和m ,如下表:甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m106115124103A .甲B .乙C .丙D .丁答案 D解析 r 越大,m 越小,线性相关性越强,故选D.3.(2019·湖北荆州模拟)已知相关变量x 和y 满足关系y =-0.1x +1,相关变量y 与z 负相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关答案 D解析 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 负相关,可设z=b ^y +a ^,b ^<0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 正相关.4.通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表.参照附表,能得到的正确结论是( )男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”附:,n =a +b +c +d .P (K 2≥k 0)0.05 0.010 0.001 k 03.8416.63510.828解析 由列联表中的数据可得≈7.822>6.635,故有99%以上的把握认为“爱好该项运动与性别有关”.故选A.5.(2020·山西太原摸底)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预测广告费用为6万元时销售额约为________万元.答案 65.5 解析 由表可计算 x -=4+2+3+54=3.5,y -=49+26+39+544=42,因为点(3.5,42)在回归直线y ^=b ^x +a ^上,且b ^=9.4,所以42=9.4×3.5+a ^,解得a ^=9.1.故回归方程为y ^=9.4x +9.1.令x =6,得y ^=65.5. 故预测广告费用为6万元时销售额约为65.5万元.核心考向突破考向一 两个变量的相关性 角度1 相关关系的判断例 1 为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=b ^x +a ^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案 B解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.角度2 相关系数的意义例 2 (2019·广西联考)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x 年与年销售量y (单位:万件)之间的关系如表:x 1 2 3 4 y12284256(1)在图中画出表中数据的散点图;(2)根据(1)中的散点图拟合y 与x 的回归模型,并用相关系数加以说明; (3)建立y 关于x 的回归方程,预测第5年的销售量约为多少?参考数据:,5≈2.24,∑4i =1x i y i =418. 参考公式:相关系数,回归方程y=a +bx 的斜率和截距的最小二乘估计分别为解 (1)作出散点图如图:(2)由(1)中的散点图可知,各点大致分布在一条直线附近,由题中所给表格及参考数据,得∵y 与x 的相关系数近似为0.9966,说明y 与x 的线性相关程度相当强, ∴可以用线性回归模型拟合y 与x 的关系.(3)由(2),知x -=52,y -=692,∑4i =1x i y i =418,∑4i =1x 2i =30,∴b ^=∑4i =1x i y i -4x -y -∑4i =1x 2i -4x -2=735,a ^=y --b ^x -=692-735×52=-2.故y 关于x 的回归直线方程为y ^=735x -2, 当x =5时,y ^=735×5-2=71, ∴预测第5年的销售量约为71万件.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1相关性越强.[即时训练] 1.(2020·贵阳摸底)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.2.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸10.269.9110.1310.029.2210.0410.059.95(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x --3s ,x -+3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x --3s ,x -+3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数参考数据:0.008≈0.09.解(1)由样本数据,得(x i,i)(i=1,2,…,16)的相关系数≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x-=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.i=116x2i≈16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.考向二回归分析例3 (2019·昆明模拟)某县畜牧技术员张三和李四9年来一直对该县山羊养殖业的规模进行着跟踪调查,张三提供了该县某山羊养殖场年养殖数量y(单位:万只)与相应年份x(序号)的数据表和散点图(如图所示),根据散点图,发现y与x有较强的线性相关关系,李四提供了该县山羊养殖场的个数z(单位:个)关于x的回归方程z^=-2x+30.年份序号x 1 2 3 4 5 6 7 8 9 年养殖山羊y /万只1.21.51.61.61.82.52.52.62.7(1)根据表中的数据和所给统计量,求y 关于x 的线性回归方程; (2)试估计:①该县第一年养殖山羊多少万只?②到第几年,该县养殖山羊的数量与第1年相比减少了? 参考统计量:∑9i =1 (x i -x -)2=60,∑9i =1(x i -x -)(y i -y -)=12. 附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =βu +α的斜率和截距的最小二乘估计分别为.解 (1)设y 关于x 的线性回归方程为y ^=b ^x +a ^, 因为x -=1+2+3+4+5+6+7+8+99=5,y -=1.2+1.5+1.6+1.6+1.8+2.5+2.5+2.6+2.79=2,=2-0.2×5=1.所以y 关于x 的线性回归方程为y ^=0.2x +1.(2)①估计第x 年山羊养殖的只数为z ^·y ^=(0.2x +1)·(-2x +30)=-0.4x 2+4x +30. 令x =1,则-0.4+4+30=33.6,故该县第一年养殖山羊约33.6万只. ②由题意,得-0.4x 2+4x +30<33.6,整理得 (x -9)(x -1)>0,解得x >9或x <1(舍去),所以到第10年该县养殖山羊的数量与第1年相比减少了.(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(4)对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.[即时训练] 3.(2019·河南洛阳模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:年龄x20 30 40 50 周均学习成语知识时间y2.5344.5根据表中数据,试求线性回归方程y =b x +a ,并预测年龄为60岁的观众周均学习成语知识的时间.参考公式:b ^=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -. 解 (1)设被污损的数字为a ,则a 有10种情况. 由88+89+90+91+92>83+83+87+90+a +99,得a <8,∴有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数,所求概率为810=45.(2)由表中数据,计算得x -=35,y -=3.5,b ^=∑i =14x i y i -4x -y-∑i =14x 2i -4x -2=525-4×35×3.55400-4×352=7100, a ^=y --b ^ x -=3.5-7100×35=2120.∴y ^=7100x +2120.当x =60时,y ^=5.25.即预测年龄为60岁的观众周均学习成语知识的时间为5.25小时. 考向三 独立性检验例4 (1)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有效果的图形是( )答案 D解析 在频率等高条形图中,aa +b 与cc +d相差很大时,我们认为两个分类变量有关系,在四个选项中(等高的条形图)中,选项D 中不服药样本中患病的频率与服药样本中患病的频率相差最大,故选D.(2)(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020①分别估计男、女顾客对该商场服务满意的概率;②能否有95%的把握认为男、女顾客对该商场服务的评价有差异?P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828解 ①由调查数据,得男顾客中对该商场服务满意的比率为50=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.1.比较几个分类变量有关联的可能性大小的方法(1)通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (3)通过计算aa +b 与cc +d的大小判断:相差越大,两变量有关联的可能性越大.2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式计算K2的观测值k.(3)比较k与临界值的大小关系,作统计推断.[即时训练] 4.(2020·南阳市一中第一次目标考试)为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图.根据图中信息,在下列各项中,说法最佳的一项是( )A.药物B的预防效果优于药物A的预防效果B.药物A的预防效果优于药物B的预防效果C.药物A,B对该疾病均有显著的预防效果D.药物A,B对该疾病均没有预防效果答案 B解析由题图可得服用药物A的患病数量少于服用药物B的患病数量,而服用药物A的未患病数量多于服用药物B的未患病数量,所以药物A的预防效果优于药物B的预防效果.故选B.5.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式,P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间超过80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间不超过79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,且关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,且关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)(2)由茎叶图,知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 155 第二种生产方式515(3)由于K 2的观测值k ==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)(y i -y -)∑8i =1(w i -w -)(y i -y -) 46.6 563 6.8289.81.61469108.8表中w i =x i ,w -=8∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 u i -u-v i -v-∑ni =1u i -u-2,α^=v --β^ u -.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程. 由于d ^=∑8i =1w i -w -y i -y -∑8i =1w i -w -2=108.81.6=68, c ^=y --d ^ w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 答题启示利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为:(1)将表中的各对数据在平面直角坐标系中描点,得到散点图;(2)按求回归方程的步骤和公式,写出回归方程;(3)利用回归方程进行分析,分析中注意函数思想的应用.对点训练(2019·湖南株洲模拟)某大学生利用寒假参加社会实践,对机械销售公司7月份至12月份销售某种机械配件的销售量及销售单价进行了调查,销售单价x 和销售量y 之间的一组数据如下表所示:月份i 7 8 9 10 11 12 销售单价x i (元) 9 9.5 10 10.5 11 8 销售量y i (件)111086514(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过0.5,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?(3)预计在今后的销售中,销售量与销售单价仍然服从(1)中的关系,若该种机器配件的成本是2.5元/件,那么该配件的销售单价应定为多少元才能获得最大利润?(注:利润=销售收入-成本)参考公式:回归直线方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2,参考数据:∑5i =1x i y i =392,∑5i =1x 2i =502.5.解 (1)∵x -=15×(9+9.5+10+10.5+11)=10,y -=15×(11+10+8+6+5)=8,∴b ^=392-5×10×8502.5-5×102=-3.2,则a ^=8-(-3.2)×10=40,∴y 关于x 的回归直线方程为y ^=-3.2x +40.(2)当x =8时,y ^=-3.2×8+40=14.4,则|y ^-y |=14.4-14=0.4<0.5,∴可以认为所得到的回归直线方程是理想的. (3)令销售利润为W ,则W =(x -2.5)(-3.2x +40)=-3.2x 2+48x -100(2.5<x <12.5), ∴当x =483.2×2=7.5时,W 取得最大值.∴该产品的销售单价定为7.5元时,获得的利润最大.。
2021年高考数学一轮复习第十章统计与统计案例第三节变量间的相关关系统计案例课后作业理一、选择题1.①正相关,②负相关,③不相关,则下列散点图分别反映的变量间的相关关系是( )A .①②③B .②③①C .②①③D .①③②2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B.②③ C.③④ D.①④3.(xx·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元4.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r35.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%二、填空题6.(xx·忻州联考)已知x ,y 的取值如下表:x 2 3 4 5 y2.23.85.56.5从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ^,则实数a ^的值为________.7.(xx·济南模拟)经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.8.某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如下表所示的2×2列联表(单位:人):月收入2 000元以下 月收入2 000元及以上 总计高中文化以上 10 45 55 高中文化及以下20 30 50 总计3075105关系”.附:K 2=n ad -bc 2a +bc +d a +cb +dP (K 2>k 0) 0.150.100.050.025 0.01 0.001k 02.072 2.7063.841 5.024 6.635 10.8289.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y ^对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.10.有甲乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.优秀 非优秀总计甲班 10乙班 30总计105已知在全部105人中随机抽取1人为优秀的概率为7.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”?参考公式:K 2=n ad -bc 2a +bc +d a +cb +dP (K 2≥k 0)0.100.05 0.025 0.010k 02.7063.841 5.024 6.635[冲击名校]1.某大学体育部为了解新生的身高与地域是否有关,在全校一年级学生中进行了抽样调查,调查结果如下表所示:不低于170 cm低于170 cm总计 北方学生 60 20 80 南方学生 10 10 20 总计7030100A .有95%的把握认为“学生的身高是否超过170 cm 与地域有关”B .没有90%的把握认为“学生的身高是否超过170 cm 与地域有关”C .有97.5%的把握认为“学生的身高是否超过170 cm 与地域有关”D .没有95%的把握认为“学生的身高是否超过170 cm 与地域有关”附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d ,P (K 2≥k 0)0.250.150.10 0.05 0.025k 01.3232.072 2.7063.841 5.0242)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…y 8)=6,则实数a ^的值是( )A.116B.18C.14D.124.某炼钢厂废品率x (%)与成本y (元/吨)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品.5.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元),有如下表的统计资料:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?答 案 [全盘巩固]一、选择题1. 解析:选D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2. 解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.3. 解析:选B ∵x =10.0,y =8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^=0.76x +0.4,把x =15代入上式得,y ^=0.76×15+0.4=11.8(万元).4. 解析:选A 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.5. 解析:选B 由图易知人体脂肪含量与年龄正相关且脂肪含量的中位数小于20%. 二、填空题6. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617. 解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2458. 解析:由表中的数据可得K 2=105×10×30-20×45255×50×30×75≈6.109,由于6.109>5.024,所以我们有97.5%以上的把握认为“文化程度与月收入有关系”.答案:97.5%三、解答题9. 解:(1)由题意知n =10,x =1n ∑i =1nx i =8010=8, y =1n ∑i =1ny i =2010=2, 又∑i =1nx 2i -n x 2=720-10×82=80,∑i =1nx i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4,故所求线性回归方程为y ^=0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b ^=0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元). 10. 解:(1)总计30 75 105(2)根据列联表中的数据,得到 K 2=105×10×30-20×45255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.[冲击名校]1. 解析:选A 将2×2列联表中的数据代入公式计算,得K 2=100×60×10-20×10270×30×80×20=10021≈4.762,由于4.762>3.841,所以有95%的把握认为“学生的身高是否超过170 cm 与地域有关”.2. 解析:选D ∵y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,∴可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.3. 解析:选B 依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.4. 解析:因为176.5=105.492+42.569x ,解得x ≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品.答案:16.68 5. 解:(1)列表i 1 2 3 4 5 总计b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=112.3-5×4×590-5×42=1.23,于是a ^=y -b ^x =5-1.23×4=0.08. 所以线性回归直线方程为y ^=1.23x +0.08.(2)当x =12时,y ^=1.23×12+0.08=14.84(万元),即估计使用12年时,维修费用是14.84万元.。