回归分析与独立性检验综合练习
- 格式:doc
- 大小:424.95 KB
- 文档页数:4
回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
限时作业 回归分析及独立性检验一、选择题1.观测两相关变量得如下数据:则下列选项中最佳的回归方程为( )A.121+=x y B.y =x C.312+=x y D.y =2x+1解析:对表格中的数据进行适当的近似处理,分别代入选项中进行检验,每组数据都相差不多的直线模型为最佳回归方程.仔细观察可以发现,表格的每组数据的x 和y 都近似相等,所以回归方程为y =x. 答案:B2.下列两个变量之间是相关关系的是( )解析:相关关系不是确定的函数关系,这里A 、B 、C 都是确定的函数关系. 答案:D3.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( ):男性喜欢参加体育活动 0:女性不喜欢参加体育活动 0:喜欢参加体育活动与性别有关 0:喜欢参加体育活动与性别无关解析:独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的K 2应该很小,如果K 2很大,则可以否定假设,如果K 2很小,则不能够肯定或者否定假设. 答案:D4.已知一组观测值具有线性相关关系,若对于yˆ=a x b ˆˆ+,求得b ˆ=0.51,x =61.75,y=38.14,则线性回归方程为( )A.yˆ=0.51x+6.65 B.y ˆ C.yˆ=0.51x+42.30 D.y ˆ 解析:x by a ˆ-==38.14-0.51×61.75=42.30. 答案:C5.下面关于卡方说法正确的是( )2在任何相互独立的问题中都可以用于检验有关还是无关 2的值越大,两个事件的相关性就越大2是用来判断两个分类变量是否相关的随机变量,当K 2的值很小时可以推定两类变量不相关 2的观测值的计算公式是))()()(()(2d b c a d c b a bc ad n K ++++-=解析:K 2只适用于2×2型列联表问题,且K 22公式错误,分子上少了平方. 答案:B 二、填空题6.根据下表,K 2≈_____________.(保留两位小数)解析:把列联表的行和列的合计补充完整,可利用公式))()()(()(22d b c a d c b a bc ad n K ++++-=直接计算. 答案: 7.下列命题:①用相关系数r 来刻画回归的效果时,r 的值越大,说明模型拟合的效果越好;②对分类变量X 与Y 的随机变量的K 2观测值来说,K 2越小,“X 与Y 有关系”可信程度越大; ③两个随机变量相关性越强,则相关系数的绝对值越接近1; 其中正确命题的序号是______________.(写出所有正确命题的序号)解析:正确的是③,①是由于r可能是负值,②中K2越大,“X与Y有关系”可信程度越大. 答案:③三、解答题8.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得到如下表所示的一组数据(单位:kg).施化肥量15202530354045 x水稻产量330345365405445450455 y(1)画出散点图;(2)求y关于x的线性回归方程;(3)若施化肥量为38 kg,其他情况不变,请预测水稻的产量.解:(1)根据题表中数据可得散点图如下:(2)根据回归直线方程系数的公式计算可得回归直线方程是yˆ=4.75x+257.(3)把x=38代入回归直线方程得y=438,所以,可以预测,施化肥量为38 kg,其他情况不变时,水稻的产量是438 kg.9.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:不太主动参加班级工积极参加班级工作合计作学习积极性高18725学习积极性一般61925 合计242650(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法点拨:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由.(参考下表)解:(1)积极参加班级工作的学生有24人,总人数为50人,概率为2550=; 不太主动参加班级工作且学习积极性一般的学生有19人,概率为5019.(2)5.111315026242524)761918(5022≈=⨯⨯⨯⨯-⨯⨯=K , ∵K 2>6.635,∴有99%的把握说学习积极性与对待班级工作的态度有关系.10.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =a x bˆˆ+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解:(1)由题设所给数据,可得散点图如图.(2)由对照数据,计算得86412=∑=i ix,5.446543=+++=x ,5.345.4435.2=+++=y ,已知∑==415.66i ii yx ,所以,由最小二乘法确定的回归方程的系数为7.05.44865.35.445.6644ˆ2412241=⨯-⨯⨯-=-•-=∑∑==i i i i i xx yx yx b,x b y a ˆˆ-==3.5-0.7×4.5=0.35, 因此,所求的回归方程为y =0.7x+0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).11.对某校学生进行心理障碍测试得到如下列联表:焦 虑 说 谎 懒 惰 合 计 女 生 5 10 15 30 男 生 20 10 50 80 合 计252065110试说明在这三种心理障碍中哪一种与性别关系最大? 解:由题设表格可得三个新的表格如下: 关于是否得到焦虑的结论:关于是否说谎的结论:关于是否懒惰的结论:对于三种心理障碍分别构造三个随机变量K 12、K 22、K 32,由表中数据可得63.885258030)2025605(110221≈⨯⨯⨯⨯-⨯=K ,366.690208030)10207010(110222≈⨯⨯⨯⨯-⨯=K ,410.145658030)50153015(110223≈⨯⨯⨯⨯-⨯=K .所以有99.5%的把握认为焦虑与性别有关,有99%的把握认为说谎与性别有关,没有充分的证据表明懒惰与性别有关.这说明在这三种心理障碍中焦虑与性别关系最大.。
线性回归方程与独立性检测综合训练题一1.某地区恩格尔系数y(%)与年份x 的统计数据如下表:年份x2004 2005 2006 2007 恩格尔系数y(%)4745.543.541从散点图可以看出y 与x 线性相关,且可得回归方程为y ∧=bx +4 055.25,据此模型可预测2012年该地区的恩格尔系数(%)为________.2,样本容量为1 000的频率分布直方图如图所示.根据样本的频率分布直方图,计算x 的值为________,样本数据落在[6,14)内的频数为________.3题图3某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.) (1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯; (2)根据以上数据完成如表所示的2×2列联表;主食蔬菜主食肉类 合计 50岁以下 50岁以上 合计(3)能否有99%的把握认为“其亲属的饮食习惯与年龄有关”?并写出简要分析. 附:K2=n ad -bc 2a +bc +d a +c b +dP(K2≥k0)0.250.150.100.050.0240.0100.0050.001 k0 1.323 2.072 2.706 3.841 5.024 6.635 7.87910.8284下表是关于某设备的使用年限(年)和所需要的维修费用(万元)的几组统计数据:x 2 3 4 5 6 y2.23.85.56.57.0(1)若y 对x 呈线性相关关系,求出y 关于x 的线性回归方程y =bˆx +a ˆ; (2)估计使用年限为10年时,维修费用为多少?(2)当x =10时,y =1.23×10+0.08=12.38,所以估计当使用10年时,维修费用约为12.38万元.【变式训练1】某工厂经过技术改造后,生产某种产品的产量(吨)与相应的生产能耗(吨标准煤)有如下几组样本数据.x 3 4 5 6 y2.5344.5据相关性检验,y 与x 具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7,那么y 关于x 的回归直线方程是 .,5,研究小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:种子灭菌 种子未灭菌合计 黑穗病 26 184 210 无黑穗病 50 200 250 合计76384460试按照原试验目的作统计分析推断.【变式训练2】(2010东北三省三校模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,可以有 %的把握认 为该学校15至16周岁的男生的身高和体重之间有关系.超重 不超重 合计 偏高 4 1 5 不偏高 3 12 15 合计71320P (K 2≥k 0)0.025 0.010 0.005 0.001 k 05.0246.6357.87910.828(独立性检验随机变量K 2值的计算公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ))6.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由2222()110(40302030)7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得, 附表:2()P K k ≥ 0.050 0.010 0.001k 3.841 6.635 10.828A . 参照附表,得到的正确结论是( )A 有99%以上的把握认为“爱好该项运动与性别有关”B . 有99%以上的把握认为“爱好该项运动与性别无关”C . 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D . 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 7某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为( ) (A)63.6万元 (B)65.5万元 (C)67.7万元 (D)72.0万元 8,某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004 2006 2008 2010 需求量(万吨) 236246257276286(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程y bx a =+; (Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2012年的粮食需求量。
高考真题——回归分析和独立性检验副标题一、选择题(本大题共9小题,共45.0分)1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2=附表:列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4成绩视力 C. 智商 D. 阅读量3.下列两个变量中具有相关关系的是()A. 正方形的面积与边长B. 匀速行驶的车辆的行驶距离与时间C. 人的身高与体重D. 人的身高与视力4.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程=x+必过(,);④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;⑤在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是()A. 0B. 1C. 2D. 35.某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:绘出散点图如下:根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.其中正确的个数为A. 0B. 3C. 2D. 16.有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K2=据此表,可得()A. 认为机动车驾驶技术与性别有关的可靠性不足B. 认为机动车驾驶技术与性别有关的可靠性超过C. 认为机动车驾驶技术与性别有关的可靠性不足D. 认为机动车驾驶技术与性别有关的可靠性超过7.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则()A. B. C. D.8.由K2=得K2=≈8.333>7.879A. 有以上的把握认为“爱好该项运动与性别有关”B. 有以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”9.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是()A. ①③B. ②④C. ②⑤D. ④⑤二、填空题(本大题共1小题,共5.0分)10.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生。
回归分析与独立性检验综合训练回归分析: 热身练习1. 在画两个变量的散点图时,下面哪个叙述是正确的( )(A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上 2. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右.3. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( )A.模型1的相关指数2R 为0.98 B.模型2的相关指数2R 为0.80 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.254. 若有一组数据的总偏差平方和为100,相关指数为0.5,则期残差平方和为_______ 回归平方和为____________5.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090yx =+,下列判断正确的是() A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90 独立性检验: 热身练习1.下面是一个2×2列联表:则表中a 、b 处的值分别为( )A .94、96B .52、50C .52、60D .54、52 2.下列关于等高条形图的叙述正确的是( ).A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对3.关于分类变量x 与y 的随机变量K 2的观测值k ,下列说法正确的是( ).A .k 的值越大,“X 和Y 有关系”可信程度越小B .k 的值越小,“X 和Y 有关系”可信程度越小C .k 的值越接近于0,“X 和Y 无关”程度越小D .k 的值越大,“X 和Y 无关”程度越大 4.若由一个2×2列联表中的数据计算得k =4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到k =50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.6.第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招幕了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:喜爱运动 不喜爱运动 总计 男 10 16 女 614 总计30(2) 基础练习1.下列变量间的关系,不是函数关系的是( ) A .角度和它的余弦值 B .正方形的边长和面积C .正多边形的边数和顶点的角度之和D .人的年龄和身高2. “回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他提出的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆya bx =+中,b ( )A .在(-1,0)内B .等于0C .在(0,1)内D .在[1,)+∞内 3.已知回归直线斜率的估计值为1.23,样本的中心点为(4,5),则回归直线方程为( )A .ˆ 1.234yx =+ B .ˆ 1.235y x =+ C .ˆ 1.230.08y x =+ D .ˆ0.08 1.23y x =+ 4.对于回归直线方程ˆ 4.67 2.85yx =+,当21x =时,y 的估计值为 5.一所大学图书馆有6台复印机供学生使用管理人员发现,每台机器的维修费用与其使用的时间有一定的关系,根据去年一年的记录,得到每周使用时间(单位:小时)与年维修费用(单位:元)的数据如下:时间 33 21 31 37 46 42 费用 16 14 25 29 38 34则使用时间与维修费用之间的相关系数为6.某种产品的广告支出与销售额(单位:百万元)之间有如下的对应关系x 2 4 5 6 8 y3040605070(1)假定x 与y 之间具有线性相关关系,求回归直线方程.(2)若实际销售额不少于60百万元,则广告支出应该不少于多少?7.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:32.5435464.566.5⨯+⨯+⨯+⨯=) 8.下表为收集到的一组数据:(1)作出x 与y 的散点图,猜测(2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.综合练习:一、选择题1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) Ay ∧=1.23x +4 By ∧=1.23x+5 C y ∧=1.23x+0.08 D y ∧=0.08x+1.232.回归分析中,相关指数R 2的值越大,说明残差平方和( )A 越小B 越大C 可能大也可能小D 以上都不对3.为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人计算知x 相同,y 也相同,下列正确的是()A 1l 与2l 一定平行B 1l 与2l 相交于点),(y xC 1l 与2l 重合D 无法判断1l 和2l 是否相交 4.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( )A 16B 17C 15D 12二、填空题5.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是____________6.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定断言“X 和Y 有关系”的可信度。
第十一单元 第三节回归分析与独立性检验一、选择题1.下列选项中,两个变量具有相关关系的是( ) A .正方形的体积与边长B .匀速行驶车辆的行驶距离与时间C .人的身高与体重D .人的身高与视力【解析】 选项A 、B 中的两变量为函数关系,选项D 中的两变量既不具有函数关系,也不具有相关关系.故选C.【答案】 C2.下图中的两个变量,具有相关关系的是( )【解析】 由散点图判断,选项B 中的两个变量具有相关关系. 【答案】 B3.已知变量x ,y 呈线性相关关系,回归方程为y ^=0.5+2x ,则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系【解析】 ∵b =2>0,∴变量x ,y 是线性正相关关系. 【答案】 A4.(精选考题·天津质检)线性回归方程表示的直线y ^=a +bx 必定过( ) A .(0,0)点 B .(x ,0)点 C .(0,y )点 D .(x ,y )点【解析】 由线性回归方程的性质可知,回归直线过样本中心点(x ,y ).【答案】 D5.(精选考题·湖南高考)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200【解析】 选项B 、D 为正相关,选项C 不符合实际意义. 【答案】 A6.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25【解析】 相关指数R 2越大,拟合效果越好. 【答案】 A7.为了探究色盲是否与性别有关,在调查的500名男性中有39名色盲患者,500名女性中有6名色盲患者,那么你认为色盲与性别有关的把握为( )A .0B .95%C .99%D .都不正确【解析】 2×2列联表如下:色盲患者 不是色盲 总计 男 39 461 500 女 6 494 500 总计459551 000K 2=1 00039×494-461×6245×955×500×500≈25.34>6.635.故选C.【答案】 C 二、填空题 8.用身高y (cm)预报体重x (kg)满足y =0.849x -85.712,则体重41.638 kg 的人________在150 cm 高的人群中.(填“一定”或“不一定”)【解析】 由回归方程得到预报值,不是准确值,41.638 kg 的人身高不一定在150 cm 人群中.【答案】 不一定9.某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产1 000 t 钢中,约有________t 钢是废品.【解析】 ∵176.5=105.492+42.569x ,∴x ≈1.668, 即成本控制在176.5元/t 时,废品率约为1.668%.∴生产1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 【答案】 16.6810.某高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:专业性别 非统计专业 统计专业男 13 10 女 7 20为了判断主据,得到K 2=50×13×20-10×7223×27×20×30≈4.844.因为K 2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.【解析】 ∵P (K 2≥3.841)=0.05,4.844>3.845, ∴判断出错的可能性为5%. 【答案】 5% 三、解答题11.在研究某种新措施对猪白痢的防治效果问题时,得到了以下数据:存活数 死亡数 总计新措施 132 18 150 对照 114 36 150 总计 246 54 300【解析】 由列联表可知,a =132,b =18,c =114,d =36,a +b =150,c +d =150,a+c =246,b +d =54,n =300,代入K 2=n ad -bc 2a +ba +c c +db +d,得K 2=300×132×36-18×1142150×150×54×246≈7.317,由于K 2≈7.317>6.635,因此我们有99%的把握认为新措施对预防猪白痢是有效的. 12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据:x 3 4 5 6 y 2.5 3 44.5 (1)请根据上表提供的数据,求出y 关于x 的回归方程y =bx +a ; (2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解析】 (1)x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,∑i =14x i 2=32+42+52+62=86,∴b =∑i =14x i y i -4x·y∑i =14x i 2-4x2=66.5-4×4.5×3.586-4×4.52=0.7, a =y -b x =3.5-0.7×4.5=0.35,∴所求的线性回归方程为y ^=0.7x +0.35. (2)现在生产100吨甲产品用煤 y =0.7×100+0.35=70.35, ∴降低90-70.35=19.65吨标准煤.。
回归分析与独立性检验小题分类训练1.在一组样本数据为11(,)x y ,22(,)x y ,L ,(,)n n x y (2n ≥,1x ,2x ,3x ,L ,n x 不全相等)的散点图中,若所有样本点()(,1,2,,)i i x y i n =L 都在直线123y x =-+上,则这组样本数据的相关系数为( ) A .13- B .13 C .1D .-1 2.下图是相关变量,x y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程:11ˆy b x a =+,相关系数为1r ;方案二:剔除点(10,32),根据剩下数据,得到线性回归方程:22ˆyb x a =+,相关系数为2r ;则( )A .1201r r <<<B .2101r r <<<C .1210r r -<<<D .2110r r -<<<3.变量,x y 之间的一组相关数据如表所示:x 45 6 7 y8.2 7.8 6.6 5.4 若,x y 之间的线性回归方程为ˆˆ12.28ybx =+,则ˆb 的值为( ) A .0.92- B .0.94- C .0.96- D .0.98-4.某产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表,由此得到y 与x 的线性回归方程为∧∧+=a x y 6,由此可得:当广告支出5万元时,随机误差的效应(残差)为( )x 24 5 6 8 y 3040 60 50 70 A .-10B .0C .10D .20 5.已知下列命题:①回归直线ˆˆˆybx a =+恒过样本点的中心(),x y ,且至少过一个样本点; ②两个变量相关性越强,则相关系数r 就越接近于1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程20.5ˆyx =- 中,当解释变量x 增加一个单位时,预报变量ˆy 平均减少0.5; ⑤在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;⑥对分类变量X与Y,它们的随机变量2K的观测值k来说,k越小,“X与Y有关系”的把握程度越大.⑦两个模型中残差平方和越小的模型拟合的效果越好.则正确命题的个数是()A.3B.4C.5D.66.经统计用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系,对某小组学生每周用于数学的学习时间x与数学成绩y进行数据收集如表:由表中样本数据求得回归方程为ŷ=b̂x+â,则()A.â+18b̂<100B.â+18b̂>100C.â+18b̂=100D.â+18b̂与100的大小无法确定k≈,7.为了解学生对街舞的喜欢是否与性别有关,在全校学生中进行抽样调查根据数据,求得2K的观测值0 4.804则至少有()的把握认为对街舞的喜欢与性别有关.参考数据:A.90% B.95% C.97.5% D.99.5%8.在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是()A.200 B.720 C.100 D.1809.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否K≈爱好某项运动,利用22⨯列联表,由计算可得28.806参照附表,得到的正确结论是()A.有99.5%以上的把握认为“爱好该项运动与性别无关”B.有99.5%以上的把握认为“爱好该项运动与性别有关”C.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”参考答案1.D 根据回归直线方程是y 13=-x +2, 可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,且所有样本点(x i ,y i )(i =1,2,…,n )都在直线上,则有|r |=1,∴相关系数r =﹣1.2.A 由散点图分布图可知,变量x 和y 成正相关,所以1201,01r r <<<< ,在剔除点(10,32)之后,且可看出回归直线22ˆyb x a =+的线性相关程度更强,2r 更接近1. 所以1201r r <<< .【点睛】本题主要考查散点图的正负相关以及变量的相关性,相关系数r 的意义:①当散点分布呈正相关,0r >;负相关,0r <;②0||1,||r r <<越接近1,说明两个变量越具有线性相关关系,即线性关系越强.3.C 解析:因为45678.27.8 6.6 5.45.5,744x y ++++++====,所以5.5712ˆ 2.8b =-,即ˆ0.96b =-,应选答案C .4.C 由题意,根据表格中的数据, 可得2456830406050705,5055x y ++++++++====, 所以ˆ6506520ay x =-⨯=-⨯=,所以ˆ620y x =+,取5x =,得ˆ652050y =⨯+=, 所以随机误差的效应(残差)为605010-=,故选C.5.B 对于①,回归直线y b x a ∧∧∧=+恒过样本点的中心(x y ,),可以不过任一个样本点,故①错误; 对于②,两个变量相关性越强,则相关系数r 的绝对值就越接近于1,故②错误;对于③,将一组数据的每个数据都加一个相同的常数后,由方差的性质可得方差不变,故③正确;对于④,在回归直线方程y ∧=2﹣0.5x 中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位,故④正确;对于⑤,在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率, R 2越接近于1,表示回归效果越好,故⑤正确;对于⑥,对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,故⑥错误;对于⑦,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故⑦正确.6.B x̅=15(15+16+18+19+22)=18,y ̅=15(102+98+115+115+120)=110,所以样本数据的中心点为(18,110),所以110=18b ̂+a ̂,即点a ̂,b ̂满足a ̂+18b̂=110>100,故选B. 7.B 解:根据求得2K 的观测值0 4.804k ≈,且4.804 3.841>,所以至少有95%的把握认为对街舞的喜欢与性别有关 8.B 解:因为两个分类变量A 和B 没有任何关系,所以()()()()221180200800180 2.7023808001000180a a K a a +-⋅=<⋅+⋅⋅+ , 代入验证可知720a = .9.B 解:计算K 2≈8.806>7.879,对照表中数据得出有0.005的几率说明这两个变量之间的关系是不可信的, 即有1−0.005=99.5%的把握说明两个变量之间有关系,本题选择B 选项.。
第6讲 回归分析与独立性检验1.某产品广告宣传费与销售额的统计数据如下表,根据数据表可得回归直线方程y ^=b ^x +a ^,其中b ^=2广告宣传费x /千元 2 3 4 5 6 销售额y /万元 2 4 7 10 12A.17万元 C.19万元 D.20万元2.(2015年湖北)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A.x 与y 负相关,x 与z 负相关B.x 与y 正相关,x 与z 正相关C.x 与y 正相关,x 与z 负相关D.x 与y 负相关,x 与z 正相关3.(2018年湖南永州模拟)为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名分类做不到“光盘” 能做到“光盘”男 45 10 女 30 15附:P (K 2≥k ) 0.10 0.05 0.025k 2.706 3.841 5.024 K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).参照附表,得到的正确结论是( )A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 4.(2016年重庆)已知变量x ,y x 4 5 6 y 8 6 7若y 与x 线性相关,且线性回归方程为y =b x +2,则b 的值为( )A.1B.32C.45D.565.(2017年山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已101i i x =∑=225,101ii y=∑=1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A.160B.163C.166D.1706.(多选)已知由样本数据点集合{(x i ,y i )|i =1,2,…,n },求得的回归直线方程为y ^=1.5x +0.5,且x-=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直线l 的斜率为1.2,则()A.变量x与y具有正相关关系B.去除后的回归方程为y^=1.2x+1.4C.去除后y的估计值增加速度变快D.去除后相应于样本点(2,3.75)的残差为0.057.已知由样本数据点集合{(x i,y i)|i=1,2,…,n}求得的回归直线方程为y^=1.5x+0.5,且x-=3.现发现两个数据点(1.1,2.1)和(4.9,7.9)误差较大,去除后重新求得的回归直线l的斜率为1.2,那么,当x=2时,y的估计值为________.8.(2018年四川成都质检)某省的一个气象站观测点在连续4天里记录的AQI指数M与当天的空气水平可见度y(M 900700300100y 0.5 3.5 6.59.5M [0,200)[200,400)[400,600)[600,800)[800,1000] 频数/天36126 3(1)设x=M100,若x与y之间是线性关系,试根据表1的数据求出y关于x的线性回归方程;(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI指数存在相关关系如表3:M [0,200)[200,400)[400,600)[600,800)[800,1000] 日均收入/元-2000-1000200060008000 附参考公式:y^=b^x+a^,其中b^=1221ni iiniix y nx yx nx==--∑∑,a^=y-b^x.9.(2018年新课标Ⅱ)图X9-6-1是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.图X9-6-1为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.某学校研究性学习小组对该校高三学生视力情况进行调查,在高三的全体1000名学生中随机抽取了100名学生的体检表,并得到如图X9-6-2的频率分布直方图.年级名次 1~50名 951~1000名 近视人数/人 41 32 不近视人数/人 9 18(1)(2)学习小组成员发现,学习成绩突出的学生,近视的比较多,为了研究学生的视力与学习成绩是否有关系,对年级名次在1~50名和951~1000名的学生进行了调查,得到表格中的数据,试问:能否在犯错的概率不超过0.05的前提下认为视力与学习成绩有关系?(3)在(2)中调查的100名学生中,按照分层抽样在不近视的学生中抽取9人,进一步调查他们良好的养眼习惯,并且在这9人中任抽取3人,记名次在1~50名的学生人数为X ,求X 的分布列和数学期望.⎣⎢⎡参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中 ]n =a +b +c +d .第6讲 回归分析与独立性检验1.A 解析:易知x ^=4,y ^=7,∴a ^=7-2×4=-1,则y ^=2x -1.当x =9时,y ^=2×9-1=17.2.A 解析:∵变量x 和y 满足关系y =-0.1x +1,其中-0.1<0,∴x 与y 成负相关.又∵变量y 与z 正相关,不妨设z =ky +b (k >0),则将y =-0.1x +1代入即可得z =k (-0.1x +1)+b =-0.1kx +(k +b ).∴-0.1k <0.∴x 与z 负相关.故选A.3.C 解析:由题设知,a =45,b =10,c =30,d =15,∴K 2=100×(45×15-30×10)255×45×75×25≈3.030 3,2.706<3.030 3<3.841.由附表可知,有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.故选C.4.A5.C 解析:由已知x =22.5,y =160,∴a ^=160-4×22.5=70,y =4×24+70=166.故选C.6.AB7.3.8 解析::将x =3代入y ^=1.5x +0.5得y =5.∴样本中心点为(3 , 5), 由数据点(1.1,2.1)和(4.9,7.9)知:1.1+4.92=3,2.1+7.92=5,故去除这两个数据点后,样本中心点不变.设新的回归直线方程为y ^=1.2x +b ,将样本中心点坐标代入得:b =1.4, ∴,当x =2时,y 的估计值为3.8.8.解:(1)x =14(9+7+3+1)=5,y =14(0.5+3.5+6.5+9.5)=5,41i x =∑i y i =9×0.5+7×3.5+3×6.5+1×9.5=58,41i x=∑2i=92+72+32+12=140. ∴b ^=58-4×5×5140-4×52=-2120,a ^=5-⎝⎛⎭⎫-2120×5=414, ∴y 关于x 的线性回归方程为y ^=-2120x +414.(2)根据表3可知,该月30天中有3天每天亏损2000元,有6天每天亏损1000元,有12天每天收入2000元,有6天每天收入6000元,有3天每天收入8000元.估计小李洗车店2017年11月份每天的平均收入为130×(-2000×3-1000×6+2000×12+6000×6+8000×3)=2400(元).9.解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:①从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.②从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.10.解:(1)由图可知,第一组3 人,第二组7人,第三组27人,∵后四组的频数成等差数列,且它们的和为90,∴后四组的频数依次为27,24,21,18,∴视力在5.0以下的人数为3+7+27+24+21=82(或者100-18=82)人,全年级视力在5.0以下的人数约为1000×82100=820(人).(2)K 2=100×(41×18-32×9)250×50×73×27=30073≈4.110>3.841,因此在犯错的概率不超过0.05的前提下认为视力与学习成绩有关系.(3)依题意9人中年级名次在1~50名和951~1000名分别有3人和6人,X 所有可能取值有0,1,2,3.P (x =0)=C 36C 39=2084=521,P (x =1)=C 26C 13C 39=4584=1528,P (x =2)=C 16C 23C 39=1884=314,P (x =3)=C 33C 39=184.X 的分布列为X 的数学期望E (X )=0×521+1×1528+2×314+3×184=1.。
回归分析、独立必性检验1.工人月工资y(元)依劳动生产率x(千元)变化的回归方程为y=50+80x,下列判断正确的是( )A.劳动生产率为1 000元时,工资为130元B.劳动生产率提高1 000元时,工资平均提高80元C.劳动生产率提高1 000元时,工资平均提高130元D.当月工资为210元,劳动生产率为2 000元解析:由回归方程知,直线的斜率为80.答案:B2.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y与x有相关关系,得到回归直线方程y=0.66x +1.562.若该地区的人均消费额水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为( )A.66% B.72% C.67% D.83%解析:该题考查线性回归的实际应用.由条件知,消费水平为7.675千元时,人均工资为7.675-1.5620.66≈9.262(千元).故7.6759.262≈83%.答案:D3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到回归直线方程y =bx +a ,那么下面说法错误..的序号为________. ①直线y =bx +a 必经过点(x ,y );②直线y =bx +a 至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点;③直线y =bx +a 的斜率b =1221niii nii x ynx y xnx==--∑∑.解析:回归直线方程y =bx +a 经过样本点的中心(x ,y ),可能不经过(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的任何一点,这些点分布在这条直线附近.答案:②4.一般来说,一个人脚越长,他的身高就越高.现对10名成年人的脚长x 与身高y 进行测量,得如下数据(单位:cm):作出散点图后,发现散点在一条直线附近.经计算得到一些数据:x =24.5,y =171.5,∑i =110(x i-x )(y i-y )=577.5,∑i =110(x i-x )2=82.5.某刑侦人员在某案发现场发现一对裸脚印,量得每个脚印长26.5 cm ,请你估计案发嫌疑人的身高为________ cm.解析:由已知得b=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=577.582.5=7,a=y-b x=0,故y=7x.当x=26.5时,y=185.5.答案:185.55.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:根据以上数据,则( )A.含杂质的高低与设备改造有关B.含杂质的高低与设备改造无关C.设备是否改造决定含杂质的高低D.以上答案都不对解析:由已知数据得到如下2×2列联表由公式χ2=382×(37×202-121×22)2158×224×59×323≈13.11,由于13.11>6.635,故有99%的把握认为含杂质的高低与设备是否改造是有关的.答案:A6.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填“有关”或“无关”).解析:χ2>6.635,有99%的把握说打鼾与患心脏病有关.答案:有关7.在一次飞机航程中调查男女乘客的晕机情况,其中,男性乘客80人中有10人晕机,女性乘客30人中有10人晕机.(1)写出2×2列联表;(2)判断晕机与性别是否有关?解:(1)2×2列联表:(2)χ2=110×(10×20-70×10)220×90×30×80≈6.37>3.841,故有95%的把握认为“晕机与性别有关”.8.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关?并说明理由.解:(1)积极参加班级工作的学生有24名,总人数为50名,概率为2450=1225.不太主动参加班级工作且学习积极性一般的学生有19名,概率为1950.(2)χ2=50×(18×19-6×7)225×25×24×26=15013≈11.5,∵χ2>6.635,∴有99%的把握认为学习积极性与对待班级工作的态度有关系.。
回归分析与独立性检验高考试题汇编一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为 A .160 B .163 C .166 D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .0.4 2.3y x =+B .2 2.4y x =-C .29.5y x =-+D .0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b >5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为 ( )A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+y t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii y y =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()niii ni i t t y y b t t ==--=-∑∑,=.a y bt -11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv uαβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.2 列联表,并据此资料你是否认为“体育迷”与性别有关?(I)根据已知条件完成下面2非体育迷体育迷合计男女合计(II)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.。
回归分析及独立性检验一、选择题(本大题共12小题,共60分)1. 设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A. y与x具有正线性相关关系B. 回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D. 若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A. 160B. 163C. 166D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x 万元支出y 万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元D. 万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 在回归直线方程中,当解释变量x每增加1个单位时,预报变量平均增加个单位D. 对分类变量X与Y,随机变量的观测值k越大,则判断“X与Y有关系”的把握程度越小(正确答案)D解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确;D.对分类变量X与Y 的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确.综上可知:只有D不正确.故选:D.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于基础题.5. 某产品的广告费用x与销售额y的统计数据如下表:广告费用万元2 3 4 5销售额万元27 394854根据上表可得回归方程中的b为,据此模型预报广告费用为6万元时销售额为A. 万元B. 万元C. 万元D. 万元(正确答案)A解:,,数据的样本中心点在线性回归直线上,回归方程中的b为,,,线性回归方程是,广告费用为6万元时销售额为,故选A.首先求出所给数据的平均数,得到样本中心点,根据线性回归直线过样本中心点,求出方程中的一个系数,得到线性回归方程,把自变量为6代入,预报出结果.本题考查线性回归方程的求法和应用,是一个基础题,本题解答关键是利用线性回归直线必定经过样本中心点.6. 观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是A. B.C. D.(正确答案)D解:在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,四个选项中,即等高的条形图中,所占比例相差越大,则分类变量x,y关系越强,故选D.在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,即可得出结论.本题考查独立性检验内容,使用频率等高条形图,可以粗略的判断两个分类变量是否有关系,但是这种判断无法精确的给出所的结论的可靠程度.7. 某小卖部销售一品牌饮料的零售价元瓶与销量瓶的关系统计如下:零售价元瓶销量瓶50 44 43 40 35 28已知x,y的关系符合线性回归方程,其中,当单价为元时,估计该小卖部销售这种品牌饮料的销量为A. 20B. 22C. 24D. 26(正确答案)D解:;,,回归直线方程为:,当时,,故选:D.利用平均数公式计算平均数,,利用求出a,即可得到回归直线方程,把代入回归方程求出y值.本题考查回归方程的求法,考查学生的计算能力,运算要细心.8. 为考察A、B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是A. 药物A、B对该疾病均没有预防效果B. 药物A、B对该疾病均有显著的预防效果C. 药物A的预防效果优于药物B的预防效果D. 药物B的预防效果优于药物A的预防效果(正确答案)C解:根据两个表中的等高条形图知,药物A实验显示不服药与服药时患病的差异较药物B实验显示明显大,药物A的预防效果优于药物B的预防效果.故选:C.根据两个表中的等高条形图看药物A的预防效果优于药物B的预防效果.本题考查了等高条形图的应用问题,是基础题.9. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 对分类变量X与Y,随机变量的观测值越大,则判断“X与Y有关系”的把握程度越小D. 在回归直线方程中,当解释变量x每增加1个单位时预报变量平均增加个单位(正确答案)C解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.对分类变量X与Y的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确;D.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确.综上可知:只有C不正确.故选:C.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于中档题.10. 在利用最小二乘法求回归方程时,用到了如表中的5组数据,则表格a中的值为x 10 20 30 40 50y 62 a 75 81 89A. 68B. 70C. 75D. 72(正确答案)A解:由题意可得,,因为回归直线方程,过样本点的中心点,所以,解得故选A.由题意回归直线方程,过样本点的中心点,即可得a的值.本题考查线性回归方程,利用回归直线过样本点的中心点是解决问题的关键,属基础题.11. 如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量吨与相应的生产能耗吨的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为,则下列结论错误的是x 3 4 5 6y t 4A. 线性回归直线一定过点B. 产品的生产能耗与产量呈正相关C. t的取值必定是D. A产品每多生产1吨,则相应的生产能耗约增加吨(正确答案)C解:,则,即线性回归直线一定过点,故A正确,,产品的生产能耗与产量呈正相关,故B正确,,得,故C错误,A产品每多生产1吨,则相应的生产能耗约增加吨,故D正确故选:C根据回归直线的性质分别进行判断即可.本题主要考查命题的真假判断,根据回归直线的性质分别进行判断是解决本题的关键比较基础.12. 已知x,y的取值如表所示,若y与x线性相关,且,则x 0 1 3 4yA. B. C. D.(正确答案)A解:由图表知,,,代入,得,解得.故选:A.由图表求得,,代入回归直线方程得答案.本题考查线性回归方程,关键是明确线性回归直线恒过样本中心点,是基础题.二、填空题(本大题共4小题,共20分)13. 给出下列命题:线性相关系数r越大,两个变量的线生相关性越强;反之,线性相关性越弱;由变量x和y的数据得到其回归直线方程l:,则l一定经过点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;在回归直线方程中,当解释变量x每增加一个单位时,预报变量增加个单位;其中真命题的序号是______ .(正确答案)解:线性相关系数越大,两个变量的线性相关性越强,故不正确;由变量x和y的数据得到其回归直线方程l:,则l一定经过点,故正确;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样不是分层抽样,故不正确;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故正确;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位,故正确.故答案为:.线性相关系数越大,两个变量的线性相关性越强;回归直线方程l:,一定经过样本中心点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样系统抽样;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位.本题考查独立性检验,考查分层抽样方法,考查线性回归方程,考查判断两个相关变量之间的关系,是一个综合题目,这种题考查的知识点比较多,需要认真分析.14. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据如表:零件数个10 20 30 40 50加工时间分钟62 68 75 81 89由最小二乘法求得回归方程,则a的值为______ .(正确答案)解:由题意,计算,,且回归直线方程的图象过样本中心点,所以.故答案为:.根据回归直线方程的图象过样本中心点,求出平均数代入方程即可求出a的值.本题考查了回归直线方程的图象过样本中心点的应用问题,是基础题目.15. 如图是一组数据的散点图,经最小二乘法计算,得y与x之间的线性回归方程为,则______.(正确答案)解:由散点图得:,,将代入,解得:,故答案为:.求出样本点的中心,代入回归方程求出系数的值即可.本题考查了回归方程,考查样本点的中心,是一道基础题.16. 对具有线性相关关系的变量x,y有一组观测数据2,,,其回归直线方程是,且,请估算时,______ .(正确答案)解:,,,样本中心点的坐标为,代入回归直线方程得,,.时,.故答案为:.求出横标和纵标的平均数,写出样本中心点,把样本中心点代入线性回归方程,得到关于a的方程,解方程即可.本题考查线性回归方程,解题的关键是线性回归直线一定过样本中心点,这是求解线性回归方程的步骤之一.三、解答题(本大题共3小题,共40分)17. 某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图如图所示,规定80分及以上者晋级成功,否则晋级失败.晋级成功晋级失败合计男16女50合计Ⅰ求图中a的值;Ⅱ根据已知条件完成下面列联表,并判断能否有的把握认为“晋级成功”与性别有关?Ⅲ将频率视为概率,从本次考试的所有人员中,随机抽取4人进行约谈,记这4人中晋级失败的人数为X,求X的分布列与数学期望.参考公式:,其中(正确答案)解:Ⅰ由频率分布直方图各小长方形面积总和为1,可知,解得;Ⅱ由频率分布直方图知,晋级成功的频率为,所以晋级成功的人数为人,填表如下:晋级成功晋级失败合计男16 34 50女9 41 50合计25 75 100假设“晋级成功”与性别无关,根据上表数据代入公式可得,所以有超过的把握认为“晋级成功”与性别有关;Ⅲ由频率分布直方图知晋级失败的频率为,将频率视为概率,则从本次考试的所有人员中,随机抽取1人进行约谈,这人晋级失败的概率为,所以X可视为服从二项分布,即,,故,,,,,所以X的分布列为X 0 1 2 3 4数学期望为,或Ⅰ由频率和为1,列出方程求a的值;Ⅱ由频率分布直方图求出晋级成功的频率,计算晋级成功的人数,填写列联表,计算观测值,对照临界值得出结论;Ⅲ由频率分布直方图知晋级失败的频率,将频率视为概率,知随机变量X服从二项分布,计算对应的概率值,写出分布列,计算数学期望;本题考查了频率分布直方图与独立性检验和离散型随机变量的分布列、数学期望的应用问题,是中档题.18. 近年来,手机已经成为人们日常生活中不可缺少的产品,手机的功能也日趋完善,已延伸到了各个领域,如拍照,聊天,阅读,缴费,购物,理财,娱乐,办公等等,手机的价格差距也很大,为分析人们购买手机的消费情况,现对某小区随机抽取了200人进行手机价格的调查,统计如下:年龄价格5000元及以上3000元元1000元元1000元以下45岁及以下12 28 66 445岁以上 3 17 46 24Ⅰ完成关于人们使用手机的价格和年龄的列联表,再判断能否在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关?Ⅱ如果用分层抽样的方法从样本手机价格在5000元及以上的人群中选择5人调查他的收入状况,再从这5人中选3人,求3人的年龄都在45岁及以下的概率.附k(正确答案)解:Ⅰ列联表3000元及以上3000元以下合计45岁及以下40 70 11045岁以上20 70 90合计60 140 200,在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,人的年龄都在45岁及以下的概率为.Ⅰ由题中数据可得列联表,计算,从而与临界值比较,即可得到结论;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,即可求出3人的年龄都在45岁及以下的概率.本题考查概率的计算,考查独立性检验知识,考查学生的计算能力,属于中档题.19. 在“新零售”模式的背景下,某大型零售公司为推广线下分店,计划在S市的A区开设分店为了确定在该区开设分店的个数,该公司对该市已开设分店的其他区的数据作了初步处理后得到下列表格记x表示在各区开设分店的个数,y表示这x个分店的年收入之和.个 2 3 4 5 6百万元 3 4 6Ⅰ该公司已经过初步判断,可用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;Ⅱ假设该公司在A区获得的总年利润单位:百万元与x,y之间的关系为,请结合Ⅰ中的线性回归方程,估算该公司应在A区开设多少个分店时,才能使A区平均每个分店的年利润最大?参考公式:,,.(正确答案)解:Ⅰ,,,,关于x的线性回归方程.Ⅱ,A区平均每个分店的年利润,时,t取得最大值,故该公司应在A区开设4个分店时,才能使A区平均每个分店的年利润最大Ⅰ求出回归系数,可得y关于x的线性回归方程;Ⅱ求出A区平均每个分店的年利润,利用基本不等式,可得结论.本题考查回归方程,考查基本不等式的运用,正确求出回归方程是关键.。
高考数学回归分析与独立性检验选择题1. 下列关于回归分析的描述中,正确的是:A. 回归分析只能用于变量之间存在线性关系的情况B. 回归分析只能用于变量之间存在正相关关系的情况C. 回归分析只能用于变量之间存在负相关关系的情况D. 回归分析可以用于变量之间存在非线性关系的情况2. 回归分析中的残差是指:A. 实际值与预测值之间的差B. 预测值与平均值之间的差C. 实际值与平均值之间的差D. 预测值与中位数之间的差3. 回归分析中的自变量和因变量是指:A. 自变量是影响因变量的因素,因变量是自变量的结果B. 自变量是因变量的结果,因变量是影响自变量的因素C. 自变量和因变量是相互独立的D. 自变量和因变量是相互依赖的4. 回归分析中的回归系数是指:A. 因变量与自变量之间的相关系数B. 因变量与自变量之间的协方差系数C. 因变量与自变量之间的相关系数和协方差系数之和D. 因变量与自变量之间的协方差系数和标准差之比5. 独立性检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系6. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系7. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系8. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系9. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系10. 独立性检验中的麦克尼马尔检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系11. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况12. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度13. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度14. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度15. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度16. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况17. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系18. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系19. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系20. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系21. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况22. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度23. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度24. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度25. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度26. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况27. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系28. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系29. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系30. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系31. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况32. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度33. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度34. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度35. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度36. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况37. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系38. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系39. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系40. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系41. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况42. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度43. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度44. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度45. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度46. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况47. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系48. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系49. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系50. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系。
1.某公司为了增加销售额,经过了一系列的宣传方案,经统计广告费用x 万元与销售额y 万(2)若广告费用投入8万元,请预测销售额会达到多少万元?参考公式bx y a xn x y x n y xb i n i i ni i-=-⋅-⋅=∑∑==,2211【答案】(1)4.04.1+=x y (2)11.6【解析】 试题分析: (1)求出x,y 的平均数,得到回归系数,即可求销售额y 关于广告费用x 的线性回归方程; (2)把x=8代入,能广告费用投入8万元预测销售额 试题解析:(1)4.0,4.16474=-==-=x b y a b所以销售额y 关于广告费用x 的线性回归方程是4.04.1+=x y (2)广告费用投入8万元,销售额约为6.114.04.1=+=x y 万元考点:线性回归方程已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35. (1)请将上表补充完整(不用写计算过程);(2)能否有99.5﹪的把握认为喜爱打篮球与性别有关?说明你的理由. 下面的临界值表供参考:(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)详见解析;(2)有99.5﹪的把握认为喜爱打篮球与性别有关. 【解析】试题分析:(1)首先通过全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35,得出喜爱打篮球的共有30人,进而完善此表;(2)通过列联表代入计算公式,得到2K 的值,再查对临界值表,据此回答能否有99.5﹪的把握认为喜爱打篮球与性别有关.(2)Q 22()()()()()n ad bc K a b c d a c b d -=++++50(2015105)7.87930202525⨯⨯-⨯=≈⨯⨯⨯ ∴有99.5﹪的把握认为喜爱打篮球与性别有关.考点:独立性检验.3.某车间为了制定工时定额,需要确定加工零件抽用时间,为此做了四次试验,得到的数(2)求出回归方程;(3)根据回归方程估计加工10个零件需要多少个小时。
10.3变量间的相关关系一、选择题1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图9-4-2(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图9-4-2(2).由这两个散点图可以判断( )图9-4-2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关2.在2012年7月伦敦第30届奥运会上,中国健儿取得了38金、27银、23铜的好成绩,稳居世界奖牌榜次席,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( )A .平均数与方差B .回归直线方程C .独立性检验D .概率3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x (cm) 174 176 176 176 178 儿子身高y (cm)175175176177177则y 对x 的线性回归方程为( ) A .y =x -1 B .y =x +1 C .y =88+12x D .y =176图9-4-34.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图9-4-3),以下结论正确的是( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58 总计8880168则大约有多大的把握认为多看电视与人变冷漠有关系( ) A .99% B .97.5% C .95% D .90%6.(2013·潍坊模拟)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 二、填空题7.已知x 、y 的取值如下表:x134y 2.2 4.3 4.8 6.7从所得的散点图分析,y 与x 线性相关,且y ^=0.95x +a ,则a =________.8.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.9.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温(℃) 18 13 10 -1 用电量(度)24343864由表中数据得线性回归方程y ^=b ^x +a ^中b ^=-2,预测当气温为-4℃时,用电量的度数约为________.三、解答题10.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高 18 7 25 学习积极性一般6 19 25 合计242650 (1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由.(参考下表)P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.82 811.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.数学888311792108100112物理949110896104101106(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.12.某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学成绩:分组[50,60)[60,70)[70,80)[80,90)[90,100]频数10253530x乙校高二年级数学成绩:分组[50,60)[60,70)[70,80)[80,90)[90,100]频数153025y5(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分).(2)若数学成绩不低于80分为优秀,低于80分的为非优秀,根据以上统计数据写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?”甲校乙校总计优秀非优秀总计解析及答案一、选择题1.【解析】由散点图可得两组数据均线性相关,且图(1)的线性回归方程斜率为负,图(2)的线性回归方程斜率为正,则由此散点图可判断变量x与y负相关,u与v正相关.【答案】C2.【解析】由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.【答案】 C 3.【解析】 x =176,y =176, 又回归直线一定过(x ,y ), ∴经检验A 、B 、D 错误,C 正确. 【答案】 C 4.【解析】 由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x 与y 之间的线性相关程度,不表示直线l 的斜率,故B 错;x 和y 的相关系数应在-1到1之间,故C 错;分布在回归直线两侧的样本点的个数并不绝对平均,无论样本点个数是奇数还是偶数,故D 错.【答案】 A 5.【解析】 可计算k =11.377>6.635. 【答案】 A 6.【解析】 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^=b ^x +a ^必过(x ,y ), ∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1,∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 【答案】 B 二、填空题 7.【解析】 因为回归方程必过样本点的中心(x ,y ),解得x =2,y =4.5,将(2,4.5)代入y ^=0.95x +a 可得a =2.6.【答案】 2.6 8.【解析】 ∵k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.【答案】 5% 9.【解析】 x =10,y =40,回归方程过点(x ,y ), ∴40=-2×10+a ^.∴a ^=60.∴y ^=-2x +60. 令x =-4,∴y ^=(-2)×(-4)+60=68. 【答案】 68 三、解答题10.【解】 (1)积极参加班级工作的学生有24人,总人数为50人, ∴抽到积极参加班级工作的学生的概率P 1=2450=1225,不太主动参加班级工作且学习积极性一般的学生有19人, ∴抽到不太主动参加工作且学习积极性一般的学生的概率P 2=1950.(2)由列联表知,k =50×(18×19-6×7)225×25×24×26=15013≈11.5,由k >6.635,∴有99%的把握认为学习积极性与对待班级工作的态度有关系. 11.【解】 (1)x =100+-12-17+17-8+8+127=100;y =100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142,∴s 2物理=2507, 从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=497994=0.5,a ^=100-0.5×100=50,∴线性回归方程为y ^=0.5x +50. 当y =115时,x =130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.12.【解】 (1)依题意甲校应抽取110人,乙校应抽取90人, 故x =10,y =15,估计甲校平均分为 55×10+65×25+75×35+85×30+95×10110≈75,乙校平均分为55×15+65×30+75×25+85×15+95×590≈71.(2)列2×2列联表如下:甲校 乙校 总计 优秀 40 20 60 非优秀 70 70 140 总计11090200k =200(40×70-20×70)2110×90×60×140≈4.714,又因为4.714>3.841故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.。
回归分析与独立性检验
一.知识要点:
1. 回归直线方程:a x b y
ˆˆˆ+=,其中=b ˆ()()
()
∑∑==---n
i i
n
i i i
x x
y y x x
1
2
1
=
∑∑==--n
i i
n
i i
i x n x
y x n y
x 1
2
21
,=a
ˆx b y ˆ-,x = , y = .
2. 相关系数r :相关系数r 的绝对值越接近于1,两个变量的线性相关关系越 ,当r 0时,两个变量
是正相关,当r 0时,两个变量是负相关.
3. 相关指数2R :()()
∑∑==---
=n
i i
n
i i i y y
y y R 1
2
1
22
ˆ1来刻画回归的效果,它表示解释变量对预报变量变化的贡献率.
2R 的值越接近于1,说明残差平方和越小,也就是说模型拟合的效果越好,即解释变量和预报变量的线相
关性越强.
4. 22⨯列联表中,2
2
()()()()()
n ad bc K a b c d a c b d -=++++,计算其观测值k ,查表得出结论:如果0k k ≥,
就推断“Y X 与有关系”,这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过a 的前Y ”Y ”.
P (k 2>k 0
) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005
[来
源学。
科。
网Z 。
X 。
X 。
K]
0.001 k 0
0.455 0.708 1.323 2.072
2.706
3.84
5.024
6.635
7.879
10.83
二.例题与练习
1. (13年湖北)四名同学根据各自的样本数据研究变量,x y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:① y 与x 负相关且$
2.347 6.423y x =-; ②y 与x 负相关且$
3.476 5.648y x =-+; ③y 与x 正相关且$ 5.4378.493y x =+; ④y 与x 正相关且$
4.326 4.578y x =--. 其中一定不.正确..
的结论的序号是
A.①②
B.②③
C.③④
D. ①④ 2. (14年湖北)根据如下样本数据得到的回归方程为 y ^
=bx +a ,则
A .a >0,b >0
B .a >0,b <0
C .a <0,b >0
D .a <0,b <0
x 3 4 5 6 7 8 y
4.0
2.5
-0.5
0.5
-2.0
-3.0
3.有甲、乙两个班级数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得如下列联表,已知在全部105人中随机抽取1人,成绩优秀的概率为7
2
,则下列说法正确的是
A. 列联表中,30,35==c b
B. B.列联表中,15,50==c b
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D. 根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
4. 某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如右表所示: 由上表可得回归直线方程y ^=b ^x +a ^中的b ^
=-4,据此模型预计零售价定为15元时,每天的销售量为
A .48个
B .49个
C .50个
D .51个 5. (13年福建)已知x 与y 之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为a x b y
ˆˆˆ+=.若某同学根据上表中前两组数据)0,1(和)2,2(求得的直线方程为a x b y '+'=,则以下结论正确的是( )
A.a a b b
'>'>ˆ,ˆ B.a a b b '<'>ˆ,ˆ C.a a b b '>'<ˆ,ˆ D.a a b b '<'<ˆ,ˆ 作业:
6. 在一个2×2列联表中,由其数据计算得χ2的观测值k=13.097,则其两个变量间有关系的可能性为 A.99% B.95% C.90% D.无关系
7. 工人月工资y (元)随劳动生产率x (千元)变化的回归直线方程为y=60+90x ,下列判断正确的
A.劳动生产率为1000元时,工资为150元
B.劳动生产率提高1000元时,工资提高150元
C.劳动生产率提高1000元时,工资提高90元
D.劳动生产率为1000元时,工资为90元 8. 下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量
x (吨)与对应的生产能耗y (吨)的几组对应数据.根据上表提供的数据,求出y 关
于x 的线性回归方程为y ^
=0.7x +0.35,那么表中t 的值为
A .3
B .3.15
C .3.5
D .4.5
9. 若两个分类变量X 和Y 的2×2列联表如右,则X 与Y 之间有关系的概率约为 .
10. 为了研究人的胖、瘦与家庭富裕水平(贫、富)之间是否相关,调查了50000人,其中胖人5000人,下列独立性检验的方案中,较为合理有效的方案是 A.随机抽取100名胖人和100名瘦人 B.随机抽取0.08%的胖人和瘦人
优秀 不优秀 总计 甲班 10 b 乙班 c 30 总计
105
x 16 17 18 19 y
50
34
41
31
x 1 2 3 4 5 6 y
2
1
3
3
4
y 1 y 2 合计 x 1 5[K]
15
20 x 2
40 10
50 合计 45 25
70
x 3 4 5
6 y 2.5 t 4
4.5
C.随机抽取900名瘦人和100名胖人
D.随机抽取0.1%的瘦人和1%的胖人 11. 已知直线回归方程为2 1.5y x =-,则变量x 增加一个单位时( )
A.y 平均增加1.5个单位
B.y 平均增加2个单位
C.y 平均减少1.5个单位
D.y 平均减少2个单位 12. 下面的各图中,散点图与相关系数r 不符合的是( )
13.第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招幕了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.
(1)根据以上数据完成以下2×2列联表:
喜爱运动 不喜爱运动 总计 男 10 16 女 6
14 总计
30
(2)
14下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据
x
3 4 5 6
y
2.5 3 4 4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bx
a =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性
回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
15.. 某旅行社为调查市民喜欢“自然景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下。