最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》自我小测
- 格式:doc
- 大小:109.00 KB
- 文档页数:4
3.1回归分析的基本思想及其初步应用(检测学生版)时间:40分钟 总分:60分班级: 姓名:一、 选择题(共6小题,每题5分,共30分)1.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求线性回归方程; ④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x ,y 具有线性相关的结论,则在下列操作顺序中正确的是( ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③①2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果, 可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好. 其中正确命题的个数是( ) A .0 B .1 C .2D .33.下图是根据变量x ,y 的观测数据(x i ,y i )(i =1,2,…,10)得到的散点图,由这些散点图可以判断变量x ,y 具有相关关系的图是( )A .①②B .①④C .②③D .③④4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A .y ^=0.4x +2.3B .y ^=2x -2.4 C .y ^=-2x +9.5 D .y ^=-0.3x +4.45.某咖啡厅为了了解热饮的销售量y (个)与气温x (℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:由表中数据,得线性回归方程y =-2x +a .当气温为-4 ℃时,预测销售量约为( ) A .68 B .66 C .72D .706.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元D .12.2万元二、填空题(共2小题,每题5分,共10分)7.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.8.下列说法正确的命题是________(填序号).①回归直线过样本点的中心(x ,y );②线性回归方程对应的直线y ^=b ^x +a ^至少经过其样本数据点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点; ③在残差图中,残差点分布的带状区域的宽度越宽,其模型拟合的精度越高; ④在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好. 三、解答题(共2小题,共20分)9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b ^=6.5, (1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.。
一、选择题1.能表示n 个点与相应直线在整体上的接近程度的是( ) A.∑i =1n(y i -y ∧i )B.∑i =1n(y ∧i -y i )C.∑i =1n(y i -y ∧i )2D.∑i =1n(y i -y )2【解析】 接近程度与残差平方和有关,故选C. 【答案】 C2.(2013·临沂高二检测)某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ∧=0.577x -0.448(x 为人的年龄,y 为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )A .年龄为37岁的人体内脂肪含量都为20.90%B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.5%【解析】 x =37时,y =0.577×37-0.448=20.90,因为回归方程得到的y∧值只是近似的,故选C.【答案】 C3.两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25【解析】 相关指数越大,拟合效果越好.【答案】 A4.(2013·厦门高二检测)观察两个相关变量的如下数据:A.y ∧=0.5x -1 B.y ∧ =x C.y ∧=2x +0.3 D.y ∧=x +1 【解析】 x =110(-1-2…-5+5+4+…+2+1)=0, y =110(-0.9-2-…-5.1+5+…0.9)=0. 由回归直线方程过样本中心点(x ,y )知B 正确. 【答案】 B5.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 与x 的回归直线的斜率为b ,纵截距为a ,则必有( )A .b 与r 的符号相同B .a 与r 的符号相同C .b 与r 的符号相反D .a 与r 的符号相反【解析】 线性回归方程为y ∧=bx +a ,b >0时,x 与y 正相关,b <0时,x 与y 负相关.因此b 与r 的符号相同.【答案】 A 二、填空题6.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数R 2与残差平方和Q (a ∧ ,b ∧)如下表:则能体现A .【解析】 丁同学所求得的相关指数R 2最大,残差平方和Q (a ∧ ,b ∧)最小.此时A ,B 两变量线性相关性更强.【答案】 丁7.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y对x 的回归直线方程:y ∧=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万年,年饮食支出平均增加________万元.【解析】 由题意知[0.254(x +1)+0.321]-[0.254x +0.321]=0.254. 【答案】 0.2548.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)对比结果如下:). 【解析】 可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为3240=45,而乙回归方程的数据准确率为4060=23.显然甲的准确率高些,因此甲回归方程好些.【答案】 甲 三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)(2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 【解】 (1)设所求的线性回归方程为y ∧ =b ∧ x +a ∧,则b ∧=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=1020=0.5,a ∧ =y -b ∧x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为y ∧=0.5x+0.4.(2)当x =11时,y ∧=0.5x +0.4=0.5×11+0.4=5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.(2013·珠江高二检测)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据:(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y∧=b∧x +a∧;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解】(1)由题设所给数据,可得散点图,如图:(2)由数据,计算得:=86,x=3+4+5+64=4.5,y=2.5+3+4+4.54=3.5,a ∧=y-b ∧x=3.5-0.7×4.5=0.35,因此,所求的线性回归方程为y∧=0.7x+0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).11.假设关于某设备的使用年限x和支出的维修费用y(万元),有如下表的统计资料:若由资料知(1)线性回归方程y ∧ =b ∧ x +a ∧.(2)估计使用年限为10年时,维修费用是多少. (3)计算总偏差平方和、残差平方和及回归平方和. (4)求R 2并说明模型的拟合效果. 【解】 (1)将已知条件制成下表:于是有b ∧=∑i =15x i y i -5x y∑i =15x 2i -5x2=112.3-5×4×590-5×42=1.23,a ∧ =y -b ∧x =5-1.23×4=0.08, 回归直线方程是y ∧=1.23x +0.08.(2)当x =10时,y =1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.(3)总偏差平方和:∑i =15(y i -y )2=15.78,残差平方和:y 1∧=2.46+0.08=2.54,y 2∧=3.77,y 3∧=5,y 4∧=6.23,y 5∧=7.46,∑i =15 (y i -y ∧ i )2=0.651,回归平方和:15.78-0.651=15.129.(4)R 2=1-∑i =15(y i -y ∧ i )2∑i =15(y i -y )2=1-0.65115.78≈0.958 7,模型的拟合效果较好,使用年限解释了95.87%的维修费用支出.。
3.1 回归分析的基本思想及其初步应用1. 关于回归分析,下列说法错误的是()A.回归分析是研究两个具有相关关系的变量的方法B.散点图中,解释变量在x轴,预报变量在y轴C.回归模型中一定存在随机误差D.散点图能明确反映变量间的关系解析:用散点图反映两个变量间的关系时,存在误差.答案:D2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关系数r分别如下表:A.甲B.乙C.丙D.丁解析:相关系数r越大,表示回归模型的效果越好.答案:A3. 某学校以模拟考试的数学成绩预报高考数学成绩的回归方程为y=0.5x+62.5,用这个方程预报一位模拟考试数学成绩为100分的同学的高考数学成绩,下列叙述正确的是()A.该同学的高考数学成绩一定是112.5分B.该同学的高考数学成绩在112.5分以上C.该同学的高考数学成绩在112.5分以下D.该同学的高考数学成绩在112.5分左右解析:根据回归直线方程的特征,回归直线不一定经过样本点,但一定经过样本点的中心,当x =100时,y =62.5+0.5×100=112.5,所以该同学的高考数学成绩在112.5分左右,故选D.答案:D4.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:4 ℃时,用电量的度数约为________.解析:x -=10,y -=40,回归方程过点(x -,y -),∴40=-2×10+a .∴a =60.∴y =-2x +60.令x =-4,∴y =(-2)×(-4)+60=68.答案:685. 五个学生的数学与物理成绩如下表,求其相关系数.解:由表中给出数据可以得出:x =70;y =66;∑i =15x 2i =24750;∑i =15y 2i =21820;∑i =15x i y i =23190. ∴r =∑i =15x i y i -5x y(∑i =15x 2i -5x 2)(∑i =15y 2i -5y 2)=23190-5×70×66(24750-5×702)(21820-5×662)=0.9.。
自主广场我夯基我达标1.下列关于回归分析与独立性检验的说法正确的是( )A.回归分析和独立性检验没有什么区别B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定关系C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验D.独立性检验可以100%确定两个变量之间是否具有某种关系思路解析:回归分析是对两个变量之间的相关关系的一种分析,而相关关系是一种不确定的关系,通过回归分析可以确定两个变量之间具有的近似关系;而独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.答案:C2.给出下列实际问题:①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟人群是否与性别有关系;⑤网吧与青少年的犯罪率是否有关系.其中,用独立性检验可以解决的问题有( )A.①②③B.②④⑤C.②③④⑤D.①②③④⑤思路解析:独立性检验主要是对两个分类变量是否有关系进行检验,主要涉及两种变量对同一种事情的影响,或者是两种变量在同一问题上体现的区别等.答案:B3.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关系”的结论,并且有99%以上的把握认为这个结论是成立的,下列说法中正确的是( )A.100个吸烟者中至少有99人患肺癌B.1个人吸烟,那么这个人有99%的概率患肺癌C.在100个吸烟者中,一定有患肺癌的D.在100个吸烟者中可能一个患肺癌的人也没有思路解析:独立性检验的结论是一个数学统计量,它与实际问题中的问题的确定性是存在差异的.答案:D4.阅读下列材料,回答有关问题:2005年7月28日,BP位于美国得克萨斯市的炼油厂晚间发生爆炸,同样在7月28日,BP 在其大本营英国北海的深水油田也发生了严重火灾.受其影响,全球油价7月29日再度突破60美元大关.随后沙特国王死亡引起对沙特政局的担忧,接下来一连串的飓风袭来,最后是飓风“卡特里娜”一举使油价突破70美元的大关,创下70.85美元/桶的历史记录.国际能源署IEA预计,到2005年底,飓风导致美国损失的原油以及天然气液化产量约1.4亿桶,成品油产量损失1.63亿桶.进入2006年,先是俄罗斯与乌克兰的石油管道问题,随后是基地组织将要袭击美国的威胁、尼日利亚的恐怖袭击以及伊朗的核问题不断出现,在美国气温高于往年平均气温导致需求不太旺盛的情况下,不到一个月的时间就将油价推高12美元/桶.可见突发事件对油价影响的巨大.在2005年原油的第二轮上涨中,基金持有的净多单数量远低于第一轮时的净多单,但是原油上涨的幅度远大于第一轮上涨的幅度,2005年9月以后基金绝大部分时间持有净空单,但是原油价格仍在高位,就是因为不断出现的突发消息助推油价.政治因素与突发事件导致的对原油供应不足的担忧,在原油上涨中可能起到20%—25%的作用.(1)怎样理解“可见突发事件对油价影响的巨大”这句话的含义,如果是你,你将怎样得出这样的结论?(2)为了尽量避免经济损失,我们应该怎样对经济进行统计分析?思路分析:任何对经济问题的分析都是统计学知识的一种应用,根据各种情况的对比,对未来进行预测,首先要弄清楚有多大把握上对这种结论的肯定,这就要应用独立性检验对这些影响进行分析.解:(1)“可见突发事件对油价影响的巨大”这句话意味着,通过对各种情况与油价的关系的分析,有很大的把握认为突发事件对油价产生了影响,这既是对过去的总结,也是对未来的预测,要得到这些结论,可以对数据进行收集,整理,再利用独立性检验分析即可.(2)为了避免经济损失,可以经常对某些特殊情况进行分析,找出特殊情况对经济的影响,并利用独立性检验得出相应的可信度,根据这些结论对下一步的投入进行把握.5.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽对于人力资源部的研究项目,根据上述数据能得出什么结论?思路分析:首先根据列联表可以判断分类变量之间可能具有某种关系,还要设一个随机变量,对随机变量进行判断,得出对这种关系的可信度.解:根据列联表可以看出“工作积极”的员工赞成企业改革的比例要大于“工作一般”的员工,所以,从列联表可以粗略估计两种类型的员工对改革的态度有区别.构造数据,取a=54,b=40,c=32,d=63,用字母代替列联表中的数据可得如下列联表:K 2=))()()(()(2d b c a d c b a bc ad n ++++-.其中n=a+b+c+d,把数据代入可得K 2=103869594)32406354(1892⨯⨯⨯⨯-⨯⨯≈10.76,查表可知,P(K 2≥7.879)=0.005,且1-0.005=0.995=99.5%,所以,有99.5%的把握认为两种类型的员工对改革的态度有区别.6.根据下列某初中体育考试成绩抽样调查(满分 100分 ,60分及格)统计表完成下列列联(1)据列联表可以粗略得出结论:______________________________. (2)把列联表转化为二维条形图. 思路分析:把两种情况下,及格的人数和不及格的人数进行统计,填入对应表格即可,要得出相应结论,就要根据列联表计算出两种情况下及格的频率近似代替概率,比较二者的大小. 解:根据统计表可得列联表如下:(1)由列联表可知,经常参加锻炼的及格率约为180≈0.84=84%, 而很少参加锻炼的及格率约为20095=0.475=47.5%, 即经常锻炼的及格率大于很少参加锻炼的及格率,所以,可以粗略估计,经常参加锻炼和很少参加锻炼对及格率有一定的影响. (2)对应的二维条形图为:7.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研这两种手术对病人又发作心脏病的影响有没有差别?并给出结论的可信度. 思路分析:假设出随机变量,根据随机变量对应的概率即可得出结论的可信度. 解:两种手术对又发心脏病的影响是有差别的. 构造数据,用字母代替列联表中的数据可得构造随机变量:K 2=))()()(()(2d b c a d c b a bc ad n ++++-其中n=a+b+c+d,把数据代入可得K 2=32468196196)2915716739(3922⨯⨯⨯⨯-⨯⨯≈1.78,查表可知,P(K 2≥1.323)=0.25,且1-0.25=0.75=75%,因此,有75%的把握认为,这两种手术对又发心脏病的影响是有区别的.8.为了调查青少年对网吧的认识态度,抽取了400名男青年和300名女青年进行了问卷调查,其中男青年中有180人曾进过网吧,而女青年中有90人曾进过网吧,根据数据是否可以认为男青年和女青年对进网吧的态度是有区别的?并给出结论的可信度.思路分析:本题应首先作出调查数据的列联表,再根据列联表画出数据的二维条形图或者三维柱形图,并进行分析,最后利用独立性检验给出结论. 解:根据调查数据可以得出对应的列联表为:从条形图容易看出,女青年进过网吧的比例小于男青年,也即可以认为,男青年和女青年对网吧的态度是不同的.为了判断这种结论的可信度,设a=180,b=220,c=90,d=210并假设一个随机变量:K 2=))()()(()(2d b c a d c b a bc ad n ++++-,其中n=a+b+c+d,把数据代入可得:K 2=430270300400)90220210180(7002⨯⨯⨯⨯-⨯⨯≈16.28,查表可知,P(K 2≥10.828)=0.001,且1-0.001=0.999=99.9%,因此有99.9%的把握认为男女青年对网吧的态度是不同的. 我综合 我发展试用图形和独立性检验来判断新措施对防治猪白痢是否有效.思路分析:首先根据列联表画出对应的三维柱形图或二维条形图,根据图形粗略判断新措施对防治猪白痢是否有效,再根据独立性检验的方法判断这种关系的可信度. 解:作出二维条形图如下:在二维条形图中,可以估计在新措施中的死亡数占的比例为25315018=,在对照组中的死亡数占的比例为25615036=,二者的差值为|256253-|=253,这个差值很大,因此,从二维条形图中可以看出新措施对猪白痢是有效的.再利用独立性检验来计算,由列联表可知,a=132,b=18,c=114,d=36,a+b=150,c+d=150,n=300,代入可得K 2=24654150150)1141836132(3002⨯⨯⨯⨯-⨯⨯≈7.32,由于K 2≈7.32>6.635,因此我们有99%的把握认为新措施对预防猪白痢是有效的.10.某城市一个交通路口原来只设有红绿灯,平均每年发生交通事故80起,案件的破获率为70%.为了加强该路口的管理,第二年在该路口设置了电子摄像头,该年发生交通事故70起,共破获了56起,第三年的白天安排了交警执勤,该年发生交通事故60起,破获了54起. (1)根据以上材料分析,加强管理后的两年该路口的交通状况发生了怎样的变化?(2)试采用独立性检验进行分析,电子摄像头和白天的民警执勤对该路口交通肇事案件的破获分别产生了什么样的影响? 思路分析:这是生活中一个很常见的例子,可以根据所提供数据,给出列联表,画出相应的二维条形图,首先判断安装电子摄像头及交警执勤对交通事故是否发生了影响,然后再根据独立性检验给出可信度的判断即可.解:(1)由统计数据可知,没有采取措施之前,案件的发生较多,并且破获率只有70%,安装电子摄像头之后,案件的发生次数有所减少,并且破获率提高到了80%,白天安排交警执勤后,案件的发生频数进一步减少,并且破获率提高到了90%.由此可加,电子摄像头对遏制交通案件的发生起到了一定作用,并且给破案带来了一定的帮助,而安排交警执勤对这些影响更大.从条形图容易看出,安装电子摄像头后,破案率有了明显提高,而实行交警执勤后案件的破获率是最高的,这说明两种措施对案件的破获都起到了一定的积极作用.先分析电子摄像头对破案的影响的可信度,令a=56,b=24,c=56,d=14,构造随机变量K 2=))()()(()(2d b c a d c b a bc ad n ++++-=387011280)56241456(1502⨯⨯⨯⨯-⨯⨯≈1.97,而查表可知,P(K 2≥1.323)=0.25,且1-0.25=0.75=75%,因此至少有75%的把握认为,安装电子摄像头对案件的破获起到了作用.再分析交警执勤的情况,同样令a=56,b=24,c=54,d=6,则K 2=306011080)5424656(140))()()(()(22⨯⨯⨯⨯-⨯⨯=++++-d b c a d c b a bc ad n ≈8.15, 而查表可知,P(K 2≥7.879)=0.005,且1-0.005=0.995=99.5%,因此至少有99.5%的把握认为,交警执勤对案件的破获起到了作用.11.某人酷爱买彩票,一次他购买了1 000元的彩票,共中了50元的奖,于是他回到家对彩票的号码进行了分析,分析后又去买了1 500元的彩票,据说中奖金额比上次增加了51%.(1)请分析他对号码的研究是否对中奖金额产生了大的影响?我们应该用怎样的心态对待买彩票的问题?(2)请就你身边的一种现象进行调查,得出结论,说明得出这种结论的原因,并分析你的结论的可信度,并对此发表自己的看法,试着写一篇小论文分析其中的原因.思路分析:分析对中奖的影响不能只看中奖金额,还要看中奖的概率,可以根据柱形图主对角线和副对角线乘积之差的绝对值或二维条形图对应比例差值的绝对值进行分析.解:(1)根据条件可知,购买1 000元的彩票,中奖金额为50元,即净赔950元,购买1 500元彩票画出对应的条形图如下:令a=50,b=950,c=75.5,d=1 424.5,则||15005.75100050|||-=+-+d c c b a a ≈0.000 33,这个差值非常小,可见他对号码的分析对中奖的影响不大.彩票的中奖号码是一种随机现象,人为地进行研究对提高中奖率的意义不大,因此我们买彩票的态度应该根据自己的经济状况,用一种平和的心态对待买彩票的行为,不要一心想着要中大奖,而耽误了工作和生活. (2)略.。
学业分层测评(建议用时: 45 分钟 )[学业达标 ]一、选择题1.为了研究变量x 和 y 的线性相关性,甲、乙两人分别利用线性回归方法--得到回归直线 l 1和 l 2,已知两人计算过程中x , y 分别相同,则下列说法正确的是 ()A.l 1与 l2一定平行B.l1与 l2重合--C.l1与 l2相交于点 ( x, y )D.无法判断 l1和 l 2是否相交【解析】回归直线一定过样本点的中心--( x, y ),故 C 正确.【答案】C2.甲、乙、丙、丁四位同学在建立变量 x,y 的回归模型时,分别选择了 4 种不同模型,计算可得它们的相关指数 R2分别如下表:甲乙丙丁R20.98 0.78 0.500.85哪位同学建立的回归模型拟合效果最好?()A.甲B.乙C.丙D.丁【解析】相关指数 R2越大,表示回归模型的拟合效果越好.【答案】A3.对变量 x,y 进行回归分析时,依据得到的 4 个不同的回归模型画出残差图,则下列模型拟合精度最高的是()【解析】 用残差图判断模型的拟合效果, 残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适. 带状区域的宽度越窄, 说明模型的拟合精度越高.【答案】A4.对于指数曲线 y =ae bx ,令 U =ln y ,c =ln a ,经过非线性化回归分析后,可转化的形式为 ()A .U =c +bxB .U = b +cxC .y =c +bxD . y = b + cx【解析】由 y =ae bx 得 ln y =ln(ae bx ),∴ ln y = +ln aln e bx ,∴ l n y =ln a +bx ,∴ U =c +bx.故选 A.【答案】A5.为了解儿子身高与其父亲身高的关系,随机抽取5 对父子的身高数据如表所示:父亲身高 x(cm)174 176 176 176 178儿子身高 y(cm)175 175 176 177 177则 y 对 x 的线性回归方程为 () ^^ A.y =x -1 B.y =x +1^ 1 ^ C.y =88+ 2xD.y =176【解析】^ ^^ ,设 y 对 x 的线性回归方程为 y =b+x a^ -2× - 1 +0× - 1 +0×0+0×1+2×11 ^1因为 b =- 2 2+22= 2,a =176-2×176=^ 188,所以 y 对 x 的线性回归方程为 y = 2x +88.【答案】 C二、填空题6.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数2 ^ ^ 如下表:R 与残差平方和 Q(a ,b)甲 乙 丙 丁R 20.67 0.61 0.48 0.72^^106115124103, bQ(a )则能体现 A , B 两个变量有更强的线性相关性的为 ________.【解析】 丁同学所求得的相关指数2^ ^ 最小.此R 最大,残差平方和 Q(a ,b)时 A ,B 两变量线性相关性更强.【答案】 丁7.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,(个数 )对比与实际相符数据个数 与实际不符合数据个数 总计 甲回归方程 32 8 40 乙回归方程40 20 60 总计7228100则从表中数据分析, ________回归方程更好 (即与实际数据更贴近 ). 【解析】 可以根据表中数据分析, 两个回归方程对数据预测的正确率进行32 440 2判断,甲回归方程的数据准确率为 40= 5,而乙回归方程的数据准确率为 60= 3.显然甲的准确率高些,因此甲回归方程好些.【答案】 甲8.如果某地的财政收入 x 与支出 y 满足线性回归方程y =bx + a + e(单位:亿元 ),其中 b = 0.8,a =2,|e|≤ 0.5,如果今年该地区财政收入为10 亿元,则年支出预计不会超过________亿元 .【导学号: 97270060】【解析】∵x = 10 时, y =0.8× 10+2+e =10+e ,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据结果如下:∵ |e|≤ 0.5,∴ y ≤ 10.5.【答案】10.5三、解答题9.某服装店经营某种服装, 在某周内纯获利 y(元 )与该周每天销售这种服装件数 x 之间的一组数据如下表:x3 4 5 6 7 8 9 y66697381899091(1)求样本点的中心;(2)画出散点图;(3)求纯获利 y 与每天销售件数 x 之间的回归方程.- -【解】(1) x =6, y ≈79.86,样本点的中心为 (6,79.86).(2)散点图如下:7--x i - xi - yi = 1y^^ -^-因为 =≈51.36,≈4.75,a = y-bx(3)b7- 2x i - xi = 1所以 ^= +y 4.75x 51.36.10.为了研究某种细菌随时间 x 变化繁殖个数 y 的变化,收集数据如下:时间 x/天1 2 3 4 5 6繁殖个数 y 612 25 49 95 190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求 y 与 x 之间的回归方程.【解】 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y=c1ec2x 的周围,于是令 z= ln y,则x123456z 1.79 2.48 3.22 3.89 4.55 5.25^^0.69x+ 1.112由计算器算得, z=0.69x+1.112,则有 y=e.[能力提升 ]1.(2016 ·青岛一中调研 )某学生四次模拟考试中,其英语作文的减分情况如表:考试次数 x1234所减分数 y 4.543 2.5显然所减分数 y 与模拟考试次数x 之间有较好的线性相关关系,则其线性回归方程为 ()A.y=0.7x+ 5.25 C.y=- 0.7x+6.25B. y=- 0.6x+ 5.25 D. y=- 0.7x+5.25【解析】由题意可知,所减分数y 与模拟考试次数x 之间为负相关,所以排除 A.1考试次数的平均数为x =4(1+2+3+4)=2.5,1所减分数的平均数为y =4(4.5+ 4+3+2.5)= 3.5,即直线应该过点 (2.5,3.5),代入验证可知直线y=- 0.7x+5.25 成立,故选D.【答案】D2.某研究机构对高三学生的记忆力x 和判断力 y 进行统计分析,得下表数据:x681012y2 3 5 6若 x 与 y 具有线性相关关系,则线性回归方程为 ________.【解析】n- = 6+8+10+12i i = 6× 2+ 8×3+10×5+12× 6= 158, x=x y4 i =19,- = 2+ 3+ 5+6y 4=4,nx 2i =62+82+102+122=344,i = 1^ 158-4×9×414b = 344-4×92 =20= 0.7,^ - ^-a = y -b x =4- 0.7× 9=- 2.3,^故线性回归方程为 y =0.7x -2.3.^【答案】 y =0.7x -2.33.某品牌服装专卖店为了解保暖衬衣的销售量y(件 )与平均气温 x(℃ )之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间二月上旬二月中旬二月下旬三月上旬旬平均气温 x(℃ )3 8 12 17旬销售量 y(件)55m3324由表中数据算出线性回归方程(1)表中数据 m =__________.^ ^ ^ ^y =bx +a 中的 b =- 2,样本中心点为(10,38).(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__________件.【解析】(1)由 y =38,得 m = 40.^^ ^ =58,由= y - bx,得(2) aa故^=- + ,y2x 58当 = 时, ^= ,x 22 y 14故三月中旬的销售量约为 14 件.【答案】(1)40 (2)144.(2015 ·全国卷Ⅰ )某公司 确定下一年度投入某种 品的宣 ,需了解年宣 x( 位:千元 ) 年 售量 y( 位:t)和年利 z( 位:千元 )的影响.近 8 年的年宣 x i 和年 售量 y i (i =1,2,⋯, 8)数据作了初步 理,得到下面的散点 及一些 量的 .3-1-28i888(w i -(w i -(x i -i = 1 (x -i = 1i = 1i =1xywx ) 2 w ) 2i - y )i - y )x )(yw )(y46.6 563 6.8289.8 1.61 469108.8表中 w i = x i ,w] = 18w i .8i = 1(1)根据散点 判断, y = a +bx 与 y =c +d x 哪一个适宜作 年 售量y 关于年宣 x 的回 方程 型? ( 出判断即可,不必 明理由 )(2)根据 (1)的判断 果及表中数据,建立y 关于 x 的回 方程;(3)已知 种 品的年利z 与 x ,y 的关系 z = 0.2y -x.根据 (2)的 果回答下列 :①年宣 x = 49 ,年 售量及年利 的 是多少?②年宣 x 何 ,年利 的 最大?附: 于一 数据 (u 1,v 1 , 2,v 2 ,⋯,n ,v n,其回 直 v =α+βu) (u )(u)nu i - uv i - v^i = 1^^的斜率和截距的最小二乘估 分β=,α= v -β u .nu i - u 2i = 1【解】(1)由散点图可以判断, y =c +d x 适宜作为年销售量 y 关于年宣传费 x 的回归方程类型.(2)令 w = x ,先建立 y 关于 w 的线性回归方程.8w i - w y i - y^ i =1108.8由于 d =8 w i - w2 = 1.6 = 68,i =1^ = y ^= - × = ,c - dw563 68 6.8 100.6^,所以 y 关于 w 的线性回归方程为 y =100.6+ 68w^因此 y 关于 x 的回归方程为 y =100.6+ 68 x.(3)①由 (2)知,当 x = 49 时,^49= 576.6,年销售量 y 的预报值 y = 100.6+ 68^年利润 z 的预报值 z =576.6×0.2-49=66.32.②根据 (2)的结果知,年利润 z 的预报值^x +20.12.z =0.2(100.6+68 x)- x =- x +13.613.6^所以当 x = 2 =6.8,即 x =46.24时, z 取得最大值.故年宣传费为 46.24千元时,年利润的预报值最大 .高中数学学习技巧:在学习的过程中逐步做到:提出问题,实验探究,展开讨论,形成新知,应用反思。
3.11.下列两个变量之间的关系不是函数关系的是( ) A .正方体的棱长和体积 B .角的弧度数和它的正弦值 C .单产为常数,土地面积和总产量 D .日照时间与水稻的亩产量A ,B ,C 中的两个变量都是一种确定性关系,即函数关系. 故应选D. D2.工人月工资y (元)依劳动生产率x (千元)变化的回归方程为y ^=80x +50,下列判断正确的是( )A .劳动生产率为1 000元时,月工资为130元B .劳动生产率每提高1 000元时,月工资平均提高80元C .劳动生产率每提高1 000元时,月工资平均提高130元D .当月工资为210元,劳动生产率为2 000元线性回归方程y ^=b ^x +a ^中,b ^=80是斜率的估计值,说明劳动生产率提高一个单位(千元)时,工资就提高约80个单位(元).故应选B. B3.为了考察两个变量x 和y 之间的线性相关性.甲、乙两位同学各自独立地做了10次和15次试验,并且利用线性回归方程,求得回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都为t ,那么下列说法正确的是( )A .l 1与l 2相交于点(s ,t )B .l 1与l 2相交,相交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合回归直线y ^=a +bx 中的系数a =y -b x ,所以,方程又可以写成:y ^=y -b x +bx .显然,当x =x 时,y =y ,所以,回归直线一定通过定点(x ,y ).这里的x =s ,y=t ,也即是说,所得回归直线方程恒过点(s ,t ),所以,l 1与l 2有交点(s ,t ),但是考虑到一般数据之间是有误差的,所以,不一定重合.故应选A. A4.已知两个变量x 和y 之间有线性相关性,5次试验的观测数据如下表:x 100 120 140 160 180 y4554627592那么变量y 关于x 由线性回归的参数公式可求得b ^=0.575,a ^=-14.9,所以线性回归方程为y ^=-14.9+0.575x .y ^=-14.9+0.575x5.以下是某地区的降雨量与年平均气温的一组数据: 年平均气温(℃) 12.51 12.84 12.84 13.69 13.33 12.74 13.05 年降雨量(mm)542507813574701432464有”)相关关系.画出散点图观察可知,降雨量与年平均气温没有相关关系.∴不具有. 不具有6.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2(1)以x (2)求y 与x 之间的回归方程,对于基本苗数56.7预报成熟期有效穗; (3)计算各组残差画出残差图,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? (1)散点图如图所示.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.故所求的回归直线方程为y ^=34.67+0.291x . 当x =56.7时,y ^=51.169 7. 估计成熟期有效穗为51.169 7.即解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%. 所以,随机误差对有效穗数的影响约占1-83.2%=16.8%.。
自我小测一、选择题1.班级与成绩2×2列联表:表中数据m,n,p,q的值应分别为().A.70,73,45,188B.17,73,45,90 C.73,17,45,90 D.17,73,45,45 2.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为:对同一样本,以下数据能说明X与Y有关的可能性最大的一组为().A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5 D.a=3,b=2,c=4,d=53.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出().A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%4.(2011湖南高考,文5)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=2()()()()()n ad bca b c d a c b d-++++算得,K2=2110(40302020)60506050⨯⨯-⨯⨯⨯⨯≈7.8.附表:参照附表,得到的正确结论是().A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:则大约有多大的把握认为多看电视与人变冷漠有关系().A.99.9%B.97.5% C.95% D.90%二、填空题6.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:______(填“是”或“否”).7.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到随机变量K2的观测值:k=250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844>3.841.因此,判定主修统计专业与性别有关系,那么这种判断出错的概率为________.8.某中学2010年共91人参加高考,统计数据如下:则考生的户口形式和高考录取的关系是______.(填无关或多大把握有关)参考答案1.答案:B解析:m=10+7=17,n=35+38=73,p=7+38=45,q=45+p=90.故B正确.2.答案:D解析:对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强.通过计算知,对于选项A,B,C,都有|ad-bc|=|10-12|=2.对于选项D,有|ad-bc|=7.3.答案:C解析:由图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故B,D不正确.由图知,男生比女生喜欢理科的可能性大些.4.答案:A解析:因为7.8>6.635,所以有99%以上的把握认为“爱好该项运动与性别有关”.5.答案:A解析:可计算K2的观测值k≈11.377>10.828.6.答案:是解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即1858ba b=+,2742dc d=+,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.7.答案:0.05解析:根据k>3.841,可判断在犯错误的概率不超过0.05的前提下,认为主修统计专业与性别有关系.故出错的概率为0.05.8.答案:无关解析:2×2列联表如下:统计假设H0:考生的户口形式对高考录取没有影响.计算K2的观测值k=291(31172419)55365041⨯⨯⨯⨯⨯⨯-≈0.11.由于0.11<2.706,所以我们接受统计假设,故考生的户口形式和高考录取无关.。
温馨提示:此套题为Word版,请按住Ctrl,滑动鼠标滚轴,调节合适的观看比例,答案解析附后。
关闭Word文档返回原板块。
课堂达标·效果检测1.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线,以下结论正确的是( )A.直线l过点 (,)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同【解析】选A.回归直线一定过这组数据的样本点的中心,故A正确.两个变量的相关系数不是直线的斜率,而是需要用公式求出,故B不正确.两个变量的相关系数的绝对值小于等于1,故C不正确.所有的样本点集中在回归直线附近,不一定两侧一样多,故D不正确.2.某车间加工零件的数量x与加工时间y的统计数据如表:零件数x(个) 10 20 30加工时间y(分钟) 21 30 39现已求得上表数据的线性回归方程=x+中的值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )A.84分钟B.94分钟C.102分钟D.112分钟【解析】选C.由表中数据得:=20,=30,又值为0.9,故=30-0.9×20=12,所以=0.9x+12.将x=100代入线性回归方程,得=0.9×100+12=102(分钟).所以预测加工100个零件需要102分钟.3.对某城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查后知,y与x具有线性相关关系,满足线性回归方程y=0.6x+1.5,若该城市居民人均消费水平为7.5(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为.【解析】因为y与x具有线性相关关系,满足线性回归方程y=0.6x+1.5,该城市居民人均消费水平为y=7.5,由7.5=0.6x+1.5,得x=10,所以可以估计该城市的职工人均工资水平为10,所以可以估计该城市人均消费额占人均工资收入的百分比约为×100%=75%.答案:75%4.为了对某校高三(1)班9月月考成绩进行分析,在全班同学中随机抽出5位,他们的数学分数、物理分数、化学分数(均已折算为百分制)对应如表:学生编号 1 2 3 4 5数学分数x 75 80 85 90 95物理分数y 73 77 80 87 88化学分数z 78 85 87 89 91(1)求这5位同学中数学和物理分数都不小于85分的概率.(2)从散点图分析,y与x,z与x之间都有较好的线性相关关系,分别求y与x,z与x的线性回归方程,并用相关指数比较所求回归模型的拟合效果.【解析】(1)这5位同学中数学和物理分数都不小于85分,共有2人,故概率为P=.(2)设y与x, z与x的线性回归方程分别是=x+,=′x+′,根据所给的数据,可以计算出==0.8,=81-0.8×85=13,′==0.6,′=86-0.6×85=35.所以=0.8x+13,=0.6x+35,所以(y i-)2=02+02+(-1)2+22+(-1)2=6,所以(z i-)2=(-2)2+22+12+02+(-1)2=10,又y与x,z与x的相关指数是R2=1-≈0.964,R′2=1-≈0.90.故回归模型=0.8x+13比回归模型=0.6x+35的拟合的效果好.关闭Word文档返回原板块。
3.1回归分析的基本思想及其初步应用填一填1.回归分析(1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)回归方程的相关计算对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n).设其回归直线方程为y^=b^x+a^,其中a^,b^是待定参数,由最小二乘法得b^=∑i=1n(x i-x-)(y i-y-)∑i=1n(x i-x-)2=∑i=1nx i y i-n x-·y-∑i=1nx2i-n x-2,a^=y--b^x-.(3)线性回归模型线性回归模型的完整表达式为⎩⎪⎨⎪⎧y=bx+a+e,E(e)=0,D(e)=σ2,其中a,b为模型的未知参数,通常e为随机变量,称为随机误差,x称为解释变量,y称为预报变量.2.线性回归分析(1)残差:对于样本点(x i,y i)(i=1,2,…,n)的随机误差的估计值e^i=y i-y^i称为相应于点(x i,y i)的残差,∑i=1n(y i-y^i)2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y-)2越接近1,表示回归的效果越好.判一判判断(1.残差平方和越小,线性回归模型的拟合效果越好.(√)2.在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.(×)3.R2越小,线性回归模型的拟合效果越好.(×)4.求线性回归方程前可以不进行相关性检验.(×)5.在残差图中,纵坐标为残差,横坐标可以选为样本编号.(√)6.随机误差也就是残差.(×)7.利用线性回归方程求出的值是准确值.(×) 8.线性回归方程一定过样本点的中心.(√)想一想1.提示:(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.2.通过教材P 81中的例1计算出的回归方程y ^=0.849x -85.712可以预报身高为172 m 的女大学生的体重为60.316 kg ,请问,身高为172 cm 的女大学生的体重一定是60.316 kg 吗?为什么?提示:不一定.从散点图可以看出,样本点散布在一条直线的附近,而不是在一条直线上,所以不能用一次函数y =bx +a 表示.3.如何理解相关指数R 2?提示:R 2越接近于1,模型拟合效果越好,对实际问题有更准确的指导作用,预报更准确. 4.非线性回归方程的求法.提示:(1)根据原始数据(x ,y )作出散点图; (2)根据散点图,选择恰当的拟合函数;(3)作恰当的变换,将其转化成线性函数,求线性回归方程; (4)在(3)的基础上通过相应的变换,即可得非线性回归方程. 思考感悟:练一练1.已知x 与yx 0 1 2 3 y 1 3 5 7则y 与x 的线性回归方程y ^=b x +a 必过点( )A .(2,2)B .(1.5,0)C .(1,2)D .(1.5,4)解析:回归直线过样本点的中心(x -,y -).又x -=0+1+2+34=1.5,y -=1+3+5+74=4.故选D 项.答案:D2.在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 答案:A3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y=12x +1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:1知识点一 线性回归方程1.现取8对观测值,计算得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1849,则y 与x 之间的回归方程为________.解析:利用公式b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a ^=y --b ^x -代入数据即可求得.答案:y ^=11.47+2.62x2.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据x 6 8 10 12 y 2 3 5 6(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为7的同学的判断力. 解析:(1)散点图如图所示.(2)x -=6+8+10+124=9,y -=2+3+5+64=4,b ^=∑i =14(x i -x -)(y i -y -)∑i =14(x i -x -)2=1420=0.7, a ^=y --b ^x -=4-0.7×9=-2.3,故线性回归议方程为y ^=0.7x -2.3. (3)由(2)中线性回归方程知,当x =7时, y ^=0.7×7-2.3=2.6,3.y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10.答案:104.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0,故R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2=1-0=1.答案:15.为研究质量x (单位:g )对弹簧长度y (单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:(1)(2)求出R 2并说明回归模型拟合的程度; (3)进行残差分析.解析:(1)散点图如图.x -=16×(5+10+15+20+25+30)=17.5,y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,计算得b ^≈0.183,a ^≈6.285.故所求回归直线方程为y ^=6.285+0.183x . (2)列出残差表为y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y --2.237 -1.367-0.5370.4131.4132.313所以∑i =16(y i -y ^i )2≈0.013 18,∑i =16(y i -y -)2=14.678 3.所以,R 2=1-0.013 1814.678 3≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个样本点的时候是否有人为的错误,如果有的话,需要纠正,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由知识点三 非线性相关关系6.x 0.25 0.5 1 2 4 y 16 12 5 2 1如何建立y 与x 解析:画出散点图如图①所示,观察可知y 与x 近似是反比例函数关系.设y =k x (k ≠0),令t =1x,则y =kt .可得到x 关于t 的数据如下表:t 4 21 0.5 0.25 y 1612 5 2 1画出散点图如图②所示,观察可知t和y有较强的线性相关性,因此可利用线性回归模型进行拟合,易得b ^=∑i=15t iy i-5t-y-∑i=15t2i-5t-2≈4.134 4,a^=y--b^t-≈0.791 7,所以y^=4.134 4t+0.791 7,所以y与x的回归方程是y^=4.134 4x+0.791 7.7.为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下时间x/天12345 6繁殖个数y 612254995190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程.解析:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1=c1e c2x的周围,于是令z=ln y,则x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25由计算器算得,z=0.69x+1.115,则有y=e0.69x+1.115.基础达标一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C .l 1与l 2必定平行D .l 1与l 2必定重合解析:都过样本中心点(s ,t ),但斜率不确定. 答案:A2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得线性回归方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元的家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:由题意可得x -=15×(8.2+8.6+10.0+11.3+11.9)=10,y -=15×(6.2+7.5+8.0+8.5+9.8)=8,∴a ^=8-0.76×10=0.4,∴线性回归方程为y ^=0.76x +0.4,把x =15代入,可得y ^=0.76×15+0.4=11.8.故选B 项. 答案:B3.已知x ,y 取值如下表:若x ,y 具有线性相关关系,且回归方程为y =0.95x +a ,则a =( ) A .0.325 B .2.6 C .2.2 D .0解析:由已知x -=2,y -=4.5,而回归方程过点(x -,y -),则4.5=0.95×2+a ,∴a =2.6. 答案:B4.关于残差图的描述错误的是( ) A .残差图的横坐标可以是样本编号B .残差图的横坐标也可以是解释变量或预报变量C .残差点分布的带状区域的宽度越窄相关指数越小D .残差点分布的带状区域的宽度越窄残差平方和越小解析:残差点分布的带状区域的宽度越宽,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R 2的值越大,故描述错误的是选项C.答案:C5.如图,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )A .相关系数r 变大B .残差平方和变大C .相关指数R 2变大D .解释变量x 与预报变量y 的相关性变强解析:由散点图知,去掉D 后,x 与y 的相关性变强,且为正相关,所以r 变大,R 2变大,残差平方和变小.答案:B 6.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5亿元 解析:代入数据y =10+e ,因为|e |≤0.5,所以9.5≤y ≤10.5,故不会超过10.5亿元. 答案:C7.若一函数模型为y =sin 2α+2sin α+1,为将y 转化为t 的回归直线方程,则需作变换t 等于( )A .sin 2αB .(sin α+1)2C.⎝⎛⎭⎫sin α+122 D .以上都不对 解析:因为y 是关于t 的回归直线方程,实际上就是y 关于t 的一次函数,又因为y =(sin α+1)2,若令t =(sin α+1)2,则可得y 与t 的函数关系式为y =t ,此时变量y 与变量t 是线性相关关系. 答案:B 二、填空题8.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如表:甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103则________ 答案:丁9.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间 二月上旬 二月中旬 二月下旬 三月上旬 旬平均气温x (℃) 3 8 12 17旬销售量y (件)55 m 33 24由表中数据算出线性回归方程y =b x +a 中的b =-2,样本中心点为(10,38). (1)表中数据m =________.(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为________件.解析:(1)由y -=38,得m =40. (2)由a ^=y --b ^x -,得a ^=58, 故y ^=-2x +58,当x =22时,y ^=14,故三月中旬的销售量约为14件. 答案:(1)40 (2)1410.对于线性回归方程y ^=a ^+b ^x ,当x =3时,对应的y 的估计值是17,当x =8时,对应的y 的估计值是22,那么,该回归直线方程是________,根据回归直线方程判断当x =________时,y 的估计值是38.解析:首先把两组值代入回归直线方程得 ⎩⎪⎨⎪⎧ 3b ^+a ^=17,8b ^+a ^=22⇒⎩⎪⎨⎪⎧b ^=1,a ^=14. 所以回归直线方程是y ^=x +14. 令x +14=38,可得x =24,即当x =24时,y 的估计值是38.答案:y ^=x +14 24 11.若对于变量y 与x 的10组统计数据的回归模型中,R 2=0.95,又知残差平方和为120.53,那么∑i =110(y i -y -)2的值为________.解析:依题意有0.95=1-120.53∑i =110(y i -y -)2,所以∑i =110 (y i -y -)2=2 410.6.答案:2 410.612.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析:由相关指数R 2的意义可知,R 2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案:85% 15% 三、解答题13.某服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:(1)(2)画出散点图;(3)求纯获利y 与每天销售件数x 之间的回归方程.解析:(1)x -=6,y -≈79.86,即样本中心点(6,79.86).(2)散点图如下图:(3)因为b ^=∑i =17(x i -x -)(y i -y -)∑i =17(x i -x -)2≈4.75,a ^=y --b ^x -≈51.36,所以y ^=4.75x +51.36. 14.关于x 与y 有如下数据:x 2 4 5 6 8 y 30 40 60 50 70 有如下的两个线性模型:(1)y =6.5x +17.5;(2)y =7x +17 试比较哪一个拟合效果更好.解析:由(1)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -0.5 -3.5 10 -6.5 0.5 y i -y --20 -10 10 020所以∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,∑i =15(y i -y -)2=(-20)2+(-10)2+102+02+202=1 000.所以R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y -)2=1-1551 000=0.845.由(2)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y --20 -10 1020所以∑i =15(y i -y ^i )2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,∑i =15(y i -y -)2=(-20)2+(-10)2+102+02+202=1 000.所以R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y -)2=1-1801 000=0.82.由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.所以(1)的拟合效果好于能力提升15.据统计如下:月份 4 5 6 7 8 9月用电量(千瓦时/月) 6 16 27 55 46 56(1)请指出哪组数据有误,并说明理由;(2)在排除有误数据后,求月用电量与月份之间的回归方程y ^=b ^x +a ^,并预测统计有误那个月份的用电量.(结果精确到0.1)解析:(1)作散点图如图所示.因为用电量与月份之间线性相关,所以散点图的样本点分布在回归直线附近比较窄的带状区域内,而点(7,55)离其他点所在区域较远,故(7,55)这组数据有误.(2)排除(7,55)这一组有误数据后,计算得 x -=6.4,y -=30.2.因为b ^=∑i =15x i y i -5x - y-∑i =15x 2i -5x -2≈9.98,a ^=y --b ^x -≈-33.67,所以回归方程为y ^=9.98x -33.67,当x =7时,y ^≈36.2,即7月份的用电量大约为36.2千瓦时.16.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,于是对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)的数据作了初步处理,得到如图所示的散点图及一些统计量的值.x - y - w - ∑i =18(x i -x -)2∑i =18(w i -w -)2∑i =18(x i -x -)(y i -y -) ∑i =18(w i -w -)y ^(y i -y -) 46.65636.8289.8 1.61 469 108.8注:表中w i =x i ,w -=18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 之间的关系为z =0.2y -x ,根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?解析:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w -)(y i -y -)∑i =18(w i -w -)2=108.81.6=68, c ^=y --d ^w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2×(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
自我小测1.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( )A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合 2.已知x ,y 取值如下表:若x ,y 具有线性相关关系,且回归方程为y =0.95x +a ,则a =( ) A .0.325 B .2.6 C .2.2 D .03.在判断两个变量y 与x 是否相关时,选择了4个不同的模型,它们的相关指数R 2分别为:模型1的相关指数R 2为0.98,模型2的相关指数R 2为0.80,模型3的相关指数R 2为0.50,模型4的相关指数R 2为0.25.其中拟合效果最好的模型是( )A .模型1B .模型2C .模型3D .模型44.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x A .y =x -1 B .y =x +1 C .y =88+12x D .y =1765.如果某地的财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过________亿元.6.若对于变量y 与x 的10组统计数据的回归模型中,R 2=0.95,又知残差平方和为120.53,那么∑10i =1(y i -y )2的值为________. 7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑6i =1x 2i =79,∑6i =1x i y i =1 481. 则销量每增加1 000箱,单位成本下降________元.8.某服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:(1)(2)画出散点图;(3)求纯获利y 与每天销售件数x 之间的回归方程.9.为了研究某种细菌繁殖的个数随时间x 变化的情况,收集如下数据:(1) (2)观察散点图是否可用曲线21ec xy c 拟合,描述解释变量与预报变量之间的关系.参考答案1.解析:都过样本中心点(s ,t ),但斜率不确定. 答案:A2.解析:由已知x =2,y =4.5,而回归方程过点(x ,y ).则4.5=0.95×2+a ,∴a =2.6.答案:B3.解析:相关指数R 2能够刻画用回归模型拟合数据的效果,相关指数R 2的值越接近于1,说明回归模型拟合数据的效果越好.答案:A4.解析:法一:由线性回归直线方程过样本中心(176,176),排除A ,B 选项,结合选项可得C 为正确选项.法二:将表中的五组数值分别代入选项验证,可知y =88+12x 最适合.答案:C5.解析:∵当x =10时,y =0.8×10+2+e =10+e , 又∵|e |≤0.5,∴y ≤10.5. 答案:10.56.解析:依题意有0.95=1-120.53∑10i =1(y i -y )2,所以∑10i =1(y i -y )2=2 410.6. 答案:2 410.67.解析:由题意知b ^=1 481-6×72×7179-6×⎝⎛⎭⎫722≈-1.818 2,a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,所以销量每增加1千箱,单位成本下降1.818 2元.答案:1.818 28.解:(1)x =6,y ≈79.86,即样本中心点(6,79.86). (2)散点图如下图:(3)因为b ^=∑7i =1 (x i -x )(y i -y )∑7i =1(x i -x )2≈4.75, a ^=y -b ^ x ≈51.36,所以y ^=4.75x +51.36. 9.解:(1)作出散点图,如图(2)由散点图可以看出样本点分布在一条指数型函数21e c xy c =曲线的周围,于是令z =l ny ,则由计算得z ^=0.69x +1.115, 则有y ^=e 0.69x +1.115.。
自我小测
一、选择题
1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是().
A.l1和l2有交点(s,t) B.l1与l2相交,但交点不一定是(s,t) C.l1与l2必定平行D.l1与l2必定重合
2.下列四个命题中正确的是().
①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.
A.①③B.②④C.①④D.②③
3.已知x,y取值如下表:
若x,y具有线性相关关系,且回归方程为ˆy=0.95x+a,则a=().
A.0.325 B.2.6 C.2.2 D.0
4.某学校开展研究性学习活动,某同学获得一组实验数据如下表:
对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是().
A.y=2x-2 B.y=
1
2
x
⎛⎫
⎪
⎝⎭
C.y=log2x D.y=
1
2
(x2-1)
5.若某地财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5.如果今年该地区财政收入10亿元,年支出预计不会超过().
A.10亿B.9亿C.10.5亿D.9.5亿
二、填空题
6.在研究身高和体重的关系时,求得相关指数R2≈______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.
7.(2011辽宁高考,文14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y 对x的回归直线方程:ˆy=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
8.(2011广东高考,文13)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:
小李这5天的平均投篮命中率为__________,用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为__________.
三、解答题
9.(2011安徽高考,文20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
(1)利用所给数据求年需求量与年份之间的回归直线方程ˆy=bx+a;
(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
参考答案
1. 答案:A 解析:都过样本中心点(s ,t ),但斜率不确定.
2. 答案:B 解析:e 是预报变量y 的随机误差,故①不正确;R 2越接近1,拟合的效果越好,故③不正确;故选B.
3. 答案:B 解析:由已知x =2,y =
4.5,而回归方程过点(x ,y ).则4.5=0.95×2+a ,∴a =2.6.
4. 答案:D 解析:可以代入检验,残差平方和最小的拟合程度最高.
5. 答案:C 解析:代入数据y =10+e ,因为|e |≤0.5,所以|y |≤10.5,故不会超过10.5亿.
6. 答案:0.64 解析:结合相关指数的计算公式R 2=1-
2
1
2
1
ˆ()()
n
i
i
i n
i
i y y
y y ==--∑∑可知,当R 2=
0.64时,身高解释了64%的体重变化.
7. 答案:0.254 解析:设年收入为x 1万元,对应的年饮食支出为y 1万元, 家庭年收入每增加
1
万元,则年饮食支出平均增加
111
0.254(1)0.3210.2540.321
1x x x x ++--+-=0.254(万元).
8. 答案:0.5 0.53 解析:这5天的平均投篮命中率为
0.40.50.60.60.4
5
y =
++++=0.5.
123455x ++++==3.
5
1
()()i
i
i x x y y =--∑=(1-3)×(0.4-0.5)+(2-3)×(0.5-0.5)+(3-3)×(0.6-0.5)+(4
-3)×(0.6-0.5)+(5-3)×(0.4-0.5)=0.1.
5
2
1
()
i
i x x =-∑=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10.
0.1ˆ10
b
==0.01,ˆˆa b =- x =0.5-0.03=0.47.
所以回归直线方程为ˆy
=0.01x +0.47. 当x =6时,ˆy
=0.01×6+0.47=0.53. 9. 解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:
对预处理后的数据,容易算得
x =0,y =3.2.
b =
2222
(4)(21)(2)(11)219429
4224
⨯⨯⨯⨯--+--+++++ =26040
=6.5,
a =y -
b x =3.2.
由上述计算结果,知所求回归直线方程为
ˆy
-257=b (x -2 006)+a =6.5(x -2 006)+3.2,即ˆy =6.5(x -2 006)+260.2.① (2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨).。