苏教版高中数学选修(1-2)-1.2拓展资料:例谈回归分析的应用
- 格式:doc
- 大小:132.00 KB
- 文档页数:2
课堂导学三点剖析各个击破一、求线性回归方程【例1】研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如下:水深x(m)1。
401。
50 1.601。
70 1.80 1.902。
00 2.10流速y(m/s)1。
70 1.79 1.88 1.95 2.03 2.102。
16 2.21(1)求对的回归直线方程;(2)预测水深为1。
95 m时水的流速是多少?解:(1)散点图如下图所示.列表计算aˆ与回归系数bˆ.序号x i y i x i2y i2x i y i11。
401。
701。
962。
8902。
38021。
50 1.79 2.25 3.2041 2.68531。
60 1.882。
563。
53443。
0084 1.70 1.95 2.893。
80253。
3155 1.802。
033。
244。
1209 3.65461。
90 2.10 3.614。
41003。
99075.1148x =⨯=,9775.182.158y =⨯=,∑x i 2=24.92,∑y i 2=31.511 6,∑x i y i =27。
993,∴275.1892.249775.175.18993.27ˆ⨯-⨯⨯-=b ≈0。
733, x ˆ-y ˆb a==1。
977 5-0。
733×1。
75=0.694 8, ∴y 对x 的回归直线方程为x ˆˆˆb a y+==0。
694 8+0.733x 。
(2)在本题中回归系数b ˆ=0.733的意思是:在此灌溉渠道中,水深每增加0.1 m 水的流速平均增加0。
733 m/s, aˆ=0.694 8,可以解释为水的流速中不受水深影响的部分,把x =1。
95代入得到yˆ=0.694 8+0。
733×1。
95≈2.12 m/s,计算结果表明:当水深为1.95 m 可以预报渠水的流速约为2。
12 m/s 。
类题演练 1关于人体的脂肪含量(百分比)和年龄关系的研究中,研究人员获得了一组数据:(1)作散点图;(2)求y与x之间的回归线方程;(3)给出37岁人的脂肪含量的预测值.解:(1)略(2)设方程为yˆ=b x+a,则由计算器算得a=-0.448,b=0。
1.1 回归分析的基本思想及其初步应用[学习目标] 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.[知识链接]1.什么叫回归分析?答回归分析是对具有相关关系的两个变量进行统计分析的一种方法.2.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜欢运动等.[预习导引] 1.线性回归模型(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x ,其中(x ,y )称为样本点的中心.(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量. 2.残差的概念对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差. 3.刻画回归效果的方式 (1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高. (2)残差平方和法残差平方和∑i =1n(y i -y ^i )2,残差平方和越小,模型拟合效果越好.(3)利用R 2刻画回归效果R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2;R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好.要点一求线性回归方程例1某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y对数学成绩x的线性回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.解(1)散点图如图.(2)x=15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174.所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=25 054-5×73.2×67.827 174-5×73.22≈0.625.a ^=y -b ^x ≈67.8-0.625×73.2=22.05. 所以y 对x 的线性回归方程是y ^=0.625x +22.05. (3)x =96,则y ^=0.625×96+22.05≈82, 即可以预测他的物理成绩是82.规律方法 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析. (2)求线性回归方程,首先应注意到,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.跟踪演练1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请画出上表数据的散点图((2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. 解 (1)如图:(2)∑ni =1x i y i =6×2+8×3+10×5+12×6=158, x =6+8+10+124=9,y =2+3+5+64=4,∑ni =1x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7,a ^ =y -b ^x =4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.要点二 线性回归分析例2 为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:(1)(2)求出R 2; (3)进行残差分析.解 (1)散点图如图x =16(5+10+15+20+25+30)=17.5,y =16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2 275,∑i =16x i y i =1 076.2计算得,b ^≈0.183,a ^≈6.285, 所求线性回归方程为y ^=0.183x +6.285. (2)列表如下:所以∑i =16 (y i -y ^i )2≈0.013 18,∑i =16(y i -y )2=14.678 4.所以,R 2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.规律方法 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.若残差点比较均匀地分布在水平带状区域内,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高. 跟踪演练2 关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.5x +17.5,乙:y ^=7x +17,试比较哪个模型拟合的效果更好. 解 由题意得y =50.由甲模型可得y i -y ^i 与y i -y 的关系如下表:∴∑5i =1(y i -y ^i )2=155,∑i =1 (y i -y )2=1 000,∴R 2甲=1-∑5i =1(y i -y ^i )2∑5i =1(y i -y )2=1-1551 000=0.845.由乙模型可得y i -y ^i 与y i -y 的关系如下表:∴∑5i =1(y i -y ^i )2=180,∑i =1 (y i -y )2=1 000,∴R 2乙=1-∑5i =1(y i -y ^i )2∑5i =1(y i -y )2=1-1801 000=0.82.∵0.845>0.82,∴R2甲>R2乙,∴甲模型的拟合效果比乙模型的拟合效果好.要点三非线性回归分析例3下表为收集到的一组数据:(1)作出x与y(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.解(1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x的周围,其中c1,c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z =bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为求得回归直线方程为z=0.272x-3.849,^=e0.272x-3.849.∴y残差(3)当x=40时,y=e0.272×40-3.849≈1 131.规律方法解决非线性回归问题的方法及步骤(1)确定变量:确定解释变量为x,预报变量为y;(2)画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题;(4)分析拟合效果:通过计算相关指数等来判断拟合效果;(5)写出非线性回归方程.跟踪演练3在试验中得到变量y与x的数据如下表:试求y与x之间的回归方程,并预测x=40时,y的值.解作散点图如图所示,从散点图可以看出,两个变量x,y不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y=c1e c2x,通过对数变化把指数关系变为线性关系,令z=ln y,则z=bx+a(a=ln c1,b=c2).列表:从散点图可以看出,两个变量x ,z 呈很强的线性相关关系.由表中的数据得到线性回归方程为:z ^=0.277x -3.998.所以y 关于x 的指数回归方程为:y ^=e 0.277x -3.998. 所以,当x =40时,y =e0.277×40-3.998≈1 190.347.1.下列各组变量之间具有线性相关关系的是( ) A .出租车费与行驶的里程B .学习成绩与学生身高C .身高与体重D .铁的体积与质量[答案] C2.若劳动生产率x (千元)与月工资y (元)之间的线性回归方程为y ^=50+80x ,则下列判断正确的是( )A .劳动生产率为1 000元时,月工资为130元B .劳动生产率提高1 000元时,月工资平均提高80元C .劳动生产率提高1 000元时,月工资平均提高130元D .月工资为210元时,劳动生产率为2 000元[答案] B3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200B.y ^=10x +200C.y ^=-10x -200D.y ^=10x -200[答案] A[解析] 由于销售量y 与销售价格x 成负相关,故排除B 、D.又当x =10时,A 中y =100,而C 中y =-300,C 不符合题意,故选A.4.对两个变量x ,y 取得4组数据(1,1)(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下:甲:y =0.1x +1,乙:y =-0.05x 2+0.35x +0.7,丙:y =-0.8·0.5x +1.4,试判断三人谁的数学模型更接近于客观实际.解 对甲模型:y =0.1x +1,残差平方和∑i =14 (y i -y i ^ )2=0.010 9;对乙模型:y ^ =-0.05x 2+0.35x +0.7,残差平方和∑i =14 (y i -y i ^)2=0.004 9.对丙模型:y =-0.8·0.5x +1.4,残差平方和∑i =14 (y i -y i ^)2=0.000 4.显然丙的残差平方和最小,故丙模型更接近于客观实际.回归分析的基本思路(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);^=b^x+a^);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y(4)按一定规则估计回归方程中的参数;(5)提出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.。
1.2回归分析BCA案主备人:史玉亮审核人:吴秉政使用时间:2012.2.6 学习目标:1.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。
2.结合具体的实际问题,了解非线性回归问题的解决思路。
3.通过回归分析的学习,提高对现代计算技术与统计方法的应用意识。
B案一、基础整合1.召与回归系数b?的计算方法b?= _______________________ ,a?= ________________________ 。
2.样本相关系数(1)对于变量x与y随机抽取到的n对数据(x1,y1),(x2,y2),……,(x n,y n),检验统计量是样本相关系数r= ______________________________________________(2)_____________________________________________________________ r具有以下性质:r w 1,并且r越接近1,线性相关程度___________________________________ ;r越接近0,线性相关程度_______________________ 。
(3)检验的步骤如下:①作统计假设:x与y不具有_____________________ 关系。
②根据 __________ 与______________ 在附表中查出r的一个临界值r0.05。
③根据 ____________________ 计算公式算出r的值。
④作统计推断。
如果r| > “a,表明有____________ 的把握认为x与y之间具有线性相关关系;如果|r w r o.05,我们没有理由拒绝__________ 。
这时寻找回归直线方程是毫无意义的。
二、预习检测1.下列两变量具有相关关系的是( )A.正方体的体积与棱长B.匀速行驶的车辆的行驶距离与时间C.人的身高与体重D.人的身高与视力2.下列两变量是线性相关的是( )A.如果变量X与Y之间存在着线性相关关系,则我们根据试验数据得到的点(X i, yj(i =1,2,3,...,n)将散布在某一条直线附近B.如果两个变量X与Y之间不存在线性关系,那么根据试验数据不能写出一个线性方程C.设x、y是具有线性相关关系的两个变量,且回归直线方程是(•召,则b?叫回归系数D.为使求出的回归直线方程有意义,可用统计假设检验的方法判断变量X与Y之间是否存在线性相关关系4.在一次试验中,测得(x, y)的四组值分别是A(1,2), B(2,3),C(3,4), D(4,5),则y 与x之间的回归直线方程为()A. y?=x1B. ?=x 2C. ? = 2x1D. y? = x-1C案合作探究1.回归直线方程的适用范围是什么?2.建立回归直线方程的一般步骤是什么?3.由回归直线方程得到的变量的值是真实值吗?例某工厂月份某种产品的产量与成本的统计数据见下表。
1.2 回归分析问与答1.如何看待相关关系?答:相关性问题是日常生活中普遍存在的问题.生活中,有些变量之间存在着明显的函数关系,而有些变量之间不满足函数关系,但是它们之间又存在着一种明显的依赖关系.如你在测量体重时,电子仪器会给你提示———你很健康,或你偏胖,需加强锻炼等,电子仪器通常是凭借人的身高与体重的经验公式来作出判断的,这个经验公式反映的就是人的身高与体重之间的依赖关系.当然,两个变量之间的依赖关系有强有弱.评注:相关关系与函数关系的异同点:相同点:均是指两个变量之间的关系.不同点:(1)函数关系是一种确定的关系,如匀速直线运动中时间t 与路程s 的关系;相关关系是一种非确定关系,如一块农田的水稻产量与施肥量之间的关系.函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量之间的关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.怎样认识线形回归模型?答:两个变量之间的相关性可以用一条直线或曲线来进行拟合.如果两个变量之间的依赖关系是近似一条直线,那么这两个变量就是线性相关的;如果两个变量之间的依赖关系是近似一条曲线,那么这两个变量就是非线性相关的;如果两个变量之间不存在明显的依赖关系,那么这两个变量就是不相关的.当样本点散布在某一条直线的附近,而不是在一条直线上时,可用下面的线性回归模型来表示:y bx a e =++,其中a 和b 为模型的未知参数,e 称为随机误差.因变量y 的值由自变量x 和随机误差e 共同决定,即自变量x 只能解释部分y 的变化.3.如何估计线性回归模型中的未知参数a 和b ?答:最小二乘估计就是未知参数a 和b 的最好估计,其计算公式为:1122211()()ˆ()ˆn n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑其中11ni i x x n ==∑,11n i i y y n ==∑. 评注:对于任何给定的一组样本()(12)i i x y i n =,,,,都可以用最小二乘法建立起一个线性回归模型,相应地就可以得到一条回归直线.但是,这样的一条回归直线并不是总有意义的,只有当变量X 与Y 之间确实存在某种因果关系时,其回归直线才有意义.统计学中要确定变量X 和Y 之间是否确实存在线性相关,通常利用相关系数来检验.相关系数记作r ,它能够较精确地描述两个变量之间线性相关的密切程度.当0r >时称Y 与X 正相关;当0r >时称Y 与X 是负相关.。
1.2 回归分析课前导引问题导入19世纪德国统计学家恩格尔根据统计资料,对消费结构的变化得出一个规律:一个家庭收入越少,家庭收入中(或总支出中)用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中(或总支出中)用来购买食物的支出则会下降.推而广之,一个国家越穷,每个国民的平均收入中(或平均支出中)用于购买食物的支出所占比例就越大,随着国家的富裕,这个比例呈下降趋势.恩格尔系数是根据恩格尔定律得出的比例数,是表示生活水平高低的一个指标.其计算公如下:总支出金额食物支出金额恩格尔系数= 在我国,判定生活发展阶段的标准为:贫困>60%,温饱50%~60%小康40%~50%,富裕<40%据国家统计局统计显示,随着中国经济不断增长,城镇居民家庭恩格尔系数不断下降,恩格尔系数(%) 57.5 54.2 53.8 50.0 48.8 44.7 39.4 37.7 37.1年份 1978 1990 1992 1994 1996 1998 2000 2002 2003求:(1)根据年份预报恩格尔系数的回归方程;(2)预报2006年的恩格尔系数.解析:由于问题中要求根据年份预报恩格尔系数,因此选取年份为自变量x ,恩格尔系数为因变量y ,作散点图如下:(1)由最小二乘法得线性回归方程:yˆ=-0.901 8x +1 845.9 (2)有回归方程可知,2006年的恩格尔系数为-0.901 8×2 006+1 845.9=36.9.知识预览1.回归分析是对有__________的两个变量进行统计分析的常用方法,对两个具有__________关系的变量进行回归分析,我们采用求回归直线方程的方法.2.函数关系是一种__________关系,而相关关系是一种__________关系.3.在回归模型中,y 的值由x 和随机变量ε共同确定,x 称为是__________,ε称为是__________,y 称为是__________,总偏差平方和由__________和__________的总效应组成.4.由部分观测值得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将__________转化成__________来进行研究.答案:1.相关关系 相关2.确定性 非确定性3.解释变量 随机误差 预报变量 误差平方和 回归平方和4.整体 部分5.对于x , y 随机取到的n 对数据(x i , y i )(i=1,2,…,n),样本相关系数r 的计算公为 ))y n(y )()x n(x ()y -)(y x -(x r n 1i 22i n1i 22i n 1i i i ∑∑∑===--= ))y n(y )()x n(x (y x n y x n 1i 22i n1i 22i n 1i i i∑∑∑===---= r 具有如下性质:(1)|r|≤1;(2)|r|越接近于1,x ,y 的线性相关程度越强;(3)|r|越接近于0,x , y 的线性相关程度越弱.。
学习目标核心素养1.会作出两个有关联变量的散点图,并利用散点图认识变量间的相关关系.2.了解线性回归模型,能根据给出的线性回归方程系数公式建立线性回归方程.(重点、难点)3.了解回归分析的基本思想、方法及简单应用.1.通过学习线性回归分析,提升数据分析、数学建模素养.2.通过对相关关系的学习,提升数学运算、数学抽象素养.1.线性回归模型(1)线性回归模型的概念:将y=a+bx+ε称为线性回归模型,其中a+bx是确定性函数,ε称为随机误差.(2)线性回归方程:直线错误!=错误!+错误!x称为线性回归方程,其中错误!称为回归截距,错误!称为回归系数,错误!称为回归值,其中错误!其中错误!=错误!错误!x i,错误!=错误!错误!y i.2.相关关系(1)相关系数是精确刻画线性相关关系的量.(2)相关系数r=错误!=错误!.(3)相关系数r具有的性质:1|r|≤1;2|r|越接近于1,x,y的线性相关程度越强;3|r|越接近于0,x,y的线性相关程度越弱.(4)相关性检验的步骤:1提出统计假设H0:变量x,y不具有线性相关关系;2如果以95%的把握作出推断,那么可以根据1—0.95=0.05与n—2在附录2中查出一个r 的临界值r0.05(其中1—0.95=0.05称为检验水平);3计算样本相关系数r;4作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.思考1:在回归直线方程错误!=错误!+错误!x中,当一次项系数错误!为正数时,说明两个变量有何相关关系?在散点图上如何反映?[提示] 说明两个变量正相关,在散点图上自左向右看这些点呈上升趋势.思考2:有什么办法判断两个变量是否具有线性相关关系?[提示] 作出散点图,看这些点是否在某一直线的附近,或通过计算线性相关系数.1.若回归直线方程中的回归系数错误!=0,则相关系数为()A.r=1B.r=—1C.r=0 D.无法确定C[因为错误!=错误!=0时,有错误!(x i—错误!)(y i—错误!)=0,故相关关系r=错误!=0.]2.下列结论正确的是()1函数关系是一种确定性关系;2相关关系是一种非确定性关系;3回归分析是对具有函数关系的两个变量进行统计分析的一种方法;4回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.12B.123C.124D.1234C[函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故12正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故3错误,4正确.]3.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为错误!=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为()A.66% B.67%C.79% D.84%D[∵y与x具有线性相关关系,且满足回归方程错误!=0.6x+1.2,该城市居民人均工资为错误!=5,∴可以估计该城市的职工人均消费水平错误!=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为错误!=84%.]4.已知回归直线方程为错误!=2—2.5x,则x=25时,错误!的估计值为________.—60.5[因为错误!=2—2.5x,又x=25,所以错误!=2—2.5×25=—60.5.即错误!的估计值为—60.5.]回归分析的有关概念【例1】1线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;2利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;3通过回归方程错误!=错误!x+错误!,可以估计和观测变量的取值和变化趋势;4因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确的命题是__________(填序号).(2)如果某地的财政收入x与支出y满足线性回归方程错误!=错误!x+错误!+e(单位:亿元),其中错误!=0.8,错误!=2,|e|≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.(1)123(2)10.5[(1)1反映的正是最小二乘法思想,故正确.2反映的是画散点图的作用,也正确.3解释的是回归方程错误!=错误!x+错误!的作用,故也正确.4在求回归方程之前必须进行相关性检验,以体现两变量的关系,故不正确.(2)由题意可得:错误!=0.8x+2+e,当x=10时,错误!=0.8×10+2+e=10+e,又|e|≤0.5,∴9.5≤错误!≤10.5.故今年支出预计不会超过10.5亿.]1.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.2.由线性回归方程给出的是一个预报值而非精确值.3.随机误差的主要来源(1)线性回归模型与真实情况引起的误差;(2)省略了一些因素的影响产生的误差;(3)观测与计算产生的误差.1.下列有关线性回归的说法,不正确的是________(填序号).1自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;2在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;3线性回归方程最能代表观测值x,y之间的关系;4任何一组观测值都能得到具有代表意义的回归直线方程.4[只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.]求线性回归方程【例2】学生A B C D E学科成绩数学成绩(x)8876736663物理成绩(y)7865716461(2)求物理成绩y对数学成绩x的回归直线方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.[思路探究] 先画散点图,分析物理与数学成绩是否有线性相关关系,若相关,再利用线性回归模型求解.[解] (1)散点图如图所示.(2)由散点图可知y与x之间具有线性相关关系.因为错误!=错误!×(88+76+73+66+63)=73.2,错误!=错误!×(78+65+71+64+61)=67.8,错误!x i y i=88×78+76×65+73×71+66×64+63×61=25054,错误!x错误!=882+762+732+662+632=27 174.所以错误!=错误!=错误!≈0.625,错误!=错误!—错误!错误!≈67.8—0.625×73.2=22.05.所以y对x的回归直线方程是错误!=0.625x+22.05.(3)当x=96时,错误!=0.625×96+22.05≈82,即可以预测他的物理成绩是82.1.求线性回归方程的基本步骤2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.2.某商场经营一批进价是30元/台的小商品,在市场调查中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:x35404550y56412811(1)y保留一位有效数字)(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.[解] (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为错误!=错误!x+错误!,由题知错误!=42.5,错误!=34,则求得错误!=错误!=错误!≈—3,错误!=错误!—错误!错误!=34—(—3)×42.5=161.5,∴错误!=—3x+161.5.(2)依题意有P=(—3x+161.5)(x—30)=—3x2+251.5x—4845=—3错误!2+错误!—4845.∴当x=错误!≈42时,P有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润.线性回归分析[探究问题]1.作散点图的目的是什么?[提示] 直观分析数据是否存在线性相关关系.2.下表显示出变量y随变量x变化的一组数据,由此判断表示y与x之间的关系最可能的是________.(填序号)x45678910y14181920232528[提示] 画出散点图(图略),可以得到这些样本点在一条直线附近,故最可能是线性函数模型.故填1.【例3】10名同学在高一和高二的数学成绩如下表:x74717268767367706574y76757170767965776272其中x(1)y与x是否具有相关关系?(2)如果y与x具有线性相关关系,求回归直线方程.[思路探究] 可先计算线性相关系数r的值,然后与r0.05比较,进而对x与y的相关性做出判断.[解] (1)由已知表格中的数据,求得错误!=71,错误!=72.3,r=错误!≈0.78.由检验水平0.05及n—2=8,在课本附录2中查得r0.05=0.632,因为0.78>0.632,所以y与x之间具有很强的线性相关关系.(2)y与x具有线性相关关系,设回归直线方程为错误!=错误!+错误!x,则有错误!=错误!≈1.22,错误!=错误!—错误!错误!=72.3—1.22×71=—14.32.所以y关于x的回归直线方程为错误!=1.22x—14.32.1.线性回归分析必须进行相关性检验;若忽略,则所求回归方程没有实际意义.2.|r|越接近于1,两变量相关性越强,|r|越接近于0,两变量相关性越弱.3.关于两个变量x和y的7组数据如下表所示:x21232527293235y711212466115325试判断x与y[解] 错误!=错误!×(21+23+25+27+29+32+35)≈27.4,错误!=错误!×(7+11+21+24+66+115+325)≈81.3,错误!x错误!=212+232+252+272+292+322+352=5414,错误!x i y i=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,错误!y错误!=72+112+212+242+662+1152+3252=124393,∴r=错误!=错误!≈0.837 5.∵0.837 5>0.755,∴x与y之间具有线性相关关系.1.本节课的重点是线性回归方程的求法,及线性回归分析,相关关系;难点是恰当选择模型,求解回归方程.2.注意,回归直线方程一定过样本中心点(错误!,错误!).1.判断(正确的打“√”,错误的打“×”)(1)求回归直线方程前必须进行相关性检验.()(2)两个变量的相关系数越大,它们的相关程度越强.()(3)若相关系数r=0,则两变量x,y之间没有关系.()[答案] (1)√(2)×(3)√2.某产品的广告费用x与销售额y的统计数据如下表:6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元B[样本点的中心是(3.5,42),则错误!=错误!—错误!错误!=42—9.4×3.5=9.1,所以回归直线方程是错误!=9.4x+9.1,把x=6代入得错误!=65.5.]3.设某大学生的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为错误!=0.85x—85.71,则下列结论中正确的是________(填序号).(1)y与x具有正的线性相关关系;(2)回归直线过样本点的中心(错误!,错误!);(3)若该大学某女生身高增加1cm,则其体重约增加0.85kg;(4)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.(1)(2)(3)[回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,(1)正确;由回归方程系数的意义可知回归直线过样本点的中心(错误!,错误!),B正确;∵回归方程错误!=0.85x—85.71,∴该大学某女生身高增加1cm,则其体重约增加0.85kg,(3)正确;(4)不正确.]4.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:!错误!;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入—成本)[解] (1)错误!=错误!(8+8.2+8.4+8.6+8.8+9)=8.5,错误!=错误!(90+84+83+80+75+68)=80.∵错误!=—20,错误!=错误!—错误!错误!,∴错误!=80+20×8.5=250,∴回归直线方程为错误!=—20x+250.(2)设工厂获得的利润为L元,则L=x(—20x+250)—4(—20x+250)=—20错误!2+361.25,∴该产品的单价应定为错误!元时,工厂获得的利润最大.。
统计案例类型一线性回归方程的实际应用例1在某化学试验中,测得如下表所示的6组数据,其中x(min)表示化学反应进行的时间,y(mg)表示未转化的物质的量(1)设y与x之间具有关系xy=,试根据测量数据估计c和d的值;cd(2)估计化学反应进行到10min时未转化的物质的量。
解:(1)在xy=的两边取自然对数,可以得到lny=lnc+xlnd,cd设lny=z,lnc=a,lnd=b,则z=a+bx,又由已知数据可以得到下表:由公式得2219≈b≈a,z关于x的线性回归方程为.3-.0,9058.3-9058≈,xz2219.0即2219.06898,≈dc,所以8010c,49≈.ln-ln.0,9058≈.3≈d根据测量数据估计c=49.6898,d=0.8010.(2)由(1)知y与x之间的关系为x49⨯=,.6898y8010.0当x=10时,4.5=y,所以当化学反应进行到10min时,未转⨯.910≈.068988010化的物质的量为5.4mg.点评:在实际问题中,有时两个变量之间并不是线性相关关系,这就需要我们根据已有的知识或散点图选择适当的曲线方程,然后通过适当的变量代换,把非线性问题转化为线性回归问题,从而确定未知参数,建立相应的回归方程。
类型二独立性检验的应用例2 在国家实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1000人作问卷调查,只有80人志愿加入西部建设,而国家公布实施西部开发战略后,随机抽取1200名应届大学毕业生作问卷调查,有400人志愿加入国家西部建设。
问实施西部开发战略的公布是否对应届大学毕业生的选择产生影响?分析:本题是一道信息题,独立性检验在应用于很大领域时需要通过建立模型实现信息迁移,即将信息转化为2×2列联表形式,再通过计算2K 统计量得出相应的结论。
解:根据题意,列出2×2列联表,如下:由公式计算2K 统计量得:22.205120010001720480)40092080080(220022≈⨯⨯⨯⨯-⨯⨯=K ,因为205.22>6.635,所以有99%的把握认为实数西部开发战略的公布对应届大学毕业生的选择产生了影响。
回归分析的应用
在解许多实际应用问题时,运用回归分析的基本思想,通过构建回归模型去
刻画解释变量与预报变量的关系,并利用模型,利用解释变量的某个值去预测相
应预报变量的某个值,从而使问题得到解决.
建立回归模型解决实际问题的步骤是:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型,即拟合直线或拟合曲线;
(4)按一定规则估计回归方程中的参数,从而求出拟合直线或拟合曲线的
函数关系式;
(5)利用函数关系式,根据条件对所给问题进行预测和控制,以便为决策
提供依据.
下面举例说明.
例1某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商
品的销售单价x元与日销售量y台之间有如下关系:
(1)y与x是否具有线性相关关系?如果具有线性相关关系,求出回归直
线方程;
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关
系式并预测当销售单价x为多少元时,才能获得最大日销Array售利润.
解析:(1)散点图如右图所示,并从图中可以看出,
这些点大致分布在一条直线附近,因此两个变量线性相
关.
设回归直线为y bx a
=+,则由公式求得3161.5
,.
≈-=
b a
=--
∴;
3161
y x
(2)依题意有2
=-+-=-+-,
P x x x x
(3161.5)(30)3251.54845
∴当251.5426
x =≈时,P 有最大值约为426. 即预测销售单价为42元时,才能获得最大日销售利润.
点评:本题主要考查构建线性回归模型在解决实际问题中的应用.
例2 某国从1790年至1950年人口数据资料:
试利用上述资料预测该国1980年的人口数(假设该国政治、社会、经济环境稳定,且人口数相对于时间是连续的).
分析:以x 轴代表年度,y 轴代表人口数,建立直角坐标系,画出散点图(略),并观察散点图可以发现,从1890年以后散点近似分布在一条直线上;而从散点图的整体趋势来看,也可以认为散点近似分布在一条抛物线上,故可采用线性回归模型拟合,或采用二次函数模型拟合.
解法一:由散点图可以看出,1890年以后散点大致分布在一条直线上,设线性回归直线方程为y bx a =+,由公式求得 1.485b ≈,2747.05a ≈-,即1.48582747.025y x =-.
∴当1980x =时,6194.85910y =⨯,即1980年该国人口预测为194.859百万人. 解法二:从散点的整体趋势看,散点近似分布在一条以直线1790x =为对称轴,以点(17903.929),为顶点的抛物经一上,再任意选一点(189062.948),
确定抛物线方程为20.0059(1790) 3.929y x =-+.
∴当1980x =时,216.91910y =⨯6,则该国人口预测为216.919百万人. 点评:本题主要考查重视对信息、图表的分析,提取,加工和处理能力.两种解法,由于考虑问题和观察角度不同,所得到结论和答案也不相同,线性回归模型是在依据部分已知数据的基础上作出的,因此精确度比较差;而二次函数模型是根据全部已知数据的分布趋势拟合的,因而有较高的精确度.当然,同学们可以进一步利用回归分析的方法,通过利用相关指数2R 来比较两个模型的拟合效果.。