高二数学回归分析2
- 格式:ppt
- 大小:422.50 KB
- 文档页数:12
回归的r2名词解释解析回归分析是统计学中一种重要的数据分析方法,旨在探究变量之间的关系。
在回归分析中,R2是常用的一个评估指标,用来衡量回归方程对数据的拟合程度。
本文将对回归的R2进行解释和解析。
一、回归分析的基本概念回归分析是通过建立一个数学模型,来预测因变量与自变量之间的关系。
回归方程的形式可以是线性的,也可以是非线性的。
线性回归是回归分析中最常用的方法之一,它建立了一个线性关系的数学模型。
回归方程可以用来预测因变量的数值,也可以用来研究变量之间的相关性。
二、R2的定义与计算方法R2,即决定系数,是回归分析中常用的一个评估指标。
它表示因变量的变异中有多少被回归方程所解释。
R2的取值范围在0到1之间,越接近1说明回归方程对数据的拟合程度越好。
R2的计算方法是通过比较因变量的实际观测值与回归方程预测值之间的差异来得出的。
具体计算公式如下:R2 = 1 - (SSR/SST)其中,SSR代表回归平方和,SST代表总平方和。
回归平方和表示因变量的观测值与回归方程预测值之间的差异的平方和,总平方和表示因变量的观测值与其均值之间的差异的平方和。
三、解析R2的意义与应用R2作为评估指标,可以告诉我们回归方程对数据的解释程度如何。
当R2接近1时,说明回归方程可以很好地解释数据的变异,预测结果较准确;当R2接近0时,说明回归方程无法解释数据的变异,预测结果较不准确。
R2的应用场景主要有以下几个方面:1. 监控模型效果:在实际应用中,我们经常需要建立一个预测模型。
通过计算R2,我们可以了解模型对数据的拟合情况,进而评估模型的效果。
如果R2接近1,说明模型效果较好,可以放心使用。
如果R2较低,说明模型效果较差,需要重新优化或选择其他模型。
2. 变量选择:在回归分析中,我们需要选择自变量来建立回归方程。
R2可以帮助我们评估不同自变量对模型的贡献程度。
如果某个自变量的R2较低,说明它对模型的解释能力较弱,可以考虑将其剔除或者重新选择变量。
§3.2 回归分析(二)一、基础过关1.某商品销售量y (件)与销售价格x (元/件)成线性相关关系,且r <0,则其回归方程可能是( )A.y ^=-10x +200 B.y ^=10x +200 C.y ^ =-10x -200D.y ^=10x -2002.在回归直线方程y ^=a ^+b ^x 中,回归系数b ^ 表示( )A .当x =0时,y 的平均值B .x 变动一个单位时,y 的实际变动量C .y 变动一个单位时,x 的平均变动量D .x 变动一个单位时,y 的平均变动量3.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1,或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.( )A .①②B .②③C .①③D .①②③ 4.每一吨铸铁成本y c (元)与铸件废品率x %建立的回归直线方程y c =56+8x ,下列说法正确的是( )A .废品率每增加1%,成本每吨增加64元B .废品率每增加1%,成本每吨增加8%C .废品率每增加1%,成本每吨增加8元D .如果废品率增加1%,则每吨成本为56元5.为了考察两个变量x 和y 之间的线性相关性,甲、乙两个同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2.已知在两个人的试验中发现对变量x 的观测数据的平均值恰好相等,都为s ,对变量y 的观测数据的平均值也恰好相等,都为t .那么下列说法正确的是( )A .直线l 1和l 2有交点(s ,t )B .直线l 1和l 2相交,但是交点未必是点(s ,t )C .直线l 1和l 2由于斜率相等,所以必定平行D .直线l 1和l 2必定重合 二、能力提升6.研究人员对10个家庭的儿童问题行为程度(x )及其母亲的不耐心程度(Y )进行了评价结果如下,家庭1,2,3,4,5,6,7,8,9,10,儿童得分:72,40,52,87,39,95,12,64,49,46,母亲得分:79,62,53,89,81,90,10,82,78,70. 下列哪个方程可以较恰当的拟合( )A.y ^=0.771 1x +26.528 B.y ^=36.958ln x -74.604 C.y ^ =1.177 8x 1.014 5 D.y ^ =20.924e0.019 3x7.已知x ,y则y 与x 之间的回归直线方程y =b x +a 必过点___________________________. 8.已知回归直线方程为y ^=0.50x -0.81,则x =25时,y 的估计值为________. 9.关于回归分析,下列说法错误的是__________.(填序号)①在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一 确定;②散点图反映变量间的线性相关关系,误差较大; ③散点图能明确反映变量间的关系.10.在彩色显影中,由经验知:形成染料光学密度y 与析出银的光学密度x 由公式y =A e bx(b <0)试求y 对x 的回归方程.11(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; (2)描述解释变量x 与预报变量y 之间的关系. 三、探究与拓展12.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年答案1.A 2.D 3.C 4.C 5.A 6.B 7.(1.16,2.4) 8.11.69 9.③10.解 由题给的经验公式y =A e b x ,两边取自然对数,便得ln y =ln A +bx,与回归直线方程相对照,只要取u =1x ,v =ln y ,a =ln A .就有v =a +bu .题给数据经变量置换u =1x,v =ln y 变成如下表所示的数据:u i 20.000 16.667 4.000 3.226 14.286 10.000 v i -2.303 -1.966 0 0.113 -1.470 -0.994u i 2.632 2.3267.1435.0002.128v i0.1740.223 -0.528 -0.236 0.255可得ln y ^ =0.548-0.146x ,即y ^ =e0.548-0.146x =e0.548·e -0.146x ≈1.73e -0.146x ,这就是y 对x 的回归方程. 11.解 (1)所作散点图如图所示.(2)z =ln y ,则x 1 2 3 4 5 6 z1.792.483.223.894.555.25由计算器得:z ^=0.69x +1.115, 则有y ^=e0.69x +1.115.x 0 5 10 15 20 25 30 35 40 45 50 y5426036727058079099751 0351 1071 1771 246作出散点图如图,根据公式可得回归直线方程为y ^=527.591+14.453x .由于2004对应的x=55,代入回归直线方程可得y^=1 322.506(百万),即2004年的人口总数估计为13.23亿.下面对其进行线性相关性检验:(1)作统计假设H0∶x与y不具有线性相关;(2)由0.01与n-2=9的附表中查得r0.01=0.735;(3)根据公式得相关系数r=0.998;(4)因为|r|=0.998>0.735,即|r|>r0.01,所以有99%的把握认为x与y之间具有线性相关关系,回归直线方程为y^=527.591+14.453x,用这个方程去估计我国2004年的人口数是有意义的.。
§3.2 回归分析(2)一.问题情境1.情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估计吗?2.问题:思考、讨论:求得的线性回归方程是否有实际意义.二.学生活动对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量x 与y 的线性相关性进行检验(简称相关性检验).三.建构数学1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n =,样本相关系数r 的计算公式为()()nn i ii i x x y y x y nx y r ---==∑∑.()22.相关系数r 的性质:(1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强;(3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.3.对相关系数r 进行显著性检验的步骤:相关系数r 的绝对值与1接近到什么程度才表明利用线性回归模型比较合理呢?这需要对相关系数r 进行显著性检验.对此,在统计上有明确的检验方法,基本步骤是:(1)提出统计假设0H :变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在附录2(教材P111)中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平);(3)计算样本相关系数r ;(4)作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:1.对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.2.这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.4.对于上节课的例1,可按下面的过程进行检验:(1)作统计假设0H :x 与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录2中查得0.050.602r =;(3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为x 与y 之间具有线性相关关系,线性回归方程为527.59114.453y x =+是有意义的.四.数学运用1.例题:例1.下表是随机抽取的8对母女的身高数据,试根据这些数据探讨y 与x 之间的关系.解:所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,因为()1541571638159.25x =+++÷=,()1551561668161y =+++÷=,()82222218()1541638159.2559.5i i xx =-=++-⨯=∑, ()82222218()1551668161116i i y y =-=++-⨯=∑,()8181541551631668159.2516180i ii x y x y =-⨯++⨯-⨯⨯=∑, 所以963.01165.5980≈⨯=r ,由检验水平0.05及26n -=,在附录2中查得707.005.0=r ,因为0.9630.707>,所以可以认为x 与y 之间具有较强的线性相关关系.线性回归模型y a bx ε=++中,a b 的估计值 分别为 ()8182218 1.345,8i i i i i x y x y b xx ==-=≈-∑∑ 53.191a y bx =-≈-,故y 对x 的线性回归方程为x y 345.1191.53+-= .例2.要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取10名(2)如果x 与y 之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:(1)因为()16367767010x =⨯+++=,()16578757610y =⨯+++=,101()()1894xy i i i L x x y y ==--=∑,2101()2474xx i i L x x ==-=∑,1021()2056yy i i L y y ==-=∑.因此求得相关系数为10()()0.840i ix x y y L r --===∑.结果说明这两组数据的相关程度是比较高的;小结解决这类问题的解题步骤:(1)作出散点图,直观判断散点是否在一条直线附近;(2)求相关系数r;n 的值在附录中查出临界值,判断y与x是否具有较强的线性相关关系;(3)由检验水平和2(4)计算 ,写出线性回归方程.。