2019_2020学年高中数学第1章统计案例1.2回归分析课件新人教B版
- 格式:pptx
- 大小:1.73 MB
- 文档页数:54
1.1 回归分析1.2 相关系数1.3 可线性化的回归分析1.回归分析设变量y 对x 的线性回归方程为y =a +bx ,由最小二乘法知系数的计算公式为:b =l xyl xx=∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x .2.相关系数 (1)相关系数r 的计算假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r =l xyl xx l yy=∑i =1n(x i -x )(y i -y)∑i =1nx i y i -n x y(2)相关系数r 与线性相关程度的关系 ①r 的取值范围为[-1,1];②|r|值越大,误差Q越小,变量之间的线性相关程度越高;③|r|值越接近0,误差Q越大,变量之间的线性相关程度越低.3.相关性的分类(1)当r>0时,两个变量正相关;(2)当r<0时,两个变量负相关;(3)当r=0时,两个变量线性不相关.思考:所有的两个相关变量都可以来求回归方程吗?[提示] 不一定.如果两个相关变量的相关性很强,可以求出回归方程,当几乎没有相关性时就不可以求出回归方程.4.可线性化的回归分析(1)非线性回归分析对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型.(2)非线性回归方程1.变量y与x之间的回归方程( )A.表示y与x之间的函数关系B.表示y与x之间的不确定性关系C.反映y与x之间真实关系的形式D.反映y与x之间的最大限度的真实关系的形式[答案] D2.某产品的广告费用x 与销售额y 的统计数据如下表:售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元B [x =4+2+3+54=3.5,y =49+26+39+544=42,∴a =y -b x =42-9.4×3.5=9.1,∴回归方程为y =9.4x +9.1,∴当x =6时,y =9.4×6+9.1=65.5,故选B.] 3.下列数据x ,y 符合哪一种函数模型( )A.y =2+3xB .y =2e xC .y =2e 1xD .y =2+ln xD [分别将x 的值代入解析式判断知满足y =2+ln x .]变量间的相关关系及判定【例1】 (1)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关(2)两个变量x ,y 与其线性相关系数r 有下列说法:①若r >0,则x 增大时,y 也随之相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上,其中正确的有( )A .①②B .②③C .①③D .①②③(3)有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是( )A .①③B .②④C .②⑤D .④⑤思路点拨:可借助于线性相关概念及性质作出判断.(1)C (2)C (3)C [(1)由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,故选C.(2)根据两个变量的相关性与其相关系数r 之间的关系知,①③正确,②错误,故选C. (3)其中①③成负相关关系,②⑤成正相关关系,④成函数关系,故选C.]线性相关系数的理解1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r 的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.2.利用相关系数r 来检验线性相关显著性水平时,通常与0.75作比较,若r >0.75,则线性相关较为显著,否则为不显著.1.下列两变量中具有相关关系的是( ) A .正方体的体积与边长 B .人的身高与体重C .匀速行驶车辆的行驶距离与时间D .球的半径与体积B [选项A 中正方体的体积为边长的立方,有固定的函数关系;选项C 中匀速行驶车辆的行驶距离与时间成正比,也是函数关系;选项D 中球的体积是43π与半径的立方相乘,有固定函数关系.只有选项B中人的身高与体重具有相关关系.]求线性回归方程【例2】(1)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4)(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1(2)某服装商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:②气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣的销售量.思路点拨:(1)可利用公式求解;(2)把月平均气温代入回归方程求解.(1)C[对变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0.故r2<0<r1.](2)解:①由散点图易判断y与x具有线性相关关系.x=(17+13+8+2)÷4=10,y=(24+33+40+55)÷4=38,4x i y i=17×24+13×33+8×40+2×55=1 267,∑i=14x2i=526,∑i=1b =∑i =1x i y i -4x y∑4i =1x 2i -4x2=1 267-4×10×38526-4×102≈-2.0,a =y -b x ≈38-(-2.0)×10=58.0,所以线性回归方程为y =-2.0x +58.0.②气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月毛衣的销售量为y =-2.0x +58.0=-2.0×6+58.0=46(件).回归分析的理解1.回归分析是定义在具有相关关系的两个变量基础上的,因此,在做回归分析时,要先判断这两个变量是否相关,利用散点图可直观地判断两个变量是否相关.2.利用回归直线,我们可以进行预测.若回归直线方程y =a +bx ,则x =x 0处的估计值为y 0=a +bx 0.3.线性回归方程中的截距a 和斜率b 都是通过样本估计而得到的,存在着误差,这种误差可能导致预报结果的偏差,所以由线性回归方程给出的是一个预报值而非精确值.4.回归直线必过样本点的中心点.2.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得到下表数据:(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =bx +a ; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. [解] (1)如图:(2)∑i =1x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4, ∑ni =1x 2i =62+82+102+122=344,b =158-4×9×4344-4×92=1420=0.7, a =y -b x =4-0.7×9=-2.3,故线性回归方程为y =0.7x -2.3.(3)由(2)中线性回归方程知当x =9时,y =0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.可线性化的回归分析[探究问题]1.如何解答非线性回归问题?[提示] 非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:2.已知x 和y 之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?①y 2③y=4x; ④y=x2.[提示] 观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.【例3】某地区不同身高的未成年男性的体重平均值如下表:(2)如果一名在校男生身高为168 cm,预测他的体重约为多少?思路点拨:先由散点图确定相应的拟合模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.[解] (1)根据表中的数据画出散点图,如下:由图看出,这些点分布在某条指数型函数曲线y=c1e c2x的周围,于是令z=ln y,列表如下:由表中数据可求得z与x之间的回归直线方程为z=0.693+0.020x,则有y=e0.693+0.020x.(2)由(1)知,当x=168时,y=e0.693+0.020×168≈57.57,所以在校男生身高为168 cm,预测他的体重约为57.57 kg.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y =c 1e c 2x,我们可以通过对数变换把指数关系变为线性关系,令z =ln y ,则变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围.3.在一次抽样调查中测得样本的5个样本点,数据如下表:[解] 作出变量y 与x 之间的散点图如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x,令t =1x,则y =kt .由y 与x 的数据表可得y 与t 的数据表:由图可知y 与t 呈近似的线性相关关系.又t =1.55,y =7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,b =∑i =15t i y i -5t y∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,a =y -b t =7.2-4.134 4×1.55≈0.8,∴y =4.134 4t +0.8.所以y 与x 的回归方程是y =4.134 4x+0.8.1.回归分析的注意事项(1)回归方程只适用于我们所研究的样本的总体.如:不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系.(2)我们所建立的回归方程一般都有时间性.例如,不能用20世纪80年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系.(3)样本取值的范围限制了回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重的数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系是不恰当的(即在回归方程中,变量x 的样本的取值范围为[155,170](单位:cm),而用这个方程计算x =70 cm 时的y 值,显然不合适).(4)不能期望回归方程得到的值就是变量的精确值.它是变量的可能取值的平均值. 2.求非线性回归方程的步骤 (1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)关系变换,通过关系变换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的交换,写出非线性回归方程.1.判断正误(1)两个变量的相关系数r >0,则两个变量正相关.( ) (2)两个变量的相关系数越大,它们的相关程度越强.( ) (3)若两个变量负相关,那么其回归直线的斜率为负.( ) [答案] (1)√ (2)× (3)√2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kgD [回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确; 易知回归直线过样本点的中心(x ,y ),B 正确;依据回归方程中b 的含义可知,x 每变化1个单位,y 相应变化约0.85个单位,C 正确;用回归方程对总体进行估计不能得到肯定结论,故D 不正确.]3.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.y =6.5x -10 [由题意知x =2,y =3,b =6.5,所以a =y -b x =3-6.5×2=-10,即回归直线的方程为y =6.5x -10.]4.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(2)用所求回归方程预测该地区2019年(t =6)的人民币储蓄存款. 附:回归方程y =bt +a 中,b =∑i =1nt i y i -n t y∑i =1nt 2i -n t 2,a =y -b t .[解] (1)列表计算如下:这里n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又l tt =∑i =1nt 2i -n t 2=55-5×32=10,l ty =∑i =1nt i y i -n t -y -=120-5×3×7.2=12,从而b =l ty l tt =1210=1.2, a =y -b t =7.2-1.2×3=3.6,故所求回归方程为y =1.2t +3.6.(2)将t =6代入回归方程可预测该地区2019年的人民币储蓄存款为y =1.2×6+3.6=10.8(千亿元).。
1.2 回归分析(建议用时:45分钟)[学业达标]一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A.预报变量在x 轴上,解释变量在y 轴上 B.解释变量在x 轴上,预报变量在y 轴上 C.可以选择两个变量中任意一个变量在x 轴上 D.可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +ε可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】B2.在回归分析中,相关指数r 的绝对值越接近1,说明线性相关程度( ) A.越强 B.越弱 C.可能强也可能弱D.以上均错【解析】 ∵r =∴|r |越接近于1时,线性相关程度越强,故选A. 【答案】A3.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y =b x +a 必过点( ) A.(2,2) B.⎝ ⎛⎭⎪⎫32,0 C.(1,2)D.⎝ ⎛⎭⎪⎫32,4 【解析】 ∵x -=14(0+1+2+3)=32,y -=14(1+3+5+7)=4,∴回归方程y ^=b ^x +a ^必过点⎝ ⎛⎭⎪⎫32,4.【答案】D4.已知人的年龄x 与人体脂肪含量的百分数y 的回归方程为y ^=0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( )【导学号:37820004】A.一定是20.3%B.在20.3%附近的可能性比较大C.无任何参考数据D.以上解释都无道理【解析】 将x =36代入回归方程得y ^=0.577×36-0.448≈20.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.【答案】B5.某产品的广告费用x (万元)与销售额y (万元)的统计数据如下表所示,根据表中数据可得回归方程y ^=b ^x +a ^中的b ^=10.6.据此模型预测广告费用为10万元时的销售额为( )万元 万元D.113.9万元【解析】 由题表中数据得x -=3.5,y -=43.由于回归直线y ^=b ^x +a ^过点(x -,y -),且b ^=10.6,解得a ^=5.9,所以线性回归方程为y ^=10.6x +5.9,于是x =10时,y ^=111.9. 【答案】C 二、填空题6.已知x ,y 的取值如下表所示,由散点图分析可知y 与x 线性相关,且线性回归方程为y =0.95x +2.6,那么表格中的数据m 的值为________.【解析】x -=04=2,y -=4=4,把(x -,y -)代入回归方程得11.3+m4=0.95×2+2.6,解得m =6.7.【答案】 6.77.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.【解析】 根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.【答案】 18.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.【答案】 0.254 三、解答题9.关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0如由资料可知y 对x 呈线性相关关系.试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少? 【解】 (1)x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5,于是a ^=y --b ^x =5-1.23×4=0.08.所以线性回归方程为:y ^=b ^x +a ^=1.23x +0.08. (2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用10年时维修费用是12.38万元.10.在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4 y1612521试建立y 与x 之间的回归方程.【解】 作出变量y 与x 之间的散点图如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x,令t =1x ,则y =kt .由y 与x 的数据表可得y 与t 的数据表:t 4 2 1 0.5 0.25 y1612521作出y 与t 的散点图如图所示.由图可知y 与t 呈近似的线性相关关系.又t -=1.55,y -=7.2,∑5i =1t i y i =94.25,∑5i =1t 2i =21.312 5,b ^=∑5i =1t i y i -5t -y -∑5i =1t 2i -5t -2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,a ^=y --b ^t -=7.2-4.134 4×1.55≈0.8,∴y ^=4.134 4t +0.8.即y 与x 之间的回归方程为y ^=4.134 4x+0.8.[能力提升]1.对于下列表格所示的五个散点,已知求得的线性回归直线方程为y ^=0.8x -155.则实数m 的值为( )C.8.4D.8.5【解析】 依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m5=0.8×200-155,解得m =8,选A.【答案】A2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:A.y =x -1B.y =x +1C.y =88+12xD.y =176【解析】 因为x -=174+176+176+176+1785=176,y -=175+175+176+177+1775=176,而回归方程经过样本中心点,所以排除A ,B ,又身高的整体变化趋势随x 的增大而增大,排除D ,所以选C.【答案】C3.以模型y =c e kx去拟合一组数据时,为了求出回归方程,设z =ln y ,其变换后得到线性回归方程z =0.3x +4,则c =________.【导学号:37820005】【解析】 由题意得:ln(c e kx)=0.3x +4, ∴ln c +kx =0.3x +4, ∴ln c =4,∴c =e 4. 【答案】e 44.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图122(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为【解】 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程. 由于d ^==108.81.6=68,,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。