- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
残差公式 eˆi(1) = yi - yˆ(1) = yi - e0.272x-3.843 ,(i = 1,2...7)
eˆi(2) = yi - yˆ(2) = yi - 0.367x2 + 202.54,
残
差
表
编号 1
2
x 21 23
y 7 11
e(1) 0.52 -0.167
e(2) 47.7 19.397
抽样
样本分析
y%= f(x)
回归模型
y$= f(x)
60
体重
40
线性 (体重) 线性 (体重)
20
线性 (体重)
0
150 160 170 180
它的均值E(e)= 0,方差D(e)=σ2 > 0
(1)由图形观察可以看出,样本点呈条状分 布,身高和体重有比较好的线性相关关系,因 此可以用线性回归方程刻画它们之间的关系。
80 60 40 20
0 150
y
350 300 250 200 150 100
50 0 0
y 200 400 600 800 1000 1200 1400
散点并不集中在一条直线的附近,因此用线 性回归模型拟合他们的效果不是最好的。
非线性回归方程 yˆ(1) = e0.272x-3.843 ,
二次回归方程 yˆ(2) = 0.367x2 - 202.54
现在有三个不同的回归模型可供选择来拟合 红铃虫的产卵数与温度数据,他们分别是:
y ax b e, y c1ec2xe ,
y x2 e.
z c2x b e
yt e
可以利用直观(散点图和残差图)、相关指
数来确定哪一个模型的拟合效果更好。
小
结
实际问题 y = f(x)
1、所求直线方程 yˆ = bˆ x + aˆ 叫做回归直
---线方程;其中
n
n
y bˆ =
(xi - x)(yi - y)
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
2.相应的直线叫做回归直线。
3、对两个变量进行的线性分析叫做线性 回归分析。
在一条指数曲线或二次曲线的附近。
解:1)用y = c1ec2x模型; 令 z = lny
思
则z=bx+a,(a=lnc1,b=c2),列出变换后数据表并 、
画
出x与z 的散点图
议
x 21 23 25 27 29 32 35
、
z 1.946 2.398 3.045 3.178 4.19 4.745 5.784 检
图表标题 y = 0.8485x - 85.712
yˆ
yˆ
160 170 180
体重 线性 (体重) 线性 (体重) 线性 (体重)
线性回归模型
y=bx+a+e E(e)= 0, D(e)=σ2
y=bx+a+e其中a和b为模型的未知参数,
e是y与 yˆ 之间的误差,通常e称为随机误差。
为了衡量预报的精度,需要估计的5
4
3
z
2
1
0
0
10
20
30
40
x和z之间的关系可以用线性回归模型来拟合
z = ax+ b+e
2) 用 y=c3x2+c4 模型,令 t = x2 ,则y=c3t+c4 ,列出 变换后数据表并画出t与y 的散点图
t 441 529 625 729 841 1024 1225 y 7 11 21 24 66 115 325
1 n2
n i 1
eˆi2
1 Q(aˆ, bˆ)(n n2
2)
Q(aˆ, bˆ)称为残差平方和
(1)根据散点图来粗略判断它们是否线性相关。
(2)是否可以用线性回归模型来拟合数据
(3)通过残差 eˆ1,eˆ2,eˆ3,.....eˆn, 来判断模型拟合的效
果这种分析工作称为残差分析
残差
6000
i=1 n
=
(xi - x)2
xi
- nxy
i
i=1
n xi2 - nx2
,
i=1
i=1
aˆ = y - bˆx
预报精度
思、议、展
在含有一个解释
1.相关指数R2
变量的线性 模型
n
n
(yi - y$i)2
(y$i - y)2
中R2=r2(相关关系)
R2 = 1 - i=1 n
= i=1 n
500
· · 450
(xi ,yi )
· · 400 |yi - y$i |
··· 350
(xi ,y$i )
300
10 20 30 40 50
思、议、展
施化肥量 x
n
Q(a,b)= (yi - bxi - a)2 取最小值时,a,b的值. i=1
推导过程请阅读P92
最小二乘法:yˆ = bˆ x + aˆ
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
思、议
自学思考:
1.相关关系的概念?你能举例说明吗? 2.如何分析两个变量之间的相关关系?
1、定义:
思、议、展
自变量取值一定时,因变量的取值带有一定随
机性的两个变量之间的关系叫做相关关系。
n
Q( , ) ( yi xi )2 i 1
随机误差ei yi bxi a(i 1, 2,....n) 其估计值为: eˆi yi yˆi yi bˆxi aˆ eˆi称为相应点(xi,yi )的残差
类比样本方差估计总体方差的思想
ˆ 2
3 25 21 1.76 -5.835
4 27 24 -9.149 -41.003
5 29 66 8.889 -40.107
6 32 115 -14.153 -58.268
7 35 325 32.928 77.965
在此处可以引导学生体会应用统计方法解决实际 问题需要注意的问题:对于同样的数据,有不 同的统计方法进行分析,我们要用最有效的方 法分析数据。
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
450
· ··
400
·
350 · · ·
300
散点图 施化肥量
10 20 30 40 50
x
探索2:在这些点附近可画直线不止一条,
哪条直线最能代表x与y之间的关系呢?
发现:图中各点,大致分布在某条直线附近。
y 水稻产量
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
450
· ··
400
·
350 · · ·
300
施化肥量
解: 1.画出散点1图0 20 30
40 50
x
2.求出b = 4.75, a = 256.79
3.写出回归方程 yˆ = 4.75x + 256.79
负相关
正相关
相关系数
思、议、展
n
r>r0= 正i相n=1i(关=x1i(;-xxir)-2<x×)i0(=ny1i负(-y相yi)-关y)2.通常,
r∈[-1,-0.75]--负相关很强;
r∈[0.75,1]—正相关很强; r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;
(2)从散点图还可以看到,样本点散布在某一条
直线的附近,而不是一条直线上,所以不能用一次
函数y=bx+a来描述它们之间的关系。这时我
们用下面的线性回归模型来描述身高和体重的关系:
y=bx+a+e其中a和b为模型的未知参数,e
是y与 之间的yˆ 误差,通常e称为随机误差。
图表标题
y = 0.8485x - 85.712 80
4000
2000 0
残差
-2000 0
2
4
6
8
10
12
-4000
使学生了解残差图的制作及作用。P98 • 坐标纵轴为残差变量,横轴可以有不同的选择; • 若模型选择的正确,残差图中的点应该分布在以 横轴为心的带形区域; • 对于远离横轴的点,要特别注意。
身
高
异
与
常
体 重
点
残 差 图
• 错误数据 • 模型问题
4.计算相关系数 r = 0.9718
思、议、
例题1 从某大学中随机选出8名女大学生,其身 高和体重数据如下表:
编号 1 2 3 4 5 6 7 8 身高 165 165 157 170 175 165 155 170 体重 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。
温度x 21 23 25 27 29 32 35 产卵数y 7 11 21 24 66 115 325
解:1)作散点图; 350 300
250
200
产卵数
150
100
50
0
20
22
24
26