回归直线方程的推导
设x 与y 是具有线性相关关系的两个变量,且相应于样本的一组观测值的n 个点的坐标分别是:112233()()()()n n x y x y x y x y ,,
,,,,,,,下面给出回归方程的推导. 设所求的回归方程为i i y bx a =+,(123)i n =,,,,.显然,上面的各个偏差的符号有正、
有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n 个点与回归直线的整体上的接近程度,因而采用n 个偏差的平方和Q 来表示n 个点与相应直线(回归直线)在整体上的接近程度,
即2
222222331
1
()()()()()n
n
i i i n n i i i Q y y y bx a y bx a y bx a y bx a ===-=--+--+--+
+--∑∑.
求出当Q 取最小值时的a b ,的值,就求出了回归方程.
一、先证明两个在变形中用到的公式 公式(一)2
2
21
1
()n
n
i i i i x x x nx ==-=-∑∑,其中12n
x x x x n
++
+=
证明:2222121
()()()()n
i n i x x x x x x x x =-=-+-+
+-∑∵
2
22
2
1212()
2n n x x x x x x nx
nx n
++
+=+++-+
2
2
2
222222212
1
2
1
()2()n
n
n
i i x x x nx nx x x x x nx ==++
+-+=++
+=-∑
2
2
21
1
()n
n
i i i i x x x nx ==-=-∑∑∴.
公式(二)1
1
()()n n
i i i i i i x x y y x y nx y ==--=-∑∑
证明:11221
()()()()()()()()n
i i n n i x x y y x x y y x x y y x x y y =--=--+--+
+--∑∵
11221122()()n n n n x y x y x y x y y x x y y x x y y x nxy =++
+-++++
+++
12121[()()]n
i i n n i x y x x x y y y y x nx y ==-++
++++++∑ 1
2121
()
()n
n n i i i x x x y y y x y n y x nx y n n
=++
+++
+??
=-+
+????
∑ 11
2n n
i i i i i i x y nx y nx y x y nx y ===-+=-∑∑,
1
1
()()n
n
i i i i i i x x y y x y nx y ==--=-∑∑∴.
二、推导:将Q 的表达式的各项先展开,再合并、变形 2222112233()()()()n n Q y bx a y bx a y bx a y bx a =--+--+--+
+--
22
2
2121122()[2()2()]
n y y y y bx a y bx a =++
+-+++展开 2
2
22
1
1
1
1
1
222n
n
n
n
n
i i i i i
i i i i i i y b x y a y b
x
ab x na ======--+++∑∑∑∑∑合并同类项
222211
11122n
n
i
i n n n
i i i i i i i i i y x na na b b x b x y y n
n =====?? ? ?=--+-+ ? ???
∑∑∑∑∑以a b ,的次数为标准整理 22
22
1
11
2()2n
n n
i
i i i i i i na na y bx b
x
b x y y ====--+-+∑∑∑转化为平均数x y ,
2
2
2
2
2
1
11[()]()2n
n
n
i i i i i i i n a y bx n y bx b
x
b x y y ====----+-+∑∑∑配方法
2
2
22222
1
1
1
[()]22n
n
n
i i i i i i i n a y bx n y nbx y nb x b x b x y y ====---+-+-+∑∑∑展开 2
2
2
2
2
21
1
1[()]()2()()
n
n n
i i i i i i i n a y bx b x nx b x y nx y y n y ====--+---++∑∑∑整理
22
2
2
1
1
1
[()]()2()()()n
n
n
i
i i i i i i n a y bx b
x
x b x x y y y y ====--+----+-∑∑∑用公式(一)、(二)
变形
2221
21
11()()[()]()()()n
i i n n
i i i n
i i i i x x y y n a y bx x x b y y x x ====??
--????=--+--+-??-????
∑∑∑∑配方
2
22
12212211
111()()()()()()()()()n
n
i i i i n n i i i i n n i i i i i x x y y x x y y n a y bx x x b y y x x x x ======????----??????????=--+---+-????--????
∑∑∑∑∑
∑配方法
在上式中,共有四项,后两项与a b ,无关,为常数;前两项是两个非负数的和,因此
要使得Q 取得最小值,当且仅当前两项的值都为0.所以a y bx =-,1
2
1
()()
()
n
i
i i n
i
i x
x y y b x
x ==---
-∑∑或
1
2
2
1
n
i i
i n
i
i x y
nx y b x
nx
==-=
-∑∑用公式(一)、(二)变形得
三、总结规律
上述推导过程是围绕着待定参数a b ,进行的,只含有i i x y ,的部分是常数或系数,用到 的方法有:①配方法,有两次配方,分别是a 的二次三项式和b 的二次三项式;②变形时,用到公式(一)、(二)和整体思想;③用平方的非负性求最小值.④实际计算时,通常是分
步计算:先求出x y ,,
再分别计算1
()()n i i i x x y y =--∑,2
1
()n i i x x =-∑或1
n i i i x y nx y =-∑,2
21
n
i i x nx =-∑的值,最后就可以计算出a b ,的值.