回归方程及回归系数的显著性检验演示教学
- 格式:doc
- 大小:99.81 KB
- 文档页数:12
907求多元线形回归方程及预报一.功能 x1,x2, x3,………..xp 为自变量,Y 为随机变量, 求线形回归方程Y=b 0+x b 11+…+x b p p +ε其中,,10b b 。
,b p 为常数,ε是随机变量,且ε—N (0,26) 来描述Y 与X 的变化规律。
并用T 检验法检验线形回归是否显著。
如果线性回归显著,可用经验回归平面方程对Y 作出预报,并给出预报值的置信区间。
二.算法间介[16],[15] (1) 求回归方程设x1,x2…xp 是确定变量,Y 是随机变量,他们之间有关系 Y=b 0+x b 11+…+x b p p +ε其中,,10b b 。
,b p 为常数,ε是随机变量,且ε—N (0,26),这是P 元线性回归模型, 我们讨论P>1的情形。
作n 次独立试验,得到n 组数据 (x k 1+2x k +,…),Y x p k p (k=1,2,…,n)记X j=∑=nk X n 11kj j=1,2,…,p,则(1)式可写为Y=+μb 1(x1-X 1)+…+(b p -xpXp)+ε其中 ε同于(1)中之ε,而μ=X b b 10+1+…+X b p p 对上面得到的几组试验数据,便有Y=X b k 11(+μ-X 1)+…+b p (X kp -X p )+εk 其中ε独立分布:εk —N (0,26)。
为了用最小乘法求(2)中μ,b b b p ,...,,21的估计值,我们引如下述符号Y =n1∑=ni Y11Y=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡---------X X XXXXX X X X X X XXX X X X p np n n P P PP......,1......................,1....,1.22112222121212111⎪⎪⎪⎩⎪⎪⎪⎨⎧=-=--=∑∑==,,....,2,1,,)(),()(`11p k j y X X L X X X X L i n i j ij jy k ik ni j ij jkA==X X t⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡------∑∑∑∑i p p ipp p ii X X X X X XX X X X X Xn 211111111112111)(...)()(0...................................))(....)(000 0(=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡L LLL L L L L L pp p P p p n ....0............... 0...00 0212222111211=⎥⎦⎤⎢⎣⎡L n 00 A 为准对角阵,子块L 是P 介实对称可逆阵。
§3回归方程及回归系数的显著性检验1、回归方程的显著性检验(1)回归平方和与剩余平方和建立回归方程以后.回归效果如何呢因变虽7与自变彊乃界2,…川廉是否确实存在线性关系呢这是需嬰进行统讣检验才能加以肯定或否定,为此,我们耍进一步研究因变虽丿取值的变化规律。
丿的每次取值片& = l,2,・・・j)是有波动的,这种波动常称为变差,每次观测值山的变差大小,常用该次观侧值》鮎戶次观测值的平均值” J1的差P (称为离差)來农示,而全部X次观测值的总变差可由总的离差平方和JS X? M一刃一九)2十亍庆一刀2詔十UJI JI J1f其中:j 称为回归平方和,是回归值/丘与均值p之差的平方和,它反映了自变虽"'◎,•••用欷的变化所引起的丿的波动,其自由度九5(朋为自变虽的个数)。
M£ =为=3「弘尸a3 称为剩氽平方和(或称残差平方和),是实测值丿免与回归值》丘之差的平方和,它是由试验误差及其它因素引起的,其自由度fQ = n~m~1。
总的离差平方和'妙的自由度为«-1 s 如果观测值给定,则总的离差平方和巧^是确定的,即Q+u是确定的,因此17大则£小,反之,u 小则0大,所以u与丘都可用來衡址回归效果,且回归平方和17越大则线性回归效果越显著,或者说剩余平方和£越小回归效果越显普,如果2=0,则回归超平血过所有观测点;如果。
大,则线性回归效果不好。
(2)复相关系数为检验总的回归效果,人们也常引用无虽纲抬标化「土»R称为复相关系数。
因为回归平方和卩实际上是反映回归方程中全部自变:&的“方差贡献”,因此丘2就是这种罚献在总回归平方和中所占的比例,因此尺表示全部自变虽与因变址丿的相关程度。
显然血尺。
复相关系数越接近1,回归效果就越好,因此它可以作为检验总的回归效果的一个指标。
但应注意,艮|丿回归方程中自变虽的个数朋及观测组数以有关,、”“相对于朋并不很大时,常有较大的尺值,因此实际il•算中应注意朋与”的适为比例,一般认为应取乳至少为朋的5到10倍为宜。
回归方程及回归系数的显著性检验§3 回归方程及回归系数的显著性检验1、回归方程的显著性检验(1) 回归平方和与剩余平方和建立回归方程以后, 回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。
的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值与次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和,其中:称为回归平方和, 是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动, 其自由度(为自变量的个数)。
称为剩余平方和(或称残差平方和), 是实测值与回归值之差的平方和, 它是由试验误差及其它因素引起的, 其自由度。
总的离差平方和的自由度为。
如果观测值给定, 则总的离差平方和是确定的, 即是确定的, 因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果=0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。
(2) 复相关系数为检验总的回归效果, 人们也常引用无量纲指标, (3.1)或, (3.2)称为复相关系数。
因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。
显然。
复相关系数越接近1, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。
但应注意, 与回归方程中自变量的个数及观测组数有关, 当相对于并不很大时, 常有较大的值, 因此实际计算中应注意与的适当比例, 一般认为应取至少为的5到10倍为宜。
(3) 检验要检验与是否存在线性关系, 就是要检验假设, (3.3)当假设成立时, 则与无线性关系, 否则认为线性关系显著。
§ 3回归方程及回归系数的显著性检验1、回归方程的显著性检验(1)回归平方和与剩余平方和建立回归方程以后,回归效果如何呢?因变量丿与自变量旳=乜严\茂更是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定,为此,我们要进一步研究因变量丿取值的变化规律。
丿的每次取值找优■1,2严诃)是有波动的,这种波动常称为变差,每次观测值的变差大小,常用该次观侧值戸=』^^与觅次观测值的平均值” j 的差丿鸟-P(称为离差)来表示,而全部n次观测值的总变差可由总的离差平方和3护=另0丘-』卩=2。
氐-A?十刀庆-/PJU1 JU1其中:31 称为回归平方和,是回归值丿化与均值7之差的平方和,它反映了自变量xwr的变化所引起的丿的波动,其自由度f戸-E (帆为自变量的个数)。
Z 称为剩余平方和(或称残差平方和),是实测值丿代与回归值之差的平方和,它是由试验误差及其它因素引起的,其自由度巾。
总的离差平方和g邓的自由度为播-1。
如果观测值给定,则总的离差平方和'a是确定的,即2+B是确定的,因此^大则e小,反之,卩小则2大,所以了与e都可用来衡量回归效果,且回归平方和*^越大则线性回归效果越显著,或者说剩余平方和2越小回归效果越显著,如果E = 0,则回归超平面过所有观测点;如果2大,则线性回归效果不好。
(2)复相关系数为检验总的回归效果,人们也常引用无量纲指标V 氏刃,(3.2)丘称为复相关系数。
因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”,因此丘2就是这种贡献在总回归平方和中所占的比例,因此丘表示全部自变量与因变量丿的相关程度。
显然0<丘<1。
复相关系数越接近1 ,回归效果就越好,因此它可以作为检验总的回归效果的一个指标。
但应注意回归方程中自变量的个数闻及观测组数n有关,当?2相对于m并不很大时,常有较大的兄值,因此实际计算中应注意揪与N的适当比例,一般认为应取n至少为rn的5到10倍为宜。
.3 回归方程及回归系数的显著性检验§1、回归方程的显著性检验回归平方和与剩余平方和(1)与自变量, 是否确实存在线性关系呢?这回归效果如何呢?因变量建立回归方程以后我们要进一步研究因变量, 为此, 取值的变化规律。
的每次是需要进行统计检验才能加以肯定或否定常用该次观侧值, 每次观测值是有波动的, 这种波动常称为变差, 的变差大小取值而全部次观测值的总变差可由总的来表示, 的差(称为离差与次观测值的平均值)离差平方和,: 其中与均值之差的平方和, , 是回归值它反映了自变量称为回归平方和。
(其自由度为自变量的个数)的变化所引起的的波动,与回归值之差的平方和是实测值, 称为剩余平方和(或称残差平方和), 它的自由度为其自由度。
是由试验误差及其它因素引起的, 。
总的离差平方和,反之因此, 即小大则是确定的, , 如果观测值给定 , 是确定的则总的离差平方和且回归平方和越大则线性回归效果越显著, 小则大, 所以与, 或者说剩都可用来衡量回归效果如果; =如果0, 越小回归效果越显著则线性回归效果大, 余平方和, 则回归超平面过所有观测点不好。
复相关系数(2)人们也常引用无量纲指标为检验总的回归效果,, (3.1)或1 / 6., (3.2)称为复相关系数。
因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就因此。
是这种贡献在总回归平方和中所占的比例显然, 表示全部自变量与因变量的相关程度。
, , 因此它可以作为检验总的回归效果的一个指标。
但应注意与复相关系数越接近1, 回归效果就越好因此实际值相对于并不很大时, 及观测组数回归方程中自变量的个数有关, , 当常有较大的一般认为应取的5到计算中应注意的适当比例倍为宜。
, 与10至少为检验(3)要检验与是否存在线性关系, 就是要检验假设, (3.3)应用统计量当假设无线性关系, 成立时, 否则认为线性关系显著。
检验假设则与, (3.4)它服从自由度为及这是两个方差之比的分布, 即,, (3.5)应有统计量下, 用此统计量, 成立则当给定检验水平可检验回归的总体效果。
§3 回归方程及回归系数的显著性检验1、回归方程的显著性检验(1) 回归平方和与剩余平方和建立回归方程以后, 回归效果如何呢因变量与自变量是否确实存在线性关系呢这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。
的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值与次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和,其中:称为回归平方和, 是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动, 其自由度(为自变量的个数)。
称为剩余平方和(或称残差平方和), 是实测值与回归值之差的平方和, 它是由试验误差及其它因素引起的, 其自由度。
总的离差平方和的自由度为。
如果观测值给定, 则总的离差平方和是确定的, 即是确定的, 因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果=0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。
(2) 复相关系数为检验总的回归效果, 人们也常引用无量纲指标,或,称为复相关系数。
因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。
显然。
复相关系数越接近1, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。
但应注意, 与回归方程中自变量的个数及观测组数有关, 当相对于并不很大时, 常有较大的值, 因此实际计算中应注意与的适当比例, 一般认为应取至少为的5到10倍为宜。
(3) 检验要检验与是否存在线性关系, 就是要检验假设,当假设成立时, 则与无线性关系, 否则认为线性关系显著。
检验假设应用统计量,这是两个方差之比, 它服从自由度为及的分布, 即,用此统计量可检验回归的总体效果。
2.解:人均GDP作为自变量x,人均消费水平作为因变量y:第1步:选择“数据”,点击“数据分析”命令。
第2步:在分析工具中选择“回归”,然后单击“确定”按钮。
第3步:当对话框出现时:在“Y值输入区域”框内输入人均消费水平的数据区域,在“X值输入区域”框内输入人均GDP的数据区域,选择输出区域,得到回归结果如下图:线性相关系数判定系数y的截距斜率(2)由上表可知:线性相关系数为0.998127959。
线性相关系数接近于1,说明人均GDP与人均消费水平之间有非常强的正线性相关关系。
(3)由表知:回归方程为:y=734.6928+0.308683x。
回归系数为0.308683。
意义:人均GDP每增加1元,人均消费水平平均增加0.308683元。
(4)判定系数R2=0.996259423。
意义:在人均消费水平的变差中,有99.6259423%是由人均GDP决定的。
(5)提出假设:H0:β1=0,H1:β1≠0。
由表知:Significance F=2.90942E-7 < α=0.05,所以拒绝原假设,说明人均GDP与人均消费水平之间的线性关系显著。
3.解:航班正点率作为自变量x,投诉次数作为因变量y:第1步:选择“数据”,点击“数据分析”命令。
第2步:在分析工具中选择“回归”,然后单击“确定”按钮。
第3步:当对话框出现时:在“Y值输入区域”框内输入投诉次数的数据区域,在“X值输入区域”框内输入航班正点率的数据区域,选择输出区域,得到回归结果如下图:y的截距斜率(2)由表知:回归方程为:y=430.18923-4.7x。
回归系数为- 4.7。
意义:航班正点率每增加1%,顾客投诉次数平均下降4.7次。
(3)由表得:回归系数检验的P-value=0.001108261 < a=0.05,所以拒绝原假设,且回归系数显著。
线性回归数据选用R中table.b31.回归方程显著性的检验(t检验)首先探索y与x之间是否具备线性关系,最直接的方法,画出y和x之间的散点图,如图所示,y与x之间是负相关的关系。
将y与x进行拟合模型lm()用准确的统计学语言来描述回归结果y=33.72-0.047x回归方程的预测在对方程进行预测时,(需要拟合好的模型,新预测的数据集,定义预测的区间,定义95%的可信区间)回归诊断回归模型的前提假设:线性:因变量Y的总体平均值与X呈线性关系独立性:需要保证观测值之间是相互独立的正态性:线性模型的残差服从正态分布(残差毫无规律的分布在x=0的周围)等方差:不论X取什么值,Y都具有相同的方差出现情况:1.对于方差不齐的情况可以采用加权最小二乘法,对于距离较远的点赋予较小的权重,减少其不良影响。
2.共线性(拟合模型显著但自变量不显著)诊断方法方差膨胀因子,VIF>10有较强的共线性,VIF>100有严重的共线性,发现共线性的变量可剔除彼此共线性的变量2.高杠杆值(与离群点不同,其x值不在正常范围内)诊断方法(学生化残差,杠杆值,Cook距离)car包中的influencePlot函数找出该点外文文献总结一种基于模糊信息的乳腺癌危险因素方法评估目的:本篇文章是研究导致乳腺癌疾病的因素,研究发现有可控因素和不可控因素。
通过构建一个决策系统来观察导致乳腺癌的因素。
方法:通过BRFCM(基于规则的模糊认知图)方法来表示几种因素之间的属性和因果关系。
第一部分,利用基于模糊推理规则的方法,利用MATLAB(矩阵实验室)构造RBFCM的权重矩阵,得到了互连线的权重。
连接强度是根据这些因素的因果关系按权重值推断的。
第二部分通过模糊识别图评价影响BC发生的因素,并计算BC危险因素的影响程度。
第三部分,使用FCMapper软件分析结果。
在构建因果关系时,结合研究人员经验,来确定BRFCM的权重矩阵。
在FIS中的功能操作遵循以下四个步骤:评估每个规则的输入,获得每个规则的结论,汇总结论和去模糊化。
回归方程及回归系数验检性著显的.
3 回归方程及回归系数的显著性检验§
1、回归方程的显著性检验回归平方和与剩余平方和(1)
是否确实存在线性关系呢?这, 回归效果如何呢?因变量与自变量建立回归方程以后我们要进一步研究因变量, 取值的变化规律。
的每是需要进行统计检验才能加以肯定或否定, 为此常用该次观侧值每次观测值的变差大小, 次取值是有波动的, 这种波动常称为变差,
次观测值的总变差可由而全部, 的差(称为离差)来表示与次观测值的平均值总的离差平方和,
: 其中它反映了自变量称为回归平方和 , 是回归值与均值之差的平方和,。
)为自变量的个数的波动的变化所引起的, 其自由度(,
), 是实测值与回归值之差的平方和或称残差平方和称为剩余平方和(的自由度为其自由度。
总的离差平方和。
它是由试验误差及其它因素引起的,
,
, 是确定的即, 如果观测值给定则总的离差平方和是确定的, 因此大则反之小,
或者, 与, 大所以且回归平方和都可用来衡量回归效果, 越大则线性回归效果越显著小则如果越小回归效果越显著, ; 则线性回大, 说剩余平方和0, =如果则回归超平面过所有观测点归效果不好。
复相关系数(2)
人们也常引用无量纲指标, 为检验总的回归效果, (3.1)
或.
, (3.2)
称为复相关系数。
因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此因此的相关程度。
显然, 就是这种贡献在总回归平方和中所占的比例表示全部自变量与因变量
因此它可以作为检验总的回归效果的一个指标。
但, 回归效果就越好, 。
复相关系数越接近1
常有较大的并不很大时, 相对于,
与回归方程中自变量的个数及观测组数有关, 当应注意
一般认为应取, 的适当比例的5到10至少为倍为宜。
值与, 因此实际计算中应注意
检验(3)
就是要检验假设, 是否存在线性关系要检验与
, (3.3)
应用统计量否则认为线性关系显著。
检验假设无线性关系, 与成立时当假设, 则
, (3.4)
它服从自由度为即及的分布, , 这是两个方差之比
, (3.5)
应有则当给定检验水平成立, α下, 可检验回归的总体效果。
如果假设用此统计量统计量
, (3.6)≤
由对于给定的置信度α值为, , 的值分布表可查得如果根据统计量算得的个自变量的总体回归效果是显著, 为O, 即不能认为全部, 则拒绝假设即否则认为回归效果不显著。
的,
检验对回归方程进行显著性检验的方法称为方差分析。
上面对回归效果的讨论可归结于一个利用。
如表方差分析表中, 3.1方差分析表表3.1
来方差比方差平方和自由度源回
归
剩余
总
计
: 的以下关系可以导出与根据与的定义,
,。
值多大时回归效果才算是显著的问题。
因为对给定的检验水平α, 由利用这两个关系式可以解决
分布表可查出: 的临界值, 然后由即可求出的临界值
, (3.7)
时, 当则认为回归效果显著。
的回归方程进行显著性检验。
2.13.1利用方差分析对例例。
3.2 方差分析结果见表 3.2 表方差比差方源来平方和自由度
归回
余剩
计总
, 所以例2.1取检验水平分布表得, 而α=0.05, 查的回归方程回归效果是显著的。
2、回归系数的显著性检验前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量
对因变量都是重要的, 即可能有某个自变量对并不起作用或者能被其它的的作用所代替, 因此对这种自变量我们希望从回归方程中剔除, 这样可以建立更简单的回归方程。
显然某个自变
: 就要检验假设, 是否显著因此检验每个自变量0, 就应取值为则它的系数, 作用不显著量如果对.
, (3.8) ,
: (1) 检验
: 假设下, 可应用在检验
, (3.9) ,
个元素。
其中为矩阵的对角线上第
对应的临界值分布表中可查出与α则拒绝假设对给定的检验水平α, 从, 如果有,
如果有0, 即认为与则接受假设,
有显著差异, 这说明有重要作用不应剔除; 对
应予剔除。
对成立, 即认为这说明不起作用,
: 检验(2)
分布的统计量1, 亦可用服从自由度分别为与的检验假设
, (3.10)
分布表其中, 的主对角线上第为矩阵个元素。
对于给定的检验水平α从
有重要作用。
对则拒绝假设中可查得临界, 如果有认为, ,
可以剔除。
一般一次对, 即认为自变量不起重要作用, 则接受假设, 如果
且这个自变量是所有不显著自变量中值最小者, 然后再建立回归方程, 检验只剔除一个自变量, 并继直到建立的回归方程及各个自变量均显著为止。
续进行检验,
(3.9)因为由, , 最后指出上述对各自变量进行显著性检验采用的两种统计量与实际上是等价的有式及(3.10), 式知
(3.11)
的回归方程各系数进行显著性检验。
3.2例2.1对例: 经计算
,
于是
,
其中=0.004577。
由(3.7)式知=0.002223,
,
,
, , 因为查分布表得,
比胸围, 及, 所以两个自变量都是显著的。
又由说明体长
的影响更大。
对体重
如果应用检验, 查分布表有, 又由
,
,
均为重要都是显著的,
, , 因为因此及应保留在回归方程中。
变量,
偏回归平方和(3)
还可应用偏回归平方和进行检验。
, 检验某一自变量是否显著
的回归平方和为个自变量
,
如果自并设, 个自变量的回归平方和设为, 则剩下的个自变量中去掉
,
就表示变量的偏回归平方和或贡献。
可以证明,
中的贡献在回归平方和称为则
, (3.12)
对回归方程的, 或者说越大, 说明在回归方程中越重要, 对的作用和影响越大偏回归平方和的一个指标。
)贡献越大。
因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小(贡献大小
的偏回归平方和分别为和2.1中,
例如在例
,
,
大。
的作用比 , 说明在回归方程中
: 的偏回归平方和分别为又如在例及 2.2中
,
,
,
,
在回归方程中所起的作用最小,
最大 , 的值最小即, 说明在回归方程中所起的作用最大。