第七章 相关分析与回归分析(补充例题)
- 格式:doc
- 大小:182.50 KB
- 文档页数:6
第二篇回归分析与相关分析第7章可线性化的非线性回归线性模型在现实中其实是较少出现的,大量的规律都表现为非线性模型。
线性模型的价值与其说在于处理线性问题,毋宁说在于处理线性化的非线性模型,或者说近似拟合相互作用不太强烈非线性系统。
在实际工作中,我们会遇到许多简单而又实用的非线性模型,这些模型都可以通过某种数学变换转换为线性关系,从而利用最小二乘技术进行回归运算。
比较常见的有指数模型、对数模型、幂指数模型、双曲线模型、抛物线模型、正态分布模型,等等。
下面逐一举例说明。
§7.1 线性与非线性非线性是相对于线性关系而言的。
当变量数目一定的时候,线性关系只有一种,而非线性关系各式各样,千变万化。
传统的科学理论主要是基于线性理论建立起来的,非线性科学的兴起历史并不长久。
虽然非线性理论年龄尚幼,但简单的非线性关系的应用却历史悠久。
首先需要区别函数y=f(x)对自变量x的依赖关系。
对于一个变量而言,线性形式为=,bxy+a这是只有一个自变量的一次多项式表达,式中a、b为参数,表现为常数形式。
如果多项式出现大于1的幂次,就是非线性函数。
最简单的非线性函数之一是抛物线,这是一种二次多项式=2,cy++axbx式中a、b、c为参数。
一般函数为f=,yμ(x),式中μ为参量集。
我们可以从如下方面理解线性关系和非线性关系的区别。
第一,线性是简单的比例关系,而非线性则是对简单比例关系的偏离。
有位学者打了一个通俗的比方,线性就是水涨船高,多多益善;非线性就是过犹不及,物极必反。
以三次曲线为例,该曲线是对线性关系的局部偏离,科学上称之为“微扰”或者“摄动”。
第二,线性关系表明各个变量之间互不相干,独立贡献,非线性关系则意味着相互作用。
线性关系暗示各个变量可以相互叠加,对于非线性而言,暗示整体不等于部分之和。
因此,线性回归要求各个自变量彼此独立,因为最小二乘技术主要是基于线性思想发展的一种参数求解方法。
第三,线性关系意味着信号的频率成分不变,而非线性关系则暗示频率结构发生变化。
第七章回归与相关分析一、填空题1.现象之间的相关关系按相关的程度分为、和;按相关的形式分为和;按影响因素的多少分为和。
2.两个相关现象之间,当一个现象的数量由小变大,另一个现象的数量,这种相关称为正相关;当一个现象的数量由小变大,另一个现象的数量,这种相关称为负相关。
3.相关系数的取值X围是。
4.完全相关即是关系,其相关系数为。
5.相关系数,用于反映条件下,两变量相关关系的密切程度和方向的统计指标。
6.直线相关系数等于零,说明两变量之间;直线相关系数等1,说明两变量之间;直线相关系数等于—1,说明两变量之间。
7.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称为。
8.回归方程y=a+bx中的参数a是,b是。
在统计中估计待定参数的常用方法是。
9. 分析要确定哪个是自变量哪个是因变量,在这点上它与不同。
10.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。
11.用来说明回归方程代表性大小的统计分析指标是。
12.判断一条回归直线与样本观测值拟合程度好坏的指标是。
二、单项选择题1.下面的函数关系是( )A销售人员测验成绩与销售额大小的关系 B圆周的长度决定于它的半径C家庭的收入和消费的关系 D数学成绩与统计学成绩的关系2.相关系数r的取值X围( )A -∞<r<+∞B -1≤r≤+1C -1<r<+1D 0≤r≤+13.年劳动生产率z(干元)和工人工资y=10+70x,这意味着年劳动生产率每提高1千元时,工人工资平均( )A增加70元 B减少70元 C增加80元 D减少80元4.若要证明两变量之间线性相关程度是高的,则计算出的相关系数应接近于( )A+1 B 0 C 0.5 D [1]5.回归系数和相关系数的符号是一致的,其符号均可用来判断现象( ) A线性相关还是非线性相关 B正相关还是负相关C完全相关还是不完全相关 D单相关还是复相关6.某校经济管理类的学生学习统计学的时间(x)与考试成绩(y)之间建=a+b x。
第七章 相关关系分析法 简答题1.什么是相关关系?相关分析与回归分析的主要内容有哪些?相关关系:指现象之间客观存在的、不确定的数量依存关系。
主要内容:(1)确定变量之间是否相关;(2)确定变量之间的相关类型;关系的密切程度和方向(3)确定变量之间的相关关系的密切程度和方向;(4)建立变量之间的回归方程;(5)给定自变量的值,求因变量的值;(6)测定因变量的估计标准误差。
其中前三个属于相关关系,后三个属于回归关系。
2.什么是相关系数?r 的计算公式中,标准差和协方差分别起的作用是什么? 相关系数:是说明两种现象之间直线相关关系密切程度的统计分析指标。
协方差的作用:显示x 与y 之间相关的性质,即是正相关、负相关; 显示x 与y 之间线性相关关系密切程度的大小。
标准差作用 :消除离差积乘中两个变量原有计量单位的影响;将相关系数的值局限在-1到+1之间。
3.如何利用相关系数来判别现象之间的相关关系?(1)相关系数的取值范围为:-1≤r ≤1 。
(2)r >0,是正相关, r <0,是负相关。
(3)r 越接近0,相关程度越,为不相关。
(4)1=r ,为完全相关,0=r 。
(5)3.0<r , 为不相关或微弱相关低;r 越接近1,相关程度越高。
5.03.0<≤r ,为低度相关; 8.05.0<≤r ,为显著相关; 18.0<≤r , 为高度相关。
4.简述简单直线回归分析的特点。
(1)在两个变量之间必须根据研究的目的确定哪个是自变量,哪个是因变量。
(2)在没有明显因果关系的两个变量中,可配合两个回归方程。
值得注意的是,若两个变量存在明显的因果关系时,只能计算一条回归直线,另一条配合出来也没意义。
(3)回归方程的作用在于给出自变量的数值来估计因变量的可能值。
(4)直线回归方程中,自变量的系数b称为回归系数。
回归系数的符号为正时表示正相关,为负表示负相关。
(5) 回归分析中,因变量是随机的,而把自变量当作研究时可以控制的量。
1、填空题现象之间的相关关系按相关的程度分有________相关、________相关和_______相关;按相关的方向分有________相关和________相关;按相关的形式分有________相关和________相关;按影响因素的多少分有________相关和________相关。
2、对现象之间变量关系的研究中,对于变量之间相互关系密切程度的研究,称为_______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。
3、完全相关即是________关系,其相关系数为________。
4、在相关分析中,要求两个变量都是_______;在回归分析中,要求自变量是_______,因变量是_______。
5、person相关系数是在________相关条件下用来说明两个变量相关________的统计分析指标。
6、相关系数的变动范围介于_______与_______之间,其绝对值愈接近于_______,两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低.当_______时表示两变量正相关;_______时表示两变量负相关.7、 当变量x 值增加,变量y 值也增加,这是________相关关系;当变量x值减少,变量y 值也减少,这是________相关关系。
8、 在判断现象之间的相关关系紧密程度时,主要用_______进行一般性判断,用_______进行数量上的说明。
9、 在回归分析中,两变量不是对等的关系,其中因变量是_______变量,自变量是_______量。
10、 已知13600))((=----∑y y x x ,14400)(2=--∑x x ,14900)(2=-∑-y y ,那么,x 和y 的相关系数r 是_______。
11、 用来说明回归方程代表性大小的统计分析指标是________指标。
12、 已知1502=xy σ,18=xσ,11=y σ,那么变量x 和y 的相关系数r 是_______.13、 回归方程bx a y c +=中的参数b 是________,估计特定参数常用的方法是_________.14、 若商品销售额和零售价格的相关系数为-0。
第七章相关分析与回归分析1.企业 编号 产量(千 件)生产费用 (千元)企业编 号 产量(千 件)生产费用 (千元) 1 40 130 7 84 165 2 42 140 8 100 170 3 49 155 9 110 167 4 49 150 10 114 183 550 154 11 125 175 65516012130189试根据上表材料: (1) 绘制散点图。
(2) 计算相关系数。
(3) 配合一条直线回归方程。
解: ( 1)(2) 企业编号产量(千件)x生产费用(千元)yxy x2 y2 1 40 130 **** **** 16900 2 42 140 5880 1764 19600 3 49 155 **** **** 24025 4 49 150 **** **** 22500 5 50 154 7700 2500 23716 6 55 160 8800 3025 25600 784 165 138607056272258 100170 17000 10000 28900 911016718370 12100 278896080040200 150 100产量与生产费用散点图512x159062 -948x1938.12 88368 -9482、12 316190 -19382(3)设回归方程为? = a bxb』甞7n Z x 一(送 x)12 159062-948 1938 12y -bx =1^ -0.4423948=126.558312 12所以回归方程为$ =126.5583 0.4423x2.某县城研究居民月家庭人均生活费支出和月家庭收入的相互关系,随机抽样 10利用上表材料:(1) 绘制散点图并观察两变量之间是否存在线性关系 (2) 计算相关系数,建立回归方程。
(3) 计算估计标准误差。
(4) 测算人均收入为200时,其人均生活费应为多少元 解: ( 1)12 88368-9482_ n 瓦xy-任x)任y) n' x 2 -r x)2. n' y 2 -(' y)2 71520 78838.84-0.907271520 161712二 0.4423(2) 家庭序号月人均收入(元)x月人均生活费(元)yxy x2y21 100 85 8500 10000 72252 110 88 968012100 77443 120 90 10800 14400 81004 130 94 12220 16900 88365 140 96 13440 19600 9216 6 150 100 15000 22500 100007 160 106 16960 25600 112368 170 118 20060 28900 13924 9180 120 21600 32400 14400 10 190 124 23560 36100 15376合计14501021151820 218500 106057n' xy-C x)(' y)10 151820 -1450 1021设回归方程为bxn £ xy-(£ x)(£ y) 10 汇 151820 —1450 乂 1021 n' x 2-C x)2 n' y 2-(' y)2 _ 10 218500 -14502a-bx=1021-0.45761450=35.74810 10所以回归方程为? =35.748 0.4576x (3)、10 218500 -14502 一 10 106057 -10212费活生均人月200-C x)2 .. n'y 2-c y)2 3775038673.54= 0.97613775082500 = 0.4576月人均生活费与人均收入散点图120140160月人均收入180oo oooooo 4 2 0 8 6 4 2' y2-a' y-b' xy _ 106057-35.748 1021-0.4576 151820 目二n-2 「10-2= 3.2684(4)当x=200 时,人均生活费为:y =35.748 0.4576 200 =127.2683. 已知x、y两变量的相关系数r = 0.8 , X =20, y = 50,二y为二x的两倍,求y 对x 的回归方程。
334229.09425053.730.7863334229.0922.0889V425053.73=0.003204 245.4120第七章相关与回归分析习题答案一、填空题1.完全相关、不完全相关、不相关2. —iWrWl3.函数、|r| = l4.无线性相关、完全正相关、完全负相关5.密切程度6.正相关、负相关7.直线相关、曲线相关8.回归系数9.随机的、给定的10.最小二乘法,残差平方和二、 单项选择题I. B 2. B 3. A 4. A 5. B 6. C 7. D 8. B9. A 10. CII. C 12. B 13. D 14. B 15. C三、 多项选择题1. BCD2. ACD3. ABD4. ABCD5. ACE四、 计算题1解:B\=V - p 2x = 549.8 - 0.7863 * 647.88 = 40.37202 _ [£ (匕顼(X,侦)]2 '"£(x,-x )2£(y,-y )20.999834425053.73*262855.25 ;2=(1-产切 _y )2 =43.6340= 2.0889 n — 2(3) H°:”2=0,H I :”2 邳腐 _ 0.7863~S~ ~ 0.003204〃2券(〃-2)=诲(10) = 2.228t 值远大于临界值2.228,故拒绝零假设,说明月在5%的显著性水平下通过了显著性 检验。
(4) Y f =40.3720 + 0.7863*800 = 669.41 (万元)0.0273 S' =S l + 厂 Xf =2.0089」1 + 土 +华°「647・88)2 = 2 1429 所以,Yf 的置信度为 7V n Z (X,-X )2 V 12 425053.73 95 %的预测区间为:Y f ±t a/2(n-2)S ef = 669.41 ±2.228* 1.0667 = 669.41 ±2.3767 所以,区间预测为: 664.64 < Y f <674.182解:A _ £(匕一双%一灭)—N £X ,E —£x,£匕) 乃一 Z (x,一文尸一 (£x )9*803.02-13.54*472 八= ------------------------------------ =0.02739*28158-472*472& = Y-$2X =13.54/9-0.0273 * 472/9 = 0.0727(2)决定系数: , [y (y-F )(x-%)]2 r 2 =¥,_ 盘——;=0.9723Z (x,-x )Na-V )-残差平方和^<=(l-r 2)^(y-y )2 =0.0722 (3)身高与体重的相关系数: r =序=J0.9723 = 0.9861H O :A = A = O ,H 1:A W 2不同时为零厂。
第七章 相关与回归分析一、单项选题题1、当自变量X 减少时,因变量Y 随之增加,则X 和Y 之间存在着( ) A 、线性相关关系 B 、非线性相关关系 C 、正相关关系 D 、负相关关系2、下列属于函数关系的有( )A 、身高与体重之间B 、广告费用支出与商品销售额之间C 、圆面积与半径之间D 、施肥量与粮食产量之间 3、下列相关程度最高的是( )A 、r=0.89B 、r=-0.93C 、r=0.928D 、r=0.8 4、两变量x 与y 的相关系数为0.8,则其回归直线的判定系数为( ) A 、0.80 B 、0.90 C 、0.64 D 、0.50 5、在线性回归模型中,随机误差项被假定服从( )A 、二项分布B 、t 分布C 、指数分布D 、正态分布6、物价上涨,销售量下降,则物价与销售量之间的相关属于( ) A 、无相关 B 、负相关 C 、正相关 D 、无法判断7、相关分析中所涉及的两个变量( )A 、必须确定哪个是自变量、哪个是因变量B 、都不能为随机变量C 、都可以是随机变量D 、不是对等关系 8、单位产品成本y (元)对产量x (千件)的回归方程为:t t x y 2.0100-=∧,其中“—0.2”的含义是( )A 、产量每增加1件,单位成本下降0.2元B 、产量每增加1件,单位成本下降20%C 、产量每增加1000件,单位成本下降20%D 、产量每增加1000件,单位成本平均下降0.2元E 、产量每增加1000件,单位成本平均下降20% 二、多项选择题1、下列说法正确的有( )A 、相关分析和回归分析是研究现象之间相关关系的两种基本方法B 、相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况 C、回归分析可以不必确定变量中哪个是自变量,哪个是因变量 D、相关分析必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量 E、相关分析中所涉及的变量可以都是随机变量,而回归分析中因变量是随机的,自变量是非随机的2、判定现象之间有无相关关系的方法有()A、计算回归系数B、编制相关表C、绘制相关图D、计算相关系数E、计算中位数3、相关关系按相关的形式可分为()A、正相关B、负相关C、线性相关D、非线性相关E、复相关4、在直线回归方程∧yt=∧β1+∧β2Xt中,回归系数∧β2的数值()A、表明两变量之间的平衡关系B、其正、负号表明两变量之间的相关方向C、表明两变量之间的密切程度D、表明两变量之间的变动比例E、在数学上称为斜率5、下列那些项目属于现象完全相关()A、r=0B、r= —1C、r= +1D、y的数量变化完全由X的数量变化所确定E、r=0.986、在回归分析中,要求所涉及的两个变量x和y()A、必须确定哪个是自变量、哪个是因变量B、不是对等关系C、是对等关系D、一般来说因变量是随机的,自变量是非随机变量E、y对x的回归方程与x对y的回归方程是一回事7、下列有相关关系的是()A、居民家庭的收入与支出B、广告费用与商品销售额C、产量与单位产品成本D、学生学习的时间与学习成绩E、学生的身高与学习成绩8、可决系数2r=86.49%时,意味着()A 、自变量与因变量之间的相关关系密切B 、因变量的总变差中,有80%可通过回归直线来解释 C 、因变量的总变差中,有20%可由回归直线来解释 D 、相关系数绝对值一定是0.93 E 、相关系数绝对值一定是0.8649 三、填空题1、相关系数r 的取值范围为 。
第七章 相关分析与回归分析
例1、有10个同类企业的固定资产和总产值资料如下:
根据以上资料计算(1)协方差和相关系数;(2)建立以总产值为因变量的一元线性回归方程;(3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少?
解:计算表如下:
(1)协方差——用以说明两指标之间的相关方向。
2
2)
)((n
y
x xy n n
y y x x xy
∑∑∑∑-
=
-
-=
σ
35.126400100
9801
6525765915610>=⨯-⨯=
计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。
(2)相关系数用以说明两指标之间的相关方向和相关的密切程度。
∑∑∑
∑∑∑∑---
=
]
)(][)
([2
2
2
2
y y n x x n y
x xy n r 95
.0)
980110866577
10()6525566853910(9801
65257659156102
2
=-⨯⨯-⨯⨯-⨯=
计算得到的相关系数为0.95,表示两指标为高度正相关。
(3)
2
2
26525
56685391098016525765915610)
(-⨯⨯-⨯=
--=
∑∑∑∑∑x x
n y x xy n b
90
.014109765
126400354257562556685390
6395152576591560==
--=
85
.39210
65259.010
9801=⨯
-=
-=x b y a
回归直线方程为:
x y
9.085.392ˆ+=
(4)当固定资产改变200万元时,总产值平均改变多少?
x y ∆=∆9.0,180
2009.0|200=⨯=∆=∆x y 万元
当固定资产改变200万元时,总产值平均增加180万元。
(5)当固定资产为1300万元时,总产值为多少?
85
.156213009.085.392|1300=⨯+==x y 万元
当固定资产为1300万元时,总产值为1562.85万元。
例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。
解:【分析】本题中“企业数”应看成资产总值和平均每昼夜原料加工量两变量的次数,在计算相关系数的过程,要进行“加权”。
计算列表如下:
相关系数
∑∑∑∑∑∑∑∑∑∑---=
]
)(][)([2
2
2
2
f y f
y f f x f x
f
yf xf xyf f r 84
.0)
331.2842()21600
11740000
42(33
2160017960422
2
=-⨯⨯-⨯⨯-⨯=
例3、检查5位同学统计学的学习时间与成绩分数如下表:
要求:(1)编制直线回归方程;(2)由此计算出学习时数与学习成绩之间的相关系数。
解:先列出计算表:
解:(1)bx
a y c
+=
2.540
37053104027405)
(2
2
2
=-⨯⨯-⨯=
--=
∑∑∑∑∑x x
n y
x xy n b
4
.205402.55
310=⨯
-=
-=x b y a
回归直线方程为:
x y c 2.54.20+=
(2)
∑∑∑
∑∑∑∑---
=
]
)(][)
([2
2
2
2
y y n x x n y
x xy n r 956
.002
.8681.151300)
310207005()403705(310
40274052
2
=⨯=
-⨯⨯-⨯⨯-⨯=
计算得到的相关系数为0.95,表示两指标为高度正相关。
956
.09135.02
==
=
r r
说明学习时数x 与成绩得分y 之间有高度的相关关系。
例3、检查5位同学统计学的学习时间与成绩分数如下表:
要求:(1)编制直线回归方程;(2)计算估计标准误差;(3)对学习成绩的方差进行分解分析,指出总误差平方和中有多少比重可由回归方程来解释;(4)由此计算出学习时数与学习成绩之间的相关系数。
解:先列出计算表:
解:(1)bx
a y c
+=
2.540
37053104027405)
(2
2
2
=-⨯⨯-⨯=
--=
∑∑∑∑∑x x
n y
x xy n b
4
.205402.55
310=⨯
-=
-=x b y a
回归直线方程为:
x y c 2.54.20+=
(2)53
.63
2740
2.53104.20207002
2
=⨯-⨯-=
---=
∑∑∑n xy b y a y
S yx
(3)总误差分解列表如下:
63
5
310==
y
∑∑∑-+
-=
-2
2
2
)()()
(y y
y
y y y c
c
1480=128+1352
9135.01480
1352)
()(2
2
2
==
--=
∑∑y y y y r c
计算总误差平方和中有91.35%可以由回归方程来解释,学习时数x 与成绩得分y 之间有高度的相关。
如果用理论分数c y 来估计实际分数
y
,平均将发生6.53分的误差,这个数字与平均成绩62分对比约占
10.5%。
(4)956
.09135.02
==
=
r r
说明学习时数x 与成绩得分y 之间有高度的相关关系。