当前位置:文档之家› 第七章 相关回归分析 思考题及练习题

第七章 相关回归分析 思考题及练习题

第七章 相关回归分析 思考题及练习题
第七章 相关回归分析 思考题及练习题

第七章 思考题及练习题

(一) 填空题

1、 1、 在相关关系中,把具有因果关系相互联系的两个变量中起影响

作用的变量称为_______,把另一个说明观察结果的变量称为________。

2、 2、 现象之间的相关关系按相关的程度分有________相关、-

________相关和_______相关;按相关的方向分有________相关和-________相关;按相关的形式分有________相关和________相关;按影响因素的多少分有________相关和________相关。

3、 3、 对现象之间变量关系的研究中,对于变量之间相互关系密切程

度的研究,称为_______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。

4、 4、 完全相关即是________关系,其相关系数为________。

5、 5、 在相关分析中,要求两个变量都是_______;在回归分析中,

要求自变量是_______,因变量是_______。

6、 6、 相关系数是在________相关条件下用来说明两个变量相关

________的统计分析指标。

7、 7、 相关系数的变动范围介于_______与_______之间,其绝对值愈

接近于_______,两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低。当_______时表示两变量正相关;_______时表示两变量负相关。

8、 8、 当变量x 值增加,变量y 值也增加,这是________相关关系;

当变量x 值减少,变量y 值也减少,这是________相关关系。

9、 9、 在判断现象之间的相关关系紧密程度时,主要用_______进行

一般性判断,用_______进行数量上的说明。

10、 10、 在回归分析中,两变量不是对等的关系,其中因变量是_______

变量,自变量是_______量。

11、 11、 已知1360))((=----∑y y x x ,14400)(2=--∑x x ,

14900)(2

=-∑-y y ,那么,x 和y 的相关系数r 是_______。

12、 12、 用来说明回归方程代表性大小的统计分析指标是________指

标。

13、 13、 已知150=xy σ,18=x σ,11=y σ,那么变量x 和y 的相关系

数r 是_______。

14、 14、 回归方程bx a y c

+=中的参数b 是________,估计特定参数常用的方法是_________。

15、 15、 若商品销售额和零售价格的相关系数为-0.95,商品销售额和

居民人均收入的相关系数为0.85,据此可以认为,销售额对零售价格

具有_______相关关系,销售额与人均收入具有_______相关关系,且

前者的相关程度_______后者的相关程度。

16、 16、 当变量x 按一定数额变动时,变量y 也按一定数额变动,这时

变量x 与y 之间存在着_________关系。

17、 17、 在直线回归分析中,因变量y 的总变差可以分解为_______和

_______,用公式表示,即_____________________。

18、 18、 一个回归方程只能作一种推算,即给出_________的数值,估

计_________的可能值。

19、 19、 如估计标准误差愈小,则根据回归直线方程计算的估计值就

_______

20、 20、 已知直线回归方程bx a y c +=中,5.17=b ;又知30=n ,

∑=13500y ,12=-

x ,则可知_______=a 。

21、 21、 已知回归直线斜率为0.8,自变量x 的方差是200,样本容量

为20,那么回归平方和是_______。 22、 22、 已知变量y 倚变量x 的直线回归方程的斜率为b ,又知变量y 和

x 之间的相关系数γ,那么,变量x 倚y 的直线回归方程斜率是

_______。

(二) 单项选择题

1、当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于( )

A 、相关关系

B 、函数关系

C 、回归关系

D 、随机关系

2、测定变量之间相关密切程度的代表性指标是( )

A 、估计标准误

B 、两个变量的协方差

C 、相关系数

D 、两个变量的标准差

3、现象之间的相互关系可以归纳为两种类型,即( )

A 、相关关系和函数关系

B 、相关关系和因果关系

C 、相关关系和随机关系

D 、函数关系和因果关系

4、相关系数的取值范围是( )

A 、10≤≤γ

B 、11<<-γ

C 、11≤≤-γ

D 、01≤≤-γ

5、变量之间的相关程度越低,则相关系数的数值( )

A 、越小

B 、越接近于0

C 、越接近于-1

D 、越接近于1

6、在价格不变的条件下,商品销售额和销售量之间存在着( )

A 、不完全的依存关系

B 、不完全的随机关系

C 、完全的随机关系

D 、完全的依存关系

7、下列哪两个变量之间的相关程度高( )

A 、商品销售额和商品销售量的相关系数是0.9;

B 、商品销售额与商业利润率的相关系数是0.84;

C 、平均流通费用率与商业利润率的相关系数是-0.94;

D 、商品销售价格与销售量的相关系数是-0.91

8、回归分析中的两个变量( )

A 、都是随机变量

B 、关系是对等的

C 、都是给定的量

D 、一个是自变量,一个是因变量

9、每一吨铸铁成本(元)倚铸件废品率(%)变动的回归方程为:x y c 856+=,这意味着( )

A 、 A 、 废品率每增加1%,成本每吨增加64元

B 、 B 、 废品率每增加1%,成本每吨增加8%

C 、 C 、 废品率每增加1%,成本每吨增加8元

D 、 D 、 如果废品率增加1%,则每吨成本为56元。

10、某校对学生的考试成绩和学习时间的关系进行测定,建立了考试成绩倚学习时间的直线回归方程为:x y c 5180-=,该方程明显有错,错误在于( )

A 、a 值的计算有误,b 值是对的

B 、b 值的计算有误,a 值是对的

C 、a 值和b 值的计算都有误

D 、自变量和因变量的关系搞错了

11、配合回归方程对资料的要求是( )

A 、因变量是给定的数值,自变量是随机的

B 、自变量是给定的数值,因变量是随机的

C 、自变量和因变量都是随机的

D 、自变量和因变量都不是随机的。

12、估计标准误说明回归直线的代表性,因此( )

A 、估计标准误数值越大,说明回归直线的代表性越大;

B 、估计标准误数值越大,说明回归直线的代表性越小;

C 、估计标准误数值越小,说明回归直线的代表性越小;

E 、E 、估计标准误数值越小,说明回归直线的实用价

值越小。

13、在相关分析中,要求相关的两个变量( )

A 、都是随机变量

B 、都不是随机变量

C 、其中因变量是随机变量

D 、其中自变量是随机变量

14、在简单回归直线bx a y c +=中,b 表示( )

A 、当x 增加一个单位时,y 增加a 的数量

B 、当y 增加一个单位时,x 增加b 的数量

C 、当x 增加一个单位时,y 的平均增加值

D 、当y 增加一个单位时,x 的平均增加值

15、相关关系是( )

A 、现象之间,客观存在的依存关系

B 、现象之间客观存在的,关系数值是固定的依存关系

C 、现象之间客观存在的,关系数值不固定的依存关系

D 、函数关系

16、判断现象之间相关关系密切程度的主要方法是( )

A 、对客观现象作定性分析

B 、编制相关表

C 、绘制相关图

D 、计算相关系数

17、当变量x 按一定数额变化时,变量y 也随之近似地按固定的数额变化,那么,这时变量x 和y 之间存在着( )

A 、正相关关系

B 、负相关关系

C 、直线相关关系

D 、曲线相关关系

18、两个变量间的相关关系称为( )

A 、单相关

B 、无相关

C 、复相关

D 、多相关

19、如果两个变量之间的相关系数8.0||>γ,说明这两个变量之间存在( )。

A 、低度相关关系

B 、高度相关关系

C 、完全相关关系

D 、显著相关关系

20、已知400)(2=-=∑-x x L xx ,1000)()(-=--=--∑

y y x x L xy ,3000)(2=-=∑-y y L yy ,则相关系数γ=( )

A 、0.925

B 、-0.913

C 、0.957

D 、0.913

21、已知2)(∑--x x 是2)(∑--y y 的两倍,并已知)()(----∑

y y x x 是2

)(∑--y y 的1.2倍,则相关系数γ为( )

A 、不能计算

B 、0.6

C 、1.2/2

D 、2.1/2

22、不计算相关系数,是否也能计算判断两个变量之间相关关系的密切程度( )

A 、能够

B 、不能够

C 、有时能够,有时不能

D 、能判断但不能计算出具体数值

23、每吨铸件的成本(元)与每一个工人劳动生产率(吨)之间的回归方程为x y 5.0270-=,这意味着劳动生产率每提高一个单位(吨)成本就( )

A 、提高270元

B 、提高269.5元

C 、降低0.5元

D 、提高0.5元

24、已知变量x 的标准差x σ,变量y 的标准差为y σ;并且已知41

=xy σ,

y x σσ2=,则相关系数为( )

A 、不可知

B 、1/2

C 、22

D 、

42 25、已知某工厂甲产品产量和生产成本有直线关系,在这条直线上,当产量为1000时,其生产成本为30000元,其中不随产量变化的成本为6000元,则成本总额对产量的回归方程是( )

A 、x y c 246000+=

B 、x y c 24.06+=

C 、x y c 624000+=

D 、x y c 600024+=

26、回归估计的估计标准误差的计算单位与( )

A 、自变量相同

B 、因变量相同

C 、自变量及因变量相同

D 、相关系数相同

27、计算回归估计标准误的依据是( )

A 、因变量数列与自变量数列

B 、因变量的总离差

C 、因变量的回归离差

D 、因变量的剩余离差

28、回归估计标准误是反映( )

A 、平均数代表性的指标

B 、序时平均数代表性的指标

C 、现象之间相关关系的指标

D 、回归直线代表性的指标

29、当两个相关变量之间只能配合一条回归直线时,那么这两个变量之间的关系( )

A 、存在明显因果关系

B 、不存在明显因果关系而存在相互联系

C 、存在自身相关关系

D 、存在完全相关关系

(三) 多项选择题

1、测定现象之间有无相关关系的方法是( )

A 、编制相关表

B 、绘制相关图

C 、对客观现象做定性分析

D 、计算估计标准误

E 、配合回归方程

2、直线回归分析中( )

A 、自变量是可控制量,因变量是随机的

B 、两个变量不是对等的关系

C 、利用一个回归方程,两个变量可以互相推算

D 、根据回归系数可判定相关的方向

E 、对于没有明显因果关系的两变量可求得两个回归方程

3、下列属于正相关的现象是( )

A 、家庭收入越多,其消费指出也越多;

B 、某产品产量随工人劳动生产率的提高而增加;

C 、流通费用率随商品销售额的增加而减少;

D 、生产单位产品所耗工时随劳动生产率的提高而减少;

E 、产品产量随生产用固定资产价值的减少而减少。

4、直线回归方程bx a y c +=中的b 称为回归系数,回归系数的作用是( )

A 、可确定两变量之间因果的数量关系

B 、可确定两变量的相关方向

C 、可确定两变量相关的密切程度

D 、可确定因变量的实际值与估计值的变异程度

E 、可确定当自变量增加一个单位时,因变量的平均增加值

5、计算相关系数时( )

A 、A 、相关的两个变量是对等的关系

B 、B 、相关的两个变量一个是随机的,一个是可控制的量

C 、C 、相关系数有正负号,可判断相关的方向

D 、D 、可以计算出自变量和因变量两个相关系数

E 、相关的两个变量都是随机的

6、可用来判断现象之间相关方向的指标有( )

A 、估计标准误

B 、相关系数

C 、回归系数

D 、两个变量的协方差

E 、两个变量的标准差

7、工人的工资(元)依劳动生产率(千元)的回归方程为x y c 7010+=,这意味着( )

A 、如果劳动生产率等于1000元,则工人工资为70元;

B 、如果劳动生产率每增加1000元,则工人工资平均提高70元;

C 、如果劳动生产率每增加1000元,则工人工资增加80元;

D 、如果劳动生产率等于1000元,则工人工资为80元;

E 、如果劳动生产率每下降1000元,则工人工资平均减少70元。

8、在回归分析中,就两个相关变量x 与y 而言,变量y 倚变量x 的回归和变量x 倚变量y 的回归所得的两个回归方程是不同的,这种不同表现在( )

A 、方程中参数估计的方法不同

B、方程中参数的数值不同

C、参数表示的实际意义不同

D、估计标准误的计算方法不同

E、估计标准误的数值不同

9、回归估计标准误是反映()

A、回归方程代表性大小的指标

B、估计值与实际值平均误差程度的指标

C、自变量与因变量离差程度的指标

D、因变量估计值的可靠程度的指标

E、E、回归方程实用价值大小的指标

10、现象之间相互联系的类型有()

A、函数关系

B、回归关系

C、相关关系

D、随机关系

E、结构关系

11、相关关系种类()

A、从相关方向分为正相关和负相关

B、从相关形态分为线性相关和非线性相关

C、从相关程度分为完全相关、不完全相关和零相关

D、从相关的影响因素多少可分为单相关和复相关

E、从相关数值形式分为相关系数和相关指数

12、下列现象属于相关关系的是()

A、家庭收入越多,则消费也增长

B、圆的半径越长,则圆的面积越大

C、产量越高,总成本越多

D、施肥量增加,粮食产量也增加

E、体积随温度升高而膨胀,随压力加大而减小

13、据统计资料证实,商品流通费用率的高低与商品销售额的多少有依存关系,即随商品销售额的增加,商品流通费用率有逐渐降低的变动趋势,但这种变动不是均等的。可见这种关系是()

A、函数关系

B、相关关系

C、正相关

D、负相关

E、曲线相关

14、直线回归分析的特点是()

A、两个变量不是对等关系

B、回归系数只能取正值

C、自变量是给定的,因变量是随机的

D、可求出两个回归方程

E、利用一个回归方程,两个变量可以相互换算

15、配合一条直线回归方程是为了()

A、确定两个变量之间的变动关系

B、用因变量推算自变量

C、用自变量推算因变量

D、两个变量互相推算

E、确定两个变量之间的函数关系

16、直线相关分析与直线回归分析的区别在于()

A、相关的两个变量都是随机的,而回归分析中自变量是给定的数值,因变量

是随机的

B 、回归分析中的两个变量都是随机的,而相关中的自变量是给定的数值,因变量是随机的

C 、相关系数有正负号,而回归系数只能取正值

D 、相关的两个变量是对等关系,而回归分析中的两个变量不是对等关系

E 、相关分析中根据两个变量只能计算出一个相关系数,而回归分析中根据两个变量可以求出两个回归方程

17、相关系数的计算公式有( )

A 、∑∑∑--------=

22)()())((y y x x y y x x γ B 、yy xx xy

L L L

C 、

∑∑∑∑∑∑∑---222

2)(1)(11y n y x n x y x n

xy D 、y x n y y x x σσ∑----)

)(( E 、y x xy σσσ

18、直线回归方程bx a y c +=的意义是( )

A 、这是一条具有平均意义的直线;

B 、对应一个确定的i x 所计算出来的i c y 是指与i x 对应出现所有i y 的平均数的

估计值

C 、毫无平均的意义

D 、与一个固定的i x 对应出现的i y 应该等于i c y ,如果i y 不等于i c y ,说明在观

测中出现了误差

E 、与一个固定的i x 对应出现的i y 落在以i c y 为中心的一个多大的范围内取决

于概率度和估计标准误差。

(四) 判断题

1、1、根据结果标志对因素标志的不同反映,可以把现象总体数量上的依存关系划分为函数关系和相关关系。( )

2、2、正相关指的就是因素标志和结果标志的数量变动方向都是上升的。( )

3、3、相关系数是测定变量之间相关密切程度的唯一方法。( )

4、4、只有当相关系数接近于+1时,才能说明两变量之间存在高度相关关系。( )

5、5、若变量x 的值减少时变量y 的值也减少,说明变量x 与y 之间存在正

的相关关系。( )

6、6、回归系数b 和相关系数γ都可用来判断现象之间相关的密切程度。( )

7、7、若直线回归方程x y c 5.2170-=,则变量x 和y 之间存在负的相关关系。( )

8、8、按直线回归方程bx a y c +=配合的直线,是一条具有平均意义的直线。( )

9、9、回归分析中,对于没有明显关系的两个变量,可以建立y 倚x 变动和x 倚y 变动的两个回归方程。

10、由变量y 倚变量x 回归和由变量x 倚变量y 回归所得到的回归方程之所以不同,主要是因为方程中参数表示的意义不同。( )

11、在相关分析中,要求两个变量都是随机的,在回归分析中,要求两个变量都不是随机的。( )

12、当变量x 按固定数额增加时,变量y 按大致固定数额下降,则说明变量之间存在负直线相关关系。( )

13、判定系数越大,估计标准误差越大,判定系数越小,估计标准误差越小。( )

14、回归估计标准误差的大小与因变量的方差无关。( )

15、总变差不一定大于回归变差。( )

16、相关系数数值越大,说明相关程度越高;相关系数数值越小,说明相关程度越低。( )

17、现象之间的函数关系可以用一个数学表达式反映出来。( )

18、利用最小平方法配合的直线回归方程,要求实际测定的所有相关点和直线上的距离平方和为零。( )

19、不管自变量如何变化,因变量都不变,这种情况称为零相关。( )

20、在等级相关中,当现象是完全的直线关系时,其差量等于0,等级系数等于1。( )

21、产量增加,则单位产品成本降低,这种现象属于函数关系。( )

22、相关系数等于0,说明两变量之间不存在直线相关关系;相关系数等于1,说明两变量之间存在完全正相关关系;相关系数等于-1,说明两变量之间存在完全负相关关系。( )

23、回归关系要确定变量中哪个是自变量哪个是因变量,在这点上它与相关关系相同。( )

24、变量y 与平均数-y 的离差平方和,即2)(∑

--y y 称为y 的总变差。( )

(五) 简答题

1、1、如何理解自变量和因变量?

2、2、什么是相关关系?它与函数关系有何不同?

3、3、怎样判断现象之间有无相关关系?

4、4、相关分析与回归分析有何区别与联系?

5、5、相关关系的种类有哪些?

6、6、说明相关系数的取值范围及其判断标准。

7、7、时间序列自身相关意义是什么?

8、8、区别下列现象为相关关系或为函数关系:

(1) (1) 物体体积随温度升高而膨胀,随压力加大而收缩。

(2) (2) 测量的次数越多,其平均长度愈接近实际长度。

(3) (3) 家庭收入越多,其消费支出也有增长的趋势。

(4) (4) 秤砣的误差愈大,权衡的误差也愈大。

(5) (5) 物价愈上涨,商品的需求量愈小。

(6) (6) 文化程度愈高,人口的平均寿命也愈长。

(7) (7) 圆的半径愈长,圆周也愈长。

(8) (8) 农作物的收获量和雨量、气温、施肥量有密切的关系。 9、9、等级相关的意义是什么?如何测定等级相关?

10、拟合回归方程bx a y c +=有什么要求?回归方程中参数a 、b 的经济含义是什么?

11、估计标准误与算术平均数的标准差有何异同?

12、回归系数b 和相关系数γ的关系如何?

13、回归分析模型的种类及应用场合。

14、什么是估计标准误?这个指标有什么作用?

(六) 计算题

要求①作出散点图;

②估计y (儿)依x (父)的直线回归方程;

③估计x 依y 的直线回归方程;

④计其父子身高的相关系数。

2、有10个同类企业的生产性固定资产年均价值和工业增加值资料如下:

(2)编制直线回归方程,指出方程参数的经济意义;

(3)计算估计标准误;

(4)估计生产性固定资产(自变量)为1100万元时,工业增加值(因变量)的可能值;

3

要求:(1)判断两者为何关系,计算两者相关系数;

(2)若为直线关系,试利用所给资料建立回归方程;

(3)计算回归方程的估计标准误差;

(4)若个人收入为300亿元时,试估计个人消费支出额。

4、检查五位同学《会计学》的学习时间与成绩分数如下表所示:

根据资料:(1)建立学习成绩(y)倚学习时间(x)的直线回归方程;

(2)计算估计标准误;

(3)对学习成绩的方差进行分解分析,指出总误差平方和中有多大比重可由回归方程来解释;

(4)由此计算出学习时数与学习成绩之间的相关系数。

5、根据下列资料求等级相关系数。

6、根据某地区历年人均收入(元)与商品销售额(万元)资料计算的有关数据如下:(x代表人均收入,y代表销售额)

9=n ∑=546x ∑=260y 343622=∑x ∑=16918xy

计算:(1)建立以商品销售额为因变量的直线回归方程,并解释回归系数的含义;

(2)若2003年人均收入为400元,试推算该年商品销售额。

7

8、某地经回归分析,其每亩地施肥量(x )和每亩粮食产量(y )的回归方程为:x y c 5.10500+=,试解释式中回归系数的经济含义。若每亩最高施肥量为40斤,最低施肥量为20斤,问每亩粮食产量的范围为多少?

9、试根据下列资料编制直线回归方程和计算直线相关系数:

5.146_=xy ,

6.12_=x ,3.11_=y ,2.164_

2=x ,1.134_2

=y ,7575.1=a 10、根据某企业产品销售额(万元)和销售利润率(%)资料计算出如下数

据:7=n ∑=1890x ∑=1.31y 5355002=∑x 15.1742=∑y 9318=∑xy

要求:(1)确定以利润为因变量的直线回归方程。

(2)解释式中回归系数的经济含义。

(3)当销售额为500万元时,利润率为多少?

11、试根据下列资料编制回归方程:

252=x σ,362=y σ,9.0=r ,8.2=a

12、某地区家计调查资料得到,每户平均年收入为6800元,均方差为800元,每户平均年消费支出为5200元,方差为40000元,支出对于收入的回归系数为0.2,

要求:(1)计算收入与支出的相关系数;

(2)拟合支出对于收入的回归方程;

(3)估计年收入在7300元时的消费支出额;

(4)收入每增加1元,支出平均增加多少元?

13、根据下列资料分别计算各小题:

(1)已知4=xx L ,6=xy L ,29.4=a ,试编制直线回归方程。

(2)已知x y σσ2.1=,8.6=a ,94.0=r ,试编制直线回归方程。

(3)已知直线回归方程中回归参数为3,两变量的平均数分别为50=-

y ,49=-x ,求直线回归方程。 (4)已知5.2=b ,y σ是x σ的5倍,则=r ?

(5)已知x ,y 两变量6.1=xx xy

L L ,y σ是x σ的2倍,求=r ?

14、某部门8

要求:(1)计算产品销售额与利润额的相关系数;

(2)建立以利润额为因变量的直线回归方程,说明斜率的经济意义;

(3)当企业产品销售额为500万元时,销售利润为多少?

15、已知直线回归方程x y 2.435.1+=,6_=y ,9.0=r ,72=x σ,试求-

x 和2xy σ。

16、已知x 、y 两变量的相关系数8.0=γ,20=-x ,50=-

y ,y σ为x σ的两倍,求y 依x 的回归方程。

17、某村研究小组在实验田里进行某种粮食作物的施肥试验,考察施肥量与

要求:①绘制散点图,观察亩产量的变动趋势,并判断相关的方向;

②计算施肥量在60—80个区间内亩施肥量与亩产量相关系数,并求出回归方程;

③估计亩施肥量为85斤时的平均亩产量,并与实际产量比较,说明产生差异的原因(提示:应根据原始资料作,虽当y 依x 回归时,用平均亩产量作的回归方程同根据原始资料作出的一样,但因变量y 的方差不同,从而相关系数、估计标准误差都可能不同)。

18、已知x 、y 两变量15=-x ,41=-

y ,在直线回归方程中,当自变量x 等于0时,5=c y ,又已知5.1=x σ,6=y σ,试求估计标准误。

19、考查某个检验员判别颜色的能力。先用比色方法把深浅程度不同的某种颜色分为10个等级;再由检验员自行判断该10个颜色等级不同的盒子。其结果如下:

盒子真实颜色等级为:1,2,3,4,5,6,7,8,9,10;

检验员判定的等级,其结果如下:4,7,2,10,3,6,8,1,5,9。 问该检验员的判断能力如何?

三、习题参考答案选答

(一) 填空题

2、完全相关、不完全相关、不相关;正相关、负相关;线性相关、非线性相关;单相关、复相关;4、函数、±1;6、线性、密切程度;8、正、正10、随机、可控制的;12、估计标准误;14、回归系数、最小平方法;16、直线相关;18、

自变量、因变量;20、240; 22、b r /2

(二) 单项选择题

2、C 4、C 6、D 8、D 10、C 12、B 14、C 16、D 18、A 20、B 22、D

24、A 26、B 28、D

(三) 多项选择题

2、ABDE 4、ABE 6、BCD 8、BCE 10、AC 12、ACD 14、ACD 16、ADE 18、ABE

(四) 判断题

2、× 4、× 6、× 8、√ 10、√ 12、√ 14、× 16、× 18、× 20、√

22、√ 24、√

(五) 简答题

2、答:相关关系是一种不完全确定的随机关系,在相关关系的情况下,因素标志的每个数值都有可能有若干个结果标志的数值与之对应。例如,广告费支出与销售额之间的关系就是一种相关关系,当广告费支出一定的情况下,商品销售额相应的会出现一系列的数值。因此,相关关系是一种不完全的依存关系。相关关系与函数关系的不同表现在:(1)相关关系的两变量的关系值是不确定的,当给出自变量的数值后,因变量可能会围绕其平均数出现若干个数值与之对应;而函数关系的两变量的关系值是完全确定的,即当给出自变量的数值后,因变量只有一个唯一确定的数值与之对应。(2)函数关系变量之间的依存可用方程)(x f y =表现出来,而相关关系则不能,它需要借助于函数关系的数学表达式,才能表现出现象之间的数量联系。

4、答:就一般意义而言,相关分析包括回归和相关两方面的内容,因为它们都是研究变量之间相互关系的。但就具体方法所解决的问题而言,回归和相关又有明显的区别,二者的区别主要表现在以下几方面:

(1) (1) 进行相关分析时可以不问两个变量的关系是因果关系还是共变关

系,不必确定两变量中哪个是自变量哪个是因变量,而回归分析时,则必须事先进行定性分析来确定自变量和因变量。

(2) (2) 相关分析中的两变量可以都是随机变量,而回归分析中的两变量

只有因变量是随机的,自变量是可以控制的量。

(3) 计算相关系数的两变量是对等的,改变两者的位置并不影响相关系数的

数值,而回归分析中,对于没有明显因果关系的两变量,可以求得两个回归方程,一个为y 倚x 的回归方程,另一个为x 倚y 的回归方程。

二者的联系主要表现在:回归分析和相关分析是互相补充、密切联系的。相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关分析的基础上。依靠相关分析表明现象的数量变化具有密切的相关,进行回归分析求其相关的具体形式才有意义。

6、答:相关系数的数值范围是在-1和+1之间,即11≤≤-r ,0>r 为正相关,

0

为负相关。

判断标准:3.0||

8、(1)受热温度和物体体积之间是函数关系,因为物体热膨胀系数是一定的。受压力与物体体积也是函数关系,因为物体承压收缩率也是一定的。

(2)测量次数与测量误差是相关关系,因为测量次数影响着误差,但其影响值是不固定的。

(3)家庭收入与消费支出是相关关系,因为收入影响消费发生,但其影响值不是固定的。

(4)秤砣误差与权衡误差是函数关系,因为秤砣误差会引起权衡的偏误,其间关系是固定的。

(5)物价与需求量之间是相关关系,物价上涨,一般影响商品需求量降低,但其影响程度不是固定的。

(6)文化程度与人口寿命也是相关关系,因为文化程度对人口寿命确实存在影响,但两者并不形成固定的函数关系。

(7)圆的半径与圆周的长度是函数关系,因为后者等于前者的6.28倍。

(8)农作物收获量和雨量、气温、施肥量都是相关关系,后者各因素对农作物的收获量都发生作用,但它们在数量上没有固定的关系。

10、答:一般来讲,拟合回归方程的要求是:找出合适的参数a 和b ,使所确定的回归方程能够达到实际的y 值与对应的理论值c y 的离差平方和为最小值。即:

最小值=--=-=∑∑22)()(bx a y y y Q c

回归方程中参数a 、b 的经济含义上:参数a 代表直线的起点值,在数学上称为直线的纵轴截距,它表示0=x 时y 的常数项。参数b 称为回归系数,表示自变量x 增加一个单位时因变量y 的平均增加值。回归系数的正负号与相关系数是一致的,因此可以从回归系数的正负号来判断两变量相关的方向。

12、见本章学习要点中有关内容。

14、答:估计标准误是表明回归方程理论值与实际值之间离差的平均水平的指标。此指标的作用有以下几点:

(1) (1) 它可以说明以回归直线为中心的所有相关点的离散程度。

(2) (2) 它可以说明回归方程的理论值代表相应实际值的代表性大小。

(3) (3) 它可以反映两变量之间相关的密切程度。

(六) 计算题

2、解:(计算过程略)

设生产性固定资产为自变量x ,工业总产值为因变量y ,所需合计数如下: 6525=∑x 9801=∑y 56685392=∑x 108665772=∑y

7659156=∑xy

(1)计算相关系数

])(][)([2222∑∑∑∑∑∑∑---=y y n x x n y

x xy n γ

]98011086657710][6525566853910[9801

652576591561022-?-??-?=

95.0=

95.0=γ,说明两变量之间存在高度正相关。

(2)编制直线回归方程:bx a y c +=

求解参数a 、b :

8958.0652556685391098016525765915610)(222=-??-?=

--=∑∑∑∑∑x x n y

x xy n b

59.3951065258958.0109801=?-=-=∑∑n x b n y a

回归方程为:x y c 8958.059.395+=

(3)计算估计标准误

22---=∑∑∑n xy

b y a y S

2107659156

8958.0980159.39510866577-?-?-=

65.126=

(4)当生产性固定资产1100=x 万元时,工业总产值为:

97.1380

11008958.059.395=?+=c y (万元) 4、解:(计算过程略)

设学习时间为自变量x ,学习成绩为因变量y ,所需合计数如下: 40=∑x 310=∑y 2740=∑xy 3702=∑x

207002=∑y

(1)编制直线回归方程:bx a y c +=

经计算求得:2.5=b 4.20=a

回归方程为:x y c 2.54.20+=

(2) 计算估计标准误:53.6=S (3)计算总误差平方和中回归误差所占比重。此比重称为决定系数,用符号γ表示。(列表计算各项离差过程略) 根据计算得知:

第七章相关与回归分析

第七章 相关与回归分析 一、本章学习要点 (一)相关分析就是研究两个或两个以上变量之间相关程度大小以及用一定函数来表达现象相互关系的方法。现象之间的相互关系可以分为两种,一种是函数关系,一种是相关关系。函数关系是一种完全确定性的依存关系,相关关系是一种不完全确定的依存关系。相关关系是相关分析的研究对象,而函数关系则是相关分析的工具。 相关按其程度不同,可分为完全相关、不完全相关和不相关。其中不完全相关关系是相关分析的主要对象;相关按方向不同,可分为正相关和负相关;相关按其形式不同,可分为线性相关和非线性相关;相关按影响因素多少不同,可分为单相关和复相关。 (二)判断现象之间是否存在相关关系及其程度,可以根据对客观现象的定性认识作出,也可以通过编制相关表、绘制相关图的方式来作出,而最精确的方式是计算相关系数。 相关系数是测定变量之间相关密切程度和相关方向的代表性指标。相关系数用符号“γ”表示,其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量,因此相关系数只有一个;相关系数有正负号反映相关系数的方向,正号反映正相关,负号反映负相关;计算相关系数的两个变量都是随机变量。 相关系数的取值区间是[-1,+1],不同取值有不同的含义。当1||=γ时,x 与y 的变量为完全相关,即函数关系;当1||0<<γ时,表示x 与y 存在一定的线性相关,||γ的数值越大,越接近于1,表示相关程度越高;反之,越接近于0,相关程度越低,通常判别标准是:3.0||<γ称为微弱相关,5.0||3.0<<γ称为低度相关,8.0||5.0<<γ称为显著相关,1||8.0<<γ称为高度相关;当0||=γ时,表示y 的变化与x 无关,即不相关;当0>γ时,表示x 与y 为线性正相关,当0<γ时,表示x 与y 为线性负相关。 皮尔逊积距相关系数计算的基本公式是: ∑∑∑∑∑∑∑---= =] )(][)([22222y y n x x n y x xy n y x xy σσσγ 斯皮尔曼等级相关系数和肯特尔等级相关系数是测量两个等级变量(定序测度)之间相 关密切程度的常用指标。 (三)回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。回归分析按自变量的个数分,有一元回归和多元回归,按回归线的形状分,有线性回归和非线性回归。与相关分析相比,回归分析的特点是:两个变量是不对等的,必须区分自变量和因变量;因变量是随机的,自变量是可以控制的量;对于一个没有因果关系的两变量,可以求得两个回归方程,一个是y 倚x 的回归方程,一个是x 倚y 的回归方程。 简单线性回归方程式为:bx a y c +=,式中c y 是y 的估计值,a 代表直线在y 轴上的截距,b 表示直线的斜率,又称为回归系数。回归系数的涵义是,当自变量x 每增加一个单位时,因变量y 的平均增加值。当b 的符号为正时,表示两个变量是正相关,当b 的符号为负时,表示两个变量是负相关。a 、b 都是待定参数,可以用最小平方法求得。求解a 、b 的公式为: ∑∑∑∑∑--= 2 2)(x x n y x xy n b ; n x b n y a ∑∑-= 回归估计标准误差是衡量因变量的估计值与观测值之间的平均误差大小的指标。利用此 指标可以说明回归方程的代表性。其计算公式为: 2 ) (2 --= ∑n y y S c yx 或2 2 ---= ∑∑∑n xy b y a y S yx 回归估计标准误和相关系数之间具有以下关系:

第7章 相关与回归分析。

第七章相关与回归分析 学习内容 一、变量间的相关关系 二、一元线性回归 三、线性回归方程拟合优度的测定 学习目标 1. 掌握相关系数的含义、计算方法和应用 2. 掌握一元线性回归的基本原理和参数的最小二 3. 掌握回归方程的显著性检验 4. 利用回归方程进行预测 5. 了解可化为线性回归的曲线回归 6. 用Excel 进行回归分析 一、变量间的相关关系 1. 变量间的关系(函数关系) 1)是一一对应的确定关系。 2)设有两个变量x和y,变量y 随变量x一起变化, 并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值, 则称y 是x的函数,记为y = f (x),其中x 称为自变量,y 称为因变量。 3)各观测点落在一条线上。 4)函数关系的例子 –某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)。 –圆的面积(S)与半径之间的关系可表示为S = π R2。 –企业的原材料消耗额(y)与产量x1、单位产量消耗x2、原材料价格x3间的关系可表 示为y =x1 x2 x3。 单选题 下面的函数关系是() A、销售人员测验成绩与销售额大小的关系 B、圆周的长度决定于它的半径 C、家庭的收入和消费的关系 D、数学成绩与统计学成绩的关系

2. 变量间的关系(相关关系) 1)变量间关系不能用函数关系精确表达。 2)一个变量的取值不能由另一个变量唯一确定。 3)当变量 x 取某个值时,变量 y 的取值可能有几个。 4)各观测点分布在直线周围。 5)相关关系的例子 –商品的消费量(y)与居民收入(x)之间的关系。 –商品销售额(y)与广告费支出(x)之间的关系。 –粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系。 –收入水平(y)与受教育程度(x)之间的关系。 –父亲身高(y)与子女身高(x)之间的关系。 3. 相关图表 1)相关表:将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它 们之间的相互关系。 2)相关图:也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用 点描绘出来,通常以直角坐标轴的横轴代表自变量x,纵轴代表因变量y。 4. 相关关系的类型

线性回归分析练习题

§1回归分析 一、基础过关 1.下列变量之间的关系是函数关系的是( ) A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac B.光照时间和果树亩产量 C.降雪量和交通事故发生率 D.每亩施用肥料量和粮食产量 2.在以下四个散点图中, 其中适用于作线性回归的散点图为( ) A.①② B.①③ C.②③ D.③④ 3.下列变量中,属于负相关的是( ) A.收入增加,储蓄额增加 B.产量增加,生产费用增加 C.收入增加,支出增加 D.价格下降,消费增加 4.已知对一组观察值(x i,y i)作出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=,x=,y=,则线性回归方程为 A.y=+ B.y=+ C.y=+ D.y=+ 5.对于回归分析,下列说法错误的是( ) A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自

变量唯一确定 B.线性相关系数可以是正的,也可以是负的 C.回归分析中,如果r2=1,说明x与y之间完全相关 D.样本相关系数r∈(-1,1) 6.下表是x和y之间的一组数据,则y关于x的回归方程必过( ) Array A.点(2,3) B.点,4) C.点,4) D.点,5) 7.若线性回归方程中的回归系数b=0,则相关系数r=________. 二、能力提升 8.若施化肥量x(kg)与小麦产量y(kg)之间的线性回归方程为y=250+4x,当施化肥量为50 kg时,预计小麦产量为________ kg. 9.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4 次试验,得到的数据如下: (1)求加工时间与零件个数的线性回归方程; (2)试预报加工10个零件需要的时间.

一元线性回归分析的结果解释

一元线性回归分析的结果解释 1.基本描述性统计量 分析:上表是描述性统计量的结果,显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。 2.相关系数 分析:上表是相关系数的结果。从表中可以看出,Pearson相关系数为0.749,单尾显著性检验的概率p值为0.003,小于0.05,所以体重和肺活量之间具有较强的相关性。 3.引入或剔除变量表

分析:上表显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归方法是用强迫引入法引入变量x的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。 4.模型摘要 分析:上表是模型摘要。表中显示两变量的相关系数(R)为0.749,判定系数(R Square)为0.562,调整判定系数(Adjusted R Square)为0.518,估计值的标准误差(Std. Error of the Estimate)为0.28775。 5.方差分析表 分析:上表是回归分析的方差分析表(ANOVA)。从表中可以看出,回归的均方(Regression Mean Square)为1.061,剩余的均方(Residual Mean Square)为0.083,F检验统计量的观察值为12.817,相应的概率p 值为0.005,小于0.05,可以认为变量x和y之间存在线性关系。

6.回归系数 分析:上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值,其中常数项系数为0(注:若精确到小数点后6位,那么应该是0.000413),回归系数为0.059,线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749,回归系数T检验的t统计量观察值为3.580,T检验的概率p值为0.005,小于0.05,所以可以认为回归系数有显著意义。由此可得线性回归方程为: y=0.000413+0.059x 7.回归诊断 分析:上表是对全部观察单位进行回归诊断(Casewise Diagnostics-all cases)的结果显示。从表中可以看出每一例的标准

统计学题目第七章相关与回归分析

(一) 填空题 1、 现象之间的相关关系按相关的程度分有________相关、________相关和_______ 相关;按相关的方向分有________相关和________相关;按相关的形式分有-________相关和________相关;按影响因素的多少分有________相关和-________相关。 2、 对现象之间变量关系的研究中,对于变量之间相互关系密切程度的研究,称为 _______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。 3、 完全相关即是________关系,其相关系数为________。 4、 在相关分析中,要求两个变量都是_______;在回归分析中,要求自变量是 _______,因变量是_______。 5、 person 相关系数是在________相关条件下用来说明两个变量相关________的统 计分析指标。 6、 相关系数的变动范围介于_______与_______之间,其绝对值愈接近于_______, 两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低。当_______时表示两变量正相关;_______时表示两变量负相关。 7、 当变量x 值增加,变量y 值也增加,这是________相关关系;当变量x 值减少, 变量y 值也减少,这是________相关关系。 8、 在判断现象之间的相关关系紧密程度时,主要用_______进行一般性判断,用_______进行数量上的说明。 9、 在回归分析中,两变量不是对等的关系,其中因变量是_______变量,自变量是 _______量。 10、 已知13600))((=----∑y y x x ,14400)(2=--∑x x ,14900)(2=-∑-y y ,那么,x 和y 的相关系数r 是_______。 11、 用来说明回归方程代表性大小的统计分析指标是________指标。 12、 已知1502=xy σ,18=x σ,11=y σ,那么变量x 和y 的相关系数r 是_______。 13、 回归方程bx a y c +=中的参数b 是________,估计特定参数常用的方法是 _________。 14、 若商品销售额和零售价格的相关系数为-0.95,商品销售额和居民人均收入的相关系数为0.85,据此可以认为,销售额对零售价格具有_______相关关系,销售额与人均收入具有_______相关关系,且前者的相关程度_______后者的相关程度。 15、 当变量x 按一定数额变动时,变量y 也按一定数额变动,这时变量x 与y 之间存在着_________关系。 16、 在直线回归分析中,因变量y 的总变差可以分解为_______和_______,用公式表示,即_____________________。 17、 一个回归方程只能作一种推算,即给出_________的数值,估计_________的可能值。 18、 如估计标准误差愈小,则根据回归直线方程计算的估计值就_______ 19、 已知直线回归方程bx a y c +=中,5.17=b ;又知30=n ,∑=13500y ,

应用回归分析课后习题第7章第6题

7.6一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7-5是该银行所属25家分行2002年的有关业务数据。 (1)计算y 与其余4个变量的简单相关系数。 由系数表可知,y 与其余4个变量的简单相关系数分别为0.844,0.732,0.700,0.519. (2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理? 由上表可知,回归方程为为: 022.1029.0015.0148.04.0?4321--++=x x x x y 从上表可看出,方程的自变量2x 、3x 、4x 未通过t 检验,说明回归方程不显著,而且由实际意义出发,4x 的系数不能是负的,所以所得的回归系数不合理。 (3)分析回归模型的共线性。

由上表可知,所有自变量对应的VIF 全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表: 由这个表可以看出来,第5行中1x 、3x 的系数分别为0.87和0.63,可以说明这两个变量之间有共线性。 (4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性? 采用后退法(见上表),所得回归方程为972.0029.0149.0041.0y ?421--+=x x x 采用逐步回归法(见上表),所得回归方程为443.0032.005.0?41--=x x y 所得4x 的系数不合理(为负),说明存在共线性. (5)建立不良贷款y 对4个变量的岭回归。

线性回归分析练习题

§1 回归分析 1.1 回归分析 1.2 相关系数 一、基础过关 1.下列变量之间的关系是函数关系的是( ) A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac B.光照时间和果树亩产量 C.降雪量和交通事故发生率 D.每亩施用肥料量和粮食产量 2.在以下四个散点图中, 其中适用于作线性回归的散点图为( ) A.①②B.①③C.②③D.③④ 3.下列变量中,属于负相关的是( ) A.收入增加,储蓄额增加 B.产量增加,生产费用增加 C.收入增加,支出增加 D.价格下降,消费增加

4.已知对一组观察值(x i,y i)作出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=0.51,x= 61.75,y=38.14,则线性回归方程为( ) A.y=0.51x+6.65 B.y=6.65x+0.51 C.y=0.51x+42.30 D.y=42.30x+0.51 5.对于回归分析,下列说法错误的是( ) A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B.线性相关系数可以是正的,也可以是负的 C.回归分析中,如果r2=1,说明x与y之间完全相关 D.样本相关系数r∈(-1,1) 6.下表是x和y之间的一组数据,则y关于x的回归方程必过( ) A.点(2,3) B C.点(2.5,4) D.点(2.5,5) 7.若线性回归方程中的回归系数b=0,则相关系数r=________. 二、能力提升 8.某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下: 若y与x 9.若施化肥量x(kg)与小麦产量y(kg)之间的线性回归方程为y=250+4x,当施化肥量为50 kg时,预计小麦产量为________ kg. 10.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下:

应用回归分析,第7章课后习题参考答案

第7章岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵 D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k有哪几种方法? 答:最优 是依赖于未知参数 和 的,几种常见的选择方法是: 岭迹法:选择 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;

方差扩大因子法: ,其对角线元 是岭估计的方差扩大因子。要让 ; 残差平方和:满足 成立的最大的 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除; 3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

简单线性回归分析思考与练习参考答案

第10章 简单线性回归分析 思考与练习参考答案 一、最佳选择题 1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。 A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错 2.如果相关系数r =1,则一定有( C )。 A .总SS =残差SS B .残差SS =回归 SS C .总SS =回归SS D .总SS >回归SS E. 回归MS =残差MS 3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。 A .ρ=0时,r =0 B .|r |>0时,b >0 C .r >0时,b <0 D .r <0时,b <0 E. |r |=1时,b =1 4.如果相关系数r =0,则一定有( D )。 A .简单线性回归的截距等于0 B .简单线性回归的截距等于Y 或X C .简单线性回归的残差SS 等于0 D .简单线性回归的残差SS 等于SS 总 E .简单线性回归的总SS 等于0 5.用最小二乘法确定直线回归方程的含义是( B )。 A .各观测点距直线的纵向距离相等 B .各观测点距直线的纵向距离平方和最小 C .各观测点距直线的垂直距离相等 D .各观测点距直线的垂直距离平方和最小 E .各观测点距直线的纵向距离等于零 二、思考题 1.简述简单线性回归分析的基本步骤。 答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。

线性回归习题

线性回归习题 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

第9章一元线性回归练习题 一.选择题 1.具有相关关系的两个变量的特点是() A.一个变量的取值不能由另一个变量唯一确定 B.一个变量的取值由另一个变量唯一确定 C.一个变量的取值增大时另一个变量的取值也一定增大 D.一个变量的取值增大时另一个变量的取值肯定变小 2.下面的各问题中,哪个不是相关分析要解决的问题 A.判断变量之间是否存在关系B.判断一个变量数值的变化对另一个变量的影响 C.描述变量之间的关系强度 D.判断样本所反映的变量之间的关系能否代表总体变量之间的关系 3.根据下面的散点图,可以判断两个变量之间存在() A.正线性相关关系 B. 负线性相关关系 C. 非线性关系 D. 函数关系 4.下面的陈述哪一个是错误的() A. 相关系数是度量两个变量之间线性关系强度的统计量 B.相关系数是一个随机变量 C.相关系数的绝对值不会大于1 D.相关系数不会取负值 5.根据你的判断,下面的相关系数取值哪一个是错误的() A. B. 0.78 C. D. 0 6.如果相关系数r=0,则表明两个变量之间() A.相关程度很低 B. 不存在任何关系

C .不存在线性相关关系 D.存在非线性关系 7. 下列不属于相关关系的现象是( ) A.银行的年利息率与贷款总额 B.居民收入与储蓄存款 C.电视机的产量与鸡蛋产量 D.某种商品的销售额与销售价格 8.设产品产量与产品单位成本之间的线性相关系数为,这说明二者之间存在着( ) A. 高度相关 B.中度相关 C.低度相关 D.极弱相关 9.在回归分析中,被预测或被解释的变量称为( ) A.自变量 B.因变量 C.随机变量 D.非随机变量 10. 对两变量的散点图拟合最好的回归线,必须满足一个基本的条件是( ) A. 2?()y y ∑-最小 B. 2)(?y y ∑-最大 C.2?()y y ∑-最大 D. 2)(?y y ∑-最小 11. 下列哪个不属于一元回归中的基本假定( ) A.误差项i ε服从正态分布 B. 对于所有的X ,方差都相同 C. 误差项i ε相互独立 D. 0)?=-i i y y E ( 12.如果两个变量之间存在着负相关,指出下列回归方程中哪个肯定有误( ) A.x y 75.025?-= B. x y 86.0120?+-= C. x y 5.2200?-= D. x y 74.034?--= 13.对不同年份的产品成本拟合的直线方程为,75.1280?x y -=y 表示产品成本,x 表示不同年份,则可知( ) A.时间每增加一个单位,产品成本平均增加个单位 B. 时间每增加一个单位,产品成本平均下降个单位 C.产品成本每变动一个单位,平均需要年时间 D. 产品成本每减少一个单位,平均需要年时间

如何用EXCEL做数据线性拟合和回归分析

如何用Excel做数据线性拟合和回归分析 我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。 在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel 就完全够用了。我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。 注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘支持下加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项 实例某溶液浓度正比对应于色谱仪器中的峰面积,现欲建立不同浓度下对应峰面积的标准曲线以供测试未知样品的实际浓度。已知8组对应数据,建立标准曲线,并且对此曲线进行评价,给出残差等分析数据。 这是一个很典型的线性拟合问题,手工计算就是采用最小二乘法求出拟合直线的待定参数,同时可以得出R的值,也就是相关系数的大小。在Excel中,可以采用先绘图再添加趋势线的方法完成前两步的要求。 选择成对的数据列,将它们使用“X、Y散点图”制成散点图。

在数据点上单击右键,选择“添加趋势线”-“线性”,并在选项标签中要求给出公式和相关系数等,可以得到拟合的直线。 拟合的直线是y=15620x+6606.1,R2的值为0.9994。 因为R2>0.99,所以这是一个线性特征非常明显的实验模型,即说明拟合直线能够以大于99.99%地解释、涵盖了实测数据,具有很好的一般性,可以作为标准工作曲线用于其他未知浓度溶液的测量。 为了进一步使用更多的指标来描述这一个模型,我们使用数据分析中的“回归”工具来详细分析这组数据。 在选项卡中显然详细多了,注意选择X、Y对应的数据列。“常数为零”就是指明该模型是严格的正比例模型,本例确实是这样,因为在浓度为零时相应峰面积肯定为零。先前得出的回归方程虽然拟合程度相当高,但是在x=0时,仍然有对应的数值,这显然是一个可笑的结论。所以我们选择“常数为零”。 “回归”工具为我们提供了三张图,分别是残差图、线性拟合图和正态概率图。重点来看残差图和线性拟合图。 在线性拟合图中可以看到,不但有根据要求生成的数据点,而且还有经过拟和处理的预测数据点,拟合直线的参数会在数据表格中详细显示。本实例旨在提供更多信息以起到抛砖引玉的作用,由于涉及到过多的专业术语,请各位读者根据实际,在具体使用

应用回归分析第七章答案

第七章岭回归 1.岭回归估计是在什么情况下提出的? 答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。 2.岭回归估计的定义及其统计思想是什么? 答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X∣≈0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计 阵仍然用X表示,定义为 ()()1 ?'' X X I X y βκκ- =+ ,称为 β的岭回归估计,其中k 称为岭参数。 3.选择岭参数k有哪几种主要方法? 答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。 4.用岭回归方法选择自变量应遵从哪些基本原则? 答:用岭回归方法来选择变量应遵从的原则有: (1)在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。 (3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 5.对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。 答:依题意,对逐步回归法所保留的三个自变量做岭回归分析。 程序为: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /start=0.0/stop=1/inc=0.01.

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

第七章 相关分析与回归分析(补充例题)

第七章 相关分析与回归分析 例1、有10个同类企业的固定资产和总产值资料如下: 根据以上资料计算(1)协方差和相关系数;(2)建立以总产值为因变量的一元线性回归方程;(3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? 解:计算表如下: (1)协方差——用以说明两指标之间的相关方向。 2 2) )((n y x xy n n y y x x xy ∑∑∑∑- = - -= σ

35.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑ ∑∑∑∑--- = ] )(][) ([2 2 2 2 y y n x x n y x xy n r 95 .0) 980110866577 10()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为0.95,表示两指标为高度正相关。 (3) 2 2 26525 56685391098016525765915610) (-??-?= --= ∑∑∑∑∑x x n y x xy n b 90 .014109765 126400354257562556685390 6395152576591560== --= 85 .39210 65259.010 9801=? -= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,180 2009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85 .156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为1562.85万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。

一元线性回归模型练习题

一元线性回归模型 一、单项选择题 1、变量之间的关系可以分为两大类( )。 A 函数关系与相关关系 B 线性相关关系与非线性相关关系 C 正相关关系与负相关关系 D 简单相关关系与复杂相关关系 2、进行相关分析时的两个变量( )。 A 都就是随机变量 B 都不就是随机变量 C 一个就是随机变量,一个不就是随机变量 D 随机的或非随机都可以 3、参数β的估计量β? 具备有效性就是指( ) A Var(β?)=0 B Var(β?)为最小 C (β?-β)=0 D (β? -β)为最小 4、产量(X,台)与单位产品成本(Y, 元/台)之间的回归方程为?i =356-1、5X i ,这说明( ) A 产量每增加一台,单位产品成本增加356元 B 产量每增加一台,单位产品成本减少1、5元 C 产量每增加一台,单位产品成本平均增加356元 D 产量每增加一台,单位产品成本平均减少1、5元 5、对于01??i i i Y X e ββ=++,以σ?表示估计标准误差,Y ?表示估计值,则( )。 A i i ??0Y Y 0σ∑=时,(-)= B 2i i ??0Y Y σ∑=时,(-)=0 C i i ??0Y Y σ∑=时,(-)为最小 D 2i i ??0Y Y σ∑=时,(-)为最小 6、对于i 01i i ??Y =X +e ββ+,以?σ 表示估计标准误差,r 表示相关系数,则有( )。 A ?0r=1σ =时, B ?0r=-1σ=时, C ?0r=0σ=时, D ?0r=1r=-1σ=时,或 7、设Y 表示实际观测值,?Y 表示OLS 估计回归值,则下列哪项成立( )。 ??A Y Y B Y Y ??C Y Y D Y Y = = = = ??A Y Y B Y Y ?? C Y Y D Y Y = = = = 8、用OLS 估计经典线性模型i 01i i Y X u ββ+=+,则样本回归直线通过点( )。 ?A X Y B X Y ?C X Y D X Y (,) (,) (,) (,) ?A X Y B X Y ? C X Y D X Y (,) (,) (,) (,) 9、对回归模型t t t x y εββ++=10进行统计检验时,通常假定t ε服从( ) A N(0,2i σ) B t(n-2) C N(0,2σ) D t(n) 10、以y 表示实际观测值,y ?表示回归估计值,则普通最小二乘法估计参数的准则就是使( )A )?(i i y y -∑=0 B 2 )?(i i y y -∑=0 C )?(i i y y -∑为最小 D 2 )?(i i y y -∑为最 小 11、下列各回归方程中,哪一个必定就是错误的?( ) A 、 Y i =50+0、6X i r XY =0、8 B 、Y i =-14+0、8X i r XY =0、87

应用回归分析,第7章课后习题参考答案

第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其 统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X’X+D 接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue 。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k 有哪几种方法? 答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○ 1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○ 2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。要让()10jj c k ≤; ○ 3残差平方和:满足()SSE k cSSE <成立的最大的k 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这 样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随

线性回归分析经典例题

1. “团购”已经渗透到我们每个人的生活,这离不开快递行业的发展,下表是2013-2017年全国快递业务量(x 亿件:精确到0.1)及其增长速度(y %)的数据 (Ⅰ)试计算2012年的快递业务量; (Ⅱ)分别将2013年,2014年,…,2017年记成年的序号t :1,2,3,4,5;现已知y 与t 具有线 性相关关系,试建立y 关于t 的回归直线方程a x b y ???+=; (Ⅲ)根据(Ⅱ)问中所建立的回归直线方程,估算2019年的快递业务量 附:回归直线的斜率和截距地最小二乘法估计公式分别为:∑∑= =--=n i i n i i i x n x y x n y x b 1 2 2 1 ?, x b y a ??-= 2.某水果种植户对某种水果进行网上销售,为了合理定价,现将该水果按事先拟定的价格进行试销,得到单价元 7 8 9 11 12 13 销量 120 118 112 110 108 104 已知销量与单价之间存在线性相关关系求y 关于x 的线性回归方程; 若在表格中的6种单价中任选3种单价作进一步分析,求销量恰在区间内的单价种数的 分布列和期望. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:, . 3. (2018年全国二卷)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.

为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217, ,…,)建立模型①:?30.413.5y t =-+;根据2010年至2016年的数据(时间变量t 的值依次为127,, …,)建立模型②:?9917.5y t =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由. 4.(2014年全国二卷) 某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (Ⅰ)求y 关于t 的线性回归方程; (Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并 预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘法估计公式分别为: ()() () 1 2 1 n i i i n i i t t y y b t t ∧ ==--= -∑∑,??a y bt =- 5(2019 2卷)18.11分制乒乓球比赛,每赢一球得1分,当某局打成10∶10平后,每球交换发球权,

应用回归分析-第7章课后习题参考答案

应用回归分析-第7章课后习题参考答案

第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X ’X+D 接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue 。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k 有哪几种方法? 答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○ 1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太 多; ○ 2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。要让()10jj c k ≤; ○ 3残差平方和:满足()SSE k cSSE <成立的最大的k 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这 样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;

线性回归分析练习题

§1回归分析 1.1回归分析 1.2相关系数 一、基础过关 1.下列变量之间的关系是函数关系的是() A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac B.光照时间和果树亩产量 C.降雪量和交通事故发生率 D.每亩施用肥料量和粮食产量 2.在以下四个散点图中, 其中适用于作线性回归的散点图为() A.①②B.①③C.②③D.③④ 3.下列变量中,属于负相关的是() A.收入增加,储蓄额增加 B.产量增加,生产费用增加 C.收入增加,支出增加 D.价格下降,消费增加 4.已知对一组观察值(x i,y i)作出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=0.51,x= 61.75,y=38.14,则线性回归方程为() A.y=0.51x+6.65 B.y=6.65x+0.51 C.y=0.51x+42.30 D.y=42.30x+0.51 5.对于回归分析,下列说法错误的是()

A .在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B .线性相关系数可以是正的,也可以是负的 C .回归分析中,如果r 2=1,说明x 与y 之间完全相关 D .样本相关系数r ∈(-1,1) 6. 下表是x 和y 之间的一组数据,则y 关于x 的回归方程必过 ( ) A.点(2,3) B C .点(2.5,4) D .点(2.5,5) 7. 若线性回归方程中的回归系数b =0,则相关系数r =________. 二、能力提升 8. 某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下: 若y 与x 9. 若施化肥量x (kg)与小麦产量y (kg)之间的线性回归方程为y =250+4x ,当施化肥量为50 kg 时,预计小麦 产量为________ kg. 10.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下: 若加工时间y (1)求加工时间与零件个数的线性回归方程; (2)试预报加工10个零件需要的时间. 11.在一段时间内,分5次测得某种商品的价格x (万元)和需求量y (t)之间的一组数据为: 已知∑5 i =1 x i y i =62,∑5 i = 1 x 2i =16.6. (1)画出散点图; (2)求出y 对x 的线性回归方程; (3)如果价格定为1.9万元,预测需求量大约是多少?(精确到0.01 t). 12.某运动员训练次数与运动成绩之间的数据关系如下:

相关主题
文本预览
相关文档 最新文档