第12章 回归分析
- 格式:ppt
- 大小:1.32 MB
- 文档页数:92
统计学第十二章 多元线性回归一. 选择题1. 在多元线性回归分析中,t 检验是用来检验( ) A 总体线性关系的显著性 B.各回归系数的显著性 C.样本线性关系的显著性 D .H 0:β1=β2=…βk =02.在多元线性回归模型中,若自变量x i 对因变量y 的影响不显著,那么它的回归系数 βi 的取值( )A.可能为0B.可能为1C.可能小于0 D 可能大于13.在多元线性回归方程 y i ˆ=βˆ0+x 11ˆβ+x 22ˆβ+…+xkkβˆ中,回归系数βˆi表示( ) A.自变量x i 变动1个单位时,因变量y 的平均变动额为βˆiB.其他变量不变的条件下,自变量x i 变动1个单位时,因变量y的平均变动额为βˆiC.其他变量不变的条件下,自变量x i 变动1个单位时,因变量y的变动总额为βˆiD.因变量y 变动1个单位时,因变量x i 的变动总额为βˆi4.设自变量的个数为5个,样本容量为20。
在多元回归分析中,估计标准误差的自由度为( )A.20B.15C.14D.18 5.在多元回归分析中,通常需要计算调整的多重判定系数R a2,这样可以避免的值()A. 由于模型中自变量个数的增加而越来越接近1B. 由于模型中自变量个数的增加而越来越接近0C. 由于模型中样本容量的增加而越来越接近0D. 由于模型中样本容量的增加而越来越接近16.在多元线性回归分析中,如果F检验表明线性关系显著,则意味着()A.在多个变量中至少有一个自变量与因变量之间的线性关系显著B.所有的自变量与因变量之间的线性关系都显著C.在多个变量中至少有一个自变量与因变量之间的线性关系不显著D.所有的自变量与因变量之间的线性关系都不显著7.在多元线性回归分析中,如果t检验表明回归系数βi不显著,则意味着()A.整个回归方程的线性关系不显著B.整个回归方程的线性关系显著C.自变量x i与因变量之间的线性关系不显著D.自变量x i与因变量之间的线性关系显著8.设多元线性回归方程为Yˆ=βˆ0+x11ˆβ+x22ˆβ+…+xkkβˆ,若自变量x i的回归系数βˆi的取值接近0,这表明()A.因变量y对自变量ix的影响不显著B.因变量y对自变量ix的影响显著C.自变量ix对因变量y的影响不显著D.自变量x对因变量y的影响显著i9.一家出租汽车公司为确定合理的管理费用,需要研究出租车司机每天的收入(元)与他的行驶时间(小时)、行驶的里程(公里)之间的关系,为此随机调查了20位出租车司机,根据每天的收入(y)、行驶时间(x1)和行驶的里程(x2)的有关数据进行回归,得到下面的有关结果(a=0.05)根据上表计算的判定系数为()A. 0.9229B. 1.1483C. 0.3852D. 0.851610. 一家出租汽车公司为确定合理的管理费用,需要研究出租车四级每天的收入(元)与他的行驶时间(小时)、行驶的里程(公里)之间的关系,为此随机调查了20位出租车司机,根据每天的收入(y)、行驶时间(x1)和行驶的里程(x2)的有关数据进行回归,得到下面的有关结果(α=0.05)根据上表计算的估计标准误差为()A. 306.18B. 17.50C. 16.13D. 41.9311. 一家出租汽车公司为确定合理的管理费用,需要研究出租车司机每天的收入(元)与他的行驶时间(小时)、行驶的里程(公里)之间的关系,为此随机调查了20位出租车司机,根据每天的收入(y)、行驶时间(x1)和行驶的里程(x2)的有关数据进行回归,得到下面的有关结果(α=0.05)根据上表计算的用于检验线性关系的统计量F=()A. 306.18B. 48.80C. 5.74D. 41.9312.一家产品销售公司在30个地区设有销售分公司。
第十二章相关与回归分析一、填空1.如果两变量的相关系数为0,说明这两变量之间_____________。
2.相关关系按方向不同,可分为__________和__________。
3.相关关系按相关变量的多少,分为______和复相关。
4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。
自变量是作为(变化根据)的变量,因变量是随(自变量)的变化而发生相应变化的变量。
5.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,因变量则一般是(随机性)变量。
6.变量间的相关程度,可以用不知Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量,这就是(削减误差比例)。
7.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y围绕每个估计值cY是服从();(2)分布中围绕每个可能的cY值的()是相同的。
7.已知:工资(元)倚劳动生产率(千元)的回归方程为xyc8010+=,因此,当劳动生产率每增长1千元,工资就平均增加 80 元。
8.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为(回归方程),并据以进行估计和预测。
这种分析方法,通常又称为(回归分析)。
9.积差系数r是(协方差)与X和Y的标准差的乘积之比。
二、单项选择1.欲以图形显示两变量X和Y的关系,最好创建(D )。
A 直方图 B 圆形图 C 柱形图 D 散点图2.在相关分析中,对两个变量的要求是( A )。
A 都是随机变量B 都不是随机变量C 其中一个是随机变量,一个是常数D 都是常数3. 相关关系的种类按其涉及变量多少可分为( )。
A. 正相关和负相关B. 单相关和复相关C. 线性相关和非线性相关D. 不相关、不完全相关、完全相关4.关于相关系数,下面不正确的描述是( B )。
分层回归其实是对两个或多个回归模型进行比较。
我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。
一个模型解释了越多的变异,则它对数据的拟合就越好。
假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。
两个模型所解释的变异量之间的差异可以用统计显著性来估计和检验。
模型比较可以用来评估个体预测变量。
检验一个预测变量是否显著的方法是比较两个模型,其中第一个模型不包括这个预测变量,而第二个模型包括该变量。
假如该预测变量解释了显著的额外变异,那第二个模型就显著地解释了比第一个模型更多的变异。
这种观点简单而有力。
但是,要理解这种分析,你必须理解该预测变量所解释的独特变异和总体变异之间的差异。
一个预测变量所解释的总体变异是该预测变量和结果变量之间相关的平方。
它包括该预测变量和结果变量之间的所有关系。
预测变量的独特变异是指在控制了其他变量以后,预测变量对结果变量的影响。
这样,预测变量的独特变异依赖于其他预测变量。
在标准多重回归分析中,可以对独特变异进行检验,每个预测变量的回归系数大小依赖于模型中的其他预测变量。
在标准多重回归分析中,回归系数用来检验每个预测变量所解释的独特变异。
这个独特变异就是偏相关的平方(Squared semi-partial correlation)-sr2(偏确定系数)。
它表示了结果变量中由特定预测变量所单独解释的变异。
正如我们看到的,它依赖于模型中的其他变量。
假如预测变量之间存在重叠,那么它们共有的变异就会削弱独特变异。
预测变量的独特效应指的是去除重叠效应后该预测变量与结果变量的相关。
这样,某个预测变量的特定效应就依赖于模型中的其他预测变量。
标准多重回归的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量。
这就意味着模型中所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2)。
总决定系数包括偏决定系数之和与共同变异。
-141-第十二章 回归分析前面我们讲过曲线拟合问题。
曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。
通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。
从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。
另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。
简单地说,回归分析就是对拟合问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:(i )建立因变量y 与自变量m x x x ,,,21 之间的回归模型(经验公式); (ii )对回归模型的可信度进行检验;(iii )判断每个自变量),,2,1(m i x i =对y 的影响是否显著;(iv )诊断回归模型是否适合这组数据;(v )利用回归模型对y 进行预报或控制。
§1 多元线性回归回归分析中最简单的形式是x y 10ββ+=,y x ,均为标量,10,ββ为回归系数,称一元线性回归。
它的一个自然推广是x 为多元变量,形如m m x x y βββ+++= 110 (1)2≥m ,或者更一般地)()(110x f x f y m m βββ+++= (2)其中),,(1m x x x =,),,1(m j f j =是已知函数。
这里y 对回归系数),,,(10m ββββ =是线性的,称为多元线性回归。
不难看出,对自变量x 作变量代换,就可将(2)化为(1)的形式,所以下面以(1)为多元线性回归的标准型。
1.1 模型在回归分析中自变量),,,(21m x x x x =是影响因变量y 的主要因素,是人们能控制或能观察的,而y 还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作⎩⎨⎧++++=),0(~2110σεεβββN x x y m m (3) 其中σ未知。
第十二章 相关与回归分析四、名词解释1.消减误差比例变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来度量。
将削减误差比例记为PRE 。
2. 确定性关系当一个变量值确定后,另一个变量值夜完全确定了。
确定性关系往往表现成函数形式。
3.非确定性关系在非确定性关系中,给定了一个变量值,另一个变量值还可以在一定范围内变化。
4.因果关系变量之间的关系满足三个条件,才能断定是因果关系。
1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
5.单相关和复相关单相关只涉及到两个变量,所以又称为二元相关。
三个或三个以上的变量之间的相关关系则称为复相关,又称多元相关。
6.正相关与负相关正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
7.散点图散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X 与Y 的相互关系,即得相关图,又称散点图。
8.皮尔逊相关系数r皮尔逊相关系数是协方差与两个随机变量X 、Y 的标准差乘积的比率。
9.同序对在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y Y <,则称这一配对是同序对。
10.异序对在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y >Y ,则称这一配对是异序对。
11.同分对如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i jY =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。