第12章 回归分析[研究材料]
- 格式:ppt
- 大小:1.68 MB
- 文档页数:92
第十二章 相关与回归分析四、名词说明1.消减误差比例变量间的相关程度,能够用不知Y 与X 有关系时预测Y 的误差0E ,减去明白Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来气宇。
将削减误差比例记为PRE 。
2. 确信性关系当一个变量值确信后,另一个变量值夜完全确信了。
确信性关系往往表现成函数形式。
3.非确信性关系在非确信性关系中,给定了一个变量值,另一个变量值还能够在必然范围内转变。
4.因果关系变量之间的关系知足三个条件,才能判定是因果关系。
1)连个变量有共变关系,即一个变量的转变会伴随着另一个变量的转变;2)两个变量之间的关系不是由其他因素形成的,即因变量的转变是由自变量的转变引发的;3)两个变量的产生和转变有明确的时刻顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
5.单相关和复相关单相关只涉及到两个变量,因此又称为二元相关。
三个或三个以上的变量之间的相关关系那么称为复相关,又称多元相关。
6.正相关与负相关正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
7.散点图散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观看X 与Y 的彼此关系,即得相关图,又称散点图。
8.皮尔逊相关系数r皮尔逊相关系数是协方差与两个随机变量X 、Y 的标准差乘积的比率。
9.同序对 在观看X 序列时,若是看到i j X X <,在Y 中看到的是i j Y Y <,那么称这一配对是同序对。
10.异序对 在观看X 序列时,若是看到i j X X <,在Y 中看到的是i j Y >Y ,那么称这一配对是异序对。
11.同分对若是在X 序列中,咱们观看到i j X =X (现在Y 序列中无i j Y =Y ),那么那个配对仅是X 方向而非Y 方向的同分对;若是在Y 序列中,咱们观看到i j Y =Y (现在X 序列中无i j X =X ),那么那个配对仅是Y 方向而非X 方向的同分对;咱们观看到i j X =X ,也观看到i j Y =Y ,那么称那个配对为X 与Y 同分对。
-141-第十二章 回归分析前面我们讲过曲线拟合问题。
曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。
通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。
从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。
另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。
简单地说,回归分析就是对拟合问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:(i )建立因变量y 与自变量m x x x ,,,21 之间的回归模型(经验公式); (ii )对回归模型的可信度进行检验;(iii )判断每个自变量),,2,1(m i x i =对y 的影响是否显著;(iv )诊断回归模型是否适合这组数据;(v )利用回归模型对y 进行预报或控制。
§1 多元线性回归回归分析中最简单的形式是x y 10ββ+=,y x ,均为标量,10,ββ为回归系数,称一元线性回归。
它的一个自然推广是x 为多元变量,形如m m x x y βββ+++= 110 (1)2≥m ,或者更一般地)()(110x f x f y m m βββ+++= (2)其中),,(1m x x x =,),,1(m j f j =是已知函数。
这里y 对回归系数),,,(10m ββββ =是线性的,称为多元线性回归。
不难看出,对自变量x 作变量代换,就可将(2)化为(1)的形式,所以下面以(1)为多元线性回归的标准型。
1.1 模型在回归分析中自变量),,,(21m x x x x =是影响因变量y 的主要因素,是人们能控制或能观察的,而y 还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作⎩⎨⎧++++=),0(~2110σεεβββN x x y m m (3) 其中σ未知。
第十二章直线相关与回归A型选择题〔、若计算得一相关系数r=0.94,则()A、x与y之间一定存在因果关系B、同一资料作回归分析时,求得回归系数一定为正值C、同一资料作回归分析时,求得回归系数一定为负值D求得回归截距a>0E、求得回归截距a^ 02、对样本相关系数作统计检验(H o =0),结果r r°.05(v),统计结论是()。
A、肯定两变量为直线关系B、认为两变量有线性相关C、两变量不相关B. 两变量无线性相关E、两变量有曲线相关3、若A「0.05(如」2血。
^),则可认为()。
A. 第一组资料两变量关系密切B. 第二组资料两变量关系密切C. 难说哪一组资料中两变量关系更密切D两组资料中两变量关系密切程度不一样E、以上答案均不对4、相关分析可以用于()有无关系的研究A、性别与体重B、肺活量与胸围C、职业与血型D国籍与智商E、儿童的性别与体重5、相关系数的假设检验结果,则在〉水平上可认为相应的两个变量间()A、有直线相关关系B、有曲线相关关系C、有确定的直线函数关系D有确定的曲线函数关系E、不存在相关关系6根据样本算得一相关系数r,经t检验,P v 0.01说明()A、两变量有高度相关B、r来自高度相关的相关总体C、r来自总体相关系数p的总体D r来自卩工0的总体E、r来自p>0的总体7、相关系数显著检验的无效假设为()A、r有高度的相关性B、r来自p工0的总体C、r来自p = 0的总体D r与总体相关系数p差数为0E、r来自p>0的总体8、计算线性相关系数要求()A. 反应变量Y呈正态分布,而自变量X可以不满足正态分布的要求B. 自变量X呈正态分布,而反应变量丫可以不满足正态分布的要求C. 自变量X和反应变量丫都应满足正态分布的要求D. 两变量可以是任何类型的变量E. 反应变量Y要求是定量变量,X可以是任何类型的变量9、对简单相关系数r进行检验,当检验统计量t r>t 0.05(V)时,可以认为两变量x 与丫间()A. 有一定关系B. 有正相关关系C. 无相关关系D. 有直线关系E. 有负相关关系10、相关系数反映了两变量间的()A、依存关系B、函数关系C、比例关系D相关关系E、因果关系11、|r| “0.05/2,(2)时,则在G =0.05水准上可认为相应的两变量X、丫间()。