第12章 回归分析[研究材料]
- 格式:ppt
- 大小:1.68 MB
- 文档页数:92
第十二章 相关与回归分析四、名词说明1.消减误差比例变量间的相关程度,能够用不知Y 与X 有关系时预测Y 的误差0E ,减去明白Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来气宇。
将削减误差比例记为PRE 。
2. 确信性关系当一个变量值确信后,另一个变量值夜完全确信了。
确信性关系往往表现成函数形式。
3.非确信性关系在非确信性关系中,给定了一个变量值,另一个变量值还能够在必然范围内转变。
4.因果关系变量之间的关系知足三个条件,才能判定是因果关系。
1)连个变量有共变关系,即一个变量的转变会伴随着另一个变量的转变;2)两个变量之间的关系不是由其他因素形成的,即因变量的转变是由自变量的转变引发的;3)两个变量的产生和转变有明确的时刻顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
5.单相关和复相关单相关只涉及到两个变量,因此又称为二元相关。
三个或三个以上的变量之间的相关关系那么称为复相关,又称多元相关。
6.正相关与负相关正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
7.散点图散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观看X 与Y 的彼此关系,即得相关图,又称散点图。
8.皮尔逊相关系数r皮尔逊相关系数是协方差与两个随机变量X 、Y 的标准差乘积的比率。
9.同序对 在观看X 序列时,若是看到i j X X <,在Y 中看到的是i j Y Y <,那么称这一配对是同序对。
10.异序对 在观看X 序列时,若是看到i j X X <,在Y 中看到的是i j Y >Y ,那么称这一配对是异序对。
11.同分对若是在X 序列中,咱们观看到i j X =X (现在Y 序列中无i j Y =Y ),那么那个配对仅是X 方向而非Y 方向的同分对;若是在Y 序列中,咱们观看到i j Y =Y (现在X 序列中无i j X =X ),那么那个配对仅是Y 方向而非X 方向的同分对;咱们观看到i j X =X ,也观看到i j Y =Y ,那么称那个配对为X 与Y 同分对。
-141-第十二章 回归分析前面我们讲过曲线拟合问题。
曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。
通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。
从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。
另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。
简单地说,回归分析就是对拟合问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:(i )建立因变量y 与自变量m x x x ,,,21 之间的回归模型(经验公式); (ii )对回归模型的可信度进行检验;(iii )判断每个自变量),,2,1(m i x i =对y 的影响是否显著;(iv )诊断回归模型是否适合这组数据;(v )利用回归模型对y 进行预报或控制。
§1 多元线性回归回归分析中最简单的形式是x y 10ββ+=,y x ,均为标量,10,ββ为回归系数,称一元线性回归。
它的一个自然推广是x 为多元变量,形如m m x x y βββ+++= 110 (1)2≥m ,或者更一般地)()(110x f x f y m m βββ+++= (2)其中),,(1m x x x =,),,1(m j f j =是已知函数。
这里y 对回归系数),,,(10m ββββ =是线性的,称为多元线性回归。
不难看出,对自变量x 作变量代换,就可将(2)化为(1)的形式,所以下面以(1)为多元线性回归的标准型。
1.1 模型在回归分析中自变量),,,(21m x x x x =是影响因变量y 的主要因素,是人们能控制或能观察的,而y 还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作⎩⎨⎧++++=),0(~2110σεεβββN x x y m m (3) 其中σ未知。
第十二章直线相关与回归A型选择题〔、若计算得一相关系数r=0.94,则()A、x与y之间一定存在因果关系B、同一资料作回归分析时,求得回归系数一定为正值C、同一资料作回归分析时,求得回归系数一定为负值D求得回归截距a>0E、求得回归截距a^ 02、对样本相关系数作统计检验(H o =0),结果r r°.05(v),统计结论是()。
A、肯定两变量为直线关系B、认为两变量有线性相关C、两变量不相关B. 两变量无线性相关E、两变量有曲线相关3、若A「0.05(如」2血。
^),则可认为()。
A. 第一组资料两变量关系密切B. 第二组资料两变量关系密切C. 难说哪一组资料中两变量关系更密切D两组资料中两变量关系密切程度不一样E、以上答案均不对4、相关分析可以用于()有无关系的研究A、性别与体重B、肺活量与胸围C、职业与血型D国籍与智商E、儿童的性别与体重5、相关系数的假设检验结果,则在〉水平上可认为相应的两个变量间()A、有直线相关关系B、有曲线相关关系C、有确定的直线函数关系D有确定的曲线函数关系E、不存在相关关系6根据样本算得一相关系数r,经t检验,P v 0.01说明()A、两变量有高度相关B、r来自高度相关的相关总体C、r来自总体相关系数p的总体D r来自卩工0的总体E、r来自p>0的总体7、相关系数显著检验的无效假设为()A、r有高度的相关性B、r来自p工0的总体C、r来自p = 0的总体D r与总体相关系数p差数为0E、r来自p>0的总体8、计算线性相关系数要求()A. 反应变量Y呈正态分布,而自变量X可以不满足正态分布的要求B. 自变量X呈正态分布,而反应变量丫可以不满足正态分布的要求C. 自变量X和反应变量丫都应满足正态分布的要求D. 两变量可以是任何类型的变量E. 反应变量Y要求是定量变量,X可以是任何类型的变量9、对简单相关系数r进行检验,当检验统计量t r>t 0.05(V)时,可以认为两变量x 与丫间()A. 有一定关系B. 有正相关关系C. 无相关关系D. 有直线关系E. 有负相关关系10、相关系数反映了两变量间的()A、依存关系B、函数关系C、比例关系D相关关系E、因果关系11、|r| “0.05/2,(2)时,则在G =0.05水准上可认为相应的两变量X、丫间()。
第十二章直线相关与回归【A1型题】1.在y和x的回归分析中,若tb<t0.05,υ可认为A. 两变量存在线性相关关系B. 两变量不存在任何关系C. 样本回归系数和总体回归系数(β=0 ) 相等的可能性P>95%D. 两变量无线性相关E. 以上都不是2. sy·x和sb分别表示A. y对的离散度和b的抽样误差B. y对x的离散度和b的离散度C. y的离散度和b的离散度D. y对的离散度和y的标准估计误差E. y的离散度和b的变异3.欲分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则应采用A. 秩相关分析B. 相关分析C. 直线回归分析D. 多元回归分析E. 以上都不是4.若r>r0.05(ν),则A. P>0.05B. P≤0.05C. P>0.01D. P≥0.05E. P<0.055.若对两个变量进行直线相关分析,r=0.39,P>0.05,则说明两个变量之间A. 有伴随关系B. 有数量关系C. 有因果关系D. 有相关关系E. 无相关关系6.对相关系数r进行假设检验,当r>r0.05(ν),则A. 两变量之间关系密切B. 两变量之间相关有统计学意义C. 两变量之间关系不密切D. 两变量之间相关无统计学意义E. 以上都不是7.对两个数值变量同时进行了相关和回归分析,r有统计学意义(P<0.05),则A. b有高度的统计学意义B. b无统计学意义C. b有统计学意义D. 不能肯定b有无统计学意义E. 以上都不是8.某研究者测定60个中学生的身高,询问了他们每天的睡眠时间,并计算了等级相关系数,检验其统计学意义,查表时,n应为A. 2B. 1C. 58D. 60E. 599.某研究者测定了睡眠时间和焦虑症状评分,若想研究两者之间的相关性,应计算的指标是A. rB. tC. b2D. uE. b10.某医师拟制作标准曲线,用光密度值来推测食品中亚硝酸盐的含量,应选用的统计方法是A. u检验B. 回归分析C. 相关分析D. χ2检验E. q检验11.在直线回归分析中,回归系数b的绝对值越大A. 所绘散点越靠近回归线B. 所绘散点越远离回归线C. 回归线在y轴上的截距越大D. 回归线对x轴越平坦E. 回归线对x轴越陡【B型题】A.B.C.D. SbE. Sy12.直线回归分析中,反映扣除x的影响后y的变异程度的指标是13.直线回归分析中,反映在y的总变异中由于x与y的直线关系而使y变异减小的部分,也就是在总平方和中可以用x解释的部分即14.直线回归分析中,反映当x为某定数时个体y值变异程度的指标是15.直线回归分析中,反映x对y的线性影响之外的一切因素对y的变异的作用是【X型题】16. 对某样本的相关系数r和0的差别进行假设检验,结果为tr<t0.05,ν,因此A. 两变量存在直线相关的可能性小于5%B. 如果样本来自ρ=0的总体,得出该r值的概率大于5%C. 如果样本来自ρ=0的总体,得出该r值的概率小于5%D. 两变量的差别无显著性E. r≠0是抽样误差所致17.在作直线回归分析时,选定自变量x的原则一般为A. 两变量间无因果关系,以变异较小者为xB. 两变量间无因果关系,以变异较大者为xC. 两变量间有因果关系,以"因"为xD. 两变量间有因果关系,以"果"为xE. x是可以精确测量和严格控制的变量18.相关系数r的数值A. 可以为负值B. 可以为正值C. 可等于1D. 可大于1E. 可等于-1【名词解释】19. 回归系数20. 截距21. 相关系数22. 等级相关23. 直线回归【简答题】24. 直线回归与相关分析的区别与联系是什么25. 进行直线相关与回归分析时应注意哪些问题26. 什么是剩余标准差?其作用如何27. 为何应该对样本相关系数和样本回归系数都应该进行假设检验28. 直线回归方程可应用在哪些方面29. 用什么方法来确定一条回归直线【应用题】30. 现有12名糖尿病患者血糖和胰岛素的测量数据列于下表中,试对其进行直线相关与回归分析表 12名糖尿病患者血糖(mmol/L)和胰岛素(mU/L)的测量数据编号123456789101112胰岛素17141912916182124171710血糖9.511.610.811.412.49.810.18.67.911.210.612.831. 某课题组测量了16名18~22岁男大学生的肺活量与身高,结果如下表,请进行直线相关与回归分析编号身高(m)x肺活量(L)y编号身高(m)x肺活量(L)y11.7424.65091.7084.02221.7184.278101.6984.07731.7144.420111.7144.31841.7124.379 121.6744.03951.7204.365131.6833.85061.7044.222141.6703.62571.7093.973151.6793.87 481.7294.290161.6923.91132 .某省卫生防病中心对10个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下表,试检验两者有无相关城市编号12345678910肺癌标化死亡率(1/10万)5.6018.5016.2311.4013.808.1318.0012.1015.309.70苯并(a)芘(μg/100m3)0.051.171.050.100.750.500.651.200.950.65参考答案【A1型题】26.1. D2. A3. C4. E5. E6. B7. C8. D9. A10. B11. E【B型题】12.12. C13. B14. E15. A【X型题】16.16. BE17. CE18. ABCE【应用题】30.相关系数=-0.9037,P<0.05回归方程为=15.448-0.302x ,P<0.0531.相关系数=0.874,P<0.05回归方程为=-15.392+11.464x ,P<0.0532.rs=0.676,P<0.05???? ?? ??-7-。