第10章-简单线性回归分析思考与练习参考答案
- 格式:doc
- 大小:777.00 KB
- 文档页数:6
医学统计学思考练习第1章绪论思考与练习参考答案一、最佳选择题1. 研究中的基本单位是指 ( D )。
A.样本 B. 全部对象C.影响因素 D. 个体 E. 总体2. 从总体中抽取样本的目的是(B )。
A.研究样本统计量 B. 由样本统计量推断总体参数C.研究典型案例 D. 研究总体统计量E. 计算统计指标3. 参数是指(B )。
A.参与个体数 B. 描述总体特征的统计指标C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数4. 下列资料属名义变量的是(E)。
A.白细胞计数 B.住院天数C.门急诊就诊人数 D.患者的病情分级 E. ABO血型5.关于随机误差下列不正确的是(C)。
A.受测量精密度限制 B.无方向性 C. 也称为偏倚D.不可避免 E. 增加样本含量可降低其大小第2章统计描述思考与练习参考答案一、最佳选择题1. 编制频数表时错误的作法是(E )。
A. 用最大值减去最小值求全距B. 组距常取等组距,一般分为10~15组C. 第一个组段须包括最小值D. 最后一个组段须包括最大值E. 写组段,如“1.5~3,3~5, 5~6.5,…”2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是(A)。
A. 中位数B. 几何均数C. 调和均数D. 算术均数E. 众数3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用(A)。
A. 变异系数B. 全距C. 标准差D. 四分位数间距E. 百分位数P2.5与P97.5的间距4. 均数和标准差S的关系是(A)。
A. S越小,对样本中其他个体的代表性越好B. S越大,对样本中其他个体的代表性越好C.越小,S越大D.越大,S越小E.必小于5. 计算乙肝疫苗接种后血清抗-HBs的阳转率,分母为(B)。
A. 阳转人数B. 疫苗接种人数C. 乙肝患者数D. 乙肝病毒携带者数E. 易感人数6. 某医院的院内感染率为5.2人/千人日,则这个相对数指标属于(C)。
线性回归分析与应用例题和知识点总结在统计学和数据分析的领域中,线性回归分析是一种非常重要和常用的方法。
它可以帮助我们理解变量之间的线性关系,并进行预测和推断。
接下来,让我们一起深入探讨线性回归分析的知识点,并通过一些具体的例题来加深理解。
一、线性回归的基本概念线性回归是一种用于建立两个或多个变量之间线性关系的统计方法。
简单线性回归涉及两个变量,一个是自变量(通常用 x 表示),另一个是因变量(通常用 y 表示)。
其基本形式可以表示为:y = b₀+b₁x,其中 b₀是截距,b₁是斜率。
二、线性回归的假设条件在进行线性回归分析时,有几个重要的假设条件需要满足:1、线性关系:自变量和因变量之间存在线性关系。
2、独立性:观测值之间相互独立。
3、正态性:残差(实际值与预测值之间的差异)服从正态分布。
4、同方差性:残差的方差在不同的自变量取值上是相同的。
三、最小二乘法为了确定线性回归方程中的参数 b₀和 b₁,我们通常使用最小二乘法。
其基本思想是使残差平方和最小,即找到一组 b₀和 b₁的值,使得观测值与预测值之间的差异最小化。
四、决定系数(R²)决定系数用于衡量回归模型对数据的拟合程度。
R²的取值范围在 0 到 1 之间,越接近 1 表示模型拟合得越好。
五、例题分析假设我们想研究一个城市中房屋面积(自变量 x)与房屋价格(因变量 y)之间的关系。
我们收集了以下 10 组数据:|房屋面积(平方米)|房屋价格(万元)|||||80|120||90|135||100|150||110|165||120|180||130|195||140|210||150|225||160|240||170|255|首先,计算这组数据的均值:x 的均值=(80 + 90 + 100 + 110 + 120 + 130 + 140 + 150 +160 + 170)/ 10 = 125 平方米y 的均值=(120 + 135 + 150 + 165 + 180 + 195 + 210 + 225 + 240 + 255)/ 10 = 180 万元然后,计算斜率 b₁:\\begin{align}b_1&=\frac{\sum_{i=1}^{n}(x_i \bar{x})(y_i \bar{y})}{\sum_{i=1}^{n}(x_i \bar{x})^2}\\&=\frac{(80 125)(120 180) +(90 125)(135 180) +\cdots +(170 125)(255 180)}{(80 125)^2 +(90 125)^2 +\cdots +(170 125)^2}\\&=15\end{align}\截距 b₀= y 的均值 b₁ x 的均值= 180 15 125 =-75所以,线性回归方程为 y =-75 + 15x接下来,我们可以用这个方程进行预测。
线性回归习题答案线性回归是统计学中一种常见的数据分析方法,用于建立自变量与因变量之间的线性关系模型。
在实际应用中,线性回归模型常用于预测、趋势分析和关联度分析等领域。
下面将通过一些典型的线性回归习题来探讨其应用。
习题一:某公司根据过去几年的销售数据,建立了一个线性回归模型来预测未来的销售额。
已知公司的广告费用与销售额之间存在着一定的线性关系。
根据模型,当广告费用为1000元时,预测的销售额为15000元。
求该模型的回归方程。
解答:假设回归方程为y = a + bx,其中y表示销售额,x表示广告费用。
根据已知条件,可以得到一个方程:15000 = a + 1000b。
进一步,如果再给出另外一个广告费用与销售额的数据点,就可以求解出回归方程的具体参数a和b。
习题二:某城市的房价与房屋面积之间存在一定的线性关系。
已知一套房子的面积为120平方米,根据线性回归模型预测其价格为80万元。
求该模型的回归方程。
解答:假设回归方程为y = a + bx,其中y表示房价,x表示房屋面积。
根据已知条件,可以得到一个方程:80 = a + 120b。
同样地,如果再给出另外一个房屋面积与价格的数据点,就可以求解出回归方程的具体参数a和b。
习题三:某公司根据市场调研数据,建立了一个线性回归模型来分析产品销售量与价格之间的关系。
已知当产品价格为10元时,预测的销售量为1000个。
根据该模型,求当产品价格为15元时的预测销售量。
解答:假设回归方程为y = a + bx,其中y表示销售量,x表示产品价格。
根据已知条件,可以得到一个方程:1000 = a + 10b。
根据该方程,可以求解出参数a和b的具体值。
然后,将x取15,代入回归方程中,即可得到当产品价格为15元时的预测销售量。
通过以上习题的解答,我们可以看到线性回归模型在实际问题中的应用。
通过建立合适的回归方程,我们可以通过已知的自变量值来预测因变量的取值。
这对于企业决策、市场分析以及经济预测等方面都具有重要意义。
2011・6・23通知:考试时间改为,2011・6・29下午2:30, A405教室参考资料1、陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版年4月第1版,39.00元3、阮敬,SAS变量的分类'宀日’连续/计量例如,身高疋量<i离散/计数例如,人数■=有序例如,学历定性L v'二分类例如,性别名义彳、‘〔多分类例如,职业注:计量指标与计数指标一般好区别。
特殊情形下不好区别,如年龄】、两分类变量的logistic 回归1、logit 变换考虑上市公司中企业类型(ST 与非ST )与财务指标的关系。
常常需要研究事件A 发生的概率p 大小与某些因素有关。
例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。
显然 人群中只有两种状态“动脉硬化”和“非动脉硬化” (简称为“患病”和“不患病”),人群 的状态记为y ,则“患病”和“不患病”对应着 y 的两个取值:y =1,y = 0。
用事件表示 即{y =1}—“患病”=“动脉硬化” ,{y = 0}—“不患病”=“非动脉硬化”若患病率记为p ,则 显然pfy n_p{y =1丄1一 p讨论患病率p 与年龄X 的关系,显然,患病率随着年龄X 的增加而增长。
例,观察了 123位糖尿病患者,记录了他们的年龄 x 以及是否患动脉硬化y 。
数据格 式见下表,详细数据见附录一2。
表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号动脉硬化分类 年龄n y x 132123178符号说明符号 解释 注编号是否动脉硬化年龄根据这些数据如何分析是否患病 y 与年龄X 的关系?能否建立y 关于x 的回归方程?不行。
因为y 的取值并无实际意义。
将数据分组,得到各组的患病率 p (见表2),能否建立p 关于x 的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。
第10章 含定性变量的回归模型10.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。
出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为:其中含有k 个定量变量,记为x i 。
对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。
这就是所谓的“虚拟变量陷井”,应避免。
当某自变量x j 对其余p-1个自变量的复判定系数2j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。
称Tol j =1-2j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。
也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。
而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。
10.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?答:原因有两个,以例10.1说明。
一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其tt t t kt k t t D D D X X Y μαααβββ++++++=332211110 ⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=000110010110001010010010100011)(616515414313212111k k k k k k X X X X X X X X X X X XD X,⎪⎪⎪⎪⎪⎭⎫⎝⎛=k βββ 10β⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=4321ααααα他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。
第10章时间序列数据的基本回归分析10.1复习笔记一、时间序列数据的性质时间序列数据与横截面数据的区别:(1)时间序列数据集是按照时间顺序排列。
(2)时间序列数据与横截面数据被视为随机结果的原因不同。
①横截面数据应该被视为随机结果,因为从总体中抽取不同的样本,通常会得到自变量和因变量的不同取值。
因此,通过不同的随机样本计算出来的OLS估计值通常也有所不同,这就是OLS统计量是随机变量的原因。
②经济时间序列满足作为随机变量是因为其结果无法事先预知,因此可以被视为随机变量。
一个标有时间脚标的随机变量序列被称为一个随机过程或时间序列过程。
搜集到一个时间序列数据集时,便得到该随机过程的一个可能结果或实现。
因为不能让时间倒转重新开始这个过程,所以只能看到一个实现。
如果特定历史条件有所不同,通常会得到这个随机过程的另一种不同的实现,这正是时间序列数据被看成随机变量之结果的原因。
(3)一个时间序列过程的所有可能的实现集,便相当于横截面分析中的总体。
时间序列数据集的样本容量就是所观察变量的时期数。
二、时间序列回归模型的例子1.静态模型假使有两个变量的时间序列数据,并对y t和z t标注相同的时期。
把y和z联系起来的一个静态模型(staticmodel)为:10 1 2 t t t y z u t nββ=++=⋯,,,,“静态模型”的名称来源于正在模型化y 和z 同期关系的事实。
若认为z 在时间t 的一个变化对y 有影响,即1t t y z β∆=∆,那么可以将y 和z 设定为一个静态模型。
一个静态模型的例子是静态菲利普斯曲线。
在一个静态回归模型中也可以有几个解释变量。
2.有限分布滞后模型(1)有限分布滞后模型有限分布滞后模型(finitedistributedlagmodel,FDL)是指一个或多个变量对y 的影响有一定时滞的模型。
考察如下模型:001122t t t t ty z z z u αδδδ--=++++它是一个二阶FDL。
简单线性回归分析思考与练习参考答案第10章简单线性回归分析思考与练习参考答案⼀、最佳选择题1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。
A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错2.如果相关系数r =1,则⼀定有( C )。
A .总SS =残差SSB .残差SS =回归SSC .总SS =回归SSD .总SS >回归SS E.回归MS =残差MS3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。
A .ρ=0时,r =0B .|r |>0时,b >0C .r >0时,b <0D .r <0时,b <0 E. |r |=1时,b =14.如果相关系数r =0,则⼀定有( D )。
A .简单线性回归的截距等于0B .简单线性回归的截距等于Y 或XC .简单线性回归的残差SS 等于0D .简单线性回归的残差SS 等于SS 总E .简单线性回归的总SS 等于05.⽤最⼩⼆乘法确定直线回归⽅程的含义是( B )。
A .各观测点距直线的纵向距离相等B .各观测点距直线的纵向距离平⽅和最⼩C .各观测点距直线的垂直距离相等D .各观测点距直线的垂直距离平⽅和最⼩E .各观测点距直线的纵向距离等于零⼆、思考题1.简述简单线性回归分析的基本步骤。
答:①绘制散点图,考察是否有线性趋势及可疑的异常点;②估计回归系数;③对总体回归系数或回归⽅程进⾏假设检验;④列出回归⽅程,绘制回归直线;⑤统计应⽤。
2.简述线性回归分析与线性相关的区别与联系。
答:区别:(1)资料要求上,进⾏直线回归分析的两变量,若X 为可精确测量和严格控制的变量,则对应于每个X 的Y 值要求服从正态分布;若X 、Y 都是随机变量,则要求X 、Y 服从双变量正态分布。
直线相关分析只适⽤于双变量正态分布资料。
回归分析习题答案回归分析习题答案回归分析作为一种常用的统计方法,被广泛应用于各个领域。
它能够帮助研究者理解变量之间的关系,并预测未来的趋势。
在回归分析的学习过程中,习题是不可或缺的一部分,通过解答习题,我们可以更好地掌握回归分析的原理和应用。
本文将回答一些常见的回归分析习题,帮助读者更好地理解回归分析的概念和方法。
1. 问题:某公司想要预测销售额与广告投入之间的关系,他们收集了过去12个月的数据,包括每个月的广告投入和销售额。
请用简单线性回归模型拟合数据,并预测下个月的销售额。
答案:简单线性回归模型可以表示为:销售额= β0 + β1 * 广告投入。
通过最小二乘法估计参数,可以得到回归方程。
使用软件或计算器进行计算,得到β0和β1的估计值。
然后,将下个月的广告投入代入回归方程,即可得到预测的销售额。
2. 问题:某研究人员想要研究学生的考试成绩与学习时间之间的关系。
他们随机选择了100名学生,记录了他们的学习时间和考试成绩。
请用多元线性回归模型拟合数据,并解释模型中的系数。
答案:多元线性回归模型可以表示为:考试成绩= β0 + β1 * 学习时间+ β2 *年级+ ε。
其中,学习时间和年级是自变量,考试成绩是因变量。
通过最小二乘法估计参数,可以得到回归方程。
系数β1表示学习时间对考试成绩的影响,系数β2表示年级对考试成绩的影响。
如果β1和β2的估计值显著不为零,说明学习时间和年级对考试成绩有显著影响。
3. 问题:某研究人员想要研究气温对冰淇淋销量的影响。
他们收集了每天的气温和冰淇淋销量数据,发现两者呈现正相关关系。
请用非线性回归模型拟合数据,并解释模型中的参数。
答案:非线性回归模型可以表示为:冰淇淋销量= β0 + β1 * 气温+ β2 * 气温^2 + ε。
其中,气温是自变量,冰淇淋销量是因变量。
通过最小二乘法估计参数,可以得到回归方程。
系数β1表示气温对冰淇淋销量的线性影响,系数β2表示气温对冰淇淋销量的非线性影响。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第10章SPSS的聚类分析1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。
要求:1)根据凝聚状态表利用碎石图对聚类类数进行研究。
2)绘制聚类树形图,说明哪些省市聚在一起。
3)绘制各类的科研指标的均值对比图。
4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。
大约聚成4类。
步骤:分析→分类→系统聚类→按如下方式设置……结果:凝聚计划阶段 组合的集群系数 首次出现阶段集群 下一个阶段集群 1集群 2集群 1集群 21 26 30 328.189 0 02 2 26 29 638.295 1 0 73 20 25 1053.423 0 0 54 4 12 1209.922 0 0 15 5 8 201505.035 0 3 6 6 8 16 1760.170 5 0 9 7 24 26 1831.926 0 2 10 8 7 11 1929.891 0 0 11 9 5 8 2302.024 0 6 22 10 24 31 2487.209 7 0 22 11 2 7 2709.887 0 8 16 12 22 28 2897.106 0 0 19 13 6 23 2916.551 0 0 17 14 10 19 3280.752 0 0 25 15 4 21 3491.585 4 0 21 16 2 3 4229.375 11 0 21 17 6 13 4612.423 13 0 20 18 9 18 5377.253 0 0 25 19 14 22 5622.415 0 12 24 20 6 15 5933.518 17 0 23 21 2 4 6827.276 16 15 26 22 5 24 7930.765 9 10 24 23 6 27 9475.498 20 0 26 24 5 14 14959.704 22 19 28 25 9 10 19623.050 18 14 27 26 2 6 24042.669 21 23 28 27 9 17 32829.466 25 0 29 28 2 5 48360.854 26 24 29 29 2 9 91313.530 28 27 30 3012293834.50329选中数据列,点击“插入”菜单 拆线图……碎石图:由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。
第八章相关与回归分析一、本章重点1.相关系数的概念及相关系数的种类。
事物之间的依存关系,能够分为函数关系和相关关系。
相关关系又有单向因果关系和互为因果关系;单相关和复相关;线性相关和非线性相关;不相关、不完全相关和完全相关;正相关和负相关等类型。
2.相关分析,着重掌握如何画相关表、相关图,如何测定相关系数、测定系数和进行相关系数的推断。
相关表和相关图是变量间相关关系的生动表示,对于未分组资料和分组资料计算相关系数的方式是不同的,一元线性回归中相关系数和测定系数有着紧密的关系,取得样本相关系数后还要对整体相关系数进行科学推断。
3.回归分析,着重掌握一元回归的大体原理方式,一元回归是线性回归的基础,多元线性回归和非线性回归都是以此为基础的。
用最小平方式估量回归参数,回归参数的性质和显著性査验,随机项方差的估量,回归方程的显菁性査验, 利用回归方程进行预测是回归分析的主要内容。
4.应用相关与回归分析应注意的问题。
相关与回归分析都有它们的应用范围,必需明白在什么情形下能用,什么情形下不能用。
相关分析和回归分析必需以定性分析为前提,不然可能会闹岀笑话,在进行预测时选取的样本要尽可能分散,以减少预测误差,在进行预测时只有在现有条件不变的情形下才能进行,若是条件发生了转变,原来的方程也就失去了效用。
二、难点释疑本章难点在于计算公式多,不容易记忆,所以更要注重计算的练习。
为了辜握大体计算的内容,最少应认真理解书上的例题,做完本指导书上的全数计算题。
初学者可能会感到本章公式多且复杂,难于记忆,其实只要抓住Lxx、Lxy. Lyy 这三个记号,记住它们的展开式,几个主要的公式就不难记忆了。
若是能自己把这些公式推证一下,弄清其关系,那就更易记住了。
三、练习题(一)填空题1事物之间的依存关系,按照其彼此依存和制约的程度不同,能够分为()和()两种。
2.相关关系按相关关系的情形可分为()和();按自变量的多少分()和();按相关的表现形式分()和();按相关关系的紧密程度分()、()和();按相关关系的方向分()。
回归分析参考答案回归分析参考答案回归分析是一种常用的统计方法,用于研究变量之间的关系。
它可以帮助我们理解和预测变量之间的依赖关系,并且在实际应用中具有广泛的应用场景。
本文将介绍回归分析的基本概念、方法和应用,并提供一些参考答案,以帮助读者更好地理解和运用回归分析。
一、回归分析的基本概念回归分析是一种用于研究因变量和自变量之间关系的统计方法。
它基于一组观测数据,通过建立数学模型来描述因变量与自变量之间的关系,并用统计方法对模型进行估计和推断。
回归分析的目标是通过自变量的变化来预测因变量的值。
在回归分析中,因变量是我们想要预测或解释的变量,而自变量是我们用来解释因变量变化的变量。
回归分析可以分为简单线性回归和多元回归两种类型。
简单线性回归是指只有一个自变量和一个因变量的情况,而多元回归则是指有多个自变量和一个因变量的情况。
二、回归分析的方法回归分析的方法主要包括建模、参数估计和模型评估三个步骤。
1. 建模:在回归分析中,我们需要选择适当的模型来描述因变量和自变量之间的关系。
常见的模型包括线性模型、非线性模型和广义线性模型等。
选择合适的模型需要根据具体问题和数据特点来决定。
2. 参数估计:在建立模型之后,我们需要对模型的参数进行估计。
参数估计的方法有最小二乘法、最大似然估计和贝叶斯估计等。
最小二乘法是一种常用的参数估计方法,它通过最小化观测值与模型预测值之间的差异来估计参数。
3. 模型评估:在参数估计之后,我们需要对模型进行评估,以确定模型的拟合程度和预测能力。
模型评估的指标包括残差分析、方差分析和回归系数的显著性检验等。
通过这些指标,我们可以判断模型是否合理,并对模型进行改进。
三、回归分析的应用回归分析在实际应用中具有广泛的应用场景。
下面将介绍一些常见的应用领域和相应的参考答案。
1. 经济学:回归分析在经济学中常用于研究经济变量之间的关系。
例如,我们可以使用回归分析来研究收入和消费之间的关系,以及利率和投资之间的关系。
第10章 简单线性回归分析
思考与练习参考答案
一、最佳选择题
1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。
A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错
2.如果相关系数r =1,则一定有( C )。
A .总SS =残差SS
B .残差SS =回归
SS
C .总SS =回归SS
D .总SS >回归SS E.
回归MS =残差MS
3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。
A .ρ=0时,r =0
B .|r |>0时,b >0
C .r >0时,b <0
D .r <0时,b <0 E. |r |=1时,b =1
4.如果相关系数r =0,则一定有( D )。
A .简单线性回归的截距等于0
B .简单线性回归的截距等于Y 或X
C .简单线性回归的残差SS 等于0
D .简单线性回归的残差SS 等于SS 总
E .简单线性回归的总SS 等于0
5.用最小二乘法确定直线回归方程的含义是( B )。
A .各观测点距直线的纵向距离相等
B .各观测点距直线的纵向距离平方和最小
C .各观测点距直线的垂直距离相等
D .各观测点距直线的垂直距离平方和最小
E .各观测点距直线的纵向距离等于零
二、思考题
1.简述简单线性回归分析的基本步骤。
答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。
2.简述线性回归分析与线性相关的区别与联系。
答:区别:
(1)资料要求上,进行直线回归分析的两变量,若X 为可精确测量和严格控制的变量,则对应于每个X 的Y 值要求服从正态分布;若X 、Y 都是随机变量,则要求X 、Y 服从双变量正态分布。
直线相关分析只适用于双变量正态分布资料。
(2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。
(3)两个系数的意义不同。
r 说明具有直线关系的两变量间相互关系的方向与密切程度,b 表示X 每变化一个单位所导致Y 的平均变化量。
(4)两个系数的取值范围不同:-1≤r ≤1,∞<<∞-b 。
(5)两个系数的单位不同:r 没有单位,b 有单位。
联系:
(1)对同一双变量资料,回归系数b 与相关系数r 的正负号一致。
b >0时,r >0,均表示两变量X 、Y 同向变化;b <0时,r <0,均表示两变量X 、Y 反向变化。
(2)回归系数b 与相关系数r 的假设检验等价,即对同一双变量资料,r b t t =。
由于相关系数r 的假设检验较回归系数b 的假设检验简单,故在实际应用中常以r 的假设检验代替b 的假设检验。
(3)用回归解释相关:由于决定系数2
R =SS 回 /SS 总 ,当总平方和固定时,回归平方
和的大小决定了相关的密切程度。
回归平方和越接近总平方和,则2
R 越接近1,说明引入相关的效果越好。
例如当r =0.20,n =100时,可按检验水准0.05拒绝H 0,接受H 1,认为两变量有相关关系。
但2
R =(0.20)2=0.04,表示回归平方和在总平方和中仅占4%,说明
两变量间的相关关系实际意义不大。
3. 决定系数与相关系数的意义相同吗?如果不一样,两者关系如何?
答:现将相关系数、决定系数与Y 的总变异的关系阐释如下:假如在一回归分析中,回归系数的变异数回归SS =9,而Y 的总变异数总SS =13,则
决定系数2R =回归SS / 总SS =9/14=0.642 9/1,相关系数R =0.801 8
即将决定系数表示为一比值关系,当总SS = l 时,则回归SS = 0.642 9,我们可以采用直角三角形的“勾股定理”图示决定系数与相关系数的关系,如练习图10-1所示。
练习图10-1 相关系数、决定系数与总变异的关系
三、计算题
1. 以例10-1中空气一氧化氮(NO )为因变量,风速(X 4)为自变量,采用统计软件完成如下分析:
(1)试用简单线性回归方程来描述空气中NO 浓度与风速之间的关系。
(2)对回归方程和回归系数分别进行假设检验。
(3)绘制回归直线图。
(4)根据以上的计算结果,进一步求其总体回归系数的95%置信区间。
(5)风速为1.50 m/s时,分别计算个体Y值的95%容许区间和Y的总体均数的95%置信区间,并说明两者的意义。
解:运用SPSS进行处理,主要分析结果如下:
(1)简单线性回归方程、假设检验结果及总体回归系数的95%置信区间如下:Coefficients(a)
(2)方差分析结果:
ANOVA(b)
(3)回归直线如练习图10-2。
练习图10-2 回归直线图
2. 教材表10-8为本章例10-1回归分析的部分结果,依次为X、Y、Y的估计值(Yˆ)与残差(e),请以相关分析考察四者之间的关系,以回归分析考察Yˆ与X、Y与Yˆ、Y与-与X之间的关系,并予以解释。
Yˆ
-、Y
Y
Yˆ
教材表10-8 案例分析中回归分析的部分结果
X Y YˆY
-X Y YˆY
Yˆ
-
Yˆ
Yˆ
-X Y YˆY
1.300.070.070 7-0.004 7 1.200.100.054 80.045 2 1.120.040.041 5-0.002 5 1.440.080.093 5-0.017 5 1.480.130.098 60.030 4 1.660.060.127 1-0.068 1
0.790.00-0.010 80.011 8 1.820.140.153 1-0.018 1 1.540.090.108 1-0.021 1
1.650.170.126 50.043 5 1.440.100.092 20.006 80.960.040.016 80.022 2 1.760.160.142 90.013 10.950.010.014 9-0.009 9 1.780.220.147 40.074 6 1.750.120.142 6-0.022 6 1.440.010.092 9-0.081 9 1.500.150.101 70.043 3 1.200.040.054 8-0.014 8 1.080.000.036 5-0.033 5 1.060.030.032 7-0.003 7 1.500.120.102 40.017 6 1.840.140.156 9-0.016 9 1.440.100.092 20.006 8
解:主要分析结果:
(1)四者之间的相关系数
Correlations
X
Y
Y hat
Y Y -hat
X 1 0.809
1.000 0.000 Y
0.809 1 0.809
0.586 Y hat
1.000
0.809
1
0.000
Y Y -ha
t
0.000
0.586
0.000
1
** Correlation is significant at the 0.01 level (2-tailed).
(2)四个变量间的回归系数 因变量
自变量
截距 回归系数 t
P
Y
ˆ X
-0.136 0.159 456.016 0.000 Y Y
ˆ 1.005 0.001 6.457 0.000 Y
Y
Y ˆ- 0.088
0.999
3.394 0.003 Y
Y ˆ- X
0.000 014 7 0.000 010 5
0.000
1.000
Y
ˆ与X 呈完全正相关关系,回归系数t 检验结果P =0.000,表明Y ˆ的变异可由X 完全解释。
Y 与Y
ˆ的相关系数与Y 与X 的相关系数相同,表明正是由于X 的影响引起Y 的变异,Y 与Y
ˆ关系即体现了Y 与X 的变化关系。
Y 与Y
Y ˆ-体现了扣除X 的影响后,Y 与残差仍呈正相关关系。
Y
Y ˆ-与X 呈零相关关系,表明扣除了X 的影响,回归方程的残差与X 不再有相关或回归关系。
(张岩波 郝元涛)。