第八章相关与回归分析
- 格式:doc
- 大小:653.50 KB
- 文档页数:16
《应用统计学》第八章相关和回归分析相关和回归分析是统计学中常用的分析方法,用来研究变量之间的关系以及预测因变量的值。
本章将介绍相关和回归分析的原理和应用。
相关分析是研究两个或多个变量之间关系的统计方法。
通过计算相关系数来衡量变量之间的线性相关程度。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数适用于两个连续变量的相关分析,而斯皮尔曼相关系数适用于两个有序变量的相关分析。
回归分析是研究因变量与自变量之间关系的统计方法。
通过建立回归模型来预测因变量的值。
回归模型可以是线性模型、非线性模型或者多元回归模型。
线性回归模型的表达式为Y=a+bX,其中Y为因变量,X为自变量,a和b为参数。
回归分析有两个主要目的,一是预测因变量的值,二是研究自变量对因变量的影响程度和方向。
常用的回归分析方法有简单线性回归分析、多元线性回归分析和逻辑回归分析等。
相关和回归分析在实际应用中有着广泛的应用。
在社会科学研究中,相关和回归分析可以用来研究变量之间的关系,如收入和教育水平的相关性。
在医学研究中,相关和回归分析可以用来探索疾病与一些特定因素之间的关系,如高血压和体重的相关性。
在商业领域中,相关和回归分析可以用来分析销售量与广告投资的关系,预测未来的销售量。
需要注意的是,相关和回归分析只是描述性分析方法,并不能确定因果关系。
除了变量之间的线性关系,还可能存在其他非线性的关系。
此外,相关和回归分析只能用于连续变量的分析,不能用于分类型变量的分析。
在进行相关和回归分析时,需要注意几个问题。
首先是样本的选择和数据的收集,确保样本具有代表性,并获得准确和可靠的数据。
其次是确保数据满足相关和回归分析的假设前提。
例如,线性回归模型要求因变量与自变量之间呈线性关系,并且误差项满足正态分布和独立性。
最后是正确选择和解释统计指标,如相关系数和回归系数。
总之,相关和回归分析是应用统计学中常用的分析方法,用来研究变量之间的关系和预测因变量的值。
第八章 相关分析与回归分析习题参考答案一、名词解释函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。
相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。
这种关系不能用完全确定的函数来表示。
相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。
回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。
其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。
单相关:单相关是指仅涉及两个变量的相关关系。
复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。
正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。
负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。
非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。
取值在-1到1之间。
两个变量之间的简单样本相关系数的计算公式为:()()niix x y y r --∑二、单项选择1.B;2.D;3.D;4.C;5.A;6.D 。
三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题1、什么是相关关系?相关关系与函数关系有什么区别?答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。
统计学基础第八章相关与回归分析【教学目的】1.掌握相关系数的测定和性质2。
明确相关分析与回归分析的特点3.建立回归直线方程,掌握估计标准误差的计算【教学重点】1。
相关关系、相关分析和回归分析的概念2。
相关系数计算3.回归方程的建立和依此进行估计和预测【教学难点】1.相关分析和回归分析的区别2.相关系数的计算3。
回归系数的计算4。
估计标准误的计算【教学时数】教学学时为8课时【教学内容参考】第一节相关关系一、相关关系的含义宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。
这种现象间的相互联系、相互制约的关系即为相关关系。
相关关系因其依存程度的不同而表现出相关程度的差别。
有些现象间存在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。
这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种完全相关关系.有些现象间的依存关系则没有那么严格。
当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。
一般来说,身高越高,体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响.社会经济现象中大多存在这种非确定的相关关系。
在统计学中,这些在社会经济现象之间普遍存在的数量依存关系,都成为相关关系。
在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。
二、相关关系的特点1。
现象之间确实存在数量上的依存关系如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化.在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。
例如,把身高作为自变量,则体重就是因变量.2。
现象之间数量上的关系是不确定的相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。
第八章相关与回归分析客观现象总是普遍联系和相互依存的,分析认识变量之间的依存关系是统计学研究的重要内容之一。
在方差分析中我们讨论了分类型变量与数值型变量的关系,本章将讨论数值型变量之间的关系,主要内容是:测度数值型变量之间关系紧密程度的相关系数及其检验、揭示变量间依存关系的回归方程的建立及其显著性检验。
第一节相关分析与回归分析概述一、变量间的关系客观现象总是相互联系和相互依存的,客观现象之间的数量联系大致分为两种:函数关系和相关关系。
当一个变量或几个变量取一定的值时,另一个变量有确定的值与之对应,我们称这种关系为函数关系。
例如,在价格P一定的情况下,某种商品的销售收入Y与该商品的销售量X 之间的关系可用Y=PX表示,当销售量取一定的值时,销售收入有确定的值与之对应,这就是函数关系。
一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。
当一个变量或几个变量取一定的值时,与之对应的另一个变量的取值不确定,但它仍然按照某种规律在一定的范围内变化,这种变量之间非严格的依存关系我们称为相关关系,记为()ε+y,其中x为自变量,y为因变量。
例如:人们的收入和消费、劳动生产率与=xf工资水平、商品流通规模与流通费用、企业的产值与投入的原材料、劳动力、资金等之间都存在着相互依存关系,但却不是绝对的唯一确定关系,它们都属于相关关系。
函数关系与相关关系之间并无严格的界限。
由于有测量误差及各种随机因素的干扰,有函数关系的变量间可能表现为相关关系;在对变量之间的联系有深刻了解之后,相关关系可用函数关系来描述。
本章要讨论的是现象之间的相关关系。
二、相关关系的种类从不同的角度出发,相关关系可做如下的分类。
(一)根据自变量的多少可以分为单相关、复相关和偏相关两个变量之间的相关关系,称为单相关;两个以上变量的相关关系称为复相关。
例如,企业的产值与投入的原材料、劳动力、资金等变量之间的关系就是一种复相关。
在复相关关系讨论中,若我们仅讨论结果变量与某一个因素变量之间的关系而假定其它变量不变时,称关于这两个因素之间的相关关系为偏相关。
在本章,我们只讨论单相关的有关问题。
(二)根据相关关系的形态不同分为线性相关和非线性相关当一个变量X发生变动,另一个变量Y随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关称为线性相关或直线相关。
例如,在一定的范围内,人均消费水平与人均收入水平之间通常表现为直线相关关系。
若变量之间的相关关系呈曲线形式则称为非线性(或曲线)相关。
例如:从人的生命全过程看,年龄与医疗费支出呈非线性相关关系。
在本章我们只讨论线性相关的问题。
(三)根据根据变量间变化方向的不同可分为正相关和负相关若变量之间的变化方向一致,即一个变量的值增加(或减少),另一个变量的值也随之增加(或减少),这样的关系称为正相关。
例如工业总产值和利税额、家庭消费支出和收入等即为正相关。
若变量之间变化方向相反,即一个变量的数值增大(或减小),另一个变量的数值却减小(或增大),这样的关系称为负相关。
例如劳动生产率提高则产品成本降低、产品成本降低则企业利润增加等。
三、相关分析与回归分析的内容相关分析和回归分析是研究相关关系的两种基本方法。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
相关分析和回归分析有密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。
相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只能当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。
(一)相关分析与回归分析的内容相关分析和回归分析是研究相关关系的两种基本方法。
相关分析要讨论的内容是:判断现象之间是否存在相关关系;如果存在相关关系,则要进一步判断相关关系的种类和关系的紧密程度;关系的紧密程度是用相关系数来刻划,但往往我们是用样本数据计算相关系数,这种相关系数是否能真实地反映总体的相关程度,还必须进行显著性检验。
回归分析要研究的内容是:在相关分析的基础上,建立反映变量间依存关系的数学模型即回归方程;对回归方程进行显著性检验。
由于我们是在定性判断的基础上选择的回归模型,并且是根据样本资料建立的回归方程,可能定性判断不恰当,可能样本数据的随机性影响回归方程的真实性和可靠性,因此必须对回归方程进行显著性检验。
(二)相关分析与回归分析的区别与联系回归分析和相关分析相互联系又存在明显的区别,其区别主要表现在:1.分析的内容不同。
相关分析的主要研究内容是现象之间有无相关关系及关系的密切程度,而回归分析主要研究现象之间数量关系的依存形式,即建立回归方程,并用方程对现象进行预测。
2.变量的地位不同。
进行相关分析时,两个变量的地位是平等的,不必区分自变量和因变量,而回归分析则一定要明确哪个是自变量,哪个是因变量。
3.变量的性质不同。
相关分析中所有变量均为随机变量,而回归分析中因变量为随机变量,自变量可以为确定性变量,也可以是随机变量。
相关分析和回归分析之间的联系表现为,它们的研究对象相同,都是对具有相关关系的现象进行分析研究,而且在应用时常常相互补充。
相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象间数量变化的相关程度,只有在变量间存在较高的相关关系时,进行回归分析才有意义。
由于以上原因,一些统计学书籍将相关分析和回归分析称为相关关系分析或相关分析。
以下我们将逐一讨论简单的线性相关和一元线性回归分析的基本理论和方法。
第二节相关分析一、相关关系的描述相关分析是确定变量之间是否存在相关关系以及何如描述这种关系的强度。
相关分析是根据已有的数据确定变量之间是否存在相关关系以及何如描述这种关系的强度。
相关分析的方法主要分为定性判断和定量分析两类。
定性判断就是从定性角度分析和判断现象之间是否具有相关关系以及相关关系的类型。
这种分析和判断所依据的是对现象的了解和对有关的理论知识、专业知识的掌握,以及一定的社会实践经验。
定量分析就是在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度。
(一)相关表相关表是一种反映变量相关关系的统计表。
将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。
【例8-1】根据表8-1的现金收入与现金支出数据,我们选择10个省份的人均现金支出和现金收入资料,编制的相关表如表8-2:表8-2 10个省现金支出和现金收入的相关表亿元现金收入和支出的依存关系,我们可以绘制相关图。
(二)相关图以变量X为横轴,Y为纵轴建立的直角坐标系,将相关表上每一对应的具体数值),x(y 用散点标出来而形成的图称为相关图称或散点图。
利用散点图,可以直观、形象地表现变量之间的相互关系。
图8-1是表明现象间不同关系的散点图。
图8-1 不同关系形态的散点图【例8-2】根据表8-1的资料绘制散点图。
解:用Excel 绘制的散点图如下(具体操作步骤参见第三章统计数据的整理)。
图8-2 2006年1季度现金支出与现金收入散点图从散点图可以看出,现金收入和现金支出之间存在正的线性相关关系。
二、相关系数从散点图可以直观地判断两个变量之间有无相关关系,并对变量间的关系类型有大致的了解。
但散点图不能准确反映变量之间的关系密切程度。
当变量之间呈线性关系时,其相关关系的密切程度可用相关系数来刻划。
(一)相关系数的计算相关系数是一个相对指标,若相关系数是根据总体全部数据计算得出,称为总体相关系数,记做ρ;若是根据样本数据计算得到的,则称为样本相关系数,记做r 。
样本相关系数的计算公式为:∑∑∑-⋅---==22)()())(()()(),(y y x x y y x x y D x D y x Cov r (8.1)公式中的),(y x Cov 为x 和y 的协方差,)(x D 为x 的方差,)(y D 为y的方差。
公式(A )正的线性相关 (B )负的线性相关(C )曲线相关 (D )不相关(8.1)可以变形为以下计算公式: ()()2222∑∑∑∑∑∑∑-⋅--=y y n x x n yx xy n r (8.2)【例8-3】根据表8-1的资料计算相关系数。
解:相关系数r 的计算复杂,一般用Excel 计算,其具体步骤如下:第1步:顺次点击【工具】、【数据分析】、【相关系数】、【确定】;第2步:填写相关系数对话框。
在【输入区域】引用输入的数据,本例为B1:C32;勾选【标志位于第一行】;在【输出区域】中引用一个单元格,本例为D1。
见图8-5。
图8-3 填写相关系数对话框第3步:点击【确定】,得到相关系数的结果,见表8-3。
表8-3 2006年1季度现金收入和现金支出相关系数表支出 收入 支出1 0.963744 收入 0.963744 1(二)相关系数r 的性质:为了充分认识和运用相关系数r ,对其性质做如下总结。
1.相关系数r 的取值范围在-1和+1之间,即:–1≤r ≤1。
2.若r 为正,则两变量呈正线性相关;若r 为负,则两变量呈负线性相关。
3.如果1=||r ,则表示两个变量完全线性相关,即为函数关系。
如果0=r ,则表示两个变量没有线性关系。
应该注意:0=r 只能说明两个变量没有线性关系,而不能说明两个变量没有关系,因为有可能它们之间存在曲线相关关系。
4.相关系数r 的绝对值越接近于1,表示相关程度越强;越接近于0,表示相关程度越弱。
用相关系数判断两变量线性相关关系密切程度的具体标准为:300.||<≤r ,称为微弱相关;5030.||.<≤r ,称为低度相关;8050.||.<≤r ,称为显著相关;180<≤||.r ,称为高度相关。
必须指出,以上关于相关系数的性质和判断变量关系密切程度的标准必须建立在对相关系数的显著性检验基础之上。
三、相关系数的显著性检验一般情况下,总体相关系数ρ是未知的,通常根据样本相关系数r 来近似估计ρ。
由于r 是根据样本计算得到的,它受到抽样误差的影响,因此对于不同的样本,计算出的r 也不同,因此r 是一个随机变量。
能否根据样本的相关系数说明总体的相关程度?这就需要考察r 的可靠程度,也就是要对r 进行显著性检验。
为此,我们必须认识r 的抽样分布。
(一)r 的抽样分布为了对样本相关系数r 的显著性进行检验,需要参考r 的抽样分布。
当样本数据来自正态总体,且样本容量n 很大时,r 的抽样分布近似服从正态分布。
当总体相关系数ρ的绝对值很小甚至等于0时,这种趋势是明显的,而当ρ值远离0且样本容量不够大时,r 的抽样分布会呈现出一定的偏态。