10. 相关与回归分析
- 格式:doc
- 大小:452.00 KB
- 文档页数:13
相关分析和回归分析客观事物之间的关系分为函数关系和统计关系,函数关系也就是我们通常所说的一一对应的关系,而统计关系是指两事物之间的一种非一一对应的关系,即当一个变量x取一定值时,另一变量y无法依确定的函数取唯一确定的值。
事物之间的统计关系是普遍存在,且有的关系强,有的关系弱。
相关分析和回归分析都是以不同方式测度事物之间统计关系的有效工具。
实际应用中。
这两种分析方法经常互相结合渗透。
一、相关分析相关分析通过图形和数值两种方式,能够有效的揭示事物之间统计关系的强弱程度。
1、散点图能直观的显示数据之间的相关关系,可以利用曲线将点散布的主要轮廓描述出来,使数据的主要特征更突出。
如下图:研究04年四层金指的报废面积与入仓面积的相关关系上图看出:数据集中分布在直线周围,说明是高度正相关的。
2、相关系数散点图能直观的展现变量之间的统计关系,但并不精确。
相关系数以数值的方式精确的反映了两个变量间线形相关的强弱程度。
➢ R=yyxx xy L L L ,其中xx L =∑=--ni ix x12)(,∑=----=ni i i xy y y x x L 1))((,∑=--=ni i yy y y L 12)(.➢ 相关系数R 的取值在-1~+1之间。
➢ R>0表示两变量之间存在正的线性相关关系;R<0表示两变量之间存在负的线性相关关系。
➢ R=1表示两变量存在完全正相关;R=-1表示两变量存在完全负相关;R=0表示两变量不存在线性相关关系。
➢ |R|>0.8表示两变量之间具有较强的线性关系;|R|<0.3表示两变量之间的线性相关关系较弱。
上例中,R=0.974,说明报废面积与入仓面积之间是强正相关的。
二、一元线性回归在实际应用中,我们常常需要考虑某一现象与影响它的最主要因素的关系,回归分析不仅可以揭示变量x 对变量y 的影响大小,还可以由回归方程进行预测和控制。
一元线性回归是最简单的回归模型。
第十一章 相关与回归分析一、填空题1. 社会经济现象间的关系分为两种类型:一种是 ,另一种是 。
2. 在相关关系中,当给定一个X 值时,Y 值不是唯一确定的,而可能同时出现几个不同的数值并在一定范围内围绕其 上下波动。
3. 按相关的程度可分为 、 和 。
4. 相关系数的取值在 之间,其绝对值在 之间属于中度相关。
5. 回归分析就是根据变量X 与Y 之间的关系,建立两个变量之间的直线关系近似表达式进行 和 的。
6. 直线回归中总变差等于 和 之和。
7. 回归系数b 与相关系数r 的符号应 ,当b 大于0时,表明两变量是 。
8. 在相关分析中,要求两个变量都是随机的,而在回归分析中,要求自变量是 ,因变量是 。
9. 设变量x 与y 之间的相关系数r = - 0.92, 这说明这两个变量之间存在着 相关。
10. 在线性回归分析中,只涉及一个自变量的回归称为 ;涉及多个自变量的回归称为 。
二、 判断题1. 如果变量x 与y 之间的相关系数r = 0,表明这两个变量之间不存在任何相关关系。
( )2. 设两个变量的一元线性回归方程为c Y = -10 + 0.5x,由此可以判定这两个变量之间存在着负相关关系。
( )3. 在其他条件不变的情况下,可决系数2R 越大,估计标准误差X Y S .也越大,回归直线的拟合程度就越低。
( )4. 如果回归系数为零,则相关系数必为零。
( )5. 对相关系数进行显著性检验,即检验总体相关系数ρ是否为零。
若ρ=0表示变量X 与Y 间存在线性相关关系。
( )6. 回归变差反映的是由于x 与y 之间的线性关系而引起的y 的变差。
( )7. 相关系数r 与可决系数2R 的取值范围是一致的。
( )8. 相关关系侧重于考察变量之间的关系密切程度,回归分析则侧重于考察变量之间的数量变化规律。
( )9. 我国的GDP 与印度的人口之间的相关系数大于0.8,因此两者具有高度正相关关系。
( )10. 拟合回归直线的目的在于用直线上的点来代表所有的相关点。
回归分析与相关分析联系区别
一、定义:
1.回归分析:回归分析是一种用于研究变量之间关系的统计方法,旨
在通过一个或多个自变量与一个因变量的关系来预测和解释因变量的变化。
2.相关分析:相关分析是一种用于度量两个变量之间线性关系的统计
方法,通过计算相关系数来判断变量之间的相互关联程度。
二、应用领域:
1.回归分析:回归分析广泛应用于社会科学、经济学、市场营销等领域,常用于预测、解释和因果推断等研究中,也可以用于探索性数据分析
和模型诊断。
2.相关分析:相关分析适用于自然科学、医学、环境科学等领域,可
用于分析变量之间的关联,评估变量之间的相关性以及预测未来的变化趋势。
三、应用步骤:
1.回归分析的应用步骤通常包括:确定研究问题、收集数据、选择适
当的回归模型、进行模型拟合和参数估计、模型诊断和解释回归结果等。
2.相关分析的应用步骤通常包括:明确研究目的、收集数据、计算相
关系数、进行假设显著性检验、解释相关结果和绘制相关图等。
四、结果解释:
1.回归分析的结果解释主要包括判断拟合度(如R-squared)、解释
变量的显著性和系数大小、诊断模型的合理性、进行预测和因果推断等。
2.相关分析的结果解释主要包括相关系数的显著性、方向(正相关或负相关)和强度(绝对值的大小),还可通过散点图等图形来展示变量之间的线性相关关系。
第5章相关分析和回归分析作业答案1.当变量x按一定数值变化时,变量y也近似地按固定数值变化,这表明变量x和变量y之间存在着( 3 )①完全相关关系②复相关关系③直线相关关系④没有相关关系2.单位产品成本与其产量的相关:单位产品成本与单位产品原材料消耗量的相关( 2 )①前者是正相关,后者是负相关②前者是负相关,后者是正相关③两者都是正相关④两者都是负相关3.相关系数r的取值范围( 2 )①-∞<r<+∞②-1≤r≤+1③-I<r<1 ④0≤r≤+14.当所有观测值都落在回归直线y=a+bx上,则x 与y之间的相关系数( 4 )①r=O.②r=1 ③r=-1 ④IrI=15.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( 1 )①前者无须确定,后者需要确定②前者需要确定,后者勿需确定③两者均需确定④两者都无需确定6.—元线性回归模型的参数有( 2 )①一个②两个③三个④三个以上7.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( 1 )①完全相关②微弱相关③无线性相关④高度相关8.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+7Ox,这意味着年劳动生产率每提高1千元时,工人工资平均( 1 )①增加70元②减少70元③增加80元④减少80元9.下面的几个式子中,错误的是( 1,3 )①y=-40-1.6x r=0.89 (说明:正相关,x前面的系数应该为正值)②y=-5-3.8x r=-0.94③y=36-2.4x r=0.96④y=-36+3.8x r=0.9810.相关系数r与回归系数b的关系可以表达为( 1 )①r=b*σx/σy ②r=b*③r=b* ④r=b*11.下列关系中,属于正相关关系的有( 1 )①合理限度内,施肥量和平均单产量之间的关系②产品产量与单位产品成本之间的关系③商品的流通费用与销售利润之间的关系.④流通费用率与商品销售量之间的关系12.直线相关分析与直线回归分析的联系表现为( 1 )①相关分析是回归分析的基础②回归分析是相关分析的基础③相关分析是回归分析的深入④相关分析与回归分析互为条件13.如果估计标准误差Sy=O,则表明( 1 )①全部观测值和回归值都相等②回归值等于Y 、③全部观测值与回归值的离差之和为零④全部观测值都落在回归直线上14.进行相关分析,要求相关的两个变量( 1 )。
10 相关与回归分析研究两个或多个变量之间的关系时,常常用到相关分析和回归分析。
本章介绍在SPSS 中进行相关分析和回归分析的计算方法。
10.1 双变量相关分析若两变量是计量资料且均服从正态分布,其相关密切程度可用Pearson积差相关系数(简单相关系数)描述,而等级资料或不满足正态性的计量资料相关性研究是使用Spearman 和Kendall相关系数。
在SPSS中,先对两变量作正态性检验,再选择菜单Analyze→Correlate (相关)→Bivariate(两两相关),进行相关分析。
例10-1某研究所研究某种代乳粉的营养价值时,用10只大白鼠作试验,得到大白鼠进食量(g)和增加体重(g)的数据如表10-1,试研究进食量与增加体重的相关关系。
表10-1 大白鼠进食量与增加体重编号 1 2 3 4 5 6 7 8 9 10进食量820 780 720 867 690 787 934 679 639 820增重165 158 130 180 134 167 186 145 120 158 解:首先建立配对格式数据文件如图10-1。
经检验两变量均服从正态分布;选择菜单Analyze→Correlate→Bivariate,弹出Bivariate Correlations对话框,见图10-2;将左边框中的变量x、y送入Variables框中;单击OK。
图10-1 例10-1数据文件图10-2 Bivariate Correlations对话框图10-2对话框中,Correlation Coefficients(相关系数)框中,Pearson:皮尔逊积差相关系数,系统默认;Kendall’s tau-b:肯德尔等级相关系数;Spearman:斯皮尔曼等级相关系数。
若选择Flag significance Correlations(标记显著性),则用“**”、“*”分别表示P≤0.01、0.01<P≤0.05。
主要结果见图10-3,Pearson相关系数r=0.940、P=0.000<0.001,可以认为大白鼠进食量与增加体重呈正向直线相关。
图10-3 例10-1计算结果图10-4 例10-2计算结果例10-2测得2~7岁急性白血病患儿的血小板数x与出血症状y资料如表10-2所示。
研究血小板数x与出血症状y之间有无联系。
表10-2 血小板数x与出血症状y资料x 54270 13790 16500 31050 42600 12160 74240 106400 126170 129000 143880 200400 y +++++-+++++----+++-解y是等级资料,将等级-、+、++、+++分别用0、1、2、3表示,将表10-2中数据建立成2列12行的数据文件。
仿例10-1操作,在图10-2所示Bivariate Correlations 对话框中选中Kendall’s tau-b和Spearman。
运行结果见图10-4。
Kendall相关系数=-0.377、P=0.117>0.05,Spearman相关系数=-0.422、P=0.172>0.05,不能认为2~7岁急性白血病患儿的血小板数与出血症状之间有直线关系。
10.2 偏相关分析多变量相关分析时,有时需要在剔除其它变量影响的情况下,研究两个变量之间的相关关系,这就是偏相关分析。
经偏相关分析计算出的相关系数为偏相关系数。
偏相关系数在原始数据是随机的多元正态分布时才是有效的,在计算偏相关系数前应该先检验各变量的正态性。
偏相关分析不分自变量和因变量。
在SPSS中选择菜单Analyze →Correlate→Partial(偏相关)命令,可以完成偏相关分析的计算。
例10-310名17岁女生的体重x1(kg)、胸围x2(cm)、胸围的呼吸差x3(cm)、肺活量y(ml)的数据如表10-3所示。
试分析y与x1、x2、x3的关系。
表10-3 女中学生的数据编号 1 2 3 4 5 6 7 8 9 10x135 40 40 42 37 45 43 37 44 42x269 74 64 74 72 68 78 66 70 65x30.7 2.5 2 3 1.1 1.5 4.3 2 3.2 3y 1600 2600 2100 2650 2400 2200 2750 1600 2750 2500解将表10-3中数据建立成10行4列的数据文件,如图10-5。
经检验四个变量均服从正态分布;选择菜单Analyze→Correlate→Partial(偏相关),弹出Partial Correlations对话框,见图10-6;将计算偏相关系数的变量(y、x3)送入Variables (检验变量)框中、扣除影响的变量(x1、x2)送入Controlling(控制变量)框中;单击Options按钮,选中Zero-order correlations(零阶相关系数),则可以输出简单相关系数,单击Continue;单击OK。
图10-5 例10-3数据文件图10-6 Partial Correlations对话框图10-7 例10-3计算结果输出结果见图10-7。
y与x3的简单相关系数为0.729,在剔除x1、x2影响后,y与x3的偏相关系数是0.321。
再选择Partial命令,这次将y、x2送入Variables框,x1、x3送入Controlling框,单击Options按钮,取消Zero-order correlations。
可得剔除x1、x3影响后y与x2的偏相关系数为0.558,y与x2的简单相关系数为0.586(见图10-7)。
类似计算,剔除x2、x3影响后y与x1的偏相关系数为0.565,y 与x 1简单相关系数为0.695。
在3个简单相关系数中y 与x 3的最大(0.729),而剔除其它变量的影响后,在3个偏相关系数中y 与x 3的最小(0.321),y 与x 1、y 与x 2的偏相关系数接近(0.565、0.558),说明y 与x 1、x 2的相关关系接近,y 与x 3的相关关系最不密切。
10.3 一元线性回归一元线性回归分析研究一个自变量和一个因变量之间是否存在线性关系以及存在什么样的线性关系,建立一元线性回归方程:ˆya bx =+。
在SPSS 中选择菜单Analyze →Regression (回归)→Linear (线性回归)命令可以完成一元线性回归的计算。
例10-4 对例10-1中大白鼠的进食量与增加体重进行回归分析。
解:数据文件同例10-1。
选择菜单Analyze →Regression →Linear ,弹出Linear Regression (线性回归)主对话框,将因变量y 送入Dependent (因变量)框中,自变量x 送入Independent (s )(自变量)框中,如图10-8所示;单击OK 。
图10-8 Linear Regression 主对话框主要输出结果见图10-9、10、11。
图10-9输出回归模型摘要,相关系数r =0.940,决定系数r 2=0.883,调整的决定系数r 2=0.868,剩余标准差=7.879。
图10-10输出回归方程的方差分析,F =60.197,P =0.000<0.001,回归方程有高度统计学意义。
图10-11输出回归方程的参数估计,回归方程的常数项(Constant )是-17.357,回归方程的斜率(回归系数)是0.222,据此可以写出回归方程:ˆ17.3570.222yx =-+。
表中还用t 检验对截距和回归系数进行了检验,其中对截距的检验中,t =-0.780,P =0.458,不能拒绝“截距为0”的原假设。
对回归系数的检验中,t =7.759,P =0.000,拒绝“回归系数为0”的原假设,t =7.759的平方就等于方差分析中的F 值,在一元线性回归中,对回归系数的t 检验、方差分析以及例10-1中的相关性检验完全等价。
表中还给出标准化的回归系数(StandardizedCoefficients )为0.940。
图10-9 例10-4回归模型摘要图10-10 例10-4回归方程的方差分析图10-11 例10-4回归方程的参数估计图10-8所示Linear Regression 主对话框其他选项的说明:单击Statistics 按钮,弹出如图10-12所示的线性回归统计量对话框,可以选择输出的统计量。
单击Save 按钮,弹出如图10-13所示的线性回归保存对话框,可以选择要保存为新变量的统计量。
单击Plots 按钮,弹出线性回归绘图对话框,可指定绘制残差图、正态概率图等。
单击Options 按钮,弹出的线性回归选项对话框将在后面的逐步回归中讲解。
图10-12 线性回归统计对话框图10-13 线性回归保存对话框10.4 多元线性回归多元线性回归分析研究多个自变量和一个因变量之间是否存在线性关系以及存在什么样的线性关系,建立多元线性回归方程:01122ˆm m y b b x b x b x =++++。
在SPSS 中选择菜单Analyze →Regression →Linear (线性回归)可以完成多元线性回归的计算。
例10-5 对例10-3中体重x 1、胸围x 2、胸围的呼吸差x 3、肺活量y 进行回归分析。
解:数据文件同例10-3。
选择菜单Analyze →Regression →Linear (线性回归),弹出如图10-8所示的Linear Regression 主对话框,将因变量y 送入Dependent (因变量)框中,自变量x 1、x 2、x 3均送入Independent (s )(自变量)框中;单击OK 。
输出结果的格式和例10-4类似。
由回归方程的方差分析,F =5.617,P =0.035<0.05,拒绝0123:0H βββ===,所以1β、2β、3β不全为0,拟合的回归方程有统计学意义。
由图10-14知,0β、1β、2β、3β的估计值 b 0、b 1、b 2、b 3分别为-3035.536、60.932、37.808、101.379,据此可以写出回归方程:123ˆ3035.53660.93237.808101.379yx x x =-+++。
由图10-14中回归系数的t 检验,P 均>0.05,不能否定i β(i =1、2、3)为0的假设,这与方差分析的结果有出入,所以要对自变量作进一步的筛选(见下一节逐步回归)。
图10-14 例10-5回归方程的参数估计10.5逐步回归多元线性回归方程中,可能有的自变量对因变量的影响很强,而有的影响很弱,甚至完全没有影响,这就需要对自变量进行筛选,尽可能将回归效果显著的自变量选入回归方程,将作用不显著的自变量剔除在外。