介绍SPSS中逐步回归分析的应用
- 格式:doc
- 大小:782.50 KB
- 文档页数:15
第9章SPSS线性回归分析1.线性回归分析概述线性回归分析是一种广泛应用于统计学和数据分析领域的方法,它用于研究自变量与因变量之间的线性关系。
线性回归模型基于一条直线的假设,通过最小化残差平方和来估计各个回归系数,并利用这些系数进行预测和推断。
SPSS是一款强大的统计分析软件,提供了丰富的功能和工具,使得线性回归分析变得更加简单和高效。
2.数据准备在进行线性回归分析之前,需要准备好相关的数据。
SPSS可以导入各种类型的数据文件,包括Excel、CSV等格式。
在导入数据之后,可以对数据进行预处理,如缺失值处理、异常值处理等。
3.构建线性回归模型在SPSS中,构建线性回归模型非常简单。
首先选择“回归”菜单下的“线性”选项,然后将所需要的自变量和因变量选择到相应的框中。
SPSS还提供了多种方法来选择自变量,如逐步回归、逐步回归法等。
选择好自变量之后,点击“确定”按钮,即可得到回归模型结果。
4.分析回归模型在得到回归模型结果之后,需要对模型进行分析。
SPSS提供了丰富的结果输出,包括参数估计值、显著性检验、模型拟合度等。
需要注意的是,线性回归模型的可靠性需要通过一系列统计检验进行验证,如F统计量、t统计量、残差分析等。
5.模型诊断6.预测与推断线性回归模型可以用于预测和推断,SPSS也提供了相应的功能。
在SPSS中可以输入自变量的数值,从而得到相应的因变量预测值。
此外,SPSS还可以进行参数估计的推断,包括置信区间和假设检验等。
7.扩展与应用除了简单的线性回归模型,SPSS还支持复杂的线性回归模型,如多重回归分析、多元回归分析等。
此外,SPSS还可以进行模型的改进和优化,如加入交互项、非线性变换等。
这些扩展功能在实际应用中非常有用,可以提高模型的解释力和预测能力。
总结:本章介绍了SPSS中的线性回归分析方法,包括模型构建、结果分析、模型诊断、预测与推断等。
SPSS提供了丰富的功能和工具,使得线性回归分析变得更加简单和高效。
SPSS回归分析SPSS(统计包统计软件,Statistical Package for the Social Sciences)是一种强大的统计分析软件,广泛应用于各个领域的数据分析。
在SPSS中,回归分析是最常用的方法之一,用于研究和预测变量之间的关系。
接下来,我将详细介绍SPSS回归分析的步骤和意义。
一、回归分析的定义和意义回归分析是一种对于因变量和自变量之间关系的统计方法,通过建立一个回归方程,可以对未来的数据进行预测和预估。
在实际应用中,回归分析广泛应用于经济学、社会科学、医学、市场营销等领域,帮助研究人员发现变量之间的关联、预测和解释未来的趋势。
二、SPSS回归分析的步骤1. 导入数据:首先,需要将需要进行回归分析的数据导入SPSS软件中。
数据可以以Excel、CSV等格式准备好,然后使用SPSS的数据导入功能将数据导入软件。
2. 变量选择:选择需要作为自变量和因变量的变量。
自变量是被用来预测或解释因变量的变量,而因变量是我们希望研究或预测的变量。
可以通过点击"Variable View"选项卡来定义变量的属性。
3. 回归分析:选择菜单栏中的"Analyze" -> "Regression" -> "Linear"。
然后将因变量和自变量添加到正确的框中。
4.回归模型选择:选择回归方法和模型。
SPSS提供了多种回归方法,通常使用最小二乘法进行回归分析。
然后,选择要放入回归模型的自变量。
可以进行逐步回归或者全模型回归。
6.残差分析:通过检查残差(因变量和回归方程预测值之间的差异)来评估回归模型的拟合程度。
可以使用SPSS的统计模块来生成残差,并进行残差分析。
7.结果解释:最后,对回归结果进行解释,并提出对于研究问题的结论。
要注意的是,回归分析只能描述变量之间的关系,不能说明因果关系。
因此,在解释回归结果时要慎重。
SPSS在教师考评中的应用——回归分析现行教师考评指标体系,没有反映出教师劳动的本质特征及其运动规律,还存在定性指标多,定量指标少,考评指标内涵缺乏,考评指标多而乱的问题.所以必须抓住众多指标中,起关键作用的指标,以遵循全面考评与重点考评相结合等原则。
采用回归分析的方法,借用SPPS 统计软件对各种指标进行分析。
标签:教师考评考评指标回归分析一、当前教师考评的现状及存在的问题自1978年我国恢复教师考评工作以来,坚持对教师年度和任期教学工作考评就日益显得重要。
而为了做好对教师的考评工作,自上世纪80年代中,后期,全国各省,市,自治区先后都制定出了相关的考核指标体系,不少学校还在次基础上,结合自身工作实际研究制定了本校教师教学工作考评指标体系。
所有这些,对加强中小学教师队伍建设特别是对规范中小学教师日常工作管理,促进教师综合素质的提高,无疑发挥了重要的作用。
但据对诸多中小学校教师开展日常教学工作考评实践情况的调查研究来看,结果发现:现行的中小学及教师考评指标体系仍存在诸多亟待解决的问题。
其主要表现:第一,从总体上看,没有反映出中小学教师工作的本质特征及其客观规律。
教师劳动明显具有劳动经济学中揭示的“潜在”,“流动”和“凝结”三种表现形态的本质特征。
这也就是说,若想对教师日常工作情况做出真实的考评,必须同时考评其综合素质,工作投入和工作绩效三个方面。
并依据其建构起相应的考评指标体系,都是模仿国家公务员按德,能,勤,绩四个方面来建构的,因此无法反映出中小学教师工作的本质特征,继而也就无法对教师工作做出最合理,科学的考评。
第二,定性指标多,定量指标少。
以我省中小学教师考评指标体系为例,除“出勤率”和“工量”为定量指标外,其余几乎都是定性描述性指标。
其结果是不仅考评实践中可操作性差,而且考评的区分度很低。
第三,考评指标内涵模糊甚至缺失。
如我省中小学教师考评指标体系,除一,二级考评指标外,对二级考评指标的任何一项的内涵界定都没有。
《数据统计分析软件SPSS的应用(五)——相关分析与回归分析》篇一数据统计分析软件SPSS的应用(五)——相关分析与回归分析一、引言在当今的大数据时代,数据统计分析已成为科研、商业决策和日常生活中的重要工具。
SPSS(Statistical Package for the Social Sciences)作为一款广泛使用的数据统计分析软件,其强大的功能为各类数据分析提供了有力支持。
本文将重点介绍SPSS中相关分析与回归分析的应用,探讨其在实际研究中的应用价值。
二、相关分析的应用1. 相关分析的基本概念相关分析是研究两个或多个变量之间关系密切程度的一种统计方法。
SPSS提供了多种相关系数计算方法,如皮尔逊相关系数、斯皮尔曼等级相关系数等,以帮助研究者了解变量间的关系强度和方向。
2. 相关分析在实证研究中的应用以市场营销领域为例,研究者可以通过SPSS计算消费者购买行为与产品价格、广告投入等变量之间的相关系数,从而了解各因素对消费者购买行为的影响程度。
这种分析方法有助于企业制定有效的营销策略。
三、回归分析的应用1. 回归分析的基本概念回归分析是研究一个或多个自变量与因变量之间关系的一种预测性统计方法。
通过建立回归模型,可以分析自变量对因变量的影响程度,并进行预测。
SPSS提供了多种回归分析方法,如简单线性回归、多元线性回归等。
2. 回归分析在实证研究中的应用以医学领域为例,研究者可以通过SPSS建立药物剂量与患者恢复时间之间的回归模型,分析药物剂量对患者恢复时间的影响程度,为临床治疗提供参考依据。
此外,回归分析还可以用于研究其他领域的复杂关系,如教育、经济等。
四、案例分析以某电商平台销售数据为例,通过SPSS进行相关分析与回归分析。
首先,计算商品价格、商品评价数量、商品销量等变量之间的皮尔逊相关系数,了解各因素之间的关联程度。
然后,建立商品价格与商品销量的多元线性回归模型,分析价格对销量的影响程度。
回归分析是统计学中一种重要的分析方法,用于研究自变量与因变量之间的关系。
在实际的数据分析中,常用的统计软件能够帮助研究人员更轻松地进行回归分析,包括SPSS、R、Python等。
本文将介绍这些常用的统计软件在回归分析中的应用。
SPSS是一款非常经典的统计软件,它提供了丰富的数据分析功能,包括回归分析。
在SPSS中,进行回归分析非常简单,只需要将自变量和因变量输入到软件中,然后选择回归分析模块,即可得到回归方程和相关的统计结果。
此外,SPSS还提供了对结果的可视化展示,包括回归系数的显著性检验、残差分析等,能够帮助研究人员更好地理解回归分析的结果。
R是一种开源的统计软件,它在科研领域中应用非常广泛。
R中有丰富的回归分析包,例如lm、glm等,能够满足不同类型的回归分析需求。
通过R进行回归分析,研究人员可以自定义分析流程,灵活地选择模型和参数,实现个性化的分析。
此外,R还提供了丰富的数据可视化功能,能够帮助研究人员直观地展示回归分析的结果。
Python是一种通用的编程语言,它也有丰富的统计分析库,如pandas、statsmodels等。
通过Python进行回归分析,研究人员可以利用编程的灵活性,构建复杂的回归模型,进行深入的数据处理和分析。
同时,Python还可以与其他领域的数据处理和机器学习工具结合,实现更加复杂的数据分析任务。
除了上述几种常用的统计软件,还有其他一些工具也可以用于回归分析,如Excel、Matlab等。
这些工具各有特点,能够满足不同研究人员的需求。
在选择统计软件时,研究人员需要根据自己的研究目的、数据类型和分析需求进行选择,以便更好地进行回归分析。
在使用统计软件进行回归分析时,研究人员需要注意数据的质量和分析方法的选择。
首先,需要对数据进行清洗和预处理,排除异常值和缺失值,以保证分析的准确性。
其次,需要选择合适的回归模型,根据研究问题和数据特点选择线性回归、Logistic回归等不同类型的模型。
如何使用统计软件SPSS进行回归分析一、本文概述在当今的数据分析领域,回归分析已成为了一种重要的统计方法,广泛应用于社会科学、商业、医学等多个领域。
SPSS作为一款功能强大的统计软件,为用户提供了进行回归分析的便捷工具。
本文将详细介绍如何使用SPSS进行回归分析,包括回归分析的基本原理、SPSS 中回归分析的操作步骤、结果解读以及常见问题的解决方法。
通过本文的学习,读者将能够熟练掌握SPSS进行回归分析的方法和技巧,提高数据分析的能力,更好地应用回归分析解决实际问题。
二、SPSS软件基础SPSS(Statistical Package for the Social Sciences,社会科学统计软件包)是一款广泛应用于社会科学领域的数据分析软件,具有强大的数据处理、统计分析、图表制作等功能。
对于回归分析,SPSS 提供了多种方法,如线性回归、曲线估计、逻辑回归等,可以满足用户的不同需求。
在使用SPSS进行回归分析之前,用户需要对其基本操作有一定的了解。
打开SPSS软件后,用户需要熟悉其界面布局,包括菜单栏、工具栏、数据视图和变量视图等。
在数据视图中,用户可以输入或导入需要分析的数据,而在变量视图中,用户可以定义和编辑变量的属性,如变量名、变量类型、测量级别等。
在SPSS中进行回归分析的基本步骤如下:用户需要选择“分析”菜单中的“回归”选项,然后选择适当的回归类型,如线性回归。
接下来,用户需要指定自变量和因变量,可以选择一个或多个自变量,并将它们添加到回归模型中。
在指定变量后,用户还可以设置其他选项,如选择回归模型的类型、设置显著性水平等。
完成这些设置后,用户可以点击“确定”按钮开始回归分析。
SPSS将自动计算回归模型的系数、标准误、显著性水平等统计量,并生成相应的输出表格和图表。
用户可以根据这些结果来评估回归模型的拟合优度、预测能力以及各自变量的贡献程度。
除了基本的回归分析功能外,SPSS还提供了许多高级选项和工具,如模型诊断、变量筛选、多重共线性检测等,以帮助用户更深入地理解和分析回归模型。
用SPSS做回归分析回归分析是一种统计方法,用于研究两个或多个变量之间的关系,并预测一个或多个因变量如何随着一个或多个自变量的变化而变化。
SPSS(统计软件包的统计产品与服务)是一种流行的统计分析软件,广泛应用于研究、教育和业务领域。
要进行回归分析,首先需要确定研究中的因变量和自变量。
因变量是被研究者感兴趣的目标变量,而自变量是可能影响因变量的变量。
例如,在研究投资回报率时,投资回报率可能是因变量,而投资额、行业类型和利率可能是自变量。
在SPSS中进行回归分析的步骤如下:1.打开SPSS软件,并导入数据:首先打开SPSS软件,然后点击“打开文件”按钮导入数据文件。
确保数据文件包含因变量和自变量的值。
2.选择回归分析方法:在SPSS中,有多种类型的回归分析可供选择。
最常见的是简单线性回归和多元回归。
简单线性回归适用于只有一个自变量的情况,而多元回归适用于有多个自变量的情况。
3.设置因变量和自变量:SPSS中的回归分析工具要求用户指定因变量和自变量。
选择适当的变量,并将其移动到正确的框中。
4.运行回归分析:点击“运行”按钮开始进行回归分析。
SPSS将计算适当的统计结果,包括回归方程、相关系数、误差项等。
这些结果可以帮助解释自变量如何影响因变量。
5.解释结果:在完成回归分析后,需要解释得到的统计结果。
回归方程表示因变量与自变量之间的关系。
相关系数表示自变量和因变量之间的相关性。
误差项表示回归方程无法解释的变异。
6.进行模型诊断:完成回归分析后,还应进行模型诊断。
模型诊断包括检查模型的假设、残差的正态性、残差的方差齐性等。
SPSS提供了多种图形和统计工具,可用于评估回归模型的质量。
回归分析是一种强大的统计分析方法,可用于解释变量之间的关系,并预测因变量的值。
SPSS作为一种广泛使用的统计软件,可用于执行回归分析,并提供了丰富的功能和工具,可帮助研究者更好地理解和解释数据。
通过了解回归分析的步骤和SPSS的基本操作,可以更好地利用这种方法来分析数据。
逐步回归分析逐步回归分析研究X(自变量,通常为量数据)对Y(因变量,定量数据)的影响关系情况,X可以为多个,但并非所有X均会对Y产生影响;当X个数很多时,可以让系统自动识别出有影响的X;这一自动识别分析方法则称为逐步回归分析;如果全部X均没有显著性,此时系统默认返回回归分析结果分析步骤共为四步,分别是:第一步:首先对模型情况进行分析首先分析最终余下的X情况;以及被模型自动排除在外的X; 接着对模型拟合情况(比如R平方为,则说明所有余下X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性).第二步:分析X的显著性模型余下的X一定具有显著性;具体分析X的影响关系情况即可.第三步:判断X对Y的影响关系方向回归系数B值大于0说明正向影响,反之负向影响.第四步:其它比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小)分析项逐步回归分析说明网购满意度,重复购买意愿网购满意度20项;其中具体那几项会影响到样本重复购买意愿20项过多,让软件自动删除掉没有影响的项,余下有影响的项分析结果表格示例如下:非标准化系数标准化系数t p VIF R2调整R2FB标准误Beta常数-*-**分析项1*分析项2**分析项3* p< ** p<备注:逐步回归分析仅在回归分析的基础上,加入了一项功能,即自动化移除掉不显著的X,通常逐步回归分析用于探索研究中。
逐步回归分析之后,可对回归模型进行检验。
可包括以下四项:多重共线性:可查看VIF值,如果全部小于10(严格是5),则说明模型没有多重共线性问题,模型构建良好;反之若VIF大于10说明模型构建较差。
自相关性:如果D-W值在2附近(~之间),则说明没有自相关性,模型构建良好,反之若D-W值明显偏离2,则说明具有自相关性,模型构建较差。
自相关问题产生时建议对因变量Y数据进行查看。
残差正态性:在分析时可保存残差项,然后使用“正态图”直观检测残差正态性情况,如果残差直观上满足正态性,说明模型构建较好,反之说明模型构建较差。
介绍SPSS中逐步回归分析的应用2009-04-20 12:30:45| 分类:默认分类阅读2037 评论0 字号:大中小订阅杨应红张马兵卢逢刚(安庆市气象局246001)引言SPSS(Statistical Package for the Social Science)社会科学应用软件包是世界上著名的统计分析软件之一。
它和SAS(Statistical Analysis System,统计分析系统)、BMDP(Biomedical Programs,生物医学程序)并称为国际上最有影响的三大统计软件。
SPSS名为社会学统计软件包,这是为了强调其社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学和概率论的定理来进行研究),而实际上它在社会科学、自然科学的各个领域都能发挥巨大作用,并已经应用于经济学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。
回归分析是目前气象统计分析中最为常用的一种方法之一。
例如目前台站常用的MOS(模式输出统计量)方法中,回归分析是最基本的方法之一。
逐步回归能够帮我们建立最优的回归模型,但过程较复杂。
Spss软件功能强大,且操作简单。
我们用该软件对气象资料作逐步回归分析,对于Spss软件用于气象统计的便利亦可见一斑。
下面以安庆市1951-1971年6~8月降水及相关资料(表一)为例。
1 数据格式表中1971年因子值留作预报时使用,不参加到样本中进行统计,表中符号意义如下:y:安庆市整个地区6~8月降水量(mm)。
X1:1月500hPa高度距平和(50°~20°W,60°N;45°~25°W,55°N)。
X2:2~3月500hPa高度距平和(70°~100°E,30°N)。
X3:4月500hPa高度距平和(25°N,105°~115°E;20°N,100°~120°E;15°N,105°~115°E)。
X4:12月下旬一次年1月下旬安庆市地面WSW-WNW风速合计(m/s)。
2 统计步骤2.1 做数据散点图,观察因变量和自变量关系是否具有线性关系。
2.1.1 GraPhs→Scatter→SiPle 顺序展开如图a所示的对话框:2.1.2 将变量y(6-8月降水量)、x1(1月份500hPa高度距平和)依次选入Y Axis和X Axis,单击ok按钮。
生成的图形如图(b)所示,根据同样的操作可以作出以y(6-8月降水量)为Y Axis,分别以其他几个自变量为X Axis的散点图。
从散点图可以看出6-8月降水量和这几个自变量存在明显的线性关系,由此可以判定建立线性回归方程是非常适合的。
2.2 回归模型的建立2.2.1 按Analyze→Regression→Linear顺序展开如图c所示的对话框:2.2.2 左侧的源变量框中选择y(6-8月降水量)作为因变量进入DePendent框中。
选择x1、x2、x3、x4变量作为自变量进入IndePendent(s)框中。
2.2.3 在Method选择框中选择StePwise(逐步回归)作为分析方式。
2.2.4 单击Statics按钮,并打开如图d的对话框。
在Resideuals栏中选择Casewise diagnostics项要求进行奇异值判别。
并在Outliers outside standard deviation 的参数键入3,设置观测值的标准差大于3为奇异值。
选中Collinearity diagnostics复选框,要求进行共线性诊断。
单击Continue按钮返回。
2.2.5 为了从图形上检测模型的直线性和方差的齐性做散点图。
单击Plot按钮,打开Plots对话框,将变量ZPRED与ZRESID分别选如X、Y框中。
单击Continue按钮回到主对话框。
2.2.6 提交系统执行结果。
2.3 结果输出见表表2-1:被引入或被从剔除回归方程中剔除的各变量表2-2:拟合过程小结表2-3:方差分析表2-4:回归系数分析表2-5:共线性诊断3 小结通过对上述个例的分析可以看到:运用Spss软件作逐步回归分析具有如下优点:3.1 通过作散点图,可以直观的看出变量间是否具有线性关系。
从而大致判断可能进入回归方程的变量。
3.2 通过对变量及参数的控制作逐步回归。
Spss软件能自动剔除与预报量关系较弱的变量,为我们建立一个最优的回归模型。
3.3 通过方差分析,可以判断模型的效果。
另外,我们还可以通过对一些参数的选择,在结果中得到对方程的显著性检验分析,以判断回归模型是否达到了我们的要求。
可见,Spss软件用于气象资料的统计分析,是极为方便且有效的。
参考文献1 黄嘉佑.《气象统计分析与预报方法》,2000,86-91.体育科研中运用多元回归分析时应注意的两个问题【说明】目前在体育科研中,有些人在做多元回归分析时,还是经常出现错误。
因此,很有必要将我十几年前在全国体育统计学会报告会上发表的论文,供大家参考。
回归分析是研究变量之间的相关关系的一种数理统计方法。
在体育领域中存在着大量多因素(变量)的问题。
所以,近年来体育科研中多元回归和逐步回归分析方法运用得越来越多了。
回归分析主要可用于解决下列问题:(一)确定几个变量之间是否存在相关关系。
如果存在,则找出它们之间合适的数学表达式──回归方程。
如在体质研究、运动员选材研究中为了研究各项形态、机能、素质指标之间的相关关系,常常通过大样本统计数据计算各指标之间的相关系数rij,并建立各指标之间的回归方程。
如1979年全国体质调研后建立了18~25岁男青年的身高、体重对肺活量的二元回归方程:Y=-2708+27.89X1+35.56X2(肺活量)(身高)(体重)(二)根据回归方程用一个或几个自变量的值预测或控制另一个因变量的取值。
对于一些不容易测的指标,可以通过建立回归方程用几个比较容易测的指标来推测它的估计值。
如果自变量选得恰当,这样的回归方程是很有实用价值的。
如北京体院高强等人研究建立了推测快肌纤维百分比的三元回归方程:Y=5.90+35.53 X1+18.2 X2一6.41 X3(快肌%)(相对肌力)(MPE %)(IEMG)只要进行肌肉力量和肌电图的几项测试,就可以实现肌纤维成分的无损伤测定。
(三)进行因素分析。
当许多个变量(因素)都对某一个变量有影响时,可以通过回归分析找出其中哪几个是重要因素,哪几个是次要因素。
如对田径十项全能世界级优秀运动员的十项全能总分和十个单项成绩进行逐步回归计算,从中可筛选出四个比较重要的项目是:400米、铅球、110米栏、跳高。
有的研究还根据多元回归方程的系数bi。
或标准回归系数bi’ 来确定各指标的“权重”。
但是,近来在运用多元回归和逐步回归的研究论文中也出现了一些对回归分析的运用条件注意不够的问题。
一、样本含量n和自变量个数k之间的关系问题复相关系数R是检验多元回归方程效果的重要指标。
一般讲,R越接近1即表示回归方程的效果越好。
因此当计算的结果R值接近l时,有些作者就立即认定计算结果十分理想。
如“广东省少体校游泳运动员因素分析与运动模型,’(1983年全国体育统计报告会论文)一文中,男15~16岁组自由泳成绩与形态机能指标的十元回归方程R=0.999,十三元回归方程R=1。
又如“对男女优秀篮球运动员五大关节活动幅度与运动成绩逐步回归的探讨”(体育科学86年1期)一文中,辽宁男篮队员运动成绩与四项关节活动幅度建立的四元回归方程R=0.995,辽宁女篮队员运动成绩与七项关节活动幅度建立的七元回归方程R=1。
作者都认为回归方程十分理想,并根据回归方程作了进一步的分析和结论。
但是,再看回归方程中各个指标与因变量(Y)的相关系数则发现有许多指标和Y是不相关的(p>0.05)。
可见,R接近1的原因并不是这些指标和Y相关程度极高,而是作者用于计算的样本n太小(游泳一文n=15,篮球一文n=10)。
在《体育统计方法》及一些数理统计书中,都指出:复相关系数R与多元回归方程中自变量的个数k及样本含量n有关。
当n相对于k并不很大时,常有较大的R,当n=k+1时,即使这k个自变量与Y 并不相关,也会R=1。
如设变量Y与另外K个变量X1, X2……Xk的内在联系是线性的,它的第α次测试数据是:(Ya,Xa1,Xa2……,Xak)a=1,2,…,n则这一组数据可以有如下的结构式:Y1=β0+β1X11+β2X12+……+βkX1k+ξ1Y2=β0+β1X21+β2X22+……+βkX2k+ξ2……Yn=β0+β1Xn1+β2Xn2+……+βkXnk+ξn其中:β0,β1……是K+ 1个待估计参数,X1,X2,……,Xk是K个可以精确测得的变量,ξ1,ξ2,……ξn是n个相互独立且服从正态分布N(θ,δ)的随机变量,这就是多元回归的数学模型。
把它写成矩阵形式:Y=Xβ+ξ用最小二乘法原理,建立正规方程,可解出bo,bl……,bk。
它们是参数β0,β1……βk的最小二乘估计,则多元回归方程为:Y=bo+b1X1+b2X2+……+bkXk计算bo, b1, b2,……,bk时要计算下列四个矩阵:X,A,C,B其中:X是n组侧试数据Ya的结构矩阵,A=X'X 是正规方程组的系数L ij矩阵,C=A-1 是系数矩阵A的逆矩阵, B 是正规方程组的常数项Liy矩阵。
多元回归的系数b=A-1 B.可见,多元回归方程的系数bi的解是和所测得的原始数据的组数(样本含量)n紧密相系的。
可以推导出:当n=k + 1时,结构矩阵X是方阵,这时解出的bi,即使X,和Y全都不相关,仍可以得到:Q=E(Y-Ý )=0 亦即:U=Σbi Lij=Lyy 所以R=sqrt(U/Lyy)=1。
为了用计算实例来说明以上的理论推导,我们随机抽取了K=34,n=10的一个样本。
其中大部分X和Y是不相关的(即r iy的值,经检验为P>0.05)。
选取其中9个和Y不相关的X作九元回归计算,riy最小的为-0.011,最大的为0.471,均为P>0.05,计算结果见表1,虽然每个X的偏回归平方和Pi作F检验时,都是P>0.05,但复相关系数R=0.9999975。
把多元回归的X增加到15,20和34个时,R值分别为:0.9999891,1.000009,1.0000830可见当样本含量n太小与自变量个数K的比例不恰当时,解出的bi是不能正确地反映各自变量和Y之间的内在关系的。
如果用这样的多元回归方程为依据去分析和作结论,就一定会产生谬误。