数学建模作业 实验7多元分析实验
- 格式:docx
- 大小:148.14 KB
- 文档页数:17
第1篇一、实验目的本次实验旨在让学生掌握数学建模的基本步骤,学会运用数学知识分析和解决实际问题。
通过本次实验,培养学生主动探索、努力进取的学风,增强学生的应用意识和创新能力,为今后从事科研工作打下初步的基础。
二、实验内容本次实验选取了一道实际问题进行建模与分析,具体如下:题目:某公司想用全行业的销售额作为自变量来预测公司的销售量。
表中给出了1977—1981年公司的销售额和行业销售额的分季度数据(单位:百万元)。
1. 数据准备:将数据整理成表格形式,并输入到计算机中。
2. 数据分析:观察数据分布情况,初步判断是否适合使用线性回归模型进行拟合。
3. 模型建立:利用统计软件(如MATLAB、SPSS等)进行线性回归分析,建立公司销售额对全行业的回归模型。
4. 模型检验:对模型进行检验,包括残差分析、DW检验等,以判断模型的拟合效果。
5. 结果分析:分析模型的拟合效果,并对公司销售量的预测进行评估。
三、实验步骤1. 数据准备将数据整理成表格形式,包括年份、季度、公司销售额和行业销售额。
将数据输入到计算机中,为后续分析做准备。
2. 数据分析观察数据分布情况,绘制散点图,初步判断是否适合使用线性回归模型进行拟合。
3. 模型建立利用统计软件进行线性回归分析,建立公司销售额对全行业的回归模型。
具体步骤如下:(1)选择合适的统计软件,如MATLAB。
(2)输入数据,进行数据预处理。
(3)编写线性回归分析程序,计算回归系数。
(4)输出回归系数、截距等参数。
4. 模型检验对模型进行检验,包括残差分析、DW检验等。
(1)残差分析:计算残差,绘制残差图,观察残差的分布情况。
(2)DW检验:计算DW值,判断随机误差项是否存在自相关性。
5. 结果分析分析模型的拟合效果,并对公司销售量的预测进行评估。
四、实验结果与分析1. 数据分析通过绘制散点图,观察数据分布情况,初步判断数据适合使用线性回归模型进行拟合。
2. 模型建立利用MATLAB进行线性回归分析,得到回归模型如下:公司销售额 = 0.9656 行业销售额 + 0.01143. 模型检验(1)残差分析:绘制残差图,观察残差的分布情况,发现残差基本呈随机分布,说明模型拟合效果较好。
多元统计分析实验报告1. 引言多元统计分析是一种用于研究多个变量之间关系的统计方法。
在实验中,我们使用了多元统计分析方法来探索一组数据中的变量之间的关系。
本报告将介绍我们的实验设计、数据收集和分析方法以及结果和讨论。
2. 实验设计为了进行多元统计分析,我们设计了一个实验,收集了一组相关变量的数据。
我们选择了X、Y和Z这三个变量作为我们的研究对象。
为了获得准确的结果,我们采用了以下实验设计:1.确定研究目的:我们的目标是探索X、Y和Z之间的关系,并确定它们之间是否存在任何相关性。
2.数据收集:我们通过调查问卷的方式收集了一组数据。
我们请参与者回答与X、Y和Z相关的问题,以获得关于这些变量的定量数据。
3.数据整理:在收集完数据后,我们将数据进行整理,将其转化为适合多元统计分析的格式。
我们使用Excel等工具进行数据整理和清洗。
4.数据验证:为了确保数据的准确性,我们对数据进行验证。
我们检查数据的有效性,比较数据之间的一致性,并排除任何异常值。
3. 数据分析在数据收集和整理完毕后,我们使用了一些常见的多元统计分析方法来分析我们的数据。
以下是我们使用的方法和步骤:1.描述统计分析:我们首先对数据进行了描述性统计分析。
我们计算了X、Y和Z的均值、标准差、最大值和最小值等。
这些统计量帮助我们了解数据的基本特征。
2.相关性分析:接下来,我们进行了相关性分析,以确定X、Y和Z之间是否存在相关关系。
我们计算了变量之间的相关系数,并绘制了相关系数矩阵。
这帮助我们确定变量之间的线性关系。
3.回归分析:为了更进一步地研究X、Y和Z之间的关系,我们进行了回归分析。
我们建立了一个多元回归模型,通过回归方程来预测因变量。
同时,我们还计算了回归系数和R方值,以评估模型的拟合度和预测能力。
4. 结果和讨论根据我们的实验设计和数据分析,我们得出了以下结果和讨论:1.描述统计分析结果显示,X的平均值为x,标准差为s;Y的平均值为y,标准差为s;Z的平均值为z,标准差为s。
实验设计中的多元分析方法实验设计是科学研究中重要的组成部分。
在实验设计中,多元分析方法是一种重要的数据分析技术。
多元分析方法是一种将多个因素结合起来分析的方法,它允许我们在一个模型中考虑多个因素和它们之间的相互作用。
本文将介绍实验设计中的多元分析方法,包括多元方差分析、多元回归分析和主成分分析等。
一、多元方差分析多元方差分析是一种将多个因素结合起来分析其对一个或多个结果变量的影响的方法。
它可以帮助我们确定哪些因素对结果变量有显著影响,这对于实验设计和控制非常重要。
在多元方差分析中,我们需要选择一个合适的模型。
模型包括一个或多个自变量(也称为因素或分组变量)和一个或多个因变量(也称为结果变量)。
自变量可以是分类变量(如不同药物的剂量)或连续变量(如时间)。
因变量可以是连续变量(如血压)或分类变量(如是否死亡)。
多元方差分析的主要目标是确定自变量和因变量之间的关系。
通过多元方差分析,我们可以确定每个因素对结果变量的影响是否显著,并确定它们之间的相互作用是否显著。
通过这种方法,我们可以更好地理解因素之间的相互作用,以便更好地控制实验条件。
二、多元回归分析多元回归分析是一种用于预测结果变量的方法。
在多元回归分析中,我们使用一个模型来预测结果变量(也称为响应变量),该模型包括一个或多个自变量(也称为预测变量或因素)和一个截距项。
多元回归分析的主要目标是确定自变量和结果变量之间的关系。
通过多元回归分析,我们可以确定每个因素对结果变量的影响是否显著,并确定它们之间的相互作用是否显著。
通过这种方法,我们可以预测结果变量,以便更好地控制实验条件。
三、主成分分析主成分分析是一种用于分析多个变量之间关系的方法。
它可以帮助我们确定哪些变量是最具相关性的。
在主成分分析中,我们将多个变量组合成一个更少的变量集,这个集合称为主成分。
主成分分析的主要目标是从多个变量中提取信息,并将它们组合成较少的变量集。
通过主成分分析,我们可以确定哪些变量是彼此高度关联的,以便更好地理解它们之间的相互作用。
数学建模课后作业第七章(总45页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第七章.多元分析实验基本实验1.线性回归;解:由题可以得出如下的R程序:> X1<-c, , , , , , , , , , 239)> X2<-c, , , , , , , , , ,> X3<-c, , , , , , , , , ,> Y<-c, , 19, , , , , ,, ,>> <-lm(Y ~ X1+X2+X3)> summary运行后可以得知;Call:lm(formula = Y ~ X1 + X2 + X3)Residuals:Min 1Q Median 3Q MaxCoefficients:Estimate Std. Error t value Pr(>|t|) (Intercept) ***X1X2 ***X3 *---S ignif. codes: 0 ‘***’ ‘**’ ‘*’ ‘.’ ‘ ’ 1Residual standard error: on 7 degrees of freedomMultiple R-squared: , Adjusted R-squared:F-statistic: on 3 and 7 DF, p-value:则可以得出Y关于X1、X2、X3的线性回归方程;Y= X2+由上述的结果可以得知方程的常量与X2显著性为***表示十分的显著,X3显著性为*表示显著,而X2为不显著。
(2)由(1)中的数据可以得知新的分析函数anovaR程序如下:X1<-c, , , , , , , , , , 239)X2<-c, , , , , , , , , ,X3<-c, , , , , , , , , ,Y<-c, , 19, , , , , ,, ,<-lm(Y ~ X1+X2+X3, data=blood)summaryanova运行后可以得出:Min 1Q Median 3Q MaxCoefficients:Estimate Std. Error t value Pr(>|t|) (Intercept) ***X1X2 ***X3 *---Signif. codes: 0 ‘***’ ‘**’ ‘*’ ‘.’ ‘ ’ 1Residual standard error: on 7 degrees of freedomMultiple R-squared: , Adjusted R-squared:F-statistic: on 3 and 7 DF, p-value:>> anovaAnalysis of Variance TableResponse: YDf Sum Sq Mean Sq F value Pr(>F)X1 1 ***X2 1 ***X3 1 *Residuals 7---Signif. codes: 0 ‘***’ ‘**’ ‘*’ ‘.’由此结果可以看出X1、X2、X3均能通过显著性检验,所以选择全部变量作回归方程是十分合理的。
数学建模多元统计分析引论数学建模与多元统计分析是现代统计学中的重要分支,广泛应用于各个领域。
本文将介绍数学建模的基本概念和方法,以及多元统计分析的基本原理和应用。
一、数学建模数学建模是指将实际问题转化为数学问题,并通过数学模型进行分析和求解的过程。
数学建模的目的是通过数学模型来描述和模拟实际问题,从而得出有关问题的一些结论和解决方案。
数学建模的过程通常包括以下几个步骤:1.问题的描述和分析:首先要对实际问题进行准确的描述和分析,明确问题的目标和约束条件。
2.模型的建立:根据问题的特点和需求,选择适当的数学模型来描述问题。
常用的数学模型包括线性模型、非线性模型和随机模型等。
3.模型的求解:根据模型的类型和性质,选择合适的方法和算法来求解模型。
常用的方法包括数值求解、优化算法和随机模拟等。
4.模型的验证和分析:对求解结果进行验证和分析,评价模型的可靠性和适用性。
如果需要,可以对模型进行修正和改进。
数学建模的核心是数学模型的建立和求解。
数学模型是对实际问题的抽象和简化,通过数学模型的求解,可以获得有关问题的一些重要信息和结论。
数学建模在工程、经济、生物、环境等领域都有广泛的应用。
二、多元统计分析多元统计分析是指对多个变量之间的关系和差异进行统计分析的方法。
它将统计学的基本概念和原理扩展到多个维度,并通过数学模型和统计方法来研究和解释这些多元数据。
多元统计分析的主要内容包括多元数据的描述、多元数据的降维和多元数据的分类与聚类等。
具体包括以下几个方面的内容:1.多元数据的描述:对多元数据进行统计描述,包括均值、方差、协方差、相关系数等。
通过描述统计,可以了解多元数据的分布和变化情况。
2.多元数据的降维:通过主成分分析、因子分析等方法将多元数据降维,提取出主要信息和特征。
降维可以简化多元数据的分析和处理过程,并通过降维后的数据进行可视化和解释。
3.多元数据的分类与聚类:根据多元数据的特征,将数据进行分类和聚类,找出数据中的规律和结构。
一、实验背景与目的随着科学技术的不断发展,数学建模作为一种解决复杂问题的有力工具,在各个领域都得到了广泛应用。
本实验旨在通过数学建模的方法,解决实际问题,提高学生的数学思维能力和解决实际问题的能力。
二、实验内容与步骤1. 实验内容本实验选取了一道具有代表性的实际问题——某城市交通拥堵问题。
通过对该问题的分析,建立数学模型,并利用MATLAB软件进行求解,为政府部门提供决策依据。
2. 实验步骤(1)问题分析首先,对某城市交通拥堵问题进行分析,了解问题的背景、目标及影响因素。
通过查阅相关资料,得知该城市交通拥堵的主要原因是道路容量不足、交通信号灯配时不当、公共交通发展滞后等因素。
(2)模型假设为简化问题,对实际交通系统进行以下假设:1)道路容量恒定,不考虑道路拓宽、扩建等因素;2)交通信号灯配时固定,不考虑实时调整;3)公共交通系统运行正常,不考虑公交车运行时间波动;4)车辆行驶速度恒定,不考虑车辆速度波动。
(3)模型构建根据以上假设,构建以下数学模型:1)道路容量模型:C = f(t),其中C为道路容量,t为时间;2)交通流量模型:Q = f(t),其中Q为交通流量;3)拥堵指数模型:I = f(Q, C),其中I为拥堵指数。
(4)模型求解利用MATLAB软件,对所构建的数学模型进行求解。
通过编程实现以下功能:1)计算道路容量C与时间t的关系;2)计算交通流量Q与时间t的关系;3)计算拥堵指数I与交通流量Q、道路容量C的关系。
(5)结果分析与解释根据求解结果,分析拥堵指数与时间、交通流量、道路容量之间的关系。
针对不同时间段、不同交通流量和不同道路容量,提出相应的解决方案,为政府部门提供决策依据。
三、实验结果与分析1. 结果展示通过MATLAB软件求解,得到以下结果:(1)道路容量C与时间t的关系曲线;(2)交通流量Q与时间t的关系曲线;(3)拥堵指数I与交通流量Q、道路容量C的关系曲线。
2. 结果分析根据求解结果,可以得出以下结论:(1)在高峰时段,道路容量C与时间t的关系曲线呈现下降趋势,说明道路容量在高峰时段不足;(2)在高峰时段,交通流量Q与时间t的关系曲线呈现上升趋势,说明交通流量在高峰时段较大;(3)在高峰时段,拥堵指数I与交通流量Q、道路容量C的关系曲线呈现上升趋势,说明拥堵指数在高峰时段较大。
数学建模的实验分析数学建模是一门综合性强、应用广泛的学科,通过应用数学知识和方法,对真实世界中的问题进行建模、分析和求解。
其中,实验分析是数学建模过程中不可或缺的一环,它能够帮助我们验证模型的有效性、可行性,并为实际问题的解决提供科学依据。
本文将重点探究数学建模的实验分析方法及其在实践中的应用。
一、实验分析方法的选择在进行数学建模实验分析时,我们可以根据具体的问题选择不同的方法,下面将介绍几种常用的实验分析方法:1. 数值实验:通过计算机模拟实际情况,利用数值方法求解模型,得到数值解并进行分析。
这种方法的优势在于计算精度高、计算速度快,能够较好地模拟实际问题。
例如,在物理模型中,我们可以利用有限差分法或有限元法进行数值实验,验证模型的正确性。
2. 理论分析:通过数学推导和分析,对模型进行深入研究,推导出解析解或近似解,并对解的性质进行分析。
这种方法的好处在于可以得到精确的解析解,从而深入理解问题。
例如,在经济模型中,我们可以通过对微分方程的求解,得到模型的解析解,并分析解的稳定性和灵敏度。
3. 实际实验:通过搭建实验装置,对模型进行真实实验,并记录实验数据。
这种方法的优点在于可以获取真实的数据,并对模型的可行性进行验证。
例如,在生物模型中,我们可以利用实验仪器观察生物的生长过程,得到实际数据,然后与建模结果进行对比。
选择合适的实验分析方法需要综合考虑问题的性质、数据的可获得性以及模型的复杂程度等因素。
二、实验分析的应用举例数学建模的实验分析在各个学科中都有广泛的应用。
以下将从物理、经济和生物三个领域分别介绍实验分析的应用举例。
1. 物理领域:在物理模型中,实验分析可以帮助验证模型的正确性并得到更准确的物理规律。
例如,在模拟天体运行的模型中,我们可以通过数值实验计算行星的轨道、速度等信息,并与实际观测数据进行对比,从而验证模型的准确性。
2. 经济领域:在经济模型中,实验分析可以帮助评估政策、预测市场走向等。
数学建模作业:多元统计作业Ⅳ-1 回归分析某种水泥在凝固时放出的热量y(k/g)与水泥中的3CaOAl2O3的成分(%),3CaOSiO2的成分x2(%),4CaOAl2O3Fe2O3的成分x3(%),2CaOSiO2的成分x4(%)的观测值如下表,试以y为因变量,以x1,x2,x3,x4为自变量建立多元回归方程并作显著性检验。
解:编写程序如下:data shuini;input x1-x4 y @ @;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4; proc reg ;model y=x1 x2 x3 x4/selection =stepwise; run ;运行结果如下:(1) 回归方程显著性检验:Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr > FModel 2 2657.85859 1328.92930 229.50 <.0001 Error 10 57.90448 5.79045 Corrected Total 12 2715.76308由Analysis of Variance 表可知:F Value=229.50,Pr > F 远小于0.05,故回归方程的线性性及各参数的显著性检验均通过。
(2) 参数显著性检验Parameter StandardVariable Estimate Error Type II SS F Value Pr > FIntercept 52.57735 2.28617 3062.60416 528.91 <.0001 x1 1.46831 0.12130 848.43186 146.52 <.0001 x2 0.66225 0.04585 1207.78227 208.58 <.0001由结果可知,X1,X2均通过检验。
《多元统计分析分析》实验报告2012 年月日学院经贸学院姓名学号实验实验成绩名称一、实验目的(一)利用SPSS对主成分回归进行计算机实现.(二)要求熟练软件操作步骤,重点掌握对软件处理结果的解释.二、实验内容以教材例题7.2为实验对象,应用软件对例题进行操作练习,以掌握多元统计分析方法的应用三、实验步骤(以文字列出软件操作过程并附上操作截图)1、数据文件的输入或建立:(文件名以学号或姓名命名)将表7.2数据输入spss:点击“文件”下“新建”——“数据”见图1:图1点击左下角“变量视图”首先定义变量名称及类型:见图2:图2:然后点击“数据视图”进行数据输入(图3):图3完成数据输入2、具体操作分析过程:(1)首先做因变量Y与自变量X1-X3的普通线性回归:在变量视图下点击“分析”菜单,选择“回归”-“线性”(图4):图4将因变量Y调入“因变量”栏,将x1-x3调入“自变量”栏(图5):然后选择相关要输出的结果:①点击右上角“统计量(s)”:“回归系数”下选择“估计”;“残差”下选择“D.W”;在右上角选择输出“模型拟合度”、“部分相关和偏相关”“共线性诊断”(后两项是做多重共线性检验)。
选完后点击“继续”(见图6)②如果需要对因变量与残差进行图形分析则需要在“绘制”下选择相关项目(图7),一般不需要则继续③如果需要将相关结果如因变量预测值、残差等保存则点击“保存”(图8),选择要保存的项目④如果是逐步回归法或者设置不带常数项的回归模型则点击“选项”(图9)其他选项按软件默认。
最后点击“确定”,运行线性回归,输出相关结果(见表1-3)图5 图6图7图8图9回归分析输出结果:的协差阵也就是相关阵进行分解做因子分析或主成分分析),如果不需要对变量做标准化处理就选“协方差矩阵”;“输出”中的两项都选,要求输出没有旋转的因子解(主成分分析必选项)和碎石图(用图形决定提取的主成分或因子的个数);“抽取“下,默认的是基于特征值(大于1表示提取的因子或主成分至少代表1个单位标准差的变量信息,因为标准化后的变量方差为1,因子或者主成分作为提取的综合变量应该至少代表1个变量的信息),也可以自选提取的因子个数(即第二项),本例中做主成分回归,选择提取全部可能的3个主成分,所以自选个数填3。
多元统计分析实验报告多元统计分析实验报告一、引言多元统计分析是一种研究多个变量之间关系的统计方法,可以帮助我们更全面地了解数据集中的信息。
本实验旨在通过多元统计分析方法,探索不同变量之间的关系,并分析其对研究结果的影响。
二、数据收集与处理在本实验中,我们收集了一份关于学生学业成绩的数据集。
数据集包括学生的性别、年龄、家庭背景、学习时间、考试成绩等多个变量。
为了方便分析,我们对数据进行了清洗和预处理,包括删除缺失值、标准化处理等。
三、描述性统计分析在进行多元统计分析之前,我们首先对数据进行了描述性统计分析。
通过计算各变量的均值、标准差、最小值、最大值等统计量,我们对数据的整体情况有了初步的了解。
例如,我们发现男生和女生的平均成绩存在差异,家庭背景与学习时间之间存在一定的相关性等。
四、相关性分析为了探索不同变量之间的关系,我们进行了相关性分析。
通过计算各个变量之间的相关系数,我们可以了解它们之间的线性关系强弱。
通过绘制相关系数矩阵的热力图,我们可以直观地观察到各个变量之间的相关性。
例如,我们发现学习时间与考试成绩之间存在较强的正相关关系,而年龄与考试成绩之间的相关性较弱。
五、主成分分析主成分分析是一种常用的降维方法,可以将多个相关变量转化为少数几个无关的主成分。
在本实验中,我们应用主成分分析方法对数据进行了降维处理。
通过计算各个主成分的解释方差比例,我们可以确定保留的主成分个数。
通过绘制主成分得分图,我们可以观察到不同变量在主成分上的贡献程度。
例如,我们发现第一主成分主要与学习时间和考试成绩相关,而第二主成分主要与家庭背景和性别相关。
六、聚类分析聚类分析是一种将样本按照相似性进行分类的方法,可以帮助我们发现数据集中的潜在模式和群体。
在本实验中,我们应用聚类分析方法对学生进行了分类。
通过选择适当的聚类算法和距离度量,我们可以将学生分为不同的群体。
通过绘制聚类结果的散点图,我们可以观察到不同群体之间的差异。
实验7 多元分析实验1. 回归分析解:(1) 根据题意,对数据利用R 软件作出散点图> x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4)> y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493)> plot(x,y, xlab="X", ylab="Y", cex=1.4, pch=19, col="red")得到如下图像:分析图像,数据点大致落在一条直线附近,说明变量x 和y 之间大致可看作线性关系,假定有如下结构式:y =β0+β1x +ε其中β0和β1是未知常数,为回归系数,ε为其它随机因素对灌溉面积的影响,ε服从正态分布N(0,σ2)。
利用R 软件进行一元线性回归分析,并提取相应的计算结果:> x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4)> y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493)> lm.sol<-lm(y ~ 1+x)> summary(lm.sol)得到如下结果:Call:lm(formula = y ~ 1 + x)Residuals:Min 1Q Median 3Q Max4567891500200025003000XY-128.591 -70.978 -3.727 49.263 167.228Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 140.95 125.11 1.127 0.293x 364.18 19.26 18.908 6.33e-08 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 96.42 on 8 degrees of freedomMultiple R-squared: 0.9781, Adjusted R-squared: 0.9754F-statistic: 357.5 on 1 and 8 DF, p-value: 6.33e-08Estimate项中给出了回归方程的系数估计,即β0=140.95;β1=364.18观查其中的评价参数易知对于β0项的估计并不是很准确,不显著。
但该方程总体通过了F统计数的检验,其p值为6.33e-08<0.05由此得到的回归方程为:Y=140.95+364.18X(2)若现测得今年的数据是X=7米,则有X=X0=7,置信水平为0.95,此时利用R软件求解,编程如下:> new<-data.frame(x=7)> predict(lm.sol,new,+ interval="prediction",+ level=0.95)得到如下结果:fit lwr upr1 2690.227 2454.971 2925.484得到灌溉面积的预测值为2690.227、预测区间2454.971和置信区间(α=0.05)为2925.484。
(3)利用R软件做出图像并保存,编程如下:先重复回归线性分析:> x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4)> y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493)> plot(x,y, xlab="X", ylab="Y", cex=1.4, pch=19, col="red")>> lm.sol<-lm(y ~ 1+x)> summary(lm.sol)做出图像:> abline(lm.sol, lwd=2, col="blue")> segments(x, fitted(lm.sol), x, y, lwd=2, col="blue")标注图像:> ex1<-expression(paste("(", x[i], ",", y[i],")"))> ex2<-expression(paste("(", x[i], ",", hat(y)[i],")"))>> points(x[8], fitted(lm.sol)[8], pch=19, cex=1.4, col="blue")> text(c(5.7, 5.7), c(2400, 2100), labels = c(ex1, ex2))保存图像:> savePlot("regression", type="eps")最终得到的图像如图所示:由图像可以直观看出此线性回归的拟合对于前4年的拟合误差比较大,误差最大的是第2年。
对于后6年的拟合是比较吻合的。
2. 回归分析和逐步回归解:(1)首先根据题意建立多元线性回归方程:Y=β0+β1X 1+β2X 2+β3X 3+ε利用R 软件进行求解,使用lm()函数,用函数summary()提取信息,写出R 程序:> import<-data.frame(+ X1=c(0.4,0.4,3.1,0.6,4.7,1.7,9.4,10.1,11.6,12.6,10.9,23.1,23.1,21.6,23.1,1.9,26.8,29.9), + X2=c(52,23,19,34,24,65,44,31,29,58,37,46,50,44,56,36,58,51),+ X3=c(158,163,37,157,59,123,46,117,173,112,111,114,134,73,168,143,202,124),+ Y= c(64,60,71,61,54,77,81,93,93,51,76,96,77,93,95,54,168,99)+ )> lm.sol<-lm(Y~X1+X2+X3, data=import)> summary(lm.sol)得到如下结果:Call:4567891500200025003000XYlm(formula = Y ~ X1 + X2 + X3, data = import)Residuals:Min 1Q Median 3Q Max-28.349 -11.383 -2.659 12.095 48.807Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 43.65007 18.05442 2.418 0.02984 *X1 1.78534 0.53977 3.308 0.00518 **X2 -0.08329 0.42037 -0.198 0.84579X3 0.16102 0.11158 1.443 0.17098---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 19.97 on 14 degrees of freedomMultiple R-squared: 0.5493, Adjusted R-squared: 0.4527F-statistic: 5.688 on 3 and 14 DF, p-value: 0.009227所以得到回归方程为:Y=43.65007 +1.78534X1 -0.08329X2+0.16102X3p-值为0.009227<0.05方程本身是通过检测的,各项系数的检验结果为:常数项显著;X1项系数很显著;X2项系数不显著;X3项系数不显著。
有两项系数没有通过检验,总体来说拟合并不理想。
(2) 利用R软件进行逐步回归:> lm.step<-step(lm.sol)得到如下结果:Start: AIC=111.27Y ~ X1 + X2 + X3Df Sum of Sq RSS AIC- X2 1 15.7 5599.4 109.32<none> 5583.7 111.27- X3 1 830.6 6414.4 111.77- X1 1 4363.4 9947.2 119.66Step: AIC=109.32Y ~ X1 + X3Df Sum of Sq RSS AIC<none> 5599.4 109.32- X3 1 833.2 6432.6 109.82- X1 1 5169.5 10768.9 119.09从程序的运行结果可以看到,用全部变量作回归方程时,AIC值为111.27。
如果去掉变量X2,则相应的AIC值为109.32;如果去掉变量X3则相应的AIC值为111.77;如果去掉变量X1则相应的AIC值为119.66。
软件去掉X2项,进入下一轮运算,给出结果:> summary(lm.step)得到运算结果:Call:lm(formula = Y ~ X1 + X3, data = import)Residuals:Min 1Q Median 3Q Max-29.713 -11.324 -2.953 11.286 48.679Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 41.4794 13.8834 2.988 0.00920 **X1 1.7374 0.4669 3.721 0.00205 **X3 0.1548 0.1036 1.494 0.15592---Signif. co des: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 19.32 on 15 degrees of freedomMultiple R-squared: 0.5481, Adjusted R-squared: 0.4878F-statistic: 9.095 on 2 and 15 DF, p-value: 0.002589此时回归系数检验的水平已有显著提升,但X3项系数仍然不显著。