实验13回归分析报告报告材料
- 格式:docx
- 大小:705.57 KB
- 文档页数:19
重庆交通大学学生实验报告实验课程名称应用回归分析开课实验室数学实验室学院理学院年级09专业班信息2班学生姓名zhouhoufei 学号开课时间2011 至2012 学年第1 学期2.15 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。
经过10周时间,收集了每周加班工作时间的数据和签发新保单数目,x 为每周签发的新保单数目,y 为每周加班工作时间(小时)。
(1)画散点图;(2)x 与y 之间是否大致呈线性关系? (3)用最小二乘估计求出回归方程;(4)求回归标准误差ˆσ; (5)给出0ˆβ、1ˆβ的置信度为95%的区间估计; (6)计算x 与y 的决定系数;(7)对回归方程做方差分析;(8)做回归系数1ˆβ显著性检验; (9)做相关系数的显著性检验;(10)对回归方程做残差图并作相应的分析;(11)该公司预计下一周签发新保单01000x =张,需要的加班时间是多少? (12)给出0y 的置信水平为95%的精确预测区间和近视预测区间。
(13)给出0()E y 置信水平为95%的区间估计。
(1)将数据输入到SPSS 中,画出散点图如下:(2)由下表可知x与y的相关系数高达0.949,大于0.8,所以x与y之间线性相关性显著。
相关性y xPearson 相关性y 1.000 .949x .949 1.000Sig. (单侧)y . .000x .000 .N y 10 10x 10 10由上表可知0β、1β的参数估计值0ˆβ、1ˆβ分别为0.118和0.004,所以y 对x 的线性回归方程为0.1180.004x y ∧=+(4)由SPSS 得到如下模型汇总表:模型汇总模型RR 方调整 R 方标准 估计的误差1.949a.900.888.4800a. 预测变量: (常量), x 。
由模型汇总表可知回归标准误差σ∧=0.4800(5)由以下系数表可知0ˆβ、1ˆβ的置信度为95%的区间估计分别为: (-0.701,0.937)和(0.003,0.005)。
线性回归分析实验报告线性回归分析实验报告引言线性回归分析是一种常用的统计方法,用于研究因变量与一个或多个自变量之间的关系。
本实验旨在通过线性回归分析方法,探究自变量与因变量之间的线性关系,并通过实验数据进行验证。
实验设计本实验采用了一组实验数据,其中自变量为X,因变量为Y。
通过对这组数据进行线性回归分析,我们将得到回归方程,从而可以预测因变量Y在给定自变量X的情况下的取值。
数据收集与处理首先,我们收集了一组与自变量X和因变量Y相关的数据。
这些数据可以是实际观测得到的,也可以是通过实验或调查获得的。
然后,我们对这组数据进行了处理,包括数据清洗、异常值处理等,以确保数据的准确性和可靠性。
线性回归模型在进行线性回归分析之前,我们需要确定一个线性回归模型。
线性回归模型的一般形式为Y = β0 + β1X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。
回归系数β0和β1可以通过最小二乘法进行估计,最小化实际观测值与模型预测值之间的误差平方和。
模型拟合与评估通过最小二乘法估计回归系数后,我们将得到一个拟合的线性回归模型。
为了评估模型的拟合程度,我们可以计算回归方程的决定系数R²。
决定系数反映了自变量对因变量的解释程度,取值范围为0到1,越接近1表示模型的拟合程度越好。
实验结果与讨论根据我们的实验数据,进行线性回归分析后得到的回归方程为Y = 2.5 + 0.8X。
通过计算决定系数R²,我们得到了0.85的值,说明该模型能够解释因变量85%的变异程度。
这表明自变量X对因变量Y的影响较大,且呈现出较强的线性关系。
进一步分析除了计算决定系数R²之外,我们还可以对回归模型进行其他分析,例如残差分析、假设检验等。
残差分析可以用来检验模型的假设是否成立,以及检测是否存在模型中未考虑的其他因素。
假设检验可以用来验证回归系数是否显著不为零,从而判断自变量对因变量的影响是否存在。
回归分析实验报告回归分析实验报告引言回归分析是一种常用的统计方法,用于研究两个或多个变量之间的关系。
通过回归分析,我们可以了解变量之间的因果关系、预测未来的趋势以及评估变量对目标变量的影响程度。
本实验旨在通过回归分析方法,探究变量X对变量Y 的影响,并建立一个可靠的回归模型。
实验设计在本实验中,我们选择了一个特定的研究领域,并采集了相关的数据。
我们的目标是通过回归分析,找出变量X与变量Y之间的关系,并建立一个可靠的回归模型。
为了达到这个目标,我们进行了以下步骤:1. 数据收集:我们从相关领域的数据库中收集了一组数据,包括变量X和变量Y的观测值。
这些数据是通过实验或调查获得的,具有一定的可信度。
2. 数据清洗:在进行回归分析之前,我们需要对数据进行清洗,包括处理缺失值、异常值和离群点。
这样可以保证我们得到的回归模型更加准确可靠。
3. 变量选择:在回归分析中,我们需要选择适当的自变量。
通过相关性分析和领域知识,我们选择了变量X作为自变量,并将其与变量Y进行回归分析。
4. 回归模型建立:基于选定的自变量和因变量,我们使用统计软件进行回归分析。
通过拟合回归模型,我们可以获得回归方程和相关的统计指标,如R方值和显著性水平。
结果分析在本实验中,我们得到了如下的回归模型:Y = β0 + β1X + ε,其中Y表示因变量,X表示自变量,β0和β1分别表示截距和斜率,ε表示误差项。
通过回归分析,我们得到了以下结果:1. 回归方程:根据回归分析的结果,我们可以得到回归方程,该方程描述了变量X对变量Y的影响关系。
通过回归方程,我们可以预测变量Y的取值,并评估变量X对变量Y的影响程度。
2. R方值:R方值是衡量回归模型拟合优度的指标,其取值范围为0到1。
R方值越接近1,说明回归模型对数据的拟合程度越好。
通过R方值,我们可以评估回归模型的可靠性。
3. 显著性水平:显著性水平是评估回归模型的统计显著性的指标。
通常,我们希望回归模型的显著性水平低于0.05,表示回归模型对数据的拟合是显著的。
《应用回归分析》自变量选择与逐步回归实验报告二、实验步骤:(只需关键步骤)步骤1:建立全模型;步骤2:用前进法选择自变量;步骤3:用后退法选择自变量;步骤4:用逐步回归法选择自变量。
三、实验结果分析:(提供关键结果截图和分析)1.建立全模型回归方程;2.用前进法选择自变量;由图可知,依次引出x5,x1,x2。
由图可知:最有回归模型为有y^=874.583-0.611x1-0.353x2+0.637x5。
由图可知:最优模型的复决定系数R^2=0.996.调整后的复决定系数R a2=0.995. 最优模型的复决定系数R^2=0.989.调整后的复决定系数R a2=0.988. 最优模型的复决定系数R^2=0.992.调整后的复决定系数R a2=0.991.3.用后退法选择自变量;从图上可以看出:依次剔除变量x4,x3,x6。
从上图可知:最优回归模型为y^=874.583-0.611x1-0.353x2+0.637x5。
最优模型的复决定系数R2=0.996; 调整后的复决定系数R2=0.995。
4.用逐步回归法选择自变量;从右图上可以看出:先依次引入变量x6,x3,x4,x1,x5,x2b, 后又剔除了变量x4 X3,x6, 最终得到只包含两个变量x1,x5,x2b的最优模型。
由图知最有回归模型为,y^=874.53-0.611x1-0.353x2+0.637x5。
最优模型的复决定系数R2=0.996; 调整后的复决定系数R2=0.995。
5.根据以上结果分三种方法的差异。
前进法的特点是:自变量一旦被选入,就永远保留在模型中;前进法的缺点:不能反映自变量选进模型后的变化情况。
后退法的特点是:自变量一旦被剔除,就不能再选入模型;后退法的缺点:开始把全部自变量都引入模型,计算量大。
逐步回归的基本思想是有进出的。
具体做法是将变量一个一个的引入,每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时要将其剔除引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。
上,看哪种模型拟合效果更好从拟合优度(Rsq 即R2)来看,QUA,CUB,POW 效果较好(因为其Rsq 值较大),于是就选QUA,CUB,POW来进行。
重新进行上面的过程,只选以上三种模型。
3、实验结果:Model Summary and Parameter EstimatesDependent Variable:远视率EquationModel Summary Parameter EstimatesRSquare F df1 df2 Sig。
Constant b1 b2 b3Linear。
674 22。
7101 11 .001 74.006—4。
768Logarith mic .793 42.251 1 11 。
000 156。
773-57.574Inverse。
883 83.244 1 11 。
000 -40。
567 615.321Quadrati c .94382。
1142 10 .000 192.085-26.567。
908Cubic.959 69。
5383 9 .000 290.851—54。
7173.398 —。
069Compound。
794 42.445 1 11 .000 308。
120 .731Power.861 68.413 1 11 .000 49462.724—3。
638S .877 78.119 1 11 .000 -1。
502 37.175Growth.794 42。
4451 11 。
000 5。
730 —。
314Exponen tial .79442。
4451 11 。
000 308.120 -.314Logistic 。
794 42.445 1 11 。
000 .003 1。
369The independent variable is 年龄.分析:可以用Cubic拟合曲线图的拟合效果最好.第四题:棉花单株在不同时期的成铃数(y)与初花后天数(x)存在非线性的关系,假设这一非线性关系可用Gompertz模型表示:y=b1*exp(-b2*exp(—b3*x))。
回归分析实验报告1. 引言回归分析是一种用于探索变量之间关系的统计方法。
它通过建立一个数学模型来预测一个变量(因变量)与一个或多个其他变量(自变量)之间的关系。
本实验报告旨在介绍回归分析的基本原理,并通过一个实际案例来展示其应用。
2. 回归分析的基本原理回归分析的基本原理是基于最小二乘法。
最小二乘法通过寻找一条最佳拟合直线(或曲线),使得所有数据点到该直线的距离之和最小。
这条拟合直线被称为回归线,可以用来预测因变量的值。
3. 实验设计本实验选择了一个实际数据集进行回归分析。
数据集包含了一个公司的广告投入和销售额的数据,共有200个观测值。
目标是通过广告投入来预测销售额。
4. 数据预处理在进行回归分析之前,首先需要对数据进行预处理。
这包括了缺失值处理、异常值处理和数据标准化等步骤。
4.1 缺失值处理查看数据集,发现没有缺失值,因此无需进行缺失值处理。
4.2 异常值处理通过绘制箱线图,发现了一个销售额的异常值。
根据业务经验,判断该异常值是由于数据采集错误造成的。
因此,将该观测值从数据集中删除。
4.3 数据标准化为了消除不同变量之间的量纲差异,将广告投入和销售额两个变量进行标准化处理。
标准化后的数据具有零均值和单位方差,方便进行回归分析。
5. 回归模型选择在本实验中,我们选择了线性回归模型来建立广告投入与销售额之间的关系。
线性回归模型假设因变量和自变量之间存在一个线性关系。
6. 回归模型拟合通过最小二乘法,拟合了线性回归模型。
回归方程为:销售额 = 0.7 * 广告投入 + 0.3回归方程表明,每增加1单位的广告投入,销售额平均增加0.7单位。
7. 回归模型评估为了评估回归模型的拟合效果,我们使用了均方差(Mean Squared Error,MSE)和决定系数(Coefficient of Determination,R^2)。
7.1 均方差均方差度量了观测值与回归线之间的平均差距。
在本实验中,均方差为10.5,说明模型的拟合效果相对较好。
回归分析实验报告总结引言回归分析是一种用于研究变量之间关系的统计方法,广泛应用于社会科学、经济学、医学等领域。
本实验旨在通过回归分析来探究自变量与因变量之间的关系,并建立可靠的模型。
本报告总结了实验的方法、结果和讨论,并提出了改进的建议。
方法实验采用了从某公司收集到的500个样本数据,其中包括了自变量X和因变量Y。
首先,对数据进行了清洗和预处理,包括删除缺失值、处理异常值等。
然后,通过散点图、相关性分析等方法对数据进行初步探索。
接下来,选择了合适的回归模型进行建模,通过最小二乘法估计模型的参数。
最后,对模型进行了评估,并进行了显著性检验。
结果经过分析,我们建立了一个多元线性回归模型来描述自变量X对因变量Y的影响。
模型的方程为:Y = 0.5X1 + 0.3X2 + 0.2X3 + ε其中,X1、X2、X3分别表示自变量的三个分量,ε表示误差项。
模型的回归系数表明,X1对Y的影响最大,其次是X2,X3的影响最小。
通过回归系数的显著性检验,我们发现模型的拟合度良好,P值均小于0.05,表明自变量与因变量之间的关系是显著的。
讨论通过本次实验,我们得到了一个可靠的回归模型,描述了自变量与因变量之间的关系。
然而,我们也发现实验中存在一些不足之处。
首先,数据的样本量较小,可能会影响模型的准确度和推广能力。
其次,模型中可能存在未观测到的影响因素,并未考虑到它们对因变量的影响。
此外,由于数据的收集方式和样本来源的局限性,模型的适用性有待进一步验证。
为了提高实验的可靠性和推广能力,我们提出以下改进建议:首先,扩大样本量,以提高模型的稳定性和准确度。
其次,进一步深入分析数据,探索可能存在的其他影响因素,并加入模型中进行综合分析。
最后,通过多个来源的数据收集,提高模型的适用性和泛化能力。
结论通过本次实验,我们成功建立了一个多元线性回归模型来描述自变量与因变量之间的关系,并对模型进行了评估和显著性检验。
结果表明,自变量对因变量的影响是显著的。
实验一:线性回归分析实验目的:通过本次试验掌握回归分析的基本思想和基本方法,理解最小二乘法的计算步骤,理解模型的设定T检验,并能够根据检验结果对模型的合理性进行判断,进而改进模型。
理解残差分析的意义和重要性,会对模型的回归残差进行正态型和独立性检验,从而能够判断模型是否符合回归分析的基本假设。
实验内容:用线性回归分析建立以高血压作为被解释变量,其他变量作为解释变量的线性回归模型。
分析高血压与其他变量之间的关系。
实验步骤:1、选择File | Open | Data 命令,打开gaoxueya.sav图1-1 数据集gaoxueya 的部分数据2、选择Analyze | Regression | Linear…命令,弹出Linear Regression (线性回归) 对话框,如图1-2所示。
将左侧的血压(y)选入右侧上方的Dependent(因变量) 框中,作为被解释变量。
再分别把年龄(x1)、体重(x2)、吸烟指数(x3)选入Independent (自变量)框中,作为解释变量。
在Method(方法)下拉菜单中,指定自变量进入分析的方法。
图1-2 线性回归分析对话框3、单击Statistics按钮,弹出Linear Regression : Statistics(线性回归分析:统计量)对话框,如图1-3所示。
1-3线性回归分析统计量对话框4、单击 Continue 回到线性回归分析对话框。
单击Plots ,打开Linear Regression:Plots (线性回归分析:图形)对话框,如图1-4所示。
完成如下操作。
图1-4 线性回归分析:图形对话框5、单击Continue ,回到线性回归分析对话框,单击Save按钮,打开Linear Regression;Save 对话框,如图1-5所示。
完成如图操作。
图1-5 线性回归分析:保存对话框6、单击Continue ,回到线性回归分析对话框,单击Options 按钮,打开Linear Regression ;Options 对话框,如图1-6所示。
回归分析实验报告实验报告:回归分析摘要:回归分析是一种用于探究变量之间关系的数学模型。
本实验以地气温和电力消耗量数据为例,运用回归分析方法,建立了气温和电力消耗量之间的线性回归模型,并对模型进行了评估和预测。
实验结果表明,气温对电力消耗量具有显著的影响,模型能够很好地解释二者之间的关系。
1.引言回归分析是一种用于探究变量之间关系的统计方法,它通常用于预测或解释一个变量因另一个或多个变量而变化的程度。
回归分析陶冶于20世纪初,经过不断的发展和完善,成为了数量宏大且复杂的数据分析的重要工具。
本实验旨在通过回归分析方法,探究气温与电力消耗量之间的关系,并基于建立的线性回归模型进行预测。
2.实验设计与数据收集本实验选择地的气温和电力消耗量作为研究对象,数据选取了一段时间内每天的气温和对应的电力消耗量。
数据的收集方法包括了实地观测和数据记录,并在数据整理过程中进行了数据的筛选与清洗。
3.数据分析与模型建立为了探究气温与电力消耗量之间的关系,需要建立一个合适的数学模型。
根据回归分析的基本原理,我们初步假设气温与电力消耗量之间的关系是线性的。
因此,我们选用了简单线性回归模型进行分析,并通过最小二乘法对模型进行了估计。
运用统计软件对数据进行处理,并进行了以下分析:1)描述性统计分析:计算了气温和电力消耗量的平均值、标准差和相关系数等。
2)直线拟合与评估:运用最小二乘法拟合出了气温对电力消耗量的线性回归模型,并进行了模型的评估,包括了相关系数、残差分析等。
3)预测分析:基于建立的模型,进行了其中一未来日期的电力消耗量的预测,并给出了预测结果的置信区间。
4.结果与讨论根据实验数据的分析结果,我们得到了以下结论:1)在地的气温与电力消耗量之间存在着显著的线性关系,相关系数为0.75,表明二者之间的关系较为紧密。
2)构建的线性回归模型:电力消耗量=2.5+0.3*气温,模型参数的显著性检验结果为t=3.2,p<0.05,表明回归系数是显著的。
相关与回归分析实验报告记录————————————————————————————————作者:————————————————————————————————日期:学号:2014106146课程论文题目统计学实验学院数学与统计学院专业金融数学班级14金融数学学生姓名罗星蔓指导教师胡桂华职称教授2016 年 6 月21 日相关与回归分析实验报告一、实验目的:用EXCEL进行相关分析和回归分析.二、实验内容:1.用EXCEL进行相关分析.2.用EXCEL进行回归分析.三、实验步骤采用下面的例子进行相关分析和回归分析.学生数学分数(x)统计学分数(y)1 2 3 4 5 6 7 8 9 10 8090609078879045878085927090839094509382相关分析:数学分数(x)统计学分数(y)数学分数(x) 1统计学分数(y) 0.986011 1回归分析:SUMMARY OUTPUT回归统计Multiple R 0.986011R Square 0.972217Adjusted RSquare0.968744标准误差 2.403141观测值x方差分析df SS MS F SignificanceF回归分析11616.6991616.699279.94381.65E-07残差8 46.200695.775086总计9 1662.9Coefficients 标准误差t StatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept 12.32018 4.2862792.874330.0206912.43600522.204362.43600522.20436数学分数(x)0.8968210.05360116.731521.65E-070.7732181.0204240.7732181.020424RESIDUAL OUTPUT观测值预测统计学分数(y)残差标准残差1 84.06587 0.934133 0.4122932 93.03408 -1.03408 -0.45643 66.12945 3.870554 1.7083244 93.03408 -3.03408 -1.339135 82.27223 0.727775 0.3212146 90.34361 -0.34361 -0.151667 93.03408 0.965922 0.4263238 52.67713 -2.67713 -1.181599 90.34361 2.656385 1.17243310 84.06587 -2.06587 -0.9118 PROBABILITY OUTPUT百分比排位统计学分数(y)5 50 15 70 25 82 35 83 45 85 55 90 65 90 75 9285 93 95 94学生成绩020406080100024681012学生编号分数数学分数(x)统计学分数(y)数学分数(x) Residual Plot-4-20246020406080100数学分数(x)残差数学分数(x) Line Fit Plot 050100050100数学分数(x)统计学分数(y )统计学分数(y)预测 统计学分数(y)Normal Probability Plot050100020406080100Sample Percentile统计学分数(y )结果分析相关系数Multiple R=0.986011> 0.8 可以进行回归分析。
实验13 回归分析
【实验目的】
1. 了解回归分析的基本原理,掌握MATLAB 实现的方法;
2. 练习用回归分析解决实际问题。
【实验内容】 【题目2】
电影院调查电视广告费用和报纸广告费用对每周收入的影响,得到下面的数据(见下表), 建立回归模型并进行检验,诊断异常点的存在并进行处理。
2.1 模型分析
本题研究电视广告费用与报纸广告费用对电影收入的影响。
我们首先尝试线性回归,由R 2 值判断回归模型是否合理。
如果不合理, 再采取其他方法进行回归分析。
设电视广告费用为1x ,报纸广告费用为2x ,每周电影院收入为y 。
建立如下模型:
22110x x y βββ++=
2.2 matlab 求解
得到如下结果:
整理成表格如下:
在残差及置信区间的图中,第一个点的残差的置信区间不包含零点,以红色标出。
残差应该服从均值为0的正态分布,可以认为这个数据是异常的,偏离了数据整体的变化趋势,给模型的有效性的精度带来不利影响,应予以剔除。
2.3 剔除点后重新计算
删除第一个点后重新计算,将输出结果同样以表格表示。
剔除第一个异常点后,R2=0.97685,相比之前有了增加,拟合的线性性有了提高;相比之前的模型,p值也有了明显的减少,远小于显著性水平α,这表示置信概率大大提高了;s2 也有了减小,说明了偏差减小。
综合以上几点,说明这个二元线性的模型比较合理,回归效果很好。
拟合公式为y=81.4881+1.2877x1+2.9766x2
2.4 小结
本题是个较为直观的线性回归题,在它的计算中出现了异常点。
剔除后计算可以得到一个回归效果相当好的模型。
【题目8】
汽车销售商认为汽车销售量与汽油价格、贷款利率有关,两种类型汽车(普通型和豪华
型)18个月的调查资料如表,其中y
1是普通型汽车售量(千辆),y
2
是豪华型汽车售量(千
辆),x1是汽油价格(元/gal),x2是贷款利率(%)
(1)对普通型和豪华型汽车分别建立如下模型:
y 1=β
(1)
+β
1
(1)
x1+β
2
(1)
x2,y
2
=β
(2)
+β
1
(2)
x1+β
2
(2)
x2
给出β的估计值和置信区间,决定系数R2,F值及剩余方差等。
(2)用x3=0,1表示汽车类型,建立统一模型y=β
0+β
1
x1+β
2
x2+β
3
x3,给出给出β的
估计值和置信区间,决定系数R2,F值及剩余方差等。
以x3=0,1带入统一模型,将结果与(1)的两个模型的结果比较,解释二者的区别。
(3)对统一模型就每种类型汽车分别作x1和x2与残差的散点图,有什么现象,说明模型有何缺陷?
(4)对统一模型增加二次项和交互相,考察结果有什么改进。
8.1 根据模型分别求解
由题意,对普通型和豪华型汽车分别建立如下模型:
y 1=β
(1)
+β
1
(1)
x1+β
2
(1)
x2,y
2
=β
(2)
+β
1
(2)
x1+β
2
(2)
x2
此为二元线性回归,可用matlab编写程序如下:
得到如下图:
在残差及置信区间的图中,有三个点的残差的置信区间不包含零点,以红色标出。
残差应该服从均值为0的正态分布,可以认为这个数据是异常的,偏离了数据整体的变化趋势,给模型的有效性的精度带来不利影响,应予以剔除。
8.2 剔除点后的模型求解
(1)对于y
1=β
(1)
+β
1
(1)
x1+β
2
(1)
x2
剔除第14、18个点后
继续自此基础上剔除第11个点
(2)对于y
2=β
(2)
+β
1
(2)
x1+β
2
(2)
x2
剔除第14个点后
继续剔除第七个点,得到残差及置信区间图如下:
将输出结果汇总成下表:
可得模型如下:
普通型:y=107.5601-37.9283x1-3.0314x2豪华型:y=29.7583-6.7738x1-1.6367x2
8.3 建立统一模型
建立统一模型y=β
0+β
1
x1+β
2
x2+β
3
x3,用x3=0表示普通型,x3=1表示豪华型,
此时为三元线性回归,可用matlab编写程序如下:
输出如下结果:
可得模型为:y=64.5753−16.1436−2.3322x2−14.4222x3,x3=0表示普通型,x3=1表示豪华型。
即:
普通型:y=64.5753−16.1436−2.3322x2
豪华型:y=50.1531−16.1436−2.3322x2
可以看出:统一模型相当于将分立模型进行了统一:
(1)统一模型的β值趋近于给分立模型的“平均”;
(2)统一模型的残差较大;
(3)统一模型的决定系数较小;
(4)统一模型的拒绝概率较小,到达了10的-12次方量级,说明模型更加有效;
总体上讲,将两者统一后进行回归分析的结果有其优点,但是仍有许多不理想的成分。
8.4 就每种类型汽车分别作x1和x2与残差的散点图
得到如下图形
对比以上各图,发现针对同一变量(x1或x2),两种类型汽车所得的残差变化趋势不一致,说明x1、x2与x3有交互作用,即模型的缺陷是缺少二次项和交互项。
8.5 对统一模型增加二次项和交互相进行回归
(1)增加交互项,改用模型:
y=β
0+β
1
x1+β
2
x2+β
3
x3+β
4
x1x2+β
5
x2x3+β
6
x
3
x1
进行回归分析
得到如下结果:
发现R2、F和s2都有所改善,模型有效的概率也有所提高,但是x1,x2的置信区间都包含0,这应当是由于引入交互项x1x3和x2x3导致的。
(2)增加二次项
改用模型:
y=β
0+β
1
x1+β
2
x2+β
3
x3+β
4
x12+β
5
x22
这里不增加x32是因为它和x3一样。
将程序改为
得到如下结果:
发现x1*x1的置信区间仍包含0点。
(3)综合
综合以上分析,建立如下模型:
y=β
0+β
1
x1+β
2
x2+β
3
x3+β
4
x1x3+β
5
x2x3+β
6
x22
将程序改为
输出结果如下:
拒绝模型的概率达到10的-15次方。
模型如下:
y=25.2153+17.5089x1−0.3020x2−28.2975x3−4.2510x1x3+2.2850x2x3 +0.3184x22
【实验总结】
这是本学期数学实验的最后一次作业,总体来说比较顺利。
这部分内容综合了之前学习过的优化以及统计推断的内容,是综合性较强的一部分,很好地帮助我复习了以前学习过的内容。
收获简要总结如下:
1、学习了回归分析相关知识,包括一元线性回归、多元线性回归以及非线性回归;
2、了解了残差分析、交互作用等内容;
3、学习了使用MATLAB进行回归分析的方法;。