关于matlab的回归分析教学教案
- 格式:ppt
- 大小:1.93 MB
- 文档页数:80
利用MATLAB进行回归分析一、实验目的:1.了解回归分析的基本原理,掌握MATLAB实现的方法;2. 练习用回归分析解决实际问题。
二、实验内容:题目1社会学家认为犯罪与收入低、失业及人口规模有关,对20个城市的犯罪率y(每10万人中犯罪的人数)与年收入低于5000美元家庭的百分比1x、失业率2x和人口总数3x(千人)进行了调查,结果如下表。
(1)若1x~3x中至多只许选择2个变量,最好的模型是什么?(2)包含3个自变量的模型比上面的模型好吗?确定最终模型。
(3)对最终模型观察残差,有无异常点,若有,剔除后如何。
理论分析与程序设计:为了能够有一个较直观的认识,我们可以先分别作出犯罪率y与年收入低于5000美元家庭的百分比1x、失业率2x和人口总数x(千人)之间关系的散点图,根据大致分布粗略估计各因素造3成的影响大小,再通过逐步回归法确定应该选择哪几个自变量作为模型。
编写程序如下:clc;clear all;y=[11.2 13.4 40.7 5.3 24.8 12.7 20.9 35.7 8.7 9.6 14.5 26.9 15.736.2 18.1 28.9 14.9 25.8 21.7 25.7];%犯罪率(人/十万人)x1=[16.5 20.5 26.3 16.5 19.2 16.5 20.2 21.3 17.2 14.3 18.1 23.1 19.124.7 18.6 24.9 17.9 22.4 20.2 16.9];%低收入家庭百分比x2=[6.2 6.4 9.3 5.3 7.3 5.9 6.4 7.6 4.9 6.4 6.0 7.4 5.8 8.6 6.5 8.36.7 8.6 8.4 6.7];%失业率x3=[587 643 635 692 1248 643 1964 1531 713 749 7895 762 2793 741 625 854 716 921 595 3353];%总人口数(千人)figure(1),plot(x1,y,'*');figure(2),plot(x2,y,'*');figure(3),plot(x3,y,'*');X1=[x1',x2',x3'];stepwise(X1,y)运行结果与结论:犯罪率与低收入散点图犯罪率与失业率散点图犯罪率与人口总数散点图低收入与失业率作为自变量低收入与人口总数作为自变量失业率与人口总数作为自变量在图中可以明显看出前两图的线性程度很好,而第三个图的线性程度较差,从这个角度来说我们应该以失业率和低收入为自变量建立模型。
利用 Matlab 作回归分析一元线性回归模型:2,(0,)y x N αβεεσ=++求得经验回归方程:ˆˆˆyx αβ=+ 统计量: 总偏差平方和:21()n i i SST y y ==-∑,其自由度为1T f n =-; 回归平方和:21ˆ()n i i SSR y y ==-∑,其自由度为1R f =; 残差平方和:21ˆ()n i i i SSE y y ==-∑,其自由度为2E f n =-;它们之间有关系:SST=SSR+SSE 。
一元回归分析的相关数学理论可以参见《概率论与数理统计教程》,下面仅以示例说明如何利用Matlab 作回归分析。
【例1】为了了解百货商店销售额x 与流通费率(反映商业活动的一个质量指标,指每元商品流转额所分摊的流通费用)y 之间的关系,收集了九个商店的有关数据,见下表1.试建立流通费率y 与销售额x 的回归方程。
表1 销售额与流通费率数据【分析】:首先绘制散点图以直观地选择拟合曲线,这项工作可结合相关专业领域的知识和经验进行,有时可能需要多种尝试。
选定目标函数后进行线性化变换,针对变换后的线性目标函数进行回归建模与评价,然后还原为非线性回归方程。
【Matlab数据处理】:【Step1】:绘制散点图以直观地选择拟合曲线x=[1.5 4.5 7.5 10.5 13.5 16.5 19.5 22.5 25.5];y=[7.0 4.8 3.6 3.1 2.7 2.5 2.4 2.3 2.2];plot(x,y,'-o')输出图形见图1。
510152025图1 销售额与流通费率数据散点图根据图1,初步判断应以幂函数曲线为拟合目标,即选择非线性回归模型,目标函数为:(0)b y ax b =< 其线性化变换公式为:ln ,ln v y u x == 线性函数为:ln v a bu =+【Step2】:线性化变换即线性回归建模(若选择为非线性模型)与模型评价% 线性化变换u=log(x)';v=log(y)';% 构造资本论观测值矩阵mu=[ones(length(u),1) u];alpha=0.05;% 线性回归计算[b,bint,r,rint,states]=regress(v,mu,alpha)输出结果:b =[ 2.1421; -0.4259]表示线性回归模型ln=+中:lna=2.1421,b=-0.4259;v a bu即拟合的线性回归模型为=-;y x2.14210.4259bint =[ 2.0614 2.2228; -0.4583 -0.3934]表示拟合系数lna和b的100(1-alpha)%的置信区间分别为:[2.0614 2.2228]和[-0.4583 -0.3934];r =[ -0.0235 0.0671 -0.0030 -0.0093 -0.0404 -0.0319 -0.0016 0.0168 0.0257]表示模型拟合残差向量;rint =[ -0.0700 0.02300.0202 0.1140-0.0873 0.0813-0.0939 0.0754-0.1154 0.0347-0.1095 0.0457-0.0837 0.0805-0.0621 0.0958-0.0493 0.1007]表示模型拟合残差的100(1-alpha)%的置信区间;states =[0.9928 963.5572 0.0000 0.0012] 表示包含20.9928SSR R SST==、 方差分析的F 统计量/963.5572//(2)R E SSR f SSR F SSE f SSE n ===-、 方差分析的显著性概率((1,2))0p P F n F =->≈; 模型方差的估计值2ˆ0.00122SSE n σ==-。
matlab回归分析课程设计一、课程目标知识目标:1. 掌握Matlab软件的基本操作,熟悉其回归分析工具箱的使用;2. 理解线性回归、多项式回归等基本回归分析方法的理论知识;3. 学会运用回归分析处理实际问题,并对结果进行合理分析。
技能目标:1. 能够运用Matlab软件进行数据预处理,包括数据清洗、缺失值处理等;2. 能够独立完成线性回归、多项式回归等模型建立与求解;3. 能够运用所学方法对实际问题进行预测分析,并撰写分析报告。
情感态度价值观目标:1. 培养学生对数据分析的兴趣,激发其探索精神;2. 培养学生严谨的科学态度,注重实际问题的解决;3. 增强团队合作意识,学会与他人共同解决问题。
课程性质:本课程为应用型课程,以实际应用为导向,结合Matlab软件,让学生在实践中掌握回归分析的方法。
学生特点:学生具备一定的数学基础,了解基本的统计学原理,对实际应用有较高的兴趣。
教学要求:教师需结合实际案例,引导学生运用Matlab软件进行回归分析,注重理论与实践相结合,培养学生的实际操作能力。
同时,关注学生的情感态度,激发其学习兴趣,提高教学效果。
通过本课程的学习,使学生能够达到上述课程目标,并为后续相关课程打下坚实基础。
二、教学内容1. Matlb软件入门- 软件安装与界面熟悉- 基本命令与操作2. 数据预处理- 数据导入与导出- 数据清洗与缺失值处理- 数据可视化3. 回归分析基本理论- 线性回归模型- 多项式回归模型- 最小二乘法求解4. 回归模型建立与求解- 使用Matlab建立回归模型- 模型参数估计与检验- 模型优化与预测5. 实际案例分析- 案例选择与数据准备- 模型应用与结果分析- 撰写分析报告6. 课程总结与拓展- 回归分析在实际应用中的价值- 回归分析的其他方法介绍- 拓展阅读与讨论教学内容安排与进度:第一周:Matlb软件入门及基本操作第二周:数据预处理及数据可视化第三周:回归分析基本理论第四周:回归模型建立与求解第五周:实际案例分析第六周:课程总结与拓展教材章节关联:《应用统计学》第四章:回归分析《Matlab实用教程》第六章:数据分析与统计三、教学方法本课程将采用以下多样化的教学方法,以激发学生的学习兴趣和主动性:1. 讲授法:通过教师对基本概念、理论知识和方法原理的系统讲解,为学生奠定扎实的理论基础。
本次(běn cì)教程的主要内容包含:一、多元(duō yuán)线性回归 2#多元(duō yuán)线性回归:regress二、多项式回归(huíguī) 3#一元(yī yuán)多项式:polyfit或者polytool 多元二项式:rstool或者rsmdemo三、非线性回归 4#非线性回归:nlinfit四、逐步回归 5#逐步回归:stepwise一、多元线性回归多元线性回归:1、b=regress(Y, X ) 确定回归系数的点估计值2、[b, bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检验回归模型①bint表示回归系数的区间估计.②r表示残差③rint表示置信区间④stats表示用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p说明:相关系数r2越接近1,说明回归方程越显著;时拒绝H0,F越大,说明回归方程越显著;与F对应的概率p<α时拒绝H0⑤alpha表示显著性水平(缺省时为0.05)3、rcoplot(r,rint)画出残差及其置信区间具体参见下面的实例演示4、实例演示,函数使用说明(1)输入数据1.>>x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';2.>>X=[ones(16,1) x];3.>>Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';复制代码(2)回归分析及检验1. >> [b,bint,r,rint,stats]=regress(Y,X)2.3. b =4.5. -16.07306. 0.71947.8.9.bint =10.11. -33.7071 1.561212. 0.6047 0.834013.14.15.r =16.17. 1.205618. -3.233119. -0.952420. 1.328221. 0.889522. 1.170223. -0.987924. 0.292725. 0.573426. 1.854027. 0.134728. -1.584729. -0.304030. -0.023431. -0.462132. 0.099233.34.35.rint =36.37. -1.2407 3.652038. -5.0622 -1.404039. -3.5894 1.684540. -1.2895 3.945941. -1.8519 3.630942. -1.5552 3.895543. -3.7713 1.795544. -2.5473 3.132845. -2.2471 3.393946. -0.7540 4.462147. -2.6814 2.950848. -4.2188 1.049449. -3.0710 2.463050. -2.7661 2.719351. -3.1133 2.189252. -2.4640 2.662453.54.55.stats =56.57. 0.9282 180.9531 0.0000 1.7437复制代码运行结果解读如下参数回归结果为,对应的置信区间分别为[-33.7017,1.5612]和[0.6047,0.8r2=0.9282(越接近于1,回归效果越显著),F=180.9531, p=0.0000,由p<0.05, 可知回归模型y=-16.073+0.7194x成立(3)残差分析作残差图1.rcoplot(r,rint)复制代码从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点。
本次教程的主要内容包含:一、多元线性回归 2#多元线性回归:regress二、多项式回归 3#一元多项式:polyfit或者polytool 多元二项式:rstool或者rsmdemo三、非线性回归 4#非线性回归:nlinfit四、逐步回归 5#逐步回归:stepwise一、多元线性回归多元线性回归:1、b=regress(Y, X ) 确定回归系数的点估计值2、[b, bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检验回归模型①bint表示回归系数的区间估计.②r表示残差③rint表示置信区间④stats表示用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p说明:相关系数r2越接近1,说明回归方程越显著;时拒绝H0,F越大,说明回归方程越显著;与F对应的概率p<α时拒绝H0⑤alpha表示显著性水平(缺省时为0.05)3、rcoplot(r,rint)画出残差及其置信区间具体参见下面的实例演示4、实例演示,函数使用说明(1)输入数据1.>>x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';2.>>X=[ones(16,1) x];3.>>Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';复制代码(2)回归分析及检验1. >> [b,bint,r,rint,stats]=regress(Y,X)2.3. b =4.5. -16.07306.0.71947.8.9.bint =11. -33.7071 1.561212.0.6047 0.834013.14.15.r =16.17. 1.205618. -3.233119. -0.952420. 1.328221.0.889522. 1.170223. -0.987924.0.292725.0.573426. 1.854027.0.134728. -1.584729. -0.304030. -0.023431. -0.462132.0.099233.34.35.rint =36.37. -1.2407 3.652038. -5.0622 -1.404039. -3.5894 1.684540. -1.2895 3.945941. -1.8519 3.630942. -1.5552 3.895543. -3.7713 1.795544. -2.5473 3.132845. -2.2471 3.393946. -0.7540 4.462147. -2.6814 2.950848. -4.2188 1.049449. -3.0710 2.463050. -2.7661 2.719351. -3.1133 2.189252. -2.4640 2.662453.55.stats =56.57.0.9282 180.9531 0.0000 1.7437复制代码运行结果解读如下参数回归结果为,对应的置信区间分别为[-33.7017,1.5612]和[0.6047,0.834]r2=0.9282(越接近于1,回归效果越显著),F=180.9531,p=0.0000,由p<0.05, 可知回归模型y=-16.073+0.7194x成立(3)残差分析作残差图1.rcoplot(r,rint)复制代码从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点。