数据分析综合、设计实验报告--用电量问题
- 格式:docx
- 大小:84.17 KB
- 文档页数:5
成都信息工程大学
数据分析实验报告
专业信息与计算科学班级信计142姓名学号
实验日期2017 年 5 月25 日星期四成绩评定
题目
房主对家用电器在他家的电量消耗很关注,因此他计录了21天中每天空调器使用的小时数,他还监测了这些天的电表并计算出使用的千瓦时(度)数,同时还记录了烘干器每天使用的次数(数据见下表)。房主想搞清楚用电量与空调器使用的小时数和烘干器每天使用的次数之间的关系,希望建立一个简单的经验公式来实现。
家用电器用电量数据表
模型
1.假设电表的工作正常,所有的数据都是实际情况的反映。
2.电表在记录用电量时,只有空调或烘干机在使用,再无其他的用电器工作。
3.设耗电量用y表示,空调每天使用小时数用 x1表示,烘干机每天使用的次数用x2表示.
4.假设随机变量是独立同正态分布的随机变量
为了大致的了解y与 x1之间的关系,首先对给出的数据做出两者之间的散点图如(图一):
(图一)
由以上的图形可以知道变量y与x1大致呈线性关系,图中的直线是用线性模型:
y=β0+β1x1+ε(模型一)
拟合的(其中ε是随机误差)。
同样,我们画出了变量y与变量x2之间的关系图:如(图二):
(图二)
由图可以看出,变量y与变量x2近似也呈线性关系,图中的直线使用线性模型拟
合的:
y=β0+β1x2+ε(模型二)
同理其中ε为随机变量。
综合以上的分析,考虑到两个变量的共同作用,结合模型一、二建立如下回归模
型:
y=β0+β1x1+β2x2+ε(模型三)
模型三中右端的变量x1和x2称为回归变量(自变量),β0+β1x1+β2x2是给定变量x1和变量x2时变量y的平均值,其中参数β0、β1、β2称为回归系数。由已知数据可知影响y的其他因素作用都包含在随机变量ε中,如果模型选择的合适,ε应大致服从均值为0的正态分布。
求解方法
对于上述问题,可以直接利用MATLAB统计工具箱的命令regress求解,使用格式为:
[b, bint ,r , rint , stats]=regress(y , x )
其中
y为模型三中y的数据,
x为对应回归系数β=(β0、β1、β2)的数据矩阵rint为r的置信区间,
b是回归系数估计值向量,
bint是b的置信度为95%的置信区间,
r是残差,
rint是r的置信度为95%的置信区间,
stats给出复相关系数的平方R2、F统计量、检验概率p和误差的方差估计量σ2。利用MATLAB编程(代码一如下):
Matlab代码一:
y=[35 63 66 17 94 79 93 66 94 82 78 65 77 75 62 85 43 57 33 65 33]';
x1=[1.5 4.5 5.0 2.0 8.5 6.0 13.5 8.0 12.5 7.5 6.5 8.0 7.5 8.0 7.5 12.0 6.0 2.5 5.0 7.5 6.0]';
x2=[1 2 2 0 3 3 1 1 1 2 3 1 2 2 1 1 0 3 0 1 0]';
x=[ones(21,1),x1,x2];
[b,bint,r,rint,stats]=regress(y,x,0.05)
rcoplot(r,rint)
结果
由程序一求出相应的结果为(表一)所示。:
(表一)
为了便于了解模型的可行性,画出残差向量的分布图(如图三):
(图三)
由残差的分布图三可知,残差基本上是服从均值为0 的正态分布,但是有一个异常值,第21个数据出现异常,因此,去掉异常值后重新进行回归分析(方法与上类似)Matlab代码(代码二)如下所示:
代码二:
>> x1=[1.5 4.5 5 2 8.5 6 13.5 8 12.5 8 6.5 8 7.7 8 7.5 12 6 2.5 5 7.5 ]'; >> x2=[1 2 2 0 3 3 1 1 1 2 3 1 2 2 1 1 0 3 0 1]';
>> y=[35 63 66 17 94 79 93 66 94 82 78 65 77 75 62 85 43 57 33 65 ]'; >> x=[ones(20,1),x1,x2];
>> [b,bint,r,rint,stats]=regress(y,x,0.05) rcoplot(r,rint)
>> rcoplot(r,rint)
得到新的结果:(如表二所示)
(表二)
参数参数估计值参数置信区间
β09.7651 [5.2967 14.2334]
β1 5.4149 [4.9315 5.8982]
β212.4844 [10.9290 14.0397] R2=0.9794 F=404.6498 P < 0.0000 σ2=102.0250
残差向量分布图(如图四所示):
(图四)
结果分析
由表一可知 R2= 0.9709指因变量y(耗电量)的9 7.09% 可由模型确定,F值远远超过F检验的临界值,P值又远远小于α ,从而整体是可用的,但由其残差分布图可知这组数据存在异常值(第21个数据)故去掉异常值则模型还可以改进。由表二可知 R2=0.9794 则因变量y的97.94% 可有模型确定,F值远远超过F检验的临界值,P值又远远小于α。因此,相比而言由表二确定的模型是最优的即:
y=9.7651+5.4149x1+12.4844x2
从残差图(图四)中点的杂乱无章的分布可以看出线性回归关系显著;
从复相关系数的平方R2=0.9794也可说明线性回归关系显著;
从P值看:P≈0也可看出线性回归关系显著。