数学建模方法之统计回归总结
- 格式:doc
- 大小:73.50 KB
- 文档页数:7
统计回归总结
由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以我们通过对数据的统计分析,找出与数据拟合最好的模型。
我们通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进:
回归分析步骤如下:
●收集一组因变量和自变量的数据
●选定因变量和自变量之间的模型,利用数据最小二乘准则计算模
型中的系数
●利用统计分析方法对不同的模型进行比较找出与数据拟合得最好
的模型
●判断这组模型是否适合于这组数据诊断有无不适合回归模型的异
常数据
●利用模型对因变量做出预测与解释
实例分析
一、牙膏的销售量
题目:
收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,请根据对数据的处理建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙
膏销售量。
分析与假设
根据对题目中数据进行处理,作散点图分析(MATLAB )应用格式
Plot(x,y,’’)
Plotfit(x,y,1),其中x 表示y 模型建立与求解
假设y ~公司牙膏销售量,x 1~其它厂家与本公司价格差
(1)x 2~公司广告费用
(2)将(1)、(2)式子联立可以得到
εββ++=110x y εβββ+++=2
22210x x y ε
ββββ++++=22322110x x x y
(3)
y~被解释变量(因变量)
x1,x2~解释变量(回归变量,自变量)
β0,β1,β2,β3~回归系数
ε~随机误差(均值为零的正态分布随机变量)
利用MATLAB工具求解可以得到。
格式如下
[b,bint,r,rint,stats]=regress(y,x,alpha)
输入:
y~n维数据向量
x=[1 x1 x2 x22 ]~n×4数据矩阵,第一列为全1向量
alpha(置信水平,0.05)
输出:
b~β的估计值
bint~b的置信区间
r ~残差向量y-xb
rint~r的置信区间
Stats~检验统计回归模型;检验统计量:R2,F,p
注:其中R2越接近1越好,F远超过F检验的临界值,p远小于α=0.05
则可行
假如R 2,F,p 满足条件,则我们说模型从整体上看成立 结果分析
判断出 R 2,F,p 均成立,则模型可用,但因为β2的置信区间通过0点,则说明此项对模型的影响不显著所以要对模型进行改进。 模型进行改进
改进的方式是加入交叉项,则模型变为
(4)
然后用MATLAB 求解检验,通过模型(3)、(4)的结果进行对比可以得到预测区间长度更短及系数的置信区间都不过0点,则可证明此(4)模型比(3)模型更精确 通过画图比较可以得出结论:
价格优势会使销售量增加 (x 2小于7.5357百万元) 加大广告投入使销售量增加 (x 2大于6百万元) 对模型进行进一步改进
因为MATLAB 中有工具箱rstool(x,y)命令可以直接对完全二次多项式进行求解,所以将模型(4)改进为
(5)
结果分析得到(4)与(5)模型预测结果相差不大,则可以证明模
ε
βββββ+++++=2142
2322110x x x x x y εββββββ++++++=2
2521421322110x x x x x x y
型的正确性。
2、软件开发人员的薪金
题目要求:
●建立模型研究薪金与资历、管理责任、教育程度的关系;
●分析人事策略的合理性,作为新聘用人员薪金的参考。
软件开发人员的薪金与他们的资历、管理责任、教育程度
资历~ 从事专业工作的年数;
管理~ 1=管理人员,0=非管理人员;
教育~ 1=中学,2=大学,3=更高程度。
分析与假设
y~薪金,x1~资历(年)x2=1~ 管理人员,x2=0~非管理人员教育1=中学2=大学3=更高
可以得到表达方式: 中学:x 3=1,x 4=0; 大学:x 3=0,x 4=1; 更高:x 3=0,x 4=0。 模型的建立求解
资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用 可以建立模型
(
1)
a 0,a 1,…,a 4是待估计的回归系数,ε是随机误差 检验与改进
模型R 2,F,p →模型整体上可用,但是得出a 4置信区间包含零点,解释不可靠。
用残差分析法进行分析残差大概分成3个水平,6种管理—教育组合混在一起,未正确反映。
所以我们将6种管理—教育分类可以得到下表
⎩⎨
⎧=其它
中学,,x 013⎩⎨
⎧=其它
大学
,,x 014ε
+++++=443322110x a x a x a x a a y
残差全为正,或全为负,管理—教育组合处理不当,所以对模型进行改进,应在模型中增加管理x2与教育x3,x4的交互项。
在进行求解得到模型的结果比较精确了。
此例题特色:
●对定性因素(如管理、教育),可以引入0-1变量处理,0-1变量的
个数应比定性因素的水平少1。
●残差分析方法可以发现模型的缺陷,引入交互作用项常常能够改
善模型。
●剔除异常数据,有助于得到更好的结果。
统计回归小结
从这两个实例中我们可以看到,建立回归模型可以先根据已知的数据,从常识和经验进行分析,辅以做图,决定取哪几个回归变量,及他们的函数形式(如线性的、二次的)用软件(MATLAB)求解后,作统计分析:R2,F,p值的大小是对模型的整体评价,每个回归系数置信区间是否包含零点,可以用来检验对应得回归变量对因变量的影响是否显著(若包含零点则不显著),如果对结果不够满意,则应该改进模型,如添加二次项、交互项等。