一般线性回归分析案例

格式：doc
大小：173.00 KB
文档页数：6

下载文档原格式

一元线性回归案例

Hale Waihona Puke 0.5%和56.3%. OLS回归线为
S=963.191+18.501R
例9. CEO薪水与股本回报率
OLS回归线为 S=963.191+18.501R N=209, R^2=0.0132
企业股本回报率只能解释薪水变异中的 1.3%.
例2. 一个简单的工资方程
美国研究者以1976年的526名美国工人为样本，OLS回归方程为：
W=-0.90 +0.54 E 这里W单位为美元/小时，E单位为年. E平均工资计算为5.90美元/小时. 根据消费者价格指数，这一数值相当于2003
年的19.06美元.
例2. 一个简单的工资方程
对同样的数据，但是把log(w)作为因变量，得到的回归方程为：
Log(invpc)=-0.550+1.24log(price) (0.043) (0.382)
N=42 R^2=0.208 显著性检验不明显,事实上这一关系也是错误的,未
来我们将加上时间序列分析中特有的趋势分析说名这个问题.
例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸额增长的弹性分析.以Y表示集装箱吞吐量( 百万标准箱),X表示外贸额(百亿美元).
出勤率无关，但这几乎不可能.
例5. 学校的数学成绩与学校午餐项目
以math10表示高中十年级学生在一次标准化数学考试中通过的百分比.lnchprg表示有资格接受午餐计划的学生的百分比.
若其他条件不变,若学生太贫穷不能保证正常饮食,可以有资格接受学校午餐项目的资助, 他的成绩应有所提高.
例5. 学校的数学成绩与学校午餐项目
1992-1993学年美国密歇根州408所高中的数据的OLS回归方程:

一般线性回归分析案例

一般线性回归分析案例1、案例为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响，随机抽取了30个观测数据，基于多员线性回归分析的理论方法，对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。

这里，被解释变量为血红蛋白浓度（y）,解释变量为钙(ca)、铁(fe)、铜(cu)。

表一血红蛋白与钙、铁、铜必需元素含量(血红蛋白单位为g；钙、铁、铜元素单位为ug)case y（g）ca fe cu1 7.00 76.90 295.30 0.8402 7.25 73.99 313.00 1.1543 7.75 66.50 350.40 0.7004 8.00 55.99 284.00 1.4005 8.25 65.49 313.00 1.0346 8.25 50.40 293.00 1.0447 8.50 53.76 293.10 1.3228 8.75 60.99 260.00 1.1979 8.75 50.00 331.21 0.90010 9.25 52.34 388.60 1.02311 9.50 52.30 326.40 0.82312 9.75 49.15 343.00 0.92613 10.00 63.43 384.48 0.86914 10.25 70.16 410.00 1.19015 10.50 55.33 446.00 1.19216 10.75 72.46 440.01 1.21017 11.00 69.76 420.06 1.36118 11.25 60.34 383.31 0.91519 11.50 61.45 449.01 1.38020 11.75 55.10 406.02 1.30021 12.00 61.42 395.68 1.14222 12.25 87.35 454.26 1.77123 12.50 55.08 450.06 1.01224 12.75 45.02 410.63 0.89925 13.00 73.52 470.12 1.65226 13.25 63.43 446.58 1.23027 13.50 55.21 451.02 1.01828 13.75 54.16 453.00 1.22029 14.00 65.00 471.12 1.21830 14.25 65.00 458.00 1.0002、回归分析表2 变量说明表输入／移去的变量a模型输入的变量移去的变量方法1 cu, fe,ca b. 输入a. 因变量: yb. 已输入所有请求的变量。

线性回归案例

线性回归案例线性回归是统计学中一种常见的建模方法，用于研究自变量和因变量之间的关系。

在本文中，我们将通过一个实际的案例来介绍线性回归的应用和分析过程。

假设我们是一家房地产公司的数据分析师，公司希望了解房屋的售价与其面积之间的关系，以便更好地定价和销售房屋。

我们收集了一些房屋的数据，包括房屋的面积和售价，现在我们将利用线性回归模型来分析这些数据。

首先，我们需要对数据进行可视化分析，以便更直观地了解变量之间的关系。

我们可以绘制散点图来展现房屋面积与售价之间的关系，通过观察散点图，我们可以大致判断出是否存在线性关系，并初步了解数据的分布情况。

接下来，我们可以利用线性回归模型来拟合数据，建立房屋面积与售价之间的数学模型。

线性回归模型的数学表达式为，Y = β0 + β1X + ε，其中Y表示因变量（售价），X表示自变量（面积），β0和β1分别表示截距和斜率，ε表示误差。

通过拟合线性回归模型，我们可以得到最优的截距和斜率的估计值，从而建立起房屋面积与售价之间的线性关系。

同时，我们还可以利用拟合的模型对房屋售价进行预测，从而帮助公司更好地制定定价策略。

除了建立模型和进行预测，我们还需要对模型的拟合效果进行评估。

常用的评估指标包括均方误差（MSE）、决定系数（R-squared）等，这些指标可以帮助我们判断模型的拟合程度和预测精度，从而更好地理解房屋面积与售价之间的关系。

最后，我们需要对线性回归模型的结果进行解释和分析，从统计学的角度来解释房屋面积对售价的影响程度。

通过对模型结果的解释，我们可以为公司提供更深入的市场分析和房屋定价建议，从而更好地满足客户的需求。

通过以上实例，我们可以看到线性回归在实际数据分析中的应用和重要性。

通过建立数学模型、进行预测和评估，线性回归可以帮助我们更好地理解变量之间的关系，为决策提供更有力的支持。

希望本文的案例分析能够帮助读者更好地理解线性回归的应用和分析过程，为实际工作中的数据分析提供一些启发和帮助。

一元线性回归案例

例8. 集装箱吞吐量与外贸额
2001-2006年中国集装箱吞吐量增长与外贸额增长的弹性分析.以Y表示集装箱吞吐量 (百万标准箱),X表示外贸额(百亿美元). OLS回归方程为 Y=3.7667+0.509X (2.06) (31.78) t (5)=2.776 n=6 R^2=0.996
0.1
例8. 集装箱吞吐量与外贸额
例8. 集装箱吞吐量与外贸额
2001-2007年中国集装箱吞吐量增长与外贸额增长的弹性分析.以Y表示集装箱吞吐量增长率(%),X表示外贸额增长率(%). OLS回归方程为 Y=18.449+0.3155X (2.3982) (1.078) t (5)=2.015 n=7 R^2=0.1887
0.1
例4. 考试分数与出勤率
假如期末考试的分数(score)取决于出勤率 (attend)和影响考试成绩的其他无法观测因素（如学生能力等）： score= β1+β2 attend+u 许多不加分析的回归发现：这一回归中β2 〈0，即分数与出勤率负相关. 这一模型在什么情况下满足均值独立条件？除非学生学习能力、学习攻击、年龄及其他因素与出勤率无关，但这几乎不可能.
例3. 静态菲利普斯曲线
时间序列数据令inf(t)表示年通货膨胀率,unem(t)表示事业率, 下列菲利普斯曲线假定了一个不变的自然失业率和固定的通货膨胀率预期. Inf(t)=β1+β2 unem(t)+u 依据1948-1996年美国经济数据, OLS回归方程为 Inf(t)=1.42+0.468 unem(t) (1.72) (0.289) n=49 R^2=0.053
例5. 学校的数学成绩与学校午餐项目

一元线性回归分析案例

求根据一名女大学生的身高预报她的体重的回归方程，并预报一名身高为 172cm的女大学生的体重。
解：1、选取身高为自变量x，体重为因变量y，作散点图：
2、由散点图知道身高和体重有比较好的线性相关关系，因此可以用线性回归方程刻画它们之间的关系。
第17页/共39页
课题：选修2-3 8.5 回归分析案例
分析：由于问题中要求根据身高预报体重，因此选取身高为自变量，体重为因变量．
再冷的石头，坐上三年也会暖 !
1. 散点图；
2.回归方程： yˆ 0.849x 85.172 身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg)
本例中, r=0.798>0.75．这表明体重与身高有很强的线性相关关系，从而也表明我们建立的回归模型是有意义的。
xi2
2
nx
,......(2)
i 1
i 1
其中x
1 n
n i 1
xi ,
y
1 n
n i 1
yi .
(x, y) 称为样本点的中心。
第8页/共39页
课题：选修2-3 8.5 回归分析案例
再冷的石头，坐上三年也会暖 !
1、回归直线方程
1、所求直线方程叫做回归直线方程；
相应的直线叫做回归直线。
2、对两个变量进行的线性分析叫做线性回归分析。
然后，我们可以通过残差 e1, e2 , , en 来判断模型拟合的效果，
判断原始数据中是否存在可疑数据，这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 1
2
3
4
5

一般线性回归分析案例

一般线性回归分析案例
案例背景：
在本案例中，我们要研究一个公司的运营数据，并探究它们之间的关
联性。

这家公司的运营数据包括：它的营业额（单位：万元）、产品质量
指数（QI）、客户满意度（CSI）和客户数量。

我们的目标是建立营业额
与其他变量之间的关联性模型，来预测公司未来的营业额。

资料收集：
首先，我们需要收集有关营业额、QI、CSI和客户数量的数据，以进
行分析。

从历史记录上可以收集到过去六个月的数据。

数据预处理：
接下来，我们需要对数据进行预处理，可以使用Excel进行格式整理，将数据归类分组，并计算总营业额。

建立模型：
接下来，我们就可以利用SPSS软件来建立一般线性回归模型，模型
表示为：Y=β0+β1X1+β2X2+…+βnXn。

其中，Y代表营业额，X1、
X2…Xn代表QI、CSI和客户数量等因素。

模型检验：
接下，我们要对模型进行检验，确定哪些因素与营业额有关联性，检
验使用R方和显著性检验确定系数的有效性。

线性回归经典假设的分析(案例)

线性回归经典假设的分析（案例）多重共线性分析财政收入是一个国家政府部门的公共收入。

国家财政收入的规模大小往往是衡量其经济实力的重要标志。

近20年来，我国财政收入一直保持着快速增长态势，经济总体发展良好。

一个国家财政收入的规模要受到经济规模等诸多因素的影响。

因此我们以财政收入为被解释变量，建立财政收入影响因素模型，分析影响财政收入的主要因素及其影响程度。

财政收入的因素众多复杂，但是通过研究经济理论对财政收入的解释以及对实践的考察，我们选取影响财政收入的因素为工业总产值、农业总产值、建筑业总产值、社会商品零售总产值、人口总数和受灾面积。

将这六个变量作为解释变量，财政收入作为被解释变量，利用1989~2003年数据建立中国国家财政收入计量经济模型，资料如下表。

表1 影响财政收入的因素资料（资料来源：《中国统计年鉴2004》）使用上述数据建立多元线性模型，采用普通最小二乘法得到国家财政收入估计方程为：1234562(0.46)(0.44)(8.59)(0.03)(3.80)(0.65)( 1.53)6922.5880.1260.9360.0400.5720.0920.0470.998620.56Y X X X X X X R F ---=-+-+++-==由上可以看出模型的拟合优度2R 和F 值都较大，说明建立的回归方程显著。

但在显著性水平为5%下， t (15)=2.131，大多数回归参数的t 检验不显著，若据此判断大部分因素对财政收入的影响不显著。

因此可以判定解释变量之间存在严重的多重共线性。

采用逐步回归法对解释变量进行筛选。

分别将Y 与各解释变量作一元线性回归方程，以拟合优度值最大的模型为基础，将其余变量依次引入方程中。

经过我们多次比较各模型的F 值和各参数的t 值，最终确定的模型为：242(1.79)(13.42)(35.57)519.6780.8120.7230.9971943.91Y X X R F -=-+==该模型的经济意义十分明显，即财政收入主要取决于农业总产值和社会商品零售总产值，各因素数量的变化引起财政收入总量变化的程度由各自的系数来反映。

一元线性回归模型案例分析

一元线性回归模型案例分析一、研究的目的要求居民消费在社会经济的持续发展中有着重要的作用。

居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长，而且这也是人民生活水平的具体体现。

改革开放以来随着中国经济的快速发展，人民生活水平不断提高，居民的消费水平也不断增长。

但是在看到这个整体趋势的同时，还应看到全国各地区经济发展速度不同，居民消费水平也有明显差异。

例如，2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元，最高的上海市达人均10464元，上海是黑龙江的2.35倍。

为了研究全国居民消费水平及其变动的原因，需要作具体的分析。

影响各地区居民消费支出有明显差异的因素可能很多，例如，居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。

为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。

二、模型设定我们研究的对象是各地区居民消费的差异。

居民消费可分为城市居民消费和农村居民消费，由于各地区的城市与农村人口比例及经济结构有较大差异，最具有直接对比可比性的是城市居民消费。

而且，由于各地区人口和经济总量不同，只能用“城市居民每人每年的平均消费支出”来比较，而这正是可从统计年鉴中获得数据的变量。

所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。

因为研究的目的是各地区城市居民消费的差异，并不是城市居民消费在不同时间的变动，所以应选择同一时期各地区城市居民的消费支出来建立模型。

因此建立的是2002年截面数据模型。

影响各地区城市居民人均消费支出有明显差异的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入，其他因素虽然对居民消费也有影响，但有的不易取得数据，如“居民财产”和“购物环境”；有的与居民收入可能高度相关，如“就业状况”、“居民财产”；还有的因素在运用截面数据时在地区间的差异并不大，如“零售物价指数”、“利率”。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一般线性回归分析案例
1、案例
为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响，随机抽取了30个观测数据，基于多员线性回归分析的理论方法，对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。

这里，被解释变量为血红蛋白浓度（y）,解释变量为钙(ca)、铁(fe)、铜(cu)。

表一血红蛋白与钙、铁、铜必需元素含量
(血红蛋白单位为g；钙、铁、铜元素单位为ug)
case y（g）ca fe cu
1 7.00 76.90 295.30 0.840
2 7.25 73.99 313.00 1.154
3 7.75 66.50 350.40 0.700
4 8.00 55.99 284.00 1.400
5 8.25 65.49 313.00 1.034
6 8.25 50.40 293.00 1.044
7 8.50 53.76 293.10 1.322
8 8.75 60.99 260.00 1.197
9 8.75 50.00 331.21 0.900
10 9.25 52.34 388.60 1.023
11 9.50 52.30 326.40 0.823
12 9.75 49.15 343.00 0.926
13 10.00 63.43 384.48 0.869
14 10.25 70.16 410.00 1.190
15 10.50 55.33 446.00 1.192
16 10.75 72.46 440.01 1.210
17 11.00 69.76 420.06 1.361
18 11.25 60.34 383.31 0.915
19 11.50 61.45 449.01 1.380
20 11.75 55.10 406.02 1.300
21 12.00 61.42 395.68 1.142
22 12.25 87.35 454.26 1.771
23 12.50 55.08 450.06 1.012
24 12.75 45.02 410.63 0.899
25 13.00 73.52 470.12 1.652
26 13.25 63.43 446.58 1.230
27 13.50 55.21 451.02 1.018
28 13.75 54.16 453.00 1.220
29 14.00 65.00 471.12 1.218
30 14.25 65.00 458.00 1.000
2、回归分析
R方为0.813，接近于1，说明总体回归效果较好。

++++
表4是用方差分析对整个回归方程做了显著性检验，其中F=37.743，对应的概率P值近似为0。

若显著性水平ᵅ为0.05，则因概率小于ᵅ，拒绝回归方程显著性检验的原假设，即回归系数不同时为0，解释变量全体与被解释变量存在显著的线性关系，选择线性模型具有合理性。

表5用方差分析对每个因变量做了偏回归分析，是关于回归系数及显著性检验的计算结果如下：
在表中，常数项的t的显著性概率0.364大于0.05，表示常数项与0没有显著性差异，它不应出现在方程中。

钙含量的t的显著性概率0.026小于0.05，表示钙含量的系数与0有显著性差异，钙含量应作为解释变量存在于方程中。

铁含量的t的显著性概率0.000小于0.05，表示钙含量的系数与0有显著性差异，钙含量应作为解释变量存在于方程中。

铜含量的t的显著性概率0.305大于0.05，表示铜含量的系数与0有显著性差异，铜含量应作为解释变量存在于方程中。

由此可见，钙含量和铁含量可以作为解释变量在方程中来解释血红蛋白含量的变化，而铜含量则应该被剔除。

将铜含量从解释变量中剔除再次做回归分析，的到如下分析结果:
自变量减少了一个“铜”含量后，R方由0.813变为0.805，由此可见，去掉铜元素含量后，线性回归方程中的自变量对因变量的影响变化不大；
表7 回归方差分析表（2）
表8 回归系数及显著性检验表（2）
表7 多重共线性检验的特征值及条件指数
a. 因变量: y（g）
表6中，最大特征值为2.969，其余依次快速减小。

第三列各个条件指数均不大，可认为多重共线性较弱。

图1：
图1是残差正态性的图形结果，可以看到参数围绕基准线仍存在一定规律性。

图2 回归方程标准化预测值与标准化残差散点图
图2表明，不存在明显的异方差现象。

最终的回归方程为:
Z=-0.184X+0.915Y
其中，Z表示儿童梅100毫升血中的血红蛋白的含量，单位为g;
X表示儿童每100毫升血中钙元素的含量，单位为ug；
Y表示儿童每100毫升血中铁元素的含量，单位为ug。

方程表明，铁元素含量与血红蛋白含量存在正相关，而钙元素含量与血红蛋白含量存在负相关性，由此，当人体内血红蛋白浓度偏低时，就需要补充铁元素，减少钙元素的摄入量，铜元素则没有显著性影响。

一般线性回归分析案例

合集下载

相关和回归的有趣案例

一元线性回归案例

一般线性回归分析案例

相关分析回归分析案例

线性回归案例

一元线性回归案例

一元线性回归分析案例

一般线性回归分析案例

线性回归经典假设的分析(案例)

一元线性回归模型案例分析

文档推荐

最新文档