多元线性回归模型案例分析
- 格式:docx
- 大小:469.18 KB
- 文档页数:5
多元线性回归模型案例分析——中国人口自然增长分析一·研究目的要求中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。
此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。
影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。
(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。
二·模型设定为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。
暂不考虑文化程度及人口分布的影响。
从《中国统计年鉴》收集到以下数据(见表1):表1 中国人口增长率及相关数据设定的线性回归模型为:1222334t t t t t Y X X X u ββββ=++++三、估计参数利用EViews 估计模型的参数,方法是:1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对话框“Workfile Range ”。
在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。
其中已有变量:“c ”—截距项 “resid ”—剩余项。
多元线性回归模型案例多元线性回归是统计学中常用的一种回归分析方法,它可以用来研究多个自变量与因变量之间的关系。
在实际应用中,多元线性回归模型可以帮助我们理解不同自变量对因变量的影响程度,从而进行预测和决策。
下面,我们将通过一个实际案例来介绍多元线性回归模型的应用。
案例背景:某电商公司希望了解其产品销售额与广告投入、季节因素和竞争对手销售额之间的关系,以便更好地制定营销策略和预测销售额。
数据收集:为了分析这一问题,我们收集了一段时间内的产品销售额、广告投入、季节因素和竞争对手销售额的数据。
这些数据将作为我们多元线性回归模型的输入变量。
模型建立:我们将建立一个多元线性回归模型,以产品销售额作为因变量,广告投入、季节因素和竞争对手销售额作为自变量。
通过对数据进行拟合和参数估计,我们可以得到一个多元线性回归方程,从而揭示不同自变量对产品销售额的影响。
模型分析:通过对模型的分析,我们可以得出以下结论:1. 广告投入对产品销售额有显著影响,广告投入越大,产品销售额越高。
2. 季节因素也对产品销售额有一定影响,不同季节的销售额存在差异。
3. 竞争对手销售额对产品销售额也有一定影响,竞争对手销售额越大,产品销售额越低。
模型预测:基于建立的多元线性回归模型,我们可以进行产品销售额的预测。
通过输入不同的广告投入、季节因素和竞争对手销售额,我们可以预测出相应的产品销售额,从而为公司的营销决策提供参考。
结论:通过以上分析,我们可以得出多元线性回归模型在分析产品销售额与广告投入、季节因素和竞争对手销售额之间关系时的应用。
这种模型不仅可以帮助我们理解不同因素对产品销售额的影响,还可以进行销售额的预测,为公司的决策提供支持。
总结:多元线性回归模型在实际应用中具有重要意义,它可以帮助我们理解复杂的变量关系,并进行有效的预测和决策。
在使用多元线性回归模型时,我们需要注意数据的选择和模型的建立,以确保模型的准确性和可靠性。
通过以上案例,我们对多元线性回归模型的应用有了更深入的理解,希望这对您有所帮助。
多元回归分析案例下面以一个实际案例来说明多元回归分析的应用。
假设我们是一家电商公司,希望了解哪些因素会影响网站用户购买商品的金额。
为了回答这个问题,我们收集了以下数据:每位用户购买的商品金额(因变量),用户的年龄、性别和收入水平(自变量)。
首先,我们需要构建一个多元回归模型。
由于因变量是连续型变量,我们可以选择使用线性回归模型。
模型的形式可以表示为:购买金额=β0+β1×年龄+β2×性别+β3×收入水平+ε其中,β0是截距,β1、β2和β3是自变量的系数,ε是误差项。
接下来,我们需要对数据进行预处理。
首先,将性别变量转换为虚拟变量,比如用0表示男性,1表示女性。
然后,我们可以使用逐步回归方法,逐步选择自变量,以确定哪些变量对因变量的解释最显著。
在实际操作中,我们可以使用统计软件,比如SPSS或R来进行多元回归分析。
下面是一个用R进行多元回归分析的示例代码:```R#导入数据data <- read.csv("data.csv")#转换性别变量为虚拟变量data$gender <- as.factor(data$gender)#构建多元回归模型model <- lm(购买金额 ~ 年龄 + 性别 + 收入水平, data=data)#执行逐步回归step_model <- step(model)#显示结果summary(step_model)```通过运行这段代码,我们可以得到每个自变量的系数估计值、显著性水平、拟合优度等统计结果。
这些结果可以帮助我们理解各个自变量对于购买金额的影响程度以及它们之间的相对重要性。
在实际应用中,多元回归分析可以帮助我们识别哪些因素对于一些特定的因变量具有显著影响。
通过控制其他自变量,我们可以解释每个自变量对因变量的独立贡献,并用于预测因变量的值。
总之,多元回归分析是一种强大的统计工具,可以应用于各个领域,帮助我们理解和预测自变量对因变量的影响。
多元线性回归分析案例1. 引言多元线性回归分析是一种用于探究多个自变量与一个连续型因变量之间关系的统计分析方法。
本文将以一个虚构的案例来介绍多元线性回归分析的应用。
2. 背景假设我们是一家电子产品制造公司,我们想了解哪些因素会对产品销售额产生影响。
为了解决这个问题,我们收集了一些数据,包括产品的价格、广告费用、竞争对手的产品价格和销售额。
3. 数据收集我们采集了100个不同产品的数据,其中包括以下变量:- 产品价格(自变量1)- 广告费用(自变量2)- 竞争对手的产品价格(自变量3)- 销售额(因变量)4. 数据分析为了进行多元线性回归分析,我们首先需要对数据进行预处理。
我们检查了数据的缺失情况和异常值,并进行了相应的处理。
接下来,我们使用多元线性回归模型来分析数据。
模型的方程可以表示为:销售额= β0 + β1 × 产品价格+ β2 × 广告费用+ β3 × 竞争对手的产品价格+ ε其中,β0、β1、β2、β3是回归系数,ε是误差项。
5. 结果解释我们使用统计软件进行回归分析,并得到了以下结果:- 回归系数的估计值:β0 = 1000, β1 = 10, β2 = 20, β3 = -5- 拟合优度:R² = 0.8根据回归系数的估计值,我们可以解释模型的结果:- β0表示当产品价格、广告费用和竞争对手的产品价格都为0时,销售额的估计值为1000。
- β1表示产品价格每增加1单位,销售额平均增加10单位。
- β2表示广告费用每增加1单位,销售额平均增加20单位。
- β3表示竞争对手的产品价格每增加1单位,销售额平均减少5单位。
拟合优度R²的值为0.8,说明模型可以解释销售额的80%变异程度。
这意味着模型对数据的拟合程度较好。
6. 结论根据我们的多元线性回归分析结果,我们可以得出以下结论:- 产品价格、广告费用和竞争对手的产品价格对销售额有显著影响。
《多元线性回归分析的实例研究》篇一一、引言多元线性回归分析是一种统计方法,用于研究多个变量之间的关系。
在社会科学、经济分析、医学等多个领域,这种分析方法的应用都十分重要。
本实例研究以一个具体的商业案例为例,展示了如何应用多元线性回归分析方法进行研究,以便深入理解和探索各个变量之间的潜在关系。
二、背景介绍以某电子商务公司的销售额预测为例。
电子商务公司销售量的影响因素很多,包括市场宣传、商品价格、消费者喜好等。
因此,本文通过收集多个因素的数据,使用多元线性回归分析,以期达到更准确的销售预测和因素分析。
三、数据收集与处理为了进行多元线性回归分析,我们首先需要收集相关数据。
在本例中,我们收集了以下几个关键变量的数据:销售额(因变量)、广告投入、商品价格、消费者年龄分布、消费者性别比例等。
这些数据来自电子商务公司的历史销售记录和调查问卷。
在收集到数据后,我们需要对数据进行清洗和处理。
这包括去除无效数据、处理缺失值、标准化处理等步骤。
经过处理后,我们可以得到一个干净且结构化的数据集,为后续的多元线性回归分析提供基础。
四、多元线性回归分析1. 模型建立根据所收集的数据和实际情况,我们建立了如下的多元线性回归模型:销售额= β0 + β1广告投入+ β2商品价格+ β3消费者年龄分布+ β4消费者性别比例+ ε其中,β0为常数项,β1、β2、β3和β4为回归系数,ε为误差项。
2. 模型参数估计通过使用统计软件进行多元线性回归分析,我们可以得到每个变量的回归系数和显著性水平等参数。
这些参数反映了各个变量对销售额的影响程度和方向。
3. 模型检验与优化为了检验模型的可靠性和准确性,我们需要对模型进行假设检验、R方检验和残差分析等步骤。
同时,我们还可以通过引入交互项、调整自变量等方式优化模型,提高预测精度。
五、结果分析与讨论1. 结果解读根据多元线性回归分析的结果,我们可以得到以下结论:广告投入、商品价格、消费者年龄分布和消费者性别比例均对销售额有显著影响。
多元线性回归分析案例多元线性回归分析是统计学中常用的一种分析方法,它可以用来研究多个自变量对因变量的影响,并建立相应的数学模型。
在实际应用中,多元线性回归分析可以帮助我们理解变量之间的关系,预测未来的趋势,以及制定相应的决策。
本文将通过一个实际案例来介绍多元线性回归分析的基本原理和应用方法。
案例背景。
假设我们是一家电子产品制造公司的市场营销团队,我们想要了解产品销量与广告投入、产品定价和市场规模之间的关系。
我们收集了过去一年的数据,包括每个月的产品销量(千台)、广告投入(万元)、产品定价(元/台)和市场规模(亿人)。
数据分析。
首先,我们需要对数据进行描述性统计分析,以了解各变量的分布情况和相关性。
我们计算了产品销量、广告投入、产品定价和市场规模的均值、标准差、最大最小值等统计量,并绘制了相关性矩阵图。
通过分析发现,产品销量与广告投入、产品定价和市场规模之间存在一定的相关性,但具体的关系还需要通过多元线性回归分析来验证。
多元线性回归模型。
我们建立了如下的多元线性回归模型:\[Sales = \beta_0 + \beta_1 \times Advertising + \beta_2 \times Price + \beta_3 \times MarketSize + \varepsilon\]其中,Sales表示产品销量,Advertising表示广告投入,Price表示产品定价,MarketSize表示市场规模,\(\beta_0, \beta_1, \beta_2, \beta_3\)分别为回归系数,\(\varepsilon\)为误差项。
模型验证。
我们利用最小二乘法对模型进行参数估计,并进行了显著性检验和回归诊断。
结果表明,广告投入、产品定价和市场规模对产品销量的影响是显著的,模型的拟合效果较好。
同时,我们还对模型进行了预测能力的验证,结果表明模型对未来产品销量的预测具有一定的准确性。
决策建议。
—多元线性回归分析案例多元线性回归分析是一种广泛使用的统计分析方法,用于研究多个自变量对一个因变量的影响程度。
在实际应用中,多元线性回归可以帮助我们理解变量之间的相互关系,并预测因变量的数值。
下面我们将以一个实际案例来介绍多元线性回归分析的应用。
假设我们是一家电子产品制造商,我们想研究影响手机销量的因素,并尝试通过多元线性回归模型来预测手机的销量。
我们选择了三个自变量作为影响因素:广告投入、价格和市场份额。
我们收集了一段时间内的数据,包括这三个因素以及对应的手机销量。
现在我们将利用这些数据来进行多元线性回归分析。
首先,我们需要将数据进行预处理和清洗。
我们检查数据的完整性和准确性,并去除可能存在的异常值和缺失值。
然后,我们对数据进行描述性统计分析,以了解数据的整体情况和变量之间的关系。
接下来,我们将建立多元线性回归模型。
我们将销量作为因变量,而广告投入、价格和市场份额作为自变量。
通过引入这些自变量,我们可以预测手机销量,并分析它们对销量的影响程度。
为了进行回归分析,我们需要估计模型的系数。
这可以通过最小二乘法来实现,该方法将使得模型的预测结果与实际观测值之间的残差平方和最小化。
接下来,我们将进行统计检验,以确定自变量对因变量的显著影响。
常见的统计指标包括回归系数的显著性水平、t值和p值。
在我们的案例中,假设多元线性回归模型的方程为:销量=β0+β1×广告投入+β2×价格+β3×市场份额+ε。
其中,β0、β1、β2和β3为回归系数,ε为误差项。
完成回归分析后,我们可以进行模型的诊断和评估。
我们可以检查模型的残差是否呈正态分布,以及模型的拟合程度如何。
此外,我们还可以通过交叉验证等方法评估模型的准确性和可靠性。
最后,我们可以利用训练好的多元线性回归模型来进行预测。
通过输入新的广告投入、价格和市场份额的数值,我们可以预测手机的销量,并根据预测结果制定相应的市场策略。
综上所述,多元线性回归分析是一种强大的统计工具,可用于分析多个自变量对一个因变量的影响。
多元线性回归模型案例分析报告多元线性回归模型是一种用于预测和建立因变量和多个自变量之间关系的统计方法。
它通过拟合一个线性方程,找到使得回归方程和实际观测值之间误差最小的系数。
本报告将以一个实际案例为例,对多元线性回归模型进行案例分析。
案例背景:公司是一家在线教育平台,希望通过多元线性回归模型来预测学生的学习时长,并找出对学习时长影响最大的因素。
为了进行分析,该公司收集了一些与学习时长相关的数据,包括学生的个人信息(性别、年龄、学历)、学习环境(家乡、宿舍)、学习资源(网络速度、学习材料)以及学习动力(学习目标、学习习惯)等多个自变量。
数据分析方法:通过建立多元线性回归模型,我们可以找到与学习时长最相关的因素,并预测学生的学习时长。
首先,我们将根据实际情况对数据进行预处理,包括数据清洗、过滤异常值等。
然后,我们使用逐步回归方法,通过逐步添加和删除自变量来筛选最佳模型。
最后,我们使用已选定的自变量建立多元线性回归模型,并进行系数估计和显著性检验。
案例分析结果:经过数据分析和模型建立,我们得到了如下的多元线性回归模型:学习时长=0.5*年龄+0.2*学历+0.3*学习资源+0.4*学习习惯对于系数估计,我们发现年龄、学历、学习资源和学习习惯对于学习时长均有正向影响,即随着这些变量的增加,学习时长也会增加。
其中,年龄和学习资源的影响较大,学历和学习习惯的影响较小。
在显著性检验中,我们发现该模型的拟合度较好,因为相关自变量的p值均小于0.05,表明它们对学习时长的影响具有统计学意义。
案例启示:本案例的分析结果为在线教育平台提供了重要的参考。
公司可以针对年龄较大、学历高、学习资源丰富和有良好学习习惯的学生,提供个性化的学习服务和辅导。
同时,公司也可以通过提供更好的学习资源和培养良好的学习习惯,来提升学生的学习时长和学习效果。
总结:多元线性回归模型在实际应用中具有广泛的应用价值。
通过对因变量和多个自变量之间的关系进行建模和分析,我们可以找到相关影响因素,并预测因变量的取值。
多元线性回归模型案例在统计学中,多元线性回归是一种用于研究多个自变量与一个因变量之间关系的方法。
它可以帮助我们了解各个自变量对因变量的影响程度,并预测因变量的取值。
本文将通过一个实际案例来介绍多元线性回归模型的应用。
案例背景:假设我们是一家房地产公司的数据分析师,公司希望通过分析房屋的各项特征来预测房屋的销售价格。
我们收集了一批房屋的数据,包括房屋的面积、卧室数量、浴室数量、地理位置等多个自变量,以及每套房屋的销售价格作为因变量。
数据准备:首先,我们需要对收集到的数据进行清洗和处理。
这包括处理缺失值、异常值,对数据进行标准化等操作,以确保数据的质量和可靠性。
在数据准备阶段,我们还需要将数据分为训练集和测试集,以便后续模型的建立和验证。
模型建立:接下来,我们使用多元线性回归模型来建立房屋销售价格与各项特征之间的关系。
假设我们的模型为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε。
其中,Y表示房屋销售价格,X1、X2、...、Xn表示房屋的各项特征,β0、β1、β2、...、βn表示模型的系数,ε表示误差项。
模型评估:建立模型后,我们需要对模型进行评估,以验证模型的拟合程度和预测能力。
我们可以使用各项统计指标如R方、均方误差等来评估模型的拟合程度和预测能力,同时也可以通过绘制残差图、QQ图等来检验模型的假设是否成立。
模型优化:在评估模型的过程中,我们可能会发现模型存在欠拟合或过拟合的问题,需要对模型进行优化。
优化的方法包括添加交互项、引入多项式项、进行特征选择等操作,以提高模型的拟合程度和预测能力。
模型应用:最后,我们可以使用优化后的模型来预测新的房屋销售价格。
通过输入房屋的各项特征,模型可以给出相应的销售价格预测值,帮助公司进行房地产市场的决策和规划。
结论:通过本案例,我们了解了多元线性回归模型在房地产数据分析中的应用。
通过建立、评估、优化和应用模型的过程,我们可以更好地理解各项特征对房屋销售价格的影响,并进行有效的预测和决策。
多元线性回归模型案例分析——中国人口自然增长分析一·研究目的要求中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平.此后,人口自然增长率<即人口的生育率>很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型.影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:<1>从宏观经济上看,经济整体增长是人口自然增长的基本源泉;<2>居民消费水平,它的高低可能会间接影响人口增长率.〕3〔文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率<4>人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响.二·模型设定为了全面反映中国"人口自然增长率"的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择"国名收入"及"人均GDP"作为经济整体增长的代表;选择"居民消费价格指数增长率"作为居民消费水平的代表.暂不考虑文化程度及人口分布的影响.从《中国统计年鉴》收集到以下数据<见表1>:表1中国人口增长率及相关数据设定的线性回归模型为: 三、估计参数利用EViews 估计模型的参数,方法是:1、建立工作文件:启动EViews,点击File\New\Workfile,在对话框"Workfile Range".在"Workfile frequency"中选择"Annual" 〕年度〔,并在"Start date"中输入开始时间"1988",在"end date"中输入最后时间"2005",点击"ok",出现"Workfile UNTITLED"工作框.其中已有变量:"c"—截距项"resid"—剩余项.在"Objects"菜单中点击"New Objects",在"New Objects"对话框中选"Group",并在"Name for Objects"上定义文件名,点击"OK"出现数据编辑窗口.2、输入数据:点击"Quik"下拉菜单中的"Empty Group",出现"Group"窗口数据编辑框,点第一列与"obs"对应的格,在命令栏输入"Y",点下行键"↓",即将该序列命名为Y,并依此输入Y 的数据.用同年份 人口自然增长率<%.> 国民总收入<亿元> 居民消费价格指数增长率<CPI>% 人均GDP<元> 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 20065.38 213132 1.5 16024样方法在对应的列命名X 2、X 3、X 4,并输入相应的数据.或者在EViews 命令框直接键入"data Y 2X X 3 X 4… ",回车出现"Group"窗口数据编辑框,在对应的Y 、X 2、X 3、X 4下输入响应的数据.3、估计参数:点击"Procs"下拉菜单中的"Make Equation",在出现的对话框的"Equation Specification"栏中键入"Y C X 2 X 3 X 4",在"Estimation Settings"栏中选择"Least Sqares"〕最小二乘法〔,点"ok",即出现回归结果: 表3.4根据表3.4中数据,模型估计的结果为:〕0.913842〔 〕0.000134〔 〕0.033919〔 〕0.001771〔t= 〕17.08010〔 〕2.482857〔 〕1.412721〔 〕-2.884953〔930526.02=R 915638.02=R F=62.50441四、模型检验1、经济意义检验模型估计结果说明,在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,当年居民消费价格指数增长率每增长 1%,人口增长率增长0.047918%;在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%.这与理论分析和经验判断相一致.2、统计检验<1>拟合优度:由表3.4中数据可以得到:930526.02=R ,修正的可决系数为915638.02=R,这说明模型对样本的拟合很好.<2>F 检验:针对0234:0H βββ===,给定显著性水平0.05α=,在F 分布表中查出自由度为k-1=3和n-k=14的临界值34.3)14,3(=αF .由表3.4中得到F=62.50441,由于F=62.50441 >(3,21) 3.075F α=,应拒绝原假设0234:0H βββ===,说明回归方程显著,即"国民总收入"、"居民消费价格指数增长率"、"人均GDP"等变量联合起来确实对"人口自然增长率"有显著影响.<3>t 检验:分别针对0H :0(1,2,3,4)j j β==,给定显著性水平0.05α=,查t 分布表得自由度为n-k=14临界值145.2)(2/=-k n t α.由表3.4中数据可得,与^1β、^2β、^3β、^4β对应的t 统计量分别为17.08010、2.482857、1.412721、-2.884953除^3β,其绝对值均大于145.2)(2/=-k n t α,这说明分别都应当拒绝0H :)4,2,1(0==j j β,也就是说,当在其它解释变量不变的情况下,解释变量"国民总收入"、"人均GDP"分别对被解释变量"人口自然增长率"Y 都有显著的影响.^3β的绝对值小于145.2)(2/=-k n t α,:这说明接受0H :03=β,X3系数对t 检验不显著,这表明很可能存在多重共线性.所以计算各解释变量的相关系数,选择X2、X3、X4数据,点"view/correlations"得相关系数矩阵<如表4.4>:表4.4由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性. 五、消除多重共线性采用逐步回归的办法,去检验和解决多重共线性问题.分别作Y 对X2、X3、X4的一元回归,结果如表4.5所示:表4.5按2R 的大小排序为:X4、X2、X3以X2为基础,顺次加入其他变量逐步回归.首先加入X2回归结果为:t=〕2.542529〔 〕-2.970874〔 920622.02=R当取05.0=α时,131.2)318(025.0)(2/=-=-tt k n α,X2参数的t 检验显著,加入X3回归得t= 〕17.08010〔 〕2.482857〔〕1.412721〔 〕-2.884953〔930526.02=R 915638.02=R F=62.50441当取05.0=α时,145.2)418(2/=-αt ,X3参数的t 检验不显著,予以剔除即40005397.02000350.035540.16ˆX X Y -+=,这是最后消除多重共线性的结果.在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%.金服131 王亚平13019122。
多元线性回归模型案例分
析
This manuscript was revised by the office on December 10, 2020.
多元线性回归模型案例分析
——中国人口自然增长分析
一·研究目的要求
中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。
此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。
影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。
(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。
二·模型设定
为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。
暂不考虑文化程度及人口分布的影响。
从《中国统计年鉴》收集到以下数据(见表1):
表1中国人口增长率及相关数据
年份人口自然增长率
(%。
)
国民总收入
(亿元)
居民消费价格指数增长
率(CPI)%
人均GDP
(元)
198815.731503718.81366 198915.0417001181519 199014.3918718 3.11644 199112.9821826 3.41893 199211.626937 6.42311 199311.453526014.72998 199411.214810824.14044 199510.555981117.15046 199610.42701428.35846 199710.0678061 2.86420 19989.1483024-0.86796 19998.1888479-1.47159 20007.58980000.47858 2001 6.951080680.78622 2002 6.45119096-0.89398 2003 6.01135174 1.210542 2004 5.87159587 3.912336
设定的线性回归模型为: 三、估计参数
利用EViews 估计模型的参数,方法是:
1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对话框“WorkfileRange ”。
在“Workfilefrequency ”中选择“Annual ”(年度),并在“Startdate ”中输入开始时间“1988”,在“enddate ”中输入最后时间“2005”,点击“ok ”,出现“WorkfileUNTITLED ”工作框。
其中已有变量:“c ”—截距项“resid ”—剩余项。
在“Objects ”菜单中点击“NewObjects”,在“New Objects”对话框中选“Group”,并在“NameforObjects”上定义文件名,点击“OK ”出现数据编辑窗口。
2、输入数据:点击“Quik ”下拉菜单中的“EmptyGroup ”,出现“Group”窗口数据编辑框,点第一列与“obs ”对应的格,在命令栏输入“Y ”,点下行键“↓”,即将该序列命名为Y ,并依此输入Y 的数据。
用同样方法在对应的列命名X 2、X
3、X 4,并输入相应的数据。
或者在EViews 命令框直接键入“dataY 2X X 3 X 4…”,回车出现“Group”窗口数据编辑框,在对应的Y 、X 2、X 3、X 4下输入响应的数据。
3、估计参数:点击“Procs “下拉菜单中的“MakeEquation ”,在出现的对话框的“EquationSpecification ”栏中键入“YCX 2X 3X 4”,在
“EstimationSettings ”栏中选择“LeastSqares ”(最小二乘法),点“ok ”,即出现回归结果: 表3.4
根据表3.4中数据,模型估计的结果为:
(0.913842)(0.000134)(0.033919)(0.001771)
t=(17.08010)(2.482857)(1.412721)(-2.884953)
930526.02=R 915638.02
=R F=62.50441
四、模型检验
1、经济意义检验
2005 5.89 184089 1.8 14040 2006 5.38
213132 1.5 16024
模型估计结果说明,在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,当年居民消费价格指数增长率每增长1%,人口增长率增长0.047918%;在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%。
这与理论分析和经验判断相一致。
2、统计检验
(1)拟合优度:由表3.4中数据可以得到:930526.02
=R ,修正的可决
系数为915638
.02
=R
,这说明模型对样本的拟合很好。
(2)F 检验:针对0234:0H βββ===,给定显着性水平0.05α=,在F 分布表中查出自由度为k-1=3和n-k=14的临界值34.3)14,3(=αF 。
由表3.4中得到F=62.50441,由于F=62.50441>(3,21) 3.075F α=,应拒绝原假设
0234:0H βββ===,说明回归方程显着,即“国民总收入”、“居民消费价格
指数增长率”、“人均GDP ”等变量联合起来确实对“人口自然增长率”有显着影响。
(3)t 检验:分别针对0H :
0(1,2,3,4)
j j β==,给定显着性水平0.05α=,
查t 分布表得自由度为n-k=14临界值145.2)(2/=-k n t α。
由表3.4中数据可得,与^1β、^2β、^3β、^
4β对应的t 统计量分别为17.08010、2.482857、1.412721、-2.884953
除^
3β,其绝对值均大于145.2)(2/=-k n t α,这说明分别都应当拒绝0H :
)4,2,1(0==j j β,也就是说,当在其它解释变量不变的情况下,解释变量“国民总收入”、“人均GDP ”分别对被解释变量“人口自然增长率”Y 都有显着的影响。
^
3β的绝对值小于145.2)(2/=-k n t α,:这说明接受0H :03=β,X3系数
对t 检验不显着,这表明很可能存在多重共线性。
所以计算各解释变量的相关系数,选择X2、X3、X4数据,点”
view/correlations ”得相关系数矩阵(如表4.4):
表4.4
由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。
五、消除多重共线性
采用逐步回归的办法,去检验和解决多重共线性问题。
分别作Y 对X2、X3、X4的一元回归,结果如表4.5所示:
表4.5
按2
R 的大小排序为:X4、X2、X3
以X2为基础,顺次加入其他变量逐步回归。
首先加入X2回归结果为:
t=(2.542529)(-2.970874)920622.02
=R
当取05.0=α时,131
.2)318(025
.0)(2/=-=-t
t k n α,X2参数的t 检验显着,加
入X3回归得
t=(17.08010)(2.482857)(1.412721)(-2.884953)
930526.02=R 915638.02
=R F=62.50441
当取05.0=α时,145.2)418(2
/=-αt ,X3参数的t 检验不显着,予以剔除
即40005397.02000350.035540.16ˆ
X X Y -+=,这是最后消除多重共线性的结果。
在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%。