岭回归解决多重共线性

格式：doc
大小：333.00 KB
文档页数：9

下载文档原格式

/ 9

岭回归模型系数

岭回归模型系数岭回归是一种在线性回归中解决多重共线性问题的方法。

它通过引入正则化项来约束回归系数，使得模型更加稳定和可靠。

岭回归模型系数即为岭回归中的系数，下面将从三个方面进行讨论。

一、岭回归模型系数的计算方法岭回归模型系数的计算方法是通过最小二乘法来求解的。

最小二乘法是一种常用的参数估计方法，它通过最小化残差平方和来确定模型的系数。

在岭回归中，最小二乘法加上一个正则化项，即岭回归的惩罚项。

这个惩罚项是一个系数的平方和与一个正则化常数的乘积，它可以约束回归系数的大小，避免过度拟合。

二、岭回归模型系数的特点岭回归模型系数的特点是具有一定的偏移性和抗噪性。

在多重共线性问题中，回归系数的估计值往往存在偏差，即不能够准确地反映出变量之间的关系。

而岭回归通过正则化解决了这个问题，使得回归系数的估计值更加稳定和可靠。

同时，岭回归还可以抵抗噪声的影响，即在存在一定噪声的情况下，岭回归模型系数的估计值也可以保持较好的精度。

三、岭回归模型系数的应用岭回归模型系数的应用非常广泛，特别是在高维数据分析中。

由于高维数据存在维度灾难的问题，传统的线性回归方法往往会出现过拟合的情况，无法很好地解释和预测数据。

而岭回归模型系数通过正则化来控制回归系数的大小，使得模型更加稳定和可靠，可以很好地解决高维数据分析中的问题。

此外，岭回归模型系数还可以应用于信号处理、图像处理、医学影像分析等领域，具有广泛的应用前景。

岭回归模型系数是岭回归方法中的重要内容，它不仅可以约束回归系数的大小，还具有一定的偏移性和抗噪性。

在实际应用中，岭回归模型系数具有广泛的应用前景，可以帮助我们更好地解释和预测数据。

多重共线性的解决方法之——岭回归与LASSO

多重共线性的解决⽅法之——岭回归与LASSO 多元线性回归模型的最⼩⼆乘估计结果为如果存在较强的共线性，即中各列向量之间存在较强的相关性，会导致的从⽽引起对⾓线上的值很⼤并且不⼀样的样本也会导致参数估计值变化⾮常⼤。

即参数估计量的⽅差也增⼤，对参数的估计会不准确。

因此，是否可以删除掉⼀些相关性较强的变量呢？如果p个变量之间具有较强的相关性，那么⼜应当删除哪⼏个是⽐较好的呢？本⽂介绍两种⽅法能够判断如何对具有多重共线性的模型进⾏变量剔除。

即岭回归和LASSO(注：LASSO是在岭回归的基础上发展的)思想：既然共线性会导致参数估计值变得⾮常⼤，那么给最⼩⼆乘的⽬标函数加上基础上加上⼀个对的惩罚函数最⼩化新的⽬标函数的时候便也需要同时考虑到值的⼤⼩，不能过⼤。

在惩罚函数上加上系数k随着k增⼤，共线性的影响将越来越⼩。

在不断增⼤惩罚函数系数的过程中，画下估计参数（k）的变化情况，即为岭迹。

通过岭迹的形状来判断我们是否要剔除掉该参数（例如：岭迹波动很⼤，说明该变量参数有共线性）。

步骤：1. 对数据做标准化，从⽽⽅便以后对（k）的岭迹的⽐较，否则不同变量的参数⼤⼩没有⽐较性。

2. 构建惩罚函数，对不同的k，画出岭迹图。

3. 根据岭迹图，选择剔除掉哪些变量。

岭回归的⽬标函数式中，t为的函数。

越⼤，t越⼩（这⾥就是k）如上图中，相切点便是岭回归得出来的解。

是岭回归的⼏何意义。

可以看出，岭回归就是要控制的变化范围，弱化共线性对⼤⼩的影响。

解得的岭回归的估计结果为：岭回归的性质由岭回归的⽬标函数可以看出，惩罚函数的系数 (或者k)越⼤，⽬标函数中惩罚函数所占的重要性越⾼。

从⽽估计参数也就越⼩了。

我们称系数 (或者k)为岭参数。

因为岭参数不是唯⼀的，所以我们得到的岭回归估计实际是回归参数的⼀个估计族。

例如下表中：岭迹图将上表中回归估计参数与岭回归参数k之间的变化关系⽤⼀张图来表⽰，便是岭迹图当不存在奇异性是，岭迹应该是稳定地逐渐趋于0当存在奇异性时，由岭回归的参数估计结果可以看出来，刚开始k不够⼤时，奇异性并没有得到太⼤的改变，所以随着k的变化，回归的估计参数震动很⼤，当k⾜够⼤时，奇异性的影响逐渐减少，从⽽估计参数的值变的逐渐稳定。

岭回归解决多重共线性

一、引言回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用，但是经典的最小二乘估计，必需满足一些假设条件，多重共线性就是其中的一种。

实际上，解释变量间完全不相关的情形是非常少见的，大多数变量都在某种程度上存在着一定的共线性，而存在着共线性会给模型带来许多不确定性的结果。

二、认识多重共线性（一）多重共线性的定义设回归模型01122p p y x x x ββββε=+++⋯++如果矩阵X 的列向量存在一组不全为零的数012,,p k k k k ⋯使得011220i i p i p k k x k x k x +++⋯+=, i =1,2,…n ,则称其存在完全共线性,如果022110≈+⋯+++p i p i i x k x k x k k , i =1,2,…n ,则称其存在近似的多重共线性。

（二）多重共线性的后果 1.理论后果对于多元线性回归来讲，大多数学者都关注其估计精度不高，但是多重共线性不可能完全消除，而是要用一定的方法来减少变量之间的相关程度。

多重共线性其实是由样本容量太小所造成的后果，在理论上称作“微数缺测性”，所以当样本容量n 很小的时候，多重共线性才是非常严重的。

多重共线性的理论后果有以下几点：（1）保持OLS 估计量的BLUE 性质；(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的情况。

所以多重共线性并不是简单的自变量之间存在的相关性，也包括样本容量的大小问题。

（3）近似的多重共线性中，OLS 估计仍然是无偏估计。

无偏性是一种多维样本或重复抽样的性质；如果X 变量的取值固定情况下，反复对样本进行取样，并对每个样本计算OLS 估计量，随着样本个数的增加，估计量的样本值的均值将收敛于真实值。

（4）多重共线性是由于样本引起的。

即使总体中每一个X 之间都没有线性关系，但在具体取样时仍存在样本间的共线性。

多重共线性处理方法

多重共线性处理方法
处理多重共线性的方法主要有以下几种：
1. 去除变量：根据变量之间的相关性，剔除其中一个或多个高度相关的变量。

通过领域知识或经验来选择保留哪些变量。

2. 合并变量：将高度相关的变量合并为一个新的变量。

例如，如果变量A和变量B高度相关，可以计算出变量C=A+B，并用C代替A和B。

3. 使用主成分分析（PCA）：通过将一组高度相关的变量转换为一组线性无关的主成分，来减少多重共线性的影响。

4. 正则化方法：通过加入正则化项，如岭回归（Ridge Regression）或Lasso 回归（Lasso Regression），来减少多重共线性的影响。

5. 数据采样：如果数据集中某些特定的值导致多重共线性问题，可以考虑采样或调整这些数据点，以减少多重共线性的影响。

需要根据具体的情况选择适当的方法来处理多重共线性。

如果多重共线性问题比较严重，可能需要综合使用多种方法来解决。

回归分析中的岭回归模型应用技巧

回归分析是统计学中一种常用的方法，用来研究一个或多个自变量与一个因变量之间的关系。

在回归分析中，岭回归模型是一种经典的技术，它可以帮助我们处理多重共线性和过拟合等问题。

本文将介绍岭回归模型的应用技巧，帮助读者更好地理解和使用这一技术。

1. 岭回归模型的原理岭回归模型是一种正则化方法，它通过引入一个正则化参数来限制模型的复杂度，从而避免过拟合的问题。

在岭回归模型中，我们的目标是最小化残差平方和加上正则化参数与模型系数的乘积。

这样一来，即使在存在多重共线性的情况下，岭回归模型也能够给出稳定可靠的估计结果。

2. 如何选择正则化参数选择正则化参数是岭回归模型中的关键问题。

一般来说，我们可以使用交叉验证的方法来选择最优的正则化参数。

具体而言，我们可以将数据集分为训练集和验证集，然后对不同的正则化参数进行测试，选择在验证集上表现最好的参数作为最终的选择。

另外，我们还可以使用留一法交叉验证或者k折交叉验证来进行参数选择，以确保结果的稳健性。

3. 岭回归模型与普通最小二乘法的比较岭回归模型和普通最小二乘法在处理多重共线性问题上有很大的不同。

普通最小二乘法在存在多重共线性时会导致估计系数的方差非常大，从而使得模型的预测能力变差。

而岭回归模型通过引入正则化参数，可以有效地缓解多重共线性的影响，提高了模型的稳定性和鲁棒性。

4. 岭回归模型的应用实例在实际应用中，岭回归模型有着广泛的应用。

例如在金融领域，我们可以使用岭回归模型来预测股票价格或者汇率变动；在医学领域，我们可以使用岭回归模型来研究疾病与基因之间的关联等。

岭回归模型的灵活性和鲁棒性使得它成为了统计学中一个不可或缺的工具。

5. 岭回归模型的局限性尽管岭回归模型有着诸多优点，但是它也存在一些局限性。

例如在处理大规模数据集时，岭回归模型的计算成本会非常高；另外，岭回归模型还要求自变量之间不存在严格的共线性，否则会导致参数估计的不准确性。

因此在具体应用时，我们需要根据实际情况选择合适的模型和方法。

岭回归解决多重共线性教学文案

（二）多重共线性的后果1.理论后果对于多元线性回归来讲，大多数学者都关注其估计精度不高，但是多重共线性不可能完全消除，而是要用一定的方法来减少变量之间的相关程度。

多重共线性其实是由样本容量太小所造成的后果，在理论上称作“微数缺测性”，所以当样本容量n 很小的时候，多重共线性才是非常严重的。

所以多重共线性并不是简单的自变量之间存在的相关性，也包括样本容量的大小问题。

（3）近似的多重共线性中，OLS 估计仍然是无偏估计。

（4）多重共线性是由于样本引起的。

即使总体中每一个X 之间都没有线性关系，但在具体取样时仍存在样本间的共线性。

岭回归参数选择

岭回归参数选择岭回归是一种用于解决多重共线性问题的线性回归方法，通过对模型添加惩罚项来控制模型复杂度，以提高模型的泛化能力和稳定性。

其中，惩罚项的系数λ是需要选择的重要参数，本文将讨论如何选择合适的岭回归参数。

一、岭回归基本原理岭回归中，通过对模型参数大小的平方和进行惩罚，将线性回归问题转换为以下优化问题：minimize RSS(w) + λ||w||² (其中w为模型参数）其中RSS(w)为残差平方和，是预测值与实际值之间的差异平方和，||w||²为参数的平方和，λ是惩罚系数，用于控制惩罚项与RSS之间的比例关系。

通过调整λ的大小，可以灵活地平衡模型拟合程度和泛化能力，如下图所示：图示了当λ取值不同时，模型的预测能力和泛化能力之间的平衡情况。

当λ过大时，模型的拟合效果较差，但可以得到较好的泛化能力；当λ过小时，模型的拟合效果较好，但在测试集上的表现可能较差，即出现过拟合现象。

因此，选择合适的λ非常重要，可以通过交叉验证等方法来确定。

1、交叉验证法交叉验证法是一种常用的模型选择方法，可以保证模型的泛化能力。

在岭回归中，可以将数据集划分为训练集和测试集，然后对不同的λ进行模型训练和测试，以找到最优的λ值。

常用的交叉验证方法包括k折交叉验证和留一交叉验证。

其中，k折交叉验证将数据集分为k个大小相等的子集，每次将其中一个子集作为测试集，其余子集作为训练集，重复k次，将结果进行平均，即得到模型的表现。

留一交叉验证则是将每个样本都作为单独的测试集，其余样本作为训练集。

具体方法如下：（1）将数据集分为训练集和测试集，一般按照7:3或8:2的比例进行划分。

将训练集再按照k折或留一交叉验证的方式进行划分，得到k组训练集和测试集。

（2）对于每组训练集和测试集，分别进行岭回归模型的训练和测试，计算对应的均方误差（MSE）或R方值（R2 score）等指标。

（3）重复上述步骤，得到k组不同的MSE或R2 score值。

岭回归数学模型

岭回归数学模型以岭回归数学模型，是指在统计学中用于解决多元线性回归问题的一种方法。

该模型最早由英国统计学家弗朗西斯·高尔顿于1910年提出，被广泛应用于经济学、生物学、工程学等多个领域。

以岭回归模型的核心思想是通过引入一个岭惩罚项，来解决多重共线性问题。

在普通的多元线性回归中，当自变量之间存在高度相关性时，估计的回归系数容易出现较大的方差，导致模型不稳定。

而以岭回归模型则通过调整岭惩罚项的大小，来平衡回归系数的偏差和方差，从而提高模型的稳定性。

以岭回归模型的数学形式可以表示为：min ||Y - Xβ||^2 + λ||β||^2其中，Y是因变量，X是自变量矩阵，β是回归系数向量，λ是岭惩罚项的系数。

通过最小化该模型的目标函数，可以得到最优的回归系数估计。

以岭回归模型的求解可以通过多种方法实现，其中最常用的是普通最小二乘法和广义最小二乘法。

在实际应用中，以岭回归模型可以用于特征选择、参数估计和模型预测等任务。

例如，在经济学中，可以利用以岭回归模型来研究不同自变量对于经济增长的影响程度，并进行政策制定和预测。

在生物学中，可以利用以岭回归模型来探究基因表达与疾病发生之间的关系，从而为疾病的预测和治疗提供依据。

除了以岭回归模型，还有其他一些常用的回归模型，如lasso回归模型、弹性网络回归模型等。

这些模型在解决多元线性回归问题时，各有特点和适用范围。

以岭回归数学模型是一种解决多元线性回归问题的有效方法。

通过引入岭惩罚项，以岭回归模型可以有效解决多重共线性问题，提高模型的稳定性和准确性。

在实际应用中，以岭回归模型被广泛应用于各个领域，并取得了显著的成果。

回归分析中的岭回归模型应用技巧(十)

回归分析是统计学中的一种常用方法，用于研究自变量和因变量之间的关系。

在实际应用中，常常会遇到自变量间存在多重共线性的情况。

这时，传统的最小二乘法(OLS)估计存在严重的问题，会导致参数估计的不稳定性和方差的膨胀。

因此，人们引入了岭回归模型来解决这一问题。

一、岭回归模型概述岭回归模型是一种改进的回归分析方法，通常用于解决自变量之间存在共线性问题的情况。

它的核心思想是在最小二乘法的基础上引入了一个惩罚项，通过调整惩罚参数来平衡模型的拟合优度和参数的偏差。

这样可以有效地减小参数估计的方差，提高模型的稳定性。

二、岭回归模型应用技巧1. 数据标准化在进行岭回归分析之前，首先需要对数据进行标准化处理。

这是因为岭回归模型是对自变量进行惩罚，而惩罚项的大小与自变量的尺度有关。

如果不对数据进行标准化处理，那么得到的结果可能会受到自变量尺度的影响，导致参数估计的偏差。

因此，对于连续型的自变量，需要进行标准化处理，使其均值为0，标准差为1。

这样可以保证各个自变量的尺度一致，不会对参数估计产生影响。

2. 选择合适的惩罚参数岭回归模型中的惩罚参数λ是一个非常重要的调节参数，它决定了模型的拟合优度和参数估计的偏差程度。

一般来说，λ越大，模型对参数的惩罚越大，拟合优度越差，但参数估计的偏差越小；反之，λ越小，模型对参数的惩罚越小，拟合优度越好，但参数估计的偏差越大。

因此，选择合适的惩罚参数是非常关键的。

一种常用的方法是通过交叉验证来选择最优的惩罚参数。

通过在不同的λ取值下进行交叉验证，选择拟合优度和参数估计的折中点作为最优的惩罚参数。

3. 检验模型拟合效果在进行岭回归分析之后，需要对模型的拟合效果进行检验。

一般来说，可以通过残差分析、拟合优度指标和交叉验证等方法来评估模型的拟合效果。

残差分析可以帮助我们检验模型的假设条件是否满足，拟合优度指标可以帮助我们评价模型的拟合程度，而交叉验证可以帮助我们选择最优的惩罚参数。

4. 解释模型结果最后，当得到最优的岭回归模型之后，需要对模型结果进行解释。

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法在多元线性回归模型经典假设中，其重要假定之一是回归模型的解释变量之间不存在线性关系，也就是说，解释变量X1，X2，……，Xk中的任何一个都不能是其他解释变量的线性组合。

如果违背这一假定，即线性回归模型中某一个解释变量与其他解释变量间存在线性关系，就称线性回归模型中存在多重共线性。

多重共线性违背了解释变量间不相关的古典假设，将给普通最小二乘法带来严重后果。

这里，我们总结了8个处理多重共线性问题的可用方法，大家在遇到多重共线性问题时可作参考：1、保留重要解释变量，去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。

逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣，从而得到最优回归方程。

具体方法分为两步：第一步，先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析（相关系数r、拟合优度R2和标准误差），并结合经济理论分析选出最优回归方程，也称为基本回归方程。

第二步，将其他解释变量逐一引入到基本回归方程中，建立一系列回归方程，根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响，一般根据如下标准进行分类判别：１.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理，则认为这个新引入的变量对回归模型是有利的，可以作为解释变量予以保留。

２.如果新引进的解释变量对R2改进不明显，对其他回归系数也没有多大影响，则不必保留在回归模型中。

３.如果新引进的解释变量不仅改变了R2，而且对其他回归系数的数值或符号具有明显影响，则认为该解释变量为不利变量，引进后会使回归模型出现多重共线性问题。

不利变量未必是多余的，如果它可能对被解释变量是不可缺少的，则不能简单舍弃，而是应研究改善模型的形式，寻找更符合实际的模型，重新进行估计。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（二）多重共线性的后果1.理论后果对于多元线性回归来讲，大多数学者都关注其估计精度不高，但是多重共线性不可能完全消除，而是要用一定的方法来减少变量之间的相关程度。

多重共线性其实是由样本容量太小所造成的后果，在理论上称作“微数缺测性”，所以当样本容量n 很小的时候，多重共线性才是非常严重的。

所以多重共线性并不是简单的自变量之间存在的相关性，也包括样本容量的大小问题。

（3）近似的多重共线性中，OLS 估计仍然是无偏估计。

（4）多重共线性是由于样本引起的。

即使总体中每一个X 之间都没有线性关系，但在具体取样时仍存在样本间的共线性。

2.现实后果（1）虽然存在多重共线性的情况下，得到的OLS 估计是BLUE 的，但有较大的方差和协方差，估计精度不高；（2）置信区间比原本宽，使得接受0H 假设的概率更大；（3）t 统计量不显著；（4）拟合优度2R 的平方会很大；（5）OLS 估计量及其标准误对数据微小的变化也会很敏感。

（三）多重共线性产生的原因1.模型参数的选用不当，在我们建立模型时如果变量之间存在着高度的相关性，我们又没有进行处理建立的模型就有可能存在着共线性。

2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。

例如当经济繁荣时，反映经济情况的指标有可能按着某种比例关系增长3. 滞后变量。

滞后变量的引入也会产生多重共线行，例如本期的消费水平除了受本期的收入影响之外，还有可能受前期的收入影响，建立模型时，本期的收入水平就有可能和前期的收入水平存在着共线性。

(四) 多重共线性的识别1.直观的判断方法（1）在自变量的相关系数矩阵中，有某些自变量的相关系数值比较大。

（2）回归系数的符号与专业知识或一般经验相反（3）对重要的自变量的回归系数进行t 检验，其结果不显著，但是F 检验确得到了显著的通过（4）如果增加一个变量或删除一个变量，回归系数的估计值发生了很大的变化（5）重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF )定义j VIF =12)1(--j R 其中2j R 是以j X 为因变量时对其他自变量的复测定系数。

一般认为如果最大的j VIF 超过10，常常表示存在多重共线性。

事实上j VIF =12)1(--j R >10这说明21j R -<0.1即2j R >0.9。

3.特征根判定法根据矩阵行列式的性质，矩阵行列式的值等于其特征根的连乘积。

因此，当行列式|X X '|≈0时，至少有一个特征根为零，反过来，可以证明矩阵至少有一个特征根近似为零时，X 的列向量必存在多重共线性，同样也可证明X X '有多少个特征根近似为零矩阵,X就有多少个多重共线性。

根据条件数, 其中m λ为最大的特征根,i λ为其他的特征根，通常认为0<k <10,没有多重共线性，k >10存在着多重共线性。

（五）多重共线性的处理方法1．增加样本容量当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本，而不存在于总体iK m iλλ=时，通过增加样本容量可以减少或是避免线性重合，但是在现实的生活中，由于受到各种条件的限制增加样本容量有时又是不现实的。

2．剔除法对于一些不重要的解释变量进行剔除，主要有向前法和后退法，逐步回归法。

理论上这三种方法都是针对不相关的的数据而言的，在多重共线性很严重的情况下，结论的可靠性受到影响，在一些经济模型中，要求一些很重要变量必须包含在里面，这时如果贸然的删除就不符合现实的经济意义。

3．主成分法当自变量间有较强的线性相关性时，利用p 个变量的主成分，所具有的性质，如果他们是互不相关的，可由前m 个主成12,,m Z Z Z ⋯来建立回归模型。

由原始变量的观测数据计算前m 个主成分的得分值，将其作为主成分的观测值，建立Y 与主成分的回归模型即得回归方程。

这时p 元降为m 元,这样既简化了回归方程的结构，且消除了变量间相关性带来的影响4．PLS (偏最小二乘法)H.Wold 在1975年提出的偏最小二乘法近年来引起广泛的关注，在解决多重共线性方面，它与主成分回归法，岭回归法一样都能很好的达到目的，但偏最小二乘又与前者又有较大的区别，偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。

偏最小二乘法吸取了主成分回归提取主成分的思想，但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关，因而主成分与因变量在算法上关系不密切，从而导致最后主成分在实际应用中无法更好的进一步拟合因变量，偏最小二乘法则是从因变量出发，选择与因变量相关性较强而又能方便运算的自变量的线性组合。

5．岭回归法.岭回归分析是1962年由Heer 首先提出的，1970年后他与肯纳德合作，进一步发展了该方法，在多元线性回归模型的矩阵形式Y X βε=+,参数β的普通最小二乘估计为β=1')(-X X 'X Y , 岭回归当自变量存在多重共线性|X X '|≈0时，给矩阵加上一个正常系数矩阵kI ,那么β=1')(-+kI X X 'X Y ,当时就是普通最小二乘估计。

三、实际的应用我们对于重庆市1987至2010年的统计数据做一个回归预测模型，选取工业总产值为因变量，固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。

设模型为εβββββ+++++=443322110X X X X Y (3.1)(一) 普通的最小二乘法对模型进行最小二乘估计得到如下的结果：调整的可决系数2R 为0.995，F=1198,在置信水平为95%，自由度4，方程通过了显著性的检验，从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过，而且能源消费的系数为负，这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。

根据方差扩大因子1VIF =455.510, 2VIF =68.694, 3VIF =224.271, 4VIF =37.372.均大于10说明存在多重共线性。

此外我们还可以根据共线性的诊断,来判断多重共线性的存在。

为此，利用SPSS 软件进行相关处理可以得到下表：从特征值我们可以看到有两个接近于零，条件数我们可以看到最大条件数为71.989，说明存在着共线性，以上的分析说明因变量间存在着多重共线性。

（二）运用岭回归解决多重共线性用SPSS软件的岭回归功能的语法实现岭回归，做出的结果如下：表3.5：岭参数K值表K RSQ X1 X2 X3 X4.00000 .99605 .486610 .187544 .349141 -.022974.05000 .99450 .298761 .231025 .351029 .109212.10000 .99286 .279395 .234139 .315824 .148780.15000 .99135 .268288 .234093 .295846 .168122.20000 .98984 .260456 .232912 .282446 .178951.25000 .98824 .254302 .231210 .272489 .185418.30000 .98652 .249140 .229240 .264570 .189368.35000 .98466 .244625 .227127 .257967 .191744.40000 .98265 .240562 .224938 .252270 .193079.45000 .98050 .236833 .222713 .247230 .193695.50000 .97822 .233363 .220477 .242684 .193798.55000 .97581 .230101 .218244 .238524 .193528.60000 .97327 .227009 .216026 .234672 .192980.65000 .97062 .224062 .213829 .231075 .192222.70000 .96786 .221240 .211658 .227690 .191305.75000 .96501 .218527 .209517 .224485 .190265.80000 .96206 .215912 .207406 .221437 .189132.85000 .95903 .213385 .205328 .218526 .187927.90000 .95591 .210938 .203284 .215736 .186667.95000 .95273 .208564 .201273 .213056 .1853661.0000 .94948 .206258 .199296 .210473 .184034图3.1 岭迹图从岭迹图上看，最小二乘的稳定性很差，当k 稍微增大时，系数有较大的变化。

对各个变量分别来看，当k =0, 1X 、2X 和3X 对于变量有显著性正的影响，4X 对于变量有负的影响，从岭回归的角度来看，变量1X 和3X 随着k 的增大其系数值迅速减小最终趋于稳定，2X 随着k 的增加变化不大，对于4X 讲，当k 逐渐增大时，由负的影响变为正的影响。

由于1X 和4X 的岭参数都迅速减少，两者之和比较稳定。

岭回归解决多重共线性

合集下载

岭回归模型系数

多重共线性的解决方法之——岭回归与LASSO

岭回归解决多重共线性

多重共线性处理方法

回归分析中的岭回归模型应用技巧

岭回归解决多重共线性教学文案

岭回归参数选择

岭回归数学模型

回归分析中的岭回归模型应用技巧(十)

多重共线性问题的几种解决方法

文档推荐

最新文档