偏最小二乘方法
- 格式:ppt
- 大小:430.00 KB
- 文档页数:47
偏最小二乘法(Partial Least Square) 通过最小化误差平方来寻找数据与函数间的最佳匹配,是一种参数估计方法,一般估计步骤包括:首先将解释变量和被解释变量标准化,并提取解释变量和被解释变量的主成分,例如提取解释变量的主成分,要求与被解释变量高度相关,这个过程体现了典型相关和主成分分析的思想。
其次做解释变量和被解释变量在主成分上的回归,可以分别得到残差,这个还是OLS的思想。
最后,按以上的步骤循环下去,直到新的主成分系数不再显著。
其实PLS仍然是OLS的一种扩展,目前在解决多重共线性问题领域的研究很成熟。
一般认为比岭回归、主成分分析等方法在解决多重共线性问题上更为有效。
此外,PLS与结构方程(SEM)在应用上相得益彰,我们知道SEM是大样本理论的产物,因此其应用受到诸多限制,尤其在小样本下,该模型几乎无法应用,而PLS恰好可以弥补这方面的缺陷。
研究结论认为PLS 在非正态分布、小样本、共线性的情况下,仍然很稳定。
偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1) 能够在自变量存在严重多重相关性的条件下进行回归建模;(2) 允许在样本点个数少于变量个数的条件下进行回归建模;(3) 偏最小二乘回归在最终模型中将包含原有的所有自变量;(4) 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5) 在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
偏最小二乘法是一种多因变量对多自变量的回归建模方法。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
偏最小二乘法 ( PLS)是光谱多元定量校正最常用的一种方法 , 已被广泛应用 于近红外 、 红外 、拉曼 、核磁和质谱等波谱定量模型的建立 , 几乎成为光谱分析中建立线性定量校正模型的通用方法 〔1, 2〕 。
近年来 , 随着 PLS 方法在光谱分析尤其是分子光谱如近红外 、 红外和拉曼中应用 的深入开展 , PLS 方法还被用来解决模式识别 、定量校正模型适用性判断以及异常样本检测等定性分析问题 。
由于 PLS 方法同时从光谱阵和浓度阵中提取载荷和得分 , 克服主成分分析 ( PCA)方法没有利用浓度阵的缺点 , 可有效降维 , 并消除光谱间可能存在的复共线关系 , 因此取得令人非常满意的定性分析结果 〔3 ~ 5〕 。
本文主要介绍PLS 方法在光谱定性分析方面的原理及应用 实例 。
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。
该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。
如美国Tripos 公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS 。
在PLS 方法中用的是替潜变量,其数学基础是主成分分析。
替潜变量的个数一般少于原自变量的个数,所以PLS 特别适用于自变量的个数多于试样个数的情况。
在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。
§§ 6.3.1 基本原理6.3 偏最小二乘(PLS )为了叙述上的方便,我们首先引进“因子”的概念。
一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。
r语言实现偏最小二乘法偏最小二乘法(Partial Least Squares Regression,简称PLSR)是一种多元统计分析方法,常用于建立预测模型。
在R语言中,我们可以使用plsr函数来实现偏最小二乘法。
在讲解具体实现之前,我们先来了解一下偏最小二乘法的原理。
偏最小二乘法是基于最小二乘法的一种改进方法,用于处理多重共线性问题。
在最小二乘法中,我们通过最小化预测值与真实值之间的平方误差来建立模型。
然而,在多重共线性存在的情况下,最小二乘法的结果可能会受到较大的误差影响。
偏最小二乘法通过将自变量和因变量进行正交变换,得到新的变量,从而消除了多重共线性的影响。
这些新的变量被称为偏最小二乘法的主成分,它们是原始变量的线性组合。
通过对主成分进行逐步回归分析,我们可以得到一个可靠的预测模型。
接下来,我们使用R语言中的plsr函数来实现偏最小二乘法。
首先,我们需要加载pls包,并读取我们的数据集。
假设我们的数据集包含了多个自变量和一个因变量。
```rlibrary(pls)data <- read.csv("data.csv")```然后,我们可以使用plsr函数来建立偏最小二乘法模型。
在plsr 函数中,我们需要指定自变量和因变量的列数,并选择主成分的数量。
```rmodel <- plsr(Y ~ X1 + X2 + X3, data = data, ncomp = 2)```在上述代码中,Y代表因变量,X1、X2、X3代表自变量。
我们选择了2个主成分。
接下来,我们可以使用summary函数来查看模型的摘要信息。
```rsummary(model)```摘要信息中会显示出模型的R方值、标准误差以及每个主成分的贡献率。
我们还可以使用plot函数来绘制模型的各个主成分的贡献率图。
```rplot(model, ncomp = 2, asp = 1)```在图中,横轴代表主成分的数量,纵轴代表贡献率。
偏最小二乘回归方法偏最小二乘回归(PLSR)方法是一种用于建立两个或多个变量之间的线性关系模型的统计技术。
这种方法是回归分析的变种,特别适用于处理高维数据集或变量之间具有高度相关性的情况。
PLSR方法的目标是找到一个最佳的投影空间,以将自变量和因变量之间的关系最大化。
PLSR方法首先将自变量和因变量进行线性组合,然后通过最小二乘法来拟合这些组合和实际观测值之间的关系。
通过迭代过程,PLSR方法会削减每个变量的权重,并选择最相关的变量组合来构建模型。
PLSR方法使用最小二乘回归来估计模型参数,并通过交叉验证来确定模型的最佳复杂度。
一般而言,PLSR方法需要满足以下几个步骤:1.数据预处理:包括数据中心化和标准化操作。
中心化是指将数据的平均值平移到原点,标准化是指将数据缩放到相同的尺度,以便比较它们的重要性。
2.建立模型:PLSR方法通过迭代过程来选择最相关的变量组合。
在每次迭代中,PLSR方法计算每个变量对自变量和因变量之间关系的贡献程度。
然后,根据这些贡献程度重新计算变量的权重,并选择最重要的变量组合。
3.确定复杂度:PLSR方法通常通过交叉验证来确定模型的最佳复杂度。
交叉验证可以将数据集划分为训练集和测试集,在训练集上建立模型,并在测试集上评估模型的性能。
根据测试集上的性能表现,选择最佳的复杂度参数。
PLSR方法的优点在于可以处理高维数据集,并能够处理变量之间的高度相关性。
它可以找到自变量与因变量之间的最佳组合,从而提高建模的准确性。
此外,PLSR方法还可以用于特征选择,帮助研究人员找到对结果变量具有重要影响的变量。
然而,PLSR方法也存在一些限制。
首先,PLSR方法假设自变量和因变量之间的关系是线性的,因此无法处理非线性模型。
其次,PLSR方法对异常值非常敏感,可能会导致模型的失真。
此外,PLSR方法也对样本大小敏感,需要足够的样本数量才能获得可靠的结果。
总的来说,偏最小二乘回归方法是一种用于建立变量之间线性关系模型的统计技术。
偏最小二乘法
偏最小二乘法(Partial Least Squares, PLS)是一种多元统计分析方法,通常用于处理具有多个自变量(特征)和一个或多个因变量(响应变量)的数据集。
PLS的主要目标是通过线性组合自变量来建立与因变量之间的关系,同时减少自变量之间的多重共线性。
PLS的核心思想是将自变量和因变量进行分解,然后找到它们之间的最大协方差方向。
这种方法可以降低数据维度,同时保留与因变量相关性最高的信息。
PLS可以应用于回归问题和分类问题。
PLS的应用领域包括化学分析、生物信息学、工程、金融和其他领域,特别是在处理高维数据和样本较少的情况下,PLS可以帮助提高模型性能和降低过拟合的风险。
PLS方法通常包括以下步骤:
1. 数据准备:收集自变量和因变量的数据。
2. 标准化:对数据进行标准化处理,以确保不同变量的尺度一致。
3. 模型拟合:建立PLS模型,找到自变量和因变量之间的最大协方差方向。
4. 模型评估:评估模型的性能,通常使用交叉验证等方法。
5. 预测:使用训练好的PLS模型进行新数据的预测。
PLS有不同的变种,包括PLS回归(用于连续因变量),PLS-DA(用于分类问题),以及其他扩展。
这种方法在实际数据分析和建模中具有广泛的应用,可以帮助解决多变量数据分析中的问题。
偏最小二乘法1.1基本原理偏最小二乘法(PLS)是基于因子分析的多变量校正方法,其数学基础为主成分分析。
但它相对于主成分回归(PCR)更进了一步,两者的区别在于PLS法将浓度矩阵Y和相应的量测响应矩阵X同时进行主成分分解:X二 TP+EY=UQ+F式中T和U分别为X和Y的得分矩阵,而P和Q分别为X和Y的载荷矩阵,E和F分别为运用偏最小二乘法去拟合矩阵X和Y时所引进的误差。
偏最小二乘法和主成分回归很相似,其差别在于用于描述变量Y中因子的同时也用于描述变量X。
为了实现这一点,数学中是以矩阵Y的列去计算矩阵X的因子。
同时,矩阵Y的因子则由矩阵X 的列去预测。
分解得到的T和U矩阵分别是除去了人部分测量误差的响应和浓度的信息。
偏最小二乘法就是利用各列向量相互正交的特征响应矩阵T和特征浓度矩阵U进行回归:U=TB得到回归系数矩阵,又称矢联矩阵E:B=(TT )F U因此,偏最小二乘法的校正步骤包括对矩阵Y和矩阵X的主成分分解以及对矢联矩阵B的计算。
12主成分分析主成分分析的中心目的是将数据降维,以排除众多化学信息共存中相互重叠的信息。
他是将原变量进行转换,即把原变量的线性组合成几个新变量。
同时这些新变量要尽可能多的表征原变量的数据结构特征而不丢失信息。
新变量是一组正交的,即互不相矢的变量。
这种新变量又称为主成分。
如何寻找主成分,在数学上讲,求数据矩阵的主成分就是求解该矩阵的特征值和特征矢量问题。
卞面以多组分混合物的量测光谱来加以说明。
假设有n个样本包含p个组分,在m个波长下测定其光谱数据,根据比尔定律和加和定理有:如果混合物只有一种组分,则该光谱矢量与纯光谱矢量应该是方向一致,而人小不同。
换句话说,光谱A表示在由p个波长构成的p维变量空间的一组点(n个),而这一组点一定在一条通过坐标原点的直线上。
这条直线其实就是纯光谱b。
因此由ni个波长描述的原始数据可以用一条直线,即一个新坐标或新变量来表示。
如果一个混合物由2个组分组成,各组分的纯光谱用bl,b2 表示,则有:<=c i{b: + Ci2bl有上式看出,不管混合物如何变化,其光谱总可以用两个新坐标轴bl,b2来表示。
偏最小二乘法路径一、概述偏最小二乘法(Partial Least Squares, PLS)是一种常用的多元统计分析方法,它可以在面对高维数据和多重共线性时,有效地降低数据维度并提取主要特征。
PLS方法在许多领域都有广泛的应用,如化学、生物信息学、金融和工程等。
二、原理PLS方法通过寻找两个方向,即X和Y的潜在方向,使得它们之间的协方差最大。
具体而言,PLS首先对X和Y进行标准化处理,然后通过最小二乘法求解X和Y之间的回归系数。
随后,PLS基于回归系数的大小进行特征选择,选择其中最重要的特征。
这样,就得到了X和Y的主成分,也就是PLS路径。
三、应用1. 数据建模PLS方法在数据建模中具有重要的应用价值。
在建立预测模型时,PLS可以有效地处理高维数据和多重共线性问题。
通过提取主要特征,PLS可以减少模型的复杂度,提高模型的预测准确性。
2. 特征选择在特征选择中,PLS可以帮助我们从大量特征中选择出最相关的特征。
通过计算回归系数的大小,PLS可以确定哪些特征对目标变量具有最大的影响,从而进行特征选择。
3. 数据降维在面对高维数据时,PLS可以将数据降维到较低的维度。
通过提取主要特征,PLS可以减少数据的冗余信息,从而提高数据处理的效率。
4. 数据探索PLS方法还可以用于数据的探索性分析。
通过分析PLS路径,我们可以了解各个变量之间的关系,从而深入理解数据的内在结构。
5. 预测分析由于PLS方法能够有效处理高维数据和多重共线性问题,因此在预测分析中也有广泛的应用。
通过建立PLS模型,我们可以对未知数据进行预测,从而为决策提供参考。
四、总结偏最小二乘法路径是一种重要的多元统计分析方法,它可以在面对高维数据和多重共线性时,提取主要特征并降低数据维度。
通过特征选择、数据降维和预测分析等应用,PLS方法为数据分析和建模提供了有效的工具和方法。
希望通过本文的介绍,读者能对偏最小二乘法路径有更加深入的理解,并将其运用到实际问题中。
偏最小二乘法原理(一)偏最小二乘法什么是偏最小二乘法?偏最小二乘法(PLS),是一种回归分析方法,主要用于多元多品种属性向量,特别适用于变量间共线性较强,样本数据量少的情况下。
PLS主要通过特征提取的方式进行建模,从而提高了建模的精度和准确性。
偏最小二乘法原理偏最小二乘法主要是从两个方向出发:1.最大化自变量的方差,同时找到与因变量具有最大相关性的新变量2.在新变量上建立回归模型PLS的具体步骤1.数据预处理:对原始数据进行标准化处理或中心化处理2.选取潜在变量(Latent Variable):通过对原始数据进行特征提取,得到与自变量具有最大相关性的新变量3.建立回归模型:通过对新变量进行回归模型拟合,得到最终模型4.模型验证:通过对样本外数据进行预测和验证,评估模型泛化能力PLS与其他回归方法的比较1.与PCA的比较对于相同的数据集,PCA和PLS都可以进行降维处理,但其目的不同。
PCA的目的是最大化变量之间的协方差,而PLS的目的是最大化自变量与因变量之间的相关性。
因此,PLS通常比PCA更适合解决回归问题。
2.与传统回归模型的比较传统回归模型主要依靠自变量与因变量之间的线性关系来建立模型,但这种模型很容易出现过度拟合的情况。
在自变量之间存在共线性的情况下,PLS可以通过特征提取的方式减少冗余信息,从而提高模型的泛化能力。
总结偏最小二乘法是一种很有用的回归分析方法,尤其在多元多品种属性向量、变量之间共线性较强、样本数据量少的情况下,PLS具有很好的优化效果。
但是,在应用过程中需要注意数据预处理、潜在变量的选取和数据验证等方面的问题,才能保证模型的精度和准确性。
PLS的应用领域PLS主要应用于以下方面:1.化学领域:如药物分析、食品工业等2.生物医学领域:如疾病诊断、蛋白质研究等3.工业领域:如质量控制、过程优化等4.土木工程领域:如工程设计、性能预测等PLS的优点1.PLS可以通过特征提取的方式解决变量间共线性的问题,从而提高模型的泛化能力2.PLS可以在有限的数据量下得到较为准确的预测结果,尤其适用于数据样本量较少,但变量较多的情况3.PLS可以采用交叉验证的方法对模型进行评估,从而提高模型的鲁棒性PLS的缺点1.PLS需要对数据进行预处理,特别是当数据存在噪声、异常点等问题时,可能会影响模型的准确性2.PLS需要考虑潜在变量的选取和合适的回归模型建立,因此需要一定的专业知识和经验3.PLS在处理大量变量时,可能会导致过拟合问题,因此需要对模型进行调整和优化结语偏最小二乘法是一种非常实用的回归分析方法,在多种领域有广泛的应用。
偏最小二乘算法偏最小二乘算法(Partial Least Squares Regression,简称PLS 回归)是一种常用的统计分析方法,用于处理多变量数据集中的回归问题。
它是在被解释变量与解释变量之间存在复杂关系的情况下,通过降维和建立线性模型来解决回归问题的一种有效手段。
下面将详细介绍偏最小二乘算法的原理和应用。
一、原理介绍偏最小二乘算法的核心思想是通过寻找解释变量与被解释变量之间最大的协方差方向,将原始变量空间转换为新的综合变量空间,从而实现降维的目的。
具体步骤如下:1. 数据预处理:对原始数据进行中心化和标准化处理,以消除量纲和变量之间的差异。
2. 求解权重矩阵:根据解释变量和被解释变量的协方差矩阵,通过迭代的方式求解权重矩阵,使得新的综合变量能够最大程度地反映原始变量之间的关系。
3. 计算综合变量:将原始变量与权重矩阵相乘,得到新的综合变量。
4. 建立回归模型:将新的综合变量作为自变量,被解释变量作为因变量,通过最小二乘法建立回归模型。
5. 预测与评估:利用建立的回归模型对新的解释变量进行预测,并通过评估指标(如均方根误差、决定系数等)评估模型的拟合效果。
二、应用案例偏最小二乘算法在多个领域都有广泛的应用,下面以药物研究为例,介绍其应用案例。
假设我们需要研究一个药物的活性与其分子结构之间的关系。
我们可以收集一系列药物分子的结构信息作为解释变量,收集相应的生物活性数据作为被解释变量。
然后利用偏最小二乘算法,建立药物活性与分子结构之间的回归模型。
通过偏最小二乘算法,我们可以找到最相关的分子结构特征,并将其转化为新的综合变量。
然后,利用建立的模型,我们可以预测新的药物的活性,从而指导药物设计和优化。
三、优缺点分析偏最小二乘算法具有以下优点:1. 能够处理多变量之间的高度相关性,避免了多重共线性问题。
2. 通过降维,提高了模型的解释能力和预测精度。
3. 对于样本量较小的情况,仍能有效建立回归模型。
偏最小二乘法 python偏最小二乘法(Partial Least Squares,PLS)是一种常用的多元线性回归分析方法,主要用于解决自变量之间存在多重共线性的问题。
在 Python 中,可以使用第三方库`scikit-learn`和`numpy`搭配来实现偏最小二乘法。
首先请确保你已经安装了`scikit-learn`库与`numpy`库,如果还没有安装,可以使用以下命令来进行安装:```pip install scikit-learn numpy```以下是一个使用 Python 实现偏最小二乘法的示例代码:```pythonimport numpy as npfrom sklearn.cross_decomposition import PLSRegressiondef pls_example():# 准备示例数据X = np.array([[2], [3], [4], [5], [6]])y = np.array([1, 2, 3, 4, 5])# 创建偏最小二乘回归模型pls = PLSRegression(n_components=1)# 在训练数据上拟合模型pls.fit(X, y)# 新的自变量new_X = np.array([[7]])# 使用模型进行预测predicted_y = pls.predict(new_X)return predicted_yprint(pls_example())```在这个示例中,我们首先导入所需的库。
然后,我们准备了一个示例数据集,其中`X`是自变量矩阵,`y`是因变量向量。
接下来,我们创建了一个`PLSRegression`对象,通过设置`n_components`参数来指定保留的主成分数量。
然后,我们使用`fit`方法拟合模型到训练数据上。
最后,我们可以使用`predict`方法对新的自变量`new_X`进行预测,并输出预测结果。
请注意,这只是一个简单的示例,实际应用中可能需要更复杂的数据预处理、调参和评估步骤。
主成分回归与偏最小二乘方法的区别与联系在工程技术、医药学和社会科学研究中,为了解决实际问题,常常要建立某些数学模型。
例如:常说的回归分析,就是将实验数据或观察值代入相关的数学函数中去,借助统计方法确定出使总体均值最大(或最小)或均值、标准差最小(或最大)的那些函数的值,作为x与其他变量之间相互关系的数学表达式,它是描述两个变量之间关系的一种方法。
一、偏最小二乘法在线性回归方程中的应用分析,就是指从一组相关的x、 y数据中建立最小二乘( LS)模型,用来估计未知参数x、 y的数学模型。
(一)主成分回归法的原理1、相关性原理2、线性原理(1)有限原则(2)逐步回归的原则(3)线性回归方程的几何形式主要有最小平方和、最大平方和、最小最大平方和、最大最小平方和和最大最小最大平方和五种类型。
主成分回归具有以下特点:(1)适用于非线性模型。
(2)能保持原有指标不变,且可作不同尺度比较。
(3)有效降低总变异的估计误差。
3、单因素主成分回归的适用条件(1)因变量是高维向量{(2)只存在一个自变量; (3)每个自变量服从正态分布。
(4)回归方程对自变量的水平无特别要求。
(5)已知因变量与若干个自变量的统计特征值。
二、主成分回归和偏最小二乘法的联系与区别联系:两者都是基于最小二乘法而发展起来的一种多元线性回归方程的预测方法。
区别: 1、偏最小二乘是相关性的改进。
2、偏最小二乘方法属于“非线性模型”的线性预测,而主成分回归则属于“非线性模型”的线性预测。
3、偏最小二乘需要两个或两个以上的指标,主成分回归仅需要一个指标即可。
4、在相关性原理的基础上,偏最小二乘又增加了原则上最优的特征根,并用逐步回归的方法寻找出原始回归模型,这样做既增加了信息含量,又减少了错误,提高了精确度。
3、单因素主成分回归的适用条件(1)因变量是高维向量{(2)只存在一个自变量; (3)每个自变量服从正态分布。
(4)回归方程对自变量的水平无特别要求。
偏最小二乘算法以偏最小二乘算法(Partial Least Squares Regression,简称PLSR)是一种在统计学和数据分析领域中常用的多元回归方法。
它主要用于处理具有多个自变量和一个因变量的数据,通过寻找最佳的线性组合来建立模型,从而解决数据分析和预测问题。
本文将介绍PLSR算法的原理、应用和优势,以及其在实际问题中的应用案例。
1. PLSR算法的原理PLSR算法基于最小二乘法,通过将自变量和因变量进行线性组合,找到一组最佳的投影方向,使得投影后的变量之间的协方差最大,并且与因变量之间的相关性最大。
这样,就可以通过建立线性模型来预测因变量的值。
PLSR算法在处理高维数据和多重共线性问题时具有很好的效果。
2. PLSR算法的应用PLSR算法可以应用于多个领域,如化学、生物医学、食品科学等。
在化学领域,PLSR算法常用于分析和预测化学物质的性质,例如预测某种化学物质的溶解度、反应速率等。
在生物医学领域,PLSR算法可以用于分析遗传数据,如基因表达谱和蛋白质组学数据,以及预测药物的活性和副作用。
在食品科学中,PLSR算法可以用于分析食品的成分和品质,以及预测产品的口感和营养价值。
3. PLSR算法的优势相比于其他回归方法,PLSR算法具有以下几个优势:(1)PLSR算法可以处理高维数据和多重共线性问题,避免了过拟合和模型不稳定性的问题。
(2)PLSR算法可以同时考虑自变量和因变量之间的关系,可以更准确地建立预测模型。
(3)PLSR算法可以通过选择最佳的投影方向来降低数据的维度,减少自变量的数量,提高模型的可解释性和预测能力。
(4)PLSR算法可以处理非线性关系,通过引入非线性变换或核技巧,可以拟合更复杂的数据模式。
4. PLSR算法的应用案例以药物研发为例,研究人员常常需要建立药物活性和物理化学性质之间的关系模型。
通过收集一系列药物分子的物理化学性质数据和生物活性数据,可以使用PLSR算法建立预测模型,从而预测新药物的活性。
偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术。
多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效。
而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。
为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。
最小偏二乘回归方法(Partial Least Squares Regression :PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。
它于1983年由S.Wold 和 C.Albano 等人首次提出并成功地应用在化学领域。
近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。
偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。
它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。
偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。
下面将简单地叙述偏最小二乘回归的基本原理。