偏最小二乘回归方法(PLS)
- 格式:docx
- 大小:1.45 MB
- 文档页数:15
两种偏最小二乘特征提取方法的比较偏最小二乘(Partial Least Squares, PLS)是一种常用的多元统计分析方法,在特征提取方面有两种常见的应用方法,分别是偏最小二乘回归(PLS Regression)和偏最小二乘判别分析(PLS-DA)。
本文将从这两种方法的原理、应用领域以及优缺点等方面进行比较,以便读者更好地理解它们的特点和适用场景。
一、偏最小二乘回归(PLS Regression)1.原理偏最小二乘回归是一种利用预测变量与被预测变量之间的关系来建立模型的方法。
它通过线性变换将原始变量转化为一组新的变量,即潜在变量,使得预测变量与被预测变量之间的相关性最大化。
PLS Regression既可以用于降维,提取主要特征,又可以用于建立预测模型。
2.应用领域PLS Regression广泛应用于化学、生物、食品等领域。
在化学领域,可以利用PLS Regression来建立光谱与化学成分之间的定量关系模型;在生物领域,可以利用PLS Regression来处理生物数据,如基因表达数据、蛋白质数据等。
3.优缺点优点:PLS Regression可以处理多重共线性和小样本问题,能够提取变量间的共同信息,对噪声和异常值具有较强的鲁棒性。
缺点:PLS Regression对参数的解释性较差,提取的潜在变量不易解释其物理或化学意义。
二、偏最小二乘判别分析(PLS-DA)偏最小二乘判别分析是一种将多变量数据进行降维和分类的方法。
它和偏最小二乘回归类似,也是通过线性变换将原始变量转化为一组潜在变量,但它的目的不是建立预测模型,而是根据已有类别信息对样本进行分类。
PLS-DA广泛应用于生物、医学、食品等领域。
在生物领域,可以利用PLS-DA对基因表达数据进行分类,发现与疾病相关的基因表达模式;在医学领域,可以利用PLS-DA对影像数据进行分析,帮助医生做出诊断和治疗决策。
缺点:PLS-DA的分类结果不易解释其物理或化学意义,对于大样本问题的分类效果可能不如其他分类方法。
偏最小二乘法 ( PLS)是光谱多元定量校正最常用的一种方法 , 已被广泛应用 于近红外 、 红外 、拉曼 、核磁和质谱等波谱定量模型的建立 , 几乎成为光谱分析中建立线性定量校正模型的通用方法 〔1, 2〕 。
近年来 , 随着 PLS 方法在光谱分析尤其是分子光谱如近红外 、 红外和拉曼中应用 的深入开展 , PLS 方法还被用来解决模式识别 、定量校正模型适用性判断以及异常样本检测等定性分析问题 。
由于 PLS 方法同时从光谱阵和浓度阵中提取载荷和得分 , 克服主成分分析 ( PCA)方法没有利用浓度阵的缺点 , 可有效降维 , 并消除光谱间可能存在的复共线关系 , 因此取得令人非常满意的定性分析结果 〔3 ~ 5〕 。
本文主要介绍PLS 方法在光谱定性分析方面的原理及应用 实例 。
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。
该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。
如美国Tripos 公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS 。
在PLS 方法中用的是替潜变量,其数学基础是主成分分析。
替潜变量的个数一般少于原自变量的个数,所以PLS 特别适用于自变量的个数多于试样个数的情况。
在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。
§§ 6.3.1 基本原理6.3 偏最小二乘(PLS )为了叙述上的方便,我们首先引进“因子”的概念。
一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。
偏最小二乘法
偏最小二乘法(Partial Least Squares, PLS)是一种多元统计分析方法,通常用于处理具有多个自变量(特征)和一个或多个因变量(响应变量)的数据集。
PLS的主要目标是通过线性组合自变量来建立与因变量之间的关系,同时减少自变量之间的多重共线性。
PLS的核心思想是将自变量和因变量进行分解,然后找到它们之间的最大协方差方向。
这种方法可以降低数据维度,同时保留与因变量相关性最高的信息。
PLS可以应用于回归问题和分类问题。
PLS的应用领域包括化学分析、生物信息学、工程、金融和其他领域,特别是在处理高维数据和样本较少的情况下,PLS可以帮助提高模型性能和降低过拟合的风险。
PLS方法通常包括以下步骤:
1. 数据准备:收集自变量和因变量的数据。
2. 标准化:对数据进行标准化处理,以确保不同变量的尺度一致。
3. 模型拟合:建立PLS模型,找到自变量和因变量之间的最大协方差方向。
4. 模型评估:评估模型的性能,通常使用交叉验证等方法。
5. 预测:使用训练好的PLS模型进行新数据的预测。
PLS有不同的变种,包括PLS回归(用于连续因变量),PLS-DA(用于分类问题),以及其他扩展。
这种方法在实际数据分析和建模中具有广泛的应用,可以帮助解决多变量数据分析中的问题。
偏最小二乘回归分析偏最小二乘回归分析(PLS)是一种统计分析技术,用于建立一个或多个解释变量(X)与一或多个响应变量(Y)之间的关系,以帮助研究者分析一个系统的影响因素,并确定响应变量的变化。
偏最小二乘回归分析还可以用来准确预测给定的解释变量可能会产生的响应变量。
偏最小二乘回归分析是为了弥补线性回归分析(LRA)的不足而开发的一种技术。
LRA假定解释变量之间没有非线性关系,而PLS可以更好地模拟非线性关系。
它也可以用于处理多元线性回归的解释变量间的相关性,以及用于处理一组试验组和一组参照组时的相关性。
偏最小二乘回归分析的优势主要体现在其对异常值敏感性低,可以简化计算,处理较大数据量,以及对模型表现和预测准确性更好等方面。
PLS的基本思想是将解释变量和响应变量分解成“属性”和“指标”,并计算属性和指标之间的相关性。
属性是构成解释变量和响应变量的基本成分,而指标是利用属性对响应变量的解释能力的衡量指标。
PLS可以用来计算属性与特定指标的相关性,也可以用来识别有助于预测响应变量值的最相关属性。
建立一个偏最小二乘回归模型的过程很复杂,但是要建立一个模型,需要一些基本步骤。
首先,需要收集一组代表解释变量和响应变量的实际数据。
对于每一对变量,需要对它们的关系进行分析,以获得拟合系数,以及预测响应变量的准确性,并考虑可能的异常值。
接下来,需要调整解释变量的权重,以便尽可能准确地得出每一个变量的重要性。
最后,需要使用正确的统计技术来评估模型。
总而言之,偏最小二乘回归分析是一种统计分析技术,可以用来建立一个或多个解释变量(X)和一个或多个响应变量(Y)之间的关系,并确定响应变量的变化。
它可以在包含多个解释变量的试验中实现更准确的解释和预测,而且可以在任何数据集中成功运行,即使存在异常值也是如此。
因此,偏最小二乘回归分析可以提供更精确的结果,可以帮助研究者在其研究中发现有效的特定关系。
两种偏最小二乘特征提取方法的比较偏最小二乘(PLS)是一种广泛应用于数据分析和特征提取的方法。
在实际应用中,我们常常会遇到需要对数据进行降维和提取有效特征的需求。
在PLS方法中,有两种常见的偏最小二乘特征提取方法,分别是PLS回归和PLS降维。
本文将对这两种方法进行比较,分析它们各自的特点和适用场景。
一、PLS回归PLS回归是一种基于偏最小二乘的预测建模方法,它通过最小化自变量和因变量之间的协方差来进行特征提取。
在PLS回归中,我们会将自变量和因变量分别投影到潜在变量空间中,然后通过构建潜在变量之间的线性关系来进行预测建模。
在特征提取方面,PLS 回归可以有效地捕捉自变量和因变量之间的相关信息,提取出对因变量影响较大的特征。
PLS回归的优点在于其能够处理多重共线性和高维数据,同时对噪声和异常值具有一定的鲁棒性。
在实际应用中,PLS回归常常用于预测建模和特征选择中。
PLS回归也存在一些缺点,例如在处理高度非线性的数据时效果欠佳,同时对于过拟合的数据也比较敏感。
二、PLS降维与PLS回归不同,PLS降维是一种直接针对自变量数据进行特征提取的方法。
在PLS 降维中,我们通过最小化自变量的协方差矩阵来选取最具代表性的特征,从而实现数据的降维和特征提取。
在特征提取方面,PLS降维可以有效地保留原始数据中的信息,并且能够捕捉数据中的主要结构和模式。
PLS回归和PLS降维是两种常用的偏最小二乘特征提取方法,在实际应用中各有其优点和局限。
在选择哪种方法时,我们需要根据具体的应用场景和需求来进行综合考虑。
一般来说,当我们需要进行预测建模和特征选择时,可以选择PLS回归方法;而当我们需要对数据进行降维和压缩时,则可以选择PLS降维方法。
我们也可以根据数据的特点和要求来选择合适的偏最小二乘特征提取方法,从而实现更加高效和准确的数据分析和建模。
【根据需求选择合适的偏最小二乘特征提取方法,可以帮助我们更好地处理数据并挖掘出其中的有效信息,从而实现更加准确和可靠的数据分析和预测。
偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术。
多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效。
而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。
为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。
最小偏二乘回归方法(Partial Least Squares Regression:PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。
它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。
近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。
偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。
它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。
偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。
下面将简单地叙述偏最小二乘回归的基本原理。
偏最小二乘法(PLS)简介偏最小二乘法(PLS)简介简介偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
偏最小二乘法长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y = b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
偏最小二乘法PLS和PLS回归的介绍及其实现方法偏最小二乘法(Partial Least Squares,简称PLS)是一种多元统计学方法,常用于建立回归模型和处理多重共线性问题。
它是对线性回归和主成分分析(PCA)的扩展,可以在高维数据集中处理变量之间的关联性,提取重要特征并建立回归模型。
PLS回归可以分为两个主要步骤:PLS分解和回归。
1.PLS分解:PLS分解是将原始的预测变量X和响应变量Y分解为一系列的主成分。
在每个主成分中,PLS根据两者之间的协方差最大化方向来寻找最佳线性组合。
PLS根据以下步骤来获得主成分:1)建立初始权重向量w,通常是随机初始化的;2) 计算X和Y之间的协方差cov(X,Y);3)将w与X与Y的乘积进行中心化,得到新的X'和Y';4)标准化X'和Y',使得它们的标准差为1;5)多次迭代上述步骤,直到达到设定的主成分数目。
2.回归:在PLS分解之后,我们得到了一组主成分,接下来可以使用这些主成分来建立回归模型。
回归模型可以通过以下步骤来构建:1)将X和Y分别表示为主成分的线性组合;2)根据主成分得分对回归系数进行估计;3)使用估计的回归系数将新的X预测为Y。
PLS的实现可以通过以下几种方法:1.标准PLS(NIPALS算法):它是最常见的PLS算法。
它通过递归地估计每个主成分和权重向量来实现PLS分解。
该算法根据数据的方差最大化原则得到主成分。
2.中心化PLS:数据在进行PLS分解之前进行中心化。
中心化可以确保主成分能够捕捉到变量之间的相关性。
3. PLS-DA:PLS-Discriminant Analysis,是PLS在分类问题中的应用。
它通过利用PLS分解找到最佳线性组合,以区分两个或多个不同的分类。
4. PLS-SVC:PLS-Support Vector Classification,是PLS在支持向量机分类中的应用。
它通过PLS寻找最优线性组合,同时最小化分类误差。
两种偏最小二乘特征提取方法的比较偏最小二乘(Partial least squares,PLS)是一种常用的多元线性回归方法,能够处理高维数据,并提取数据中最相关的特征。
PLS可分为两种类型:标准PLS和偏重PLS。
标准PLS将全部变量视为平等,通过一系列变换找到与因变量最相关的变量。
而偏重PLS则将某些变量赋予较高的权重,使得这些变量更容易被挖掘出来。
本文比较了两种偏PLS的特征提取方法,即分别考虑数据分布和损失函数的类别权重偏PLS(class weighted PLS,CWPLS)和考虑数据间关系的数据结构偏PLS(Data-Structure weighted PLS,DSWPLS)。
1. CWPLSCWPLS方法基于数据分布进行偏重,将类别权重引入PLS中。
CWPLS在求解时先对数据矩阵X按列分类,然后根据类别计算不同列的权重。
对于y的预测,用带权重的回归系数乘以新样本的x,即可得到预测结果。
CWPLS的核心在于如何定义权重。
常见的权重计算方式有均值、最大值、中位数等,而具体哪种方法最优则需要根据实际数据进行决策。
DSWPLS方法则基于数据间关系进行偏重,通过计算数据关系度量矩阵R来引入权重。
关系度量可以是相似度、距离、关联度等。
通过R,DSWPLS可以得到每个变量与其他变量的权重值,进而计算新样本的预测结果。
DSWPLS的优势在于它可以更好地捕捉数据中的关系,降低不同变量之间的冗余度。
但DSWPLS也存在一定的局限性,如对数据矩阵必须具有明显的结构等限制。
3. 两种方法的比较CWPLS和DSWPLS两种方法的差异在于它们引入权重的方式不同。
CWPLS更注重变量的类别,通过考虑类别的分布来进行权重计算,适用于数据中存在较为明显的类别标志的情况。
而DSWPLS更注重变量间的关系,可以更好地挖掘数据中的本质特征,适用于数据中各变量之间具有一定的相互关系的情况。
实际应用中,选择哪种方法取决于数据本身的特点。
偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术.多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效.而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。
为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。
最小偏二乘回归方法(Partial Least Squares Regression:PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。
它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。
近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。
偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。
它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模.偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体.下面将简单地叙述偏最小二乘回归的基本原理。
2 偏最小二乘法的工作目标2。
1 偏最小二乘法的工作目标在一般的多元线性回归模型中,如果有一组因变量Y={y1,…,y q}和一组自变量X={x1,…,x p},当数据总体能够满足高斯—马尔科夫假设条件时,根据最小二乘法,有⋂Y=X(X T X)-1X T Y⋂Y将是Y的一个很好的估计量。
从这个公式容易看出,由于(X T X)必须是可逆矩阵,所以当X中的变量存在严重的多重相关性时,或者在X中的样本点数与变量个数相比显然过少时,这个最小二乘估计都会失效并将引发一系列应用方面的困难。
考虑到这个问题,偏最小二乘回归分析提出了采用成分提取的方法。
在主成分分析中,对于单张数据表X,为了找到能最好地概括原数据的综合变量,在X中提取了第一主成分F1,使得F1中所包含的原数据变异信息可达到最大,即Var(F1)→max在典型相关分析中,为了从整体上研究两个数据表之间的相关关系,分别在X和Y中提取了典型成分F1和G1,它们满足r(F1,G1)→maxF1T F1=1G1T G1=1在能够达到相关度最大的综合变量F1和G1之间,如果存在明显的相关关系,则可以认为,在两个数据表之间亦存在相关关系。
提取成分的做法在数据分析的方法中十分常见,除主成分、典型成分以外,常见到的还有Fisher判别法中的判别成分.实际上,如果F是X数据表的某种成分,则意味着F是X中变量的某一线性组合F=Xa,而F作为一个综合变量,它在X中所综合提取的信息,将满足我们特殊的分析需要。
2。
2 偏最小二乘回归分析的建模方法设有q个因变量{y1,…,y q}和p个自变量{x1,…,x p},为了研究因变量与自变量的统计关系,观测n个样本点,由此构成了自变量与因变量的数据表X=【x1,…,x p】n*p和Y=【y1,…,y q】n*q。
偏最小二乘法回归分别在X与Y中提取出t1和u1(也就是说,t1是x1,…,x p的线性组合,u1是y1,…,y q的线性组合)。
在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1)t1和u1应尽可能大地携带它们各自数据表中的变异信息(2)t1和u1的相关程度能达到最大这两个要求表明,t1和u1应尽可能好地代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。
在第一个成分t1和u1被提取后,偏最小二乘法回归分别实施X对t1的回归以及Y对t1的回归.如果方程达到了满意的精度,则算法终止;否则,将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取.如此递推,直到能达到一个较为满意的精度为止。
若最终对X共提取了m个成分t1,…,t m,偏最小二乘法回归将通过实施Y K对t1,…,t m的回归,然后再表达成Y K 关于原变量x 1,…,x p 的回归方程,k=1,…,q 。
3 计算方法推导3.1 普遍采用的计算推导过程为了数学推导方便起见,首先将数据做标准化处理。
X 经标准化处理后的数据矩阵记为E 0=(E 01,…,E 0P )n*p ,Y 经过标准化处理后的数据矩阵记为F 0=(F 01,…,F 0q )n *q 。
第一步,记t 1是E 0的第一个成分,t 1=E 0w 1, w 1是E 0的第一个轴,它是一个单位向量,即||w 1||=1;记u 1是F 0的第一个成分,u 1=F 0c 1, c 1是F 0的第一个轴,它是一个单位向量,即||c 1||=1.如果要t 1,u 1能分别很好德代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有Var (t 1)→max Var(u 1)→max另一方面,由于回归建模的需要,又要求t 1对u 1有最大的解释能力,由典型相关分析的思路,t 1与u 1的相关度应达到最大值,即r (t 1,u 1)→max因此综合起来,在偏最小二乘回归中,我们要求t 1与u 1协方差达到最大,即 Cov(t 1,u 1)=√Var(t1)Var(u1)r(t1,u1)→max即求解下列优化问题max 〈E 0w 1,F 0C 1>w 1T w 1=1 (3-1) c 1T c 1=1因此,将在||w 1||=1和||c 1||=1的约束条件下,去求(w 1T E 0T F 0c 1)的最大值。
此种情况下我们就可以用拉格朗日算法求其最优解,记s= w 1T E 0T F 0c 1—λ1(w 1T w 1—1)- λ2(c 1T c 1-1)对s 分别求关于w 1、c 1、λ1、λ2的偏导,并令之为零,有=∂∂1sw E 0T F 0c 1-2λ1 w 1=0 (3—2)=∂∂1c sF 0T E 0w 1-2λ2 c 1=0 (3-3) =∂∂1sλ —( w 1T w 1—1)=0 (3-4)=∂∂2sλ -( c 1T c 1—1)=0 (3-5) 由(3-2)~(3—5)可以推出2λ1=2λ2= w 1T E 0T F 0c 1=〈E 0w 1,F 0C 1〉记ϴ1=2λ1=2λ2= w 1T E 0T F 0c 1,所以ϴ1是优化问题的目标函数值。
把式(3—2)和式(3—3)写成E 0TF 0c 1= ϴ1 w 1 (3-6) F 0T E 0w 1= ϴ1 c 1 (3-7)将式(3—7)代入式(3-6),有E 0TF 0F 0T E 0w 1= ϴ12 w 1 (3-8) 由式(3—8)可知,w 1是矩阵E 0T F 0F 0T E 0特征向量,对应的特征值为ϴ12,ϴ1是目标函数值,要求取得其最大值,所以w 1是对应于矩阵E 0T F 0F 0T E 0最大特征值ϴ12的单位特征向量。
求得轴w 1和c 1后,即可得到成分t 1=E 0w 1 u 1=F 0c 1然后,分别求E 0和F 0对t 1和u 1的回归方程11101*1101110,,F r t F FQ u F E P t E T T +=+=+=其中,21101/t t E P T =,21101/u u F Q T =,向量21101/t t F r T =;E 1,F 1*,F 1为回归方程的残差矩阵。
第2成分t 2的提取,以E 1取代E 0 , F 1取代F 0 , 用上面的方法求第2个轴W 2和第2个成分t 2 ,有11211112,W E t F E F E W TT==同样,E 1 , F 1分别对t 2做回归, 得到22212221,F r t F E P t E T T +=+=同理可推得第h 成分t h , h 的个数可以用交叉有效性原则进行, h 小于X 的秩。
如此计算下去,如果X 的秩为A,则会有E 0=t 1P 1T +…+t A P A TF 0= t 1r 1T +…+t A r A T +F A由于t 1,…,t A 均可以表示成E 01,…,E 0P 的线性组合,因此,上式可以还原成Y K = F 0K 关于X J =E 0J 的回归方程形式Y K =b k1X 1+…+ b kP X P +F AK k=1,..,q3.2一种简洁的计算推导过程3.1中介绍的推导思路是最为常见的,在3。
2中将介绍一种更为简洁的计算方法,即直接在E 0,…,E m -1矩阵中提取成分t 1,…,t m (m 〈p).要求t h 能尽可能多地携带X 中的信息,同时,t h 对因变量系统F 0有最大的解释能力。
这时无需在F 0中提取成分u h ,并且在迭代算法中也无需使用其残差矩阵,而始终直接用F 0进行计算。
这可以使计算过程大为简化,并且对算法结论的解释也更为方便。
下面讨论成分t 1,…,t m (m 〈=A,A=R(X ))的一种新原则。
在3。
1中推导偏最小二乘法回归算法时,第一步的思路是在因变量F 0抽取一个成分u 1=F 0c 1,同时在自变量E 0中抽取一个成分t 1=E 0w 1,成分的抽取原则是max<E 0w 1,F 0C 1>。
在这个原则下得知w 1,c 1,u 1,t 1的计算方法如下:(1)w 1是矩阵E 0T F 0F 0T E 0最大特征值的特征向量,成分t 1=E 0w 1; (2)c 1是矩阵F 0T E 0E 0T F 0最大特征值的特征向量,成分u 1=F 0c 1;在求得成分u 1,t 1以后,分别实施E 0在t 1上的回归,并生成残差矩阵E 1,以及F 0在t 1上的回归,得到残差矩阵F 1.再以E 1,F 1取代E 0,F 0进行第二轮成分的提取计算,注意到成分u 1,…,u m 是不参加回归计算的,因此是否可以考虑不提取因变量的成分呢?为此,用下述原则提取比变量中的成分t 2是与3.1中介绍的方法,结果是完全等价的,即由于F 0K 是标准化变量,所以Cov(F 0K , E 0w 1)=√Var(EOw1) r(F 0K , E 0w 1)因此,该优化原则是求成分t 1=E 0w 1,使得t 1能携带尽可能多的E 0变异,同时,t 1对因变量F 0K (k=1,…,q )的解释能力会综合达到最大值。