(整理)(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析.
- 格式:doc
- 大小:531.50 KB
- 文档页数:19
什么是偏最小二乘偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X 和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了。
偏最小二乘法的起源与发展H Wold作为PLS的创始人,在70年代的经济学研究中引入了偏最小二乘法进行路径分析,创建了非线性迭代偏最小二乘算法(Nonlinear Iterative Partial Least Squares algorithm,NIPALS),至今仍然是PLS中最常用和核心的算法。
HW.old的儿子S Wold和C Albano等人在1983年提出了偏最小二乘回归的概念,用来解决计量化学中变量存在多重共线性,解释变量个数大于样本量的问题,如在光谱数据分析中。
偏最小二乘法(Partial Least Square) 通过最小化误差平方来寻找数据与函数间的最佳匹配,是一种参数估计方法,一般估计步骤包括:首先将解释变量和被解释变量标准化,并提取解释变量和被解释变量的主成分,例如提取解释变量的主成分,要求与被解释变量高度相关,这个过程体现了典型相关和主成分分析的思想。
其次做解释变量和被解释变量在主成分上的回归,可以分别得到残差,这个还是OLS的思想。
最后,按以上的步骤循环下去,直到新的主成分系数不再显著。
其实PLS仍然是OLS的一种扩展,目前在解决多重共线性问题领域的研究很成熟。
一般认为比岭回归、主成分分析等方法在解决多重共线性问题上更为有效。
此外,PLS与结构方程(SEM)在应用上相得益彰,我们知道SEM是大样本理论的产物,因此其应用受到诸多限制,尤其在小样本下,该模型几乎无法应用,而PLS恰好可以弥补这方面的缺陷。
研究结论认为PLS 在非正态分布、小样本、共线性的情况下,仍然很稳定。
偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1) 能够在自变量存在严重多重相关性的条件下进行回归建模;(2) 允许在样本点个数少于变量个数的条件下进行回归建模;(3) 偏最小二乘回归在最终模型中将包含原有的所有自变量;(4) 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5) 在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
偏最小二乘法是一种多因变量对多自变量的回归建模方法。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术。
多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效。
而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。
为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。
最小偏二乘回归方法(Partial Least Squares Regression:PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。
它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。
近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。
偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。
它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。
偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。
下面将简单地叙述偏最小二乘回归的基本原理。
第三章 多元线性回归与最小二乘估计3.1 假定条件、最小二乘估计量和高斯—马尔可夫定理1、多元线性回归模型:y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t (3.1) 其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。
u t 代表众多影响y t 变化的微小因素。
使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。
当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1,y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, (3.2) ………..y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T经济意义:x t j 是y t 的重要解释变量。
代数意义:y t 与x t j 存在线性关系。
几何意义:y t 表示一个多维平面。
此时y t 与x t i 已知,βj 与 u t 未知。
)1(21)1(110)(111222111111)1(21111⨯⨯-⨯---⨯⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡T T k k k T k T TjT k j k jT T u u u x x x x x x x x x y y yβββ (3.3) Y = X β + u (3.4)2假定条件为保证得到最优估计量,回归模型(3.4)应满足如下假定条件。
偏最小二乘法(PLS)简介偏最小二乘法(PLS)简介简介偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
偏最小二乘法长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y = b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、 偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。
利用偏最小二乘回归方法解析、优化烧结生产过程提要:本文介绍了分析复杂系统规律的第二代多元统计分析方法——偏最小二乘回归方法(PLS)的原理和技术特点,利用国内第一款在Excel中实现PLS的软件——PEW(PLS+Excel+Word)对影响烧结矿成品率、转鼓强度和RDI的因素进行了分析。
此技术提供了一种模型简单有效,物理意义清晰明确的分析工具,可以打开错综复杂,影响因素交叉重叠这一看不见的生产过程黑箱,指导操作调整,指引改造升级,为解析、优化烧结乃至钢铁生产流程提供了一个很好的手段。
关键词:偏最小二乘回归方法(PLS)解析优化烧结生产过程1 前言烧结是一个非稳态、紧耦合、多时变的复杂系统,在烧结生产实践中,有时很想了解本单位在现有装备水平、原料条件下各种原料特性,各种工艺参数是如何影响烧结矿产量、质量、能耗指标或透气性等限制性环节的,更具体来说就是:众多工艺参数与产品产量、质量、能耗指标或透气性等限制性环节之间是什么关系。
如何能清晰地表明哪些参数对产品产量、质量、能耗指标或透气性等限制性环节而言是重要因素,哪些是次要因素;哪些是正相关,哪些是负相关;变动参数的一个单位对结果影响有多大;哪些数据点是特异点需要关注或剔除;得出这些结论可信度有多大。
由于各厂情况不一样,专业课本没有也不可能给出明确的公式,而实践经验往往也很模糊,从统计学角度来讲专家系统和神经网络预测的精度是最高的,但是专家系统和神经网络只能依据经验或采取随机试探的方法,具用一定的随意性,且对所描述对象的输入输出变量之间的关系往往缺乏很好的解释性。
传统的最小二乘回归能给出一个清晰的关系式,但由于变量之间存在多重相关性,使得模型精度不高,甚至出现与常识相悖的情况。
瑞典化学家伍德和阿巴诺于1983年提出的新型多元统计分析方法——偏最小二乘回归(PLS),它集多元线性回归分析、主成份分析、典型相关分析的基本功能为一体,很好地解决了普通多元回归无法解决的现实问题中普遍存在的自变量之间多重相关性和样本点容量过少的问题,被称为第二代的多元回归分析方法,其应用领域已经从最初的化工领域快速扩展到机械、生物、地质、医学、社会学以及经济学等领域。
偏最小二乘回归方法1 偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中,多元线性回归分析是一种普遍应用的统计分析与预测技术。
多元线性回归中,一般采用最小二乘方法(Ordinary Least Squares :OLS)估计回归系数,以使残差平方和达到最小,但当自变量之间存在多重相关性时,最小二乘估计方法往往失效。
而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。
为消除这种影响,常采用主成分分析(principal Components Analysis :PCA)的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力。
最小偏二乘回归方法(Partial Least Squares Regression:PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。
它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。
近十年来,偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展,己经广泛地应用在许多领域,如生物信息学、机器学习和文本分类等领域。
偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。
它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。
偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来,可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析),即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。
下面将简单地叙述偏最小二乘回归的基本原理。
主成分分析(Principal Component Analysis, PCA)一个优秀的模型应该是用尽可能少的特征来涵盖尽可能多的信息。
对于多元线性回归模型,除了对全部特征进行筛选和压缩——这些都是针对原特征本身,那么是否可以把多个特征组合成少数的几个新特征,使模型更加简洁?特别是多个特征之间往往还存在多重共线性关系。
主成分分析的核心思想就是降维,把高维空间上的多个特征组合成少数几个无关的主成分,同时包含原数据中大部分的变异信息。
举个例子,在二维平面中,如果大部分的点都在一条直线附近,是不是就可以直接用这条直线当作一维坐标轴来反映原始数据?在三维空间中,如果大部分的点都在一个平面附近,是不是就可以直接用这个平面当作二维平面来反映原始数据?以上概念中的变异信息就用方差来衡量,第一主成分是高维空间上的一个向量,所有的点沿着这条线波动最大,或者说所有的点到直线的距离的平方和最小。
如下图所示,所有的点沿着绿色直线的波动最大,它就代表着第一主成分向量。
主成分分析几何意义有了第一主成分,还可以依次往后选择主成分,各主成分之间是相互正交的向量。
如下左图所示,右图是左图的旋转,以第一主成分作为x轴,第二主成分作为y轴与之垂直。
第一主成分与第二主成分以上是主成分的几何意义,那么它的数学意义是什么?如何去求解主成分向量?首先,我们定义主成分是原特征的线性组合,即:主成分定义找到一组Φ(其平方和为1),使Z1的方差最大,它的优化问题变成:主成分优化目标第一主成分确定之后,如果是二维空间那么第二主成分就可以通过正交关系直接确定;对于高维空间,一个向量的正交向量可以有无数个,则在其正交向量中继续优化上式至最大值;之后的主成分依次类推。
以下以美国的犯罪记录数据为例,对特征进行PCA:> library(ISLR)> apply(USArrests,2,mean) # 各变量均值差异很大Murder Assault UrbanPop Rape7.788170.76065.54021.232> apply(USArrests,2,var) # 各变量方差差异也很大Murder Assault UrbanPop Rape18.970476945.16571209.5187887.72916>> ## 必须要对变量进行标准化,否则主成分就由Assault一个变量决定>> pr.out = prcomp(USArrests,scale. = T)> names(pr.out)[1] "sdev""rotation""center""scale""x"> pr.out$center # 标准化之后的均值主成分分析双坐标图这张图是主成分分析的双坐标图,略复杂。
偏最小二乘法(PLS)简介偏最小二乘法(PLS)简介简介偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。
近几十年来,它在理论、方法和应用方面都得到了迅速的发展。
偏最小二乘法长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。
而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
这是多元统计数据分析中的一个飞跃。
偏最小二乘法在统计应用中的重要性体现在以下几个方面:偏最小二乘法是一种多因变量对多自变量的回归建模方法。
偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。
这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。
但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。
偏最小二乘回归可以解决这个问题。
它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。
现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了基本概念偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:Y = b0 + b1X1 + b2X2 + ... + bpXp在方程中,b0是截距,bi的值是数据点1到p的回归系数。
例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。
应 用 数 学M ATHE M ATIC A APP LIC AT A2004,17(增):140~143Ξ偏最小二乘回归的应用效果分析申艳,刘次华(华中科技大学数学系,武汉430074)摘要:本文介绍了偏最小二乘回归(P LS)的建模方法,比较了P LS与普通最小二乘回归(O LS)及主成分回归的应用效果,并总结了P LS回归的基本特点.关键词:多重共线性;偏最小二乘回归;最小二乘回归;主成分回归中图分类号:O212.1 AMS(2000)主题分类:62J05文献标识码:A 文章编号:100129847(2004)增20140204、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、拟合及预测,多元线性回归便是常用的方法之一.一般采用普通最小二乘方法估计回归系数,可以使残差平方和达到最小,但当自变量之间存在多重共线性时,最小二乘估计方法往往失效,不仅增大了模型误差,而且使模型丧失稳健性.为消除系统中的多重共线性,常采用主成分回归的方法,但采用主成分分析提取的主成分,虽然能较好地概括自变量系统中的信息,却带进了许多无用的噪声,从而对因变量缺乏解释能力.近年来发展起来的偏最小二乘回归(P LS)研究的焦点是多因变量对多因变量回归建模,能在自变量之间存在多重共线性的条件下进行建模,更易于辨识系统信息与噪声,对因变量也有较强的解释能力.考虑q个变量y1,…,y q与p个自变量x1,…,x p的建模问题.偏最小二乘回归的基本思想是首先在自变量集中提取第一成分t1(t1是x1,…,x p的线性组合,且尽可能多地携带原自变量集中的变异信息);同时在因变量集中也提取第一成分u1,并要求t1与u1相关程度达最大,然后建立因变量y1,…,y q与t1的回归方程,如果回归方程已达到满意的精度,则算法终止.否则继续第二成分的提取,直到能达到满意的精度为止.若最终对自变量集提取了l个成分t1,…,t l,偏最小二乘回归将通过建立y1,…,y q与t1,…,t l的回归方程式得出y1,…,y q与自变量x1,…,x p的回归方程式,即偏最小二乘回归方程式.首先将数据做标准化处理.记X=(x1,…,x p)n×p经标准化处理后的数据矩阵为E0= (E01,…,E0p)n×p,Y=(y1,…,y q)经标准化处理后的数据矩阵为F0=(F01…F0q)n×q第一步,记t1是E0的第一成分,t1=E0w1,w1是E0的第一个轴,且‖w1‖=1,记u1是F0的第一成分,u1=F0c1,c1是F0的第一个轴,且‖c1‖=1.如果要求t1,u1能分别很好地代表X 与Y中的数据变异信息,根据主成分分析原理,我们要求t1与u1标准差Var(t1),V(u1)趋于最大.另一方面t1对u1要有最大的解释能力,由典型相关分析的思路,t1与u1的相关度应达Ξ收稿日期:2004205213作者简介:申艳,女,讲师,华中科技大学数学系硕士,研究方向:概率与数理统计.到最大值,即r (t 1,u 1)→max ,综合起来就是要求t 1与u 1的协方差达到最大,即C ov (t 1,u 1)=Var (t 1)Var (u 1)r (t 1,u 1)→max ,也就是在‖w 1‖=1,‖c 1‖=1的约束条件下求w T 1E T 0F 0c 1的最大值.采用拉格朗日算法,记s =w T 1E Γ0F 0c 1-λ1(w T 1w 1-1)-λ2(c T1c 1-1),对s 分别求关于w 1,c 1,λ1和λ2的偏导,并令之为零,可以推出E T 0F 0F T 0E 0w 1=θ21w 1,F T 0E 0E T 0F 0c 1=θ21c 1,这里记θ1=2λ1=2λ2=w T 1E T0F 0c 1,容易看出θ1正是优化问题的目标函数值(要求θ1取最大值),w 1是对应于矩阵E T 0F 0F T 0E 0的最大特征值θ21的单位特征向量,c 1是对应于矩阵F T 0E 0E T 0F 0的最大特征值θ21的单位特征向量.求得w 1和c 1后,即可得成分t 1=E 0w 1,u 1=F 0c 1,然后,分别求E 0和F 0对t 1,u 1的三个回归方程E 0=t 1p T 1+E 1,F 0=u 1q T 1+F 31,F 0=t 1r T1+F 1,式中回归系数p 1=E T 0t 1‖t 1‖2,q 1=F T 0u 1‖u 1‖2,r 1=F T0t 1‖t 1‖2,而E 1,F 31,F 1分别是三个回归方程的残差矩阵.第二步用残差矩阵E 1和F 1取代E 0和F 0,用同样的方法求第二个轴w 2和c 2以及第二个成分t 2,u 2.如此计算下去,如果X 的秩是l ,则存在l 个成分t 1,t 2,…,t l ,使得E 0=t 1p T1+…+t l p T l ,F 0=t 1r T 1+…+t l r Tl +F l ,由于t 1,t 2,…,t l 均可以表示成E 01…E 0P 的线性组合,因此可得y 3k =F 0k ,关于x 3j =E 0j 的回归方程式,即y 3k =a k 1x 31+…+a kp x 3p +F lk ,k =1,2,…,q.一般情况下,偏最小二乘回归并不需要选用存在的l 个成分t 1,t 2,…,t l 来建立回归式,而像主成分分析一样,只选用前m 个成分(m ≤l ),即可得到预测能力较好的回归模型.下面讨论确定抽取成分个数m 的两种常用方法.(1)“舍2交叉验证法”:每次舍去第i 个观测(i =1,…,n ),用余下的n -1个观测按偏最小二乘回归方法建模,并考虑抽取h 个成分后拟合的回归式,然后把舍去的第i 个观测点代入所拟合的回归方程式,得到y j 在第i 个观测点上的预测值^y j (-i )(h ).对于每一个i =1,2,…,n ,重复以上测试,可得y j (j =1,2,…,q )的预测残差平方和为PR ESS j (h )=∑ni =1(yij-^y j (-i )(h ))2,(j=1,2,…,q ),Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).对抽取成分个数h 从1到A 逐个计算Y 的预测残差平方和PR ESS (h ),然后选取使Y 的预测残差平方和达到最小的h ,取m =h.(2)“Q 2h ”验证法:同方法(1)先算出Y =(y 1,…,y q )的预测残差平方和为PR ESS (h )=∑qj-1PRESS j(h ).另外,再采用所有的样本点,拟合含h 个成分的回归方程,记yj在第i 个样本点的预测值为^y ji (h ),则可定义y j 的残差平方和为SS j (h )=∑n i =1(yij-^y ji (h ))2,Y =(y 1,…,y q )的残差平方和为SS (h )=∑qj -1SS j(h ).对于全部因变量Y ,成分th的交叉有效性可定义为Q 2h =1-PR ESS (h )SS (h -1),Q 2h ≥0.097时,表明加入成分能改善模型质量,否则不能.下面我们考察大学生的高考成绩对其大学成绩的影响.选取某高校学生的5门高考成绩141增刊 申艳等:偏最小二乘回归的应用效果分析为自变量X=(x1,x2,x3,x4,x5),其中x12语文,x22数学,x32英语,x42政治,x52历史.并以他们大学第一学期的高等数学成绩为因变量Y.对数据进行标准化处理,建立高考成绩对高等数学的P LS回归模型,有关数据见表1,表2.表1 成分与自变量的相关系数表t1t2t3t4t5E01-0.36740.76290.43190.1979-0.2392E020.8477-0.19340.10820.48080.0330E030.90370.12330.2718-0.25790.1669E040.35820.7693-0.34350.07290.3956E050.44510.4844-0.6779-0.1701-0.2807Y0.72120.20520.0657-0.02790.0002由表1可以看出,第一成分t1与自变量E02,E03的相关系数很高,因此t1是一个体现自变量系统中数学和英语的因子.表2 高等数学的P LS回归模型的精度分析表成分t1t2t3t4t5RdX0.39930.29220.16990.07420.0643累积RdX0.39930.69160.85150.9357 1.000RdY0.52010.04210.00430.00080.000累积RdY0.52010.56220.56650.56130.5673PRESS9.47129.846310.572911.064811.20044RdX=1p∑pj=1r2(x j,t h)表示成分t h对X的解释能力,RdY=1q∑qk=1r2(y k,t h)表示成分t h对Y的解释能力.由表2可以看出,第一主成分解释了自变量系统中39.93%的变异信息,同时解释了因变量系统中52.01%的变异信息,这反映出数学,英语对因变量系数的贡献最大.另一方面,当h=1时,预测残差平方和最小(PR ESS=9.4712),因此我们用第一成分t1来建立P LS 回归模型,对高等数学有较好的观测能力.P LS回归模型是F0=0.0454E01+0.3000E02+0.3725E03-0.0663E04+0.2019E05 为了比较P LS回归与最小二乘回归(O LS),主成分回归(PCR)的回归效果,建立其它几种回归关于高考成绩对高等数学的回归模型如下:1.普通最小二乘回归方程:F0=0.1153E01+0.2442E02+0.5045E03-0.0062E04+0.2210E05 2.主成分回归方程:(1)用两个主成分建立的回归方程:F0=-0.2370E01+0.5356E02+0.6058E03-0.1131E04+0.4659E05 (2)用三个主成分建立的回归方程:F0=0.0857E01+0.5917E02+0.6753E03-0.1155E04+0.3812E05回归系数的大小表示相关程度的高低,或者贡献率的高低.这三个模型回归系数的性质是一致的,都反映出数学,英语对因变量系数的贡献最大,与我们的定性认识比较符合.但从回归模型的预测残差平方和PRESS(下表)241应 用 数 学 2004O LSRPCR (2)PCR (3)P LSR PRESS15.224413.123112.78999.4712可以发现偏最小二乘回归的PRESS 最小,说明由偏最小二乘回归方程拟合的方程对样本点的变动而引起的扰动误差影响最小,可见偏最小二乘回归模型最理想.特别当自变量之间存在严重多重相关性时,P LS 方法的优越性更能充分显示出来.偏最小二乘回归有如下基本特点:(1)P LS 对数据拟合及预测精度和稳定性均高于最小二乘回归(O LS )与主成分回归.(2)P LS 回归可以较好地处理O LS 难以解决的问题.当自变量之间存在严重多重相关性时,使用O LS 无法建立模型.然而P LS 却能利用对系统中的数据信息进行分解和筛选,提取对因变量解释最强的综合变量,识别系统中的噪声,建立适当的模型.另一方面,O LS 建模时的样本数不宜太少,一般要求为拟合项的两倍以上,而P LS 回归却能在自变量多,样本数少的情况下建立精度较高的模型.(2)P LS 回归在建模的过程中集中了O LS 回归、主成分分析、典型相关分析三者的特点.因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息.参考文献:[1] 罗永泰,李小妹.高考入学成绩对后续课程影响的统计分析[J ].数理统计与管理,1996,15(2):14~16.[2] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.[3] 何小群.回归分析与经济数据建模[M].北京:中国人民大学出版社,1997.[4] 茆诗松,王静龙.高等数理统计[M].高等教育出版社,2000.Analysis of Applied E ffect of P artial Least Squares R egressionSHEN Yan ,LIU Ci 2hua(Mathematics Department ,Huazhong Univer sity o f Science and Technology ,Wuhan 430074,China )Abstract :In the paper ,we introduced how to build partial least squares regression m odel and com 2pared the applied effect of P LS with O LS and PCR.K ey w ords :Partial least squares regression ;Multi 2correlation ;O LSR341增刊 申艳等:偏最小二乘回归的应用效果分析。
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。
为了研究因变量和自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}和.Y={q y y ,...,1}。
偏最小二乘回归分别在X 与Y 中提取出成分1t 和1u (也就是说, 1t 是p x x ,...,1 的线形组合, 1u 是q y y ,...,1 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1) 1t 和1u 应尽可能大地携带他们各自数据表中的变异信息; (2) 1t 与1u 的相关程度能够达到最大。
这两个要求表明,1t 和1u 应尽可能好的代表数据表X 和Y ,同时自变量的成分1t 对因变量的成分1u 又有最强的解释能力。
在第一个成分1t 和 1u 被提取后,偏最小二乘回归分别实施X 对 1t 的回归以及 Y 对1u 的回归。
如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X 被1t 解释后的残余信息以及Y 被1t 解释后的残余信息进行第二轮的成分提取。
如此往复,直到能达到一个较满意的精度为止。
若最终对 X 共提取了 m 个成分1t ,…,mt ,偏最小二乘回归将通过实施 k y 对1t ,…,mt ,的回归,然后再表达成k y 关于原变量x1,…,xm,的回归方程,k=1,2,…,q 。
1.2计算方法推导为了数学推导方便起见,首先将数据做标准化处理。
X 经标准化处理后的数据矩阵记为0E =(E 01,…,E p 0)p n ⨯,j Y 经标准化处理后的数据矩阵记为0F =(01F ,…,q F 0)p n ⨯。
第一步 记1t 是0E 的第一个成分,1w 是0E 的第一个轴,它是一个单位向量,既||1w ||=1。
记1u 是0F 的第一个成分,1u =0F c 1。
c 1是0F的第一个轴,并且||c 1||=1。
如果要1t ,1u 能分别很好的代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有Var(1u )→max Var(1t )→max另一方面,由于回归建模的需要,又要求1t 对1u 有很大的解释能力,有典型相关分析的思路,1t 与1u 的相关度应达到最大值,既r (1t ,1u )→max因此,综合起来,在偏最小二乘回归中,我们要求1t 与1u 的协方差达到最大,既Cov(1t ,1u )=)()(11u t Var Var r(1t ,1u ) →max正规的数学表述应该是求解下列优化问题,既因此,将在||1w ||2=1和||c 1||2=1的约束条件下,去求(w '1E 'Fc 1)的最大值。
如果采用拉格朗日算法,记s=w '1E'0F c 1-λ1(w'11w -1)-λ2 (c '1c 1-1)对s 分别求关于1w ,c 1,λ1和λ2的偏导并令之为零,有1w s∂∂=E '00F c 1-λ121w =0 (1 -2)1c s∂∂=F '00E 1w -λ22c 1=0 (1-3)1λ∂∂s =-(w '11w -1)=0 (1-4)2λ∂∂s =-(c '1c 1-1)=0 (1-5) 由式(1-2)~(1-5),可以推出>=<==1010100'1'21,22c F w E c F E w λλ记100'1'21122c F E w ===λλθ,所以,1θ正是优化问题的目标函数值. 把式(1-2)和式(1-3)写成11100'w c F E θ= (1-6) 11100'c w E F θ= (1-7)将式(1-7)代入式(1-6),有121100'00'w w E F F E θ= (1-8)同理,可得121100'00'c c F E E F θ= (1-9)可见,1w 是矩阵00'00'E F F E 的特征向量,对应的特征值为21θ.1θ是目标函数值,它要求取最大值,所以, 1w 是对应于00'00'E F F E 矩阵最大特征值的单位特征向量.而另一方面, 1c 是对应于矩阵00'00'F E E F 最大特征值21θ的单位特征向量. 求得轴1w 和1c 后,即可得到成分101w E t = 101c F u = 然后,分别求0E 和0F 对1t ,1u 的三个回归方程11'10E p t E += (1-10)11'10*+=F q u F (1-11) 11'10F r t F += (1-12) 式中,回归系数向量是2110'1||||t t E p = (1-13) 2110'1||||u u F q = (1-14) 2110'1||||t t F r =(1-15) 而1E ,1*F ,1F 分别是三个回归方程的残差矩阵.第二步 用残差矩阵1E 和1F 取代0E 和0F ,然后,求第二个轴2w 和2c 以及第二个成分2t ,2u ,有2t =1E 2w 2u =1F 2c211'2'222,c F E w u t >==<θ2w 是对应于矩阵11'11'E F F E 最大特征值22θ的特征值, 2c 是对应于矩阵11'11'F E E F 最大特征值的特征向量.计算回归系数2221'2||||t t E p =2221'2||||t t F r = 因此,有回归方程22'21E p t E += 22'21F r t F += 如此计算下去,如果X 的秩是A ,则会有A A p t p t E '1'10++= (1-16)A A A F r t r t F +++='1'10 (1-17)由于,A t t ,,1 均可以表示成p E E 001,, 的线性组合,因此,式(1-17)还可以还原成k k F y 0*=关于k j E x 0*=的回归方程形式,即Ak p kp k k F x x y +++=**11*αα k=1,2,…,qAk F 是残差距阵A F 的第k 列。
1.3交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。
在许多情形下,偏最小二乘回归方程并不需要选用全部的成分A t t ,,1 进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分))(,(X A A m 秩=<,仅用这m 个后续的成分m t t ,,1 就可以得到一个预测性较好的模型。
事实上,如果后续的成分已经不能为解释0F 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。
在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点。
下面的问题是怎样来确定所应提取的成分个数。
在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用。
我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量B b ,拟合值B y ˆ以及残差均方和2ˆB σ;再用第二部分数据作为实验点,代入刚才所求得的回归方程,由此求出2ˆˆT T y σ和。
一般地,若有≈2ˆT σ2ˆB σ,则回归方程会有更好的预测效果。
若 >>2ˆT σ2ˆB σ,则回归方程不宜用于预测。
在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。
采用类似于抽样测试法的工作方式,把所有n 个样本点分成两部分:第一部分除去某个样本点i 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h 个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i 代入前面拟合的回归方程,得到j y 在样本点i 上的拟合值)(ˆi hj y-。
对于每一个i =1,2,…,n,重复上述测试,则可以定义j y 的预测误差平方和为hj PRESS ,有∑=--=ni i hj ij hj yy PRESS 12)()ˆ( (1-18)定义Y 的预测误差平方和为h PRESS ,有∑==pj hj h PRESS PRESS 1 (1-19)显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大h PRESS 的值。
另外,再采用所有的样本点,拟合含h 个成分的回归方程。
这是,记第i 个样本点的预测值为hji yˆ,则可以记j y 的误差平方和为hj SS ,有 ∑=-=ni hji ij hj yy SS 12)ˆ( (1-20) 定义Y 的误差平方和为h SS ,有∑==pj hj h SS SS 1 (1-21)一般说来,总是有h PRESS 大于h SS ,而h SS 则总是小于1-h SS 。