- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a11 ˆ1 A (1) u a n1 b11 (1) ˆ1 B v bn1
a1m 11 , anm 1m b1 p 11 . 1 p bnp
, xm 中
4/45
2019/3/13
简介
偏最小二乘回归是一种多对多线性回归建模的方法, 它具有传统的回归分析等方法所没有的优点: 1. 能够在自变量存在严重多重相关性的条件下进行 回归建模; 2. 能够在样本点个数少于变量个数的条件下进行回 归建模; 3. 偏最小二乘回归在最终模型中将包含原有的所有 自变量; 4. 在偏最小二乘回归模型中,每一个自变量的回归 系数将更容易解释。
20/45
2019/3/13
算法流程
每次舍去第 i 个观测数据( i 1,2, ,对余下 , n)
的 n 1个观测数据用偏最小二乘回归方法建模,并考 虑抽取 h ( h r )个成分后拟合的回归式,然后把舍 去的自变量组第 i 个观测数据代入所拟合的回归方程 式,得到 y j ( j 1,2, ˆ ( h) 。 b
b1 p . bnp
偏最小二乘回归分析建模的具体步骤如下:
10/45
2019/3/13
算法流程
(1)分别提取两变量组的第一对成分,并使之相关性 达最大。 假设从两组变量分别提出第一对成分为 u1 和 v1 , u1 是 自变量集 X [ x1 , , xm ]T 的线性组合 u1 11 x1 1m xm (1)T X , v1 是因变量集Y [ y1 , , y p ]T 的线性组合
3/45
2019/3/13
简介
在多元线性回归模型经典假设中, 其假定之一是回归模型的 自变量之间不存在线性关系,也就是说,自变量 x1 , x2 , 的任何一个变量都不能是其他变量的线性组合。 若线性回归模型中某一个自变量与其他自量间存在线性关 系,就称线性回归模型中存在多重相关性。例如: x4 =2x2 +x3 就 是典型的变量之间存在多重相关性。 多重相关性违背了自变量间不相关的经典假设, 将给普通最 小二乘法带来严重后果。
4. 否则继续对第二成分的提取,直到能达到满意的精度 为止。 5. 若最终对自变量集提取 r 个成分 u1 , u2 , 二乘回归将建立 y1 , 6. 最后表示为 y1 ,
, ur ,偏最小
, y p 与 u1 , u2 ,
, ur 的回归方程。
, y p 与原自变量的回归方程,即偏
最小二乘回归方程式。
以下将介绍偏最小二乘回归分析的建模方法;通 过例子从预测角度对所建立的回归模型进行比较。
7/45
2019/3/13
算法流程
考虑 p 个因变量 y1 , y2 , 的建模问题。 偏最小二乘回归的基本做法: 1. 在自变量集中提出第一成分 u1 ( u1 是 x1 ,
, y p 与 m 个自变量 x1 , x2 ,
(1)T (1) (1) 2 1, s.t. (1)T (1) (1) 2 1.
(3)
13/45
2019/3/13
算法流程
利用拉格朗日乘数法,问题化为求单位向量
T T
(1)
和
(1)
,使
问题的求解只须通过计算 m m 1 (1)T AT B (1)达到最大。 为 1 , 相应的单位特征向量就是所求的解 计算得到
(i ) j
, p) 在第 i 个观测点上的预测值
21/45
2019/3/13
算法流程
对 i 1, 2, , n重复以上的验证,即得抽取 h 个成 分时第 j 个因变量 y j ( j 1,2, , p) 的预测误差平方和 为
ˆ ( h))2 , j 1,2, PRESS j ( h) ( bij b (i ) j
ˆ ( h))2 , SS j ( h) (bij b ij
i 1 n
定义Y [ y1 ,
, y p ]T 的误差平方和为
SS( h) SS j ( h) .
j 1
p
23/45
2019/3/13
算法流程
当 PRESS( h) 达到最小值时,对应的 h 即为所求的 成分个数 l 。 通常, 总有 PRESS( h) 大于SS( h) , 而SS( h) 则小于 SS( h 1) 。因此,在提取成分时,总希望比值 PRESS( h) SS( h 1) 越小越好;一般可设定限制值为 0.05,即当 PRESS(h) SS(h 1) (1 0.05)2 0.952 时,增加成分 uh 有利于模型精度的提高。
5/45
2019/3/13
简介
偏最小二乘回归分析在建模过程中集成了主成分分 析、典型相关分析和线性回归分析方法的特点,因此在 分析结果中, 除了可以提供一个更为合理的回归模型外, 还可以同时完成一些类似于主成分分析和典型相关分析 的研究内容,提供一些更丰富、深入的信息。
6/45
2019/3/13
简介
2
矩阵 M A BB A 的特征值和特征向量, 且 M 的最大特征值
(1)
, 而
(1)
可由
(1)
(1)
1
1
BT A (1)
(4)
14/45
2019/3/13
算法流程
(2) 建立 y1 ,
, y p 对 u1 的回归及 x1 ,
, xm 对 u1 的回
归。 假定回归模型为 ˆ1 (1)T A1 , A u ˆ1 (1)T B1 , B u 其中 (1) [ 11 , , 1m ]T , (1) [ 11 ,
24/45
2019/3/13
算法流程
或者反过来说,当 PRESS(h) SS(h 1) 0.952 时,就认为增加新的成分 uh ,对减少方程的预测误差 无明显的改善作用。
25/45
2019/3/13
算法流程
为此,定义交叉有效性为 2 Qh 1 PRESS( h) SS( h 1), 这样,在建模的每一步计算结束前,均进行交叉有效 2 性检验,如果在第 h 步有Qh 1 0.952 0.0985,则模 2 0.0975 , 型达到精度要求,可停止提取成分;若Qh 表示第 h 步提取的 uh 成分的边际贡献显著,应继续第 h 1步计算。
分别为 X ,Y 的第二对成分的负荷量。这时有 (1)T ( 2)T ˆ ˆ A u u A2 , 1 2 (1)T ( 2)T ˆ ˆ B u u B2 . 1 2
18/45
2019/3/13
算法流程
(4)设 n m 数据阵 A 的秩为 r min( n 1, m ) ,则 存在 r 个成分 u1 , u2 , , ur ,使得 ˆ1 (1)T u ˆ r ( r )T Ar , A u (7) (1)T ( r )T ˆ1 ˆ r u Br . B u 把 uk k 1 x1 km xm ( k 1,2, , r ), 代 入 即得 p 个因变量的偏最小二乘回 Y u1 (1) ur ( r ) , 归方程式
(2) [ 21 , , 2 m ]T , (2) [ 21 , , 2 p ]T ,
17/45
2019/3/13
算法流程
ˆ 2 A1 (2) , v ˆ2 B1 (2) 为第二对成分的得分向量, 而u 2 2 T T ˆ2 u ˆ 2 , (2) B1 ˆ2 u ˆ2 (2) A1 u u
26/45
2019/3/13
基于MATLAB的算法实现
Matlab 偏最小二乘回归命令 plsregress: Matlab 工具箱中偏最小二乘回归命令 plsregress 的使用格式为 [XL,YL,XS,YS,BETA,PCTVAR,MSE,stats] = plsregress (X,Y,ncomp)
i 1 n
, p,
Y [ y1 ,
, y p ]T 的预测误差平方和为
PRESS( h) PRESS j ( h).
i 1 p
22/45
2019/3/13
算法流程
另外, 再采用所有的样本点, 拟合含 h 个成分的回 ˆ ( h),则 归方程。这时,记第 i 个样本点的预测值为 b ij 可以定义 y j 的误差平方和为
(5)
, 1 p ]T 分别是多对
一的回归模型中的参数向量, A1 和 B1 是残差矩阵。
15/45
2019/3/13
算法流程
回归系数向量 (1) , (1) 的最小二乘估计为 2 (1) AT u ˆ ˆ u1 , 1 (1) 2 T ˆ ˆ B u u 1 1 , 称 (1) , (1) 为模型效应负荷量。
y j c j 1 x1
c jm xm , j 1,2,
, p.
(8)
19/45
2019/3/13
算法流程
(5)交叉有效性检验。 一般情况下,偏最小二乘法并不需要选用存在的 r 个成分 u1 , u2 ,
, ur 来建立回归式,而像主成分分析一
样,只选用前 l 个成分( l r ) ,即可得到预测能力较 好的回归模型。对于建模所需提取的成分个数 l ,可以 通过交叉有效性检验来确45
2019/3/13
算法流程
第一对成分 u1 和 v1 的协方差 Cov( u1 , v1 ) 可用第一对成分
ˆ1 和 v ˆ1 的内积来计算。故而以上两个要求可化为数 的得分向量 u 学上的条件极值问题
ˆ1 v ˆ1 ) ( A (1) B (1) ) (1)T AT B (1) max ( u