测量误差模型的自适应LASSO变量选择方法研究
- 格式:pdf
- 大小:983.65 KB
- 文档页数:24
变量选择论文:广义线性模型下罚估计量的性质【中文摘要】变量选择是高维统计建模的基础.但传统的使用逐步回归的方法不仅计算复杂而且在变量选择过程中会忽略随机误差,因此针对传统方法的不足,提出了惩罚似然方法来克服这一问题.惩罚似然方法可以在选择变量的同时估计变量的系数.这种方法不仅被广泛应用于各种参数模型中,而且也能通过使用小波或者样条应用于非参数模型中.本文研究了惩罚似然方法及一些罚函数的性质,主要工作有以下几点:(1)总结了惩罚似然方法的发展历程,系统介绍了惩罚似然方法的一般框架.给出基于线性模型的Lo罚,Lq罚(0<q≤2),自适应Lasso和SCAD等罚函数的具体形式.(2)在对前人基于线性模型惩罚似然研究的基础上,将惩罚似然方法引入广义线性模型中,研究了在广义线性模型的特例—Poisson对数线性回归模型下,自适应Lasso及SCAD估计量的渐近性质,证明了在满足似然函数的一定条件下,自适应Lasso及SCAD估计量具有稀疏性及渐近正态性,也就是具有Oracle性质.(3)提出了需要进一步研究的一些问题.【英文摘要】Variable selection is fundamental tohigh-dimensional statistical modeling. Traditional approaches in use are stepwise selection procedures, which can be computationally expensive and ignore stochastic errors in the variable selection process. Hence againsting for the limitations of the traditional methods, pe-nalized likelihoodapproaches are proposed to handle these kind of problems. The proposed methods select variables and estimate coefficients simultaneously. They are readily applied to a variety of pa...【关键词】变量选择惩罚似然自适应Lasso SCAD Oracle性质【英文关键词】Variable selection Penalized likelihood Adaptive Lasso SCAD Oracle property【目录】广义线性模型下罚估计量的性质摘要3-4Abstract4第一章绪论6-11 1.1 引言6-8 1.2 文献综述8-10 1.3 本文的结构10-11第二章惩罚似然方法概述11-18 2.1 惩罚似然的一般形式11-13 2.2 罚函数13-15 2.3 正则参数的选取15-18第三章基于广义线性模型的惩罚似然18-34 3.1 广义线性模型的定义18-20 3.2 基于Poisson对数线性回归模型的自适应Lasso20-27 3.2.1 自适应Lasso的定义20-21 3.2.2 自适应Lasso估计量的性质及证明21-26 3.2.3 小结26-27 3.3 基于Poisson对数线性回归模型的SCAD27-34 3.3.1 SCAD的定义27-28 3.3.2 SCAD估计量的性质及证明28-33 3.3.3 小结33-34总结与展望34-35参考文献35-39攻读硕士学位期间取得的科研成果39-40致谢40。
基于lasso方法在变量选择中的应用研究
杜彦璞;苏雷
【期刊名称】《城市地理》
【年(卷),期】2016(000)012
【摘要】在数据中存在多重共线性的问题是影响最小二乘估计结果的重要因素,研究如何消除多重共线性是一个重要课题。
就此问题本文重点介绍了lasso方法,并通过实验验证其在消除共线性问题的作用。
实验表明,通过lasso方法选择重要变量之后多重共线性明显减弱。
【总页数】1页(P64-64)
【作者】杜彦璞;苏雷
【作者单位】成都理工大学数学地质四川省重点实验室,四川成都 610000;成都理工大学数学地质四川省重点实验室,四川成都610000
【正文语种】中文
【相关文献】
1.微阵列数据中的先验信息对基于LASSO变量选择方法影响的模拟研究 [J], 陈江鹏;彭斌;文雯;唐小静;文小焱;胡珊
2.基于Lasso类方法在时间序列变量选择中的应用 [J], 杨丽娟;马云艳
3.基于LASSO变量选择方法的人口数量模型构建 [J], 麦继芳; 刘惠; 赵海清
4.基于自适应Lasso变量选择方法的指数跟踪 [J], 秦晔玲;朱建平
SSO和A-LASSO方法在财务预警模型变量选择中的应用 [J], 成鹏伟;费宇因版权原因,仅展示原文概要,查看原文内容请购买。
基于lasso的特征选择方法研究与实现近年来,特征选择在机器学习领域受到了广泛关注,因为它有助于提高模型泛化能力,减少计算量,改善预测精度,以及提高模型的可解释性,更多的计算资源投入到有用的特征上。
Lasso一种有效的特征选择方法,它可以有效地减少特征维度,消除特征之间的相关性,并具有很强的鲁棒性。
本文将主要讨论基于Lasso的特征选择方法研究与实现,希望能够更好地把握该主题。
首先,我们将介绍特征选择的背景,并对Lasso方法进行简要介绍。
特征选择是机器学习中一个重要分支,它可以有效地简化模型,减少计算量,增强模型的泛化能力,提高预测精度以及提高模型的可解释性。
Lasso法是一种有效的特征选择方法,它通过最小化一个带有L1惩罚的损失函数来实现这一目标,它采用L1惩罚来自动减少或筛选特征,具有可解释性和稳健性。
其次,我们将重点介绍 Lasso算法原理,讨论其在特征选择中的优势。
Lasso法的核心是最小化带有L1惩罚的损失函数,它的基本过程如下:首先,建立一个损失函数,包括两部分,其中一部分是模型的拟合损失,另一部分是使用L1惩罚的正则项;然后,通过梯度下降法来求解该损失函数的最优值;最后,用最优值去更新模型参数。
Lasso法具有减少计算量,增强模型鲁棒性,消除特征之间相关性,以及提高模型可解释性等优势,而且实现起来也很容易。
最后,我们将对基于 Lasso特征选择方法进行实验,并评估其性能。
首先我们需要准备一些数据,以便后续实验中使用。
然后,将准备好的数据输入到 Lasso型中,使用梯度下降算法来求解该模型的参数的最优值。
接着,使用这些参数来测试模型的性能,并使用评估指标对模型的预测精度进行评估。
最后,将整个实验的结果汇总,得出有关 Lasso法的结论。
综上所述,Lasso法是有效的特征选择方法。
通过最小化带有L1惩罚的损失函数,可以有效地减少特征维度,消除特征之间的相关性,并具有很强的鲁棒性。
实验结果表明,Lasso果显著,可以提高模型预测精度,更加准确高效。
lasso模型的数学形式Lasso模型是一种常用的统计分析方法,用于变量选择和回归分析。
它在多元回归分析中有着广泛的应用。
本文将介绍Lasso模型的数学形式及其应用。
Lasso模型的数学形式可以通过最小化损失函数来得到。
损失函数是由残差平方和和正则化项组成的,其中残差平方和衡量了模型的预测误差,正则化项则对模型进行了约束,实现了变量选择的功能。
minimize 1/2 * (sum(yi - (beta0 + beta1 * xi1 + beta2 *xi2 + ...)) ^ 2) + lambda * (sum(|beta1| + |beta2| + ...)) 其中,minimize表示最小化,yi表示观测值,xi1、xi2等表示自变量,beta0、beta1、beta2等表示回归系数,lambda是一个非负超参数,用于调节正则化项的强度。
Lasso模型的数学形式中,第一项是残差平方和,它衡量了模型的预测误差。
通过最小化这一项,我们希望使模型的预测误差尽可能小。
第二项是正则化项,它由所有回归系数的绝对值之和组成。
通过最小化这一项,我们希望使模型的回归系数尽可能小,从而实现变量选择的目的。
Lasso模型的数学形式中,lambda是一个非负超参数,它需要根据实际情况进行调节。
当lambda等于零时,正则化项的影响消失,Lasso模型退化为普通的最小二乘法。
当lambda趋近于无穷大时,正则化项的影响变得非常大,Lasso模型的回归系数趋近于零,从而实现了变量选择的功能。
Lasso模型的数学形式及其应用可以有效地处理高维数据和变量选择问题。
它通过引入正则化项,能够将不重要的变量的回归系数收缩到零,从而实现了变量选择的功能。
此外,Lasso模型还具有稳定性和解释性好的特点,在实际应用中具有较高的可靠性和可解释性。
总之,Lasso模型的数学形式对于变量选择和回归分析具有重要的意义。
通过最小化损失函数,Lasso模型能够筛选出重要的自变量,并得到相应的回归系数。
基于Lasso的数据特征选择研究近年来,随着数据科学的迅速发展,越来越多的数据被收集并用于各种领域的应用。
然而,大量的数据常常使得数据分析变得困难和耗时。
因此,数据特征选择成为了解决这个问题的关键。
本文将介绍基于Lasso的数据特征选择研究。
一、Lasso回归Lasso是一种用于数据建模和特征选择的线性回归方法。
它不仅可以提高模型的预测能力,还可以选出比较重要的特征。
在普通的线性回归中,我们有如下的模型:$$y=\beta_0+\beta_1x_1+\cdots+\beta_n x_n+\epsilon$$其中,$y$是因变量,$x_1,\cdots,x_n$是自变量,$\epsilon$是误差项,$\beta_0,\cdots,\beta_n$是回归系数。
然而,在实际的应用中,有许多自变量并不对因变量有显著的影响,那么这些自变量的系数应该为0。
Lasso回归通过在普通线性回归中添加一个$L_1$惩罚项来实现这一点,即:$$\text{Minimize }\frac{1}{2}\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^n\beta_jx_{ij})^2+\lambda\sum_{j=1}^n|\beta_j|$$其中,$\lambda$是一个调整参数,用于平衡模型的复杂度和预测能力。
Lasso回归具有许多好处,例如可以减少过度拟合、提高模型的稳定性、选择比较重要的特征等。
二、数据特征选择数据特征选择是指从原始的数据集中选择最有价值的特征来构建模型。
常见的数据特征选择方法有Filter方法、Wrapper方法和Embedded方法。
其中,Filter方法是一种基于特征和数据统计学的选择方式,Wrapper方法是一种基于模型的选择方式,而Embedded方法则是将特征选择融入到模型构建过程中。
在所有的特征选择方法中,Embedded方法是最流行的,因为它可以同时提高模型预测和特征选择的准确度。
第48卷第8期西南师范大学学报(自然科学版)2023年8月V o l.48N o.8 J o u r n a l o f S o u t h w e s t C h i n aN o r m a lU n i v e r s i t y(N a t u r a l S c i e n c eE d i t i o n)A u g.2023D O I:10.13718/j.c n k i.x s x b.2023.08.005变量选择的稳健贝叶斯L A S S O方法①梁韵婷,张辉国,胡锡健新疆大学数学与系统科学学院,乌鲁木齐830046摘要:针对数据中广泛存在的异常值会扭曲贝叶斯L A S S O方法的参数估计和变量选择结果的问题,通过引入异方差扰动的先验设定,借此提升贝叶斯L A S S O方法的稳健性,并推导出各参数的后验分布,利用G i b b s抽样得到其估计值与置信区间.该方法在数值模拟中表现出较低的拟合误差与较高的变量识别准确率,对糖尿病数据集和血浆β-胡萝卜素水平数据集的分析表明该方法能达到简化模型与减少预测误差的平衡,实现稳健的变量选择与系数估计,并对数据中可能包含的异常值与异方差扰动有良好的抑制作用.关键词:变量选择;贝叶斯L A S S O;稳健性;异常值;异方差中图分类号:O212.8文献标志码:A文章编号:10005471(2023)08003308R o b u s t B a y e s i a nL A S S Of o rV a r i a b l e S e l e c t i o nL I A N G Y u n t i n g,Z HA N G H u i g u o, HU X i j i a nC o l l e g eo fM a t h e m a t i c sa n dS y s t e mS c i e n c e,X i n j i a n g U n i v e r s i t y,U r u m q i830046,C h i n aA b s t r a c t:G i v e n t h a t t h eu b i q u i t o u so u t l i e r s i n t h ed a t a c a nd i s t o r t t h e p a r a m e t e r e s t i m a t i o na n dv a r i a b l e s e l e c t i o nr e s u l t s o fB a y e s i a nL A S S O,t h e p r i o r i n f o r m a t i o n o f h e t e r o s c e d a s t i c d i s t u r b a n c e s i s i n t r o d u c e d t o i m p r o v e t h e r o b u s t n e s s o fB a y e s i a nL A S S O.T h e p o s t e r i o rd i s t r i b u t i o no f e a c h p a r a m e t e r i sd e r i v e d,a n d t h e e s t i m a t i o na n d c o n f i d e n c e i n t e r v a l o f e a c h p a r a m e t e r a r e o b t a i n e db y G i b b s s a m p l i n g.T h em e t h o de x-h i b i t s l o wf i t t i n g e r r o r a n dh i g hv a r i a b l e i d e n t i f i c a t i o na c c u r a c y i nn u m e r i c a l s i m u l a t i o n,a n d t h e a n a l y s e s o f d i a b e t e s d a t a s e t a n dP l a s m aB e t a-C a r o t e n eL e v e lD a t a s e t s h o wt h a t t h e p r o p o s e d m e t h o da c h i e v e s t h e b a l a n c eb e t w e e n s i m p l i f y i n g m o d e l a n d r e d u c i n gp r e d i c t i o ne r r o r.T h e p r o p o s e dm e t h o dc a n r e a l i z e r o b u s t v a r i a b l e s e l e c t i o na n d c o e f f i c i e n t e s t i m a t i o na n dh a s a g o o d i n h i b i t o r y e f f e c t t oo u t l i e r s a n dh e t e r o s c e d a s t i c d i s t u r b a n c e s t h a tm a y b e i n c l u d e d i n t h e d a t a.K e y w o r d s:v a r i a b l e s e l e c t i o n;B a y e s i a nL A S S O;r o b u s t n e s s;o u t l i e r;h e t e r o s c e d a s t i c i t y随着信息化时代的到来,大数据的应用越来越广泛,同时也不可避免地出现了异质性问题,表现出异方差特性.而当数据中存在异方差误差或异常点时,变量选择的结果将不再稳定.目前变量选择方法主要分为非贝叶斯方法和贝叶斯方法.基于惩罚函数的变量选择是非贝叶斯方法的主流[1-9],最常见的包括L A S-S O(L e a s tA b s o l u t eS h r i n k a g e a n dS e l e c t i o nO p e r a t o r)及其改进方法,如:E N(E l a s t i cN e t)㊁自适应L A S-①收稿日期:20221023基金项目:国家自然科学基金项目(11961065);教育部人文社会科学研究规划基金项目(19Y J A910007);新疆自然科学基金项目(2019D01C045).作者简介:梁韵婷,硕士研究生,主要从事贝叶斯空间计量模型的研究.Copyright©博看网. All Rights Reserved.S O (A L A S S O )㊁组L A S S O ㊁S C A D (S m o o t h l y C l i p pe dA b s o l u t eD e v i a t i o n )㊁M C P (M i n i m a xC o n v e xP e n a l -t y)㊁最小绝对偏差L A S S O [7]等.尽管非贝叶斯方法已经取得了不错的成果,但这类方法都不能提供令人满意的标准差估计.文献[1]表明当回归参数具有独立且相同的拉普拉斯先验时,L A S S O 估计可以解释为后验众数估计.因此,基于该联系和贝叶斯思想,文献[10]提出了贝叶斯L A S S O (B L A S S O )并构造了全贝叶斯分层模型和相应的采样器.文献[11]证明在预测均方误差方面,贝叶斯L A S S O 的表现与频率派L A S S O 相似甚至在某些情况下更好.基于文献[10-13]的研究,本文将贝叶斯L A S S O 与异方差误差先验相结合,以实现稳健的变量选择与系数估计,同时该法能自动产生各参数的置信区间.1 分层模型1.1 G i b b s 采样器考虑以下线性回归模型Y =X β+ε,ε~N (0,σ2V )(1)其中:Y 为n ˑ1维的因变量,X 为n ˑp 维的解释变量,误差ε服从异方差的多元正态分布,V =d i a g(V 1, ,V n ),则该模型的似然函数如式(2)所示L (Y |β,σ2,V )=(2πσ2)-n 2|V |-12e x p -12σ2(Y -X β)T V -1(Y -X β)éëêêùûúú(2)结合文献[10,12]的工作,则全模型的分层表示为Y =X β+ε,ε~N (0,σ2V )p (β|τ21,τ22, ,τ2p )~N (0,σ2D τ)D τ=d i a g (τ21,τ22, ,τ2p )p (τ21,τ22, ,τ2p )~ᵑpj =1λ22e -λ2τ2j 2p(σ2)~γαΓ(α)(σ2)-α-1e -γσ2(α>0,γ>0)p r V i æèçöø÷~i.i .d .χ2(r ),i =1, ,n 将该模型的似然函数与各参数的先验分布相乘,可得联合后验分布为p (β,σ2,V ,τ21, ,τ2p |Y ,X )ɖ|V |-12(2πσ2)-n 2e x p -12σ2(Y -X β)T V -1(Y -X β)éëêêùûúúγαΓ(α)(σ2)-α-1e -γσ2ˑᵑpj =11(2πσ2τ2j)12e -β2j2σ2τ2jλ22e -λ2τ2j 2ˑr 2æèçöø÷n r 2Γr 2æèçöø÷éëêêùûúú-n ᵑni =1V -r +22i e -r 2V i (3)基于式(3),可得β的全条件后验分布服从均值为B -1X T V -1Y ,方差为σ2B -1的多元正态分布,其中:B =X TV -1X +D -1τ;σ2的全条件后验分布服从形状参数为n 2+p 2+α,尺度参数为(Y -X β)T V -1(Y -X β)2+βT D -1τβ2+γ的逆伽马分布;1τ2j 的全条件后验分布服从形状参数为λ'=λ2,均值参数为μ'=λ2σ2β2j 的逆高斯分布;文献[12]得出V 的全条件后验分布服从以下形式的卡方分布p e 2i σ-2+r V i β,σ2,V -i ,τ21, ,τ2p æèçöø÷ɖχ2(r +1)式中e i 项为向量e =Y -X β的第i 个元素,V -i =(V 1, ,V i -1,V i +1, ,V n ),i =1, ,n .根据各参数后43西南师范大学学报(自然科学版) h t t p ://x b b jb .s w u .e d u .c n 第48卷Copyright ©博看网. All Rights Reserved.验分布可构造出稳健贝叶斯L A S S O 的G i b b s 采样算法:算法1:稳健贝叶斯L A S S O 的G i b b s 采样器输入:Y ,X ,迭代次数T d r a w ,预热次数T o m i t ,初值β(0),σ2(0),τ2(0),V (0)输出:βɡ,σɡ2,τɡ2,V ɡ1:k ѳ12:当k ɤT d r a w3: 从后验分布p (β|Y ,X ,σ2(k -1),V (k -1),τ2(k -1))中抽样并记为β(k )4: 从后验分布p (τ2|Y ,X ,β(k ),σ2(k -1),V (k -1))中抽样并记为τ2(k )5: 从后验分布p (σ2|Y ,X ,β(k ),V (k -1),τ2(k ))中抽样并记为σ2(k )6: 从后验分布p (V |Y ,X ,β(k ),σ2(k ),τ2(k ))中抽样并记为V (k )7: k ѳk +18:结束9:删去前T o m i t 轮样本,取后T d r a w -T o m i t 轮样本计算各参数的后验平均值作为估计值1.2 超参数选取关于超参数λ2的选取,借鉴文献[10]提出的基于边际最大似然的经验贝叶斯法,具体算法如下:1)令k =0并设初值为λ(0)=pσɡ2W L Sðpj =1βɡ2W L S,其中σɡ2W L S 和βɡ2W L S为以普通线性最小二乘估计残差值的绝对值的倒数为权重的加权最小二乘估计值;2)令λ=λ(k )并利用上述G i b b s 采样器从β,σ2,τ2,V 的后验分布中生成第k 轮样本;3)利用第k 轮样本近似计算更新λ(k +1)=2p ðpj =1Eλ(k )τ2j Y []并令k =k +1;4)重复步骤2)-3)直至所需的收敛水平.由于经验贝叶斯法需要多次G i b b s 采样,因此该法计算量极大.文献[14]提出了一种基于随机近似的单步方法作为替代,该方法可以仅使用单次G i b b s 采样器来获得超参数的极大似然估计,从而极大减少计算量.该法首先作变换λ(k )=e s (k ),具体算法如下:1)令k =0并设初值为s (0)=0,θ(0)=(β(0),σ2(0),τ2(0),V (0));2)从K s (k)(θ(k ),㊃)中生成θ(k +1),其中K s 为联合后验分布p (㊃Y ,s )的G i b b s 采样器的马尔科夫核;3)令s (k +1)=s (k )+a k (2p -e 2s (k )ðpj =1τ2j ,(k +1))令k =k +1;4)重复步骤2)-3)直至所需的迭代次数.其中a k ,k ȡ0{}为一个非降的正数序列,并满足以下性质l i m k ңɕa k =0,ða k =¥,ða 2k <ɕ2 数值模拟本节将评估异方差误差先验下稳健贝叶斯L A S S O 的实验特性与优点.根据式(1)生成数据,令X =[ιn ,X '],ιn 为n 维的单位向量,X '=X 1,X 2, ,X p -1[]为多元正态分布N (0,Σ)生成,其中Σi j =0.5|i -j|.为了考虑系数向量不同的稀释度,所有模拟均设置n =100和p =50并令非零系数的个数q ɪ10,20{}.此外,为了测试收缩的适应性,一半的非零系数从正态分布N (0,1)中生成,另一半非零系数从正态分布N (0,5)中抽样,从而使得一半的非零系数接近于0,另一半的非零系数则表现出更大的变化,剩余系数则设置为0.每次模拟均使用5000次迭代并取后2500次抽样计算各参数的后验均值作为估计值,为了避免偶然性,模拟均重复100次.为了考察所提方法对异常值的稳健性,本文考虑了4种不同的ε.例1(异方差误差):为了生成异方差误差,对于样本量n 按照文献[15]生成随机组,其中组的个数由均53第8期 梁韵婷,等:变量选择的稳健贝叶斯L A S S O 方法Copyright ©博看网. All Rights Reserved.匀分布U (3,20)抽样得出.如果组个数大于10,则将该组所有样本的方差设置为等于组个数,否则将方差设置为组个数倒数的平方,并令ε的第i 个元素为εi =σiξi 其中:σi为第i 个观测样本的标准差,ξi 来自独立同分布的标准正态分布N (0,1).例2(污染分布):ε服从污染分布,其中前90%来自标准正态分布,后10%服从标准柯西分布.例3(柯西分布):ε服从标准柯西分布.例4(拉普拉斯分布):ε服从标准拉普拉斯分布.为了衡量系数估计与变量选择的性能,本文采用均方误差(M S E )与平衡准确率(B A R )作为指标.平衡准确率能综合衡量变量选择方法正确选择㊁错选㊁漏选变量的个数,其计算公式如下B A R =12T P T P +F N +T N T N +F P æèçöø÷其中T P ,T N ,F P ,F N 分别表示真阳性㊁真阴性㊁假阳性和假阴性的数量.将本文提出的稳健贝叶斯L A S S O 方法简记为R B L A S S O.表1列出了不施加异方差误差先验下几种常见方法与R B L A S S O 的实验结果,其中每项指标为基于100次模拟的平均值.值得注意的是,贝叶斯方法的变量选择结果基于参数的95%置信区间.若95%置信区间含0,则可认为该参数被识别为0.从模拟结果可得,本文方法在大多数情况下都具有较好的综合表现,其中当误差分布为异方差时R B L A S S O 的各项性能指标均为最优.根据对比可得,当非零系数的个数q 增大时,即系数向量越密集时,每种方法的估计值往往会稍差,这是因为需要用相同数量的观测值估计更多的非零参数.当误差分布服从标准柯西分布,即例子3时,不施加异方差误差先验下的贝叶斯L A S S O 的M S E (βɡ)相比其他误差分布大得多,而R B L A S S O 依然能保持较好的系数估计与变量选择能力,甚至在q 增大时M S E (βɡ)反而减小,这表明了施加异方差误差先验对抵抗异常值具有重大作用.表1 不同模型在4种扰动下基于100次模拟试验的变量选择结果方法q =10M S E (βɡ)B A Rq =20M S E (βɡ)B A RE x a m pl e 1B L A S S O 0.07880.72690.10520.7294L A S S O 0.05680.72010.08780.6884A L A S S O0.05100.73410.10380.7057R B L A S S O0.01480.83700.04840.7933E x a m p l e 2B L A S S O 0.41440.74270.34320.7846L A S S O0.09980.71510.26480.6533A L A S S O0.10080.76470.24060.7695R B L A S S O0.11240.76830.27240.8082E x a m p l e 3B L A S S O 19.85660.582960.05740.5235L A S S O0.53840.62000.46660.5561A L A S S O0.70620.60790.78720.5521R B L A S S O0.65940.63690.35420.5879E x a m p l e 4B L A S S O 0.03040.93530.04740.8276L A S S O0.01940.78540.04500.6699A L A S S O0.01780.85240.03520.8134R B L A S S O0.03020.92440.05520.81323 案例研究3.1 糖尿病数据集将本文提出的稳健贝叶斯L A S S O 方法应用到糖尿病数据集中,该数据集由文献[16]提供,共有44263西南师范大学学报(自然科学版) h t t p ://x b b jb .s w u .e d u .c n 第48卷Copyright ©博看网. All Rights Reserved.个样本和11个变量,其中10个解释变量分别为年龄(a g e )㊁性别(s e x )㊁体重指数(b m i )㊁平均血压(m a p )及6种血清测量(t c ,l d l ,h d l ,t c h ,l t g ,gl u ),因变量为基线点一年后疾病进展的定量测量.本文所使用的数据集来自R 包c a r e,所有变量均已标准化使得均值为0㊁方差为1.为了研究所提方法的稳健性,随机选取20%的样本在因变量上加上噪音c ,其中c 取为3倍的因变量标准差,并随机划分70%的数据集作为训练集,剩余30%作为测试集.评估指标采用预测均方误差(M S E )与中值绝对预测误差(MA P E ).图1为该数据集各变量的箱线图,初步可得解释变量和因变量均存在异常值;图2为学生化残差与帽子统计量关系图,其中圆圈面积与观测点的C o o k 距离成正比,垂直两条虚线分别为两倍和三倍平均帽子值的参考线,水平两条虚线分别是学生化残差为0及2的参考线,进一步分析可得该数据集中样本295和305为离群点,样本323和354为高杠杆值点,若以4n -k -1为C o o k 距离的阈值则有35个强影响点.图1 糖尿病数据集各变量的箱线图图2 学生化残差与帽子统计量的气泡图,其中圆圈的面积表示与C o o k 距离成正比的观测值各模型估计结果如表2所示,其中标粗体的系数估计值代表其置信区间含0.B L A S S O 和R B L A S S O均排除了7个相同的非重要变量,而L A S S O 和A L A S S O 仅排除了4个非重要变量,且这4个非重要变量73第8期 梁韵婷,等:变量选择的稳健贝叶斯L A S S O 方法Copyright ©博看网. All Rights Reserved.均为4个模型所排除的共同变量,分别为s e x,l d l,t c h,g l u.根据M S E和MA P E,本文所提方法的预测误差最低.此外,由图3可得相比B L A S S O,施加了异方差先验的R B L A S S O具有更短的置信区间.因此,所提方法的结果应具备更高的可靠性.表2不同方法下糖尿病数据集的估计结果L e a s t S q u a r e s W e i g h t e dL e a s tS q u a r e sB a y e s i a nL A S S OR o b u s tB a y e s i a nL A S S O L A S S OA d a p t i v eL A S S Oa g e-0.0026-0.0949-0.0661-0.0491-0.0831-0.1119s e x0.0120-0.02820.0041-0.048900b m i0.44090.41750.41590.34170.43150.4428m a p0.28500.25130.23680.16430.25250.2735 t c-1.0098-0.8514-0.0514-0.0735-0.0987-0.1337l d l0.75080.5823-0.0227-0.048500h d l0.29280.2336-0.0582-0.0591-0.0374-0.0359t c h0.00670.02430.00470.028800l t g0.77540.68810.35580.38820.39030.4236g l u-0.0155-0.00260.00770.018600M S E278.7343273.4827272.9438266.5315274.3907276.0192 MA P E0.66140.55060.60660.54810.61220.6211图3不同方法下糖尿病数据集各变量的系数估计值与对应的95%置信区间3.2血浆β-胡萝卜素水平数据集文献[17]数据集包含了315名患者,均在3年内进行过活检或切除肺㊁结肠㊁乳腺㊁皮肤㊁卵巢或子宫的非癌病变,选取其中的273名女性患者作为研究对象.该数据集共有11个变量,10个解释变量分别为年龄(a g e)㊁吸烟状态(s m o k s t a t)㊁Q u e t e l e t指数(q u e t e l e t)㊁维生素使用(v i t u s e)㊁每天摄入的卡路里数(c a l o-r i e s)㊁每天摄入的脂肪克数(f a t)㊁每天摄入的纤维克数(f i b e r)㊁每周摄入的酒精饮料数量(a l c o h o l)㊁胆固醇摄入量(m g/天,c h o l)㊁膳食β-胡萝卜素消耗量(m c g/d,b e t a d i e t),因变量为血浆β-胡萝卜素(n g/m l).所有变量均已标准化使得均值为0㊁方差为1,随机划分70%的数据集作为训练集拟合模型,将剩余30%作为测试集并通过计算预测均方误差(M S E)与中值绝对预测误差(MA P E)来评估模型的预测能力.图4和图5分别为血浆β-胡萝卜素和胆固醇的直方图,由图可得这两个变量均含有异常值.将各模型应用于该数据,估计结果如表3所示,其中B L A S S O和R B L A S S O均认为q u e t e l e t,v i t u s e和b e t a d i e t为重要变量,而L A S S O和A L A S S O仅排除了c a l o r i e s变量.尽管R B L A S S O的MA P E不是最低,但与MA P E 最低的B L A S S O差距甚小,且R B L A S S O的M S E远低于其他方法,综合来说R B L A S S O模型的预测能力83西南师范大学学报(自然科学版)h t t p://x b b j b.s w u.e d u.c n第48卷Copyright©博看网. All Rights Reserved.最优.此外,从图6可得R B L A S S O 明显比B L A S S O 具有更短的置信区间,估计精度更高.图4 血浆胡萝卜素的直方图图5 胆固醇的直方图表3 不同方法下血浆胡萝卜素水平数据集的估计结果L e a s tS qu a r e s W e i gh t e dL e a s t S q u a r e s B a ye s i a n L A S S O R o b u s tB a y e s i a nL A S S O L A S S O A d a pt i v e L A S S O a ge 0.06230.05070.04860.07480.05470.0641s m o k s t a t -0.0460-0.0346-0.0337-0.0201-0.0328-0.0424q u e t e l e t -0.2052-0.1818-0.1836-0.1380-0.1946-0.2023v i t u s e-0.2655-0.2400-0.2286-0.1367-0.2472-0.2564c a l o r i e s-0.0804-0.2062-0.0117-0.025700f a t-0.05140.0709-0.0593-0.0062-0.0911-0.1021f i b e r 0.23410.21970.16910.04950.18380.1992a l c o h o l 0.16000.10440.10370.03040.12890.1453c h o l-0.0468-0.0430-0.0384-0.0161-0.0402-0.0473b e t a d i e t 0.23600.22230.21500.15260.22730.2353M S E 34.914128.592229.465320.370332.385334.2673MA P E0.34660.34370.32390.32690.35360.3641图6 不同方法下血浆胡萝卜素水平数据集各变量的系数估计值与对应的95%置信区间93第8期 梁韵婷,等:变量选择的稳健贝叶斯L A S S O 方法Copyright ©博看网. All Rights Reserved.04西南师范大学学报(自然科学版)h t t p://x b b j b.s w u.e d u.c n第48卷4结论本文通过将异方差误差先验引入贝叶斯L A S S O,提出了贝叶斯L A S S O的稳健模型并建立了相应的贝叶斯分层模型与G i b b s采样器,从而提高了对异常值及异方差误差的稳健性.数值模拟和实证分析表明当存在异常值或异方差误差时,该方法能实现较简洁的模型与较低的误差,从而实现稳健的变量选择.此外,该模型立足于贝叶斯思想,能方便地得到估计值的置信区间,从而弥补了L A S S O类方法不能给出较好可信度评估的劣势.参考文献:[1]T I B S H I R A N IR.R e g r e s s i o nS h r i n k a g e a n dS e l e c t i o nv i a t h eL a s s o[J].J o u r n a l o f t h eR o y a l S t a t i s t i c a l S o c i e t y S e r i e sB:S t a t i s t i c a lM e t h o d o l o g y,1996,58(1):267-288.[2] Z O U H,HA S T I ET.R e g u l a r i z a t i o n a n dV a r i a b l e S e l e c t i o n v i a t h eE l a s t i cN e t[J].J o u r n a l o f t h eR o y a l S t a t i s t i c a l S o c i e-t y S e r i e sB:S t a t i s t i c a lM e t h o d o l o g y,2005,67(2):301-320.[3] Z O U H.T h e A d a p t i v eL a s s oa n dI t s O r a c l eP r o p e r t i e s[J].J o u r n a lo ft h e A m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2006,101(476):1418-1429.[4] Y U A N M,L I N Y.M o d e l S e l e c t i o n a n dE s t i m a t i o n i nR e g r e s s i o nw i t hG r o u p e dV a r i a b l e s[J].J o u r n a l o f t h eR o y a l S t a-t i s t i c a l S o c i e t y S e r i e sB:S t a t i s t i c a lM e t h o d o l o g y,2006,68(1):49-67.[5] F A NJQ,L IRZ.V a r i a b l eS e l e c t i o nv i aN o n c o n c a v eP e n a l i z e dL i k e l i h o o da n d I t sO r a c l eP r o p e r t i e s[J].J o u r n a l o f t h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2001,96(456):1348-1360.[6] Z HA N GC H.N e a r l y U n b i a s e dV a r i a b l eS e l e c t i o nu n d e rM i n i m a xC o n c a v eP e n a l t y[J].T h eA n n a l s o f S t a t i s t i c s,2010,38(2):894-942.[7] WA N G H S,L IG D,J I A N G G H.R o b u s tR e g r e s s i o nS h r i n k a g ea n dC o n s i s t e n tV a r i a b l eS e l e c t i o nt h r o u g ht h eL A D-L a s s o[J].J o u r n a l o fB u s i n e s s&E c o n o m i cS t a t i s t i c s,2007,25(3):347-355.[8] WU Y,L I U Y.V a r i a b l eS e l e c t i o n i nQ u a n t i l eR e g r e s s i o n[J].S t a t i s t i c aS i n i c a,2009,19(2):801-817.[9] WA N G X Q,J I A N G YL,HU A N G M,e t a l.R o b u s tV a r i a b l eS e l e c t i o nw i t hE x p o n e n t i a l S q u a r e dL o s s[J].J o u r n a l o ft h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2013,108(502):632-643.[10]P A R K T,C A S E L L A G.T h eB a y e s i a nL a s s o[J].J o u r n a l o f t h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,2008,103(482):681-686.[11]K Y U N G M,G I L LJ,G HO S H M,e t a l.P e n a l i z e dR e g r e s s i o n,S t a n d a r dE r r o r s,a n dB a y e s i a nL a s s o s[J].B a y e s i a nA-n a l y s i s,2010,5(2):369-412.[12]G E W E K EJ.B a y e s i a nT r e a t m e n t o f t h e I n d e p e n d e n t S t u d e n t-t L i n e a rM o d e l[J].J o u r n a l o fA p p l i e dE c o n o m e t r i c s,1993,8(S1):S19-S40.[13]L A N G EKL,L I T T L ERJA,T A Y L O RJM G.R o b u s t S t a t i s t i c a lM o d e l i n g U s i n g t h e t D i s t r i b u t i o n[J].J o u r n a l o f t h eA m e r i c a nS t a t i s t i c a lA s s o c i a t i o n,1989,84(408):881-896.[14]A T C HA DÉY F.A C o m p u t a t i o n a lF r a m e w o r kf o rE m p i r i c a lB a y e s I n f e r e n c e[J].S t a t i s t i c sa n dC o m p u t i n g,2011,21(4):463-473.[15]L I N X,L E ELF.GMM E s t i m a t i o no f S p a t i a lA u t o r e g r e s s i v eM o d e l sw i t hU n k n o w nH e t e r o s k e d a s t i c i t y[J].J o u r n a l o fE c o n o m e t r i c s,2010,157(1):34-52.[16]E F R O NB,HA S T I ET,J OHN S T O N EI,e t a l.L e a s tA n g l eR e g r e s s i o n[J].T h eA n n a l so fS t a t i s t i c s,2004,32(2):407-499.[17]N I E R E N B E R GD W,S T U K E LT A,B A R O NJA,e t a l.D e t e r m i n a n t s o f P l a s m aL e v e l s o f b e t a-C a r o t e n e a n dR e t i n o l[J].A m e r i c a n J o u r n a l o fE p i d e m i o l o g y,1989,130(3):511-521.责任编辑张栒Copyright©博看网. All Rights Reserved.。
Lasso及其相关方法在广义线性模型模型选择中的应用的开题报告一、选题背景和意义:广义线性模型(GLM)是一种常用的回归分析方法,可以处理非正态、异方差和离散数据。
在实际应用中,经常需要面对大量的自变量,而传统的回归分析方法可能会出现模型复杂度过高、过拟合等问题。
因此,模型选择方法变得尤为重要。
Lasso是一种常用的模型选择方法,它在保持拟合精度的前提下,能够有效地减少自变量的数量,从而提高模型的泛化能力。
同时,Lasso方法还能够应用于高维数据和变量选择问题中。
因此,本文将探讨Lasso方法在广义线性模型模型选择中的应用,从而提高模型的精度和可解释性。
二、研究内容和方法:本文将主要围绕Lasso方法在广义线性模型模型选择中的应用展开研究。
具体包括以下内容:1. 广义线性模型的基本原理和常用方法;2. Lasso方法原理及其在线性回归中的应用;3. Lasso方法在广义线性模型中的应用以及比较不同的模型选择方法;4. 分析Lasso方法的优劣,探讨改进Lasso的方法;5. 通过实验对Lasso方法的有效性进行验证。
本文的研究方法主要包括理论分析和实验验证两部分。
在理论分析方面,将从数学模型和算法实现角度探讨Lasso方法在广义线性模型模型选择中的应用。
在实验验证方面,则将通过建立模型并跑通实验,检验Lasso方法的有效性和优越性。
三、预期成果和意义:通过探讨Lasso方法在广义线性模型模型选择中的应用,本文将得出以下预期成果:1. 了解广义线性模型及其常用方法;2. 深入了解Lasso方法原理、优劣和改进方法;3. 实验验证Lasso方法在广义线性模型中的有效性;4. 提高模型的预测精度和解释能力;5. 对相关领域的研究和应用提供理论基础和参考指导。
因此,本文的研究对于提高广义线性模型的建模和应用具有重要的现实意义和社会价值。
lasso方法
Lasso方法是一种基于最小范数的回归方法,它可以用来预测目标变量并得出变量之间的关系。
它可以将噪声模型中的不重要变量消除,从而得出更好的模型,其与最小二乘法有着类似的优点。
Lasso方法通常用于训练集中变量中存在非常多的噪声,尤其在包含着许多变量时,可以剔除掉不必要变量,而有效地保留那些重要变量,从而得出有效的模型,提高预测准确性。
Lasso方法的基本过程是,使用最小范数法进行变量选择,即求出一个最小的变量组合,使得目标变量的值尽可能接近真实值。
最小范数法的核心就是构建一个正则化的最小二乘回归方程,其引入的正则项可以有效的减少模型中的噪声,使得模型的预测更加准确。
首先,Lasso方法需要用户设置一个正则系数,这个正则项是来控制变量的最小范数,当正则系数越大时变量越少。
因为Lasso方法可以自动消除不重要变量,因此变量的选择十分灵活,可以帮助用户提高模型的准确度。
其次,Lasso方法可以检测出变量之间的非线性关系,帮助用户找出实验中不易发现的关系,有助于更清楚地理解数据间的关系,从而得出更准确的预测结果。
最后,Lasso方法适用于数据集中存在着多重共线性时,可以有效地实现变量之间的稀疏约束,使得模型参数更加稳定,从而提高模型的预测准确率。
总之,Lasso方法是一种有效的变量选择和参数估计工具,它可
以用于从数据集中消除不必要的变量,从而得出更加准确的模型,有助于更好地理解变量之间的关系,并可以有效稳定模型参数,提高预测准确率。
lasso变量选择Lasso变量选择是一种常用的统计方法,用于在给定的一组自变量中选择对因变量有重要影响的变量。
本文将介绍Lasso变量选择的原理、应用场景以及如何进行Lasso变量选择的步骤。
我们来了解一下Lasso变量选择的原理。
Lasso是Least Absolute Shrinkage and Selection Operator的缩写,它是一种回归分析的方法。
Lasso回归通过对回归系数进行约束,使得某些系数变为零,从而实现变量选择的目的。
Lasso回归通过添加一个惩罚项来实现变量选择,该惩罚项是回归系数的绝对值之和与一个常数的乘积。
通过调整这个常数,我们可以控制变量选择的严格程度。
Lasso变量选择的应用场景非常广泛。
在实际的数据分析中,我们经常面临大量的自变量,而其中只有少数几个对因变量具有显著影响。
Lasso变量选择可以帮助我们从大量的自变量中找出对因变量有重要影响的变量,从而简化模型并提高预测的准确性。
Lasso变量选择也可以用于特征工程,帮助我们筛选出对目标变量有重要影响的特征。
接下来,我们来看一下如何进行Lasso变量选择的步骤。
首先,我们需要准备数据集,包括自变量和因变量。
然后,我们可以使用Lasso回归模型进行变量选择。
在进行变量选择之前,我们需要对数据进行标准化处理,以便比较不同变量之间的影响力。
接着,我们可以使用交叉验证的方法来选择惩罚项的大小,从而得到最佳的模型。
最后,我们可以根据模型的结果来判断哪些自变量对因变量有重要影响。
通过Lasso变量选择,我们可以得到一组对因变量有显著影响的自变量。
这些自变量可以帮助我们理解数据的内在规律,从而做出更准确的预测或者推断。
同时,由于Lasso回归可以将某些系数变为零,因此可以帮助我们简化模型,减少过拟合的风险。
总结一下,Lasso变量选择是一种常用的统计方法,可以帮助我们从大量的自变量中选择对因变量有重要影响的变量。
通过Lasso变量选择,我们可以简化模型并提高预测的准确性。
基于Lasso方法的平衡纵向数据模型变量选择曲婷;王静【摘要】The Lasso method is applied to study variable selection problem in balanced longitudinal data model. This method can shrink the coefficients toward to zeros, and even set some coefficients to zeros, then LARS algorithm is used to sequence the coefficients, and AIC and BIC criteria are used to select the tuning parameters. Furthermore , some theoretical properties are proved, and the characteristics of the approach are presented from some simulation results. As an application, this approach is applied to find out the main factors which have influence to the activities of bats effectively.%应用Lasso方法研究平衡纵向数据模型的变量选择问题.通过Lasso方法可将模型的系数进行压缩并使之趋于零,甚至使一些系数等于零,利用LARS算法对回归系数进行排序,并采用AIC和BIC准则进行截取,从而达到变量选择的目的.同时证明该方法的一些理论特性,并从仿真模拟中分析了该方法的主要特点.作为实际应用,本方法可以有效地从众多的环境因素中寻找影响蝙蝠活动的主要因素.【期刊名称】《黑龙江大学自然科学学报》【年(卷),期】2012(029)006【总页数】9页(P715-722,726)【关键词】平衡纵向数据模型;变量选择;Lasso;LARS;AIC;BIC【作者】曲婷;王静【作者单位】东北师范大学人文学院,长春130117;东北师范大学城市与环境科学学院长春130024【正文语种】中文【中图分类】O213纵向数据是对观测对象中的每一个个体按时间顺序重复观测而得到的,它将截面数据和时间数据结合在一起,能够很好地分析出个体随时间变化的趋势,又能反映个体间的差异及个体内的变化趋势,因此在临床医学、流行病学、心理学等研究领域有着重要的应用价值。