你应该掌握的七种回归技术
- 格式:doc
- 大小:228.53 KB
- 文档页数:10
你应该要掌握的7种回归分析⽅法你应该要掌握的7种回归分析⽅法标签:机器学习回归分析2015-08-24 11:29 4749⼈阅读评论(0) 收藏举报分类:机器学习(5)⽬录(?)[+]转载:原⽂链接:7 Types of Regression Techniques you should know!(译者/刘帝伟审校/刘翔宇、朱正贵责编/周建丁)什么是回归分析?回归分析是⼀种预测性的建模技术,它研究的是因变量(⽬标)和⾃变量(预测器)之间的关系。
这种技术通常⽤于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究⽅法就是回归。
回归分析是建模和分析数据的重要⼯具。
在这⾥,我们使⽤曲线/线来拟合这些数据点,在这种⽅式下,从曲线或线到数据点的距离差异最⼩。
我会在接下来的部分详细解释这⼀点。
我们为什么使⽤回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下⾯,让我们举⼀个简单的例⼦来理解它:⽐如说,在当前的经济条件下,你要估计⼀家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显⽰出销售额增长⼤约是经济增长的2.5倍。
那么使⽤回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使⽤回归分析的好处良多。
具体如下:1.它表明⾃变量和因变量之间的显著关系;2.它表明多个⾃变量对⼀个因变量的影响强度。
回归分析也允许我们去⽐较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究⼈员,数据分析⼈员以及数据科学家排除并估计出⼀组最佳的变量,⽤来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术⽤于预测。
这些技术主要有三个度量(⾃变量的个数,因变量的类型以及回归线的形状)。
我们将在下⾯的部分详细讨论它们。
对于那些有创意的⼈,如果你觉得有必要使⽤上⾯这些参数的⼀个组合,你甚⾄可以创造出⼀个没有被使⽤过的回归模型。
回归分析方法总结全面回归分析是一种常用的统计分析方法,用于建立一个或多个自变量与因变量之间的关系模型,并进行预测和解释。
在许多研究领域和实际应用中,回归分析被广泛使用。
下面是对回归分析方法的全面总结。
1.简单线性回归分析:简单线性回归分析是最基本的回归分析方法之一,用于建立一个自变量和一个因变量之间的线性关系模型。
它的方程为Y=a+bX,其中Y是因变量,X是自变量,a是截距,b是斜率。
通过最小二乘法估计参数a和b,可以用于预测因变量的值。
2. 多元线性回归分析:多元线性回归分析是在简单线性回归的基础上扩展的方法,用于建立多个自变量和一个因变量之间的线性关系模型。
它的方程为Y = a + b1X1 + b2X2 + ... + bnXn,其中n是自变量的个数。
通过最小二乘法估计参数a和bi,可以用于预测因变量的值。
3.对数线性回归分析:对数线性回归分析是在简单线性回归或多元线性回归的基础上,将自变量或因变量取对数后建立的模型。
这种方法适用于因变量和自变量之间呈现指数关系的情况。
对数线性回归分析可以通过最小二乘法进行参数估计,并用于预测因变量的对数。
4.多项式回归分析:多项式回归分析是在多元线性回归的基础上,将自变量进行多项式变换后建立的模型。
它可以用于捕捉自变量和因变量之间的非线性关系。
多项式回归分析可以通过最小二乘法估计参数,并进行预测。
5.非线性回归分析:非线性回归分析是一种更一般的回归分析方法,用于建立自变量和因变量之间的非线性关系模型。
这种方法可以适用于任意形式的非线性关系。
非线性回归分析可以通过最小二乘法或其他拟合方法进行参数估计,用于预测因变量的值。
6.逐步回归分析:逐步回归分析是一种变量选择方法,用于确定最重要的自变量对因变量的解释程度。
它可以帮助选择最佳的自变量组合,建立最合适的回归模型。
逐步回归分析可以根据其中一种准则(如逐步回归F检验、最大似然比等)逐步添加或删除自变量,直到最佳模型被找到为止。
常用的回归算法
回归算法是一种机器学习算法,用于预测数值型变量的值。
在实际应用中,回归算法被广泛应用于金融、医学、工业等领域中。
常用的回归算法包括线性回归、岭回归、lasso回归、弹性网络回归、多项式回归等。
线性回归是最简单的回归算法之一,它使用线性函数来拟合目标变量和独立变量之间的关系。
线性回归最常用的方法是最小二乘法,它试图找到最小化误差平方和的直线。
岭回归是一种正则化线性回归方法,它通过增加正则化项来减少过拟合问题。
这个正则化项是L2范数,它通过限制系数的大小来控制过拟合。
lasso回归也是一种正则化线性回归方法,它使用L1范数作为正则化项,它的优点是可以自动选择特征,缺点是它无法处理具有共线性的特征。
弹性网络回归结合了岭回归和lasso回归的优点,同时使用L1和L2范数作为正则化项。
多项式回归适用于非线性数据集。
它使用多项式函数来拟合目标变量
和独立变量之间的关系。
在选择适合的回归算法时,需要考虑目标变量和独立变量之间的关系,以及数据的特点和要求。
同时,还需要进行交叉验证和调参来提高模
型的准确性和稳定性。
总之,回归算法是机器学习中重要的技术之一,可以应用于多个领域中。
机器学习从业者需要掌握各种回归算法的原理和应用,以提高模
型的准确性和稳定性。
对于机器学习/数据科学初学者应该掌握的七种回归分析方法对于机器学习/数据科学的初学者来说,线性回归,或者Logistic回归是许多人在建立预测模型时接触的第一/第二种方法。
由于这两种算法适用性极广,有些人甚至在走出校门当上数据分析师后还固执地认为回归只有这两种形式,或者换句话说,至少线性回归和Logistic回归应该是其中最重要两个算法。
那么事实真的是这样吗?
Sunil Ray是一位在印度保险行业拥有丰富经验的商业分析师和人工智能专家,针对这个问题,他指出其实回归有无数种形式,每种回归算法都有自己擅长的领域和各自的特色。
在本文中,他将以最简单的形式介绍7种较为常见的回归形式,希望读者们在耐心阅读完毕后,可以在学习、工作中多做尝试,而不是无论遇到什么问题都直接上“万金油”的线性回归和Logistic回归。
目录
1. 什么是回归分析?
2. 为什么要用回归分析?
3. 几种常见的回归分析方法
线性回归
Logistic回归
多项式回归
逐步回归
岭回归
Lasso回归
ElasticNet回归
4. 如何挑选适合的回归模型?
什么是回归分析?
回归分析是一种预测建模技术,它可以被用来研究因变量(目标)和自变量(预测)之间。
.种回归分析方法7你应该要掌握的标签:机器学习回归分析2015-08-24 11:29 4749人阅读评论(0) 收藏举报分类:(5)机器学习目录(?)[+]:原文:7 Types of Regression Techniques you should know!(译者/帝伟审校/翔宇、周建丁)责编/朱正贵什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析是建模和分析数据的重要工具。
在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。
我会在接下来的部分详细解释这一点。
我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下面,让我们举一个简单的例子来理解它:文档Word.比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。
那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处良多。
具体如下:1.它表明自变量和因变量之间的显著关系;它表明多个自变量对一个因变量的影响强度2.。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术用于预测。
这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
我们将在下面的部分详细讨论它们。
对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。
常用的回归算法回归分析是一种统计学方法,用于研究两个或多个变量之间的关系。
回归分析可以用来预测一个变量的值,基于另一个或多个变量的值。
在机器学习中,回归算法是一种监督学习方法,用于预测连续变量的值。
在本文中,我们将介绍几种常用的回归算法。
1. 线性回归线性回归是最简单的回归算法之一。
它假设目标变量与自变量之间存在线性关系。
线性回归的目标是找到一条直线,使得所有数据点到该直线的距离之和最小。
这条直线称为最小二乘回归线。
线性回归可以用于单变量和多变量问题。
2. 多项式回归多项式回归是一种非线性回归算法。
它假设目标变量与自变量之间存在多项式关系。
多项式回归的目标是找到一个多项式函数,使得所有数据点到该函数的距离之和最小。
多项式回归可以用于单变量和多变量问题。
3. 岭回归岭回归是一种正则化线性回归算法。
它通过添加一个正则化项来控制模型的复杂度。
正则化项是一个惩罚项,它惩罚模型中的大系数。
岭回归的目标是找到一个最小化损失函数的系数向量,同时满足正则化约束。
岭回归可以用于解决多重共线性问题。
4. Lasso回归Lasso回归是一种正则化线性回归算法。
它通过添加一个正则化项来控制模型的复杂度。
正则化项是一个惩罚项,它惩罚模型中的大系数。
Lasso回归的目标是找到一个最小化损失函数的系数向量,同时满足正则化约束。
与岭回归不同的是,Lasso回归可以将某些系数缩小到零,从而实现特征选择。
5. Elastic Net回归Elastic Net回归是一种正则化线性回归算法。
它结合了岭回归和Lasso回归的优点。
Elastic Net回归的目标是找到一个最小化损失函数的系数向量,同时满足正则化约束。
与Lasso回归不同的是,Elastic Net回归可以处理多重共线性问题。
总结回归算法是机器学习中的重要算法之一。
本文介绍了几种常用的回归算法,包括线性回归、多项式回归、岭回归、Lasso回归和Elastic Net回归。
常用回归方法回归分析(regressionanalysis)是经济学、统计学及其他一些领域中用于研究因变量和自变量之间关系的统计方法。
它可以用来预测给定自变量条件下因变量的值或者模拟因变量的变化以便衡量自变量对因变量的影响。
在实际中,回归分析方法有广泛的应用,并且有不同的形式。
这里将介绍几种常用的回归方法,以解决实际问题。
线性回归(Linear regression)是最常见的回归方法,它假设自变量与因变量之间是线性的关系,即因变量可以由一条直线表示。
线性回归可以应用于预测连续变量、模拟不同自变量条件下的因变量变化等。
它的优点是可以快速并且有效地预测因变量,缺点是不能有效地处理非线性关系。
Logistic回归(Logistic regression)是用来处理分类数据的,与线性回归不同,它假设因变量的取值是一个离散的变量,它可以被用来预测分类变量的结果,如“贷款申请人是否会违约”。
Logistic 回归的优点是可以处理不同自变量之间的非线性关系,缺点是如果自变量的取值范围较大,则可能会出现过拟合现象。
局部加权线性回归(Local Weighted Linear regression)是一种用来拟合非线性函数的回归方法,它可以拟合较复杂的函数,使得预测准确率更高。
它的核心思想是,对于训练数据中的每一个样本点,都会计算一个权重,权重越大,说明样本点对拟合结果的影响越大。
局部加权线性回归的优点是可以拟合复杂的函数,缺点是会出现过拟合现象。
另外,还有几种回归方法,例如支持向量回归(Support Vector Regression)、决策树回归(Decision Tree Regression)、随机森林回归(Random Forest Regression)等,可以用来处理回归问题,但是它们的用法较复杂。
总的来说,在实际问题中可以根据实际情况选用不同的回归方法,以便更好地预测因变量。
掌握基本的回归分析理论和方法,可以有效地用于对实际数据进行分析,从而发现其中的规律和趋势,进而做出恰当的决策,帮助我们更好地把握机遇、预测变化,从而把握战略机遇。
35种原点回归模式详解在数据分析与机器学习的领域中,回归分析是一种重要的统计方法,用于研究因变量与自变量之间的关系。
以下是35种常见的回归分析方法,包括线性回归、多项式回归、逻辑回归等。
1.线性回归(Linear Regression):最简单且最常用的回归分析方法,适用于因变量与自变量之间存在线性关系的情况。
2.多项式回归(Polynomial Regression):通过引入多项式函数来扩展线性回归模型,以适应非线性关系。
3.逻辑回归(Logistic Regression):用于二元分类问题的回归分析方法,其因变量是二元的逻辑函数。
4.岭回归(Ridge Regression):通过增加一个正则化项来防止过拟合,有助于提高模型的泛化能力。
5.主成分回归(Principal Component Regression):利用主成分分析降维后进行线性回归,减少数据的复杂性。
6.套索回归(Lasso Regression):通过引入L1正则化,强制某些系数为零,从而实现特征选择。
7.弹性网回归(ElasticNet Regression):结合了L1和L2正则化,以同时实现特征选择和防止过拟合。
8.多任务学习回归(Multi-task Learning Regression):将多个任务共享部分特征,以提高预测性能和泛化能力。
9.时间序列回归(Time Series Regression):专门针对时间序列数据设计的回归模型,考虑了时间依赖性和滞后效应。
10.支持向量回归(Support Vector Regression):利用支持向量机技术构建的回归模型,适用于小样本数据集。
11.K均值聚类回归(K-means Clustering Regression):将聚类算法与回归分析相结合,通过对数据进行聚类后再进行回归预测。
12.高斯过程回归(Gaussian Process Regression):基于高斯过程的非参数贝叶斯方法,适用于解决非线性回归问题。
数据分析回归分析的技术方法数据分析是现代社会中不可或缺的一项技术,它帮助我们从大量的数据中提取有用的信息和洞察。
在数据分析中,回归分析是一种常用的技术方法,它用于探索变量之间的关系,并预测一个变量如何随着其他变量的变化而变化。
本文将介绍回归分析的技术方法,并讨论其在实际应用中的重要性和局限性。
一、简介回归分析是一种统计学方法,用于研究变量之间的关系。
它基于一组自变量(也称为解释变量)和一个因变量,通过建立一个数学模型来描述自变量对因变量的影响。
回归分析可以回答诸如“X对Y有何影响?” 或“当X变化时,Y会如何变化?”等问题。
二、简单线性回归简单线性回归是回归分析的基本形式,它用于研究一个自变量和一个因变量之间的关系。
在简单线性回归中,我们假设自变量和因变量之间存在着一个线性关系。
通过最小化残差平方和,我们可以得到最佳拟合的直线,从而描述自变量对因变量的影响。
三、多元线性回归多元线性回归用于研究一个因变量和多个自变量之间的关系。
与简单线性回归不同,多元线性回归考虑了多个自变量对因变量的影响。
通过最小二乘法,我们可以估计出各个自变量的参数,并建立一个多元线性回归模型,从而描述自变量对因变量的综合影响。
四、逻辑回归逻辑回归是一种广义线性回归模型,用于处理因变量为二元分类变量的问题。
逻辑回归将线性回归模型的输出映射到一个0-1之间的概率范围内,从而判断一个观测值属于某个分类的概率。
逻辑回归在分类和概率预测问题中具有广泛的应用。
五、局限性和扩展虽然回归分析是一种强大的统计学工具,但它也有一些局限性。
首先,回归分析需要假设自变量和因变量之间存在线性关系,这并不总是成立。
其次,回归分析对数据的要求比较严格,需要满足一些统计假设前提。
此外,回归分析也容易受到异常值和共线性的影响。
为了克服回归分析的局限性,研究人员提出了许多扩展和改进的方法。
例如,非线性回归可以用于处理自变量和因变量之间的非线性关系。
岭回归和lasso回归可以用于处理共线性问题。
回归分析方法总结全面回归分析是一种统计分析方法,用于研究自变量与因变量之间的关系。
它可以帮助我们了解自变量对因变量的影响程度,以及预测因变量的值。
回归分析有多种方法和技术,本文将对几种常用的回归分析方法进行总结和介绍。
1. 简单线性回归分析简单线性回归分析是回归分析的最基本形式,用于研究单个自变量与因变量之间的关系。
它假设自变量与因变量之间存在线性关系,并且通过拟合一条直线来描述这种关系。
简单线性回归分析使用最小二乘法来估计直线的参数,最小化观测值与模型预测值之间的差异。
2. 多元线性回归分析多元线性回归分析是回归分析的一种拓展形式,用于研究多个自变量与因变量之间的关系。
它假设各个自变量与因变量之间存在线性关系,并通过拟合一个多元线性模型来描述这种关系。
多元线性回归分析使用最小二乘法来估计模型的参数。
3. 逻辑回归分析逻辑回归分析是回归分析的一种特殊形式,用于研究二分类变量与一系列自变量之间的关系。
它通过拟合一个Logistic函数来描述二分类变量与自变量之间的概率关系。
逻辑回归分析可以用于预测二分类变量的概率或进行分类。
4. 多项式回归分析多项式回归分析是回归分析的一种变体,用于研究自变量与因变量之间的非线性关系。
它通过引入自变量的高次项来拟合一个多项式模型,以描述非线性关系。
多项式回归分析可以帮助我们探索自变量与因变量之间的复杂关系。
5. 非线性回归分析非线性回归分析是回归分析的一种广义形式,用于研究自变量与因变量之间的非线性关系。
它通过拟合一个非线性模型来描述这种关系。
非线性回归分析可以用于分析复杂的现象或数据,但需要更复杂的参数估计方法。
6. 岭回归分析岭回归分析是回归分析的一种正则化方法,用于处理自变量之间存在共线性的情况。
共线性会导致参数估计不稳定或不准确,岭回归通过加入一个正则化项来缩小参数估计的方差。
岭回归分析可以帮助我们在共线性存在的情况下得到更可靠的结果。
7. 主成分回归分析主成分回归分析是回归分析的一种降维方法,用于处理高维数据或自变量之间存在相关性的情况。
你应该掌握的七种回归技术发表于2015-08-20 22:31| 15002次阅读| 来源AnalyticsVidhya| 0条评论| 作者Sunil Ray回归神经网络机器学习数据分析摘要:本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。
【编者按】回归分析是建模和分析数据的重要工具。
本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。
什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析是建模和分析数据的重要工具。
在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。
我会在接下来的部分详细解释这一点。
我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下面,让我们举一个简单的例子来理解它:比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。
那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处良多。
具体如下:1.它表明自变量和因变量之间的显著关系;2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术用于预测。
这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
我们将在下面的部分详细讨论它们。
对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。
但在你开始之前,先了解如下最常用的回归方法:1. Linear Regression线性回归它是最为人熟知的建模技术之一。
线性回归通常是人们在学习预测模型时首选的技术之一。
在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
用一个方程式来表示它,即Y=a+b*X + e,其中a表示截距,b表示直线的斜率,e是误差项。
这个方程可以根据给定的预测变量(s)来预测目标变量的值。
一元线性回归和多元线性回归的区别在于,多元线性回归有(>1)个自变量,而一元线性回归通常只有1个自变量。
现在的问题是“我们如何得到一个最佳的拟合线呢?”。
如何获得最佳拟合线(a和b的值)?这个问题可以使用最小二乘法轻松地完成。
最小二乘法也是用于拟合回归线最常用的方法。
对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。
因为在相加时,偏差先平方,所以正值和负值没有抵消。
我们可以使用R-square指标来评估模型性能。
想了解这些指标的详细信息,可以阅读:模型性能指标Part 1,Part 2 .要点:∙自变量与因变量之间必须有线性关系∙多元回归存在多重共线性,自相关性和异方差性。
∙线性回归对异常值非常敏感。
它会严重影响回归线,最终影响预测值。
∙多重共线性会增加系数估计值的方差,使得在模型轻微变化下,估计非常敏感。
结果就是系数估计值不稳定∙在多个自变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量。
2.Logistic Regression逻辑回归逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。
当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。
这里,Y的值从0到1,它可以用下方程表示。
上述式子中,p表述具有某个特征的概率。
你应该会问这样一个问题:“我们为什么要在公式中使用对数log呢?”。
因为在这里我们使用的是的二项分布(因变量),我们需要选择一个对于这个分布最佳的连结函数。
它就是Logit函数。
在上述方程中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。
要点:∙它广泛的用于分类问题。
∙逻辑回归不要求自变量和因变量是线性关系。
它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
∙为了避免过拟合和欠拟合,我们应该包括所有重要的变量。
有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。
∙它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
∙自变量不应该相互关联的,即不具有多重共线性。
然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。
∙如果因变量的值是定序变量,则称它为序逻辑回归。
∙如果因变量是多类的话,则称它为多元逻辑回归。
3. Polynomial Regression多项式回归对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。
如下方程所示:在这种回归技术中,最佳拟合线不是直线。
而是一个用于拟合数据点的曲线。
重点:∙虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。
你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。
下面是一个图例,可以帮助理解:∙明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。
更高次的多项式最后可能产生怪异的推断结果。
4. Stepwise Regression逐步回归在处理多个自变量时,我们可以使用这种形式的回归。
在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。
逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。
下面列出了一些最常用的逐步回归方法:∙标准逐步回归法做两件事情。
即增加和删除每个步骤所需的预测。
∙向前选择法从模型中最显著的预测开始,然后为每一步添加变量。
∙向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。
这也是处理高维数据集的方法之一。
5. Ridge Regression岭回归岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。
在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。
岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
上面,我们看到了线性回归方程。
还记得吗?它可以表示为:y=a+ b*x这个方程也有一个误差项。
完整的方程是:在一个线性方程中,预测误差可以分解为2个子分量。
一个是偏差,一个是方差。
预测错误可能会由这两个分量或者这两个中的任何一个造成。
在这里,我们将讨论由方差所造成的有关误差。
岭回归通过收缩参数λ(lambda)解决多重共线性问题。
看下面的公式在这个公式中,有两个组成部分。
第一个是最小二乘项,另一个是β2(β-平方)的λ倍,其中β是相关系数。
为了收缩参数把它添加到最小二乘项中以得到一个非常低的方差。
要点:∙除常数项以外,这种回归的假设与最小二乘回归类似;∙它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能∙这是一个正则化方法,并且使用的是L2正则化。
6. Lasso Regression套索回归它类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。
此外,它能够减少变化程度并提高线性回归模型的精度。
看看下面的公式:Lasso 回归与Ridge回归有一点不同,它使用的惩罚函数是绝对值,而不是平方。
这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。
使用惩罚值越大,进一步估计会使得缩小值趋近于零。
这将导致我们要从给定的n个变量中选择变量。
要点:∙除常数项以外,这种回归的假设与最小二乘回归类似;∙它收缩系数接近零(等于零),这确实有助于特征选择;∙这是一个正则化方法,使用的是L1正则化;·如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。
7.ElasticNet回归ElasticNet是Lasso和Ridge回归技术的混合体。
它使用L1来训练并且L2优先作为正则化矩阵。
当有多个相关的特征时,ElasticNet是很有用的。
Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。
Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
要点:∙在高度相关变量的情况下,它会产生群体效应;∙选择变量的数目没有限制;∙它可以承受双重收缩。
除了这7个最常用的回归技术,你也可以看看其他模型,如Bayesian、Ecological和Robust 回归。
如何正确选择回归模型?当你只知道一个或两个技术时,生活往往很简单。
我知道的一个培训机构告诉他们的学生,如果结果是连续的,就使用线性回归。
如果是二元的,就使用逻辑回归!然而,在我们的处理中,可选择的越多,选择正确的一个就越难。
类似的情况下也发生在回归模型中。
在多类回归模型中,基于自变量和因变量的类型,数据的维数以及数据的其它基本特征的情况下,选择最合适的技术非常重要。
以下是你要选择正确的回归模型的关键因素:1.数据探索是构建预测模型的必然组成部分。
在选择合适的模型时,比如识别变量的关系和影响时,它应该首选的一步。
2.比较适合于不同模型的优点,我们可以分析不同的指标参数,如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows' Cp准则。
这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。
3.交叉验证是评估预测模型最好额方法。
在这里,将你的数据集分成两份(一份做训练和一份做验证)。
使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。