线性回归和偏差
- 格式:doc
- 大小:203.50 KB
- 文档页数:6
七种回归分析方法个个经典什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析是建模和分析数据的重要工具。
在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。
我会在接下来的部分详细解释这一点。
我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下面,让我们举一个简单的例子来理解它:比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。
那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处良多。
具体如下:1.它表明自变量和因变量之间的显著关系;2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术用于预测。
这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
我们将在下面的部分详细讨论它们。
对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。
但在你开始之前,先了解如下最常用的回归方法:1.Linear Regression线性回归它是最为人熟知的建模技术之一。
线性回归通常是人们在学习预测模型时首选的技术之一。
在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
误差分析和线性回归是数学中的两个重要概念,是数据分析和预测的基础。
本文将从误差和线性回归的定义、应用、限制和改进等几个方面,探讨这两个概念的内涵和外延。
一、误差分析1.1 定义误差是指测量结果与实际值之间的差异,是真实值与观测值之间的距离。
误差分析是对测量结果的准确性和可靠性进行研究和评价的过程。
误差分析包括误差类型、误差大小、误差来源、误差统计等内容。
1.2 应用误差分析常用于科学实验、工程设计、质量控制、监控系统等领域中。
通过误差分析,可以了解实验数据的精度、精确度和可靠性,避免误导和错误结论的产生。
误差分析还可以优化设计和制造过程,提高产品质量和效率。
1.3 限制和改进误差分析存在着一定的局限性和不足之处。
例如,误差分析有可能忽略掉一些系统性误差或随机误差,导致测量结果的偏差较大。
此外,误差分析需要建立适当的模型和假设,这可能会引入其他的误差,进而违背实验原理和科学精神。
为了改进误差分析,需要引入更多的信息和知识,包括测量方法、仪器精度、实验环境等方面的数据。
同时,还需要加强数据处理和统计等技术的应用,以提高测量数据的信度和准确性。
二、线性回归2.1 定义线性回归是一种用于描述和预测变量关系的模型。
它通过线性方程的形式,描述响应变量与自变量之间的关系。
线性回归可以用来判断变量之间的相关性,预测未来的趋势和趋势变化。
2.2 应用线性回归广泛应用于金融、经济、医学、环境、社会等领域中。
例如,线性回归可以用于分析销售数据与营销策略之间的关系,预测股票价格和收益率,评估医疗方案的效果,推测环境污染和气候变化的趋势等。
2.3 限制和改进线性回归也存在一些问题和挑战。
例如,线性回归假定变量之间的关系是线性的,这可能导致误差和偏差的产生。
此外,线性回归需要满足一些假设条件,例如正态分布、独立性、同方差性等,这可能难以满足现实数据的特点。
为了克服线性回归的限制,需要引入更加灵活的模型和算法,如非参数回归、加权回归、神经网络回归等。
测量误差与精度分析方法详解引言:在现代科学和工程技术领域,测量是不可或缺的一环。
无论是生产制造中的质量控制,还是科学研究中的实验数据,精确的测量都是基石。
然而,在测量过程中,由于各种各样的原因,会产生测量误差。
本文将详细解析测量误差的产生原因以及精度分析的方法。
一、测量误差的产生原因1. 装置和仪器的设计和制造问题:装置和仪器自身的设计和制造质量直接影响了测量的准确性。
例如,传感器的灵敏度不一致、仪器的线性度问题、装置的稳定性等都会引入测量误差。
2. 环境条件和外界干扰:环境条件和外界干扰对测量结果的准确性有着重要影响。
例如,温度的变化会导致测量装置的漂移,而电磁辐射也会干扰信号的传输。
3. 操作人员的技术水平和操作方式:操作人员的技术水平和操作方式会直接影响测量的准确性。
正确的操作方法、仔细的操作态度以及充足的经验都是确保测量结果准确的重要因素。
4. 测量对象的特性及其变化:测量对象本身的特性以及其可能的变化也会对测量结果产生影响。
例如,物体的形状、表面粗糙度等,都会影响测量结果的准确性。
二、测量误差的分类与表示方法测量误差可以分为系统误差和随机误差。
1. 系统误差:系统误差是由于测量装置、仪器或环境等因素的固有性质而产生的误差。
系统误差具有一定的规律性,通常是一整个数据序列偏离真实值的方向一致。
系统误差可通过校正或调整仪器来消除或降低。
2. 随机误差:随机误差是由于测量对象的变化、环境干扰、操作方式等不确定因素引起的误差。
随机误差通常是在一系列测量中,结果分散在真实值的周围。
随机误差可使用统计方法进行处理和分析。
测量误差的表示方法主要有绝对误差和相对误差。
1. 绝对误差:绝对误差是指测量结果与真实值之间的差异。
通常用∆表示,可以是正值也可以是负值,其绝对值越小,代表测量结果越接近真实值。
2. 相对误差:相对误差是绝对误差与测量结果的比值。
通常用百分比表示,可以衡量测量结果的准确程度。
相对误差越小,代表测量结果越准确。
7种回归⽅法!请务必掌握!7 种回归⽅法!请务必掌握!线性回归和逻辑回归通常是⼈们学习预测模型的第⼀个算法。
由于这⼆者的知名度很⼤,许多分析⼈员以为它们就是回归的唯⼀形式了。
⽽了解更多的学者会知道它们是所有回归模型的主要两种形式。
事实是有很多种回归形式,每种回归都有其特定的适⽤场合。
在这篇⽂章中,我将以简单的形式介绍 7 中最常见的回归模型。
通过这篇⽂章,我希望能够帮助⼤家对回归有更⼴泛和全⾯的认识,⽽不是仅仅知道使⽤线性回归和逻辑回归来解决实际问题。
本⽂将主要介绍以下⼏个⽅⾯:1. 什么是回归分析?2. 为什么使⽤回归分析?3. 有哪些回归类型?线性回归(Linear Regression)逻辑回归(Logistic Regression)多项式回归(Polynomial Regression)逐步回归(Stepwise Regression)岭回归(Ridge Regression)套索回归(Lasso Regression)弹性回归(ElasticNet Regression)4. 如何选择合适的回归模型?1什么是回归分析?回归分析是⼀种预测建模技术的⽅法,研究因变量(⽬标)和⾃变量(预测器)之前的关系。
这⼀技术被⽤在预测、时间序列模型和寻找变量之间因果关系。
例如研究驾驶员鲁莽驾驶与交通事故发⽣频率之间的关系,就可以通过回归分析来解决。
回归分析是进⾏数据建模、分析的重要⼯具。
下⾯这张图反映的是使⽤⼀条曲线来拟合离散数据点。
其中,所有离散数据点与拟合曲线对应位置的差值之和是被最⼩化了的,更多细节我们会慢慢介绍。
2为什么使⽤回归分析?如上⾯所说,回归分析能估计两个或者多个变量之间的关系。
下⾯我们通过⼀个简单的例⼦来理解:⽐如说,你想根据当前的经济状况来估计⼀家公司的销售额增长。
你有最近的公司数据,数据表明销售增长⼤约是经济增长的 2.5 倍。
利⽤这种洞察⼒,我们就可以根据当前和过去的信息预测公司未来的销售情况。
关于一元线性回归分析中的偏差计算一元线性回归分析是一种统计分析方法,主要通过解释变量和因变量之间的线性关系,来预测因变量的值。
这种方法可以帮助我们低效的发现关于潜在的因果关系的信息。
在实践中,一元线性回归模型的偏差是非常重要的指标,因为它可以不断改进模型以达到更加有效、切实可行的预测结果。
本文将介绍什么是偏差,如何计算偏差,以及减小偏差的一些方法。
一、什么是偏差偏差也称为残差,是指实际值与预测值之间的差异。
在一元线性回归分析中,偏差就是实际观察到的响应值与预测值之间的差异。
一般来说,偏差越小,模型越准确。
如果偏差不是很大,那么我们可以认为模型的分析结果是相当可靠的。
二、如何计算偏差当我们使用一元线性回归分析时,可以使用下面公式计算偏差:偏差=真实观察值-模型预测值因此,当我们得到一个新的观察值时,可以将该值代入上述公式,计算出它与预测值之间的偏差。
三、如何减小偏差偏差是一个模型预测准确性的重要指标,减少其值可以帮助我们提高模型的预测准确性。
有几种方法可以减小偏差:1、在解释变量和因变量之间寻求准确的线性拟合:通过绘制回归曲线,我们可以分析出解释变量与因变量之间的准确的线性关系。
2、选择合适的模型参数:有时候,我们可能会犯错误地选择了不合适的模型参数。
在模型参数调整中,可以考虑将步长、迭代次数等因素调整到最佳状态,以期得出最准确的预测结果。
3、给定模型添加新的变量:在一元线性回归模型中,我们可以考虑在解释变量中添加新的变量,以减少偏差。
4、检查残差是否符合假设:假设在一元线性回归模型中,残差应该遵循正态分布,因此,我们可以检查残差是否符合正态分布来帮助我们更准确地评估模型的预测准确性,并减小模型偏差。
四、总结一元线性回归分析是一种有效的统计分析方法,可以有效地发现解释变量和因变量之间的关系,从而预测因变量的值。
模型的偏差是一个重要的指标,因此要尽力减小偏差,获得更加准确可靠的预测结果。
减小偏差的方法包括:选择准确的线性拟合关系,合理的参数调整,添加新的变量,以及检查残差是否符合假设。
关于一元线性回归分析中的偏差计算一元线性回归模型是最为常用的统计分析方法,其中偏差计算也是其中一个重要的环节,本文着重介绍一元线性回归分析中的偏差计算。
一、定义偏差是指根据一元线性回归模型,用数据中的自变量估计的因变量的实际观察值与实际预测值之差。
可以将其分为方差项和偏差项,其中方差项又可以分为模型中所有因素的方差(模型总方差)以及因变量与自变量之间的方差(模型偏差),偏差项则可以分为模型中所有因素的偏差(模型总偏差)以及因变量与自变量之间的偏差(模型偏差)。
二、计算1.模型总方差:模型总方差表示模型中所有因素的整体变异,又可称为残差方差,它可以利用方差分析、T检验、F检验等统计方法来计算,它的计算公式为:模型总方差 =术平均值的平方 +术标准差的平方2.模型偏差:模型偏差表示因变量与自变量之间的变异,它可以利用回归分析、卡方检验等统计方法来计算,它的计算公式为:模型偏差 =型总方差 +数的平方3.模型总偏差:模型总偏差表示模型中所有因素的整体变异,它可以利用拟合优度、权重估计、参数效果等统计方法来计算,它的计算公式为:模型总偏差 =型总方差 +型偏差三、应用1.用于模型评价:偏差的计算可以帮助我们判定一元线性回归模型的效果,如果偏差计算值越小,说明模型的预测准确性越高,用于评估模型的准确性和效率。
2.用于优化模型:偏差的计算也可以帮助我们优化一元线性回归模型,如果偏差计算值比较大,则说明模型的预测精度偏低,此时我们可以采取一些措施来优化模型,提高预测精度。
四、总结以上就是一元线性回归分析中的偏差计算的内容,它不仅能够帮助我们评估模型的准确性和效率,还可以帮助我们优化模型,提高预测精度。
在进行一元线性回归分析时,应该综合考虑偏差计算,以达到较好的分析结果。
七种常见的回归分析什么是回归分析?回归分析是⼀种预测性的建模技术,它研究的是因变量(⽬标)和⾃变量(预测器)之间的关系。
这种技术通常⽤于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究⽅法就是回归。
回归分析是建模和分析数据的重要⼯具。
在这⾥,我们使⽤曲线/线来拟合这些数据点,在这种⽅式下,从曲线或线到数据点的距离差异最⼩。
我会在接下来的部分详细解释这⼀点。
我们为什么使⽤回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下⾯,让我们举⼀个简单的例⼦来理解它:⽐如说,在当前的经济条件下,你要估计⼀家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显⽰出销售额增长⼤约是经济增长的2.5倍。
那么使⽤回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使⽤回归分析的好处良多。
具体如下:1.它表明⾃变量和因变量之间的显著关系;2.它表明多个⾃变量对⼀个因变量的影响强度。
回归分析也允许我们去⽐较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究⼈员,数据分析⼈员以及数据科学家排除并估计出⼀组最佳的变量,⽤来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术⽤于预测。
这些技术主要有三个度量(⾃变量的个数,因变量的类型以及回归线的形状)。
我们将在下⾯的部分详细讨论它们。
对于那些有创意的⼈,如果你觉得有必要使⽤上⾯这些参数的⼀个组合,你甚⾄可以创造出⼀个没有被使⽤过的回归模型。
但在你开始之前,先了解如下最常⽤的回归⽅法:1. Linear Regression线性回归它是最为⼈熟知的建模技术之⼀。
线性回归通常是⼈们在学习预测模型时⾸选的技术之⼀。
在这种技术中,因变量是连续的,⾃变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使⽤最佳的拟合直线(也就是回归线)在因变量(Y)和⼀个或多个⾃变量(X)之间建⽴⼀种关系。
回归模型的误差项方差1.引言1.1 概述概述部分主要介绍回归模型的误差项方差这一主题,并对文章的结构和目的进行简要阐述。
在这一部分,我们可以开头引入回归分析的重要性和广泛应用的背景,并提出误差项方差这一概念的重要性。
接下来,我们可以介绍本文的目的,即研究误差项方差对回归模型的影响,以及减小误差项方差的方法。
下面是概述部分的一个参考写作:概述回归分析作为一种重要的统计方法,在各个领域都得到广泛应用。
通过利用观测数据中的自变量与因变量的关系,回归模型能够对未知因变量进行预测,从而帮助我们理解变量之间的关联性。
然而,回归模型中的误差项对模型的精确性和可靠性具有重要影响,特别是误差项的方差。
误差项方差是指回归模型中残差或预测误差的离散程度。
在回归模型中,我们常常假设误差项服从独立同分布的正态分布,并且其方差保持恒定。
然而,在实际应用中,误差项方差可能受到多种因素的影响,如数据的不确定性、测量误差、模型假设的违背等。
因此,研究和理解误差项方差的影响对于回归模型的准确性和有效性具有重要意义。
本文旨在探讨误差项方差对回归模型的影响,并提出相应的减小误差项方差的方法。
文章将从回归模型的基本概念和原理入手,引入误差项的概念和作用,然后重点讨论误差项方差对回归模型的影响。
最后,我们将介绍一些常见的方法和技巧,以减小误差项方差,并提高回归模型的准确性和可靠性。
通过对误差项方差的深入研究,我们可以更好地理解回归模型的局限性,并为实际应用中的建模和预测提供科学的依据。
希望本文的研究成果能够对相关领域的研究人员和实践者有所启发,从而推动回归分析方法的进一步发展和应用。
1.2文章结构1.2 文章结构本文将围绕回归模型的误差项方差展开讨论。
为了更好地理解这一概念,首先介绍回归模型的基本概念和原理,以及误差项的概念和作用。
随后,将重点探讨误差项方差对回归模型的影响,并提出一些方法来减小误差项方差。
最后,对本文的内容进行总结并给出结论。
统计建模中常见的偏差和方差问题分析与解决方法在统计建模中,偏差和方差是两个重要的概念。
偏差指的是模型的预测值与真实值之间的差异,而方差则是模型在不同数据集上预测结果的变化程度。
这两个问题在统计建模中经常出现,对模型的准确性和稳定性有着重要影响。
本文将分析偏差和方差问题,并提供解决方法。
一、偏差问题分析与解决方法偏差问题通常指的是模型对真实值的估计有一定的误差,即模型的预测值与真实值之间存在较大的差异。
造成偏差问题的原因可能是模型过于简单,无法捕捉数据中的复杂关系,或者是数据集本身存在一定的噪声。
解决偏差问题的方法有以下几种:1. 增加模型的复杂度:通过增加模型的参数或引入更复杂的模型结构,可以提高模型的拟合能力,从而减小偏差。
例如,在线性回归中,可以增加高阶项或引入交互项,以捕捉数据中的非线性关系。
2. 增加训练数据量:增加训练数据可以提供更多的信息,帮助模型更好地学习数据的特征。
更多的数据可以减小模型的偏差,并提高模型的泛化能力。
3. 特征工程:通过对原始数据进行特征提取和变换,可以提供更多的信息给模型。
例如,对连续特征进行离散化、引入交叉特征等,可以帮助模型更好地捕捉数据中的模式。
二、方差问题分析与解决方法方差问题指的是模型在不同数据集上预测结果的变化程度较大,即模型的稳定性较差。
方差问题通常是由于模型过于复杂,过度拟合了训练数据,导致在新数据上的表现不佳。
解决方差问题的方法有以下几种:1. 正则化:通过引入正则化项,限制模型的复杂度,可以减小模型的方差。
常见的正则化方法有L1正则化和L2正则化,可以在损失函数中加入正则化项,控制模型的参数大小。
2. 交叉验证:通过交叉验证的方法,将数据集划分为训练集和验证集,可以评估模型在不同数据集上的表现。
通过选择合适的模型复杂度,可以在一定程度上减小模型的方差。
3. 集成方法:集成方法通过将多个模型的预测结果进行组合,可以提高模型的泛化能力,并减小模型的方差。
机器学习中的数学(2)-线性回归,偏差、方差权衡版权声明:本文由LeftNotEasy所有,发布于。
如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。
如果有问题,请联系作者wheeleast@前言:距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得,以后会慢慢的写写这些心得。
写文章是促进自己对知识认识的一个好方法,看书的时候往往不是非常细,所以有些公式、知识点什么的就一带而过,里面的一些具体意义就不容易理解了。
而写文章,特别是写科普性的文章,需要对里面的具体意义弄明白,甚至还要能举出更生动的例子,这是一个挑战。
为了写文章,往往需要把之前自己认为看明白的内容重新理解一下。
机器学习可不是一个完全的技术性的东西,之前和部门老大在outing的时候一直在聊这个问题,机器学习绝对不是一个一个孤立的算法堆砌起来的,想要像看《算法导论》这样看机器学习是个不可取的方法,机器学习里面有几个东西一直贯穿全书,比如说数据的分布、最大似然(以及求极值的几个方法,不过这个比较数学了),偏差、方差的权衡,还有特征选择,模型选择,混合模型等等知识,这些知识像砖头、水泥一样构成了机器学习里面的一个个的算法。
想要真正学好这些算法,一定要静下心来将这些基础知识弄清楚,才能够真正理解、实现好各种机器学习算法。
今天的主题是线性回归,也会提一下偏差、方差的均衡这个主题。
线性回归定义:在上一个主题中,也是一个与回归相关的,不过上一节更侧重于梯度这个概念,这一节更侧重于回归本身与偏差和方差的概念。
回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小。
上图所示,给出一个点集(x,y), 需要用一个函数去拟合这个点集,蓝色的点是点集中的点,而红色的曲线是函数的曲线,第一张图是一个最简单的模型,对应的函数为y = f(x) = ax + b,这个就是一个线性函数,第二张图是二次曲线,对应的函数是y = f(x) = ax^2 + b。
机器学习中的数学(2)-线性回归,偏差、方差权衡
版权声明:
本文由LeftNotEasy所有,发布于。
如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。
如果有问题,请联系作者wheeleast@
前言:
距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得,以后会慢慢的写写这些心得。
写文章是促进自己对知识认识的一个好方法,看书的时候往往不是非常细,所以有些公式、知识点什么的就一带而过,里面的一些具体意义就不容易理解了。
而写文章,特别是写科普性的文章,需要对里面的具体意义弄明白,甚至还要能举出更生动的例子,这是一个挑战。
为了写文章,往往需要把之前自己认为看明白的内容重新理解一下。
机器学习可不是一个完全的技术性的东西,之前和部门老大在outing的时候一直在聊这个问题,机器学习绝对不是一个一个孤立的算法堆砌起来的,想要像看《算法导论》这样看机器学习是个不可取的方法,机器学习里面有几个东西一直贯穿全书,比如说数据的分布、最大似然(以及求极值的几个方法,不过这个比较数学了),偏差、方差的权衡,还有特征选择,模型选择,混合模型等等知识,这些知识像砖头、水泥一样构成了机器学习里面的一个个的算法。
想要真正学好这些算法,一定要静下心来将这些基础知识弄清楚,才能够真正理解、实现好各种机器学习算法。
今天的主题是线性回归,也会提一下偏差、方差的均衡这个主题。
线性回归定义:
在上一个主题中,也是一个与回归相关的,不过上一节更侧重于梯度这个概念,这一节更侧重于回归本身与偏差和方差的概念。
回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小。
上图所示,给出一个点集(x,y), 需要用一个函数去拟合这个点集,蓝色的点是点集中的点,而红色的曲线是函数的曲线,第一张图是一个最简单的模型,对应的函数为y = f(x) = ax + b,这个就是一个线性函数,
第二张图是二次曲线,对应的函数是y = f(x) = ax^2 + b。
第三张图我也不知道是什么函数,瞎画的。
第四张图可以认为是一个N次曲线,N = M - 1,M是点集中点的个数,有一个定理是,对于给定的M个点,我们可以用一个M - 1次的函数去完美的经过这个点集。
真正的线性回归,不仅会考虑使得曲线与给定点集的拟合程度最好,还会考虑模型最简单,这个话题我们将在本章后面的偏差、方差的权衡中深入的说,另外这个话题还可以参考我之前的一篇文章:贝叶斯、概率分布与机器学习,里面对模型复杂度的问题也进行了一些讨论。
线性回归(linear regression),并非是指的线性函数,也就是
(为了方便起见,以后向量我就不在上面加箭头了)
x0,x1…表示一个点不同的维度,比如说上一节中提到的,房子的价钱是由包括面积、房间的个数、房屋的朝向等等因素去决定的。
而是用广义的线性函数:
wj是系数,w就是这个系数组成的向量,它影响着不同维度的Φj(x)在回归函数中的影响度,比如说对于房屋的售价来说,房间朝向的w一定比房间面积的w更小。
Φ(x)是可以换成不同的函数,不一定要求Φ(x)=x,这样的模型我们认为是广义线性模型。
最小二乘法与最大似然:
这个话题在此处有一个很详细的讨论,我这里主要谈谈这个问题的理解。
最小二乘法是线性回归中一个最简单的方法,它的推导有一个假设,就是回归函数的估计值与真实值间的误差假
设是一个高斯分布。
这个用公式来表示是下面的样子:,y(x,w)就是给定了w系数向量下的回归函数的估计值,而t就是真实值了,ε表示误差。
我们可以接下来推出下面的式子:
这是一个简单的条件概率表达式,表示在给定了x,w,β的情况下,得到真实值t的概率,由于ε服从高斯分布,则从估计值到真实值间的概率也是高斯分布的,看起来像下面的样子:
贝叶斯、概率分布与机器学习这篇文章中对分布影响结果这个话题讨论比较多,可以回过头去看看,由于最小二乘法有这样一个假设,则会导致,如果我们给出的估计函数y(x,w)与真实值t不是高斯分布的,甚至是一个差距很大的分布,那么算出来的模型一定是不正确的,当给定一个新的点x’想要求出一个估计值y’,与真实值t’可能就非常的远了。
概率分布是一个可爱又可恨的东西,当我们能够准确的预知某些数据的分布时,那我们可以做出一个非常精确的模型去预测它,但是在大多数真实的应用场景中,数据的分布是不可知的,我们也很难去用一个分布、甚至多个分布的混合去表示数据的真实分布,比如说给定了1亿篇网页,希望用一个现有的分布(比如说混合高斯分布)去匹配里面词频的分布,是不可能的。
在这种情况下,我们只能得到词的出现概率,比如p(的)的概率是0.5,也就是一个网页有1/2的概率出现“的”。
如果一个算法,是对里面的分布进行了某些假设,那么可能这个算法在真实的应用中就会表现欠佳。
最小二乘法对于类似的一个复杂问题,就很无力了
偏差、方差的权衡(trade-off):
偏差(bias)和方差(variance)是统计学的概念,刚进公司的时候,看到每个人的嘴里随时蹦出这两个词,觉得很可怕。
首先得明确的,方差是多个模型间的比较,而非对一个模型而言的,对于单独的一个模型,比如说:
这样的一个给定了具体系数的估计函数,是不能说f(x)的方差是多少。
而偏差可以是单个数据集中的,也可以是多个数据集中的,这个得看具体的定义。
方差和偏差一般来说,是从同一个数据集中,用科学的采样方法得到几个不同的子数据集,用这些子数据集得到的模型,就可以谈他们的方差和偏差的情况了。
方差和偏差的变化一般是和模型的复杂程度成正比的,就像本文一开始那四张小图片一样,当我们一味的追求模型精确匹配,则可能会导致同一组数据训练出不同的模型,它们之间的差异非常大。
这就叫做方差,不过他们的偏差就很小了,如下图所示:
上图的蓝色和绿色的点是表示一个数据集中采样得到的不同的子数据集,我们有两个N次的曲线去拟合这些点集,则可以得到两条曲线(蓝色和深绿色),它们的差异就很大,但是他们本是由同一个数据集生成的,这个就是模型复杂造成的方差大。
模型越复杂,偏差就越小,而模型越简单,偏差就越大,方差和偏差是按下面的方式进行变化的:
当方差和偏差加起来最
优的点,就是我们最佳的模型复杂度。
用一个很通俗的例子来说,现在咱们国家一味的追求GDP,GDP就像是模型的偏差,国家希望现有的GDP和目标的GDP差异尽量的小,但是其中使用了很多复杂的手段,比如说倒卖土地、强拆等等,这个增加了模型的复杂度,也会使得偏差(居民的收入分配)变大,穷的人越穷(被赶出城市的人与进入城市买不起房的人),富的人越富(倒卖土地的人与卖房子的人)。
其实本来模型不需要这么复杂,能够让居民的收入分配与国家的发展取得一个平衡的模型是最好的模型。
最后还是用数学的语言来描述一下偏差和方差:
E(L)是损失函数,h(x)表示真实值的平均,第一部分是与y(模型的估计函数)有关的,这个部分是由于我们选择不同的估计函数(模型)带来的差异,而第二部分是与y无关的,这个部分可以认为是模型的固有噪声。
对于上面公式的第一部分,我们可以化成下面的形式:
这个部分在PRML的
1.5.5推导,前一半是表示偏差,而后一半表示方差,我们可以得出:损失函数=偏差^2+方差+固有噪音。
下图也来自PRML:
这是一个曲线拟合的问题,对同分布的不同的数据集进行了多次的曲线拟合,左边表示方差,右边表示偏差,绿色是真实值函数。
ln lambda表示模型的复杂程度,这个值越小,表示模型的复杂程度越高,在第一行,大家的复杂度都很低(每个人都很穷)的时候,方差是很小的,但是偏差同样很小(国家也很穷),但是到了最后一幅图,我们可以得到,每个人的复杂程度都很高的情况下,不同的函数就有着天壤之别了(贫富差异大),但是偏差就很小了(国家很富有)。