线性回归方程
- 格式:doc
- 大小:299.00 KB
- 文档页数:7
线性回归原理
线性回归是一种基本的回归分析方法,用于探索自变量与因变量之间的线性关系。
其原理是通过拟合一条(或多条)直线(或平面)来预测连续型的因变量。
具体而言,线性回归假设自变量和因变量之间存在一个线性关系,表示为一个线性方程:Y = α + βX + ε。
其中,Y代表因
变量,X代表自变量,α表示截距,β表示自变量的系数,ε表示误差项。
线性回归的目标就是找到合适的截距和系数来最小化误差项,从而使得预测值和观测值之间的差异最小。
通过最小二乘法可以求解出最佳的截距和系数。
最小二乘法的基本思想是通过计算预测值与实际观测值之间的差异的平方和,来评估拟合线性关系的质量,并通过调整截距和系数使得差异平方和最小化。
在进行线性回归之前,需要先满足以下假设条件:1. 自变量和因变量之间存在线性关系;2. 自变量和误差项之间不存在相关性;3. 误差项具有常数方差;4. 误差项服从正态分布。
线性回归可以应用于多个领域,例如经济学中的价格预测、市场需求分析,医学领域中的药物剂量选择等。
通过分析得到的截距和系数,可以解释自变量对于因变量的影响程度和方向。
需要注意的是,线性回归模型对数据集中的异常值和离群点较为敏感,当数据集中存在异常值时,需要进行数据处理或者考虑其他回归方法。
此外,线性回归模型也适用于有限的自变量
和因变量之间的关系。
如果存在非线性关系,可以考虑使用多项式回归或其他非线性回归模型进行建模。
高中数学线性回归方程线性回归方程公式详解
线性回归方程是一种用于拟合一组数据的最常见的数学模型,它可以用来预测一个因变量(例如销售额)和一个或多个自变量(例如广告费用)之间的关系。
下面是线性回归方程的公式详解:
假设有n个数据点,每个数据点包含一个因变量y和k个自变量x1,x2,...,xk。
线性回归方程可以表示为:
y = β0 + β1*x1 + β2*x2 + ... + βk*xk + ε
其中,β0, β1, β2, ..., βk是模型的系数,ε是误差项,用来表示实际数据和模型预测之间的差异。
系数β0表示当所有自变量均为0时的截距,而β1, β2, ..., βk 则表示每个自变量对因变量的影响。
当系数为正时,自变量增加时因变量也会增加;而当系数为负时,自变量增加时因变量会减少。
通常,我们使用最小二乘法来估计模型的系数。
最小二乘法就是通过最小化所有数据点与模型预测之间的距离来找到最优的系数。
具体来说,我们可以使用以下公式来计算系数:
β = (X'X)-1 X'y
其中,X是一个n×(k+1)的矩阵,第一列全为1,其余的列为自变量x1,x2,...,xk。
y是一个n×1的向量,每一行对应一个因
变量。
X'表示X的转置,-1表示X的逆矩阵,而β则是一个(k+1)×1的向量,包含所有系数。
当拟合出线性回归方程后,我们可以使用它来预测新的数据点的因变量。
具体来说,我们可以将自变量代入方程中,计算出相应的因变量值。
如果模型的系数是可靠的,我们可以相信这些预测结果是比较准确的。
线性回归方程公式线性回归是一种用于预测连续数值变量的统计方法。
它基于一个线性的数学模型,通过寻找最佳的拟合直线来描述自变量和因变量之间的关系。
线性回归方程公式为:Y=β0+β1X1+β2X2+...+βnXn+ε其中,Y是因变量,X1,X2,...,Xn是自变量,β0,β1,β2,...,βn是回归系数,ε是误差项。
回归系数表示自变量对因变量的影响程度。
线性回归的基本假设是:1.线性关系:自变量和因变量之间存在线性关系,即因变量的变化可以通过自变量的线性组合来解释。
2.残差独立同分布:误差项ε是独立同分布的,即误差项之间不存在相关性。
3.残差服从正态分布:误差项ε服从正态分布,即在每个自变量取值下,因变量的观测值呈正态分布。
4.残差方差齐性:在每个自变量取值下,因变量的观测值的方差是相等的。
线性回归的求解方法是最小二乘法,即通过最小化实际观测值与回归方程预测值之间的平方差来估计回归系数。
具体步骤如下:1.数据收集:收集自变量和因变量的观测数据。
2.模型设定:根据自变量和因变量之间的关系设定一个线性模型。
3.参数估计:通过最小化平方误差来估计回归系数。
4.模型检验:通过检验残差的随机性、正态性和方差齐性等假设来检验模型的合理性。
5.模型拟合:利用估计的回归系数对未知自变量的观测值进行预测。
6.模型评估:通过评估预测结果的准确性来评估模型的性能。
Y=β0+β1X1+β2X2+...+βnXn+ε其中,Y是因变量,X1,X2,...,Xn是自变量,β0,β1,β2,...,βn 是回归系数,ε是误差项。
多元线性回归方程可以更准确地描述自变量和因变量之间的关系。
除了最小二乘法,还有其他方法可以用来求解线性回归模型,如梯度下降法和最大似然估计法等。
这些方法可以在不同的情况下选择使用,以获得更好的回归模型。
线性回归是一种经典的预测分析方法,被广泛应用于各个领域,如经济学、金融学、社会科学、自然科学等。
通过建立合适的线性回归模型,可以帮助我们理解自变量和因变量之间的关系,并用于预测未来的趋势和变化。
线性回归方程公式线性回归是一种常见的统计学方法,用于建立一个预测目标变量与一个或多个自变量之间的线性关系模型。
它是一种广泛应用的回归方法,适用于各种领域,如经济学、金融学、社会学、生物学和工程学等。
线性回归模型可以表示为以下形式:Y = b0 + b1*X1 + b2*X2+ ... + bp*Xp,其中Y是目标变量,X1、X2、...、Xp是自变量,b0、b1、b2、...、bp是回归系数。
这个方程描述了目标变量Y与自变量X之间的线性关系,通过调整回归系数的值可以拟合数据并预测未知数据的值。
线性回归模型的目标是找到最佳拟合直线,使得预测值与实际观测值之间的误差最小化。
常用的误差衡量指标是残差平方和(RSS),也可以使用其他指标如平均绝对误差(MAE)和均方根误差(RMSE)。
线性回归模型的建立过程包括两个主要步骤:参数估计和模型评估。
参数估计是通过最小化误差来确定回归系数的值。
最常用的方法是最小二乘法,通过最小化残差平方和来估计回归系数。
模型评估是用来评估模型的拟合优度和预测能力,常用的指标包括决定系数(R^2)、调整决定系数(Adjusted R^2)和F统计量。
线性回归模型的假设包括线性关系、误差项的独立性、误差项的方差恒定以及误差项服从正态分布。
如果这些假设不成立,可能会导致模型的拟合效果不佳或不可靠的预测结果。
对于线性回归模型的建立,首先需要收集相关的数据,然后进行数据的处理和变量选择。
数据处理包括缺失值处理、异常值处理和变量转换等。
变量选择是通过统计方法或经验判断来选择对目标变量有影响的自变量。
常见的变量选择方法包括逐步回归、岭回归和lasso回归等。
在建立模型之后,需要对模型进行评估和验证。
评估模型的拟合优度是通过决定系数和F统计量来实现的,较高的决定系数和较小的F统计量表明模型的拟合效果较好。
验证模型的预测能力可以使用交叉验证等方法。
线性回归模型还有一些扩展形式,如多项式回归、加权回归和广义线性回归等。
线性回归——正规方程推导过程线性回归——正规方程推导过程我们知道线性回归中除了利用梯度下降算法来求最优解之外,还可以通过正规方程的形式来求解。
首先看到我们的线性回归模型:f(xi)=wTxif(x_i)=w^Tx_if(xi?)=wTxi?其中w=(w0w1.wn)w=begin{pmatrix}w_0w_1.w_nend{pmatrix}w=?w0?w1?. wn?,xi=(x0x1.xn)x_i=begin{pmatrix}x_0x_1.x_nend{pmatrix}xi?=?x0 x1.xn,m表示样本数,n是特征数。
然后我们的代价函数(这里使用均方误差):J(w)=∑i=1m(f(xi)?yi)2J(w)=sum_{i=1}^m(f(x_i)-y_i)^2J(w) =i=1∑m?(f(xi?)?yi?)2接着把我的代价函数写成向量的形式:J(w)=(Xw?y)T(Xw?y)J(w)=(Xw-y)^T(Xw-y)J(w)=(Xw?y)T(Xw?y) 其中X=(1x11x12?x1n1x21x22?x2n?1xm1xm2?xmn)X=begin{pmatrix}1 x_{11} x_{12} cdots x_{1n}1 x_{21} x_{22} cdots x_{2n}vdots vdots vdots ddots vdots1 x_{m1} x_{m2} cdots x_{mn}end{pmatrix}X=?11?1?x11?x21?xm1?x12?x22?xm2?x1n?x2n?xmn?最后我们对w进行求导,等于0,即求出最优解。
在求导之前,先补充一下线性代数中矩阵的知识:1.左分配率:A(B+C)=AB+ACA(B+C) = AB+ACA(B+C)=AB+AC;右分配率:(B+C)A=BA+CA(B+C)A = BA + CA(B+C)A=BA+CA2.转置和逆:(AT)?1=(A?1)T(A^T)^{-1}=(A^{-1})^T(AT)?1=(A?1)T,(AT)T=A(A^T)^T=A(AT)T=A3.矩阵转置的运算规律:(A+B)T=AT+BT(A+B)^T=A^T+B^T(A+B)T=AT+BT;(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT然后介绍一下常用的矩阵求导公式:1.δXTAXδX=(A+AT)Xfrac{delta X^TAX}{delta X}=(A+A^T)XδXδXTAX?=(A+AT)X2.δAXδX=ATfrac{delta AX}{delta X}=A^TδXδAX?=AT3.δXTAδX=Afrac{delta X^TA}{delta X}=AδXδXTA?=A然后我们来看一下求导的过程:1.展开原函数,利用上面的定理J(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw?wTXTy?yTXw+yT yJ(w)=(Xw-y)^T(Xw-y)=((Xw)^T-y^T)(Xw-y)=w^TX^TXw-w^TX^Ty-y^TXw+y^TyJ(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw?wTXTy?yT Xw+yTy2.求导,化简得,δJ(w)δw=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTXw?2XTy=0?XTXw=X Ty?w=(XXT)?1XTyfrac{delta J(w)}{delta w}=(X^TX+(X^TX)^T)w-X^Ty-(y^TX)^T=0implies2X^TXw-2X^Ty=0implies X^TXw=X^Tyimplies w=(XX^T)^{-1}X^TyδwδJ(w)?=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTX w?2XTy=0?XTXw=XTy?w=(XXT)?1XTy最后补充一下关于矩阵求导的一些知识,不懂可以查阅:矩阵求导、几种重要的矩阵及常用的矩阵求导公式这次接着一元线性回归继续介绍多元线性回归,同样还是参靠周志华老师的《机器学习》,把其中我一开始学习时花了较大精力弄通的推导环节详细叙述一下。
线性回归方程公式_数学公式线性回归方程公式线性回归方程公式:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)。
线性回归方程公式求法:第一:用所给样本求出两个相关变量的(算术)平均值:x_=(x1+x2+x3+...+xn)/ny_=(y1+y2+y3+...+yn)/n第二:分别计算分子和分母:(两个公式任选其一)分子=(x1y1+x2y2+x3y3+...+xnyn)-nx_Y_分母=(x1^2+x2^2+x3^2+...+xn^2)-n__x_^2第三:计算b:b=分子/分母用最小二乘法估计参数b,设服从正态分布,分别求对a、b的偏导数并令它们等于零。
其中,且为观测值的样本方差.线性方程称为关于的线性回归方程,称为回归系数,对应的直线称为回归直线.顺便指出,将来还需用到,其中为观测值的样本方差。
先求x,y的平均值X,Y再用公式代入求解:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)后把x,y的平均数X,Y代入a=Y-bX求出a并代入总的公式y=bx+a得到线性回归方程(X为xi的平均数,Y为yi的平均数)线性回归方程的应用线性回归方程是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。
这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。
线性回归有很多实际用途。
分为以下两大类:如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。
当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。
线性回归方程一、考点、热点回顾一、相关关系:1、⎩⎨⎧<=1||1||r r 不确定关系:相关关系确定关系:函数关系2、相关系数:∑∑∑===-⋅---=ni ini ini iiy y x x y y x x r 12121)()())((,其中:(1)⎩⎨⎧<>负相关正相关00r r ;(2)相关性很弱;相关性很强;3.0||75.0||<>r r3、散点图:初步判断两个变量的相关关系。
二、线性回归方程:1、回归方程:a x b yˆˆˆ+= 其中2121121)())((ˆxn x yx n yx x x y yx x bn i i ni ii n i i ni ii--=---=∑∑∑∑====,x b y aˆˆ-=(代入样本点的中心) 2、残差:(1)残差图:横坐标为样本编号,纵坐标为每个编号样本对应的残差。
(2)残差图呈带状分布在横轴附近,越窄模型拟合精度越高。
(3)残差平方和∑=-ni i iyy12)ˆ(越小,模型拟合精度越高。
3、相关指数:∑∑==---=n i ini i iy yyyR 12122)()ˆ(1(1)其中:∑=-ni i iyy12)ˆ(为残差平方和;∑=-ni i y y 12)(为总偏差平方和。
(2))1,0(2∈R ,越大模型拟合精度越高。
二、典型例题+拓展训练典型例题1:在一组样本数据),,,2)(,(),,(),,(212211不全相等n n n x x x n y x y x y x ≥的散点图中,若所有样本点),2,1)(,(n i y x i i =都在直线121+-=x y 上,则样本相关系数为( ) 21.21.1.1.--D C B A典型例题2:设某大学的女生体重)(kg y 与身高)(cm x 具有线性相关关系,根据一组样本数据)2,1)(,(n i y x i i =,用最小二乘法建立的回归方程为71.8585.0ˆ-=x y ,则不正确的是( )A.y 与x 具有正的线性相关关系;B.回归直线过样本点的中心),(y xC.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg扩展2.一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?典型例题3.为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.52211521()155110.8451000()i i i ii y y R yy ==-=-=-=-∑∑,221R =-521521()18010.821000()ii i ii yy y y ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.扩展1.下列说法正确的是( )(1)残差平方和越小,相关指数2R 越小,模型拟合效果越差; (2)残差平方和越大,相关指数2R 越大,模型拟合效果越好; (3)残差平方和越小,相关指数2R 越大,模型拟合效果越好; (4)残差平方和越大,相关指数2R 越小,模型拟合效果越差;A.(1)(2)B.(3)(4)C.(1)(4)D.(2)(3)扩展2.关于某设备的使用年限x (年)和所支出的维修费用y (万元)有下表所示的资料:若由资料知,y 对x 呈线性相关关系,求:(1)线性回归方程a x b yˆˆˆ+=中的回归系数b a ˆ,ˆ; (2)残差平方和与相关指数2R ,作出残差图,并对该回归模型的拟合精度作出适当判断; (3)使用年限为10年时,维修费用大约是多少?三、典型例题4.非线性回归模型:某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费和年销售量(i=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值。
sklearn - 线性回归(正规方程与梯度下降)一: 线性回归方程线性回归(英语:linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
这种函数是一个或多个称为回归系数的模型参数的线性组合。
只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。
这些模型被叫做线性模型。
最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。
不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。
像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X 和y的联合概率分布(多元分析领域)。
线性回归有很多实际用途。
分为以下两大类:如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。
当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y给定一个变量y和一些变量X1X1.,XpXp{displaystyleX_{1}}X_1.,{displaystyle X_{p}}X_pX1?X1?.,Xp?Xp?,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的,XjXj{displaystyle X_{j}}X_jXj?Xj?并识别出哪些XjXj{displaystyle X_{j}}X_jXj?Xj?的子集包含了关于y的冗余信息。
使用sklearn线性回归模型(jupyter)这里我们以波士顿的房价数据来进行使用分析(一): 导入sklearnimport numpy as np# 线性回归,拟合方程,求解系数, 一次幂# 线性方程:直来直去,不拐弯from sklearn.linear_model import LinearRegression# 导入数据集from sklearn import datasets# 导入数据分离的方法(获取数据后,一部分数据用来让回归模型学习,另一部分用来预测)from sklearn.model_selection import train_test_split(二): 获取波士顿房价数据# 获取的数据是numpy,ndarray类型data = datasets.load_boston()# 该数据内有完整的影响房价的因素和完整的房价信息,本次实验就是将数据分为两部分, 一部分用来训练模型,另一部分用来预测,最后将预测出来的数据和已有的完整信息进行对比,判断该模型是否适用于这组房价数据data # 查看data的数据结构data.feature_names # 查看影响房价的属性名# x是属性,特征,未知数X = data['data']X.shape # 运行结果是(506, 13), 506表示样本是506个, 每个样本采集了13个属性特征;13个属性,需要构建构建了13元一次方程# y是房价的估值y = data['target']# X, y = datasets.load_boston(True) 获取到X, y的值和以上的一样(三): 使用模型进行预测X_train, X_test, y_train, y_test = train_test_split(X, y) # 将数据进行分离(默认是3:1); train_test_split(X, y)函数会随机打乱顺序display(X_train.shape, X_test.shape) # (379, 13) ; (127, 13) # 声明算法linear = LinearRegression()# 训练模型linear.fit(X_train, y_train) # X_train, y_train是之前分离出来用来训练模型的数据y_ = linear.predict(X_test).round(1) # X_test是影响房价的因素,该预测模型能根据影响房价的因素预测剩余部分的房价# 预估数据和实际数据比较print(y_)print(y_test)经过估计数据和实际数据对比,说明算法模型适用于数据(四): 自建方程预测数据与使用线性模型得到的数据对比假设波士顿的房价数据符合线性回归的特性,则我们可以通过构建线性方程来预测波士顿剩余部分的房价信息根据一次线性回归方程: f(X)=Xw+bf(X) = Xw+bf(X)=Xw+b 可推导得出: f(X)=w1x1+W2x2+.+w13x13+b f(X) = w_1x_1+W_2x_2+.+w_{13}x_{13} +bf(X)=w1?x1?+W2?x2?+.+w13?x13?+b (有13个影响房价的因素)代码如下:# 通过训练模型,可从模型中得出系数ww_ = linear.coef_# 通过训练模型,可从模型中得出截距bb_ = linear.intercept_# 自建方程def fun(w_, b_, X):return np.dot(X, w_)+b_# 调用方程得到预估的房价信息fun(w_, b_, X_test).round(1) # round(1)保留一位小数array([31.3, 13.4, 28.6, 20.5, 20.4, 19.4, 32.2, 24. , 25.8, 29.5,24.5,25.2, 31.9, 8.2, 20.9, 29.3, 22.3, 35.2, 16.4, 18.5, 30.8, 41.1,16.2, 13.7, 17.7, 23.8, 7.8, 12. , 20.5, 15.3, 29.3, 26.8, 31.8,26. , 30.4, 39.2, 25.3, 40.7, 11.6, 27.3, 16.7, 18.8, 19.5, 19.9,20.7, 22.8, 17.4, 21.6, 23.3, 30. , 25.2, 23.7, 34.2, 18.2, 33.5,16. , 28.3, 14.1, 24.2, 16.2, 16.7, 23.5, 16. , 21.4, 21.8, 28.2,25.7, 31.2, 18.8, 26.4, 28.3, 21.9, 27.5, 27.1, 27.1, 15. , 26. ,26.3, 13.2, 13.3, 26.1, 20.5, 16.8, 24.3, 36.6, 21.4, 8.3, 27.8,3.6, 19.2, 27.5, 33.6, 28.4, 34.3, 28.2, 13.3, 18. , 23.5, 30.4,32.9, 23.7, 30.5, 19.8, 19.5, 18.7, 30.9, 36.3, 8. , 18.2, 13.9,15. , 26.4, 24. , 30.2, 20. , 5.6, 21.4, 22.9, 17.6, 32.8, 22.1,32.6, 20.9, 19.3, 23.1, 21. , 21.5])# 使用sklesrn中的线性模型得到的预估房价信息linear.predict(X_test).round(1)array([31.3, 13.4, 28.6, 20.5, 20.4, 19.4, 32.2, 24. , 25.8, 29.5,24.5,25.2, 31.9, 8.2, 20.9, 29.3, 22.3, 35.2, 16.4, 18.5, 30.8, 41.1,16.2, 13.7, 17.7, 23.8, 7.8, 12. , 20.5, 15.3, 29.3, 26.8, 31.8,26. , 30.4, 39.2, 25.3, 40.7, 11.6, 27.3, 16.7, 18.8, 19.5, 19.9,20.7, 22.8, 17.4, 21.6, 23.3, 30. , 25.2, 23.7, 34.2, 18.2, 33.5,16. , 28.3, 14.1, 24.2, 16.2, 16.7, 23.5, 16. , 21.4, 21.8, 28.2,25.7, 31.2, 18.8, 26.4, 28.3, 21.9, 27.5, 27.1, 27.1, 15. , 26. ,26.3, 13.2, 13.3, 26.1, 20.5, 16.8, 24.3, 36.6, 21.4, 8.3, 27.8,3.6, 19.2, 27.5, 33.6, 28.4, 34.3, 28.2, 13.3, 18. , 23.5, 30.4,32.9, 23.7, 30.5, 19.8, 19.5, 18.7, 30.9, 36.3, 8. , 18.2, 13.9,15. , 26.4, 24. , 30.2, 20. , 5.6, 21.4, 22.9, 17.6, 32.8, 22.1,32.6, 20.9, 19.3, 23.1, 21. , 21.5])通过自建模型获取预估数据与使用模型获取预估数据进行比较,两组数据完全一致;(五): 使用线性回归,求解斜率和截距根据最小二乘法: min?w∣∣Xw?y∣∣22min_{w}||Xw-y||_2^2wmin?∣∣Xw?y∣∣22? 推到得出公式: w=(XTX)?1XTyw = (X^TX)^{-1}X^Tyw=(XTX)?1XTy 以上公式只能求出w,我们可以先求出w再计算出b;但此处我们有更简单的方法:根据线性回归方程f(x)=w1x1+w2x2+b f(x) = w_1x_1+w_2x_2+bf(x)=w1?x1?+w2?x2?+b 我们可以将方程中的b看成是w3x30w_3x_3^0w3?x30?,所以可得: f(x)=w1x11+w2x21+w3x30f(x) = w_1x_1^1+w_2x_2^1+w_3x_3^0f(x)=w1?x11?+w2?x21?+w3?x30?代码如下:import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn import datasetsX, y = datasets.load_boston(True)linear = LinearRegression()linear.fit(X,y)w_ = linear.coef_b_ = linear.intercept_# 向X中插入一列全是1的数据(任何数的0次方都是1)X = np.concatenate([X, np.ones(shape = (506, 1))], axis=1) # 根据最小二乘法的推导公式:w和b的值为(最后一个值是b)w = ((np.linalg.inv(X.T.dot(X))).dot(X.T)).dot(y)# 以上w的写法过于装逼,所以分解为:# A = X.T.dot(X) 求X和转置后的X的内积(公式中的XTX)# B = np.linalg.inv(A) 求A的逆矩阵(公式中的-1次方)# C = B.dot(X.T) 求以上矩阵和X的转置矩阵的内积(公式中的XT) # w = C.dot(y) 与y求内积,得出w和b运行结果:array([-1.08011358e-01, 4.64204584e-02, 2.05586264e-02, 2.68673382e+00,-1.77666112e+01, 3.80986521e+00, 6.92224640e-04, -1.47556685e+00,3.06049479e-01, -1.23345939e-02, -9.52747232e-01,9.31168327e-03,-5.24758378e-01, 3.64594884e+01])print(b_)运行结果:36.45948838509001扩展一: 最小二乘法和向量范数min?w∣∣Xw?y∣∣22min_{w}||Xw-y||_2^2wmi n?∣∣Xw?y∣∣22?右上角的2是平方右下角的2是向量2范数竖线内的表达式是向量根据最小二乘法的公式, 推导得出w=(XTX)?1XTyw = (X^TX)^{-1}X^Tyw=(XTX)?1XTy向量的1-范数(表示各个元素的绝对值的和)∣∣X∣∣1=∑i=1n∣xi∣||X||_1 = sumlimits_{i=1}^n |x_i|∣∣X∣∣1?=i=1∑n?∣xi?∣向量的2-范数(表示每个元素的平方和再开平方)∣∣X∣∣2=∑i=1nxi2||X||_2 = sqrt{suml imits_{i=1}^n x_i^2}∣∣X∣∣2?=i=1∑n?xi2?向量的无穷范数(所有向量元素绝对值中的最大值)∣∣X∣∣∞=max?1≥i≤n∣Xi∣||X||_{infty} = maxlimits_{1 geq i leq n}|X_i|∣∣X∣∣∞?=1≥i≤nmax?∣Xi?∣扩展二: 导数, 偏导数对函数f(x)=x2+3x+8f(x) = x^2+3x+8f(x)=x2+3x+8 求导得: f(x)′=2x+3f(x)' = 2x+3f(x)′=2x+3求导规则:参数求导为0参数乘变量求导为常数变量的次方求导: xyx^yxy求导为yxy?1yx^{y-1}yxy?1复合函数求导:$$(x^2-x)^2$$求导: 先将括号看成一个整体求导, 结果再乘以括号内的求导结果$$2(x^2-x)(2x-1)$$有多个变量得函数求导:对函数: f(x,y)=x2+xy+y2f(x, y) = x^2+xy+y^2f(x,y)=x2+xy+y2 求导:求导规则: 多变量函数只能针对某一个变量求导,此时将其他变量看成常数将x看成常数a: fa(y)=a2+ay+y2f_a(y) = a^2+ay+y^2fa?(y)=a2+ay+y2求导得:fa′(y)=a+2yf_a'(y) = a+2yfa′?(y)=a+2y故求导得: ?f?y(x,y)=x+2yfrac{partial f}{partial y}(x,y)=x+2y?y?f?(x,y)=x+2y实现线性回归的两种方式:正规方程梯度下降二: 正规方程(一): 损失函数最小二乘法:min?w∣∣Xw?y∣∣22minlimits_{w}||Xw-y||_2^2wmin?∣∣Xw?y∣∣22?当X和y都是常数时,按照向量2范数将上面的最小二乘法解开:f(w)=(Xw?y)2f(w)=(Xw-y)^2f(w)=(Xw?y)2将X,y替换成常数a,bf(w)=(aw?b)2f(w)=(aw-b)^2f(w)=(aw?b)2f(w)=a2w2?2abw+b2f(w)=a^2w^2 - 2abw + b^2f(w)=a2w2?2abw+b2 由于最小二乘法方程的函数值都是大雨或等于0的,所以此时得到一个开口向上的抛物线(一元二次方程)此时的f(w)f(w)f(w)就是损失函数,在此时求该函数的导数(抛物线函数顶点的导数为0)就能得到该函数的最小值,也就是最小损失f′(w)=2a2w?2ab=0f'(w)=2a^2w-2ab=0f′(w)=2a2w?2ab=0(二): 矩阵常用求导公式X的转置矩阵对X矩阵求导, 求解出来是单位矩阵dXTdX=Ifrac{dX^T}{dX} = IdXdXT?=IdXdXT=Ifrac{dX}{dX^T} = IdXTdX?=IX的转置矩阵和一个常数矩阵相乘再对X矩阵求导, 求解出来就是改常数矩阵dXTAdX=Afrac{dX^TA}{dX} = AdXdXTA?=AdAXdX=ATfrac{dAX}{dX} = A^TdXdAX?=ATdXAdX=ATfrac{dXA}{dX} = A^TdXdXA?=ATdAXdXT=Afrac{dAX}{dX^T} = AdXTdAX?=A(三): 正规方程矩阵推导过程此时X,w,y都是矩阵1: 公式化简1: 最小二乘法:f(w)=∣∣Xw?y∣∣22f(w) = ||Xw-y||_2^2f(w)=∣∣Xw?y∣∣22?2: 向量2范数:∣∣X∣∣2=∑i=1nxi2||X||_2 = sqrt{sumlimits_{i = 1}^nx_i^2}∣∣X∣∣2?=i=1∑n?xi2?3: 将向量2范数的公式带入到最小二乘法中得:f(w)=((Xw?y)2)2f(w)=(sqrt{(Xw-y)^2})^2f(w)=((Xw?y)2?)2f(w)=(Xw?y)2f(w)=(Xw-y)^2f(w)=(Xw?y)2由于X, w, y都是矩阵, 运算后还是矩阵; 矩阵得乘法是一个矩阵得行和另一个矩阵得列相乘; 所以矩阵的平方就是该矩阵乘以他本身的转置矩阵f(w)=(Xw?y)T(Xw?y)f(w)=(Xw-y)^T(Xw-y)f(w)=(Xw?y)T(Xw?y)注意: 整体转置变成每个元素都转置时,若是有乘法, 则相乘的两个矩阵要交换位置; 如下所示!f(w)=(wTXT?yT)(Xw?y)f(w)=(w^TX^T-y^T)(Xw-y)f(w)=(wTXT?yT)(Xw y)f(w)=wTXTXw?wTXTy?yTXw+yTyf(w)=w^TX^TXw-w^TX^Ty-y^TXw+y^Tyf( w)=wTXTXw?wTXTy?yTXw+yTy注意: 若想交换两个相乘的矩阵在算式中的位置,则交换之后双方都需要转置一次; 如下所示!f(w)=wTXTXw?(XTy)T(wT)T?yTXw+yTyf(w)=w^TX^TXw-(X^Ty)^T(w^T)^ T-y^TXw+y^Tyf(w)=wTXTXw?(XTy)T(wT)T?yTXw+yTyf(w)=wTXTXw?yTXw?yTXw+yTyf(w)=w^TX^TXw-y^TXw-y^TXw+y^Tyf(w)= wTXTXw?yTXw?yTXw+yTyf(w)=wTXTXw?2yTXw+yTyf(w) = w^TX^TXw - 2y^TXw + y^Ty f(w)=wTXTXw?2yTXw+yTyf(w)=wTXTXw?2yTXw+yTyf(w) = w^TX^TXw - 2y^TXw + y^Ty f(w)=wTXTXw?2yTXw+yTy这里 yTyy^TyyTy 是常数求导后为02yTXw2y^TXw2yTXw 求导:d(2yTX)wdw=(2yTX)T=2XT(yT)T=2XTyfrac{d(2y^TX)w}{dw}=(2y^TX)^ T=2X^T(y^T)^T=2X^Tydwd(2yTX)w?=(2yTX)T=2XT(yT)T=2XTy wTXTXww^TX^TXwwTXTXw求导:dwTXTXwdw=d(wTXTX)wdw+dwT(XTXw)dw=(wTXTX)T+XTXw=XT(XT)T(wT)T +XTXw=2XTXwfrac{dw^TX^TXw}{dw}=frac{d(w^TX^TX)w}{dw}+frac{dw^T(X^TXw)}{dw}=(w^TX^TX)^T+X^TXw=X^T(X^T)^T(w^T)^T+X^TXw=2X^TXwdwd wTXTXw?=dwd(wTXTX)w?+dwdwT(XTXw)?=(wTXTX)T+XTXw=XT(XT)T(wT)T+XT Xw=2XTXwf′(w)=2XTXw?2XTyf'(w) = 2X^TXw - 2X^Tyf′(w)=2XTXw?2XTy令f′(w)=0f'(w)=0f′(w)=0,则:2XTXw?2XTy=02X^TXw - 2X^Ty = 02XTXw?2XTy=0XTXw=XTyX^TXw=X^TyXTXw=XTy矩阵运算没有除法,可以用逆矩阵实现除法的效果等式两边同时乘以XTXX^TXXTX的逆矩阵(XTX)?1(X^TX)^{-1}(XTX)?1 (XTX)?1(XTX)w=(XTX)?1XTy(X^TX)^{-1}(X^TX)w=(X^TX)^{-1}X^Ty(X TX)?1(XTX)w=(XTX)?1XTyIw=(XTX)?1XTyIw=(X^TX)^{-1}X^TyIw=(XTX)?1XTy I是单位矩阵得到正规方程:w=(XTX)?1XTyw=(X^TX)^{-1}X^Tyw=(XTX)?1XTy(四): 数据挖掘实例(预测2020年淘宝双十一交易额)import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionX = np.arange(2009, 2020) # 年份X = X -2008 # 年份数值太大,差别不明显y = np.array([0.5, 9.36, 52, 191, 350, 571, 912, 1207, 1682, 2135, 2684]) # 09年到19年的交易额假设X和y之间是一元三次的关系(按照前几年的数据走势提出的假设)f(x)=w1x+w2x2+w3x3+bf(x)=w_1x+w_2x^2+w_3x^3+bf(x)=w1?x+w2?x2 +w3?x3+bf(x)=w0x0+w1x1+w2x2+w3x3f(x)=w_0x^0+w_1x^1+w_2x^2+w_3x^3f(x) =w0?x0+w1?x1+w2?x2+w3?x3# X_oo = np.concatenate([a,a]) # 横着级联X_train = np.c_[X**0, X**1, X**2, X**3] # 竖着级联array([[ 1, 1, 1, 1],[ 1, 2, 4, 8],[ 1, 3, 9, 27],[ 1, 4, 16, 64],[ 1, 5, 25, 125],[ 1, 6, 36, 216],[ 1, 7, 49, 343],[ 1, 8, 64, 512],[ 1, 9, 81, 729],[ 1, 10, 100, 1000],[ 1, 11, 121, 1331]], dtype=int32)linear = LinearRegression(fit_intercept=False) # 声明算法; fit_intercept=False将截距设置为0, w0就是截距linear.fit(X_train, y) # 训练w_ = linear.coef_print(linear.coef_.round(2)) # 获取系数print(linear.intercept_) # 获取截距[ 58.77 -84.06 27.95 0.13]可以得到方程:f(x)=58.77?84.06x+27.95x2+0.13x3f(x)=58.77-84.06x+27.95x^2+0 .13x^3f(x)=58.77?84.06x+27.95x2+0.13x3X_test = np.linspace(0,12,126) # 线性分割(将0,12之间分成126分)等差数列包含1和12X_test = np.c_[X_test**0, X_test**1, X_test**2, X_test**3] # 和训练数据保持一致y_ = linear.predict(X_test) # 使用模型预测plt.plot(np.linspace(0,12,126), y_, color='g') # 绘制预测方程曲线plt.scatter(np.arange(1,12), y, color='red') # 绘制每年的真实销量# 定义函数fun = lambda x : w_[0] + w_[1]*x + w_[2]*x**2 + w_[-1]*x**3 '''3294.2775757576132'''三: 梯度下降梯度下降法的基本思想可以类比为一个下山的过程。
回归线性方程公式
回归线性方程是统计学中反映数据之间关系的重要统计模型,它
具有表达力强,数值运算简单的特性。
它是利用建立数据之间关系的
拟合性模型,以数学的方式描述一个数量和另一个数据之间的联系,
从而找到一个具有可预测作用的测量模型。
线性回归方程可以用一个
函数来描述离散点或一组数据点之间的联系,通过线性拟合法来确定
线性回归方程。
回归线性方程的一般形式为:y = ax + b,其中ax+b是系数,y
是自变量(x)的应变量,a是斜率,b是常数项。
基于已有的观测值
来求解系数时,需要使用最小二乘法来解决,系数的最优解为使得误
差平方和最小的可行解。
例如,已知一组观测数据的x和y的坐标,
假设存在一个未知的函数,其输入是x,输出是y,则经过多次观测,
可以找到该函数的表达式为y=ax+b,其中a与b是待求参数。
回归线性方程不仅可以用于反映数据之间的相关性,还可以运用
在统计学中,用来分析两个变量之间的关系,并进行预测。
回归线性
方程是统计学家根据已有数据提出一种对数据进行统计推断的先进方式。
它不但提供了一个简单易用的方法来把数据和理论结合,而且也
可以智能地逃避直接的、实证的假设。
回归线性方程是统计学的重要工具,它利用模型来表达数据之间
的关系,从而帮助提高对现实情况的预测能力。
它是一种强大、易用
的统计分析方式,能够有效地帮助人们分析数据,并作出正确地预测,以更好地利用数据资源。
变量间的相关关系与线性回归方程训练一、选择题1.以下关于相关关系的说法正确的个数是( )①相关关系是函数关系;②函数关系是相关关系;③线性相关关系是一次函数关系;④相关关系有两种,分别是线性相关关系和非线性相关关系.A.0 B.1 C.2 D.32.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.农作物产量与施肥量的关系C.吸烟与健康的关系D.数学成绩与物理成绩的关系3.对于给定的两个变量的统计数据,下列说法正确的是( )A.都可以分析出两个变量的关系B.都可以用一条直线近似地表示两者的关系C.都可以作出散点图D.都可以用确定的表达式表示两者的关系4.列两个变量之间的关系具有相关关系的是( )A.家庭的支出与收入B.某家庭用电量与水价间的关系C.单位圆中角的度数与其所对孤长D.正方形的周长与其边长5.下列关系中,是相关关系的有( )①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭经济条件与学生学习成绩之间的关系.A.①②B.①③C.②③D.②④6.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为( )A.-1 B.0 C.12D.17.右图是变量x,y的散点图,那么如图所示的两个变量具有相关关系的是( )A.(2) (3) B.(1) (2)C.(2) (4) D.(3) (4)8.在对两个变量x,y进行线性回归分析时一般有下列步骤:①对所求的回归方程作出解释;②收集数据(x i,y i)(i=1,2,…,n);③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图,如果根据可靠性要求能够判定变量x,y具有线性相关性,则下列操作顺序正确的是( )A.①②⑤③④B.③②④⑤①C.②④③①⑤D.②⑤④③①9.对变量有观测数据理力争得散点图1;对变量有观测数据,得散点图由这两个散点图可以判断()A. 变量与正相关,与正相关方B. 变量与正相关,与负相关C. 变量与负相关,与正相关D. 变量与负相关,与负相关10.设有一个直线回归方程为,则变量增加一个单位时( )A.平均增加个单位B.平均增加2 个单位C.平均减少个单位D.平均减少2 个单位11.甲、乙、丙、丁四位同学各自对、两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表。
则哪位同学的试验结果体现、两变量更强的线性相关性()甲103乙106丙124丁115A.甲B.乙C.丙D.丁12.变量与具有线性相关关系,当取值16,14,12,8时,通过观测得到的值分别为11,9,8,5,若在实际问题中,的预报最大取值是10,则的最大取值不能超过()A.12 B.15 C.16 D.17二、填空题13.有下列关系:①人的年龄与其拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一树木,其横截面直径与高度之间的关系;⑤学生与其学号之间的关系.⑥学生与其学校之间的关系.其中具有相关关系的是________.14.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如右边的对照表.由表中数据,得回归直线方程y^=b^x+a^,若b^=-2,则a^=_____________.15.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到的回归直线方程y^=bx+a,那么下面说法不正确的是________.①直线y^=bx+a必经过点(x,y);②直线y^=bx+a至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点;③直线y^=bx+a的斜率为Σni=1x i y i-nx yΣni=1x2i-nx2;④直线y^=bx+a与各点(x1,y1),(x2,y2),…,(x n,y n)的总偏差Σni=1[y i-(bx i+a)]2是该坐标平面上所有直线与这些点的偏差中最小的直线.16.某车间生产一种玩具,为了要确定加工玩具所需要的时间,进行了10次实验,数据如下,若回归方程的斜率是b ,则它的截距是__________.三、解答题17.某医院用光电比色计检查尿汞时,得尿汞含量(毫克/升)与消光系数如下表: (1)作散点图;(2)如果y 与x 之间具有线性相关关系, 求回归线直线方程;(3)估计尿汞含量为9毫克/升时消光系数.18.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为______cm .19.从某地成年男子中随机抽取n 个人,测得平均身高为x =172 cm ,标准差为s x =7.6 cm ,平均体重y =72 kg ,标准差s y =15.2 kg ,相关系数r =l xyl xx l yy=,求由身高估计平均体重的回归方程y =β0+β1x ,以及由体重估计平均身高的回归方程x =a +by . 20.某运动员训练次数与运动成绩之间的数据关系如下:(1)(2)求出回归方程;(3)计算相关系数并进行相关性检验;(4)试预测该运动员训练47次及55次的成绩.变量间的相关关系与线性回归方程参考答案一、选择题1. B 解析:根据相关关系的概念可知,只有④正确,故选B.2. C3. C 解析:给出一组样本数据,总可以作出相应散点图,但不一定分析出两个变量的关系,更不一定符合线性相关或有函数关系.解析:C、D均为函数关系,B用电量与水价间不具有函数关系,也不具有相关关系.解析:根据变量相关关系的定义,可知学生学习态度与学习成绩之间是相关关系.教师执教水平与学生学习成绩之间是相关关系.而身高与学习成绩、家庭经济条件与学习成绩之间不是相关关系,也不是函数关系.关,则相关系数达到最大值1.故选D.解析:(1)不具有相关关系;(2)具有线性相关关系;(3)是函数表示;(4)是非线性相关关系.解析:根据线性回归分析的思想,可以对两个变量x,y进行线性回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求相关系数和线性回归方程,最后对所求的回复方程作出解释,因此选D.解析:回归方程中当自变量增加1时,函数值增加的量是x的系数,本题系数为,所以较少线性相关性的密切性主要看这r值,r值越接近1则两相关量之间越密切,现在甲同学所得试验数据的r值最接近1,所以反映这两变量A与B的相关性最强.数据m,反映了根据这些试验数据所得回归公式计算结果与估计真值的偏差大小,所以其值越小,说明所用回归公式越好.综合以上两个方面,甲同学试验数据反映了两变量A与B的相关性最强.解析:先求出回归方程,然后代入x进行计算, x二、填空题13.①③④.相关关系是一种不确定的关系,是非随机变量与随机变量之间的关系,(5)是两个非随机变量之间的关系.14.a^=60.解析:x-=18+13+10-14=10,y-=24+34+38+644=40,40=-2×10+a^,∴a^=60.15.② 解析:回归直线一定过点(x ,y),但不一定要过样本点.16.22-11b .解析:∵a=y --b x -,而由表中数据可求得x -=11,y -=22,∴a =22-11b. 三、解答题17.某医院用光电比色计检查尿汞时,得尿汞含量(毫克/升)与消光系数如下表:(1)作散点图;(2)如果y 与x 之间具有线性相关关系, 求回归线直线方程;(3)估计尿汞含量为9毫克/升时消光系数. 解析:(1)见右图.(2)由散点图可知y 与x 线性相关.设回归 直线方程y^=bx +a ,列表: ∴b=7 790-5×6×220-5×62=1 47840=.∴a =-×6=-. ∴回归方程为y^=-.(3)当x =9时,y^=×9-=≈321.即估计原汞含量为9毫克/升时消光系数约为18. 185cm.解析:儿子和父亲的身高列表如下:设回归直线方程y ^=a +bx ,由表中的三组数据可求得 b =1,故a =y -bx =176-173=3,故回归直线方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm. 19.解 ∵sx=lxy n ,sy =lxyn ,∴lxyn=r lxy n ·lyyn=××=.∴β1=lxynlxyn=错误!=1,β0=错误!-β1错误!=72-1×172=-100.故由身高估计平均体重的回归方程为y =x -100.由x ,y 位置的对称性,得b =lxynlxy n=错误!=, ∴a=x -b y =172-×72=154. 故由体重估计平均身高的回归方程为x =+154.20.解 (1)作出该运动员训练次数x 与成绩y 之间的散点图,如右图所示,由散点图可知,它们之间具有线性相关关系. (2)列表计算:由上表可求得x =,y =,∑8i =1x2i =12 656,∑8i =1y2i =13 731, ∑8i =1xiyi =13 180,∴b=∑8i =1xiyi -8x y ∑8i =1x2i -8x 2≈ 5,a =y -b x =- 88, ∴线性回归方程为y = 5x - 88.(3)计算相关系数r = 7,因此运动员的成绩和训练次数 两个变量有较强的相关关系.(4)由上述分析可知,我们可用线性回归方程 y = 5x - 88作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y =49和y =57. 故预测该运动员训练47次和55次的成绩分别为49和57.。