回归分析线性回归Logistic回归对数线性模型共66页文档
- 格式:ppt
- 大小:8.00 MB
- 文档页数:66
七种回归分析方法个个经典什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析是建模和分析数据的重要工具。
在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。
我会在接下来的部分详细解释这一点。
我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的关系。
下面,让我们举一个简单的例子来理解它:比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。
现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。
那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处良多。
具体如下:1.它表明自变量和因变量之间的显著关系;2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。
我们有多少种回归技术?有各种各样的回归技术用于预测。
这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
我们将在下面的部分详细讨论它们。
对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。
但在你开始之前,先了解如下最常用的回归方法:1.Linear Regression线性回归它是最为人熟知的建模技术之一。
线性回归通常是人们在学习预测模型时首选的技术之一。
在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
logistic回归和线性回归1.输出:线性回归输出是连续的、具体的值(如具体房价123万元)回归逻辑回归的输出是0~1之间的概率,但可以把它理解成回答“是”或者“否”(即离散的⼆分类)的问题分类2.假设函数线性回归:θ数量与x的维度相同。
x是向量,表⽰⼀条训练数据逻辑回归:增加了sigmoid函数逻辑斯蒂回归是针对线性可分问题的⼀种易于实现⽽且性能优异的分类模型,是使⽤最为⼴泛的分类模型之⼀。
sigmoid函数来由假设某件事发⽣的概率为p,那么这件事不发⽣的概率为(1-p),我们称p/(1-p)为这件事情发⽣的⼏率。
取这件事情发⽣⼏率的对数,定义为logit(p),所以logit(p)为因为logit函数的输⼊取值范围为[0,1](因为p为某件事情发⽣的概率),所以通过logit函数可以将输⼊区间为[0,1]转换到整个实数范围内的输出,log函数图像如下将对数⼏率记为输⼊特征值的线性表达式如下:其中,p(y=1|x)为,当输⼊为x时,它被分为1类的概率为hθ(x),也属于1类别的条件概率。
⽽实际上我们需要的是给定⼀个样本的特征输⼊x,⽽输出是⼀个该样本属于某类别的概率。
所以,我们取logit函数的反函数,也被称为logistic函数也就是sigmoid函数ϕ(z)中的z为样本特征与权重的线性组合(即前⾯的ΘT x)。
通过函数图像可以发现sigmoid函数的⼏个特点,当z趋于正⽆穷⼤的时候,ϕ(z)趋近于1,因为当z趋于⽆穷⼤的时候,e^(-z)趋于零,所以分母会趋于1,当z趋于负⽆穷⼤的时候,e^(-z)会趋于正⽆穷⼤,所以ϕ(z)会趋于0。
如在预测天⽓的时候,我们需要预测出明天属于晴天和⾬天的概率,已知根天⽓相关的特征和权重,定义y=1为晴天,y=-1为⾬天,根据天⽓的相关特征和权重可以获得z,然后再通过sigmoid函数可以获取到明天属于晴天的概率ϕ(z)=P(y=1|x),如果属于晴天的概率为80%,属于⾬天的概率为20%,那么当ϕ(z)>=0.8时,就属于⾬天,⼩于0.8时就属于晴天。
【最新整理,下载后即可编辑】Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是Logit 变换被提出来:pp p Logit -=1ln)( (1)其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( (2)模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln (3)显然p y E =)(,故上述模型表明)(1)(lny E y E -是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
Logistic 回归模型一、 分组数据的Logistic 回归模型针对0-1型因变量产生的问题,我们对回归模型应该作两个方面的改进。
第一, 回归函数应该用限制在[0,1]区间内的连续曲线,而不能再沿用沿用直线回归方程。
限制在[0,1]区间内的连续曲线很多,例如所有连续变量的分布函数都符合要求,我们常用的是Logistic 函数与正如分布函数,Logistic 函数的形式为:()1xxe f x e =+Logistic 函数的中文名称逻辑斯蒂函数,简称逻辑函数 第二、因变量y 本身只取0、1两个离散值,不适合直接作为回归模型中的因变量,由于回归函数01()i i i E y x πββ==+表示在自变量为i x 的条件下i y 的平均值,而i y 是0-1型随机变量,因而()i i E y π=就是在自变量为i x 的条件下i y 等于1的比例.这就提示我们可以用i y 等于1的比例代替i y 本身作为因变量.二,例子 在一次住房展销会上,与房地产商签订初步购房意向书的共有325n =名顾客,在随后的3个月的时间内,只有一部分顾客确实购买了房屋.购买了房屋的顾客记为1,没有购买房屋的顾客记为0,以顾客的年家庭收入为自变量x,对下面表所示的数据,序号年家庭收入(万元)x 签订意向书人数n 实际购房人数m 实际购房比例p逻辑变换p′=ln(p/(1-p))权重w=np(1-p)1 1.52580.32-0.7537718 5.442 2.532130.40625-0.37948967.718753 3.558260.448276-0.207639414.344834 4.552220.423077-0.310154912.692315 5.543200.465116-0.139761910.697676 6.539220.5641030.257829119.58974477.528160.5714290.287682076.85714388.521120.5714290.287682075.14285799.515100.6666670.693147183.333333建立Logistic 回归模型:c i x x p i i i,,2,1,)exp(1)exp(1010 =+++=ββββ,其中,c 为分组数据的组数,本例中c=9.将以上回归方程作线性变换,令)1ln(iii p p p -=' 该变换称为逻辑变换,变换后的线性回归模型为 i i i x p εββ++='10该式是一个普通的一元线性回归模型。