第九讲 Modeler分类预测:logistic回归.
- 格式:ppt
- 大小:696.00 KB
- 文档页数:30
数据挖掘matlab神经网络的matlab gui实现数据挖掘是通过自动或半自动化的工具对大量的数据进行探索和分析的过程回归逻辑回归分类:机器学习2014-07-16 15:42 21514人阅读评论(4) 收藏举报逻辑回归什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。
正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同。
•如果是连续的,就是多重线性回归;•如果是二项分布,就是Logistic回归;•如果是Poisson分布,就是Poisson回归;•如果是负二项分布,就是负二项回归。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。
所以实际中最常用的就是二分类的Logistic回归。
Logistic回归的主要用途:•寻找危险因素:寻找某一疾病的危险因素等;•预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;•判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
Logistic回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。
这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。
自变量既可以是连续的,也可以是分类的。
常规步骤Regression问题的常规步骤为:1. 寻找h函数(即hypothesis);2. 构造J函数(损失函数);3. 想办法使得J函数最小并求得回归参数(θ)构造预测函数hLogistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:Sigmoid 函数在有个很漂亮的“S”形,如下图所示(引自维基百科):下面左图是一个线性的决策边界,右图是非线性的决策边界。
Logistic回归一、Logistic回归简介1.1概述Logistic回归是一种概率型非线性回归模型,与线性回归模型不同,其响应变量(Response Variable),即因变量是一分类变量(Categorical Variable)而非连续变量(Continuous Variable)。
例如,研究客户是否会购买某种产品(即买抑或不买),或者研究客户交易是否存在欺诈(即欺诈交易抑或非欺诈交易),或者研究客户是否会成为某种产品的潜在用户等等。
由于现实中存在大量类似的问题,Logistic回归被广泛运用以解决所谓的分类预测问题(Classification)。
然而,logistic回归的因变量可以是二分类的,也可以是多分类的,但是实际中最为常用的就是二分类的logistic回归,因此本文只研究二分类logistic回归。
1.2 Logistic回归的主要用途一是寻找->对因变量影响较大的自变量;(如患某疾病中的危险因素)二是预测->如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,因变量发生(如购买某种产品)的概率有多大。
三是判别->实际上跟预测有些类似,也是根据logistic模型,判断(某人购买产品)的概率有多大,综合自变量考虑;1.3 Logistic回归模型与一般线性回归模型的区别:●线性回归模型的结果变量(outcome variable)或因变量(dependent variable)或响应变量(response variable)与自变量之间的关系是线性的,而Logistic 回归中因变量与自变量之间关系是非线性的,但可以通过Logit函数转换成线性关系。
●在线性回归中通常假设,对应自变量X 的某个值,因变量Y 的观测值具有正态分布,但是在logistic 回归中,因变量Y 却是二项发布(0和1)或多项分布。
●在logistic 回归中,不存在线性回归中有的残差项。
回归模型1 回归模型的根本知识 模型简介主要应用在研究某些现象发生的概率p ,比方股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是变换被提出来:〔1〕其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( 〔2〕模型(2)的根本要求是,因变量〔y 〕是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln 〔3〕显然p y E =)(,故上述模型说明是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为线性回归。
线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
不同于多元线性回归的最小二乘估计法那么(残差平方和最小),变换的非线性特征采用极大似然估计的方法寻求最正确的回归系数。
因此评价模型的拟合度的标准变为似然值而非离差平方和。
logistic回归法Logistic回归法是一种常用的分类算法,广泛应用于各个领域。
它通过构建一个逻辑回归模型来预测某个事件发生的概率。
本文将介绍Logistic回归法的原理、应用场景以及优缺点。
一、Logistic回归法的原理Logistic回归法是基于线性回归的一种分类算法,它使用sigmoid 函数将线性回归的结果映射到[0,1]之间。
sigmoid函数的公式为:$$f(x) = \frac{1}{1+e^{-x}}$$其中,x为线性回归的结果。
通过这个映射,我们可以将线性回归的结果解释为某个事件发生的概率。
二、Logistic回归法的应用场景Logistic回归法常用于二分类问题,如预测某个疾病的发生与否、判断邮件是否为垃圾邮件等。
它也可以通过一些改进来应用于多分类问题。
在实际应用中,Logistic回归法非常灵活,可以根据需要选择不同的特征和参数,以达到更好的分类效果。
同时,它对特征的要求相对较低,可以处理连续型和离散型的特征,也可以处理缺失值。
三、Logistic回归法的优缺点1. 优点:- 计算简单、效率高:Logistic回归法的计算量相对较小,算法迭代速度快,适用于大规模数据集。
- 解释性强:Logistic回归模型可以得到各个特征的权重,从而可以解释每个特征对结果的影响程度。
- 可以处理离散型和连续型特征:Logistic回归法不对特征的分布做出假设,可以处理各种类型的特征。
- 可以处理缺失值:Logistic回归法可以通过插补等方法处理缺失值,不需要将含有缺失值的样本剔除。
2. 缺点:- 容易出现欠拟合或过拟合:当特征过多或特征与目标变量之间存在非线性关系时,Logistic回归模型容易出现欠拟合或过拟合问题。
- 对异常值敏感:Logistic回归模型对异常值比较敏感,可能会对模型造成较大的干扰。
- 线性关系假设:Logistic回归模型假设特征与目标变量之间的关系是线性的,如果实际情况并非线性关系,模型的预测效果可能较差。