第九讲 Modeler分类预测:logistic回归.
- 格式:ppt
- 大小:696.00 KB
- 文档页数:30
数据挖掘matlab神经网络的matlab gui实现数据挖掘是通过自动或半自动化的工具对大量的数据进行探索和分析的过程回归逻辑回归分类:机器学习2014-07-16 15:42 21514人阅读评论(4) 收藏举报逻辑回归什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。
正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同。
•如果是连续的,就是多重线性回归;•如果是二项分布,就是Logistic回归;•如果是Poisson分布,就是Poisson回归;•如果是负二项分布,就是负二项回归。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。
所以实际中最常用的就是二分类的Logistic回归。
Logistic回归的主要用途:•寻找危险因素:寻找某一疾病的危险因素等;•预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;•判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
Logistic回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。
这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。
自变量既可以是连续的,也可以是分类的。
常规步骤Regression问题的常规步骤为:1. 寻找h函数(即hypothesis);2. 构造J函数(损失函数);3. 想办法使得J函数最小并求得回归参数(θ)构造预测函数hLogistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:Sigmoid 函数在有个很漂亮的“S”形,如下图所示(引自维基百科):下面左图是一个线性的决策边界,右图是非线性的决策边界。
Logistic回归一、Logistic回归简介1.1概述Logistic回归是一种概率型非线性回归模型,与线性回归模型不同,其响应变量(Response Variable),即因变量是一分类变量(Categorical Variable)而非连续变量(Continuous Variable)。
例如,研究客户是否会购买某种产品(即买抑或不买),或者研究客户交易是否存在欺诈(即欺诈交易抑或非欺诈交易),或者研究客户是否会成为某种产品的潜在用户等等。
由于现实中存在大量类似的问题,Logistic回归被广泛运用以解决所谓的分类预测问题(Classification)。
然而,logistic回归的因变量可以是二分类的,也可以是多分类的,但是实际中最为常用的就是二分类的logistic回归,因此本文只研究二分类logistic回归。
1.2 Logistic回归的主要用途一是寻找->对因变量影响较大的自变量;(如患某疾病中的危险因素)二是预测->如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,因变量发生(如购买某种产品)的概率有多大。
三是判别->实际上跟预测有些类似,也是根据logistic模型,判断(某人购买产品)的概率有多大,综合自变量考虑;1.3 Logistic回归模型与一般线性回归模型的区别:●线性回归模型的结果变量(outcome variable)或因变量(dependent variable)或响应变量(response variable)与自变量之间的关系是线性的,而Logistic 回归中因变量与自变量之间关系是非线性的,但可以通过Logit函数转换成线性关系。
●在线性回归中通常假设,对应自变量X 的某个值,因变量Y 的观测值具有正态分布,但是在logistic 回归中,因变量Y 却是二项发布(0和1)或多项分布。
●在logistic 回归中,不存在线性回归中有的残差项。
回归模型1 回归模型的根本知识 模型简介主要应用在研究某些现象发生的概率p ,比方股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是变换被提出来:〔1〕其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( 〔2〕模型(2)的根本要求是,因变量〔y 〕是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln 〔3〕显然p y E =)(,故上述模型说明是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为线性回归。
线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
不同于多元线性回归的最小二乘估计法那么(残差平方和最小),变换的非线性特征采用极大似然估计的方法寻求最正确的回归系数。
因此评价模型的拟合度的标准变为似然值而非离差平方和。
logistic回归法Logistic回归法是一种常用的分类算法,广泛应用于各个领域。
它通过构建一个逻辑回归模型来预测某个事件发生的概率。
本文将介绍Logistic回归法的原理、应用场景以及优缺点。
一、Logistic回归法的原理Logistic回归法是基于线性回归的一种分类算法,它使用sigmoid 函数将线性回归的结果映射到[0,1]之间。
sigmoid函数的公式为:$$f(x) = \frac{1}{1+e^{-x}}$$其中,x为线性回归的结果。
通过这个映射,我们可以将线性回归的结果解释为某个事件发生的概率。
二、Logistic回归法的应用场景Logistic回归法常用于二分类问题,如预测某个疾病的发生与否、判断邮件是否为垃圾邮件等。
它也可以通过一些改进来应用于多分类问题。
在实际应用中,Logistic回归法非常灵活,可以根据需要选择不同的特征和参数,以达到更好的分类效果。
同时,它对特征的要求相对较低,可以处理连续型和离散型的特征,也可以处理缺失值。
三、Logistic回归法的优缺点1. 优点:- 计算简单、效率高:Logistic回归法的计算量相对较小,算法迭代速度快,适用于大规模数据集。
- 解释性强:Logistic回归模型可以得到各个特征的权重,从而可以解释每个特征对结果的影响程度。
- 可以处理离散型和连续型特征:Logistic回归法不对特征的分布做出假设,可以处理各种类型的特征。
- 可以处理缺失值:Logistic回归法可以通过插补等方法处理缺失值,不需要将含有缺失值的样本剔除。
2. 缺点:- 容易出现欠拟合或过拟合:当特征过多或特征与目标变量之间存在非线性关系时,Logistic回归模型容易出现欠拟合或过拟合问题。
- 对异常值敏感:Logistic回归模型对异常值比较敏感,可能会对模型造成较大的干扰。
- 线性关系假设:Logistic回归模型假设特征与目标变量之间的关系是线性的,如果实际情况并非线性关系,模型的预测效果可能较差。
【数据挖掘技术】Logistic回归⼀、回归概述回归(Regression)分析包括线性回归(Linear Regression),这⾥主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。
其中,在数据化运营中更多的使⽤逻辑斯蒂回归,它包括响应预测、分类划分等内容。
多元线性回归主要描述⼀个因变量如何随着⼀批⾃变量的变化⽽变化,其回归公式(回归⽅程)就是因变量和⾃变量关系的数据反映。
因变量的变化包括两部分:系统性变化与随机性变化,其中,系统性变化是由⾃变量引起的(⾃变量可以解释的),随机变化是不能由⾃变量解释的,通常也称作残值。
再⽤来估算多元线性回归⽅程中⾃变量系数的⽅法中,最常⽤的是最⼩⼆乘法,即找出⼀组对应⾃变量的相应参数,以使因变量的实际观测值与回归⽅程的预测值之间的总⽅差减到最⼩。
对多元线性回归⽅程的参数估计,是基于下列假设的:输⼊变量是确定的量,不是随机变量,⽽且输⼊的变量间线性⽆关,即⽆共线性;随机误差的期望值总和为零,即随机误差与⾃变量不相关;随机误差呈现正态分布。
如果不满⾜上述假设,就不能⽤最⼩⼆乘法进⾏回归系数的估算了。
逻辑斯蒂回归(Logistic Regression)相⽐于线性回归来说,在数据化运营中有更主流更频繁的应⽤,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项⽬主题。
简单来说,凡是预测“⼆选⼀”事件的可能性(⽐如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以使⽤逻辑斯蒂回归。
逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进⾏换算,就可以⽤线性公式描述因变量和⾃变量的关系了,具体公式如下:log(p(y=1)/1-p(y=1))=b0+b1*x1+b2*x2+...+bk*xk与多元线性回归所采⽤的最⼩⼆乘法的参数估计⽅法相对应,最⼤似然法是逻辑斯蒂回归所采⽤的参数估计⽅法,其原理是找到这样⼀个参数,可以让样本数据所包含的观察值被观察到的可能性最⼤。
[转载]logistic回归模型总结logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。
一、有关logistic的基本概念logistic回归主要用来预测离散因变量与一组解释变量之间的关系最常用的是二值型logistic。
即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比可以根据上式反求出P(Y=1|X)=1/(1+e^-L)根据样本资料可以通过最大似然估计计算出模型的参数然后根据求出的模型进行预测下面介绍logistic回归在SAS中的实现以及输出结果的解释二、logistic回归模型初步SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行(1)模型的整体拟合优度主要评价预测值与观测值之间的总体一致性。
可以通过以下两个指标来进行检验1、Hosmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。
在SAS中这个指标可以用LACKFIT选项进行调用2、AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好(2)从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio test)进行检验(3)解释变量解释在多大程度上解释了因变量与线性回归中的R^2作用类似在logistic回归中可以通过Rsquare和C统计量进行度量在SAS中通过RSQ来调用Rsquare,C统计量自动输出(4) 模型评价指标汇总说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。
logistic回归分析python_【Python算法】分类与预测——logistic回归分析1.logistic回归定义logistic回归是⼀种⼴义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。
它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,⽽logistic回归则通过函数L将w‘x+b对应⼀个隐状态p,p =L(w‘x+b),然后根据p 与1-p的⼤⼩决定因变量的值。
如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是⼆分类的,也可以是多分类的,但是⼆分类的更为常⽤,也更加容易解释,多类可以使⽤softmax⽅法进⾏处理。
实际中最为常⽤的就是⼆分类的logistic回归。
2.操作系统操作机:Linux_Ubuntu操作机默认⽤户:root3.实验⼯具Python是⼀种计算机程序设计语⾔。
是⼀种动态的、⾯向对象的脚本语⾔,最初被设计⽤于编写⾃动化脚本(shell),随着版本的不断更新和语⾔新功能的添加,越来越多被⽤于独⽴的、⼤型项⽬的开发。
Python已经成为最受欢迎的程序设计语⾔之⼀。
⾃从2004年以后,python的使⽤率呈线性增长。
2011年1⽉,它被TIOBE编程语⾔排⾏榜评为2010年度语⾔。
由于Python语⾔的简洁性、易读性以及可扩展性,在国外⽤Python做科学计算的研究机构⽇益增多,⼀些知名⼤学已经采⽤Python来教授程序设计课程。
例如卡耐基梅隆⼤学的编程基础、⿇省理⼯学院的计算机科学及编程导论就使⽤Python语⾔讲授。
众多开源的科学计算软件包都提供了Python的调⽤接⼝,例如著名的计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK。