第5章 广义与一般线性模型
- 格式:pdf
- 大小:2.02 MB
- 文档页数:19
线性统计模型知识点总结一、线性回归模型1. 线性回归模型的基本思想线性回归模型是一种用于建立自变量和因变量之间线性关系的统计模型。
它的基本思想是假设自变量与因变量之间存在线性关系,通过对数据进行拟合和预测,以找到最佳拟合直线来描述这种关系。
2. 线性回归模型的假设线性回归模型有一些假设条件,包括:自变量与因变量之间存在线性关系、误差项服从正态分布、误差项的方差是常数、自变量之间不存在多重共线性等。
3. 线性回归模型的公式线性回归模型可以用如下的数学公式来表示:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y 是因变量,X是自变量,β是模型的系数,ε是误差项。
4. 线性回归模型的参数估计线性回归模型的参数估计通常使用最小二乘法来进行。
最小二乘法的目标是通过最小化残差平方和来寻找到最佳的模型系数。
5. 线性回归模型的模型评估线性回归模型的好坏可以通过很多指标来进行评价,如R-squared(R^2)、调整后的R-squared、残差标准差、F统计量等。
6. 线性回归模型的应用线性回归模型广泛应用于经济学、金融学、市场营销、社会科学等领域,用以解释变量之间的关系并进行预测。
二、一般线性模型(GLM)1. 一般线性模型的基本概念一般线性模型是一种用于探索因变量与自变量之间关系的统计模型。
它是线性回归模型的一种推广形式,可以处理更为复杂的数据情况。
2. 一般线性模型的模型构建一般线性模型与线性回归模型相似,只是在因变量和自变量之间的联系上,进行了更为灵活的变化。
除了线性模型,一般线性模型还可以包括对数线性模型、逻辑斯蒂回归模型等。
3. 一般线性模型的假设一般线性模型与线性回归模型一样,也有一些假设条件需要满足,如误差项的正态分布、误差项方差的齐性等。
4. 一般线性模型的模型评估一般线性模型的模型评估通常涉及到对应的似然函数、AIC、BIC、残差分析等指标。
5. 一般线性模型的应用一般线性模型可以应用于各种不同的领域,包括医学、生物学、社会科学等,用以研究因变量与自变量之间的关系。
⼴义线性模型⼴义线性模型GLM是⼀般线性模型的扩展,它处顺序和分类因变量。
所有的组件都是共有的三个组件:随机分量系统分量链接函数===============================================随机分量随机分量跟随响应Y的概率分布例1. (Y1,Y2,。
....YN)可能是正态的。
在这种情况下,我们会说随机分量是正态分布。
该成分导致了普通回归和⽅差分析。
例2. y是Bernoulli随机变量(其值为0或1),即随机分量为⼆项分布时,我们通常关注的是Logistic回归模型或Proit模型。
例2. y是计数变量1,2,3,4,5,6等,即y具有泊松分布,此时的连接函数时ln(E(y)),这个对泊松分布取对数的操作就是泊松回归模型。
============================================系统分量系统组件将解释变量x1、x2、···、xk作为线性预测器:============================================连接函数GLM的第三分量是随机和系统分量之间的链路。
它表⽰平均值µ=e(y)如何通过指定函数关系g(µ)到线性预测器中的解释性变量称G(µ)为链接函数..==============================================⼴义线性模型Y被允许从指数型分布族中得到⼀个分布。
链路函数G(µI)是任何单调函数,并且定义了µI和Xβ之间的关系。
=================================================逻辑回归因变量是⼆进制的评估多个解释变量(可以是数值型变量和/或类别型变量)对因变量的影响。
=============================================模型含义:鸟类的巢址使⽤响应变量是有巢的站点的概率,其中概率计算为p/(1-p),p是有巢的站点的⽐例。
⼴义线性模型(GeneralizedLinearModels)在线性回归问题中,我们假设,⽽在分类问题中,我们假设,它们都是⼴义线性模型的例⼦,⽽⼴义线性模型就是把⾃变量的线性预测函数当作因变量的估计值。
很多模型都是基于⼴义线性模型的,例如,传统的线性回归模型,最⼤熵模型,Logistic回归,softmax回归。
指数分布族在了解⼴义线性模型之前,先了解⼀下指数分布族(the exponential family)指数分布族原型如下如果⼀个分布可以⽤上⾯形式在表⽰,那么这个分布就属于指数分布族,⾸先来定义⼀下上⾯形式的符号:η:分布的⾃然参数(natural parameter)或者称为标准参数(canonical parameter)T (y):充分统计量,通常⽤T(y) = ya(η):对数分割函数(log partition function):本质上是⼀个归⼀化常数,确保概率和为1。
当给定T时,a、b就定义了⼀个以η为参数的⼀个指数分布。
我们变化η就得到指数分布族的不同分布。
论证伯努利分布和⾼斯分布为指数分布族,伯努利分布均值φ,记为Bernoulli(φ),y ∈ {0, 1},所以p(y = 1; φ) = φ; p(y = 0; φ) = 1 − φ对⽐指数分布族的表达式可以得到:η = log(φ/(1-φ)) 我们将φ⽤η表⽰,则:φ=1/(1+e-η),是不是发现和sigmoid函数⼀样了。
这就表明,当我们给定T,a,b,伯努利分布可以写成指数分布族的形式,也即伯努利分布式指数分布族。
同理,在⾼斯分布中,有:对⽐指数分布族,我们得到:因为⾼斯分布的⽅差与假设函数⽆关,因⽽为了计算简便,我们设⽅差=1,这样就得到:所以这也表明,⾼斯分布也是指数分布族的⼀种。
构造⼴义线性模型(Constructing GLMs)怎么通过指数分布族来构造⼴义线性模型呢?要构建⼴义线性模型,我们要基于以下三个假设:1. 给定特征属性和参数后,的条件概率服从指数分布族,即。
广义线性模型广义线性模型一、广义模型的概念以及指数函数族1.多元线性回归和正态线性模型2.指数函数族3.The Tweedie distribution:特殊的指数指数族一员;在0点有很大的概率并且在非0点有合适的分布;方差与均值的p次幂成正比4.GLM的结构:连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重二、构建GLM模型1.单因子分析:无法反映变量之间的关系,GLM可以排除这类关系,得到相对数的真实值2.变量、分类因子、交互项目以及线性预测值:(1)权重/暴露(2)反应:模型视图预测的值一般地,模型的名称与反应/权重的含义相同(3)categorical factors and naturally ordered value(4)interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到3. 变量估计:通过逆矩阵相关方法求解三、分析因子的显著性1. chi-squared、F-statistics、AIC 等统计量(1)偏离:比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。
(2)偏离度调整(3)chi-squared 统计量:模型的自由度定义为观测的数量减去变量的数量Nested models:可以利用chi-squared来检验偏离度的变化(4) F-statistics(5)AIC:主要用于模型选择的统计量AIC=-2*log likelihood+2*number of parameters是在likelihood 与变量数量之间的权衡,AIC数值越小越好2.模型变量的不确定性Hat matrixLikelihood的二阶导数与变量的方差反比例相关Steep curvature表明变量tightly defined,Shallow curvature 表明变量poorly defined3.其他方法(1)与预期值相比:每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的(2)Comparison with time:model fit line;variation的大小应该与exposure的大小相反不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性1.残差法偏离残差:修正了偏度的影响,分布更为正态化皮尔逊残差:观测值与预测值之间的差异,除以预测值的方差,这个办法使得具有不同均值的观测值可以进行比较,但是没有对分布的形状加以调整2.残差图:对于某种模型,如果所选的误差结构是正确的,那么残差的平均值就是0,并且残差值的范围3.Cook’s distanceLeverage:用于估计数据点对于模型结果的影响五、模型refinement1. 完全交互以及边际交互2. 模型限制Restrictions: price demand elasticity; competitive situation;legal or commercial considerationCompensate: adjust the fitted relativities for correlated factors,using the offset term in the GLMImpose restriction at the risk premium stage: allow more complete and balanced compensation by the other factors Counterintuitive model results: behavior factorsDistribution of ratio of fitted values between restricted and unrestricted models3. aliasing : linear dependency : one covariate may be identical to somecombination of other covariates(1):Intrinsic aliasing。
数据的分类与模型选择、广义线性模型概述、Logistic回归模型、对数线
性模型、一般线性模型的计算。
要求学生针对因变量和解释变量的取值性质,了解统计模型的类型。
掌握数据的分类与模型选择方法,并对广义线性模型和一般线性模型有初步的了解。
2.模型选择方式:基本公式
y
X
连续变量0-1变量有序变量多分类变量连续伴有删失连续变量线性回归方程
logistic回归模型累积比数模型
对数线性模型
对数线性模型
多分类logistic回归模型
cox比例风险模型
分类变量实验设计模型(方
差分析模型)
连续变量
分类变量
协方差分析模型
表5.1 广义线性模型中的常用分布族
2、Logistic模型:函数形式
其中参数估计采用极大似然估计。
对45名驾驶员的调查结果,其中四个变量的含义为:
x1:表示视力状况,它是一个分类变量,1表示好,0表示有问题;x2:年龄,数值型;
x3:驾车教育,它也是一个分类变量,1表示参加过驾车教育,0表示没有;y:分类变量(去年是否出过事故,1表示出过事故,0表示没有)。
d5.1=read.table("clipboard",header=T) #读取例5.1数据 logit.glm<-glm(y~x1+x2+x3,family=binomial,data=d5.1) #Logistic 回归模型summary(logit.glm) #Logistic 回归模型结果
得到初步的logistic 回归模型:
(1)建立全变量logistic 回归模型:
logit.step<-step(logit.glm,direction="both") #逐步筛选法变量选择由此得到新的logistic 回归模型:(2)逐步筛选变量logistic 回归模型:
summary(logit.step) #逐步筛选法变量选择结果
pre1<-predict(logit.step,data.frame(x1=1)) #预测视力正常司机Logistic 回归结果p1<-exp(pre1)/(1+exp(pre1)) #预测视力正常司机发生事故概率
pre2<-predict(logit.step,data.frame(x1=0)) #预测视力有问题的司机Logistic 回归结果p2<-exp(pre2)/(1+exp(pre2)) #预测视力有问题的司机发生事故概率c(p1,p2) #结果显示
(3):预测发生交通事故的概率
3、对数线性模型:函数形式
式2含有交叉效应
某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。
满意不满意合计
高533891
中434108542
低11148159
合计598194792
数据形式变为:用y表示频数,x1表示收入人群,x2表示满意程度
(1)建立Poisson对数线性模型:
从检验结果可看出,p1=0.0031<0.01,p2<0.01,说明收入和满意程度对产品有重要影响
设有3台机器,用来生产规格相同的铝合金薄板。
现从3台机器生产出的薄板中各随机抽取5块,测出厚度值,见下表,试分析各机器生产的薄板厚度有无显著差异?
机器1 2.36 2.38 2.48 2.45 2.47 2.43
机器2 2.57 2.53 2.55 2.54 2.56 2.61
机器3 2.58 2.64 2.59 2.67 2.66 2.62
d5.3=read.table("clipboard",header=T) #读取例5.3数据
anova(lm(Y~factor(A),data=d5.3)) #完全随机设计模型方差分析
P<0.05,说明各机器生产的薄板厚度有显著差异。
(1)数据格式为:
2、随机单位组设计模型:函数形式
其中μ为总均数,αi为处理因素A的第i个水平的效应;βj为第j个单位组的效应,
e ij为误差项。
使用4种燃料,3种推进器作火箭射程试验,每一种组合情况做一次试验,则得火箭射程列在下表中,试分析各种燃料A与各种推进器B对火箭射程有无显著影响?
BA A1A2A3A4
B1582491601758
B2562541709582
B3653516392487
d5.4=read.table("clipboard",header=T) #读取例5.4数据
anova(lm(Y~factor(A)+factor(B),data=d5.4)) #随机单位组设计模型方差分析PA>0.05,说明各种燃料A 对火箭射程有无显著影响,PB>0.05,说明各种推进器B 对火箭射程也无显著影响。
(1)数据格式为:
关于40个不同年龄(age,定量变量)和性别(sex,定性变量,用0和1代表女和男)的人对某项服务产品的观点(y,二水平定性变量,用1和0代表认可与不认可)的数据。
一、数据管理
二、R语言操作
拟合的模型为:Case4=read.table("clipboard",header=T);Case4
fm=glm(y~sex+age,family=binomial,data=Case4)
fm
summary(fm)
attach(Case4)
Pr=predict(fm,data.frame(list(sex,age))) #模型预测
p=exp(Pr)/(1+exp(Pr))
cbind(sex,age,y,p)
plot(age,Pr)
detach(Case4)
谢谢!。