类别数据分析 第三讲
- 格式:doc
- 大小:250.00 KB
- 文档页数:33
1前讲回顾预期值的验证试验:σ2=σ02,μ=μ0 对比试验:σ12=σ22,μ1=μ2 二类错误(弃真与纳伪)2第三讲因素效应试验单因素效应试验多因素效应试验3一单因素效应试验单因素效应试验的计划设计单因素效应试验的数据分析与处理单因素效应试验数据数学模型4概述因素效应试验:在一定试验条件下,考察可控因素的不同水平或水平组合对试验指标影响的试验。
主效应:由于因素改变而引起的指标变化最大的效应。
因素效应试验:因素主效应试验的计划设计;因素主效应试验的实施;因素主效应试验观测数据分析处理。
计划设计内容:因素的试点设计:确定因素、因素水平、因素各水平组合的设计;因素各水平试点的重复性设计;因素各水平试点重复性的随机化设计。
56可控因素:影响试验的各种因素中被考察的因素,在试验中按人们的需要,在一定水平变化。
试验条件:在试验中被固定在一定水平上不予考虑的因素。
是可控因素以外所有可能影响试验效应的条件因素。
分两类:1.不变的可控条件;2.变化的不可控或难控条件。
7单因素效应试验的计划设计试点设计试点的重复性设计试点的随机化设计8试点设计试点设计:即确定因素与因素的水平设计。
因素设计水平设计水平设计:对可控因素在其状态或数值上划分对比等级,由试验设计的目的和要求决定。
水平数与可控因素属性关系。
水平试验的总范围:生产允许极限上适当放宽。
水平的间隔(定量的数据):2水平3水平910单因素优选法来回调试法黄金分割法分数法对分法抛物线法分批试验法11试点的重复性设计12总试验次数N 为:na N ×=13试点的随机化设计使试验中的条件能以同等机会分配给各试验单元。
是保证试验结果有可比性的设计,避免随机误差系统化的产生。
随机分配方法可用抽签法,也可以查随机数字表获得。
14试点的随机设计例1在某次热处理试验中,要考察时效时间对材料硬度的影响。
时效时间A 取三个水平,分别为1h 、2h 及4h ,每个水平重复三次,请提出随机化设计的方案。
I.一般线性模型简介 (Generalized Linear Models 或 GLM)一般线性模型GLMs 是将回归方程扩展到非常态分布或非线性的样本的一种统计方法。
● 一般线性模型GLMs 的三个要素■ 随机要素 (random component ):假设被指定为应变量Y 的随机变量是属于某一种特定的概率分布型态 。
■ 系统要素(systematic component ): 在方程式的右侧设定一组解释变量,属于线性的预测变量:ββββ01122++++X X X k k ....■ 连结函数(link function ): 设定随机要素与系统要素之间的统计关系,也就是将 μ=E(Y) 透过方程式连结到解释变量上。
● 一般线性模型 GLMs 的某些特殊型态 ■ 最小二乘法OLS 模型随机要素:常态分布与固定标准误的连续变量系统要素:ββββ01122++++X X X k k ...连结函数:g(μ)= μ■ logit 模型随机要素:Y=1 or 0, 呈二项分布(binomial distribution).系统要素:ββββ01122++++X X Xk k ...连结函数:g(μ)=log [μ /(1- μ)] [logit]■泊松回归模型(Poisson Regression )随机要素:泊松分布(Poisson distribution )下的次数频率 (count frequency)系统要素:ββββ01122++++X X Xk k ...连结函数:g(μ)=log(μ)在列联表( contingency tables )里的数据也是次数频率,因此, Loglinear 模型在一般线性模型GLMs 的架构下,实际上是泊松回归的一种。
总之,一般线性模型GLMs 提供了一种包含了大多数连续与离散变量重要模型的统整模式。
● 最大可能性(似然)估计(Maximum Likelihood Estimation 或MLE )此一估计所得的参数值与所观察到的数值最为一致:也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。
步骤一:决定一个说明未知参数概率的函数(似然函数likelihood function )。
步骤二:找出此一未知参数的观察值,使得此一似然函数达到最大值。
例子:运用二项公式(binomial formula )来计算十个被观察对象当中出现四位女性的概率。
女性在总体当中出现的实际概率是½.因此可得:()P s n p (|,.).(.)====-41050510541046现在假设我们不知道总体当中的女性所占比例 (π ),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π 值为何?最大可能性估计ML E , 就是推估一个总体的参数值,来使得观察值最可能发生。
上述的似然函数就是:()L =-410461ππ()数学上,我们希望找出的是参数值p 来达到这个似然函数L 的最大值,此时p 即是 π的估计值。
在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:i) 最有效率 (变异的极小化minimum variance) ii) 当样本数增加时,其统计偏误会不断缩小。
iii) 其分配型态渐近于随机抽样分布。
当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法 OLS 估计正等于是最大可能性估计MLE (Powers and Xie Appendix B )。
II. 二分法(Binary ) Logit 模型1. 发生比Odds 与发生比率Odds Ratio (Agresti p.268-270):在处理二分法的变量时,发生比Odds 就等于某事件发生的概率除以未发生的概率。
odds pp =-1此处的 p 是指事件发生的概率, (1-p ) 就是事件不发生或失败的概率。
因此,我们也可以用发生比Odds 倒算出概率:podds odds=+1发生比率(Odds ratio)是用来估计不同群体之间事件发生概率的相对比例。
同一个事件的概率,用发生比之间的关系来表达就是:θ=--p p p p 112211/() /()让我们参考实际的例子:1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:. tab party sexcurrent |party | sex of respondentmember? | Male Female | Total-----------+----------------------+----------Yes | 547 162 | 709No | 2,541 2,840 | 5,381-----------+----------------------+----------Total | 3,088 3,002 | 6,090男性成为党员的发生比是多少?女性成为党员的发生比是多少?男性对女性成为党员的发生比率又是多少?. tab nsize14 partysize of |place of |residence | current party member?at 14 | Yes No | Total-----------+----------------------+----------Village | 388 3,697 | 4,085Township | 51 352 | 403County s | 73 292 | 365County-l | 42 219 | 261District | 70 433 | 503Province | 52 254 | 306Beijing, | 32 131 | 163-----------+----------------------+----------Total | 708 5,378 | 6,086对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?对那些十四岁时居住在乡镇的人来说,成为党员的发生率是多少?对那些十四岁时居住在直辖市的人来说,成为党员的发生率是多少?当然,我们也可以由此表格计算出任何两个群体之间的发生比率。
发生比率Odds Ratio θ 有一些良好的统计性质:●与表格对角数字相乘之后的比率相等。
●无论是从行或是列来计算结果都相等。
●可以转换为负值之外的任何数值。
●当θ=1就表示第一行与第二行的发生率相等。
●当θ>1就表示第一行的发生率大于第二行的发生率。
●当θ<1就表示第一行的发生率小于第二行的发生率。
发生比率可广泛运用于 logit模型与 loglinear 模型。
2.二分Logit回归法(Binary Logistic Regression)我们社会科学界经常面对一些二元范畴的应变量,这是因为很多社会现象都是以二分的方式来测量与描述,比如投票行为、出勤与缺席、已婚或未婚等,而非以连续变量的方式来测量与描述的。
我们曾经提到虚拟变量(variable dummy)的概念,当一个应变量被分为k个类型的结果时,可以被转换成 (k-1) 个虚拟变量。
从最简单的情况开始,我们假设一个变量只能分为两个范畴(事件发生 [y=1] 或是未发生 [y=0]).举个实际的例子,我们想解释在中国为何有些人能够加入共产党,我们有个叫“rparty” 的虚拟变量以及其它的解释变量,包括年龄、性别与父亲的党员资格。
. tab rpartyrparty | Freq. Percent Cum.------------+-----------------------------------0 | 5,381 88.36 88.361 | 709 11.64 100.00------------+-----------------------------------Total | 6,090 100.00要建立一个二元应变量的模型,我们可以将该方程式用机率模型表达为:E(Y|X)=β0+β1X1+ β2X2我们该如何设定与估计上述的模型呢?首先,我们可以使用线性机率模型(linear probability model) 也就是OLS来估计,但是线性机率模型有下列问题:a)b)c)超出范围的预测值-机率小于0或大于1 (Y<0 or Y>1)。
d)异方差性(Heteroskedasticity)可能导致无效率的估计值、偏误的标准误与错误的统计检验结果。
确实,异方差性(Heteroskedasticity)与超范围的预测值可以运用最小二乘法OLS以外的线性模型来解决。
然而,错误的函数型态与对边际分布数值的敏感性是线性模型的致命伤。
所以我们必须引进非线性(NONLINEAR) 模型!要对付二元的机率分布型态,我们可以运用的其中一种非线性模型就是 logistic (logit) 模型:P Y X X e e eXXX(|)()===+=++++11111παβαβαβa. 在 β>0 的条件下:当X →+∞, π (x)→ 1 当 X →-∞, π (x)→ 0在 β<0的条件下: 当 X →+∞, π (x)→ 0 当X →-∞, π (x)→ 1因此 0<π (x)<1b. 曲线的斜率:部分微分的结果在线性模型中斜率会成为常数:∂∂βP Y X x(|)=,在logistic 模型中斜率视X 与 β的条件而定:∂π∂βππβ(|)()[()]*(|)[(|)]Y X xX X P y X P y X =-==-=1111因此,π(X)[1- π(X)] 在 π=0.5的时候会达到极大值,也就是说,当 p=0.5的时候,机率密度函数的斜率最高。
logistic 函数也可以转换成发生率:1- π(X)=1/[1+e α+βx ]发生率Oddsπ(X)/[1- π(X)]= e α+βx =e αe βx因此,X 每增加一个单位, 就会让发生率增加e β 倍 (MULTIPLIES the odds by e β)。
c. 发生率对数 “Log Odds”log {π(X)/[1- π(X)]}= α+βX所以,将概率转换到发生率对数(log odds)之后,方程式的两侧都成了X 的线性模型 :“Linear Logit Equation ”。
III 估计与解释1. 估计:最大可能性方法Maximum Likelihood MethodL=Pr(Y 1, Y 2, … Y n )=Pr()y ii n=∏1L p p p p p i y i iii ni ni iy iy i=-=---==∏∏()()()111111log log log()L y p p p i i i i ni i n=-⎛⎝ ⎫⎭⎪+-==∑∑1111也就是,log log()L x y ei i i i n x i ni i=++==∑∑ββ111理论上,MLE所计算出的βi可以使上述的函数极大化;应用上,STATA 可以直接为我们计算出来。