简介定性资料的统计分析-定性资料的统计分析
- 格式:doc
- 大小:57.50 KB
- 文档页数:25
简介定性资料的统计分析:定性资料的统计分析第十二章简介定性资料的统计分析本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。
§12.1定性变量数量化前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。
若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。
如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。
数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。
例如定性变量是性别,记为X,如此赋值:当性别为女⎧1,当性别为男⎧1,X=⎨或X=⎨⎩0,当性别为女⎩0,当性别为男如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征或属性,因此不同特性或属性的观察单位应取不同的值。
例如:天气可取晴、阴、雨三类,则用两个变量(X1,X2)表示天气,如此赋值:当天气晴⎧(0,0),⎪(X1,X2)=⎨(1,0),当天气阴⎪(0,1),当天气雨⎩例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、乙、丙、丁、成戊将地区用4个变量(X1,X2,X3,X4)来表示,如此赋值:甲类地区⎧(0,0,0,0),⎪乙类地区⎪(1,0,0,0),⎪(X1,X2,X3,X4)=⎨(0,1,0,0),丙类地区⎪(0,0,1,0),丁类地区⎪⎪戊类地区⎩(0,0,0,1),综上所述,推广为一般的赋值法如下:若某定性变量可取K类,则用K-1个变量表示,如此赋值:⎧(0,0,0,,0),第一类⎪第二类⎪(1,0,0,,0),⎪第三类⎪(0,1,0,,0),(X1,X2,,Xk-1)=⎨第四类⎪(0,0,1,,0),⎪⎪⎪第K类⎩(0,0,0,,1),以上K个类的次序可以交换。
对于取K个类的定性变量,为什么用K-1个变量而不用K个变量表现?例如某定性变量可取甲、乙、丙、西四个类,可否如下赋值:⎧(0,0,0,0),取甲类⎪取乙类⎪(1,0,0,0),(X1,X2,X3,X4)=⎨取丙类⎪(0,1,0,0),⎪(0,0,1,0),取丁类⎩易知,如此赋值将使X1+X2+X3+X4=1,不论是第几次观测,也不论定性变量取哪一类,皆使上式成立,即4个变量之和有稳定的线性关系式,知道其中任意三个就可推知另一个。
定性变量数量化后,就可以全部作为定量变量来统一处理进行预测或分类等研究。
§12.2列联表主要介绍二维列联表,对于三维以上的列联表只要在形式上稍加改变就能适用于高维表,原则上是一样的,只不过高维列联表符号更复杂一些,也增加些分析的难度。
1列联表的概念列联表讨论的主要是定性资料,此处介绍二维列联表的目的,不是将其数量化,而是直接进行分析并给出两个定性变量之间是否独立性检验。
先看一个简单例子:研讨吸烟与患肺癌的关系,这里用A表示一个人是否患肺癌,用B 表示一个人是否吸烟,从一批被调查的对象中得到的统计表如下:研讨患肺癌是否与吸烟有关?这张统计表称为2×2列联表,表中考察两个定性变量A和B,每个变量有两类,即A 分为患肺癌与未患肺癌两类,B分为吸烟与不吸烟两类,表中间的数值是频数,每一个被抽到的人,都可确定他的(AiBj)取值,比如表中数值60,表示被抽人群中吸烟又患肺癌的人数,数值32表示吸烟示患肺癌的人数。
一般2×2列联表形式如下:其中nij(i,j=1,2)表示第i行Ai和第j列Bj的样品出现的频数,一般nij可取任意非负整数。
这是一个最简单的列联表,如果两个定性变量分别考察r和c类,则相应的列联表为r⨯c 表(r和c可以不等)有如下形式:如果一个问题涉及到很多的定性变量,相应的频数表就是一个高维列联表。
在概率统计中描述两个随机变量的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个一性随机变量之间的相关性是指广义的相关性,称为关联性,两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系,然而在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着是关联的。
如何判断是否独立有很多方法,这里仅介绍一种常用的皮尔逊拟合优度x2检验。
2×2列联表,对应一个多项分布,检验A与B是否独立,等价于检验:H0:pij=pi.p.j其中pij表示A为i、B为j的样品概率,pi.和p.j是相应的边缘概率,当独立性成立时,理论频数为:npij=npi.p.j其中n=22∑∑ni=1j=1ij实际频数为:nij运用x2检验作判定,需要知道列联表中实际频数与相应的理论频数。
用估计量nnˆ.j=.j代替pi.和p.j。
基实际频数与理论频数有差异,这时可用其差值的大小ˆi.=i.,ppnn来度量两个变量相关程度。
相差愈大,表明H0为真的可能性愈小,即A与B无关的可能性愈小。
相反差值愈小,即二愈接近,H0为真的可能性愈大,A与B之间相关的可能性愈小。
为避免实际频数与理论频数的差值出现正负抵消,可采用差值的加权平方和来检验,于是给2出皮尔逊的拟合优度x统计量为:2x=2∑∑i=1=∑∑i=12⎛nn⎫nij-ni.j.⎪2nn⎪⎝⎭nn.jj=1ni.nn2nn-nn2iji..jnnni..jj=12()它的极限分布是自由度为1的x2分布,根据给定的显著性水平a,查x2分布表得到临界值λa。
若x2≥λa则拒绝H0,表示A与B之间不独立,存在相关,若x2H0,表明A与B之间独立,不存在相关。
将前面的例子作x2检验:计算(106⨯60-63⨯92)2(106⨯32-43⨯92)2x=+106⨯63⨯92106⨯43⨯92(106⨯3-63⨯14)2(106⨯11-43⨯14)2++106⨯63⨯14106⨯43⨯14(6360-5796)2(3392-3956)2=+[1**********]6(318-882)2(1166-602)2++9349263812=0.75857+0.5775+4.98489+3.40239=9.663602取显著性水平a=0.05,自由度为1,查x2分布表,临界值λa=3.84。
显然x2=9.663603.84,表明在5%的显著性水平上,拒绝H0即说明吸烟与肺癌不独立,而是存在相关的。
如果列联表中变量间存在相关,那么如何度量变量间的相关程度?又如何从一个变量去预测另一变量呢?解决这类总是还有很多方法,已超出本书范围,不再详述,有兴趣的读者可查阅这方面的参考书。
§12.3对数线性模型如前所述,列联表能够反映定性变量之间的关系,但能否像定量变量那样建立起数学模型如方差分析模型、回归分析模型等以便进一步描述定性变量之间的复杂关系呢?对数线性模型和Logistic回归模型就是解决这一问题的极为有效的方法,它们从不同角度出发导出不同的处理方法。
对数线性模型,近十年来是国外实际工作者常用的方法,它的主要优点是可以把方差分析和线性模型的一些方法系数地移植过来,在概念和理解上均可进行对比,对数线性模型能够估计模型中各个参数,而这些参数值使各个变量的效应和变量间的交互作用效应得以数量化。
下面即将看到这些结论。
1模型对数线性模型又分为很多种类型,常用的模型有:饱和模型(当变量间相互不独立时),非饱和型(变量间相互独立),谱系模型(包含高阶效应)等。
下面从2×2的频数表与概率表出发,推导对数线性模型:(频数表)(概率表)将概率取对数后进行分解处理,使处理后的变量有较好的数学、统计的性质。
⎛pij⎫⎪μij=lnpij=lnpi.p.jpi.p.j⎪⎝⎭pij=lnpi.+lnp.j+lnpi.p.j记Ai=lnpi.,Bj=lnp.j,(AB)ij=ln由上式可写成pijpi.p.jμij=Ai+Bj+(AB)iji,j=1.2显然上式的结构类似于两因子有交互作用,各因子均为二水平的方差分析模型,于是令μi.=∑μij,μ.j=∑μij,μ=∑∑μijj=1i=1i=1j=12222然后再进行平均,对i,j=1,2i.=μi.,.j=μ.j..=μ..记121212αi=μi.-μ..βj=j.-..λij=μij-i.-.j+..则有关系式:⎧⎪⎪μij=..+αi+βj+λij⎪22⎪i,j=1,2⎨且αi=0,βj=0,j=1⎪i=1⎪22⎪λ=λ=0⎪i=1ijj=1ij⎩可见通过上边分解处理,可以完全化成与方差分析模型有同样的结构,因此借助于方差分析的术语,上式中μ..表示“总平均效益”,αi表示A属性的“主效应”,βj表示B属性∑∑的“主效应”,λij表示,A,B的“交互作用效应”,直观可以理解当交互作用效应为0,即等价于A、B独立。
上式模型称为对数线性模型的饱和模型,当λij=0时,称为非饱和模型。
n.jni.ˆp=,.j,这时就可以看nnn到对数线性模型是将列联表上每个单元的频数作为因变量,表上所有变量作为自变量,建立各个自变量的效应与每个单元频数的对应之间的函数关系。
因而可以用它分析列联表上的各个变量的关系。
主效应αi或βj若大于0,表明效应为正;若小于0,表明效应为负。
αi 是ˆij=在实际应用时概率可用其估计量代替,即pˆi.=,p第一个变量的第i个水平对总平均效应μ..的增减量;βj是第二个变量的第j个水平对总平均效应μ..的增减量,λij代表变量1和变量2在各自的第i个水平和第j个水平之间交互作用效应,是其交互作用对总平均效应的增减量。
若λijnij1i.=2∑1μij=2j=1n∑j=12(lnnijn)…第i行频数对数的平均1μ.j=∑1μij=2i=1nn∑i=12(lnnijn)…第j列频数对数的平均11μ..=μ..=44∑∑i=11μij=4j=12∑∑(lnij22nijn)…各个观测值对数的总平均即总平均效应对本章前面的例子,按上述模型估计各效应参数。
各单元的频数对数表:计算:α1=1.-..=2.5964-2.5141=0.0823α2=2.-..=2.4318-2.5141=-0.0823β1=.1-..=3.2800-2.5141=0.7659β2=.2-..=1.7482-2.5141=-0.7659主效应估计值:计算:λ12=μ12-1.-.2+..=1.0986-2.5964-1.7482+2.5141=3.6127-4.3426=-0.7319λ21=μ21-μ2.-μ.1+μ..=2.4657-2.4318-3.2800+2.5141=4.9798-5.7188=-0.7320λ11=μ11-1.-.1+..=4.0943-2.5964-3.2800+2.5141=6.6083-0.8319=0.8319λ22=μ22-2.-.2+..=2.3979-2.4318-1.7482+2.5141=4.9120.1800=0.7320变量间交互作用效应估计值:λ11=0.8319λ12=-0.7399λ22=0.7320λ21=-0.7317主效应大于0,表明效应为正,如α1=0.08320是因为患肺癌比未患肺癌的人多;主效应小于0,表明效应为负,如β2=-0.76599§12.4Logistic回归对数线性模型是将列联表中每格的概率(或理论频数)取对数后分解参数获得的,Logistic回归模型是将概率比取对数后,再时行参数化而获得的。