当前位置:文档之家› 列联表模型

列联表模型

列联表模型
列联表模型

有些数据是类型变量,要求做因素影响的显著性分析或相关分析可以采用本模型 本模型的相关分析涉及三种相关系数,而且是层层递进的,我们可以刻意将它们写成模型的一步步改进 列联分析模型 1.2.1 列联表

列联表是由两个及两个以上的变量进行交叉分类的频数分布表。我们以是否就业和政治面貌为例,可以有以下列联表(2?4):

表1.2.1

其中,n 是总体样本数。交叉项为频数。 1.2.2 列联表中2χ统计量

2χ统计量常用于列联表中变量之间是否相关的检验。用0f 表示观察值频数,用e f 表示期望值频数,则2χ统计量可以写为:

()

2

02e e

f f f χ-=∑

(公式1.2.2)

2χ的自由度计算:

自由度=(行数-1)(列数-1)=(R-1)(C-1)

如表1.2.1(2?4)列联表的2χ分布的自由度为(2-1)(4-1)=3 1.2.3 φ相关系数测定与影响就业因素间的相关性

φ相关系数是描述2?2列联表数据相关程度较好的一种相关系数。计算公式为:

φ=

(公式1.2.3.1)

式中,2χ是按(公式1.2.2)计算出的2χ值;n 为列联表中的总频数,及总体样本数。

由表1.1知,有五个影响因素是二分变量,我们可以采用φ相关系数分析的方法。其列联表如下:

表1.2.3 是否就业与因素X 的2?2列联表

表1.2.3中,a,b,c,d 均为条件频数。在2?2列联表中,每个单元中频数的期望值为: 由(公式1.2.2)有:

将此结果代入(公式1.2.3.1),得到:

()()()()

ad bc

a b c d a c b d φ-=

=

++++ (公式1.2.3.1)

分析:

由上式我们知道,当ab-bc 时,φ=0,两者完全独立。若b=0,c=0, φ=1;若a=0,d=0, φ=-1。由于列联表中,变量的位置可以任意变换,因此φ的符号在这里没实际意义,其绝对值=1只是表面两者完全相关。在此模型中,φ的取值范围是在0~1之间,且φ的绝对值越大,说明是否就业与因素X 的相关程度越高。对于表1.1中的五个二分变量的因素的研究,我们可以采用2?2列联表的φ相关系数。但是对于其他的不是二分变量的因素,其在列联表R ?C 中的列数C 大于2时,φ系数将随C 的增大而增大,且φ没上限。这时用φ系数测定两者的相关程度就不够清晰,所以,对其他的因素与是否就业之间的相关性的测定,我们采用列联相关系数。 1.2.4 列联相关系数(C 系数)测定与影响就业因素间的相关性 列联相关系数用于大于2?2列联表的情况。C 系数的计算公式为:

c =

(公式1.2.4)

分析:

C系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。因此,根据不同的行和列计算的列联系数不能比较。所以,我们对方案进行改进,采用V相关系数测定与影响就业因素间的相关性,并进行排序。

1.2.5V系数测定与影响就业因素间的相关性

V系数是鉴于φ系数无上限、C系数小于1的情况。计算公式为:

V=(公式1.2.5)

式中表示取行数和列数中较小的一个。由于此模型中,行数均为2,所以,得到的V相关系数不随列数的增大而变化,我们可以用V相关系数来比较各因素与是否就业的相关性。

相关主题
文本预览
相关文档 最新文档