2 列联表分析(Crosstabs)

格式：pdf
大小：264.86 KB
文档页数：5

下载文档原格式

交叉列联分析

由于观察频数的总数为n ，所以f11 的期望频数 e11 应为
期望频数的分布
一分公司
二分公司三分公司四分公司
实际频数
68
赞成该方案
期望频数
66
75
57
79
80
60
73
实际频数
32
反对该
方案
期望频数
34
45
33
31
40
30
37
检验统计量
在零假设成立时，该统计量近似服从自由度为(r1)×(s-1)的c2分布。当该统计量的值很大（或p值很小）时，就可以拒绝零假设，认为这两个变量不相互独立。
– 列观察值的合计数的分布 – 四个公司接受调查的人数分别为100人
列边缘分布
描述统计-百分比分布
• 在相同的基数上进行比较，可以计算相应的百
分比，称为百分比分布
– 行百分比：行的每一个观察频数除以相应的行合计数(fij / ri)
– 列百分比：列的每一个观察频数除以相应的列合计数( fij / cj )
期望频数的分布
一分公司二分公司三分公司四分公司合计
赞成该方案
68
75
57
79
279
反对该方案
32
45
33
31
141
合计
100
120
90
110
420
例如，第1行和第1列的实际频数为 f11 ,它落在第1行的概率估计值为r1/n；它落在第1列的概率的估计值为 c1/n 。根据概率的乘法公式，该频数落在第1行和第1列的概率应为
复式柱状图
61 70
49 60
50

用iReport制作交叉表(CrossTabs)

用iReport制作交叉表(CrossTabs) 立方开源商业智能一个CrossTabs是一种在设计的时候既不确定行数和也不确定列数的一种表格，在运行环境下它会像下面显示的不同年份的一个销售报表一样。

CrossTabs在jasperresports中从1.1.0版本时开始提供，同时iReport也从1.1.0开始支持CrossTabs。

Jasperreports的CrossTabs工具允许对行和列的数据进行分组、汇总和自定义每一个cell里的内容。

填充CrossTab的数据可以来自主报表里的dataset或来自subDataset。

使用iReport里提供的向导我们可以简单快速的创建功能强大的交叉报表组件。

一个CrossTabs本质上是一个表格，行和列的数量取决于填充这个表格的数据。

行和列也可以在groups里做聚合操作。

对于每一个行或列的group我们都可以得到一个细节信息和一个可选的行列数据的汇总。

16.1 交叉表向导 (Crosstab wizard)为了说明怎么让一个crosstab工作起来，我们将使用向导创建一个crosstab，当我们在工具条里选择crosstab元素并将其添加到报表中时crosstab的向导会自动启动。

还是以DoradoSample里提供的hsql数据里的employee报为例，我们使用包含下面查询语句的空报表开始:Select * from employee我们把crosstab放在报表的底部:summary band图16.1在第一步里我们需要选择一个dataset来填充crosstab，我们这里使用主报表里提供的dataset，点击下一步继续。

图16.2在第二步里我们需要定义至少一个行分组.我们这里选择对所有记录使用DEPT_ID进行分组。

这样就意味着crosstab的每一行将会采用一个明确的部门编号，这样JasperReports将会使用部门编号对数据集里的数据进行重新整理计算。

SPSS统计分析教程列联表分析

2 列联表分析（Crosstabs）列联表是指两个或多个分类变量各水平的频数分布表，又称频数交叉表。

SPSS的Crosstabs过程，为二维或高维列联表分析提供了22种检验和相关性度量方法。

其中卡方检验是分析列联表资料常用的假设检验方法。

例子：山东烟台地区病虫测报站预测一代玉米螟卵高峰期。

预报发生期y为3级（1级为6月20日前，2级为6月21-25日，3级为6月25日后）；预报因子5月份平均气温x1（℃）分为3级（1级为16.5℃以下，2级为16.6-17.8℃，3级为17.8℃以上），6月上旬平均气温x2（℃）分为3级（1级为20℃以下，2级为20.1-21.5℃，3级为21.5℃以上），6月上旬降雨量x3（mm）分为3级（1级为15mm以下，2级为15.1-30mm，3级为30mm以上），6月中旬降雨量x4（mm）分为3级（1级为29mm以下，2级为29.1-36mm，3级为36mm以上）。

数据如下表。

山东烟台历年观测数据分级表（）注：摘自《农业病虫统计测报》 131页。

1) 输入分析数据在数据编辑器窗口打开“”数据文件。

数据文件中变量格式如下：2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令，弹出列联表分析对话框，如下图3)设置分析变量选择行变量：将“五月气温[x1]，六月上气温[x2]，六月上降雨[x3]，六月中降雨[x4]”变量选入“Rows:”行变量框中。

选择列变量：将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。

4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。

Suppress table: 选中则不输出多维频数分布表。

5)统计量输出点击“Statistics”按钮，弹出统计分析对话框（如下图）。

Chi-Square: 卡方检验。

选中可以输出皮尔森卡方检验（Pearson）、似然比卡方检验（Likelihood-ratio）、连续性校正卡方检验（Continuity Correction）及Fisher精确概率检验（Fisher’s Exact test）的结果。

描述性统计

探索分析-II
探索分析-III
探索分析-IV
探索分析-V
探索分析-VI
2.4.1列联表分析的功能与意义
SPSS的列联表分析过程(Crosstabs)是通过分
析多个变量在不同取值情况下的数据分布情况,从而进一步分析多个变量之间相互关系的一种描述性分析方法。至少指定两个变量,分别为行变量和列变量, 如果要进行分层分析,则我们还要规定层变量。不仅可以得到交叉分组下的频数分布，还可以通过分析得到变量之间的相关关系。
2.2.2 描述性分析实例
【例2.2】下面的资料给出了山东省某
高校50名大一入学新生的体重。试对该 50名学生的体重进行描述性分析，了解这50名学生体重的基本特征。配书资料\源文件\2\正文\原始数据文件\案例2.2.sav
描述性分析-I
描述性分析-II
描述性分析-III
描述性分析-IV
不同分布的箱线图
2.3.2 探索分析实例
【例2.3】下面的资料给出了天津、济南两
个城市07年各月份的平均气温。试据此对天津平均气温和济南平均气温进行探索性统计分析，研究天津平均气温和济南平均气温的基本特征。配书资料\源文件\2\正文\原始数据文件\案例2.3.sav
探索分析-I
2.1.1 频数分析的功能与意义
频数分析过程(Frequencies)是描述性分析中
最基本也是最常用的方法之一。可以得到详细的频数表以及平均值、最大值、最小值、方差、标准差、极差、平均数标准误、偏度系数和峰度系数等重要的描述统计量，还可以通过分析得到合适的统计图。不仅可以方便的对数据按组进行归类整理，还可以对数据的分布特征形成初步的认识。

描述性统计

Stem width: 10.00 Each leaf: 1 case(s)
EX. 未分组数据—箱线图
(box plot)
1. 用于显示未分组的原始数据的分布 2. 由一组数据的5个特征值绘制而成，它由一个箱
子和两条线段组成
3. 绘制方法
首先找出一组数据的5个特征值，即最大值、最小值四分、位中数位Q数UM) e和两个四分位数(下四分位数QL和上
探索分析-I
探索分析-II
探索分析-III
探索分析-IV
探索分析-V
探索分析-VI
2.4.1列联表分析的功能与意义
SPSS的列联表分析过程(Crosstabs)是通过分析多个变量在不同取值情况下的数据分布情况,从而进一步分析多个变量之间相互关系的一种描述性分析方法。
至少指定两个变量,分别为行变量和列变量, 如果要进行分层分析,则我们还要规定层变量。
相关描述统计量主要有平均值、最大值、最小值、方差、标准差、极差、平均数标准误、偏度系数和峰度系数等。
2.2.2 描述性分析实例
【例2.2】下面的资料给出了山东省某高校50名大一入学新生的体重。试对该 50名学生的体重进行描述性分析，了解这50名学生体重的基本特征。
配书资料\源文件\2\正文\原始数据文件\案例2.2.sav
意义。
描述性统计分析常用的有：频数分析、描述性分析、探索分析、列联表分析。下面我们一一介绍这几种方法的功能和意义。
2.1.1 频数分析的功能与意义
频数分析过程(Frequencies)是描述性分析中最基本也是最常用的方法之一。
可以得到详细的频数表以及平均值、最大值、最小值、方差、标准差、极差、平均数标准误、偏度系数和峰度系数等重要的描述统计量，还可以通过分析得到合适的统计图。

交叉列联分析

行边缘分布
一分公司赞成该方案反对该方案二分公司三分公司四分公司
合计 279 141 420
68 32
75 45
57 33
79 31
100 合计 • 列边缘分布
120
90
110
• 列观察值的合计数的分布 • 四个公司接受调查的人数分别为四个公司接受调查的人数分别为100人人 120人，90人，110人人人人
• 2、样本量大小的问题、
110
例如，第1行和第列的实际频数为 f11 ,它落在第行行和第1列的实际它落在第1行例如，行和第列的实际频数为它落在第的概率估计值为r ；它落在第列的概率估计值为 1/n；它落在第 1列的概率的估计值为 c1/n 。根据概率的乘法公式，该频数落在第行和第根据概率的乘法公式，该频数落在第1行和第行和第1 列的概率应为由于观察频数的总数为n ，所以f11 的期望频数 e11 应为由于观察频数的总数为所以
• 检验行变量与列变量是否独立 • 拟合优度检验（多个总体的比例是否相等）拟合优度检验（多个总体的比例是否相等）
独立性检验（基本原理）独立性检验（基本原理）
• 原假设：行变量和列变量是相互独立的原假设： • 前提成立的情况下，每个单元格的频数期望值称前提成立的情况下，之为期望频数e 之为期望频数 ij，
列联表中的数字为交叉单元格中的频数或频率
大城市价格品牌款式
中小城市
乡镇
农村
• 以列联表为基础可以对两个变量之间的关系进行多种统计检验
列联表举例
条件频数—酒店管理专业的男生人条件频数酒店管理专业的男生2人酒店管理专业的男生

SPSS 教程第三章基本分析

描述性统计分析（Descriptive Statistics）统计分析往往是从了解数据的基本特征开始的。

描述数据分布特征的统计量可分为两类：一类表示数量的中心位置，另一类表示数量的变异程度（或称离散程度）。

两者相互补充，共同反映数据的全貌。

这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。

1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图，以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。

下面我们通过例子来学习单变量频数分析操作。

1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。

2)调用分析过程在主菜单栏单击“Analyze”，在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上，在出现的次菜单里单击“Frequencies”项，打开如图3-4所示的对话框。

图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。

在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。

4)输出频数分布表Display frequency tables，选中显示。

5)设置输出的统计量单击“Statistics”按钮，打开图3-5所示的对话框，该对话框用于选择统计量：图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏：Quartiles：四分位数，显示25%、50%和75%的百分位数。

Cut points for 10 equal groups：将数据平分为输入的10个等份。

Percentile(s):：用户自定义百分位数，输入值0—100之间。

选中此项后，可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。

配对设计2×2列联表的精确检验方法及应用

布是不合理的，此时须采用二项分布的方法进行精确
检验。
配对设计２×２列联表的精确检验
在表１中，如果行变量和列变量的频数分布相同，那么理论上ｂ和Ｃ的比例应为１：１，即两种不一致情况出现的概率相等，令Ｐ＝１／２。由此，我们可以给出无效假设Ｈｏ：Ｐ＝１／２；备择假设Ｈ１：ｐ＝／：ｌ／２。
令，．＝ｍｉｎ（ｂ，Ｃ）。在Ｈｏ：Ｐ＝１／２成立的前提下，我们利用二项分布计算累积概率：
ＳＰＳＳｌ３．０还提供了配对设计行×列表的精确检验，此方法是２Ｘ２列联表的推广。与ＳＡＳ９．０相比，这是ＳＰＳＳｌ３．０的优点。
参考文献
１．ＢｅｎａｒｄＲｏｓｎｅｒ．ＦｕｎｄａｍｅｎｔａｌｓｏｆＢｉｏｓｔａｔｉｓｔｉｃｓ．５ｔｈｅｄ．Ｂｒｏｏｋｓ／Ｃｏｌｅ，２０００．
２．孙尚拱．生物统计学基础．北京：科学出版社，２００４．３．舢ａｎＡｇｒｅｓｔｉ．Ａｎｉｎｔｒｏｄｕｃｔｉｏｎｔｏｃａｔｅｇｏｒｉｃａｌｄａｔａａｎａｌｙｓｉｓ．ＮｅｗＹｏｒｋ：
万方数据
ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＨｅａｌｔｈＳｔａｔｉｓｔｉｃｓｔＯｃｔ２００６，Ｖ０１．２３，Ｎｏ；
ｔａｂｌｅｓＡ＊Ｂ／ａｇｒｅｅ；
ｗｅｉｇｈｔｆｒｅｑ；
ＳＰＳＳｌ３．０及ＳＡＳ９．０软件应用ＳＰＳＳｌ３．０软件应用例１中令变量Ａ为“电子血压计”，变量Ｂ为“水银血压计”，变量Ａ与Ｂ的取值为１＝高血压，２＝正常血压；变量ｆｒｅｑ表示相应的频数（图１）。在统计分析前，需要进行数据的预处理：用“ｗｅｉｇｈｔｃａｓｅｓ”命令，以＃ｅｑ为加权变量进行加权。
Ｙｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ．１９８１．
（实际工作中通常为两样本率或构成比的比较），则采用ＭｃＮｅｍａｒ卡方检验。大多数的国内医学统计书籍

SPSS生物统计分析示例1-基本统计分析

SPSS统计分析示例例一：对两个品系小麦栽培观察测量数据如下：随机调查20株，品系I感染病菌4株，品系II感染病菌7株。

请对上述数据进行数据描述与统计分析。

1．对两个品系小麦栽培观察测量数据的统计分析数据文件“xiaomai-2.sav”统计描述：(1)Data →Split file by “品系”(2)Analyze → Descriptive statistics → Descriptives分别对品系I、II的统计描述：绘图（bar chart with error-bar）：Graphs → Interactive →Bar…对两个品系株高、穗长和穗重进行平均值t 检验:Analyze →Compare Means → Independent-samples T test…按品系不同分组’Grouping’，分别比较株高、穗长、穗重SPSS输出：汇总表：品系I 品系II t 株高cm(M±SD) 121.80±16.98 96.40±5.89 4.468**穗长cm(M±SD) 41.50±4.48 38.40±9.74 0.914穗重g (M±SD) 1.54±0.28 1.45±0.48 0.511**:P<0.01从t检验的结果看：（1）株高数据不满足方差齐性，用近似t检验，t=4.468 (df=11.136), 双侧检验P=0.001<<0.01，两品系的株高具有极显著差异，品系I株高显著大于品系II（2）穗长数据不满足方差齐性，用近似t检验，t=0.914 (df=12.640), 双侧检验P=0.378>0.05，两品系的穗长无显著差异（3）穗重数据满足方差齐性，用t检验，t=0.511 (df=18), 双侧检验P=0.615>0.05，两品系的穗重无显著差异对株高、穗重、穗长两两间做相关、回归分析：Analyze →Correlate →Bivariate…(1)穗长、穗重（n=20）穗长、穗重相关关系极显著（相关系数r=0.972，P<<0.01）建立直线回归方程并作图：Graphs → Interactive →Scatterplot…结果输出：穗重（g）(2)穗长、株高（n=20）穗长、株高之间无显著相关（相关系数=0.238，P=0.312>0.05）(3)穗重、株高（n=20）穗重、株高之间无显著相关（相关系数=0.219，P=0.354>0.05）随机调查20株，品系I感染病菌4株，品系II感染病菌7株。

交叉列联分析

66
75
57
79
80
60
73
实际频数
32
反对该
方案
期望频数
34
45
33
31
40
30
37
ppt课件完整
20
检验统计量
r
2
c ( fij eij )2
i1 j1
eij
其自由度为(r 1)(c 1) 式中：fij — 列联表中第i行第j列类别的实际频数
eij — 列联表中第i行第j列类别的期望频数
结果分析
值
df
渐进 Sig. (双侧)
Pearson 卡方
225.274a
8
.000
似然比
230.166
8
.000
线性和线性组合
137.494
1
.000
有效案例中的 N
2885
a. 0单元格(.0%)的期望计数少于5。最小期望计数为14.15。
2统计量的值为225.274，相应的p值为0.000。由于p值远远小于通常使用的显著性水平，因此检验的结论是拒绝原
33.6
83
292
79
138.0
261.1
54.9
14
73
30
35.6
67.3
14.2
136
419
99
198.8
376.1
79.1
877
1659
349
ppt课8件7完7整.0
1659.0
349.0
合计 1382
1382.0 278
278.0 454
454.0 117
117.0 654

列联表分析spss步骤

【Exact钮】
• 针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptotic only）、蒙特卡罗模拟（Monte Carlo）或确切计算（Exact）。蒙特卡罗模拟默认进行10000次模拟，给出99%可信区间；确切计算默认计算时间限制在5 分钟内。这些默认值均可更改。
【Statistics钮】
• 弹出Statistics对话框，用于定义所需计算的统计量。
• o Chi-square复选框：计算X2 值。
• o Correlations复选框：计算行、列两变量的Pearson相关系数和 Spearman等级相关系数。
• o Norminal复选框组：选择是否输出反映分类资料相关性的指标，很少使用。
Crosstabs过程不能产生一维频数表（单变量频数表），该功能由Frequencies过程实现。
界面说明
【Rows框】 • 用于选择行*列表中的行变量。 • 【Columns框】 • 用于选择行*列表中的列变量。 • 【Layer框】 • Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中
注意事项
• 如何选用上面众多的统计结果令许多初学者头痛，实际上我们只需要在
• 未校正卡方、 • 校正卡方和 • 确切概率法三种方法之间选择即可，其余的对我们而言
用处不大，可以视而不见。
假设三个变量分别名为R、C和W，则数据集结构和命令如下：
R
C
W
1.00
1.00
54.00
1.00
2.00
44.00
2.00
1.00
8.00
2.00
2.00
20.00
1.
Data==>Weight Cases

Crosstabs 列联分析

1、crosstabs列联分析——相关分析在问卷调查、产品检验、医学统计等领域，长需对问题按两个或多个不同的特征进行分类，然后对样本进行交叉汇总后就得到了各种各样的列联表。

一般对列联表的统计分析只着重于分类特征之间是否相互依赖，或者说相互独立，此时可借助卡方检验，也可计算相关系数做相关分析，还可根据不同数据类型给出相应的关联系数。

卡方检验是统计判断是否相互依赖，计算相关系数和关联系数是判断和衡量相关或依赖关系的倾向和程度。

不同数据类型间的相关系数或关联系数合理选择列于下表：关于卡方检验、相关系数或关联系数的细节介绍可参考：列联表分析及在SPSS中的实现pdf文件和相关分析案例PPT文件。

SPSS中Crosstabs工具执行列联分析，其选项中Statistics如下图所示：上图指出：名义变量间、顺序变量间、名义变量和区间变量间可选的关联系数，可参考上面表理解。

对上图，Spss的帮助文件解释如下：Chi-square. 对2x2的列联表, 选Chi-square 来计算 Pearson 卡方值, 似然比卡方值, Fisher's 精确检验, and Yates' 修正后卡方值 (连续修正). 对 2 x 2 列联表, 当表中有一个单元格的期望频率少于5时，进行Fisher's 修正检验，其他情况计算 Yates' 修正卡方值。

对那些有任意数目的行和列的表，选择 Chi-square 计算 Pearson 卡方值和似然比卡方值。

当表的变量是数量型的， Chi-square 执行线线关联检验。

.Correlations. 当表的行列中的值都是可排序的， Correlations 计算 Spearman's 修正系数, rho (仅对数字数据). Spearman's rho 是变量秩序间的关联测度. 当变量都是数量型的, Correlations 计算Pearson 相关系数, r, 测度变量间线性相关系数。

SPSS列联表分析

设置好后，点击“确定”按钮，SPSS将自动进行列联表
分析。
打开SPSS软件，点击“文件” 菜单，选择“新建”，然后
选择“数据视图”。
在变量视图界面，点击 “新建变量”按钮，设置变量名称、类型、标签等
信息。
在数据视图界面，输入数据，每行代表一个观测值，每列
代表一个变量。
在列联表对话框中，设置行变量和列变量，以及单元格
卡方检验的公式为：卡方值 = Σ[(观测值 - 期望值)^2 / 期望值]
卡方检验的显著性水平通常设定为0.05，当卡方值大于显著性水平时，可以拒绝原假设，认为两个变量之间存在显著性关联。
独立性：两个变量之间相互独立，不存在因果关系
方差齐性：两个变量的方差应该相等
添加标题
添加标题
添加标题
添加标题
列联表制作：使用 SPSS软件制作列联表
添加标题
列联表分析：对列联表进行卡方检验、相关性分析等
添加标题
结果解释：根据分析结果，解释行变量和列变量之间的关系
添加标题
结论与建议：根据分析结果，提出结论和建议
卡方检验是一种用于检验两个分类变量之间是否存在关联的统计方法。
卡方检验的基本思想是通过比较观测值和期望值的差异，来判断两个变量之间是否存在显著性关联。
列联表分析的结果需要结合实际情况进行解释，不能简单地根据统计数据得出结论。
结果解释需要结合其他相关因素，如样本量、数据来源、研究目的等，进行全面分析。
添加标题
添加标题
添加标题
添加标题
在解释结果时，需要注意到数据的代表性和可靠性，避免过度解读或误读数据。
在解释结果时，需要注意到数据的局限性，如数据收集过程中的偏差、数据质量等问题，避免盲目相信统计结果。

交叉汇总与关联分析Crosstabs的应用

第六讲交叉汇总与关联分析（Crosstabs的应用）主要用于研究两个变量之间是相互独立还是存在某种关系，有没有关系，关系程度怎么样。

最适合于分析两个定类变量之间的关系，但是通过对变量的处理，也可以适合于分析测量层次更高级别的变量。

一、变量及其测量层次变量：被操作化了的概念，是可以直接观察的，在经验研究中，在不同的状态下有不同的属性，科学研究一定要使用变量的语言，一定要有操作化。

变量从它测量的层次上看，可以区分为四种类型：定类变量（Nominal ）：区分现象、事物的不同性质，而不能从规模大小等方面进行区分，=≠性别（男，女）收入（有收入，无收入）、民族等定序变量（Ordial）：当变量不仅区分了对象的属性、特征，还区分出大小、强弱、高低次序时，就是定序变量。

=≠< >如社会地位、文化水平、社会态度、收入等定距变量（Interval）：除了类别、次序属性以外，取值之间的距离还可以用标准化的距离去测量，可以进行加减的运算。

年龄定比变量（Ratio）：除了以上三类变量提到的属性，定比变量取值可以构成一个有意义的比率。

如智商。

各个变量之间的关系及其测量：定类——定类——列联表、交互分析定序——定序——等级分析定距——定距——回归与相关（简单与多元）定类——定距——方差分析定类——定序——非参数检验二、交叉汇总表的一般形式及其特点的上面，因变量放在表的旁边条件分布：将其中一个变量控制起来，再看另外一个变量的分布，可以得到条件分布，如可以对自变量的同一取值作条件分布，进行分析。

三、如何获得交叉汇总表Analyze-----Descriptives----Crosstabs----出现对话框：●ROWS这个框中的变量作为交互表中的行变量（一般放因变量Y，y1, y2,y3--）●Column框，这个框中的变量作为交互表中的列变量(一般放自变量X,x1,x2,x3…)●Layer框：框中的变量作为控制变量，决定交互表的层，可以多个控制变量。

第七章列联表分析

第七章列联表分析7.1 列联表(Crosst‎a bs)分析的过程7.2 列联表的实例‎分析7.1 列联表 (Crosst‎a bs) 分析的过程列联表分析的‎过程是对两个‎变量之间关系‎的分析方法。

被分析的变量‎可以是定类变‎量也可以是定‎序变量。

系统是通过生‎成列联表对两‎个变量进行列‎联表分析的。

列联表分析的‎功能可以通过‎下述操作来实‎现。

图7-1 列联表分析对‎话框1．打开列联表分‎析对话框执行下述操作‎：Analyz‎e→Descri‎p tive→Crosst‎a bs 打开Cros‎s tabs 对话框如图7‎-1 所示。

2．确定列联分析‎的变量从左侧的源变‎量窗口中选择‎两个定类变量‎或定序变量分‎别进入Row‎(s)（行）窗口和Col‎u mn(s)（列）窗口。

进入Row(s)窗口的变量的‎取值将作为行‎的标志输出，而进入Col‎u mn(s)窗口的变量的‎取值将作为列‎的标志输出。

Displa‎y cluste‎r ed bar charts‎是在输出结果‎中显示聚类条‎图。

Suppre‎s s table 是隐藏表格，如果选择此项‎，将不输出R×C 列联表。

3．选择统计分析‎内容单击stat‎i stics‎按钮，打开stat‎i stics‎对话框，如图7-2 所示。

图7-2stati‎s tics 对话框下面介绍该对‎话框中的选项‎和选项栏的内‎容：(1)Chi-square‎是卡方（X2）值选项,用以检验行变‎量和列变量之‎间是否独立。

适用于定类变‎量和定序变量‎。

(2)Correl‎a tions‎是皮尔逊（Pearso‎n）相关系数r 的选项。

用以测量变量‎之间的线性相‎关。

适用于定序或‎数值变量（定距以上变量‎）。

(3）Nomina‎l是定类变量选‎项栏。

选项栏中的各‎项是当分析的‎两个变量都为‎定类变量时可‎以选择的参数‎。

1)Contin‎g ency coeffi‎c ient：列联相关的C‎系数，由卡方系数修‎正而得。

第八章二维列联表：双变量关系考察

萨默斯 d 系数也用于测量两个有序分类变量（等级变量）的关联度；
萨默斯 d 系数的取值范围是；+1 表示完全正关联，-1 表示完全负关联，0 表示无关联； 1 ~ 1
定类变量
误差减少比例 PRE λ系数
定序变量
γ 系数萨默斯 d 系数
取值范围
0 ~1
————
0 ~1
———— 不说明一定完全无关联关系性很强
75 98 37 200
分类变量的关系测量
一．
定类变量 1.误差减少比例 2. λ系数定序变量 1. γ 系数 2. 萨默斯 d 系数
二．
误差减少比例
在预测变量 Y 的值时，知道变量 X 的值时所减少的误差 E1 E2 与总误差 E1 的比值称为误差减少比例（proportional reduction of error）， E E2 简称 PRE。公式为 PRE 1 E1 PRE 的取值范围为 0 ~ 1 ； PRE 值越大，变量 X 与变量 Y 之间的相关性越大； PRE 值越小，变量 X 与变量 Y 之间的相关性越小。
合计 125 — —
总百分比反对政策人数（人）
行百分比列百分比总百分比合计（人）总百分比
34.0% 34
45.3% 33.3% 17.0% 102 51.0%
28.5% 41
54.7% 41.8% 20.5% 98 49.0%
62.5% 75
— — 37.5% 200 100.0%
期望值的分布
其中，N s 表示同序对数目； N d 表示异序对数目； T x 表示只在 x 变量上同分的对数； T y 表示只在 y 变量上同分的对数。
萨默斯 d 系数对等级相关系数的分母作了两个方向的修正，并分别给出了 D yx 和 Dxy 系数；萨默斯 d 系数具有误差减少比例 PRE 的意义；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计（其余的省约）统结果分析：
华从交叉表（Crosstab）对角线中看出，只有“五月气温与玉米螟卵高峰发生期”对角线上
出现的频数大于期望值（5＞2.7，3＞2.0，3＞1.3）。
中从卡方检验表得知，也只有“五月气温与玉米螟卵高峰发生期”能通过线性间的联合检验
（Linear-by-Linear Association），双尾检验 p＜0.012。
中华统计学习网
圣才学习网
中华统计学习网
圣才学习网
在结果窗口中查看计算结果，主要输出内容如下。五月气温 * 玉米螟卵高峰发生期 Crosstab
玉米螟卵高峰发生期
Total
习学计统华中
Chi-Square：卡方检验。选中可以输出皮尔森卡方检验（Pearson）、似然比卡方检验（Likelihood-ratio）、连续性校正卡方检验
（Continuity Correction）及 Fisher 精确概率检验（Fisher’s Exact test）的结果。 Correlations：选中输出皮尔森（Pearson）和 Spearman 相关系数，用以说明行变量和
1）输入分析数据
67
1 3 1 2 1
om 69 70 71 72 73 74 75 76 77 tj.c 3 2 1 2 2 3 2 2 1 0 1 2 3 1 1 1 2 2 1 0 1 1 2 3 1 1 1 1 2 10 2 1 2 1 2 3 2 3 1 www. 1 3 1 1 2 1 1 1 1
6 月 20 日 6 月 21-25 6 月 25 日
前
日
以后
Hale Waihona Puke 16.5 以下 Count（频数） 1
Expected
五月
Count（期望值）
气温 16.6-17.8 Count（频数） 2
Expected
Count（期望值）
17.8 以上 Count（频数） 5
Expected
Count（期望值）
Total
中华统计学习网
圣才学习网
3）设置分析变量 0t 选择行变量：将“五月气温[x1]，六月上气温[x2]，六月上降雨[x3]，六月中降雨[x4]”变 0 量选入“Rows：”行变量框中。 0 选择列变量：将“玉米螟卵高峰发生期[y]”变量选入 “Columns：”列变量框中。 1 4）输出条形图和频数分布表 w. Display clustered bar charts：选中显示复式条形图。 w Suppress table：选中则不输出多维频数分布表。。 w 5）统计量输出网点击“Statistics”按钮，弹出统计分析对话框（如下图）。
列变量的相关程度。
中华统计学习网
圣才学习网
中华统计学习网
圣才学习网
Nominal：两分类变量的关联度（Association）测量 Contingency Coefficient：列联系数，其值越大关联性越强。 Phi and Cramer’s V：Cramer 列联系数，其值越大关联性越强。 Lambda：减少预测误差率，1 表示预测效果最好，0 表示预测效果最差。 Uncertainty Coefficient：不定系数
均气温 x2（℃）分为 3 级（1 级为 20℃以下，2 级为 20.1-21.5℃，3 级为 21.5℃以上），6
月上旬降雨量 x3（mm）分为 3 级（1 级为 15mm 以下，2 级为 15.1-30mm，3 级为 30mm 以
上），6 月中旬降雨量 x4（mm）分为 3 级（1 级为 29mm 以下，2 级为 29.1-36mm，3 级为
中华统计学习网
圣才学习网
列联表分析（Crosstabs）
列联表是指两个或多个分类变量各水平的频数分布表，又称频数交叉表。SPSS 的
Crosstabs 过程，为二维或高维列联表分析提供了 22 种检验和相关性度量方法。其中卡方检
验是分析列联表资料常用的假设检验方法。
m Kappa：吻合度系数，其取值-1 至＋1，其值越大吻合程度越高。 o Risk：危险度分析。 c McNemar：配对计数资料的卡方检验。 . Cochran’s and Mantel-Haenszel statistics：检验在协变量存在下，两个二分类变量是否 j 独立。 0t 6）设置列联表的显示 www.100 单击“Cells”按钮，弹出列联表显示内容对话框（如下图）。
Ordinal：两有序分类变量（等级变量）的关联度测量 Gamma：关联度，＋1 表示完全正关联，-1 表示负关联，0 表示无联。 Somers’d：列联度，其取值范围和意义同上。 Kendall’s tau-b：
Nominal by Interval：一个定性变量和一个定量变量的关联度 Eta：关联度统计量。
例子：山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期 y 为 3 级（1 级
为 6 月 20 日前，2 级为 6 月 21-25 日，3 级为 6 月 25 日后）；预报因子 5 月份平均气温 x1
（℃）分为 3 级（1 级为 16.5℃以下，2 级为 16.6-17.8℃，3 级为 17.8℃以上），6 月上旬平
36mm 以上）。数据如下表。山东烟台历年观测数据分级表（） 59 60 61 62 63 64 65 66
年份 y 13113112 x1 3 2 2 3 1 3 2 3 x2 1 2 3 1 1 2 2 1 x3 3 1 1 3 1 2 1 3 x4 3 1 1 1 1 1 1 1 注：摘自《农业病虫统计测报》131 页。
Count（频数） 8
Expected
Count
Chi-Square Tests
Value
df
Pearson Chi-Square 皮尔森卡方检验
7.750（a）
4
2
3
6
2．7
2．0
1．3
6．0
3
1
6
m 2．7
2．0
1．3
6．0
co 1
0
6
. 2．7
2．0
1．3
6．0
0tj 6
4
18
0 8．0
6．0
中华统计学习网
圣才学习网
中华统计学习网
圣才学习网
Adj．Standardized：调整的标准化残差分析。 Noninteger Weights： ⊙ Round cell counts：临近列计算。 ○ Truncate cell counts：。 ○ Round case Weights 临近记录度量 ○ Truncate case Weights ○ No adjustments：不调整。 7）设置输出格式单击 Format 按钮，弹出列联表输出格式对话框（如下图）。
4．0
18．0
w.10 Asymp．Sig．（2-sided） ww．101
Likelihood Ratio 似然比卡方检验 8.510
网 4
．075
Linear-by-Linear Association N of Valid Cases
习 6.248
1
学 18
．012
a 9 cells （100.0%）have expected count less than 5．The minimum expected count is 1．33．
Row Order：频数 0 ⊙ Ascending：行变量从小到大升序排列。 0 ○ Descending：行变量从大到小降序排列。 1 8）设置检验 www. 单击“Exact”按钮，弹出精确检验对话框（如下图）。
网习学计统华中
⊙Asymptotic only 近似的，系统设置。 ○Monte Carlo Confidence level：99% 置信度，系统默认 99%。 Number of samples：10000 样本数量，系统默认 10000。 ○Exact Time limit per test：5 minutes 限时检验时间，系统默认值 5 分钟。 9）提交执行设置完成后，在列联表分析对话框中，点击 OK 按钮，计算结果输出在结果窗口中。 10）结果与分析
网习学计统华中 Counts：频数
Observed：观测频数。 Expected：期望频数。 Percentages：百分比 Row：占本行的百分比。 Column：占本列的百分比。 Total：占全部的百分比。 Residuals：残差分析 Unstandardized：非标准化残差分析。 Standardized：标准化残差分析。
在数据编辑器窗口打开“data1-3．sav”数据文件。
数据文件中变量格式如下：
网
习
学
计
统
华
中
2）调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令，弹出列联表分析对话框，如下图
中华统计学习网
圣才学习网
因此，玉米螟卵高峰发生期与五月气温有密切的关系，五月气温越高，发生越早。
中华统计学习网
圣才学习网

2 列联表分析(Crosstabs)

合集下载

交叉列联分析

用iReport制作交叉表(CrossTabs)

SPSS统计分析教程列联表分析

描述性统计

描述性统计

交叉列联分析

SPSS 教程第三章基本分析

配对设计2×2列联表的精确检验方法及应用

SPSS生物统计分析示例1-基本统计分析

交叉列联分析

列联表分析spss步骤

Crosstabs 列联分析

SPSS列联表分析

交叉汇总与关联分析Crosstabs的应用

第七章列联表分析

第八章二维列联表：双变量关系考察

文档推荐

最新文档

2 列联表分析(Crosstabs)

合集下载

交叉列联分析

用iReport制作交叉表(CrossTabs)

SPSS统计分析教程列联表分析

描述性统计

描述性统计

交叉列联分析

SPSS 教程 第三章 基本分析

配对设计2×2列联表的精确检验方法及应用

SPSS生物统计分析示例1-基本统计分析

交叉列联分析

列联表分析spss步骤

Crosstabs 列联分析

SPSS列联表分析

交叉汇总与关联分析Crosstabs的应用

第七章列联表分析

第八章 二维列联表：双变量关系考察

文档推荐

最新文档

SPSS 教程第三章基本分析

第八章二维列联表：双变量关系考察