2 列联表分析(Crosstabs)
- 格式:pdf
- 大小:264.86 KB
- 文档页数:5
用iReport制作交叉表(CrossTabs) 立方开源商业智能一个CrossTabs是一种在设计的时候既不确定行数和也不确定列数的一种表格,在运行环境下它会像下面显示的不同年份的一个销售报表一样。
CrossTabs在jasperresports中从1.1.0版本时开始提供,同时iReport也从1.1.0开始支持CrossTabs。
Jasperreports的CrossTabs工具允许对行和列的数据进行分组、汇总和自定义每一个cell里的内容。
填充CrossTab的数据可以来自主报表里的dataset或来自subDataset。
使用iReport里提供的向导我们可以简单快速的创建功能强大的交叉报表组件。
一个CrossTabs本质上是一个表格,行和列的数量取决于填充这个表格的数据。
行和列也可以在groups里做聚合操作。
对于每一个行或列的group我们都可以得到一个细节信息和一个可选的行列数据的汇总。
16.1 交叉表向导 (Crosstab wizard)为了说明怎么让一个crosstab工作起来,我们将使用向导创建一个crosstab,当我们在工具条里选择crosstab元素并将其添加到报表中时crosstab的向导会自动启动。
还是以DoradoSample里提供的hsql数据里的employee报为例,我们使用包含下面查询语句的空报表开始:Select * from employee我们把crosstab放在报表的底部:summary band图16.1在第一步里我们需要选择一个dataset来填充crosstab,我们这里使用主报表里提供的dataset,点击下一步继续。
图16.2在第二步里我们需要定义至少一个行分组.我们这里选择对所有记录使用DEPT_ID进行分组。
这样就意味着crosstab的每一行将会采用一个明确的部门编号,这样JasperReports将会使用部门编号对数据集里的数据进行重新整理计算。
2 列联表分析(Crosstabs)列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。
SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。
其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。
预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。
数据如下表。
山东烟台历年观测数据分级表()注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据在数据编辑器窗口打开“”数据文件。
数据文件中变量格式如下:2)调用分析过程在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图3)设置分析变量选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。
4)输出条形图和频数分布表Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。
5)统计量输出点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。
选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
描述性统计分析(Descriptive Statistics)统计分析往往是从了解数据的基本特征开始的。
描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。
两者相互补充,共同反映数据的全貌。
这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。
1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
下面我们通过例子来学习单变量频数分析操作。
1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。
2)调用分析过程在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。
图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。
在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。
4)输出频数分布表Display frequency tables,选中显示。
5)设置输出的统计量单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量:图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏:Quartiles:四分位数,显示25%、50%和75%的百分位数。
Cut points for 10 equal groups:将数据平分为输入的10个等份。
Percentile(s)::用户自定义百分位数,输入值0—100之间。
选中此项后,可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。
SPSS统计分析示例例一:对两个品系小麦栽培观察测量数据如下:随机调查20株,品系I感染病菌4株,品系II感染病菌7株。
请对上述数据进行数据描述与统计分析。
1.对两个品系小麦栽培观察测量数据的统计分析数据文件“xiaomai-2.sav”统计描述:(1)Data →Split file by “品系”(2)Analyze → Descriptive statistics → Descriptives分别对品系I、II的统计描述:绘图(bar chart with error-bar):Graphs → Interactive →Bar…对两个品系株高、穗长和穗重进行平均值t 检验:Analyze →Compare Means → Independent-samples T test…按品系不同分组’Grouping’,分别比较株高、穗长、穗重SPSS输出:汇总表:品系I 品系II t 株高cm(M±SD) 121.80±16.98 96.40±5.89 4.468**穗长cm(M±SD) 41.50±4.48 38.40±9.74 0.914穗重g (M±SD) 1.54±0.28 1.45±0.48 0.511**:P<0.01从t检验的结果看:(1)株高数据不满足方差齐性,用近似t检验,t=4.468 (df=11.136), 双侧检验P=0.001<<0.01,两品系的株高具有极显著差异,品系I株高显著大于品系II(2)穗长数据不满足方差齐性,用近似t检验,t=0.914 (df=12.640), 双侧检验P=0.378>0.05,两品系的穗长无显著差异(3)穗重数据满足方差齐性,用t检验,t=0.511 (df=18), 双侧检验P=0.615>0.05,两品系的穗重无显著差异对株高、穗重、穗长两两间做相关、回归分析:Analyze →Correlate →Bivariate…(1)穗长、穗重(n=20)穗长、穗重相关关系极显著(相关系数r=0.972,P<<0.01)建立直线回归方程并作图:Graphs → Interactive →Scatterplot…结果输出:穗重(g)(2)穗长、株高(n=20)穗长、株高之间无显著相关(相关系数=0.238,P=0.312>0.05)(3)穗重、株高(n=20)穗重、株高之间无显著相关(相关系数=0.219,P=0.354>0.05)随机调查20株,品系I感染病菌4株,品系II感染病菌7株。