非参数统计列联表卡方检验
- 格式:doc
- 大小:516.20 KB
- 文档页数:16
非参数检验(卡方检验),实验报告评分大理大学实验报告课程名称生物医学统计分析实验名称非参数检验(卡方检验)专业班级姓名学号实验日期实验地点2015—2016 学年度第学期一、实验目得对分类资料进行卡方检验。
二、实验环境1、硬件配置:处理器:Intel(R)Core(TM)i5-4210U CPU 1、7GHz 1、7GHz 安装内存(RAM):4、00GB系统类型:64 位操作系统 2、软件环境:IBM SPSS Statistics 19、0 软件三、实验内容(包括本实验要完成得实验问题及需要得相关知识简单概述)(1)课本第六章得例 6、1-6、5 运行一遍,注意理解结果;(2)然后将实验指导书得例 1-4 运行一遍,注意理解结果。
四、实验结果与分析(包括实验原理、数据得准备、运行过程分析、源程序(代码)、图形图象界面等)例例 6、1 表 1 灭螨A A 与灭螨B B 杀灭大蜂螨效果得交叉制表效果合计杀灭未杀灭组别灭螨A 32 12 44 灭螨B 14 22 36 合计 46 34 80 分析: 表1就是灭螨A与灭螨B杀灭大蜂螨效果得样本分类得频数分析表,即交叉列联表。
表 2 卡方检验X2 值df 渐进Sig、(双侧)精确Sig、(双侧)精确Sig、(单侧)Pearson 卡方 9、277a1、002连续校正b7、944 1、005似然比 9、419 1、002Fisher 得精确检验、003、002 有效案例中得 N 80a、0 单元格(、0%)得期望计数少于5。
最小期望计数为15、30。
b、仅对 2x2 表计算分析: 表2就是卡方检验得结果。
因为两组各自得结果互不影响,即相互独立。
对于这种频数表格式资料,在卡方检验之前必须用“加权个案”命令将频数变量定义为加权变量,才能进行卡方检验。
Pearson 卡方:皮尔逊卡方检验计算得卡方值(用于样本数n≥40且所有理论数E≥5);连续校正b : 连续性校正卡方值(df=1,只用于2*2列联表);似然比:对数似然比法计算得卡方值(类似皮尔逊卡方检验);Fisher 得精确检验:精确概率法计算得卡方值(用于理论数E<5)。
列联表的卡方检验
列联表的卡方检验是一种用于检验两个分类变量之间是否存在关联性的统计方法,通常适用于二维列联表。
而在实际操作中,我们需要根据数据情况制作列联表,然后进行卡方检验,以便更加准确地得出结论。
列联表的制作通常需要根据研究问题把样本数据列出,将两个变量组成表格,以检验它们之间是否存在关联关系。
一般而言,列联表的行和列代表变量的不同水平,而每个单元格内则表示对应变量水平之间的交叉频数。
在进行卡方检验之前,我们需要计算出每个单元格的期望频数。
这可以通过假设两个变量之间没有任何关联关系,然后使用边际频率计算每个单元格的期望频数来实现。
接着,我们可以计算出卡方值,其公式为:
$\chi^2 = \sum \frac{(O - E)^2}{E}$
其中,$O$ 表示观察频数,$E$ 表示期望频数,$\sum$ 表示对于所有单元格求和。
最终,我们需要比较卡方值与临界值的大小关系,以决定是否拒绝零假设。
如果卡方值大于临界值,则表明两个变量之间存在关联关系,否则则没有。
总的来说,列联表的卡方检验是一种非常有用的分析方法,可用于检验和探究两个分类变量之间的关系。
但需要注意的是,在进行分析时要对数据进行严格的筛选和处理,以确保结果的准确性。
列联表和卡方检验的定义及应用概述在统计学中,列联表和卡方检验是重要的分析工具。
列联表是用于比较两个或多个变量之间关系的一种表格形式,而卡方检验则是用于检验这些变量之间是否存在显著的关联性。
本文将介绍列联表和卡方检验的定义、原理和应用。
一、列联表1.1 定义列联表是一种展示两个或多个变量之间关系的二元频数表,用于比较不同组别之间的差异。
它通常由两个或多个分类变量和个体数(或频数)组成。
例如,我们可以用一个列联表来比较男女学生在一个考试中的得分情况,或者比较不同疾病在不同年龄段中的发生情况。
1.2 列联表的应用列联表可以用于研究任何两个或多个变量之间的关系。
它可以帮助我们发现隐藏在数据中的模式,并在研究中提供有关变量之间关系的信息。
列联表还可以用于产生一些其他的统计工具,例如卡方检验和残差分析等。
二、卡方检验2.1 定义卡方检验是一种用于分析列联表数据的统计方法。
它基于一个假设:假设两个变量之间不存在显著的关联性。
如果列联表数据显示这种关联性可能存在,则拒绝这个假设,说明两个变量之间存在显著的关联性。
2.2 卡方检验的原理卡方检验的原理很简单。
它比较观测值和期望值之间的差异,其中期望值是假设两个变量之间不存在关系时的期望结果。
卡方值则是这些差异之和的平方除以期望值的总和,其值越大就意味着观测值与期望值之间的差异越大,显著性水平也越高。
2.3 卡方检验的步骤卡方检验可以分为三个主要步骤。
第一,建立研究假设。
我们需要制定研究假设:H0假设两个变量之间不存在关系,H1假设两个变量之间存在关系。
如果我们无法拒绝H0假设,则可以认为数据中不存在两个变量之间的显著关联性。
第二,计算卡方值。
我们需要计算出卡方值。
从列联表中计算每个单元格的观测值和期望值,然后计算出所有单元格观测值和期望值之间的差异。
将这些差异加起来,并用期望值的总和除以卡方值。
如果卡方值越大,则差异越大,两个变量之间的关系也越显著。
通常,我们需要将卡方值与指定的显著性水平进行比较。
非参数检验(卡方检验),实验报告评分大理大学实验报告课程名称生物医学统计分析实验名称非参数检验( 卡方检验)专业班级姓名学号实验日期实验地点20xx—20xx 学年度第2学期一、实验目得对分类资料进行卡方检验。
二、实验环境1 、硬件配置:处理器:Intel(R) Core(TM) i5-4210U CPU 1、7GHz 1、7GHz 安装内存(RAM):4、00GB系统类型:64 位操作系统 2 、软件环境:IBM SPSSStatistics 19、0 软件三、实验内容(包括本实验要完成得实验问题及需要得相关知识简单概述) (1)课本第六章得例6、1-6、5 运行一遍,注意理解结果; (2)然后将实验指导书得例1-4 运行一遍,注意理解结果。
四、实验结果与分析(包括实验原理、数据得准备、运行过程分析、源程序(代码)、图形图象界面等) 例例6 、1 表1 灭螨A A 与灭螨B B 杀灭大蜂螨效果得交叉制表效果合计杀灭未杀灭组别灭螨A 32 12 44 灭螨B 14 22 36 合计46 34 80 分析: 表1就是灭螨A与灭螨B杀灭大蜂螨效果得样本分类得频数分析表,即交叉列联表。
表2 卡方检验X2 值df 渐进Sig、(双侧) 精确Sig、(双侧) 精确Sig、(单侧) Pearson 卡方9、277a1 、002连续校正b7、944 1 、005似然比9、419 1 、002Fisher 得精确检验、003 、002 有效案例中得N 80a、0 单元格(、0%) 得期望计数少于5。
最小期望计数为15、30。
b、仅对2x2 表计算分析: 表2就是卡方检验得结果。
因为两组各自得结果互不影响,即相互独立。
对于这种频数表格式资料,在卡方检验之前必须用“加权个案”命令将频数变量定义为加权变量,才能进行卡方检验。
Pearson 卡方:皮尔逊卡方检验计算得卡方值(用于样本数n≥40且所有理论数E≥5);连续校正b : 连续性校正卡方值(df=1,只用于2*2列联表);似然比:对数似然比法计算得卡方值(类似皮尔逊卡方检验);Fisher 得精确检验:精确概率法计算得卡方值(用于理论数E 不同得资料应选用不同得卡方计算方法。
非参数统计期末大作业一、Wilcoxon符号秩检验某个公司为了争夺竞争对手的市场,决定多公司重新定位进行宣传。
在广告创意中,预计广告投放后会产生效果。
一组不看广告组和一组看广告,抽取16位被调查者,让起给产品打分。
现有数据如下不看广告62 83 96 99 71 60 97 100 看广告87 92 90 86 94 95 82 91 分析广告效应是否显著。
1、手算建立假设:H0:广告效应不显著H1:广告效应显著不看广告组记为x,看广告组记为y。
X Y D=x-y |D| |D|的秩D的符号62 87 -25 25 7 -83 92 -9 9 2.5 -96 90 6 6 1 +99 86 13 13 4 +71 94 -23 23 6 -60 95 -35 35 8 -97 82 15 15 5 +100 91 9 9 2.5 +由表可知:T+=1+4+5+2.5=12.5T-=7+2.5+6+8=23.5根据n=8,T+和T-中较大者T-=23.5,查表得,T+的右尾概率为0.230到0.273,在显著性水平下,P值显然较大,故没有理由拒绝原假设,表明广告效应不显著。
2、Spss在spss中输入八组数据(数据1):选择非参数检验中的两个相关样本检验对话框中选择Wilcoxon,输出如下结果(输出1):RanksN Mean Rank Sum of Ranks 看广告- 不看广告Negative Ranks 4a 3.12 12.50Positive Ranks 4b 5.88 23.50Ties 0cTotal 8a. 看广告< 不看广告b. 看广告> 不看广告c. 看广告= 不看广告由上表,负秩为4,正秩也为4,同分的情况为0,总共8。
负秩和为12.5,正秩和为23.5,与手算结果一致Test Statistics b看广告- 不看广告Z -.771aAsymp. Sig. (2-tailed) .441a. Based on negative ranks.b. Wilcoxon Signed Ranks Test由上表,Z为负,说明是以负秩为基础计算的结果,其相应的双侧渐进显著性结果为0.441,明显大于0.05,因此在的显著性水平下,没有理由拒绝原假设,即表明广告效应不显著,与手算的结论一致。
3、R语言(R语言1)输入语句:x=c(62,83,96,99,71,60,97,100)y=c(87,92,90,86,94,95,82,91)wilcox.test(x,y,exact=F,cor=F)输出结果:Wilcoxon rank sum testdata: x and yW = 33, p-value = 0.9164alternative hypothesis: true location shift is not equal to 0由输出结果可知,P=0.9164,远大于 =0.05,因此没有理由拒绝原假设,即广告效应并不显著,与以上结果一致。
二、Wal d-Wolfowitz游程检验有低蛋白和高蛋白两种料喂养大白鼠,以比较它们对大白鼠体重的增加是否有显著不同的影响,为此对m=10,n=10只大白鼠分别喂养低蛋白和高蛋白两种饲饲料增重量低蛋白X 64 71 72 75 82 83 84 90 91 96 高蛋白Y 42 52 61 65 69 75 78 78 78 81 给定显著性水平=0.05,试用游程检验法检验两种饲料的影响有无显著差异。
1、手算建立假设:H0:两种饲料对大白鼠无显著差异H1:两种饲料对大白鼠有显著差异将X,Y的数据按从小到大混合排列,得X,Y的混合样本序列:Y Y Y X Y Y X X X Y Y Y Y Y X X X X X X 故得游程总数U=6,m=10,n=10,查表得,U=6的概率为0.019,由于是双侧检验,对于显著性水平=0.05,对应的P值为2因此拒绝原假设,即表明两种饲料对大白鼠有显著差异。
2、Spss在spss中输入数据(数据2)在非参数检验中选择两个独立样本检验对话框:在Define Groups输入1和2。
在Test Type选中Wald-Wolfowitz runs。
输出结果如下(输出2):Frequencies分组N增重量 1 102 10Total 20Test Statistics b,cNumber of Runs Z Exact Sig. (1-tailed)增重量Minimum Possible 6a-2.068 .019Maximum Possible 8a-1.149 .128a. There are 2 inter-group ties involving 4 cases.b. Wald-Wolfowitz Testc. Grouping Variable: 分组由上表,P值与手算结果一致,因此也拒绝原假设,即表明两种饲料对大白鼠有显著差异。
三、Kolmogorov-Smirnov检验为了研究两家电信运营商套餐在目标市场的年龄维度上的分布是否相同,该电信运营公司开展了一个社会调查活动。
数据如下:两种通信套餐的用户年龄套餐1 套餐218 2218 4825 5122 3424 4223 2626 443138分析两种套餐的目标市场年龄的分布是否存在显著性差异。
1、手算建立假设:H0:两种套餐的目标市场年龄分布不存在显著差异H1:两种套餐的目标市场年龄分布存在显著差异检验统计量D的计算表年龄f1 f2 S1(x) S2(x) S1(x)- S2(x)18 1 0 1 0 1/7 0 1/718 1 0 2 0 2/7 0 2/722 1 1 3 1 3/7 1/9 20/6323 1 0 4 1 4/7 1/9 29/6324 1 0 5 1 5/7 1/9 38/6325 1 0 6 1 6/7 1/9 47/6326 1 1 7 2 1 2/9 7/9 31 0 1 7 3 1 3/9 6/9 34 0 1 7 4 1 4/9 5/9 38 0 1 7 5 1 5/9 4/9 42 0 1 7 6 1 6/9 3/9 44 0 1 7 7 1 7/9 2/9 48 0 1 7 8 1 8/9 1/9 5117911由上表,找出检验统计量D=max ()()x S x S 21-=7/9,m=7,n=9,mnD=,查表得,相应的P 值为0.008,在5%的显著性水平上,P 值足够小,因此拒绝原假设,表明两种套餐的目标市场年龄分布存在显著差异。
2、 spss输入数据(数据3)在非参数检验中选择两个独立样本检验:对话框:运营商1和2分类的变量输入到Grouping Variable,在Define Groups输入1和2。
在Test Type选中Kolmogorov-Smirnov。
在点Exact时打开的对话框中可以选择精确方法(Exact)。
输出结果如下(输出3);Frequencies运营商N年龄 1 72 9Frequencies运营商N年龄 1 72 9Total 16Test Statistics a年龄Most Extreme Differences Absolute .778Positive .000Negative -.778Kolmogorov-Smirnov Z 1.543Asymp. Sig. (2-tailed) .017Exact Sig. (2-tailed) .008Point Probability .006a. Grouping Variable: 运营商由上表:精确计算的双尾P 值为0.008,与手算结果一致,表明两种套餐的目标市场年龄分布存在显著差异。
四、k个独立样本的Kruskal-Wallis检验为检测四种防护服对人脉搏的影响,找来20人试穿,每种有5人试穿,测量试1、手算建立假设:H0:测得的脉搏没有显著差异H1:测得的脉搏有显著差异防护服1 防护服2 防护服3 防护服418.5 2.5 15.5 206 11 13 178 4 9.5 18.515.5 1 14 79.5 2.5 12 5秩和57.5 21 64 67.5查表:自由度df=3,显著性水平临界值卡方=7.82。
显然,H=7.854>卡方=7.82,所以拒绝原假设,表明四种防护服对脉搏的影响有显著差异。
2、spss输入20个观测值(数据4)在非参数检验中选择k个独立样本检验防护服分组定义为1到4操作如下图:输出结果如下(输出4):Ranks防护服N Mean Rank脉搏 1 5 11.502 5 4.203 5 12.804 5 13.50Total 20Test Statistics a,b脉搏Chi-Square 7.878df 3Asymp. Sig. .049a. Kruskal Wallis Testb. Grouping Variable: 防护服由上表,卡方与手算十分接近,拒绝原假设,即表明四种防护服对脉搏的影响有显著性差异。
3、中位数检验20个数,中位数为115.5,1 2 3 4>115.5 2 1 4 3 10<=115.5 3 4 1 2 105 5 5 5 20计算Q统计量小于卡方=7.82,没有理由拒绝原假设,表明四种防护服对脉搏的影响没有显著差异。
Spss:在test type中选择中位数,输出结果如下:Test Statistics b脉搏N 20Median 115.50Chi-Square 4.000adf 3Asymp. Sig. .261a. 8 cells (100.0%) have expected frequencies less than 5. The minimum expected cellfrequency is 2.5.b. Grouping Variable: 防护服卡方值为4,与手算结果一致,不拒绝原假设,即表明四种防护服对脉搏的影响没有显著性差异综上,两种算法的结果不一致!!?????4、R语言输入语句(R语言2):x=c(130,111,114,123,115,104,116,106,98,104,123,119,115,120,117 ,133,128,130,112,110)y=c(1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,4,4,4,4,4)kruskal.test(x,y)输出结果:> kruskal.test(x,y)Kruskal-Wallis rank sum testdata: x and yKruskal-Wallis chi-squared = 7.878, df = 3, p-value = 0.0486 与以上的手算和KS检验法结果一致,拒绝原假设,表明四种防护服防护服对脉搏的影响存在显著差异。