实验报告
非参数检验
学院:
参赛队员:
参赛队员:
参赛队员:
指导老师:
目录
一、实验目的 (1)
1.了解假设检验的基本内容; (1)
2.了解卡方检验; (1)
3.了解二项分布检验; (1)
4.了解两个独立样本检验; (1)
5.学会运用spss软件求解问题; (1)
6.加深理论与实践相结合的能力。 (1)
二、实验环境 (1)
三、实验方法 (1)
1.卡方检验; (1)
2.二项分布检验; (1)
3.两个独立样本检验。 (1)
四、实验过程 (1)
问题一: (1)
1.1实验步骤 (2)
1.1.1输入数据 (2)
1.1.2选择:数据 加权个案 (2)
1.1.3选择:分析→非参数检验→旧对话框→卡方 (2)
1.1.4将变量面值放入检验变量列表 (3)
1.1.5观察结果 (3)
1.2输出结果 (3)
1.3结果分析 (3)
问题二: (3)
2.1问题叙述 (3)
2.2提出假设 (4)
2.3实验步骤 (4)
2.3.1导入excel文件数据 (4)
2.3.2二项分布检验 (5)
2.3.3输出结果 (6)
2.4结果分析 (6)
问题三: (6)
3.1实验步骤 (6)
3.1.1数据的输入 (6)
3.1.2选择 (7)
3.1.3检验变量 (7)
3.2输出结果 (7)
3.3结果分析 (9)
五、实验总结 (9)
参数检验
一、实验目的
1.了解假设检验的基本内容;
2.了解卡方检验;
3.了解二项分布检验;
4.了解两个独立样本检验;
5.学会运用spss软件求解问题;
6.加深理论与实践相结合的能力。
二、实验环境
Spss、office
三、实验方法
1.卡方检验;
2.二项分布检验;
3.两个独立样本检验。
四、实验过程
问题一:
1.1实验步骤
1.1.1输入数据
1.1.2选择:数据 加权个案
1.1.3选择:分析→非参数检验→旧对话框→卡方
非参数检验
1.1.4将变量面值放入检验变量列表,期望全距从数据中获取,期望值所有类别相等
1.1.5观察结果
1.2输出结果
1.3结果分析
此处,sig值为0.111>0.05,所以接受原假设,认为样本来自的总体分布形态与期望分布不存在显著差异,则认为该骰子均匀
问题二:
2.1问题叙述
掷一个硬币31次,结果见下表,检验硬币是否均匀
H0:硬币不是均匀的vs H1:硬币是均匀的
2.3实验步骤
2.3.1导入excel文件数据
先将数据输入进excel表格中,用SPSS打开;在SPSS页面点击文件→打开→数据
非参数检验
2.3.2二项分布检验
旧对话框→二项式
选择:分析→非参数检验→
2.3.3输出结果
2.4结果分析
由输出结果知,精确显著性(双侧)=1.000>0.05,所以接受原假设H0,所以硬币不是均匀的。
问题三:
3.1实验步骤
3.1.1数据的输入
将甲、乙两种安眠药编号为1、2,在SPSS页面输入数据
非参数检验
3.1.2选择:分析→非参数检验→旧对话框→2个独立样本
3.1.3检验变量列表选择睡眠延长时数,分组变量选择药品编号(1 2),勾选四个检验类型;
3.2输出结果
Mann-Whitney 检验
检验统计量b
睡眠延长时
数
Mann-Whitney U 21.000
Wilcoxon W 76.000
Z -1.962
渐近显著性(双侧) .050
Moses 检验
频率
药品编号N
睡眠延长时数1 (控制)9
2 (试验)10
总数19
检验统计量a,b
睡眠延长时
数
控制组观察跨度14
显著性(单侧).091
修整的控制组跨度
13 显著性(单侧).570
从每个末端修整的离群者 1
a. Moses 检验
b. 分组变量: 药品编号
非参数检验
Kolmogorov-Smirnov Z 1.088 渐近显著性(双侧) .187 a. 分组变量: 药品编号
Wald-Wolfowitz 检验
频率
药品编号N
睡眠延长时数1 9
2 10 总数19
3.3结果分析
原假设
0:0
d
H m=
备择假设
1:0
d
H m1
由Mann-Whitney检验可以看出0.0530.05
sig=>,甲乙两种药物的疗效有差异;
由Moses检验可以看出0.0910.05
sig=>,甲乙两种药物的疗效有差异;
由双样本Kolmogorov-Smirnov检验可以看出0.1870.05
sig=>,甲乙两种药物的疗效有显著差异;
由Wald-Wolfowitz检验可以看出0.1750.05
sig=>,甲乙两种药物的疗效有显著差异;由以上四个检验综合分析出甲乙两种药物的疗效有显著性差异。
五、实验总结
在假设检验实验的学习中,通过实验操作可使我们加深对假设检验的理解,学习和掌握spss软件的基本方法,并能进一步熟悉和掌握spss软件的操作方法,培养我们分析和解决实际问题的基本技能,提高我们的综合素质;通过实验可以使我们分清卡方检验、二项分布检验、两个独立样本检验,更加全面地理解假设检验,同时也锻炼了同学的动手操作能力,让同学们学会理论与技术相结合共同解决数学上的问题,提高了同学们的综合素质。
北京建筑大学 理学院信息与计算科学专业实验报告 课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423 日期2016 . 3 .17 姓名班级学号指导教师成绩 【实验目的】 (1)熟悉数据的基本统计与非参数检验分析方法; (2)熟悉撰写数据分析报告的方法; (3)熟悉常用的数据分析软件SPSS。 【实验要求】 根据各个题目的具体要求,完成实验报告 【实验内容】 根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告; 根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显著影响,撰写相应的分析报告。 根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显著差异,撰写相应的分析报告。 根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显著影响,撰写相应的分析报告。 根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显著影响,撰写相应的分析报告。 【分析报告】 1. 表一家庭收入和现住面积的基本描述统计量 家庭收入现住面积 N 有效2993 2993 缺失0 0 均值17696.1567 62.7241
均值的标准误279.64310 .47349 中值15000.0000 60.0000 众数10000.00 60.00 标准差15298.80341 25.90383 方差 2.341E8 671.008 偏度 5.546 .910 偏度的标准误.045 .045 峰度55.425 3.078 峰度的标准误.089 .089 百分位数25 10000.0000 45.0000 50 15000.0000 60.0000 75 20000.0000 80.0000 表一说明, 家庭收入方面: 被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元; 家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异; 偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布; 由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下; 现住面积方面: 被调查者中现住面积的均值为62.724平方米,中值为60平方米,普遍面积为60平方米; 现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异; 偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布; 由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。 图一:家庭收入直方图 该图表明,家庭收入分布存在一定的右偏。 图二:现住面积直方图
第一节 非参数检验的基本概念及特点 一、非参数检验 (一)什么是“非参数” 非参数模型:缺乏总体分布模式的信息。 (二)非参数检验的定义 非参数检验:不需要假设总体是否为正态分布或方差是否为齐性的假设检验称非参数检验。 (三)非参数检验的优点和缺点: 1、优点: 一般不涉及总体参数,其假设前提也比参数假设检验少得多,适用面较广。 计算简便。 2、缺点: 统计效能远不如参数检验方法。由于当数据满足假设条件时,参数统计检验方法能够从其中广泛地充分地提取有关信息。非参数统计检验方法对数据的限制较为宽松,只能从中提取一般的信息,相对参数统计检验方法会浪费一些信息。 (四)非参数检验的特点: 1、它不需要严格的前提假设; 2、特别适用于顺序数据; 3、适用于小样本,且方法简单; 4、最大的不足是不能充分利用资料的全部信息; 5、不能处理“交互作用”,即多因素情况。 第二节 两个独立样本的非参数检验方法 一、秩和检验法 秩和即秩次的和或等级之和。秩和检验法也叫Mann-Whitney-Wilcoxon 检验,它常被译为曼-惠特尼-维尔克松检验,简称M-W-W 检验,也称Mann-Whitney U 检验。秩和检验法与参数检验法中独立样本的t 检验法相对应。当“总体正态”这一前提不成立时,不能用t 检验,可以用秩和检验法。 (一)秩统计量 秩统计量指样本数据的排序等级。假设从总体中反复抽取样本,就能得到一个对应于样本容量1n 和2n 的秩和U 的分布。这是一个间断而对称的分布,当1n 和2n 都大于10时,秩和T 的分布近期近似正态分布,其平均数和标准差分别为 () 21211++= n n n T μ ()12121 21++=n n n n T σ 其检验值为
第二讲 非参数检验 1. 实验目的 1.了解非参数假设检验基本思想; 2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS 软件建立数据集,并进行统计分析; 2.掌握proc npar1way 过程进行非参数假设检验的基本步骤; 3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1 符号检验 0:H 两种方法的处理效果无显著性差异 令10 i i I i ?=??第个个体中新方法优于对照方法第个个体中新方法劣于对照方法1,2,,i N =L 统计量1N N i i S I ==∑ N S 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对照方法,则N S 的值应明显偏大。因此,若对给定的置信水平α,有 {}N P S c α≥<, 则拒绝0H 。 0H 为真时,(1)N S 服从二项分布1(,)2 b N (),()24N N N N E S Var S ==。拒绝域为:{}N N S S c > (2)由中心极限定理可知,当2 ,1N N S N - →∞的零分布趋于标准正态分布。
拒绝域为 :N S u α??????>???????? 3.2 Wilcoxon 秩和检验 (1)单边假设检验 0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。 用于检验0H 的统计量为:1n s i i W I ==∑ 若对给定的置信水平α,有 {}s P W c α≥<,则拒绝0H 。且s W 的分布列为: 0#{;,}{}H s w n m P W w N n ==?? ??? 根据观测结果计算s W 的观测值0s W ,计算检验的p 值: 00{}{}s H s s H s k w p P W w P W k ≥=≥= =∑ 然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。 (2)双边假设检验 给定的显著水平21,c c 和α应该满足: ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取 2}{}{2100α =≥=≤c W P c W P A H A H 若利用p 值进行检验,设A A W ω的观测值为,计算概率值 }{}{00A A H A A H W P W P ωω≤≥或 由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。例如
第十一章非参数检验 第一节符号检验 符号检验的方法·符号检验的特点和作用 第二节配对符号秩检验 配对符号秩检验的方法·配对符号秩检验的效力 第三节秩和检验 秩和检验的方法·秩和检验的近似 第四节游程检验 游程的概念·游程检验的方法·差符号游程检验 第五节累计频数检验 累计频数检验的方法·累计频数检验的应用 一、填空 1.非参数检验,泛指“对分布类型已知的总体进行参数检验”()的所有检验方法。 2.符号检验的零假设就是配对观察结果的差平均起来等于()。 3.理论研究表明,对于配对样本非正态分布的差值d,()是最佳检验。 4.秩和检验检验统计量U是U1和U2中较()的一个。 5.秩尺度之统计量的均值和标准差只取决于()。 6.()常被用作经验分布与理论分布的比较。 7.绝对值相等的值,应将它们的秩()。 8.符号检验,在分布自由检验中称为()。 9.符号检验和配对符号秩检验,都只适用于()样本。 10.数据序列ABBABAAABABBABBAAAAAB的总游程数是() 二、单项选择 1.下列检验中,不属于非参数统计的方法的是()。 A总体是否服从正态分布 B 总体的方差是否为某一个值 C 样本的取得是否具有随机性 D 两组随机变量之间是否相互独立 2.下列情况中,最适合非参数统计的方法是()。 A反映两个大学新生成绩的差别 B 反映两个大学新生家庭人均收入的差别 C 反映两个大学三年级学生对就业前景的看法差别 D反映两个大学在校生消费水平的差别 3.不属于非参数检验的是()。 A符号检验B游程检验C累计频数检验 D F检验 4.在累计频数检验中,卡方的自由度为()。 A n1 B 2 C n2 D n1+n2
假设检验(二)——非参数检验 假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。上一节我们所介绍的Z 检验、t 检验,都是参数检验。它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。 非参数检验法与参数检验法相比,特点可以归纳如下: (1)非参数检验一般不需要严格的前提假设; (2)非参数检验特别适用于顺序资料; (3)非参数检验很适用于小样本,并且计算简单; (4)非参数检验法最大的不足是没能充分利用数据资料的全部信息; (5)非参数检验法目前还不能用于处理因素间的交互作用。 非参数检验的方法很多,分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。 一.2 χ检验 2χ检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何 假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。 2χ检验的方法主要包括适合性检验和独立性检验。 (一)2 χ检验概述 2χ是实得数据与理论数据偏离程度的指标。其基本公式为: ∑-=e e f f f 2 02 )(χ (公式11—9) 式中,0f 为实际观察次数,e f 为理论次数。 分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2 χ。观察公式可发现,如果实际观察
实验报告 ——(非参数检验) 实验目的: 1、学会使用SPSS软件进行非参数检验。 2、熟悉非参数检验的概念及适用范围,掌握常见的秩和检验计算方法。 实验内容: 1、某公司准备推出一个新产品,但产品名称还没有正式确定,决定进行抽样调 查,在受访200人中,52人喜欢A名称,61人喜欢B名称,87人喜欢C 名称,请问ABC三种名称受欢迎的程度有无差别?(数据表自建) SPSS计算结果如下: 此题为总体分布的卡方检验。 零假设:样本来自总体分布形态和期望分布没有显著差异。即ABC三种名称受欢迎的程度无差别,分布形态为1:1:1,呈均匀分布。 观察结果,上表为200个观察数据对A、B、C三个名称(分别对应1,2,3)的喜爱的期望频数以及实际观察频数和期望频数的差。从下表中可以看出相伴概
率值为0.007小于显著性水平0.05,因此拒绝零假设,认为样本来自的总体分布与制定的期望分布有显著差异,即A、B、C三种名称受欢迎的程度有差异。 2、某村庄发生了一起集体食物中毒事件,经过调查,发现当地居民是直接饮用 河水,研究者怀疑是河水污染所致,县按照可疑污染源的大致范围调查了沿河居民的中毒情况,河边33户有成员中毒(+)和均未中毒(-)的家庭分布如下:(案例数据run.sav) -+++*++++-+++-+++++----++----+---- 毒源 问:中毒与饮水是否有关? SPSS计算结果如下: 此题为单样本变量值随机检验 零假设:总体某变量的变量值是随机出现的。即中毒的家庭沿河分布的情况随机分布,与饮水无关。 相伴概率为0.036,小于显著性水平0.05,拒绝零假设,因此中毒与饮水有关。 3、某试验室用小白鼠观察某种抗癌新药的疗效,两组各10只小白鼠,以生存日数作为观察指标,试验结果如下,案例数据集为:npara1.sav,问两组小白鼠生存日数有无差别。 试验组:24 26 27 30 32 34 36 40 60 天以上 对照组:4 6 7 9 10 10 12 13 16 16 SPSS计算结果如下: 此题为两独立样本非参数检验。 (1)两独立样本Mann-Whitney U检验:
第二讲非参数检验 1. 实验目的 1. 了解非参数假设检验基本思想; 2. 会用SAS 软件中的proc nparlway 过程进行非参数假设检验和 proc freq 过程 进行列联表的独立性检验。 2. 实验要求 1. 会用SAS 软件建立数据集,并进行统计分析; 2. 掌握proc nparlway 过程进行非参数假设检验的基本步骤; 3. 掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1符号检验 H 0:两种方法的处理效果无显著性差异 令 li = * 1 第i 个个体中新方法优于对照方法 .0 第i 个个体中新方法劣于对照方法 i=1,2,|||,N 统计里S N N =瓦I i i T S N 表示新方法的处理效果优于对照方法的配对组总数。 若新方法的处理效果显著的优于对 照方法,则S N 的值应明显偏大。因此,若对给定的置信水平 [,有 P 「S N - 八 则拒绝H 0。 1 N N (1) S N 服从二项分布b(N ,-) E(S N ) ,Var (S N ) 。拒绝域为: 2 2 4 'S N S N c ; H 。为真时, (2)由中心极限定理可知,当 的零分布趋于标准正态分布