当前位置:文档之家› 第七章讲义非参数统计

第七章讲义非参数统计

第七章讲义非参数统计
第七章讲义非参数统计

第七章 非参数统计

非参数统计(亦称非参数检验),是根据样本资料对总体的某

种性质或关系进行假设检验的统计推断方法。

主要特点

(1)不要求总体分布已知或对总体分布作任何限制性假定; (2)不以估计总体参数为目的;

(3)能用于定性变量(即定名测定和序列测定的变量); (4)方法直观,易于理解,运算比较简单。 (5)缺点是检验的功效不如参数检验方法。

本章主要内容

介绍χ2检验、成对比较检验、曼—惠特尼U 检验、游程检验和等级相关检验等几种常用的检验方法。

第一节 χ2检验

一、什么是χ2检验 χ

2

检验是运用χ

2

分布作为理论工具,在非参数统计中可用

于对总体的分布或随机变量的独立性进行的检验。 (一)χ2分布 χ

2

分布是由正态分布推导出来的一种连续型随机变量的概

率分布。 1.χ2分布的数学形式

设随机变量x 1,x 2,…,x k 相互独立且都服从正态分布N (μ,

σ2)。将它们标准化转变为标准正态变量Z 1,Z 2,…,Z k ,k 个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。

21

2

1

2

2

22212

)(1

)(

)(

)(

i

k

i i

k i k Z

x x x x ∑∑===-=

-++-+-=μσσ

μ

σ

μ

σ

μ

χ

χ2~χ2(k),k 是自由度,表示定义式独立变量的个数。

当k=1时,

2.χ2分布的性质

(1)χ2分布的值恒为正值,且 ?(χ2, k) d χ2

=1; (2)χ2分布的数学期望是自由度k ,方差为2k ; (3)χ2分布取决于自由度k ,随着自由度增大而趋于对称。

一般当k ≥30时,χ2分布可用正态分布近似计算。 (二)χ2检验的原理

在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。 设有k 个观察值,f 0为它们的实际频数,f e 为理论频数。构造

一个统计量

数理统计证明,在大量试验中,若f 0与f e 相一致时,χ2服从χ2分布。

(f 0-f e )比较小时,χ2值也较小;(f 0-f e )比较大时,χ2也较

大。当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。

2

22)(Z x =-=σμχ? (χ2)

χ2 (k)

k=15

k=1

k=3

k=5

? (χ2

)

χ2

χ2 0.05(4)

)

(/)(21

2

为自由度k f f f e

e o k

i -=∑=χ∞0

二、拟合优度检验

这是利用随机样本资料对总体是否服从某种理论分布的检

验。

检验步骤

对总体分布建立假设 H 0:总体服从某种理论分布 H 1:总体不服从该理论分布

抽样并对样本 以“原假设H 0 资料编成频数 为真”导出一组 分布(f 0)

期望频数(f e )

比较χ2值与临界值 作出检验判断

注意事项

(1)各组理论频数f e 不得小于5,如不足5,可合并组;

(2)为使组数不致太少,总频数n >50; (3)根据具体情况确定自由度。

三、独立性检验

(1)

(2)

(3)

(4) (6)

是利用样本资料对总体的两个变量的数据是否彼此关联的检

验,如果不关联,即为独立。 检验步骤

要点说明

y 的边缘频数

(2)理论频数E ij 的计算

先求理论频率(作为概率的近似)。概率论中关于概率独立的

基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P (A ·B )=P (A )·P (B )。因此,某一行某一列的联合概率:

(3)自由度(df )的确定 df=(r-1)(c-1)

:r ·c=3×4

Df=(3-1)(4-1)=6

(4)r 2值简算公式

第二节 成对比较检验

一、符号检验

n n n n j i P j

i ?

=),(的概率第n

n n n n n n n E n j i j

i ij =

?=∴)(,理论频数总频数为 r 1 r 2 r 3

总行数

总列数

)

)()()(()(2

2

d c b a d b c a bc ad n x ++++-=

这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。

1、检验内容:检验的两组数据是否有显著差异或两总体的

位置特征(均值、中位数)是否相同。

2、适用条件:关联样本资料;定性变量。

3、方法思想:

设有关联样本的两组成对的数据x i与y i,比较各对的大小。

若x i>y i ,记作“+”;若x i<y i ,记作“-”;

若x i=y i ,删去,并相应减少n对数据。

若两组数据没有显著差异,它们之差的“+”、“-”号的个数应大致相等。出现“+”(或“-”)的概率为0.5。如果一次抽样的随机样本的配对数据中,“+”号出现过多或过少,在一定显著性水平α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。可见,配对符号检验是二项检验的一种应用。

由于P=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理。

4.检验步骤:

1:随机抽取13个单位,放映一部描述吸烟有害健康的影片, 并调查得到观看电影前后各单位职工认为吸烟有害的人

解:H 0:P=0.5 H 1:P ≠0.5

P (13)=0.000 P (12)=0.002 P (11)=0.010 P (10)=0.035

P (13)+P (12)+P (11)=0.000+0.002+0.010=0.012<0.025

P (13)+P (12)+P (11)+P (10)=0.012+0.035=0.047>0.025

可见,拒绝域(双侧)应为0,1,2,11,12,13。

现检验统计量(+)=10 (即10个正号),0.035>0.025 所以,原假设H 0:P=0.5在5%显著性水平上不能被拒绝。 也即不能认为职工在观看影片前后的认识有显著差异。

60名消费者对甲、乙两种品牌的饮料评

分,甲、乙得分之差为“+”号者35个,“-”号15 个,“0”号10个。以显著性水平α=0.05检验两种饮 料是否同等受欢迎。 解:H 0:P=0.5, H 1:P ≠0.5 ∵n >25,∴按正态分布近似处理 该成数抽样分布的均值和标准差分别为

)

5.0,13(,)25.02

(05.0====P n 查二项分布表确定拒绝域由α

α0 1 2 11 12 13 拒绝域 拒绝域 + 071.05

.05.0)1(,5.0=?=-=

==P P S P p p μ

2.82>1.96,所以,拒绝原假设。认为两种饮料并不受到同等

欢迎。且乙种优于甲种。

二、威尔科克森带符号检验(亦称威尔科克森秩和检验) 这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。因此,是一种更为有效的检验方法。

1、应用条件和检验内容与符号检验相同。

2、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为T +)与负号(-)的秩和(记为T -)也应该大致相等。其中之较小者也应趋近于总秩和的平均数( )。若正秩和(T +)与负秩和(T -)相差太大,其中较小者偏离总秩和的平均( )较远,以致超过给定显著性水平α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。

3.检验步骤

82.2071

.05.07.0?7.050/35?)(=-=-===+p S P P

Z P

检验统计量号的成数样本96

.1||,05.02

==ααZ 双侧检验临界值4

)1(+=n n T T

第三节曼—惠特尼U检验

曼—惠特尼U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。

检验步骤:

第四节游程检验

一、什么是游程检验

游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。

设某样本n=12人的标志表现为男、女,有以下三种排列。

(i) 男,男,女,女,女,男,女,女,男,男,男,男

(ii) 男,男,男,男,男,男,男,女,女,女,女,女

(iii) 男,女,男,女,男,女,男,女,男,女,男,男

连续出现男或女的区段称为游程。

每个游程包含的个数为游程长度。

以r表示序列中游程的个数:

(i) r=5, (ii) r=2, (iii) r=11

可以看出,(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。

二、游程检验方法

1.检验总体分布是否相同。

将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。

2.检验样本的随机性

将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。用上下交错形成的游程个数来检验样本是否是随机的。

3.检验规则(小样本。n<20)

应用表La和Lb,(α=0.05,r为临界值)

(1)单侧检验:

观察到的游程个数r o≤临界值(La表)

否定H o

或r o≥临界值(Lb表)

反之,接受H o。

(2)双侧检验:

观察到的游程个数r o

r(La)<r o <r(Lb) 接受H o 下限

上限

反之,拒绝H o

4.大样本(n 1或n 2大于20),游程个数r 近似正态分布,检验统计量

其中:

第五节 等级相关检验

一、等级相关检验的基本原理

将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。 等级相关系数的计算公式 其中d i 为两变量每一对样本的等级之差,n 为样本容量。 等级相关系数与相关系数一样,取值-1到+1之间,区别是它

是建立在等级的基础上计算的,较适用于反映序列变量的相关。

二、等级相关系数的应用

)

1(122

-∑-

=n n d b r i s r

r E r Z σ)

(-=)

1()()2(212)(212212121212

12

1-++--=

++=

n n n n n n n n n n n n n n r E r σ

统计学原理

统计学原理 自评报告 所在院系:经济与管理学院管理学系基层组织:工商管理专业建设组

统计学原理自评报告 一、课程介绍 (一)课程主要内容与教学目的 统计学原理是研究客观事物数量方面的方法论科学,其方法广泛适用于自然,社会,经济,科学技术等各个领域,因此统计学原理是经济管理类专业的主干课程。该课程系统阐述现代统计科学的基础理论和方法。内容包括:统计调查的组织技术,统计整理的方法原则,社会经济统计指标的理论与应用,概率论基础,参数估计和假设检验,非参数统计方法,相关与回归分析,时间序列分析,统计指数和统计决策等。 通过本课程的学习,首先,使学生对统计学的学科体系有一个全面的认识,为学生进一步学习其它专业知识奠定学科基础,并使之具有较完备,合理的知识结构和实践能力。其次,使学生能明确理解统计这个认识工具的特点,作用;弄懂各种概念,范畴等基本知识;掌握运用各种基本方法。再次,培养学生理论联系实际的能力,在今后的实际工作和生活中,能将统计学的知识贯穿其中。最后,还要教会学生理论分析,使他们能够分析社会经济现象的具体事例并能以报告的形式给出分析结果和合理化建议。 (二)课程建设过程与现状 《统计学原理》课程在工商管理、经济学专业开设已10多年,现在已扩展到国际经济与贸易、市场营销、信息系统与信息管理等专业。10多年来,课程专任教师致力于加强优秀课程建设,从教学大纲、教学计划、教案、教学手段、教学辅导、教学实践、教学研究与改革等多方面,进行了积极有效的改革探索。特别是在本科生教育教学中,按照其规律和特点,以就业为导向、以应用能力为标准,加大课程改革力度,完善课程体系建设,强化方法和手段的应用。课程建设取得了阶段性成果。 1、教学内容

《-非参数统计-》课程教学大纲上课讲义

《非参数统计》课程教学大纲 Non-parametric statistics 课程代码:课程性质:专业方向理论课/选修 适用专业:统计开课学期:5 总学时数:32 总学分数:2.0 编写年月:2007.5 修订年月:2007.7 执笔:孙琳 一、课程的性质和目的 本课程是学习非参数统计和了解统计前沿的基本课程。本课程结合S-Plus 或R 软件来讲解非参数统计方法的原理与应用。本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一,理解非参数统计方法和参数统计方法的区别,理解非参数统计的基本概念,掌握非参数统计的基本方法,能应用非参数统计方法去解决实际问题。 二、课程教学内容及学时分配 第一章引言(2学时) 本章内容:统计的概念,非参数统计的方法,参数统计与非参数统计的比较, 本章要求:了解非参数统计的历史,了解非参数统计方法和参数统计方法的区别,认识非参数统计方法的必要性。 第二章 S-Plus基础(6学时) 本章内容:S-Plus环境,向量的定义和表示,向量的基本操作,向量的基本运算,向量的逻辑运算,S-Plus 的图形功能, 本章要求:熟悉在S-Plus命令行中S-Plus基本数据处理,掌握在S-Plus命令行中进行基本数据基本运算,能编写简单的计算函数,会绘制基本图形。 第三章单一样本的推断问题(6学时) 本章内容:单样本推断问题,中心位置推断,符号检验,游程检验,Cox-staut趣势检验,分位数检验,Wilcoxon符号秩检验,分布检验,Kolmogorov-smirnov正态检验,Liliefor正态检验,中位数 检验问题、定性数据检验问题和成对数据检验问题,秩和检验。

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

学年第一学期期末试卷检查工作总结

教学督导组2010-2011学年第一学期 期末试卷检查情况通报 根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求,教学督导组于4月1日至4月15日对全校21个院(系、部)上学期期末考试试卷进行了检查。本次检查按各院(系、部)试卷装订数量10%的比例进行抽查,最低基数为3本,全校共抽查试卷123本。各院系抽查试卷检查情况如下:2010-2011学年第一学期各院(系、部)期末试卷抽查情况一览表

(说明:①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1,总分为各等级的平均分。②公共课试卷命题错误、答案错误,责任在院(系、部),从总分中扣0.1分。) 从抽查结果看,全校总平均分为3.8分,比上学期的3.61分高出0.19分,各等级所占抽查总数比重与上学期相比情况见下表: 2009-2010学年第二学期与2010-2011学年第一学期 试卷抽查结果各等级比重对比表

从上表中可以看出,本学期与上学期相比,A级比重虽稍有下降,但B级比重增长较大,同时,C级、D级和F级的比重均有所减少,总体趋势表明试卷工作整体质量有所提高。 虽然试卷工作整体质量有所提高,但问题仍然较多,为了便于各院(系、部)教学管理人员和全体教师,对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解,我们将本次试卷检查中存在的问题,分类整理如下: 一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致,如:中文系的2本试卷,封面上都是《现代汉语》,但试卷印制的课程名称,一门是《现代汉语(上)》,一门是《现代汉语(下)》,这是2门不同课程的试卷;《大学英语》有(一)、(二)、(三)、 (四)四级,因此,必须在课程名称中标明是几级大学英语。 2.课程代码填写不正确,如政治学系《社会主义市场经济理论与实践》试卷,封面填写的课程代码为“(2010-2011-1)ZJ61010-97074-1”,正确的课程代码是“ZJ61010”。 3.属于集体阅卷,应当在封面上填写“集体阅卷”,或填写每一位阅卷老师的姓名,并在第一张试卷卷首的登分栏中签写全名,以后各试卷上只要签姓即可。化学化工学院《聚合物流变学》试卷中,出现两个阅卷人,但在封面上只填写了一位阅卷教师的姓名,里面的试卷上只签了“杜”,有姓无名。

非参数统计讲义

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1

第一章 绪 论 本章主要内容: 1.非参数方法介绍 2.预备知识 第一节 非参数方法介绍 一. 非参数方法的概念和实例 复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。 先来看两个实例。 例 供应商供应的产品是否合格 某工厂产品的零件由某个供应商供应。合格零件标准长度为(±)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表。 解答: 根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即 X ~),(2σμN 其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。 由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。 则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢这是我们要思考的问题。 我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。 观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多! 统计分析的结论与数据不吻合的!这是什么原因呢 我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概

《非参数统计》与MATLAB编程 第二章 描述性统计

第二章描述性统计 2.1 表格法和图形法 表2.1 灯丝寿命数据 107 73 68 97 76 79 94 59 98 57 73 81 54 65 71 80 84 88 62 61 79 98 63 65 66 62 79 86 68 74 61 82 65 98 63 71 62 116 65 88 64 79 78 79 77 86 89 76 74 85 73 80 68 78 89 72 58 69 82 72 92 78 88 77 103 88 63 68 88 81 64 73 75 90 62 89 71 71 74 70 74 70 85 61 65 81 75 62 94 71 85 84 83 63 92 68 81 62 79 83 93 61 65 62 92 65 64 66 83 70 70 81 77 72 84 67 59 58 73 83 78 66 66 94 77 63 66 75 68 76 73 76 90 78 71 101 78 43 59 67 61 71 77 91 96 75 64 76 72 77 74 65 82 86 79 74 66 86 96 89 81 71 85 99 59 92 94 62 68 72 77 60 87 84 75 77 51 45 63 102 85 67 87 80 84 93 69 76 89 75 59 77 83 68 72 67 92 89 82 96 a = Columns 1 through 17 107 73 68 97 76 79 94 59 98 57 73 81 54 65 71 80 84 79 98 63 65 66 62 79 86 68 74 61 82 65 98 63 71 62 64 79 78 79 77 86 89 76 74 85 73 80 68 78 89 72 58 92 78 88 77 103 88 63 68 88 81 64 73 75 90 62 89 71 74 70 85 61 65 81 75 62 94 71 85 84 83 63 92 68 81 93 61 65 62 92 65 64 66 83 70 70 81 77 72 84 67 59 78 66 66 94 77 63 66 75 68 76 73 76 90 78 71 101 78

第七章讲义非参数统计

第七章 非参数统计 非参数统计(亦称非参数检验),是根据样本资料对总体的某 种性质或关系进行假设检验的统计推断方法。 主要特点 (1)不要求总体分布已知或对总体分布作任何限制性假定; (2)不以估计总体参数为目的; (3)能用于定性变量(即定名测定和序列测定的变量); (4)方法直观,易于理解,运算比较简单。 (5)缺点是检验的功效不如参数检验方法。 本章主要内容 介绍χ2检验、成对比较检验、曼—惠特尼U 检验、游程检验和等级相关检验等几种常用的检验方法。 第一节 χ2检验 一、什么是χ2检验 χ 2 检验是运用χ 2 分布作为理论工具,在非参数统计中可用 于对总体的分布或随机变量的独立性进行的检验。 (一)χ2分布 χ 2 分布是由正态分布推导出来的一种连续型随机变量的概 率分布。 1.χ2分布的数学形式 设随机变量x 1,x 2,…,x k 相互独立且都服从正态分布N (μ, σ2)。将它们标准化转变为标准正态变量Z 1,Z 2,…,Z k ,k 个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。 21 2 1 2 2 22212 )(1 )( )( )( i k i i k i k Z x x x x ∑∑===-= -++-+-=μσσ μ σ μ σ μ χ

χ2~χ2(k),k 是自由度,表示定义式独立变量的个数。 当k=1时, 2.χ2分布的性质 (1)χ2分布的值恒为正值,且 ?(χ2, k) d χ2 =1; (2)χ2分布的数学期望是自由度k ,方差为2k ; (3)χ2分布取决于自由度k ,随着自由度增大而趋于对称。 一般当k ≥30时,χ2分布可用正态分布近似计算。 (二)χ2检验的原理 在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。 设有k 个观察值,f 0为它们的实际频数,f e 为理论频数。构造 一个统计量 数理统计证明,在大量试验中,若f 0与f e 相一致时,χ2服从χ2分布。 (f 0-f e )比较小时,χ2值也较小;(f 0-f e )比较大时,χ2也较 大。当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。 2 22)(Z x =-=σμχ? (χ2) χ2 (k) k=15 k=1 k=3 k=5 ? (χ2 ) χ2 χ2 0.05(4) ) (/)(21 2 为自由度k f f f e e o k i -=∑=χ∞0

学年第一学期期末试卷检查工作总结

学年第一学期期末试卷检 查工作总结 Prepared on 21 November 2021

教学督导组2010-2011学年第一学期 期末试卷检查情况通报 根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求,教学督导组于4月1日至4月15日对全校21个院(系、部)上学期期末考试试卷进行了检查。本次检查按各院(系、部)试卷装订数量10%的比例进行抽查,最低基数为3本,全校共抽查试卷123本。各院系抽查试卷检查情况如下: 2010-2011学年第一学期各院(系、部)期末试卷抽查情况一览表

(说明:①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1,总分为各等级的平均分。②公共课试卷命题错误、答案错误,责任在院(系、部),从总分中扣分。) 从抽查结果看,全校总平均分为分,比上学期的分高出分,各等级所占抽查总数比重与上学期相比情况见下表: 2009-2010学年第二学期与2010-2011学年第一学期 试卷抽查结果各等级比重对比表 从上表中可以看出,本学期与上学期相比,A级比重虽稍有下降,但B级比重增长较大,同时,C级、D级和F级的比重均有所减少,总体趋势表明试卷工作整体质量有所提高。 虽然试卷工作整体质量有所提高,但问题仍然较多,为了便于各院(系、部)教学管理人员和全体教师,对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解,我们将本次试卷检查中存在的问题,分类整理如下: 一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致,如:中文系的2本试卷,封面上都是《现代汉语》,但试卷印制的课程名称,一门是《现代汉语(上)》,一门是《现代汉语(下)》,这是2门不同课程的试卷;《大学英语》有(一)、(二)、(三)、(四)四级,因此,必须在课程名称中标明是几级大学英语。

非参数统计学讲义(第二章)讲稿

非参数统计学讲义 第二章 单样本模型 §1 符号检验和有关的置信区间 在有了一个样本 n X X ,,1 之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样 之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为μ;一个传统的基于正态理论的典型方法是t 检验.它的检验统计量定义为 n s X t /μ-= 这里 X 为样本均值,而2 1 1 )(X X n S -∑-= 为样本标准差。t —检验的统计量在零假设下有n —1个自由度的t —分布。 检验统计量是用样本标准差s 代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。t —检验也许是世界上用得最广泛的检验之一。但是,t —检验并不稳健,在不知总体分布时,特别是小样本时,应用t —检验就可能有风险。这时就要考虑使用非参数方法。对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。 本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了. 一、问题的提出 【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99): 表2-1 生活花费指数数据 66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110 110 110 111 113 115 116 117 118 155 192 在例子中,人们可能会问:①总体的平均(或者中间)水平1 是多少?②北京是在该水平之上还是之下? 可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。一般的统计书中的均值就是一个位置参数.中位数是另一个位置参数.它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差. 这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置. 通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t 检验有关的方法进行的。然而,在本例中,总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。在右边的两个点分别是东京和香港。 1 刻划位置参数的量有:①平均值:∑i x n 1;②中位数:? ??+=++为偶数为奇数n x x n x M n n n 2/)(2/)1()()1(;③修整均值:∑-+=-=j n j i i j n x j T 1)(2)(, 2 n j < ;④众数;⑤中列数:2/)()1()(X X n -。

王静龙《非参数统计分析》课后计算题参考答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1) =0.026625957 S n H me H me P S + ==<≤ 另外:在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设,即中位数低于6500 1.2

统计学原理(精编文档).doc

【最新整理,下载后即可编辑】 统计学原理 自评报告 所在院系:经济与管理学院管理学系 基层组织:工商管理专业建设组

统计学原理自评报告 一、课程介绍 (一)课程主要内容与教学目的 统计学原理是研究客观事物数量方面的方法论科学,其方法广泛适用于自然,社会,经济,科学技术等各个领域,因此统计学原理是经济管理类专业的主干课程。该课程系统阐述现代统计科学的基础理论和方法。内容包括:统计调查的组织技术,统计整理的方法原则,社会经济统计指标的理论与应用,概率论基础,参数估计和假设检验,非参数统计方法,相关与回归分析,时间序列分析,统计指数和统计决策等。 通过本课程的学习,首先,使学生对统计学的学科体系有一个全面的认识,为学生进一步学习其它专业知识奠定学科基础,并使之具有较完备,合理的知识结构和实践能力。其次,使学生能明确理解统计这个认识工具的特点,作用;弄懂各种概念,范畴等基本知识;掌握运用各种基本方法。再次,培养学生理论联系实际的能力,在今后的实际工作和生活中,能将统计学的知识贯穿其中。最后,还要教会学生理论分析,使他们能够分析社会经济现象的具体事例并能以报告的形式给出分析结果和合理化建议。 (二)课程建设过程与现状 《统计学原理》课程在工商管理、经济学专业开设已10多年,现在已扩展到国际经济与贸易、市场营销、信息系统与信息管理等专业。10多年来,课程专任教师致力于加强优秀课程建设,从教学大纲、教学计划、教案、教学手段、教学辅导、教学实践、教学研究与改革等多方面,进行了积极有效的改革探索。特别是在本科生教育教学中,按照其规律和特点,以就业为导向、以应用能力为标准,加大课程改革力度,完善课程体系建设,强化方法和手段的应用。课程建设取得了阶段性成果。

《非参数统计》教学大纲

《非参数统计》课程教学大纲 课程代码:090531007 课程英文名称:Non-parametric Statistics 课程总学时:40 讲课:32 实验:8 上机:0 适用专业:应用统计学 大纲编写(修订)时间:2017.6 一、大纲使用说明 (一)课程的地位及教学目标 《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。课程主要研究非参数统计的基本概念、基本方法和基本理论。本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。 通过本课程的学习,学生将达到以下要求: 1.掌握非参数统计方法原理、方法,具有统计分析问题的能力; 2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力; 3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力; 4.了解非参数统计的新发展。 (二)知识、能力及技能方面的基本要求 1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。 2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。 3.基本技能:掌握非参数统计方法的计算机实现。 (三)实施说明 1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。 2.教学方法:课堂讲授中要重点对基本概念、基本方法和解题思路的讲解;采用启发式教学,培养学生思考问题、分析问题和解决问题的能力;引导和鼓励学生通过实践和自学获取知识,培养学生的自学能力;增加讨论课,调动学生学习的主观能动性;注意培养学生提高利用统计软件分析问题的能力。讲课要联系实际并注重培养学生的创新能力。 3.教学手段:在教学中采用多媒体教学系统等先进教学手段,以确保在有限的学时内,全面、高质量地完成课程教学任务。 (四)对先修课的要求 本课程的教学必须在完成先修课程之后进行,本课程的先修课程为概率论与数理统计。要求学生取得概率论与数理统计课程学分。 (五)对习题课、实践环节的要求 1. 对重点、难点章节应安排习题课,例题的选择以培养学生消化和巩固所学知识,用以解决实际问题为目的。

非参数统计分析方法总结

非参数统计分析方法 一单样本问题 1,二项式检验:检验样本参数是否与整体参数有什么关系。 样本量为n给定一个实数MO(代表题目给出的分位点数),和分位 点口(0.25,0.5,0.75)。用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0:M=M0 HI: M k MO或者M>M(或者M

H1 :不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长) Spss步骤:分析一非参数检验一游程 得出统计量R 和p 值 当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题 1,Brown —Mood 中位数检验 给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,—个为M2 H0:M1=M2. HI: M1H M2或者M1>M或者M1

王静龙非参数统计分析课后计算题参考答案Word版

王静龙《非参数统计分析》课后习题计算题参考答案 习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1)=0.026625957 S n H me H me P S +==<≤ 另外:在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设,即中位数低于6500 1.2

非参数统计讲义

第一章 绪 论 本章主要内容: 1.非参数方法介绍 2.预备知识 第一节 非参数方法介绍 一. 非参数方法的概念和实例 复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。 先来看两个实例。 例1.1 供应商供应的产品是否合格? 某工厂产品的零件由某个供应商供应。合格零件标准长度为(8.5±0.1)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在8.4-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。 解答: 根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即 X ~),(2σμN 其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。 由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。 则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢?这是我们要思考的问题。 我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。 观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多! 统计分析的结论与数据不吻合的!这是什么原因呢? 我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢?答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。

非参数统计部分课后习题参考答案

课后习题参考答案 第一章p23-25 2、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。第一组数据的检验结果为:df=7,t 值为3.4157,单边p 值为0.0056,结论为“拒绝H 0:u=100。”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t 值为3.3290,单边p值为0.0398;结论为“接受H 0:u=100。”(注意:该组均值为74.000)。你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。 答:这个结论不合理(6分)。因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。(4分) 第三章p68-71 3、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。已知1997年的索赔数额的中位数为5064元。 (1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。(10分) (3)找出基于符号检验的95%的中位数的置信区间。(8分) 解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答。(4分) (2)符号检验(5分) 设假设组:H 0:M =M 0=5064 H 1:M ≠M 0=5064 符号检验:因为n +=11,n-=3,所以k=min(n+,n-)=3 精确检验:二项分布b(14,0.5), ∑=-=3 0287 .0)2/1,14(n b ,双边p-值为0.0576,大于a=0.05, 所以在a水平下,样本数据还不足以拒绝零假设;但假若a=0.1,则样本数据可拒绝零假设。查二项分布表得a=0.05的临界值为(3,11),同样不足以拒绝零假设。 正态近似:(5分) np=14/2=7,npq=14/4=3.5 z=(3+0.5-7)/5.3≈-1.87>Z a/2=-1.96 仍是在a=0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。 (3)中位数95%的置信区间:(5064,21240)(8分) 7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0。能否说该信号是纯粹随机干扰?(10分)

非参数统计分析

第十三章非参数统计分析 统计推断方法大体上可分为两大类。第一大类为参数统计方法。常常在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。第二大类为非参数统计方法,着眼点不是总体参数,而是总体的分布情况或者样本所在总体分布的位置/形状。 非参数统计方法大约有8种,可被划分为两大类,处理各种不同情形的数据。 单样本情形: 检验样本所在总体的位置参数或者分布是否与已知理论值相同。 ①Chi-Square过程:针对二分类或者多分类资料 例题1:见书P243。检验样本分布情况是否与已知理论分布相同。运用卡方检验过程。 ②Binomial过程:针对二分类资料或者可转变为二分类问题的资料。 例题2 :见书P246。检验某一比例是否与已知比例相等,运用二项分布过程。练习:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克),数据见非参数。Sav,人们怀疑厂家包装的西洋参片份量不足,要求进行检验。 ③Runs过程:用于检验样本序列是否是随机出现的。二分类资料和连续性资料均可。 游程检验: 游程的含义: 假定下面是由0和1组成的一个这种变量的样本: 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。 游程检验的原理 判断数据序列是否是真随机序列。该检验的原假设为数据是真随机序列,备择假设为非随机序列,在原假设成立的情况下,游程的总数不应太多也不应太少。例题3:见书P247。检验样本数据是否是随机出现的。 例题4:从某装瓶机出来的30盒化妆品的重量(单位克),数据见非参数.sav,为了看该装瓶机是否工作正常。 提示:实际需要验证大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。 ④1-Sample--K –S 过程 原理:单样本的Kolmogorov-Smirnov检验(K-S检验)方法主要针对连续性资料,是用来检验一个样本数据的观测累积分布是否是已知的理论分布。这些

非参数统计教学大纲

《非参数统计》课程教学大纲 一、课程基本信息 课程代码:G05306 课程名称:非参数统计 课程性质:选修课 课程类别:专业与专业方向课程 适用专业:统计学 总学时:48学时 总学分:3学分 先修课程:概率论、数理统计 后续课程:统计预测与决策 课程简介: 非参数统计是与参数统计相比较而存在的统计学一个年轻、活跃而前沿的分支,含有丰富的统计思想并在实践中有着广泛的应用。形成于二十世纪四十年代,在二次世界大战后得到迅速发展,现已成长为一个体系博大、理论精深且富于实用价值的分支,是高等学校统计学专业本科生的一门专业选修课。非参数统计方法不依赖于总体分布及其参数,适用于多种类型的数据,进行统计推断时仅需要一些非常一般性的假设,因而具有良好的稳健型,在总体分布未知的情况下往往比参数统计方法有效。针对非参数统计方法,展开基本理论和方法的学习,课程内容依次介绍计数统计量、秩统计量、线性秩统计量、U统计量、功效函数、检验的渐近相对效率、由经验分布产生的非参数估计、Hodges-Lehmann估计等非参数统计的概念与方法。本课程的教学目的是使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。要求学生掌握本课程的基本知识、基本概念、基本原理和基本方法,能应用非参数统计方法解决一些简单的实际问题;注重学生统计思维能力和实践能力的培养,进一步培养学生重视原始资料的完整性与准确性、对数据处理持严肃认真态度的专业素质。 选用教材: 《非参数统计讲义》,孙山泽[M].北京:北京大学出版社,2002 参考书目: [1]《非参数统计方法》,吴喜之,王兆军[M].北京:高等教育出版社,2006; [2]《非参数统计分析》,王静龙[M].北京:高等教育出版社,2006; [3]《非参数统计方法》,李裕奇[M].北京:国防工业出版社,1998; [4]《非参数统计教程》,陈希孺,柴根象[M].上海:华东师范大学出版社,1993 二、课程总目标 通过本课程的学习,使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。要求学生能够理解掌握非参数统计的基本理论与分析方法,学会统计数据的非参数模型的建立与检验的基本方法,包括计数统计量、秩统计量、线性秩统计量、U统计量、功效函数、检验的渐近相对效率、由经验分布产生的非参数估计、Hodges-Lehmann估计等。从而能应用非参数统计方法

相关主题
文本预览
相关文档 最新文档