当前位置：文档之家› 非参数统计学讲义(第六章)讲稿2

非参数统计学讲义(第六章)讲稿2

非参数统计学讲义

第六章分布检验和某些卡方检验

§1 引言

本章属于拟合优度检验问题，即模型检验或分布的检验，属于非参数检验的范畴。在初等统计中，人们要想知道数据是否服从某一特定分布，可以通过直方图，或P-P 图，Q-Q 图来直接判断，但这种直观的方式很不精确。

本章将介绍几种分布的检验：K-S 检验，Lilliefors 检验和2χ检验。

实际上，K-S 检验是在针对2χ检验的缺点1

上提出的。它们是建立在经验分布函数基础上的检验结果。

§2 Kolmogorov 检验

一、基本假设

一般地要检验手中的样本是否来自某个已知0()F x ，假定其真实分布为()F x ，对应的检验类型有

00:()()A H F x F x = 对x ? 10:()()H F x F x ≠ 至少有一个x 00:()()B H F x F x = 对x ? 10:()()H F x F x < 至少有一个x 00:()()C H F x F x = 对x ? 10:()()H F x F x > 至少有一个x 设()S x 为该组数据的经验分布函数，则

()

()i i I X x X x S x n n

≤≤=

∑的数目二、基本方法

Kolmogorov 于三十年代提出了一种基于经验分布的检验方法，基本思想是：由格里文科定理，当n →∞时，样本经验分布?n

F 以概率1一致收敛到总体分布F ，为此可以定义()S x 到0()F x 的距离为

00((),())sup ()()D S x F x S x F x =-

当H 0成立时，由格氏定理，D 以概率1收敛到0，因此D 的大小可以度量0()F x 对总体分布拟合的好坏。可供选择的检验统计量分别为；类型A 0()()sup x

D S x F x =-

类型B 0(()())sup x

D F x S x +

类型C 0((()())sup x

S x F x -

2χ检验与K-S 检验均属拟合优度检验，但2χ检验常用于定类尺度测量数据，K-S 检

验还用于定序尺度测量数据；当预期频数较小时，2χ检验常需要合并邻近的类别才能计算，K-S 检验则不需要，因此它能比2χ检验保留更多的信息；对于特别小的样本数目，2χ检验不能应用，而K-S 检验则不受限制。

在实际操作时，如果有n 个观察值，用下面的统计量代替上面的D

(){}

0101max max ()(),()()n i i i i i n

D S x F x S x F x -≤≤=--

NOTE ：①由()S x 的取值是离散的，考虑到跳跃性，该n D 能够保证S 与F 0之间取得最大距离； ②n D 在H 0下的分布有表可查，P201

③在大样本时，有近似分布)()n P d K d <→，这里的分布函数()K d 有表达式，P122，该分布有表可查P203：

三、应用举例

【例6-1】轴承的内径检验

检验某车间生产的20个轴承外座圈的内径，测得数据如下（单位：mm ）

15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41 15.34

14.28

15.01

14.76

14.38

15.87

13.66

14.97

15.29

14.95

按照设计要求，这个内径应在15±0.2mm ，检验是否符合标准，即检验该数据是否来自均值15=，方差220.2=的正态

分布。

由P122表中数据得：200.020.3390.32866D d =>=，拒绝H 0，认为不满足要求。

近似 1.516ξ

==，P-值=0.979＞0.05，接受H 0。

【例6-2】《数理统计与管理》论文作者服从洛特卡分布2

将46期的《数理统计与管理》的文章按第一作者统计，得到表7-2的结果。论文作者数是否服从洛特卡分布。

分析：洛特卡得出这样的一个关系：若以x 表示每一作者所著的论文数，与其相应的写x 篇论文的作者数为y ，则y 与x 成反比关系。即有

m x y N C =

(0.1)

式中，N 为论文总数，m 、C 为两个特定的常数，在不同的学科领域数值不同。

洛特卡定律是1926年6月19日洛特卡（Vlachy ）在美国颇有影响的学术刊物《华盛顿科学院杂志》上首先提出，它第一次提示了作者与文献量的统计规律性。在这之后，洛特卡进一步发展了洛特卡定律，得出这样的一个关系：若以x 表示每一作者所著的论文数，与其相应的写x 篇论文的作者数为y ，则y 与x 成反比关系。

假定根据表6—2提供的数据，认为论文作者服从洛特卡分布，并对其真实性进行检验，首先必须确定它的理论分布，即计算出m 、C 的值。估计m 的值，通常采用最小二乘法。将（6.1）式进行对数变换，使其线性化，得到： ln ln ln y N C m x =-

(0.2) m 相当于一元线性回归方程?Y

a bx =+中的回归系数

b ，根据表中的数据运用最小二乘法，得到m=3.0550。关于C 值，可以用这样一个公式进行近似计算。这是1985年美国情报学家M.L.Pao 教授在数学家的协助之下提出的。计算式为：

1/1/(219)1/[(1)19]/(2419)

m m m x C x

m m +==

++-+∑

经计算，1/(1.19080.0000620.0011460.0000008)0.8389C =+++。因此46期《数理统计与管理》的论文与作者

数的理论洛特卡分布为

3.055()0.8389/f y x =

(0.3)

为了判定《数理统计与管理》论文作者的实际分布是否与理论分布一致，可以采用Kolmogorov 检验。建立的假设组为

00:()()n H S x F x = 对x ?

10:()()n H S x F x ≠ 至少有一个x

理论累积频率0()F x 的各个值，可以将x 分别代入（6.3）式计算得到，实际累积频率是将累计的作者数

y ∑分别除以作者

总人数得到。计算结果，作者实际累积频率及理论累积频率及各个差值如表6-3。

1 2 3 4 5 6 7

0()F x 0.8389 0.9398 0.9690 0.9811 0.9872 0.9907 0.9929 ()n S x 0.8932 0.9635 0.9870 0.9896 0.9922 0.9948 1.0000

根据显著性水平

0.01α=，作者人数384

n y =

=∑，查表，由于

45n >，

得临界

值

0.0832d α==。显然

0.05430.0832D d α=<=

因此数据在1%的显著性水平上不能拒绝H 0，若显著性水平0.05α=，

查表得临界值0.0694d α=。

显然

0.05430.0694D d α=<=

因此，数据在5%的显著性水平上也不能拒绝H 0，可以认为，《数理统计与管理》作者的分布服从洛特卡分布。

§3 Lilliefors 正态性检验

Lilliefors 正态性检验实质上是对Kolmogorov 检验的一个改进。当用Kolmogorov 检验某样本是否来自一正态总体2

(,)

N μσ时，当μ和2

σ未知时，就会用样本均值X 作为总体均值μ的估计，样本方差2S 作为总体方差2σ的估计，从而将数据i X 标准

化为：i X Z

，再用标准正态分布()x Φ作0()F x 来计算K 氏统计量n D 。

但这时统计量n D 在H 0下的分布发生了改变，Lilliefors （1976）对Kolmogorov 的检验临界值表作了修正。

非参数统计题目及答案

1．人们在研究肺病患者的生理性质时发现，患者的肺活量与他早在儿童时期是否接受过某种治疗有关，观察3组病人，第一组早在儿童时期接受过肺部辐射，第二组接受过胸外科手术，第三组没有治疗过，现观察到其肺活量占其正常值的百分比如下：这一经验是否可靠。解： H 0：θ2≤θ1≤θ 3 H 1 :至少有一个不等式成立可得到 N=15 由统计量H= ) 112 +N N （∑=K i i N R 1i 2 -3(N+1)=）（1151512+(32×6.4+29×5.8+59×11.8)-3×(15+1)=5.46 查表（5,5,5）在P(H ≥4.56)=0.100 P(H ≥5.66)=0.0509 即P （H ≥5.46）﹥0.05 故取α=0.05， P ﹥α ，故接受零假设即这一检验可靠。

2.关于生产计算机公司在一年中的生产力的改进（度量为从0到100）与它们在过去三年中在智力投资（度量为：低，中等，高）之间的关系的研究结果列在下表中：值等等及你的结果。（利用Jonkheere-Terpstra 检验）解： H 0：M 低=M 中=M 高 H 1：M 低﹤M 中﹤M 高 U 12=0+9+2+8+10+9+10+2+10+10+8+0.5+3=82.5 U 13=10×8=80 U 23=12+9+12+12+12+11+12+11=89 J= ∑≤j ij U i =82.5+80+89=251.5 大样本近似 Z= []72 )32()324 1 2 1i 22 2∑ ∑==+-+--k i i i k i n n N N n N J （）（～N （0,1）求得 Z=3.956 Ф(3.956)=0.9451 取α=0.05 ， P >α，故接受原假设，认为智力投资对改进生产力有帮助。

《-非参数统计-》课程教学大纲上课讲义

《非参数统计》课程教学大纲 Non-parametric statistics 课程代码：课程性质：专业方向理论课/选修适用专业：统计开课学期：5 总学时数：32 总学分数：2.0 编写年月：2007.5 修订年月：2007.7 执笔：孙琳一、课程的性质和目的本课程是学习非参数统计和了解统计前沿的基本课程。本课程结合S-Plus 或R 软件来讲解非参数统计方法的原理与应用。本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一，理解非参数统计方法和参数统计方法的区别，理解非参数统计的基本概念，掌握非参数统计的基本方法，能应用非参数统计方法去解决实际问题。二、课程教学内容及学时分配第一章引言（2学时）本章内容：统计的概念，非参数统计的方法，参数统计与非参数统计的比较，本章要求：了解非参数统计的历史，了解非参数统计方法和参数统计方法的区别，认识非参数统计方法的必要性。第二章 S-Plus基础（6学时）本章内容：S-Plus环境，向量的定义和表示，向量的基本操作，向量的基本运算，向量的逻辑运算，S-Plus 的图形功能，本章要求：熟悉在S-Plus命令行中S-Plus基本数据处理，掌握在S-Plus命令行中进行基本数据基本运算，能编写简单的计算函数，会绘制基本图形。第三章单一样本的推断问题（6学时）本章内容：单样本推断问题，中心位置推断，符号检验，游程检验，Cox-staut趣势检验，分位数检验，Wilcoxon符号秩检验，分布检验，Kolmogorov-smirnov正态检验，Liliefor正态检验，中位数检验问题、定性数据检验问题和成对数据检验问题，秩和检验。

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解非参数统计分析――Nonparametric Tests菜单详解平时我们使用的统计推断方法大多为参数统计方法，它们都是在已知总体分布的条件下，对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布，然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数，而是总体分布情况，即研究目标总体的分布是否与已知理论分布相同，或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数，因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法，它们可以被分为两大类： 1、分布类型检验方法：亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括： Chi-square test：用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test：用于检测所给的变量是否符合二项分布，变量可以是两分类的，也可以使连续性变量，然后按你给出的分界点一分为二。 Runs Test：用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动，该数值可以是均数、中位数、众数或人为制定。一般来说，如果该检验P值有统计学意义，则提示有其他变量对该变量的取值有影响，或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test：采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布，可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法：用于检验样本所在总体的分布位置/形状是否相同。具体包括： Two-Independent-Samples Tests：即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples：成组设计的多个独立样本的秩和检验，此处不提供两两比较方法。 Two-Related-Samples Tests：配对设计的两样本秩和检验。 Tests for Several Related Samples：配伍设计的多样本秩和检验，此处同样不提供两两比较。一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框，指定检验变量。 (2) Grouping Variable框，指定分组变量。Define Groups对话框，Groupl和Groupl后的栏中，可指定分组变量的值。 (3) TestType框，确定用来进行检验的方法。Mann-Whitney U：默认值，相当于两样本秩和检验。Kolmogorov-Smimov Z：K-S检验的一种。Moses extreme reactions：如果施加的处理使得某些个体出现正向效应，而另一些个体出现负向效应，就应当采用该检验方法。

Minitab非参数统计分析试卷及答案

桂林电子科技大学试卷2012—2013学年第 2 学期课号课程名称非参数统计分析（机试）适用班级（或年级、专业）统计学考试时间95 分钟班级学号姓名一、(25分) 桂林市12年3月和13年6月出售的部分精品楼盘均价（单位：千元/平方米）数据分别如下所示： 12年3月：7.0，4.3，8.0，4.2，8.5，4.2，8.2，4.2，4.15，4.6， 3.5，3.8， 4.5，8.7，4.3， 5.5 13年6月：4.2，4.6，6.5，9.0，7.0，6.8，6.2，7.0，8.9，5.5，7.2 4.6 试问：桂林市一年来楼盘价格是否有变化？解：用统计软件Minitab进行Mood中位数检验的步骤如下： 1)输入数据：将3月的16指数点值数据输入到C1列的第1到第16个单元格，将6 月的12个指数点值数据输入到C1列的第17到28个单元格中： 2)输入数据的类别：在C2列中与C1列的数据相对应的第1到第16个单元格都输入 “1”，在C2列中与C1列的数据相对应的的第17到28个单元格对输入“2”；结果如下图。

3)选择Stat下拉菜单中选择Nonparametrics选项； 4)在Nonparametrics的下拉菜单中选Mood’s Median Test择子选项； 5)在对话框的Response方框内键入C1，Factor方框内键入C2. 单击OK即可。主要运行结果及分析：

图 1 Mood 中位数检验的输出结果从上图的输出结果可知，整体的中位数为5.5，此时在四格表中5.511 N 的个数是11，检验的p 值为0.063. 所以认为桂林市一年来楼盘价格没有变化。二、(25分) 某汽车驾驶员记录了使用5种不同牌子的汽油每5加仑行驶的距离（哩），数据如下：牌1： 38.5 32.3 31.6 31.5 牌2： 35.3 31.6 34.3 37.2 牌3： 39.0 39.9 44.4 45.9 牌4： 35.8 43.5 42.7 41.2 牌5： 40.3 31.9 36.5 35.8 这些数据是否说明这5种牌子的汽油每加仑平均行驶的里程数全相等？解：用统计软件Minitab 进行Kruskal-Wallis 秩和检验的步骤如下：

非参数统计讲义

非参数统计讲义-CAL-FENGHAI.-(YICAI)-Company One1

第一章绪论本章主要内容： 1．非参数方法介绍 2．预备知识第一节非参数方法介绍一．非参数方法的概念和实例复习参数方法定义：设总体X 的分布函数的形式是已知的，而未知的仅仅是分布函数具体的参数值，用样本对这些未知参数进行估计或进行某种形式的假设检验，这类推断方法称为参数方法。先来看两个实例。例供应商供应的产品是否合格某工厂产品的零件由某个供应商供应。合格零件标准长度为（±）cm 。这也就是说合格零件长度的中心位置为8.5cm ，允许误差界为0.1cm ，即长度在－8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格，随机抽查了n=100个零件，它们的长度数据X 见第一章附表。解答：根据我们已学过的参数统计的方法，如何根据数据来判断这批零件合格否用参数数据分析方法，在参数统计中，运用得最多的是正态分布，所以考虑假设供应商供应的零件长度X 服从正态分布，即 X ～),(2σμN 其中两个参数均未知，但可用样本均值估计μ，样本方差估计2σ。由已知的数据计算可得：零件的平均长度，即样本均值为x =8.4958cm ，样本标准差为s=0.1047cm 。则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明：约有三分之一的零件不合格，该工厂需要换另一个供销商了。但这个结论与实际数据符不符合呢这是我们要思考的问题。我们可以对数据做一个描述性分析，先对这100个样本数据做一个频率分布。观察到：在这100个零件中有91个零件的长度在8.4cm ～8.6cm 之间，所以零件合格的比例为91%，超过66％很多！统计分析的结论与数据不吻合的！这是什么原因呢我们可以作出数据的直方图来分析数据的分布情况。由图知，该数据的总体不是近似服从正态分布的！所以我们对于数据的总体分布的假设错了！问题就出在假设总体是正态分布上！继续看直方图，能否很容易就观察出来它大概

医学统计学期末考试模拟题(三)

《医学统计学》期末模拟考试题（三）一．是非题（每题1分，共20分）1．评价某人的某项指标是否正常，所用的范围是。（）t2．配对资料若用成组检验处理，就降低了统计效率。（） 3．因为两类错误的存在，所以不能凭假设检验的结果下结论。（） 4．随机区组设计的区组变异和误差两部分相当于完全随机设计方差分析的组内变异。（）P5．抗体滴度资料经对数转换后可做方差分析，若方差分析得<0.05，则可认为实测数据的各总体算术均数不全相等。（） 6．五个百分率的差别的假设检验，＞，可认为各组总体率都不相同。（） ZZZ4．在两样本均数比较的检验中，若≥，则在α=0.05水平上可认为两总体均数不等。0.05（）P5．在t检验中，若拒绝H，值越小，则说明两总体均数差别越大。（）06．对三个地区血型构成（A、B、O、AB型），作抽样调查后比较，若有一个理论频数小于5大于1且n＞40，必须作校正检验。（） 7．如果两个变量的变动方向一致，同时呈上升或下降趋势，则二者是正相关关系。（） 8．Ⅱ期临床试验是指采用随机盲法对照实验，评价新药的有效性及安全性，推荐临床给药剂量。（）9．临床试验中，为了避免人为主观因素的影响，保证结果的真实性，通常不让受试者及其家属知道他参与这项试验。（）10．假定变量X与Y的相关系数r是0.8，P<0.05；变量M与N的相关系数r为－0.9，P<0.05，1122则X与Y的相关密切程度较高。与Y的相关系数r是0.8，P<0.05；变量M与N

的相关系11数r为－0.9，P<0.05，则X与Y的相关密切程度较高。（）2211．临床试验必须符合《赫尔辛基宣言》和国际医学科学组织委员会颁布的《人体生物医学研究国际道德指南》的道德原则。（） 12．当直线相关系数r＝0时，说明变量之间不存在任何相关关系。＝0时，说明变量之间不存在任何相关关系。（） 13．偏回归系数表示在除X以外的自变量固定不变的条件下，X每改变一个单位的平均变ii化。以外的自变量固定不变的条件下，X每改变一个单位的平均变化。（）i 14．单盲法是让病人知道自己在实验组或对照组，但不知道用什么处理。（） 15．重复原则是指少选择样本例数。（）16．越小，所需样本含量越大。（） 17．在相同条件下完全随机设计比随机区组设计更节约样本含量。（） 18．配对符号秩和检验中，有差值绝对值相等时，可不计算平均秩次。（）19．非参数统计的检验效能总是低于参数检验。（） nTnTT20．两样本比较的秩和检验，现=15，=153，=10，=126，则检验统计量=126。（）1122二．选择题（每题1分，共20分）1．一种新药可以控制某病，延长寿命，但不能治愈其病，如果某地采用该药则该地。a．该病发病率将增加 b．该病发病率将减少c．该病患病率将增加 d．该病患病率将减少e．以上都不对2．用触诊和X摄片对100名妇女作乳癌检查，触诊有40名阳性，X摄片有70名阴性，两种方法均阳性者10 名，两种方法检查均为阴性的人数是。 a．20 b．30

2018年度医学统计学试卷及其规范标准答案

医学统计学试题及答案习题《医学统计学》第二版（五年制临床医学等本科生用）（一）单项选择题 1．观察单位为研究中的( d )。 A．样本 B. 全部对象 C．影响因素 D. 个体 2．总体是由（ c ）。 A．个体组成 B. 研究对象组成 C．同质个体组成 D. 研究指标组成 3．抽样的目的是（b ）。 A．研究样本统计量 B. 由样本统计量推断总体参数 C．研究典型案例研究误差 D. 研究总体统计量 4．参数是指（b ）。 A．参与个体数 B. 总体的统计指标 C．样本的统计指标 D. 样本的总和 5．关于随机抽样，下列那一项说法是正确的（ a ）。 A．抽样时应使得总体中的每一个个体都有同等的机会被抽取 B．研究者在抽样时应精心挑选个体，以使样本更能代表总体 C．随机抽样即随意抽取个体 D．为确保样本具有更好的代表性，样本量应越大越好 6.各观察值均加（或减）同一数后（ b ）。 A.均数不变，标准差改变 B.均数改变，标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用（ a ）。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中（d）可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用（c）描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后，（b）不变。 A．算术均数 B.标准差 C.几何均数 D.中位数 11.（ a ）分布的资料，均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种（ c ）分布。

实用卫生统计学复习题与答案2

《卫生统计学》一、名词解释 1.计量资料 2.计数资料 3.等级资料 4.总体 5.样本 6.抽样误差 7.频数表 8.算术均数 9.中位数 10.极差 11.方差 12.标准差 13.变异系数 14.正态分布 15.标准正态分布 16.统计推断 17.抽样误差 18.标准误 19.可信区间 20.参数估计 21.假设检验中P的含义 22.I型和II型错误 23.检验效能 24.检验水准 25.方差分析 26.随机区组设计 27.相对数

28.标准化法 29.二项分布 30.Yates校正 31.非参数统计 32.直线回归 33.直线相关 34.相关系数 35.回归系数 36.人口总数 37.老年人口系数 38.围产儿死亡率 39.新生儿死亡率 40.婴儿死亡率 41.孕产妇死亡率 42.死因顺位 43.人口金字塔 44.灵敏度 45.特异度 46.误诊率 47.漏诊率 48.阳性似然比 49.阴性似然比 50.Youden指数 51.ROC曲线 52.统计图二、单项选择题 1．观察单位为研究中的( )。 A．样本B．全部对象C．影响因素D．个体2．总体是由（）。

A．个体组成B．研究对象组成 C．同质个体组成D．研究指标组成 3．抽样的目的是（）。 A．研究样本统计量B．由样本统计量推断总体参数C．研究典型案例研究误差D．研究总体统计量 4．参数是指（）。 A．参与个体数B．总体的统计指标 C．样本的统计指标D．样本的总和 5．关于随机抽样，下列那一项说法是正确的（）。 A．抽样时应使得总体中的每一个个体都有同等的机会被抽取B．研究者在抽样时应精心挑选个体，以使样本更能代表总体C．随机抽样即随意抽取个体 D．为确保样本具有更好的代表性，样本量应越大越好 6．各观察值均加（或减）同一数后（）。 A．均数不变，标准差改变B．均数改变，标准差不变C．两者均不变D．两者均改变 7．比较身高和体重两组数据变异度大小宜采用（）。 A．变异系数B．方差 C．极差D．标准差 8．以下指标中（）可用来描述计量资料的离散程度。 A．算术均数B．几何均数 C．中位数D．标准差 9．血清学滴度资料最常用来表示其平均水平的指标是（）。A．算术平均数B．中位数 C．几何均数D．平均数 10．两样本均数的比较，可用（）。 A．方差分析B．t检验 C．两者均可D．方差齐性检验 11．配伍组设计的方差分析中，ν配伍等于（）。 A．ν总-ν误差B．ν总-ν处理

重点医学统计学试题及答案

（一）单项选择题 3．抽样的目的是（b ）。 A．研究样本统计量 B. 由样本统计量推断总体参数 C．研究典型案例研究误差 D. 研究总体统计量 4．参数是指（b ）。 A．参与个体数 B. 总体的统计指标C．样本的统计指标 D. 样本的总和 5．关于随机抽样，下列那一项说法是正确的（ a ）。 A．抽样时应使得总体中的每一个个体都有同等的机会被抽取 B．研究者在抽样时应精心挑选个体，以使样本更能代表总体 C．随机抽样即随意抽取个体 D．为确保样本具有更好的代表性，样本量应越大越好 6.各观察值均加（或减）同一数后（ b ）。 A.均数不变，标准差改变 B.均数改变，标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用（ a ）。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中（d）可用来描述计量资料的离散程度。 A.算术均数 B.几何均数

C.中位数 D.标准差 9.偏态分布宜用（c）描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后，（b）不变。A．算术均数 B.标准差 C.几何均数 D.中位数 11.（ a ）分布的资料，均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种（ c ）分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料，可用（ c ）描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.（ c ）小，表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是（ c ）。 A. 算术平均数 B.中位数

第七章讲义非参数统计

第七章非参数统计非参数统计（亦称非参数检验），是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。主要特点（1）不要求总体分布已知或对总体分布作任何限制性假定；（2）不以估计总体参数为目的；（3）能用于定性变量（即定名测定和序列测定的变量）；（4）方法直观，易于理解，运算比较简单。（5）缺点是检验的功效不如参数检验方法。本章主要内容介绍χ2检验、成对比较检验、曼—惠特尼U 检验、游程检验和等级相关检验等几种常用的检验方法。第一节 χ2检验一、什么是χ2检验 χ 2 检验是运用χ 2 分布作为理论工具，在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。（一）χ2分布 χ 2 分布是由正态分布推导出来的一种连续型随机变量的概率分布。 1．χ2分布的数学形式设随机变量x 1，x 2，…，x k 相互独立且都服从正态分布N （μ， σ2）。将它们标准化转变为标准正态变量Z 1，Z 2，…，Z k ，k 个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。 21 2 1 2 2 22212 )(1 )( )( )( i k i i k i k Z x x x x ∑∑===-= -++-+-=μσσ μ σ μ σ μ χ

χ2~χ2(k)，k 是自由度，表示定义式独立变量的个数。当k=1时， 2．χ2分布的性质（1）χ2分布的值恒为正值，且 ?(χ2, k) d χ2 =1；（2）χ2分布的数学期望是自由度k ，方差为2k ；（3）χ2分布取决于自由度k ，随着自由度增大而趋于对称。一般当k ≥30时，χ2分布可用正态分布近似计算。（二）χ2检验的原理在实践中，经常要对一些观察值的实际频数与某种理论频数进行比较，以判断实际结果与理论是否一致。设有k 个观察值，f 0为它们的实际频数，f e 为理论频数。构造一个统计量数理统计证明，在大量试验中，若f 0与f e 相一致时，χ2服从χ2分布。（f 0-f e ）比较小时，χ2值也较小；（f 0-f e ）比较大时，χ2也较大。当χ2值大到按χ2分布超过设定的临界值时，即为小概率事件，就可以认为实际结果与理论假设不一致。 2 22)(Z x =-=σμχ? (χ2) χ2 (k) k=15 k=1 k=3 k=5 ? (χ2 ) χ2 χ2 0.05(4) ) (/)(21 2 为自由度k f f f e e o k i -=∑=χ∞0

非参数统计A

湖北科技学院数学与统计学院 2013年秋季学期 2011级统计本科《非参数统计》期末考查试卷（A 卷、开卷）一．某批发商从厂家购置一批灯泡，根据合同的规定，灯泡的使用寿命平均不低于1000h, 已知灯泡的使用寿命服从正态分布，标准差是20h. 从总体中随机抽取了100只灯泡，得知样本均值为996h. 问题是：批发商是否应该购买该批灯泡？（1）零假设和备择假设应该如何设置？为什么？（2）在零假设1000<μ下，给出检验的过程并做出决策。（15分）二．下表中的数据是两个篮球联赛中三分球的进球次数，该数据的目的是考察两个联赛中三分球的得分次数是否存在显著性差异。（1）符号检验；（2）配对Wilcoxon 符号秩检验；（3）该问题中哪个检验更好？（ 25分）三分球的进球次数队伍序号联赛1 联赛2 1 91 81 2 46 51 3 108 63 4 99 51 5 110 46 6 105 45 7 191 66 8 57 64 9 34 90 10 81 28 三．在一项研究毒品对增强人体攻击性影响的实验中，组A 使用毒品，组B 使用安慰剂。试验后进行攻击性测试，测量得分如下表（得分越高表示攻击性越强）。组A 组B 10 12 8 15 12 20 16 18 5 13 9 14 7 9 11 16 6 (1) 给出这个实验的零假设；

(2)对数据进行统计分析。（20分）四．下表是美国三大汽车公司（A, B, C三种处理）的五种不同的车型某年产品的油耗，试分析不同公司的油耗是否存在差异。（20分） 1 2 3 4 5 A 20.3 21.2 18.2 18.6 18.5 B 25.6 24.7 19.3 19.3 20.7 C 24.0 23.1 20.6 19.8 21.4 五．美国某年总统选举前，由社会调查总部抽查黑白种族与支持不同政党是否有关，数据如下表种族民主党共和党无党白人黑人341 103 405 11 105 15 问：不同种族与所支持的政党之间是否存在独立性？（20分）

王静龙《非参数统计分析》课后计算题参考答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1) =0.026625957 S n H me H me P S + ==<≤ 另外：在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值，它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设，即中位数低于6500 1.2

非参数统计检验方法的应用

论文投稿领域：数理经济与计量经济学非参数统计检验方法的应用阮曙芬1 程娇翼 1 张振中2 （1.中国地质大学数理学院，武汉 430074；2.中南大学数学科学与计算学院，长沙 410075）摘要：本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验，结果表明2002年上海股市综合指数收益率不具有周末效应。关键字：符号检验；Wilcoxon 秩和检验；Kruskal-Wallis 检验 1引言非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候，分析样本特点，寻找相应的非参数检验统计量。本文就是以此为出发点，介绍了非参数统计中假设检验常用的几个检验方法：符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验，然后结合具体的问题和数据，在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验，常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号，然后对正负秩和进行比较检验。设随机变量12,,...,n X X X 相互独立同分布，分布为()F x ，()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下：有两个总体，一个总体的样本为12,,...,n X X X ，相互独立同分布，分布为()F x ；另一个样本为12,,...,n Y Y Y ，相互独立同分布，分布为()G x ，()F x ， ()G x 连续。问随机变量Y 是否随机大于随机变量X ，即检验

统计学试卷及答案3

一、简答题（10小题，每题6分，共60分） 1.反映集中趋势的统计指标主要有哪几个？简述它们各自的适用范围。均数：用于单峰对称分布，特别是正态分布或近似正态分布的资料；几何均数：用于变量值间呈倍数关系的偏态分布资料，特别是变量经过对数变换后呈正态分布或近似正态分布的资料；中位数：用于不对称分布资料、两端无确切值的资料以及分布不明确的资料。 2.已知某地调查200名正常成年女性的空腹血糖值，均数为 4.95mmol/L，标准差为1.03mmol/L，故该研究者得出该地正常成年女性的空腹血糖值的95%可信区间为(4.95±1.96×1.03) mmol/L，请问该结论是否正确，并说明理由。不正确，应用标准误对可信区间进行估计 3.“某医生收治200名患者，随机分成2组，每组100人。一组用A药，另一组用B药。经过2个月的治疗，A药组治愈了90人，B组治愈了85名患者，因此认为A药的疗效高于B药。”该说法正确吗？请说明理由。不正确，这次实验造成的A药疗效高于B药的结果可能是由于实验误差造成的，所以应该进行假设检验。由样本得到的结果应该进行假设检验，以明确差异是由实验误差造成还是由于总体本质上存在差异。 4.若两样本均数比较的t检验结果为拒绝H0,则值越小，说明两总体均数差别越大。这种说法对吗？为什么？不正确。P值越小，越能拒绝H0，接受H1，说明根据样本数据越有理由认为量总体均数存在差别。假设检验只做出是否拒绝H0的定性结论，不能说明差别的大小。 5.有肺功能检查及支气管激发实验，各组间肺功能及支气管激发实验阳性率的比较结果如表1，三组间比较均有统计学意义。表1 各组间肺功能及支气管激发实验阳性率的比较

非参数统计分析方法总结

非参数统计分析方法一单样本问题 1，二项式检验：检验样本参数是否与整体参数有什么关系。样本量为n给定一个实数MO（代表题目给出的分位点数），和分位点口（0.25,0.5,0.75）。用S-记做样本中比M0小的数的个数，S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0：M=M0 HI: M k MO或者M>M（或者M

H1 ：不是随机的（混合倾向，游程多，长度短）（成群倾向，游程少，长度长) Spss步骤：分析一非参数检验一游程得出统计量R 和p 值当p值小于0.05时拒绝原假设，没有充足理由证明该数据出现是随机的二，两个样本位置问题 1，Brown —Mood 中位数检验给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系，设一个中值为M1，—个为M2 H0：M1=M2. HI: M1H M2或者M1>M或者M1

非参数统计

中国海洋大学本科生课程大纲课程属性：公共基础/通识教育/学科基础/专业知识/工作技能，课程性质：必修、选修一、课程介绍 1.课程描述：非参数统计是数理统计学的一个分支，它是针对参数统计而言的。所谓参数统计，简单地说就是建立在总体具有明确分布形式，通常多为正态分布形式的假定基础之上，所建立的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下，例如总体分布形式完全未知或分布形式是对称的，诸如这样一些宽泛条件下，尽量从数据本身获得的信息，建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路：本课程是在已学数理统计基础上，通过非参数统计的学习，引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。课程内容着重于基本知识点的理解，避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面： (1).非参数统计的基本概念：非参数统计方法的主要特点，次序统计量及其分布，U统计量，秩统计量的概念，一些统计量的近似分布。 (2).非参数估计的方法：总体分位数的估计，对称中心的估计，位置差的估计。 (3).非参数检验的方法：总体p分位数的检验，总体均值检验，两样本的比较，随机性与独立性检验，多总体的比较。 - 1 -

(4).总体分布类型的估计与检验：分布函数的估计与检验，概率密度估计。 3. 课程与其他课程的关系：先修课程：《概率论》，《数理统计》，《多元统计分析》；并行课程：《应用回归分析》；后置课程：《统计软件》。非参数统计是应用数学专业、信息与计算科学专业的选修课程，但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。二、课程目标非参数统计具有应用性广，稳健性好等特点。通过本课程学习，要求学生了解或理解非参数统计的一些基本理论和方法，注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时，要求学生能够做到： (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布；理解并掌握U统计量秩统计量的概念；理解一些常用统计量的近似分布。重点是次序统计量及其分布； U统计量构造，秩统计量； (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想，掌握检验的一般步骤，掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。三、学习要求要完成所有的课程任务，学生必须：（1）按时上课,认真听讲，认真完成作业。其中有一些作业需要学生自编程序用机器完成。（2）按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。（3）完成一定量的阅读文献和背景资料，可以以小组的形式讨论学习，促进同学间的心得交 - 1 -

医学统计2002年研究生试卷(汕头大学医学院)

汕头大学医学院2002年硕士研究生医学统计学试题（闭卷部分）专业：….……学号：………..姓名：……………成绩：…………. 1.均数、M及G三者的关系，那种适用于显著偏态资料? S与标准误的异同点? (5分)。 2.两个大样本均数比较时，可以采用那些检验方法? 两个小样本均数比较时，t-test的适用条件? 多个样本均数比较时，应该采用那些分析方法? (5分)。 3.实验拟用乙法代替甲法测定水中溶解氧含量。为此，同时用两种方法测定13个水样得到两组数据（略）（已知资料呈正态分布、方差齐）。现要了解：（1）两组数据各自的平均水平及变异程度？（2）两种测定结果是否有差别？（3）两种结果间是否有联系？请你将所用的统计指标及方法用网络图表示出来。(5分)。 4.某医师研究纤维食物摄入量与某种疾病的关系, 随机调查所获数据如表1。请详述统计分析设想（不做具体计算）？（5分）。

表1 某疾病的发生与纤维食物摄取量研究数据 --------------------------------------------------------------------------------------- 摄入量（g/d）1- 5- 10- 20- 30- 50- 合计--------------------------------------------------------------------------------------- 病例人数35 59 60 70 80 60 364 对照人数 5 14 43 79 94 65 300 ---------------------------------------------------------------------------------------- 5. 简述正交试验、析因试验、完全随机设计、随机区组设计与协方差分析的特点？（5分）。 6. 某医生提出：单指标百分位数法可用于任何医学资料的参考值范围的确定。请问你同意吗？同意或不同意均须详尽地阐述理由？（5分）。 7. 某医师研究甲、乙两药治疗某病疗效（甲组观察18例，乙组观察22例），其结论为：“甲、乙药治愈率均是有效的，且乙药可以代替甲药用于临床实践。”请评价，若需进一步研究可提出建议？还请阐明应使用的假设检验方法，以及各种统计方法的检验假设。（5分）。 8. 分析流行病学常用方法有那些，请简述其优缺点以及适用情况。(5分)。

统计学试卷2008a

中国科学院武汉教育基地 2007—2008学年第一学期期末考试试卷课程名称：生物统计学考试时间：2008年1月21日下午2:30－5:00 一、选择题（每题选择一个最佳答案。每小题1分，共17分） 1、为了了解某地20~29岁健康女性血红蛋白的正常值范围，现随机调查了该地 2000名20~29岁的健康女性，并对其血红蛋白进行测量，请问本次调查的总体是（）。 A、该地所有20-29的健康女性 B、该地所有20-29的健康女性的血红蛋白测量值 C、抽取的这2000名20-29岁女性 D、抽取的这2000名20-29岁女性的血红蛋白测量值 2、下列说法正确的是（）。 A．系统误差可以完全消除B．随机误差可以完全消除 C．两种误差都可以完全消除D．两种误差都不可以完全消除 3、算术均数与中位数相比，（）。 A、抽样误差更大 B、不易受极端值的影响 C、更充分利用数据信息 D、更适用于分布不明及偏态分布资料 4、在一个右偏（峰在左边，右边有较长的尾巴）的分布中，反映集中趋势的数值最大的是（）。 A．中位数B．算数平均数C．众数D．几何平均数 5、对于标准正态分布变量，（）范围内有90%变量值。 A、0～1.96 B、-1.96～1.96 C、-1.645～∞ D、-1.645～1.645 6、在抽样方式和样本容量不变的条件下，置信区间愈大，则（）。 A．可靠性愈大B．可靠性愈小 C．估计的效率愈高D．估计的效率愈低 7、利用t分布构造置信区间的条件是（）。 A．总体服从正态分布，且方差已知 B．总体服从正态分布，且方差未知 C．总体不一定服从正态分布，但要求是大样本 D．总体不一定服从正态分布，但要求方差已知 8、比较两药的疗效时，哪种情况应做单侧检验（）。

王静龙非参数统计分析课后计算题参考答案Word版

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1)=0.026625957 S n H me H me P S +==<≤ 另外：在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值，它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设，即中位数低于6500 1.2

天津医科大学统计学试题

1.总体（population）是根据研究目的确定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值（变量值）的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体，反之为无限总体。样本（sample）：从总体中随机抽取部分观察单位，其测量结果的集合称为样本。样本应具有代表性。所谓有代表性的样本，是指用随机抽样方法获得的样本。 2.随机抽样：（random sampling）是指按照随机化的原则（总体中每一个观察单位都有同等的机会被选入到样本中），从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。 3.变异（variation）：在自然状态下，个体间测量结果的差异称为变异。变异是生物医学研究领域普遍存在的现象。严格的说，在自然状态下，任何两个患者或研究群体间都存在差异，其表现为各种生理测量值的参差不齐。 4.计量资料（measurement data）：对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料。计量资料亦称定量资料、测量资料。.其变量值是定量的，表现为数值大小，一般有度量衡单位。如某一患者的身高（cm）、体重(kg)、红细胞计数(1012/L)、脉搏（次/分）、血压（KPa）等计数资料（count data）：将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料。计数资料亦称定性资料或分类资料。其观察值是定性的，表现为互不相容的类别或属性。如调查某地某时的男、女性人口数；治疗一批患者，其治疗效果为有效、无效的人数；调查一批少数民族居民的A、B、AB、O 四种血型的人数等。等级资料（ordinal data）：将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料（ordinal data）。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡，各种结果既是分类结果，又有顺序和等级差别，但这种差别却不能准确测量；一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料与计数资料不同：属性分组有程度差别，各组按大小顺序排列。等级资料与计量资料不同：每个观察单位未确切定量，故亦称为半计量资料。 5．概率：概率(probability)又称几率，是度量某一随机事件A发生可能性大小的一个数值，记为P（A），P（A）越大，说明A事件发生的可能性越大。0﹤P（A）﹤1。频率：在相同的条件下，独立重复做n 次试验，事件A 出现了m 次，则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P（A）= m/n。 6.随机误差（random error）又称偶然误差，是指排除了系统误差后尚存的差。它受多种因素的影响，使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。抽样误差（sampling error ）是指样本统计量与总体参数的差别。在总体确定的情况下，总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。 7．系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因，使观察值不是分散在真值的两侧，而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。 8．随机变量（random variable）是指取指不能事先确定的观察结果。随机量的具体内容虽然是各式各样的，但共同的特点是不能用一个常数来表示，而且，理论上讲，每个变量的取值服从特定的概率分布。 9．参数（paramater）是指总体的统计指标，如总体均数、总体率等。总体参数是固定的常数。多数情况下，总体参数是不易知道的，但可通过随机抽样抽取有代表性的样本，用算得的样本统计量估计未知的总体参数。10．统计量（statistic）是指样本的统计指标，如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。 11.频数表（frequency table）用来表示一批数据各观察值或在不同取值区间的出现的频繁程度（频数）。对于离散数据，每一个观察值即对应一个频数，如某医院某年度一日内死亡0，1，2…个病人的天数。对于散布区间很大的离散数据和连续型数据，数据散布区间由若干组段组成，每个组段对应一个频数。 12.算术均数（arithmetic mean）描述一组数据在数量上的平均水平。总体均数用μ表示，样本均数用X 表示。 13.几何均数（geometric mean）用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。 14.中位数（median）Md将一组观察值由小到大排列，n 为奇数时取位次居中的变量值；为偶数时，取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。 15.百分位数（percentile）是将n 个观察值从小到大依次排列，再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。