当前位置:文档之家› 非参数统计实验(全)新

非参数统计实验(全)新

非参数统计实验(全)新
非参数统计实验(全)新

第四章 非参数统计实验

参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。

实验一 卡方检验(Chi-square test )

实验目的:

掌握卡方检验方法。 实验内容:

一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具:

SPSS 非参数统计分析菜单项和Crosstabs 菜单项。 知识准备:

一、卡方拟合优度检验

2

χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问

题,用来检验实际观察数目与理论期望数目是否有显著差异。当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。

若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为

k

e e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差

异。其计算公式为:

-=

-=

=期望频数

期望频数实际频数2

1

2

2

)

()

(k

i i

i i e e f χ

很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。

在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的

2

χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到

相应的临界值)1(2

-k αχ。若)1(2

2

-≥k αχχ

,则拒绝H 0,否则不能拒绝H 0。

所有的统计软件都可以输出检验统计量的显著性p 值,也可以根据显著性p 值和显著性水平α作比较,若α≤p ,则拒绝H 0,否则不能拒绝H 0。

另外卡方拟合优度检验也可以用来检验某总体是否服从某一特定分布的假设。拟合优度检验中几种常用分布的参数如表4-1:

表4-1 拟合优度检验中几种分布的参数

二、2χ独立性检验

假设有n 个随机试验的结果按照两个变量A 和B 分类,A 取值为A 1,A 2,…,A r ,B 取值为B 1,B 2,…,B s ,则形成了一张s r ?的列联表,称为s r ?二维列联

表。其中ij n 表示A 取A i 及B 取B j 的频数,n n r

1

i s

1

j ij =∑∑==,其中:

r ,...,2,1i ,n

n s

1j ij

i.==

∑=表示各行的频数之和

s ,...,2,1i ,n

n r

1

i ij

.j ==

∑=表示各列的频数之和

令)B B ,A A (P p j i ij ===(s ,...,2,1j ;r ,...,2,1i ==),.i p 和j .p 分别表示各行和各列的边缘概率,对于s r ?二维列联表,如果变量A 和变量B 是独立的,则A 和B 的联合概率应该等于A 和B 边缘概率的乘积。因而有如下检验:

j ..i ij 0p p p :H =

在H 0成立的条件下,s r ?二维列联表中的期望频数为:

n

n n e j

..i ij =

则∑∑

==-=

r

1

i s

1

j ij

2

ij ij 2e )

e n (χ

如果期望频数5e ij >,则2χ统计量近似服从自由度为)1s )(1r (--的卡方分布。如果Pearson 2χ值过大,或p 值过小,则拒绝H 0,认为变量A 和变量B 存在某种关联,即不是独立的;否则不能拒绝H 0,认为是独立的。

如果期望5e ij <,则需要将其合并使得期望频数5e ij >,否则容易夸大卡方统计量值,导致拒绝原假设的结论。

三、 2χ齐性检验

与2χ独立性检验类似的是2χ齐性检验。

实际问题中,假设有n 组从不同来源得到的数据,要判定这些数据的来源是否相同(相同的分布),统计上我们可以将这些问题表述为:

假定有k 组样本,分别取自k 个总体,要检验这k 个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。

对一般的s r ?二维列联表,可以提出假设:

is

i2i10p ...p p :H ===(r ,...,2,1i =)

在H 0成立的条件下,这些概率ij p 与j 无关,因此ij n 的期望值(理论频数)为ij j .p n ,n

n p .i .i =

,因此期望值n

n n p n e j

..i .i j .ij =

?=,则

2

χ

检验统计量为:

∑∑

==-=

r

1

i s

1

j ij

2

ij ij 2

e )

e n (χ

与2χ独立性检验一样,如果5e ij >,则2χ统计量近似服从自由度为

)1s )(1r (--的卡方分布。如果Pearson 2

χ

值过大,或p 值过小,则拒绝H 0,;否

则不能拒绝H 0。

实验背景:

一、据以往经验,机床发生故障的频数服从均匀分布,某车间在一周内统计所有机床发生故障频数的资料如下:

表4-2 故障频数

检验故障频数是否服从均匀分布(05

.0=α

)?

二、在丧偶问题上的性别因素和地区因素是否独立

按照1996年一个抽样,我国华北五省市区的丧偶人数按性别分为:

表4-3 1996年华北地区丧偶情况统计

检验在丧偶数量上性别因素和地区因素是否独立。

三、在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪个,结果如下表:

表4-4 调查结果

检验人们去这三个商场的概率是否一样。(数据来源:《非参数统计》,王星,中国人民大学出版社,P161)

实验过程:

一、用Chi-Square过程进行2 拟合优度检验

激活数据管理窗口,定义变量名:每天为day,故障次数为count。按顺序输入数据,结果见图4.1。

图4.1

点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable框,定义count变量为权数,再点击OK钮即可。

图4.2

选择Analyze/ Nonparametric Tests/Chi-Square,打开卡方检验对话框,如图4.3所示:

图4.3

图4.3左侧为候选变量框,在候选变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Test V ariable List框中。

(1)Test V ariable List框:用于选入需要进行检验的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析。本例中选中变量count,使之进入Test V ariable List框。

(2)Expected Range单选框:设定需检验的变量的取值范围,在此范围之外的取值将不进入分析。

Get from data选项:数据文件的最大值和最小值所确定的范围,系统默认该项。

Use specified range选项:自行制定检验的取值范围,在Lower和Upper 框中键入检验范围的下限和上限。本例采用系统默认项。

(3)Expected V alues单选框:指定已知总体的各分类构成比。

All categories equal选项:系统默认项,各类别构成比例相等,即意味着检验的总体是服从均匀分布的。本例中使用此选项。

V alues选项:自行定义给类别构成比例,每输入一个值后按Add按钮,于是在它右边的框中便增加了刚键入的数值。要求输入数值必须大于0,一直到输完为止,如果在输入过程出现了错误,并已按Add按钮使录入的值进入了右

下框中,则可用鼠标来进行修改,即用鼠标将光标移到错误处,但一鼠标左上键使错误值置于光带中,若是刚录入的值,则可以点击Remove按钮将其删除,然后重新录入;如果错误值在录入值中间,则先将它置于光带中,然后在Add右边的观众键入修改的值后按Change按钮进行替换。

(4)Exact子对话框:用于设定是否进行确切概率的计算,以及具体的计算方法。如图4.4

Asymptotic only:渐近分布的显著性检验,只近似计算概率,不计算确切概率,适合于渐近性分布和较大样本,系统默认选项。

Monte Carlo:采用蒙特卡罗模拟方法计算确切概率,适合于数据满足渐近性分布,而且数据过大以至不能计算精确显著性。

Confidence:指定置信度,默认为99%。

Number of sample:指定计算的样本数目,样本数越大显著性水平越可靠,默认为10000。

Exact:准确计算观测结果的统计概率

Time limit per test:限定进行每个检验所使用的最长时间,如果超过30分钟,则用Monte Carlo法比较合适,默认计算时间限制在5

分钟内,超过此时限则自动停止。

图4.4

(5)Option子对话框:选择输出结果形式及缺失值处理方式。如图4.5

图4.5

Statistics复选框:选择可供输出的统计量。

Descriptive:输出常用的描述统计量,包括变量的均值、标准差、最大值、最小值等等。

Quartiles:输出变量的四分位数。

Missing V alues单选框:选择缺失值的处理方式。

Exclude cases test-by-test:分析用到的变量有缺失值时去除该记录。系统默认该项,以便充分利用数据。本例中选择默认项,不做修改。

Exclude cases listwise:只要相关变量有缺失值,则在所有分析中均去除该记录。

在本例中,点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable 框,定义count变量为权数,再点击OK钮即可。

选择Analyze/ Nonparametric Tests/Chi-Square,打开Chi-Square检验对话框,选择变量count进入Test V ariable List框,其他选择不做任何修改,在主对话框点击ok按钮,提交运行命令,得到结果如图4.6、图4.7:

图4.6

图4.6中,最上方Npar Tests表示进行的是非参数统计检验,Chi-Square Test 表示进行的是卡方检验,Frequency为表格名称,表示输出的是频数表,count 是检验变量名,表格内显示的是6个类别的观测频数、期望频数和残差。在本例中,观测频数合计为60,期望频数各类别相等,均为10。

图4.7

图4.7中,最上方Test Statistics为表格名称,即检验统计量表,为最终的检验结果,给出了卡方值、自由度和近似的显著性p值。结果显示卡方检验统计量微14.800,近似的p值为0.011 ,因此,在0.05的显著性水平下,结论为拒绝原假设,认为一周内机床发生故障的频数不是服从均匀分布的。

二、用Crosstabs过程进行2 独立性检验

激活数据管理窗口,定义变量名:sex(性别)为列变量,region(地区)为

行变量,count为频数变量(行列对应的频数值)。切换到V ariable View中,定义变量值标签,在sex变量中,1表示男性,2表示女性,在region变量中,1表示北京,2表示天津,3表示河北,4表示山西,5表示内蒙古,再切换到Data View中,按顺序输入相应的变量,结果见图4.8。

图4.8

点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.9),选Weight cases by,再选count点击钮使之进入Frequency Variable框,定义count变量为权数,再点击OK钮即可。

图4.9

选择Analyze/ Descriptive Statistics/Crosstabs,打开crosstabs对话框,如图4.10所示:

图4.10

图4.10左侧为候选变量框,在候选变量框中选择一个或多个变量。

(1)Row(s)框:用于选入一个或多个行变量。本例选则变量region为行变量,使之进入Row(s)框。

(2)Column(s)框:用于选入一个或多个列变量。本例选择sex为列变量,使之进入Column(s)框。

(3)Layer 1 of 1:层变量栏,用于选择分组变量及控制分组变量的分层。本例不选择分组变量。

Previous:前一层分组变量按钮,在建立后一层分组变量时变黑,表示单击该按钮可返回前一层。

Next:后一层分组变量按钮,该层变量是前一层变量的分组变量,在建立前一层分组变量时变黑,表示单击该按钮可建立或显示后一层的分组变量。

(4)Display clustered bar charts选项:用于显示聚类条形图,选择此项,SPSS 会为每一个行变量产生一个聚类条形图。本例不输出此项。

(5)Suppress table选项:不输出表格,只输出统计量。选择此项,SPSS 将不显示列联表,且Cell按钮和Format按钮将无效。本例不选择此项。

(6)Exact子对话框:用于设定是否进行确切概率的计算以及具体的计算方

法。同前面的图4.4一样。

(7)Statistics 子对话框:可选择输出一些统计量。如图4.11。

图4.11

Chi-Square 选项:输出卡方值,它是用于进行行、列变量是否独立的卡方

检验(Chi-Square Test )、用于对数线型模型检验的似然比卡方检验(Likehood ration Chi -square test )、Fisher 精确检验(Fisher’s exactly test )、耶茨校正卡方检验(Y ete‘s corrected Chi -square test )。本例选择此项。

Correlations 选项:可计算相关系数。只有在数值型变量时,此项选择才有效。

Nominal :包含了一组用于反映分类变量相关性的指标。

Contingency coefficient :计算列联系数。根据卡方公式修改而得,其

值为

n

2

2

+χχ

,列联系数是描述两个属性之间关联性高低的统计量,其数值

在0到1之间,但不可能达到1,越大表明两变量间相关性越强。

Phi and Cramer’s V :计算Phi 系数和Cramer 系数,它们都是校正列联

系数,也是由卡方公式修改而来, ψ系数为

n

2

χ

,Cramer’s V 为

1)

-n(k 2

χ

其值可以达到1,同列联系数一样,描述两个属性之间的相关性高低。

Lambda :反映自变量对因变量的预测效果,在0到1之间取值,Lambda

系数为1,表明自变量可以完全预测因变量,Lambda系数为0,表明自变量不能预测因变量,即两变量独立。

Uncertainty coefficient:不确定系数,其值越接近于1,表明从第一个观察量获得的有关第二个变量的信息越多,其值越接近于0,表明表明从第一个观察量获得的有关第二个变量的信息越少。,

Ordinal:包含一组用于反映分类变量一致性的指标,适用于有序变量,均是有Gamma统计量衍生过来的,所谓一致性高是指行变量秩高的列变量秩也高,行变量秩低的列变量秩也低,如果行变量秩高而列变量秩低,则称为不一致。

Gamma:检验两个有序变量之间的对称关联,其值在-1到1之间,绝对值接近1时,表明两个变量之间有很强的关联性。

Somer’s d:两个有序变量之间关联性的检验,其值在-1到1之间,绝对值接近1时,表明两个变量之间有很强的关联性,Somer’d 检验是Gamma检验的非对称检验扩展

Kendall’s tau-b:对相关的有序变量进行的非参数检验,适合行数和列数相同表格的检验,其值在-1到1之间。

Kendall’s tau-c:对C

R?列联表相关系数的非参数相关检验,其值在-1到1之间,如果表格的边缘包含近似相等的频数,Kendall’s tau-b与Kendall’s tau-c所得的值基本一致。

Nominal by interval:计算一个变量为数值变量,另一个为分类变量时的关联度。

Eta值:eta的平方表示由组间差异所解释的应变量的方差的比例,即SS组间/SS总,一共给出两个eta值,分别对应了行变量为应变量和列变量为应变量的情况。

Kappa:计算Kappa值,即内部一致性系数,是评价判断一致性程度的指标,一般,Kappa>=0.75,表明两者一致性好;0.4<=Kappa>=0.75,表明一致性一般;Kappa<0.4表明一致性差。

Risk:计算相对危险度(Relative Risk)和比数比(Odd ratio),用于2

2?

列联表,可以检验事件的发生和某因素暴露之间的关联性,例如检验吸烟是否与心脏病有关,若相对危险度为1,则表示因素与事件不存在关联。SPSS用比数

比作相对危险度的近似估计值。

McNemanr:配对卡方检验

Cochran’s and Mantel-Haenszel statistics:对两个二分类变量进行独立性检验和同质性(齐性)检验,同时可进行分层因素的调整。

(7)Cells子对话框:用于定义列联表中需要显示的指标,包括观测量数、百分比、残差。如图4.12。

图4.12

Counts计数栏:

Observed:观测值的数量,系统默认选项。

Expected:期望值的数量

Percentage百分比栏:

Rows:行百分比

Columns:列百分比

Tatal:总的百分比

Residuals残差栏:

Unstandardized:有非标准化残差

Standardized:标准化残差

Adj. Standardized:调整的标准化残差

(9)Format子对话框:用于选择变量是升序还是降序排列,如图4.13 。

图4.13

Row Order:选择行顺序。

Ascending:升序,行变量由左至右升序显示,系统默认值。

Descending:降序,行变量由左至右降序显示。

在本例中,点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable 框,定义count变量为权数,再点击OK钮即可。

选择Analyze/Descriptive Statistics/Crosstabs,打开Crosstabs对话框,选择变量region进入Row( s)框,选择变量sex进入Column(s)框;

单击Statistics子对话框,选择Chi-square选项,单击continue按钮,返回Crosstabs主对话框;

单击Cells子对话框,在count选项中选择Expected,单击continue按钮,返回Crosstabs主对话框;

在Crosstabs主对话框中,点击ok按钮,提交运行Crosstabs命令,得到结果如图4.14、图4.15和图4.16:

图4.14

图4.14中,最上方Crosstabs表示进行的是列联表分析,表格内显示有效频数位5526例,占总的100%,缺失值个数为0,总的例数为5526。

图4.15

图4.15为二维2

5?列联表,列联表中给出了各个地区不同性别的观测频数和期望频数以及总的频数和总的期望频数。

图4.16

图4.16为卡方检验表,表中显示pearson Chi-Square值为16.474,自由度为4,近似的显著性p值为0.002,故可以拒绝原假设H0,认为在丧偶数量上性别和地区两个变量不是独立的。

三、用Crosstabs过程进行2χ齐性检验

与2χ独立性检验一样,操作如下:

激活数据管理窗口,定义变量名:age(年龄)为行变量,Business(商场)为列变量,count为频数变量(行列对应的频数值)。切换到V ariable View中,定义变量值标签,在age变量中,1表示年龄30

≤,2表示31-50,3表示>50,在business变量中,1表示商场1,2表示商场2,3表示商场3,再切换到Data View 中,按顺序输入相应的变量,结果见图4.17。

图4.17

点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.18),选Weight cases by,再选count点击钮使之进入Frequency Variable框,定义count变量为权数,再点击OK钮即可。

图4.18

本例中,选择Analyze/Descriptive Statistics/Crosstabs,打开Crosstabs对话框,选择变量age进入Row( s)框,选择变量不siness进入Column(s)框;

单击Statistics子对话框,选择Chi-square选项,单击continue按钮,返回Crosstabs主对话框;

单击Cells子对话框,在count选项中选择Expected,单击continue按钮,返回Crosstabs主对话框;

在Crosstabs主对话框中,点击ok按钮,提交运行Crosstabs命令,得到结果如图4.19、图4.20和图4.21:

图4.19

图4.20

图4.21

图4.21为卡方检验表,表中显示pearson Chi-Square值为18.651,自由度为4,近似的显著性p值为0.001,故可以拒绝原假设H0,认为不同年龄的人去三个商场的概率是显著不同的,即是非齐性的。

实验二二项分布检验(Binomial test)

实验目的:

掌握二项分布检验方法。

实验工具:

SPSS非参数统计分析菜单项

知识准备:

现实生活中,有些总体只能划分为两类,例如,正面与反面,成功与失败、合格与不合格、命中与不命中,同意与不同意,医学中的生与死等等,在数理统计中,把只有两个结果出现的试验称为贝努里试验(Bernoulli trial ),若重复n 次,则为n 重贝努里试验,在n 重贝努里试验中,设成功的概率为p ,若X 表示成功出现的次数,则称X 服从二项分布,记为X ~B (n ,p )。X 的分布概率可用下面的公式来描述:

x

n x p

p x n )x X (P -???

? ??==

式中,n 表示贝努里试验的次数,p 表示成功的概率,X 表示n 次贝努里试验中成功出现的次数。

二项分布检验(Bionomial Test )就是根据样本数据检验总体是否服从二项分布的一种检验方法。属于拟合优度检验,适用于数据只能划分为两类的总体,检验二项分类变量是否来自概率为p 的二项分布。

实验背景:

某地某一时期内出生40名婴儿,其中女性12名(定义Sex=2),男性28名(定义Sex=1)。问这个地方出生婴儿的性别比例与通常的男女性别比例(总体概率约为0.5)是否不同(05.0=α)

实验过程:

激活数据管理窗口,定义变量名:sex 为性别。切换到V ariable View 中,定义变量值标签,在sex 变量中,1表示男性,2表示女性,再切换到Data View 中,按顺序输入数据, 结果见图4.22。

图4.22

选择Analyze/ Nonparametric Tests/Binomial…,打开binomial Test对话框,如图4.23所示:

图4.23

图4.23左侧为候选变量框,在候选变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Test V ariable List框中。

(1)Test V ariable List框:用于选入需要进行检验的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析。本例中选中变量sex,使之进入Test V ariable List框。

(2)Define Dichotomy栏:定义二分类变量的获取方法。

Get from Data选项:系统默认项,适用于指定的变量只有两个值,即二分

非参数统计实验报告 南邮

实验报告 ( 2012 / 2013学年第一学期) 课程名称非参数统计 实验名称1、数据的描述性统计 2、中心位置的检验问题 3、多样本问题和区组设计问题的比较 4、相关分析 实验时间2012 年10 月15-22 日 学生姓名班级学号 学院(系) 通达学院专业统计学

实验一 一、实验题目 某航空公司为了解旅客对公司服务态度的满意程度,对50名旅客作调查,要求他们写出对乘机服务、机上服务和到达机场服务的满意程度,满意程度评分从0到100.分数越大,满意程度越高。下表是收集到得数据。 50名旅客对乘机服务、机上服务和到达机场服务的满意程度的评分 乘机服务机上服务到达机场服务乘机服务机上服务到达机场服务 71 49 58 72 76 37 84 53 63 71 25 74 84 74 37 69 47 16 87 66 49 90 56 23 72 59 79 84 28 62 72 37 86 86 37 59 72 57 40 70 38 54 63 48 78 86 72 72 84 60 29 87 51 57 90 62 66 77 90 51 72 56 55 71 36 55 94 60 52 75 53 92 84 42 66 74 59 82 85 56 64 76 51 54 88 55 52 95 66 52 74 70 51 89 66 62 71 45 68 85 57 67 88 49 42 65 42 68 90 27 67 82 37 54 85 89 46 82 60 56 79 59 41 89 80 64 72 60 45 74 47 63 88 36 47 82 49 91 77 60 75 90 76 70 64 43 61 78 52 72 1、对50名旅客关于乘机服务的满意程度数据作描述性统计分析; 2、对50名旅客关于机上服务的满意程度数据作描述性统计分析; 3、对50名旅客关于到达机场服务的满意程度数据作描述性统计分析; 4、对50名旅客关于这三个方面服务的满意程度数据作一个综合比较的描述性 统计分析。 二、实验步骤 1、乘机服务 1)、直方图

非参数统计题目及答案

1.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下: 这一经验是否可靠。 解: H 0:θ2≤θ1≤θ 3 H 1 :至少有一个不等式成立 可得到 N=15 由统计量H= ) 112 +N N (∑=K i i N R 1i 2 -3(N+1)=)(1151512+(32×6.4+29×5.8+59×11.8)-3×(15+1)=5.46 查表(5,5,5)在P(H ≥4.56)=0.100 P(H ≥5.66)=0.0509 即P (H ≥5.46)﹥0.05 故取α=0.05, P ﹥α ,故接受零假设即这一检验可靠。

2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中: 值等等及你的结果。(利用Jonkheere-Terpstra 检验) 解: H 0:M 低=M 中=M 高 H 1:M 低﹤M 中﹤M 高 U 12=0+9+2+8+10+9+10+2+10+10+8+0.5+3=82.5 U 13=10×8=80 U 23=12+9+12+12+12+11+12+11=89 J= ∑≤j ij U i =82.5+80+89=251.5 大样本近似 Z= []72 )32()324 1 2 1i 22 2∑ ∑==+-+--k i i i k i n n N N n N J ()(~N (0,1) 求得 Z=3.956 Ф(3.956)=0.9451 取α=0.05 , P >α, 故接受原假设,认为智力投资对改进生产力有帮助。

第二讲-非参数统计检验

第二讲 非参数检验 1. 实验目的 1.了解非参数假设检验基本思想; 2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS 软件建立数据集,并进行统计分析; 2.掌握proc npar1way 过程进行非参数假设检验的基本步骤; 3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1 符号检验 0:H 两种方法的处理效果无显著性差异 令10 i i I i ?=??第个个体中新方法优于对照方法第个个体中新方法劣于对照方法1,2,,i N =L 统计量1N N i i S I ==∑ N S 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对照方法,则N S 的值应明显偏大。因此,若对给定的置信水平α,有 {}N P S c α≥<, 则拒绝0H 。 0H 为真时,(1)N S 服从二项分布1(,)2 b N (),()24N N N N E S Var S ==。拒绝域为:{}N N S S c > (2)由中心极限定理可知,当2 ,1N N S N - →∞的零分布趋于标准正态分布。

拒绝域为 :N S u α??????>???????? 3.2 Wilcoxon 秩和检验 (1)单边假设检验 0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。 用于检验0H 的统计量为:1n s i i W I ==∑ 若对给定的置信水平α,有 {}s P W c α≥<,则拒绝0H 。且s W 的分布列为: 0#{;,}{}H s w n m P W w N n ==?? ??? 根据观测结果计算s W 的观测值0s W ,计算检验的p 值: 00{}{}s H s s H s k w p P W w P W k ≥=≥= =∑ 然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。 (2)双边假设检验 给定的显著水平21,c c 和α应该满足: ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取 2}{}{2100α =≥=≤c W P c W P A H A H 若利用p 值进行检验,设A A W ω的观测值为,计算概率值 }{}{00A A H A A H W P W P ωω≤≥或 由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。例如

医学统计学总复习练习题(含答案)

医学统计学总复习练习题(含答案)

一、最佳选择题 1.卫生统计工作的步骤为 C A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 D A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括E A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 B A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 B A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 D A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差7.用均数与标准差可全面描述其资料分布特点的是 C A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 C A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 B A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有

非参数统计部分课后习题参考答案

课后习题参考答案 第一章p23-25 2、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。第一组数据的检验结果为:df=7,t 值为3.4157,单边p 值为0.0056,结论为“拒绝H 0:u=100。”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t 值为3.3290,单边p值为0.0398;结论为“接受H 0:u=100。”(注意:该组均值为74.000)。你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。 答:这个结论不合理(6分)。因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。(4分) 第三章p68-71 3、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。已知1997年的索赔数额的中位数为5064元。 (1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。(10分) (3)找出基于符号检验的95%的中位数的置信区间。(8分) 解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答。(4分) (2)符号检验(5分) 设假设组:H 0:M =M 0=5064 H 1:M ≠M 0=5064 符号检验:因为n +=11,n-=3,所以k=min(n+,n-)=3 精确检验:二项分布b(14,0.5), ∑=-=3 0287 .0)2/1,14(n b ,双边p-值为0.0576,大于a=0.05, 所以在a水平下,样本数据还不足以拒绝零假设;但假若a=0.1,则样本数据可拒绝零假设。查二项分布表得a=0.05的临界值为(3,11),同样不足以拒绝零假设。 正态近似:(5分) np=14/2=7,npq=14/4=3.5 z=(3+0.5-7)/5.3≈-1.87>Z a/2=-1.96 仍是在a=0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。 (3)中位数95%的置信区间:(5064,21240)(8分) 7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0。能否说该信号是纯粹随机干扰?(10分)

非参数统计实验(全)新

第四章 非参数统计实验 参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。 实验一 卡方检验(Chi-square test ) 实验目的: 掌握卡方检验方法。 实验内容: 一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具: SPSS 非参数统计分析菜单项和Crosstabs 菜单项。 知识准备: 一、卡方拟合优度检验 2 χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问 题,用来检验实际观察数目与理论期望数目是否有显著差异。当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。 若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为 k e e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差 异。其计算公式为: ∑ ∑ -= -= =期望频数 期望频数实际频数2 1 2 2 ) () (k i i i i e e f χ

很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。 在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的 2 χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到 相应的临界值)1(2 -k αχ。若)1(2 2 -≥k αχχ ,则拒绝H 0,否则不能拒绝H 0。 所有的统计软件都可以输出检验统计量的显著性p 值,也可以根据显著性p 值和显著性水平α作比较,若α≤p ,则拒绝H 0,否则不能拒绝H 0。 另外卡方拟合优度检验也可以用来检验某总体是否服从某一特定分布的假设。拟合优度检验中几种常用分布的参数如表4-1: 表4-1 拟合优度检验中几种分布的参数 二、2χ独立性检验 假设有n 个随机试验的结果按照两个变量A 和B 分类,A 取值为A 1,A 2,…,A r ,B 取值为B 1,B 2,…,B s ,则形成了一张s r ?的列联表,称为s r ?二维列联 表。其中ij n 表示A 取A i 及B 取B j 的频数,n n r 1 i s 1 j ij =∑∑==,其中: r ,...,2,1i ,n n s 1j ij i.== ∑=表示各行的频数之和 s ,...,2,1i ,n n r 1 i ij .j == ∑=表示各列的频数之和

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

非参数统计实验一

实验报告 课程名称: 实验项目名称: 姓名: 学号: 班级: 指导教师: 2016 年 3 月 10 日

新疆财经大学实验报告

实验要求与数据: 1、产生50 个标准正态分布的随机数并画出它们的正态分布概率图形. 2、画出参数变化的概率密度分布图,正态分布的u,σ变化,产生100个均值为5,标准差为1的正态分布的随机数,再产生100个均值为6,标准差为1的正态分布的随机数,画概率密度图 3、设随机变量X取区间[-5,5]上步长为0.1的各值, 计算X的服从参数为5 的t 分布的概率,并画出概率密度函数图形,同时画出标准正态概率密度曲线,观察二者的区别. 4、根据已知数据,求秩和正态得分 1.set.seed(1) x<-seq(-5,5,length.out=50) y<-dnorm(x,0,1) plot(x,y,col="red",xlim=c(-5,5),ylim=c(0,1),type='l',xaxs="i",

yaxs="i",ylab='density',xlab='',main="The Normal Density Distribution")

lines(x,dnorm(x,0,0.5),col="green") lines(x,dnorm(x,0,2),col="blue") lines(x,dnorm(x,-2,1),col="orange") legend("topright",legend=paste("m=",c(0,0,0,-2),"sd=",c(1,0.5, 2,1)),lwd=1,col=c("red","green","blue","orange")) 2.画出参数变化的概率密度分布图,正态分布的u,σ变化,产生100个均值为5,标准差为1的正态分布的随机数,再产生100个均值为6,标准差为1的正态分布的随机数,画概率密度图 命令:

非参数统计检验方法的应用

论文投稿领域:数理经济与计量经济学 非参数统计检验方法的应用 阮曙芬1 程娇翼 1 张振中2 (1.中国地质大学数理学院,武汉 430074;2.中南大学数学科学与计算学院,长沙 410075) 摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验 1引言 非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验 符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。 设随机变量12,,...,n X X X 相互独立同分布,分布为()F x ,()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为12,,...,n X X X ,相互独立同分布,分布为()F x ;另一个样本为12,,...,n Y Y Y ,相互独立同分布,分布为()G x ,()F x , ()G x 连续。问随机变量Y 是否随机大于随机变量X ,即检验

非参数统计十道题

非参数统计----十道题 09统计学 王若曦 114 一、 Wilcoxon 符号秩检验 下面是10个欧洲城镇每人每年平均消费的酒类相当于纯酒精数,数据已经按升序排列: 人们普遍认为欧洲各国人均年消费酒量的中位数相当于纯酒精8升,试用上述数据检验这种看法。 数据来源:《非参数统计(第二版)》 吴喜之 手算: % 建立假设组: 01H :M=8H :M>8 T 2467891046T 5319n=10 +-=++++++==++= 查表得P=<α=,因此拒绝原假设,即认为欧洲各国人均年消费酒量的中位数多于8升。 》 SPSS : 操作:Analyze ——Nonparametric Tests ——2-Related Sample Test

Test Statistics b c - x Z-1.886a Asymp. Sig. (2-tailed).059 Exact Sig. (2-tailed)! .064 Exact Sig. (1-tailed).032 Point Probability.008 a. Based on positive ranks. b. Wilcoxon Signed Ranks Test 由输出结果可知,单侧精确显著性概率P=<α=,因此拒绝原假设,即认为欧洲各国人均年消费酒量的中位数多于8升。与手算结果相同。 R语言: … > x=c,,,,,,,,, > (x-8,alt="greater") Wilcoxon signed rank test data: x - 8 V = 46, p-value = alternative hypothesis: true location is greater than 0 由输出结果可知,P=<α=,因此拒绝原假设,即认为欧洲各国人均年消费酒量的中位数多于8升。与以上结果一致。 |

非参数统计分析方法总结

非参数统计分析方法 一单样本问题 1,二项式检验:检验样本参数是否与整体参数有什么关系。 样本量为n给定一个实数MO(代表题目给出的分位点数),和分位 点口(0.25,0.5,0.75)。用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0:M=M0 HI: M k MO或者M>M(或者M

H1 :不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长) Spss步骤:分析一非参数检验一游程 得出统计量R 和p 值 当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题 1,Brown —Mood 中位数检验 给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,—个为M2 H0:M1=M2. HI: M1H M2或者M1>M或者M1

非参数统计

中国海洋大学本科生课程大纲 课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修 一、课程介绍 1.课程描述: 非参数统计是数理统计学的一个分支,它是针对参数统计而言的。所谓参数统计,简 单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立 的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体 分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获 得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路: 本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。 课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面: (1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量, 秩统计量的概念,一些统计量的近似分布。 (2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。 (3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与 独立性检验,多总体的比较。 - 1 -

(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。 3. 课程与其他课程的关系: 先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。 非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。 二、课程目标 非参数统计具有应用性广,稳健性好等特点。通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时,要求学生能够做到: (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布;理解并掌握U统计量秩统计量的概念;理解一些常用统计量的近似分布。重点是次序统计量及其分布; U统计量构造,秩统计量; (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想,掌握检验的一般步骤,掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。 三、学习要求 要完成所有的课程任务,学生必须: (1)按时上课,认真听讲,认真完成作业。其中有一些作业需要学生自编程序用机器完成。(2)按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。 (3)完成一定量的阅读文献和背景资料,可以以小组的形式讨论学习,促进同学间的心得交 - 1 -

非参数统计十道题

非参数统计----十道题 09统计学 王若曦 32009121114 一、 Wilcoxon 符号秩检验 下面是10个欧洲城镇每人每年平均消费的酒类相当于纯酒精数,数据已经按升序排列: 4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45 人们普遍认为欧洲各国人均年消费酒量的中位数相当于纯酒精8升,试用上述数据检验这种看法。 数据来源:《非参数统计(第二版)》 吴喜之 手算: 建立假设组: 01H :M=8H :M>8 T 2467891046T 5319n=10 +-=++++++==++= 查表得P=0.032<α=0.05,因此拒绝原假设,即认为欧洲各国人均年消费酒量的中位数多于8升。 SPSS : 操作:Analyze ——Nonparametric Tests ——2-Related Sample Test Ranks N Mean Rank Sum of Ranks c - x Negative Ranks 7a 6.57 46.00 Positive Ranks 3b 3.00 9.00 Ties 0c Total 10

由输出结果可知,单侧精确显著性概率P=0.032<=0.05,因此拒绝原假设,即认为欧洲各国人均年消费酒量的中位数多于8升。与手算结果相同。 R语言: > x=c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45) > wilcox.test(x-8,alt="greater") Wilcoxon signed rank test data: x - 8 V = 46, p-value = 0.03223 alternative hypothesis: true location is greater than 0 由输出结果可知,P=0.03223<α=0.05,因此拒绝原假设,即认为欧洲各国人均年消费酒量的中位数多于8升。与以上结果一致。 二、Mann-Whitney-Wilcoxon检验 下表为8个亚洲国家和8个欧美国家2005年的人均国民收入数据。检验亚洲国家和欧美国家的人均国民收入是否有显著差异(α=0.05)。

《非参数统计》实验教学大纲

《非参数统计》课程实验教学大纲 大纲制定(修订)时间: 2017 年 6 月 课程名称:《非参数统计》课程编码:090531007 课程类别:专业基础课课程性质:必修 适用专业:应用统计学 课程总学时:40 实验(上机)计划学时:8 开课单位:理学院 一、大纲编写依据 1.应用统计学专业2017版教学计划; 2.应用统计学专业《非参数统计》理论教学大纲对实验环节的要求; 3.近年来《非参数统计》实验教学经验。 二、实验课程地位及相关课程的联系 1. 非参数统计是应用统计学专业学生的一门专业基础必修课。 2.本实验以《概率论与数理统计》为先修课; 3.与《数理统计》课程相辅相成。 三、实验目的、任务和要求 1.开设本课程的目的是为了满足日后学生参加统计调查实践工作的需要。 2.掌握单样本模型、两样本位置模型、多样本分类数据模型中的各种非参数统计检验方法,以及检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,通过利用各种统计软件(包括SPSS、R软件)实现对样本调查数据的处理与分析,能在真实案例中应用相应的方法。 四、教学方法、教学形式、教学手段的特色 1.每个实验由教师指定实验内容及要求,由学生独立完成上机操作,得出正确的结果。 2.学生要书写实验报告,记录式样结果。 五、实验内容和学时分配

实验一位置参数的检验在统计软件中的实现 1、实验目的:掌握单样本、两样本和多样本位置参数的检验在统计软件中的实现过程。 2、实验要求:将操作过程及结果书写出来,并且将结果截图后贴在实验报告上。 3、实验内容:根据实际问题,个人设计检验总体,获取数据,进行检验。 4、主要仪器设备及试剂:(据实选填)计算机·50台·SPSS/EXCEL软件 实验二尺度参数的检验在统计软件中的实现 1、实验目的:掌握两样本和多样本尺度参数的检验在统计软件中的实现过程。 2、实验要求:把操作过程及结果书写出来,并且上交实验报告。 3、实验内容:根据实际问题,个人设计检验总体,获取数据,进行检验。 4、主要仪器设备及试剂:(据实选填)计算机·50台·SPSS/EXCEL软件 实验三相关与回归分析在统计软件中的实现 1、实验目的:掌握Spearman秩相关检验、Kendall协同检验与Theil回归在统计软件中的实现过程,并与Pearson相关系数与一元线性回归分析比较。 2、实验要求:将各种结果相对照,最后把操作过程及结果书写出来,并且上交实验报告。 3、实验内容:根据实际问题,个人设计检验总体,获取数据,进行检验。 4、主要仪器设备及试剂:(据实选填)计算机·50台·SPSS/EXCEL软件 实验四Kolmogorov-Smirnov检验在统计软件中的实现 1、实验目的:掌握Kolmogorov-Smirnov检验在统计软件中的实现过程,并与卡方检验结果对照。 2、实验要求:将结果相对照,最后把操作过程及结果书写出来,上交实验报告。 3、实验内容:根据实际问题,个人设计检验总体,获取数据,进行检验。 4、主要仪器设备及试剂:(据实选填)计算机·50台·SPSS/EXCEL软件 六、教材(讲义、指导书) 《非参数统计》,吴喜之,赵博娟,中国统计出版社,2013. 七、考核方法和评分标准 1.按照大纲要求,根据每个学生实验前的预习准备,实验过程的考查,实验操作情况及实验报告的质量,综合给出实验成绩。 2.评分等级 评分成绩分优、良、中、及格和不及格五个等级。 优:90分以上 良:80-89分 中:70-79分 及格:60-69分 不及格:59分及以下 具体评定标准如下: 优:实验纪律、预习、操作技能很好,实验报告书写工整无原则错误; 良:实验纪律、预习、操作技能较好,实验报告中原则错误不超过一个; 中:实验纪律、预习、操作技能一般,实验报告中原则错误不超过两个; 及格:实验纪律、预习、操作技能较差,实验报告中原则错误不超过三个; 不及格:实验中严重违章违纪,预习、实验技能均较差,实验报告中数据严重错误。 八、使用说明 1.本实验教学大纲一般随课程进度进行安排,也可集中安排;

非参数统计——期末试卷

每小题20分 1. 下面是DMBA 公司为了研究某一种癌症所做的试验。Group 1和2分别代表试验的控制组和对照组。下面是所得的试验老鼠的生存数据,*代表数据被右删失。请回答下面问题: Group 1: 164 188 190 192 206 209 213 216 220 230 234 246 265 304 216* 244* Group 2: 156 163 198 205 232 233 239 240 261 280 296 323 204* 344* 1)请给出非参数的Kaplan-Meier 估计的公式,并计算在时间点t=156,164这两点的具体估计值,若假设在t=164处被删失,计算此处的估计值。 2)如果协变量分别取为1和0,请用Cox 模型模拟上述数据,给出计算协变量的系数的相关公式; 3)给出Kaplan-Meier 估计的Matlab 程序。 2. 下面是16个学生的体能测试数据: P81例3.14 82 53 70 73 103 71 69 80 54 38 87 91 62 75 65 77。 1) 请用顺序统计量方法构造置信度为95%的中位数的置信区间; 2) 编写上述计算的Matlab 程序 3. 下面是申请进入法学院学习的学生的LSAT 测试成绩和GPA 成绩。 LSAT: 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594 GPA: 3.39 3.30 2.81 3.03 3.44 3.07 3.00 3.43 3.36 3.13 3.12 2.74 2.76 2.88 3.96 每个数据点用(,),i i i X Y Z 其中i Y 表示LSAT 成绩,i Z 表示GPA 成绩 1) 计算i Y 和i Z 的Pearson 相关系数 (只写出公式); (5分) 2) 使用Boostrap 方法估计相关系数的标准误差(只写出算法步骤);(5分) 3) 编写相应的Matlab 程序。(10分)

第二讲-非参数统计检验

第二讲非参数检验 1. 实验目的 1. 了解非参数假设检验基本思想; 2. 会用SAS 软件中的proc nparlway 过程进行非参数假设检验和 proc freq 过程 进行列联表的独立性检验。 2. 实验要求 1. 会用SAS 软件建立数据集,并进行统计分析; 2. 掌握proc nparlway 过程进行非参数假设检验的基本步骤; 3. 掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1符号检验 H 0:两种方法的处理效果无显著性差异 令 li = * 1 第i 个个体中新方法优于对照方法 .0 第i 个个体中新方法劣于对照方法 i=1,2,|||,N 统计里S N N =瓦I i i T S N 表示新方法的处理效果优于对照方法的配对组总数。 若新方法的处理效果显著的优于对 照方法,则S N 的值应明显偏大。因此,若对给定的置信水平 [,有 P 「S N - 八 则拒绝H 0。 1 N N (1) S N 服从二项分布b(N ,-) E(S N ) ,Var (S N ) 。拒绝域为: 2 2 4 'S N S N c ; H 。为真时, (2)由中心极限定理可知,当 的零分布趋于标准正态分布

3.2 Wilcox on 秩和检验 (1)单边假设检验 H o :两种方法的处理效果无显著性差异 as H i ::新方法优于对照方法。 n 用于检验H o 的统计量为:W s I i i 4 若对给定的置信水平,有P [W s - C 「:〉,则拒绝H o 。且W s 的分布列为: P H °{W S = w #{w ;n ,m} ' 了 N 、 1 1 n 根据观测结果计算W s 的观测值W s 0,计算检验的p 值: p= P H o {W s - W s }八 P H °{W S 二 k} k _w s 然后将p 值与显著水平:?作比较,若p ::: :?,则拒绝H 0,否则接受H 0。 (2)双边假设检验 给定的显著水平:-,C |和c 2应该满足: P H 0{W A 乞 c 1} P H 0{W A - c 2} = 仅由上式还不能唯一确定 &和C 2,当我们对两种方法谁优谁劣不得而知时,通常取 P H °{W A 22 c 1} = P H °{W A - c 2} = ~ 若利用p 值进行检验,设 W A 的观测值为'A ,计算概率值 P H °{W A - A }或P H °{W A 「A } 由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。例如 0 乞 P H °{ W A - ' A ^V 2 则 p = 2P H 0{W A - ? ■ A }。求出 p 值后,若 p

《卫生统计学》考试题及答案

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 《卫生统计学》考试题及答案 《卫生统计学》一、名词解释 1. 计量资料 2. 计数资料 3. 等级资料 4. 总体 5. 样本 6. 抽样误差 7. 频数表 8. 算术均数 9. 中位数 10. 极差 11. 方差 12. 标准差 13. 变异系数 14. 正态分布 15. 标准正态分布 16. 统计推断 17. 抽样误差 18. 标准误 19. 可信区间 20. 参数估计 21. 假设检验中 P 的含义 22. I 型和 II 型错误 23. 检验效能 24. 检验水准 25. 方差分析 26. 随机区组设计 27. 相对数-1- 1/ 29

28. 标准化法 29. 二项分布 30. Yates 校正 31. 非参数统计 32. 直线回归 33. 直线相关 34. 相关系数 35. 回归系数 36. 人口总数 37. 老年人口系数 38. 围产儿死亡率 39. 新生儿死亡率 40. 婴儿死亡率 41. 孕产妇死亡率 42. 死因顺位 43. 人口金字塔二、单项选择题 1.观察单位为研究中的( D )。 A.样本 C.影响因素 2.总体是由( C )。 A.个体组成 C.同质个体组成 3.抽样的目的是( B )。 A.研究样本统计量 C.研究典型案例研究误差 4.参数是指( B )。 A.参与个体数 C.样本的统计指标 B.总体的统计指标 D.样本的总和 B.由样本统计量推断总体参数 D.研究总体统计量B.研究对象组成 D.研究指标组成 B.全部对象 D.个体5.关于随机抽样,下列那一项说法是正确的( A )。 -2-

相关主题
文本预览
相关文档 最新文档