当前位置：文档之家› 第11章非参数回归(非参数统计,西南财大)范文

第11章非参数回归(非参数统计,西南财大)范文

第十二章非参数回归及其相关问题

第一节参数回归问题的回顾

在线性回归模型中，我们总是假定总体回归函数是线性的，即多元线性回归模型一般形式为：

i Ki K i i i X X X Y μββββ+++++= 33221

总体回归函数（PRF ）

Ki K i i ki i i i X X X X X X Y E X m ββββ++++== 3322132),,,()(

但是，经验和理论都证明，当)(X m 不是线性函数时，基于最小二乘的回归效果不好，非参数回归就是在对)(X m 的形式不作任何假定的前提下研究估计)(X μ。

例设二维随机变量，其密度函数为

?≤≤≤≤+=其它

10,10),(y x y

x y x f ，求)/(x X Y E =.

解：1

1),()(1

≤≤+

x x dy y x f x f x

?==1

)

()

,()/(dy x f y x f y

x X Y E x ?++=1

021dy x y x y ?++=1

)(2

dy y x y x )()321(122x m x x =++= 从例可知，)/(x X Y E =仅与x 有关，条件期望)/()(x X Y E x m y ===表明Y 与X 在条件期望的意义下相关。

由样本均值估计总体均值的思想出发，假设样本),(11Y X ，),(22Y X ，…，),(n n Y X 中有相当i X 恰好等于x ，()(/)m x E Y x =，不妨记为1i X ，2i X ，…，k i X ，自然可取相应

的Y 的样本1i Y ，2i Y ，…，k i Y ，用他们的平均数∑=k

j i j Y k 1

1去估计)/()(X Y E X m =。可是

在实际问题中，一般不会有很多i X 的值恰好等于x 。这个估计式，仿佛是一个加权平均数，对于所有的i X ，如果等于x ，则赋予

的权，如果不等于x ，则赋予零权。由此可启发我们在思路上产生了一个飞跃。即对于任一个x ，用n Y Y Y ,,,21 的加权和去估计()m x ，即

∑==n

i i i n Y W x m

)(?，其中n i W i ,,2,10 =≥，，1=∑i W 估计)/()(X Y E X =μ。问题是如何赋权，一种合乎逻辑的方法是，等于x 或靠x 非常近的那些i X ，相应的权大一些，反之小权或零权。

两种模式：

设(,)k Y R R ∈?x 上的随机变量，(,)(1,2,

,)i i Y i n =x 为的n 次观测值。实际应用

中，{}n

i i x 为非随机的，n Y Y Y ,,,21 依条件独立，在理论上非参数回归中{}n

i i x 既可以是非随机的，也可以是随机的。而参数回归分析中，我们总是假定{}n

i i x 为非随机的。

根据{}n

i i x 的不同非参数回归有两种模式。 1、{}n i i x 为随机时的非参数回归模型

设(,)k

Y R R ∈?x ，+∞<||Y E ，(,)(1,2,

,)i i Y i n =z 为(,)Y x 的随机样本。存在没

个未知的实值函数(.)g ，使得

(/()i E Y g =i x =x x ） n i ,,2,1 =

一般记为(/Y E Y =X =x ）

(/(/)E Y yf y dy =?X =x x ）(,)()f y y

dy f =?x x (,)()()

(,)x yf y dy r f f y dy ==??x x x x

这里，0f ≠x (x)，如果0f =x (x)，则((/)0m E Y ===x)X x 2、{}n

i i x 为非随机时的非参数回归模型

由于在实际中，研究者或试验者一般可以控制X 或预先指定X ，这时X 可能不再是随机变量，例如年龄与收入之间的关系中年龄为固定时，收入的分布是已知的，不存在X 为

非参数回归

随机变量时，估计)(x f x 的问题。

设(,)k Y R R ∈?x ，+∞<||Y E ，(,)(1,2,,)i i Y i n =x 为(,)Y x 的随机样本设的随

机变量，(,)(1,2,

,)i i Y i n -x 为()Y x,的n 次独立观测值，则 ()i i Y g e =+i x ),,2,1(n i =

iid e e e n ,,,21 ，0)(=i e E ，+∞<=2)(σi e Var 。

第二节一元非参数回归核估计方法

一、核估计

(一) Nadaraya-Watson 估计

核权函数是最重要的一种权函数。为了说明核函数估计，我们回忆二维密度估计

dy x f y x f dy x y yf x X Y E x m x ?

?====)

()

,()/(/()(） (1) 而),(

),(1

i n

i n i n

h y

Y h x X K nh y x f --=∑= )(1)(1

1),(1n

i n i n n i n h y Y K h h x X K h n y x f --=∑= (2)

在这个密度函数估计中，核函数必须相等，光滑参数n h 可以不等，光滑参数不等时，有

)(1)(1

1),(1y

i n i y x i x h y Y K h h x X K h n y x f --=∑=

将（2）代入（1）的分子，得

dy h y Y K h y h x X K h n dy y x f y y

i n i y x i x )()(1

1),(1--=∑??= 令i y Y y s h -+=

，则1

ds dy h =

111(,)()()()n i y i i x x

X x y f x y dy K sh Y K s ds n h h =-=+∑??

又由)(s k 有对称性，则?≡0)(ds s sK ，?

≡1)(ds s K ，得1式的分子为

分子＝

i x i n

i x Y h x

X K nh )(

1-∑= 分母＝

)(

i n

i x

h x

X K nh -∑= 111111()()()11()()n n i i i i i i x x x x

n n

i i i i x x x x

X x X x K Y K Y nh h h h m x X x X x K K nh h h h ====--==--∑∑∑∑ 可以看出对）x X Y E x m ==/()(的估计，是密度函数估计的一种自然推广，一般也称为权函数估计∑==

i i ni

n Y x W

x m 1

)()(

其中11

()()1

()i x x

ni n

i i x x

X x K h h W x X x K h h =-=-∑ 可以看出权函数完全由)(x W ni 确定，其取值与X 的分布有关，称为N-W 估计。可以推得：

∑∑==-=-n

i n i ni n i i ni x m

Y x W Y x W 1

))(?)(())((min θ 0))((12=-??

∑=n

i i ni

Y x W

θθ

0))((12

=-??∑=n

i i

ni Y x W

θθ

0))((21

=--∑=n

i i ni Y x W θ

∑==n

i i ni n Y x W x m

)()(? 所以，核估计等价于局部加权最小二乘法。

非参数回归 5

二、窗宽的选择令

()()i h i x x

X x K K X x h h -=- 根据非参数估计11?()()/()n

n h

i h i i i m

x K X

x Y K x X ===--∑∑

当0→h ，1

?()()/()n

n h

i h i i i m

x K X

x Y K x X ===--∑∑的分子和分母中除了当i x X =的

项不为零，其它均为零，故

i i i n Y K Y K X m

=→)0(/)0()(? 这说明当窗宽趋于0时，i x X =点的估计值趋于该点的观测值。

当∞→h ，1

?()()/()n

n h

i h i i i m

x K X

x Y K x X ===--∑∑的分子和分母中每一项

()(0)h i K x X K -→，则∑∑∑===--=→n

i i n i n

i i n Y n K n Y K n x m

111

1)0(/)0()(?。说明当窗宽趋于无穷时，则每一点的估计值均为Y 的观测值的平均值。

可见窗宽n h 的控制是核估计精度的重要参数。太小估计线欠平滑，太大过于平滑。

1、理论窗宽的最佳选择

记2

2()()K u K u du μ=?，?

du u K K R 2

)()( 当解释变量为随机的情形时，i i i u X m Y +=)(),,2,1(n i =的渐近偏差和渐近方差为：估计方法渐近偏差

渐近方差

N-W 方法

)())

()

()(2)((222

k x f x f x m x m h n μ''+''

)()()(2K R x f nh x n σ 其中)(x f 为解释变量的密度函数，)/()(2

2i i i x X u E x ==σ。

估计的均方误差

2))()(?(x m x m

E n - [][]{}2)()(?)(?)(?x m x m E x m E x m

E n n n -+-= []{}[]{}22)()(?)(?)(?x m x m E x m E x m

E n n n -+-= 回归函数m(x)估计的渐近方差随着窗宽见效而增大，渐近偏差随着减小而减小。所以非参数估计就是在估计的盘查和方差中寻求平衡，使均方误差达到最小。理论的最佳窗宽5/1-=cn h n 。

2、样本窗宽的交错鉴定

哪一个窗宽是比较恰当的，必须通过样本的资料考察，但是我们的样本仅仅有一个。在某个局部观测点i X x =，首先，在样本中剔除该观测值点),(i i Y X ，用剩余的n-1个点在i X x =处进行核估计：

∑≠-=n

j j i nj i n Y X W x m

)()(?, 最后比较平方拟合误差1

2,1

?()(())()n

n i

i i i CV h n

Y m

X w X --==-∑，使)(n h CV 最小的窗

宽，则是最佳的。 3、窗宽的经验选择方法

当K(.)为【－1，1】上对称、单峰的概率密度时，∑≠=n

j j i nj

n Y X W

x m

)()(?是集中

在x 附近的加权平均，由于x 为对称的，以n h 为宽度，当n h 太大时，参加的平均点多，会提高精度，但可能偏差会增大。反之n h 小则相反。所以应该根据散点图来选择窗宽。三、核函数的选择因为估计方法

渐近偏差

渐近方差

非参数回归

N-W 方法

)())

()

()(2)((222

k x f x f x m x m h n μ''+''

)()()(2K R x f nh x n σ 所以渐近均方误差为：

2211)()(h K C h n K R C MSE B v μ+=--

其中v C 和2B C 是与核函数无关的量，对MSE 求h 的导数，则最佳的窗宽为：

5/15

1225

0)()(4-???

? ?????

? ??=n K K R C C h B v μ 将5/15

1225

0)()(4-???

? ?????? ??=n K K R C C h B v

μ代入MSE ，得 )()()44()()(5

/225/45/45/15/25/45/4K K R C C h MSE B v μ---+=

最优的核函数是使()??=

du u K u du

u K

K K R )()()()(2

μ达到最小的核函数

+-=)1(75.0)(2u u K 。

四、核估计的性质（略）

作为估计量，非参数回归函数核估计有一些优良性质。

第三节一元非参数回归模型的局部估计

一、局部多项式回归

局部多项式估计（Loess ）是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式，可以是零阶、一阶、二阶，零阶时与核估计相同。

为了研究某经济变量Ｙ的变化规律，一个常用的方法就是找出影响Ｙ的相关经济变量Ｘ，回归表达式()Y m x =未知，Ｙ为被解释变量，x 为解释变量。()Y m x u =+，其中ｕ为随机误差项。假设有样本11(,),,(,)n n Y X Y X ，()Y m x =在0X x =处相应阶导数存在

（0x 可取(1,2,

,)i X i n =）

，我们要估计0()f x 。如果假定()m x 在0X x =处p 阶导数存在，则将()m x 在0X x =的某领域按泰勒级数展开

00000()()()()()()!

p p m x m x m x m x x x x x p '=+-+

+-+

记k k k m β!)(=，1,2,,k p =，00()m x β=

原模型为

()000()()()()()!

p p i i i i i m X Y m x m x X x X x p ε'=+-+

+-+

0100()()()p i p i i m x X x X x ββε=+-+

+-+

上式为一个多项式回归模型，且对)(x m 的估计依赖于其局部的点。从模型我们可以看出，()i m X 是()m x 在i x X =处的观测值；()i m X '是()m x 在i x X =处的斜率。

根据加权最小二乘法可以估计核权局部回归。

2001

{()}()min p

n j i

h i i j Y X

x K X x β==---=∑∑

注：

因为样本回归函数为 e X Y +=β

? 两边同乘以X 的转置，得

e X X X Y X '?''+=β

即 β

?''X X Y X = 得参数（向量）β的最小二乘估计为： Y X X X ')'(?1-=β

??????

??????=n Y Y Y 21Y ??????????????------=p n n p p x X x X x X x X x X x X )()()(0002020101 111X ????????????=n ββββ 2

1 ?????

??????=n εεεε 21

()

)()()(21x X K x X K x X K diag n h h h n n n ---= x W

非参数回归 9

εβ+=X Y

)min '--=(Y X β)W(Y X β εβW WX WY += W εX WX X WY X '+'='β

WY X WX)X (''=-1?β

局部多项式拟合从理论和实践上都很吸引人。

第一，传统回归分析方法将经济变量局部上的变异掩盖了，因此无法反映经济现象的结构变化。而局部回归的结果能够动态地反映经济现象的结构变化。

第二，局部回归分析的方法假定变量间的关系未知，所以更加符合实际情况。窗宽参数h 在局部回归中起到了相当重要的作用。太大的窗宽将使与0X x -距离较远的观测点也参与局部回归分析，也就造成局部回归的偏差大；太小的窗宽将使与0X x -较近的点没能参加局部回归分析，造成估计的随机偏差大。因而寻求一个合适的窗宽是局部回归分析的最重要的任务之一。窗宽选择的常用方法之一是交叉核实。

()n

o i

i Y RMSE n

β-=-=

∑最小的窗宽。

其中0,?i

β-是剔除该观测点，估计i Y 的估计值。核函数为一个对称的概率密度函数，核权函数在局部回归中起到光滑的作用，使所得的曲线更能反映变量之间的实际经济关系。在0X x -进行局部回归分析之前，对于不同的观测点X 将赋予不同的权数，即不同的观测点在0X x -处局部回归时的重要程度不同，靠得近的点赋大权，相反赋小权。

SAS/INSIGHT 缺省使用一阶（线性）局部多项式。改变Loess 的系数alpha 可以改变曲线的光滑度。alpha 增大时曲线变光滑，而且使用一阶或二阶多项式时曲线不会同时变水平。固定窗宽的局部多项式是另一种局部多项式拟合方法。它有一个光滑系数c

第四节 k 近邻估计

一、k 近邻均匀核权估计

例一个特殊的非参数回归k 近邻估计

在R P 上引入一个距离函数║?║，即任取u 和v ，v u -表示两点的距离。这个距离可以是欧氏距离或马氏距离。对指定的X ，n X X X ,,,21 到X 的距离的大小按升序排列，得

n R R R X X X X X X -≤≤-≤- 21

k R X 称为X 的第k 个近邻。

然后指定n 个常数{}n i c i ,,2,1/ =满足：∑==≥≥≥≥n

i ni

nn n n c

c c c 1

211,

0 ，则称

∑==n

i i nR n Y C x m

i 1

)(? 为)(x m 的近邻估计。

),,,(21nn n n c c c =λ为光滑参数。一种最常见的近邻权是：给定一

个K ，位次在K 和K 以前的，权数为1/K ，K+1以后的权数为零。称为均匀核权估计。定义令 {}

:x i J i X x k =是离最近的个观测值之一

()

1/2

()d x xx '=（定义一种距离）

(){}()max :x R x d x z z J =-∈（可以认为R(x)为x 的第k 个近邻离x 的距离。

） ()()/()i i u x d x X R x =-（可以认为某个X i 距x 的距离除以R(x)）

定义 1

(())

()(())

i ni n

i K u x W x K u x ==

∑

为K 近邻估计的核权函数。

非参数回归 11

K 近邻权常常以的核函数为：

[]1,1()0.5()K t I t -= []1,1()(1||)()K t t I t -=-

[]221,115

()(1||)()16K t t I t -=

- []331,170()(1||)()81K t t I t -=-

二、k 近邻估计

回归函数()m x 的K 近邻估计为

?()()n

ni i i m

x W x Y ==∑ 渐近偏渐近方差

随机设计

[]()23

/))(2()(8)

(n k x f m f m x f K ''+''μ 2

()2()x R k k

三、非参数回归模型的稳健估计（lowess ）

Lowess （Locally Weighted Scatter Plot Smoothing ）称为局部多项式加权散点图平滑。众所周知，异常点将造成线性回归模型最小二乘估计失去应用的价值。因而有必要改进局部新型拟合方法以降低异常点对估计结果的影响。稳健估计方法的基本思想是先用局部线性估计进行拟合，然后定义稳健的权数并进行平滑。

1) 对模型进行局部线性或多项式回归估计，得到

{}

p j

j β=的估计，使得

210

1(())n

j ni i j i i j W Y X x n β==--∑∑ 达到最小。其中{}()ni W x 是k 近邻权，最佳窗宽由交错鉴定法确定。

2) 计算残差0??i i Y εβ=-。其中0?β是在x 邻域进行局部多项式回归的常数项0()

m x β=的估计量。计算{}

??i med σ

ε=，并定义稳健权数??(/(6))i i K δεσ=，其中 2215

()(1)(1)16

K u u I u =

-≤。 3）重复第一步，进行局部多项式拟合，但权数用{}()i ni W x δ，重复s 次后，可得稳健估计。

由于稳健估计的权数??(/(6))i i K δε

σ=可以将异常值排除在外，并且初始残差大（晓）的观测值在下一次局部多项式中的权数就小（大）。因而重复几次后就可将异常值不断地排除在外，并最终得到稳健的估计。

非参数统计题目及答案

1．人们在研究肺病患者的生理性质时发现，患者的肺活量与他早在儿童时期是否接受过某种治疗有关，观察3组病人，第一组早在儿童时期接受过肺部辐射，第二组接受过胸外科手术，第三组没有治疗过，现观察到其肺活量占其正常值的百分比如下：这一经验是否可靠。解： H 0：θ2≤θ1≤θ 3 H 1 :至少有一个不等式成立可得到 N=15 由统计量H= ) 112 +N N （∑=K i i N R 1i 2 -3(N+1)=）（1151512+(32×6.4+29×5.8+59×11.8)-3×(15+1)=5.46 查表（5,5,5）在P(H ≥4.56)=0.100 P(H ≥5.66)=0.0509 即P （H ≥5.46）﹥0.05 故取α=0.05， P ﹥α ，故接受零假设即这一检验可靠。

2.关于生产计算机公司在一年中的生产力的改进（度量为从0到100）与它们在过去三年中在智力投资（度量为：低，中等，高）之间的关系的研究结果列在下表中：值等等及你的结果。（利用Jonkheere-Terpstra 检验）解： H 0：M 低=M 中=M 高 H 1：M 低﹤M 中﹤M 高 U 12=0+9+2+8+10+9+10+2+10+10+8+0.5+3=82.5 U 13=10×8=80 U 23=12+9+12+12+12+11+12+11=89 J= ∑≤j ij U i =82.5+80+89=251.5 大样本近似 Z= []72 )32()324 1 2 1i 22 2∑ ∑==+-+--k i i i k i n n N N n N J （）（～N （0,1）求得 Z=3.956 Ф(3.956)=0.9451 取α=0.05 ， P >α，故接受原假设，认为智力投资对改进生产力有帮助。

非参数统计部分课后习题参考答案

课后习题参考答案第一章p23-25 2、（2）有两组学生，第一组八名学生的成绩分别为x 1：100，99，99，100，99，100，99，99；第二组三名学生的成绩分别为x 2：75,87,60。我们对这两组数据作同样水平a=0.05的ｔ检验（假设总体均值为u ）：H 0：u=100 H 1：u<100。第一组数据的检验结果为：df=7，t 值为3.4157，单边p 值为0.0056，结论为“拒绝H 0：u=100。”（注意：该组均值为99.3750）；第二组数据的检验结果为：df=2，t 值为3.3290，单边ｐ值为0.0398;结论为“接受H 0：u=100。”（注意：该组均值为74.000）。你认为该问题的结论合理吗？说出你的理由，并提出该如何解决这一类问题。答：这个结论不合理（6分）。因为，第一组数据的结论是由于ｐ－值太小拒绝零假设，这时可能犯第一类错误的概率较小，且我们容易把握；而第二组数据虽不能拒绝零假设，但要做出“在水平ａ时，接受零假设”的说法时，还必须涉及到犯第二类错误的概率。（4分）然而，在实践中，犯第二类错误的概率多不易得到，这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多，可能是证据不足（样本数据太少），也可能是检验效率低，换一个更有效的检验之后就可以拒绝了，当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足，所以解决的方法只有增大样本容量。（4分）第三章p68-71 3、在某保险种类中，一次关于1998年的索赔数额（单位：元）的随机抽样为（按升幂排列）： 4632，4728，5052，5064，5484，6972，7596，9480，14760，15012，18720，21240，22836，52788，67200。已知1997年的索赔数额的中位数为5064元。（1）是否1998年索赔的中位数比前一年有所变化？能否用单边检验来回答这个问题？（4分）（2）利用符号检验来回答（1）的问题（利用精确的和正态近似两种方法）。（10分）（3）找出基于符号检验的95％的中位数的置信区间。（8分）解：（1）1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化，但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化，还得进行假设检验，而且这个问题不能用单边检验来回答。（4分）（2）符号检验（5分）设假设组：H ０：M ＝M ０＝5064 H １：M ≠M ０＝5064 符号检验：因为n +=11，n-=3，所以k=min(n+,n-)=3 精确检验：二项分布b(14,0.5)， ∑=-=3 0287 .0)2/1,14(n b ，双边ｐ－值为0.0576,大于ａ＝0.05，所以在ａ水平下，样本数据还不足以拒绝零假设；但假若ａ＝0.1，则样本数据可拒绝零假设。查二项分布表得ａ＝0.05的临界值为（3，11），同样不足以拒绝零假设。正态近似：（5分） np=14/2=7,npq=14/4=3.5 z=(3+0.5-7)/5.3≈-1.87>Z a/2=-1.96 仍是在ａ＝0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。（3）中位数95％的置信区间：（5064，21240）（8分） 7、一个监听装置收到如下的信号：0，1，0，1，1，1，0，0，1，1，0，0，0，0，1，1，1，1，1，1，1，1，1，0，1，0，0，1，1，1，0，1，0，1，0，1，0，0，0，0，0，0，0，0，1，0，1，1，0，0，1，1，1，0，1，0，1，0，0，0，1，0，0，1，0，1，0，1，0，0，0，0，0，0，0，0。能否说该信号是纯粹随机干扰？（10分）

王静龙《非参数统计分析》课后计算题参考标准答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1. One Sample t-test for a Mea n Sample Statistics for x N Mea n Std. Dev. Std. Error 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mea n of x = 0 Alternative: Mea n of x A= 0 t Statistic Df Prob > t 0.861 25 0.3976 95 % Con fide nee In terval for the Mea n Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样习题二 1.描述性统计

习题二 1.1 S+=13 n 39 H o： me 6500 H〔：me 6500 PS 13 二BINOMDIST(13,39,0.5,1) =0.026625957 另外：在excel2010中有公式BINOM.INV(n,p,a)返回一个数值，它使得累计二项式分布的函数值大于或等于临界值a的最小整数 * 1 m n m inf m ■ 2 i 0 i BINO M」N V(39,0.5,0.05)=14 * n 1 * d n d=sup d : m 1 13 2 i 0 i S+13 d 13 以上两种都拒绝原假设，即中位数低于6500 1.2

n 1 inf n * * 1 m n m inf m :- 2 i o i BINOM.INV(40,0.5,1 -0.025)=26 d=n-c=40-26=14 x 14 5800 x 26 6400 me x 20 6200 2. S + =40 n 70 H 0: me 6500 H 1: me 6500 2P S 40 2*(1-BIN0MDIST(39,70,0.5,1)) =0.281978922 则接受原假设，即房价中位数是 6500 3.1 S + =1552 n 1552 527 2079 inf m inf m=BINOM.INV(2079,0.5,0.975)=1084 则拒绝原假设，即相信孩子会过得更好的人多 3.2 P 为认为生活更好的成年人的比例，则 H 。: p 出：p n 比较大，则用正态分布近似 P S 1552 1039.5-1552+0.5 、519.75 =5.33E-112 另外:S +=1552 n 1552 527 2079

非参数统计检验方法的应用

论文投稿领域：数理经济与计量经济学非参数统计检验方法的应用阮曙芬1 程娇翼 1 张振中2 （1.中国地质大学数理学院，武汉 430074；2.中南大学数学科学与计算学院，长沙 410075）摘要：本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验，结果表明2002年上海股市综合指数收益率不具有周末效应。关键字：符号检验；Wilcoxon 秩和检验；Kruskal-Wallis 检验 1引言非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候，分析样本特点，寻找相应的非参数检验统计量。本文就是以此为出发点，介绍了非参数统计中假设检验常用的几个检验方法：符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验，然后结合具体的问题和数据，在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验，常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号，然后对正负秩和进行比较检验。设随机变量12,,...,n X X X 相互独立同分布，分布为()F x ，()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下：有两个总体，一个总体的样本为12,,...,n X X X ，相互独立同分布，分布为()F x ；另一个样本为12,,...,n Y Y Y ，相互独立同分布，分布为()G x ，()F x ， ()G x 连续。问随机变量Y 是否随机大于随机变量X ，即检验

非参数统计

中国海洋大学本科生课程大纲课程属性：公共基础/通识教育/学科基础/专业知识/工作技能，课程性质：必修、选修一、课程介绍 1.课程描述：非参数统计是数理统计学的一个分支，它是针对参数统计而言的。所谓参数统计，简单地说就是建立在总体具有明确分布形式，通常多为正态分布形式的假定基础之上，所建立的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下，例如总体分布形式完全未知或分布形式是对称的，诸如这样一些宽泛条件下，尽量从数据本身获得的信息，建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路：本课程是在已学数理统计基础上，通过非参数统计的学习，引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。课程内容着重于基本知识点的理解，避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面： (1).非参数统计的基本概念：非参数统计方法的主要特点，次序统计量及其分布，U统计量，秩统计量的概念，一些统计量的近似分布。 (2).非参数估计的方法：总体分位数的估计，对称中心的估计，位置差的估计。 (3).非参数检验的方法：总体p分位数的检验，总体均值检验，两样本的比较，随机性与独立性检验，多总体的比较。 - 1 -

(4).总体分布类型的估计与检验：分布函数的估计与检验，概率密度估计。 3. 课程与其他课程的关系：先修课程：《概率论》，《数理统计》，《多元统计分析》；并行课程：《应用回归分析》；后置课程：《统计软件》。非参数统计是应用数学专业、信息与计算科学专业的选修课程，但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。二、课程目标非参数统计具有应用性广，稳健性好等特点。通过本课程学习，要求学生了解或理解非参数统计的一些基本理论和方法，注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时，要求学生能够做到： (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布；理解并掌握U统计量秩统计量的概念；理解一些常用统计量的近似分布。重点是次序统计量及其分布； U统计量构造，秩统计量； (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想，掌握检验的一般步骤，掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。三、学习要求要完成所有的课程任务，学生必须：（1）按时上课,认真听讲，认真完成作业。其中有一些作业需要学生自编程序用机器完成。（2）按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。（3）完成一定量的阅读文献和背景资料，可以以小组的形式讨论学习，促进同学间的心得交 - 1 -

非参数统计(R软件)参考答案

内容： A.3, A.10, A.12 A.3 上机实践：将MASS数据包用命令library(MASS)加载到R中，调用自带“老忠实”喷泉数据集geyer，它有两个变量：等待时间waiting和喷涌时间duration，其中… (1) 将等待时间70min以下的数据挑选出来; (2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来; (3) 将等待时间70min以下喷泉的喷涌时间挑选出来; (4) 将喷涌时间大于70min喷泉的等待时间挑选出来。解:读取数据的R命令： library(MASS);#加载MASS包 data(geyser);#加载数据集geyser attach(geyser);#将数据集geyser的变量置为内存变量 (1) 依题意编定R程序如下： sub1geyser=geyser[which(waiting<70),1]; #提取满足条件（waiting<70）的数据,which()，读取下标 sub1geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 57 60 56 50 54 (2) 依题意编定R程序如下： Sub2geyser=geyser[which((waiting<70)&(waiting!=57)),1]; #提取满足条件（waiting<70& (waiting!=57)的数据. Sub2geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 60 56 50 54 60 …… 原数据集的第1列为waiting喷涌时间，所以用[which(waiting<70),2] (3) Sub3geyser=geyser[which(waiting<70),2]; #提取满足条件（waiting<70）的数据,which()，读取下标 Sub3geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 4.000000 4.383333 4.833333 5.450000 4.866667…… 原数据集的第2列为喷涌时间，所以用[which(waiting<70),2] (4) Sub4geyser=geyser[which(waiting>70),1]; #提取满足条件（waiting<70）的数据,which()，读取下标 Sub4geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 80 71 80 75 77……. A.10 如光盘文件student.txt中的数据，一个班有30名学生，每名学生有5门课程的成绩，编写函数实现下述要求： (1) 以data.frame的格式保存上述数据； (2) 计算每个学生各科平均分，并将该数据加入(1)数据集的最后一列； (3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩； (4) 找出至少两门课程不及格的学生，输出他们的全部成绩和平均成绩； (5) 比较具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。先将数据集读入R系统 student=read.table("…",header=T)

非参数统计分析方法总结

非参数统计分析方法一单样本问题 1，二项式检验：检验样本参数是否与整体参数有什么关系。样本量为n给定一个实数MO（代表题目给出的分位点数），和分位点口（0.25,0.5,0.75）。用S-记做样本中比M0小的数的个数，S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0：M=M0 HI: M k MO或者M>M（或者M

H1 ：不是随机的（混合倾向，游程多，长度短）（成群倾向，游程少，长度长) Spss步骤：分析一非参数检验一游程得出统计量R 和p 值当p值小于0.05时拒绝原假设，没有充足理由证明该数据出现是随机的二，两个样本位置问题 1，Brown —Mood 中位数检验给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系，设一个中值为M1，—个为M2 H0：M1=M2. HI: M1H M2或者M1>M或者M1

王静龙非参数统计分析课后计算题参考答案Word版

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1.One Sample t-test for a Mean Sample Statistics for x N Mean Std. Dev. Std. Error ------------------------------------------------- 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mean of x = 0 Alternative: Mean of x ^= 0 t Statistic Df Prob > t --------------------------------- 0.861 25 0.3976 95 % Confidence Interval for the Mean Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样习题二 1.描述性统计

习题三 1.1 {}+01=1339 :6500:650013=BINOMDIST(13,39,0.5,1)=0.026625957 S n H me H me P S +==<≤ 另外：在excel2010中有公式 BINOM.INV(n,p,a) 返回一个数值，它使得累计二项式分布的函数值大于或等于临界值a 的最小整数 * **0*0+1inf :2BINOM.INV(39,0.5,0.05)=14 1sup :113 2S 1313 n m i n d i n m m i n d d m i d αα==?????? ??=≥?? ? ????????? ?????? ??≤=-=?? ? ????????? =≤=∑∑= 以上两种都拒绝原假设，即中位数低于6500 1.2

非参数统计部分课后习题参考答案

课后习题参考答案第一章p23-25 2、（2）有两组学生，第一组八名学生的成绩分别为x 1：100，99，99，100，99，100，99，99；第二组三名学生的成绩分别为x 2：75,87,60。我们对这两组数据作同样水平a=的ｔ检验（假设总体均值为u ）：H 0：u=100 H 1：u<100。第一组数据的检验结果为：df=7，t 值为，单边p 值为，结论为“拒绝H 0：u=100。”（注意：该组均值为）；第二组数据的检验结果为：df=2，t 值为，单边ｐ值为;结论为“接受H 0：u=100。”（注意：该组均值为）。你认为该问题的结论合理吗说出你的理由，并提出该如何解决这一类问题。答：这个结论不合理（6分）。因为，第一组数据的结论是由于ｐ－值太小拒绝零假设，这时可能犯第一类错误的概率较小，且我们容易把握；而第二组数据虽不能拒绝零假设，但要做出“在水平ａ时，接受零假设”的说法时，还必须涉及到犯第二类错误的概率。（4分）然而，在实践中，犯第二类错误的概率多不易得到，这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多，可能是证据不足（样本数据太少），也可能是检验效率低，换一个更有效的检验之后就可以拒绝了，当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足，所以解决的方法只有增大样本容量。（4分）第三章p68-71 3、在某保险种类中，一次关于1998年的索赔数额（单位：元）的随机抽样为（按升幂排列）： 4632，4728，5052，5064，5484，6972，7596，9480，14760，15012，18720，21240，22836，52788，67200。已知1997年的索赔数额的中位数为5064元。（1）是否1998年索赔的中位数比前一年有所变化能否用单边检验来回答这个问题（4分）（2）利用符号检验来回答（1）的问题（利用精确的和正态近似两种方法）。（10分）（3）找出基于符号检验的95％的中位数的置信区间。（8分）解：（1）1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化，但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化，还得进行假设检验，而且这个问题不能用单边检验来回答。（4分）（2）符号检验（5分）设假设组：H ０：M ＝M ０＝5064 H １：M ≠M ０＝5064 符号检验：因为n +=11，n-=3，所以k=min(n+,n-)=3 精确检验：二项分布b(14,， ∑=-=3 0287 .0)2/1,14(n b ，双边ｐ－值为,大于ａ＝，所以在ａ水平下，样本数据还不足以拒绝零假设；但假若ａ＝，则样本数据可拒绝零假设。查二项分布表得ａ＝的临界值为（3，11），同样不足以拒绝零假设。正态近似：（5分） np=14/2=7,npq=14/4= z=(3+/5.3≈>Z a/2= 仍是在ａ＝的水平上无法拒绝零假设。说明两年的中位数变化不大。（3）中位数95％的置信区间：（5064，21240）（8分） 7、一个监听装置收到如下的信号：0，1，0，1，1，1，0，0，1，1，0，0，0，0，1，1，1，1，1，1，1，1，1，0，1，0，0，1，1，1，0，1，0，1，0，1，0，0，0，0，0，0，0，0，1，0，1，1，0，0，1，1，1，0，1，0，1，0，0，0，1，0，0，1，0，1，0，1，0，0，0，0，0，0，0，0。能否说该

非参数统计参考答案

内容： , , 上机实践：将MASS数据包用命令library(MASS)加载到R中，调用自带“老忠实”喷泉数据集geyer，它有两个变量：等待时间waiting和喷涌时间duration，其中… (1) 将等待时间70min以下的数据挑选出来; (2) 将等待时间70min以下,且等待时间不等于57min的数据挑选出来; (3) 将等待时间70min以下喷泉的喷涌时间挑选出来; (4) 将喷涌时间大于70min喷泉的等待时间挑选出来。解:读取数据的R命令： library(MASS);#加载MASS包 data(geyser);#加载数据集geyser attach(geyser);#将数据集geyser的变量置为内存变量 (1) 依题意编定R程序如下： sub1geyser=geyser[which(waiting<70),1]; #提取满足条件（waiting<70）的数据,which()，读取下标 sub1geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 57 60 56 50 54 (2) 依题意编定R程序如下： Sub2geyser=geyser[which((waiting<70)&(waiting!=57)),1]; #提取满足条件（waiting<70& (waiting!=57)的数据. Sub2geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 60 56 50 54 60 …… 原数据集的第1列为waiting喷涌时间，所以用[which(waiting<70),2] (3) Sub3geyser=geyser[which(waiting<70),2]; #提取满足条件（waiting<70）的数据,which()，读取下标 Sub3geyser[1:5];#显示子数据集sub1geyser的前5行 [1] …… 原数据集的第2列为喷涌时间，所以用[which(waiting<70),2] (4) Sub4geyser=geyser[which(waiting>70),1]; #提取满足条件（waiting<70）的数据,which()，读取下标 Sub4geyser[1:5];#显示子数据集sub1geyser的前5行 [1] 80 71 80 75 77……. 如光盘文件中的数据，一个班有30名学生，每名学生有5门课程的成绩，编写函数实现下述要求： (1) 以的格式保存上述数据； (2) 计算每个学生各科平均分，并将该数据加入(1)数据集的最后一列； (3) 找出各科平均分的最高分所对应的学生和他所修课程的成绩； (4) 找出至少两门课程不及格的学生，输出他们的全部成绩和平均成绩； (5) 比较具有(4)特点学生的各科平均分与其余学生平均分之间是否存在差异。先将数据集读入R系统 student=("…",header=T) class(student):#显示数据集student的类型， [1] ""#student是数据框

非参数统计答案

1.4 对一批电器元件，抽取24个做加速寿命实验，测得其寿命数据为（单位：h）： 575，778，880，969，984，1003，1008，1021，1031，1034，1053，1054，1226，1393，1493，1480，1513，1611，1612，1612，1624，1627，1631，1768，求这批元件寿命分布的中位数的置信水平为0.95的置信区间。解：a<-function(x,p=0.5,conf.level=0.95){ d<-(max(x)-min(x))/1e10 xgrid<-c(x,x+d,x-d) value.in.ci<-rep(NA,length(xgrid)) for(fff in 1:length(xgrid)){ x1<-c(sum(xxgrid[fff]));n<-sum(x1) value.in.ci[fff]<- binom.test(x1,n,p,alternative="two.sided",conf.level)$p.value>=1-conf.level } ci<-c(min(xgrid[value.in.ci]),max(xgrid[value.in.ci])) result<-as.data.frame(list(percentile=p,lower=ci[1],upper=ci[2])) class(result)<-"table" result } x<-c(575,778,880,969,984,1003,1008,1021,1031,1034,1053,1054,1226,1393,1439,1480,1513,161 1,1612,1612,1624,1627,1631,1768) a(x) percentile lower upper 0.5 1008 1611 例1.5.2 从某工厂的产品仓库中随机取16个零件，测得它们的长度（单位：cm）为： 2.14，2.10，2.13，2.15，2.13，2.12，2.13，2.10， 2.15，2.12，2.14，2.10，2.13，2.11，2.14，2.11，求该零件长度分布的中位数的置信区间为0.95的置信区间。

非参数统计

非参数统计（nonparametric statistics）

复习：参数(parameter) 参数统计:假定被检验的总体分布类型为已知的一类统计方法。例如t检验、ANOVA要求总体：正态性和方差齐性等。

非参数统计（nonparametric statistics）不依赖总体分布的类型，不对总体参数作估计或推断，只是检验分布（具体说是分布的位置）是否相同的一类统计方法。

非参数统计的优缺点优点：对资料无前提要求，应用范围广；资料的收集和统计分析简便。缺点：对符合参数检验资料用非参数检验时，因没有充分利用信息，使检验效能；历史较短，复杂的设计无对应方法； ③无概括性的数字说明总体。。

非参数统计应用范围不符合参数统计分析要求或不能通过数据变换使资料满足参数检验要求的资料可用非参数检验来分析。偏态分布或未知分布资料或例数过少(难定分布）；分布一端或两端无界：如10以下或10以上； ●不能或未加精确测量的资料：如等级资料； ?个别数值偏离过大； ?各组离散程度相差悬殊（即方差不齐）； ?不能满足参数检验要求的资料等。综上所述：资料符合参数检验时，首选参数检验

常用的秩和检验(rank sum test) 配对设计Wilcoxon signed rank test 成组设计（两组）Wilcoxon rank sum test 成组设计（多组）Kruskal – Wallis test 多个样本两两比较Nemenyi test 随机区组设计资料Friedman’s M test

非参数统计题目及答案

非参数统计题目及答案标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]

可得到 N=15 由统计量H=)112+N N （∑=K i i N R 1i 2-3(N+1)=）（1151512+(32×+29×+59×-3×(15+1)= 查表（5,5,5）在P(H ≥= P(H ≥= 即P （H ≥）﹥ 故取α=， P ﹥α ，故接受零假设即这一检验可靠。 2.关于生产计算机公司在一年中的生产力的改进（度量为从0到100）与它们在过去三年中在智力投资（度量为：低，中等，高）之间的关系的研究结果列在下表中：

是否智力投资对改进生产力有帮助说明检验的步骤，包括零假设，备选假设，统计量，P值等等及你的结果。（利用Jonkheere-Terpstra检验）解： H 0：M 低 =M 中 =M 高 H 1 ：M 低 ﹤M 中 ﹤M 高

U 12=0+9+2+8+10+9+10+2+10+10+8++3= U 13=10×8=80 U 23=12+9+12+12+12+11+12+11=89 J=∑≤j ij U i =+80+89= 大样本近似 Z=[]72)32()324121i 222∑∑==+-+--k i i i k i n n N N n N J （）（～N （0,1）求得 Z= Ф= 取α= ， P >α，故接受原假设，认为智力投资对改进生产力有帮助。

非参数统计(R软件)参考答案教学教材

非参数统计(R软件) 参考答案

非参数统计讲义(2010版)

第一章绪论第一章主要是通过与所学的参数统计的比较来介绍非参数统计的概念、背景、理论与应用的价值，目的是激发学生学习本课程的兴趣。为更好地掌握本课程的内容，本章将介绍和回忆所需的基本概念、基本公式和方法。本章主要内容： 1．非参数方法介绍 2．预备知识第一节非参数方法介绍一．非参数方法的概念和实例我们从接触数理统计开始，一直学习的都是参数统计，比如参数估计，总体为正态时的假设检验等等。首先回忆什么是参数方法？定义：设总体X 的分布函数的形式是已知的，而未知的仅仅是分布函数具体的参数值，用样本对这些未知参数进行估计或进行某种形式的假设检验，这类推断方法称为参数方法。先来看两个实例。例1.1 供应商供应的产品是否合格？某工厂产品的零件由某个供应商供应。合格零件标准长度为（8.5±0.1）cm 。这也就是说合格零件长度的中心位置为8.5cm ，允许误差界为0.1cm ，即长度在 8.4－8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格，随机抽查了n=100个零件，它们的长度数据X 见第一章附表1.1。解答：根据我们已学过的参数统计的方法，如何根据数据来判断这批零件合格否？用参数数据分析方法，在参数统计中，运用得最多的是正态分布，所以考虑假设供应商供应的零件长度X 服从正态分布，即 X ～),(2σμN 其中两个参数均未知，但可用样本均值估计μ，样本方差估计2σ。由已知的数据计算可得：零件的平均长度，即样本均值为x =8.4958cm ，样本标准差为s=0.1047cm 。则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明：约有三分之一的零件不合格，该工厂需要换另一个供销商了。但这个结论与实际数据符不符合呢？这是我们要思考的问题。我们可以对数据做一个描述性分析，先对这100个样本数据做一个频率分布。观察到：在这100个零件中有91个零件的长度在8.4cm ～8.6cm 之间，所以零件合格的比例为91%，超过66％很多！

非参数统计题目及答案

非参数统计题目及答案 Document number：WTWYT-WYWY-BTGTT-YTTYU-2018GT

1．人们在研究肺病患者的生理性质时发现，患者的肺活量与他早在儿童时期是否接受过某种治疗有关，观察3组病人，第一组早在儿童时期接受过肺部辐射，第二组接受过胸外科手术，第三组没有治疗过，现观察到其肺活量占其正常值的百分比如下：以往的经验告诉我们，这三组病人的肺活量有如下关系：第二组≤第一组≤第三组，试判断这一经验是否可靠。解： H 0：θ2≤θ1≤θ3 H 1:至少有一个不等式成立可得到 N=15 由统计量H= )112 +N N （∑=K i i N R 1 i 2-3(N+1)=）（1151512+(32×+29×+59×-3×(15+1)= 查表（5,5,5）在P(H ≥= P(H ≥= 即P （H ≥）﹥ 故取α=， P ﹥α ，故接受零假设即这一检验可靠。 2.关于生产计算机公司在一年中的生产力的改进（度量为从0到100）与它们在过去三年中在智力投资（度量为：低，中等，高）之间的关系的研究结果列在下表中：

是否智力投资对改进生产力有帮助说明检验的步骤，包括零假设，备选假设，统计量，P 值等等及你的结果。（利用Jonkheere-Terpstra 检验）解： H 0：M 低=M 中=M 高 H 1：M 低﹤M 中﹤M 高 U 12U 13=10×8=80 U 23=12+9+12+12+12+11+12+11=89 J=∑≤j ij U i =+80+89= 大样本近似 Z= []72 )32()324 1 2 1i 22 2∑ ∑==+-+--k i i i k i n n N N n N J （）（～N （0,1）求得 Z= Ф= 取α= ， P >α，故接受原假设，认为智力投资对改进生产力有帮助。

非参数统计题目及答案

非参数统计题目及答案 Prepared on 22 November 2020

文档之家

第11章 非参数回归(非参数统计,西南财大)范文

非参数统计题目及答案

非参数统计部分课后习题参考答案

王静龙《非参数统计分析》课后计算题参考标准答案

非参数统计检验方法的应用

非参数统计

非参数统计(R软件)参考答案

非参数统计分析方法总结

王静龙非参数统计分析课后计算题参考答案Word版

非参数统计部分课后习题参考答案

非参数统计参考答案

非参数统计答案

非参数统计

非参数统计题目及答案

非参数统计(R软件)参考答案教学教材

非参数统计讲义(2010版)

非参数统计题目及答案

非参数统计题目及答案

第11章非参数回归(非参数统计,西南财大)范文