第七章讲义非参数统计
- 格式:doc
- 大小:138.50 KB
- 文档页数:11
第一章 绪 论本章主要内容: 1.非参数方法介绍 2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例复习参数方法定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例1.1 供应商供应的产品是否合格? 某工厂产品的零件由某个供应商供应。
合格零件标准长度为(8.5±0.1)cm 。
这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在8.4-8.6cm 之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢?这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!统计分析的结论与数据不吻合的!这是什么原因呢?我们可以作出数据的直方图来分析数据的分布情况。
第七章 非参数统计非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。
主要特点(1)不要求总体分布已知或对总体分布作任何限制性假定; (2)不以估计总体参数为目的;(3)能用于定性变量(即定名测定和序列测定的变量); (4)方法直观,易于理解,运算比较简单。
(5)缺点是检验的功效不如参数检验方法。
本章主要内容介绍χ2检验、成对比较检验、曼—惠特尼U 检验、游程检验和等级相关检验等几种常用的检验方法。
第一节 χ2检验一、什么是χ2检验 χ2检验是运用χ2分布作为理论工具,在非参数统计中可用于对总体的分布或随机变量的独立性进行的检验。
(一)χ2分布 χ2分布是由正态分布推导出来的一种连续型随机变量的概率分布。
1.χ2分布的数学形式设随机变量x 1,x 2,…,x k 相互独立且都服从正态分布N (μ,σ2)。
将它们标准化转变为标准正态变量Z 1,Z 2,…,Z k ,k 个独立标准正态变量的平方和被定义为χ2分布的随机变量χ2。
21212222212)(1)()()(iki ik i k Zx x x x ∑∑===-=-++-+-=μσσμσμσμχχ2~χ2(k),k 是自由度,表示定义式独立变量的个数。
当k=1时,2.χ2分布的性质(1)χ2分布的值恒为正值,且 ϕ(χ2, k) d χ2=1; (2)χ2分布的数学期望是自由度k ,方差为2k ; (3)χ2分布取决于自由度k ,随着自由度增大而趋于对称。
一般当k ≥30时,χ2分布可用正态分布近似计算。
(二)χ2检验的原理在实践中,经常要对一些观察值的实际频数与某种理论频数进行比较,以判断实际结果与理论是否一致。
设有k 个观察值,f 0为它们的实际频数,f e 为理论频数。
构造一个统计量数理统计证明,在大量试验中,若f 0与f e 相一致时,χ2服从χ2分布。
(f 0-f e )比较小时,χ2值也较小;(f 0-f e )比较大时,χ2也较大。
当χ2值大到按χ2分布超过设定的临界值时,即为小概率事件,就可以认为实际结果与理论假设不一致。
222)(Z x =-=σμχϕ (χ2)χ2 (k)k=15k=1k=3k=5ϕ (χ2)χ2χ2 0.05(4))(/)(212为自由度k f f f ee o ki -=∑=χ∞0二、拟合优度检验这是利用随机样本资料对总体是否服从某种理论分布的检验。
检验步骤对总体分布建立假设 H 0:总体服从某种理论分布 H 1:总体不服从该理论分布抽样并对样本 以“原假设H 0 资料编成频数 为真”导出一组 分布(f 0)期望频数(f e )比较χ2值与临界值 作出检验判断注意事项(1)各组理论频数f e 不得小于5,如不足5,可合并组;(2)为使组数不致太少,总频数n >50; (3)根据具体情况确定自由度。
三、独立性检验(1)(2)(3)(4) (6)是利用样本资料对总体的两个变量的数据是否彼此关联的检验,如果不关联,即为独立。
检验步骤要点说明y 的边缘频数(2)理论频数E ij 的计算先求理论频率(作为概率的近似)。
概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P (A ·B )=P (A )·P (B )。
因此,某一行某一列的联合概率:(3)自由度(df )的确定 df=(r-1)(c-1):r ·c=3×4Df=(3-1)(4-1)=6(4)r 2值简算公式第二节 成对比较检验一、符号检验n n n n j i P ji ⋅=),(的概率第nn n n n n n n E n j i ji ij =⋅=∴)(,理论频数总频数为 r 1 r 2 r 3总行数总列数))()()(()(22d c b a d b c a bc ad n x ++++-=这是略去两组样本数据之差的数值,只用其差的正、负符号进行判断的检验方法,亦称正负号检验。
1、检验内容:检验的两组数据是否有显著差异或两总体的位置特征(均值、中位数)是否相同。
2、适用条件:关联样本资料;定性变量。
3、方法思想:设有关联样本的两组成对的数据x i与y i,比较各对的大小。
若x i>y i ,记作“+”;若x i<y i ,记作“-”;若x i=y i ,删去,并相应减少n对数据。
若两组数据没有显著差异,它们之差的“+”、“-”号的个数应大致相等。
出现“+”(或“-”)的概率为0.5。
如果一次抽样的随机样本的配对数据中,“+”号出现过多或过少,在一定显著性水平α条件下属于小概率事件,就说明两组数据的平均水平或相对次数分布并不相同。
可见,配对符号检验是二项检验的一种应用。
由于P=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理。
4.检验步骤:1:随机抽取13个单位,放映一部描述吸烟有害健康的影片, 并调查得到观看电影前后各单位职工认为吸烟有害的人解:H 0:P=0.5 H 1:P ≠0.5P (13)=0.000 P (12)=0.002 P (11)=0.010 P (10)=0.035P (13)+P (12)+P (11)=0.000+0.002+0.010=0.012<0.025P (13)+P (12)+P (11)+P (10)=0.012+0.035=0.047>0.025可见,拒绝域(双侧)应为0,1,2,11,12,13。
现检验统计量(+)=10 (即10个正号),0.035>0.025 所以,原假设H 0:P=0.5在5%显著性水平上不能被拒绝。
也即不能认为职工在观看影片前后的认识有显著差异。
60名消费者对甲、乙两种品牌的饮料评分,甲、乙得分之差为“+”号者35个,“-”号15 个,“0”号10个。
以显著性水平α=0.05检验两种饮 料是否同等受欢迎。
解:H 0:P=0.5, H 1:P ≠0.5 ∵n >25,∴按正态分布近似处理 该成数抽样分布的均值和标准差分别为)5.0,13(,)25.02(05.0====P n 查二项分布表确定拒绝域由αα0 1 2 11 12 13 拒绝域 拒绝域 + 071.05.05.0)1(,5.0=⨯=-===P P S P p p μ2.82>1.96,所以,拒绝原假设。
认为两种饮料并不受到同等欢迎。
且乙种优于甲种。
二、威尔科克森带符号检验(亦称威尔科克森秩和检验) 这种检验方法不仅考虑了两组数据差异的正、负号,而且还利用了其差异大小的信息。
因此,是一种更为有效的检验方法。
1、应用条件和检验内容与符号检验相同。
2、方法思想:若关联样本的两组数据没有显著差异,则不仅其差异的正、负符号应大致相等,而且将其差的数值按大小顺序排列编自然序号(即秩)后,它们的正号(+)的秩和(记为T +)与负号(-)的秩和(记为T -)也应该大致相等。
其中之较小者也应趋近于总秩和的平均数( )。
若正秩和(T +)与负秩和(T -)相差太大,其中较小者偏离总秩和的平均( )较远,以致超过给定显著性水平α所确定的临界点,就可以认为这两组数据存在显著差异,即总体的分布不相同。
3.检验步骤82.2071.05.07.0ˆ7.050/35ˆ)(=-=-===+p S P PZ P检验统计量号的成数样本96.1||,05.02==ααZ 双侧检验临界值4)1(+=n n T T第三节曼—惠特尼U检验曼—惠特尼U检验适用于从两个总体中分别独立抽取两个样本的检验,方法思想与威尔科克森秩和检验相同。
检验步骤:第四节游程检验一、什么是游程检验游程检验(亦称连贯检验)是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。
设某样本n=12人的标志表现为男、女,有以下三种排列。
(i) 男,男,女,女,女,男,女,女,男,男,男,男(ii) 男,男,男,男,男,男,男,女,女,女,女,女(iii) 男,女,男,女,男,女,男,女,男,女,男,男连续出现男或女的区段称为游程。
每个游程包含的个数为游程长度。
以r表示序列中游程的个数:(i) r=5, (ii) r=2, (iii) r=11可以看出,(i)是随机性序列;(ii)(iii)是非随机性序列,所以,可以用游程的个数来检验样本的随机性,或总体的分布特征。
二、游程检验方法1.检验总体分布是否相同。
将从两个总体中独立抽取的两个样本的观察值混合后,观察游程个数,进行比较。
2.检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列,找出中位数(或平均数),分为大于中位数的小于中位数的两个部分。
用上下交错形成的游程个数来检验样本是否是随机的。
3.检验规则(小样本。
n<20)应用表La和Lb,(α=0.05,r为临界值)(1)单侧检验:观察到的游程个数r o≤临界值(La表)否定H o或r o≥临界值(Lb表)反之,接受H o。
(2)双侧检验:观察到的游程个数r o11 r(La)<r o <r(Lb) 接受H o下限 上限反之,拒绝H o4.大样本(n 1或n 2大于20),游程个数r 近似正态分布,检验统计量 其中:第五节 等级相关检验一、等级相关检验的基本原理将两组变量按顺序等级排列,在等级的基础上计算等级相关系数,从而反映两组变量之间联系的密切程度。
等级相关系数的计算公式其中d i 为两变量每一对样本的等级之差,n 为样本容量。
等级相关系数与相关系数一样,取值-1到+1之间,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。
二、等级相关系数的应用 )1(122-∑-=n n d b r i s r r E r Z σ)(-=)1()()2(212)(212212*********-++--=++=n n n n n n n n n n n n n n r E r σ。