第十章第四节 t检验和z检验2014.
- 格式:ppt
- 大小:1.17 MB
- 文档页数:43
一文搞懂Z检验,T检验,x2检验作者:Bob大叔,香港精益六西格玛黑带
三种检验方法的介绍
Z检验举例:
某产品,其装量服从N(2.1,0.012),即均值2.1,标准差0.01。
抽取15个样品,其测量值如下:
2.08 2.10 2.10
2.09 2.10 2.10
2.09 2.09 2.11
2.09 2.12 2.10
2.10 2.10 2.10
建立假设H0:μ=2.1,H1 μ≠2.1,由于σ已知,故选择Z检验
操作如下:
P=0.36>0.05,无法拒绝原假设H0, 所以认为取样的平均装量没有变化。
t检验举例:
某设备的OEE目标为70%,连续15天的OEE如下,请判断OEE是否已达到70%目标?
由于σ(标准差)未知,且为小样本,故而选择,t检验
建立假设:HO: μ=70%, H1>70%,
操作如下:
P=0.252>0.05,无法拒绝原假设,说明0EE并未大于70%。
X2检验举例:
已知某产品装量,符合N(μ,σ2)分布,μ未知,但是要求标准差不能超过0.01,随机抽取30个样品,请问标准差是否有变化?
由于μ未知,故而选择X2检验,
建立假设:H0:σ=0.01, H1:σ≠0.01
操作如下:
(weixin gongzhonghao: HK_BobUncle)
P=0.303>0.05, 无法拒绝原假设,说明标准差无变化。
第四节Kolmogorov-Sirmov单样本检验一、Kolmogorov-Sirmow单样本检验Kolmogorov-Sirmov单样本检验是一种拟合优度性检验。
它的基本原理同Chi-Square检验,但比Chi-Square检验更为精确。
K-S检验是将一组样本值(观察结果)的分布和某一指定的理论分布函数(如正态分布,均匀分布,泊松分布,指数分布)进行比较,确定两者之间的符合程度。
这种检验可以确定是否有理由认为样本的观察结果来自具有该理论分布的总体。
简言之,这种检验包括确定理论分布下的累积频数分布,以及把这种累积频数分布和观察的累积频数分布进行比较(这里的理论分布系指零假设成立时所预期的分布),确定理论分布和观察分布的最大差异点,参照抽样分布并定出这样大的差异是否基于偶然。
这就是说,若观察的结果的确是从理论分布抽取的随机样本,则抽样分布将指出这种观察到的差异程度是否随机出现的。
1二、Kolmogorov-Sirmov单样本检验方法1.K-S单样本检验步骤(1)在数据输入之后,依次单击Analyze→Nonparametric Tests→ 1-Sample K-S →打开One-Sample Kolmogorov-Sirmov Test对话框;(2)在原变量栏选择所要检验的分布到Test Variable List栏;(3)在Test Distribution栏选择理论分布函数复选项:●Normal复选项:如选择此项,则检验变量是否服从正态分布,系统默认;●Uniform复选项:如选择此项,则检验变量是否服从均匀分布;●Poisson复选项:如选择此项,则检验变量是否服从泊松分布;●Exponential复选项:如选择此项,则检验变量是否服从指数分布。
(4)单击“Option”按钮,打开Options对话框:●Statistics栏:在此栏可选择Descriptive复选项,则会输出观测的均值、最小值、最大值、标准差等描述统计;选择Quartiles复选项:则输出观测的四分之一分位数、二分之一分位数和四分之三分位数。
z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。
它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数平均数的差异是否显著。
当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。
Z检验的适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。
若Z值大于临界值,则认为为二者有差异,否则认为没差异。
T检验,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
t检验是对各回归系数的显著性所进行的检验,(--这个太不全面了,这是指在多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验。
t检验还可以用来检验样本为来自一元正态分布的总体的期望,即均值;和检验样本为来自二元正态分布的总体的期望是否相等)未知,一般检验用T检验。
T检验与Z检验中态性的理解
统计书上说当样本足够大时,无论X服从什么分布,只要各X间相互独立,且Xi同分布,期望、方差有界(这一条件大多数情况都是成立的),根据中心极限定理即可得X服从正态分布。
现在问题来了,为什么书上又说无论什么情况下采用Z检验都得进行正态性检验呢,即使样本已经很大了?(注意Xi的分布和X的是不同的)
首先得明确我们的目的是什么,我们是检验总体的平均数,当该总体不服从正态分布时,所得的X(算数平均数)用来表示平均数是不恰当的,而Z检验和T检验都是检验的算数平均数与目标数的差异,所以必须在做Z、T检验前需正态性检验。
仍Z检验和T检验有一点不同的是,在X分布为非正态,n很大时,
σ/n
服从正态分布,而
就不一定服从T分布了。
所以理论上当不服从
s/n
正态分布的X的算数平均数(一定要是算数平均数)做Z检验是可以的,而做T检验是不行的。
另外有同学可能对σx 不好理解,觉得既然都是总体的均数了,那还来的标准误。
确实σx 是总体均数的标准误,但是他是把每一个Xi看成一个随机变量,而我们样本中的每一个值只是某一个Xi的一次实现(Xi 应该有无穷多个值,我们只能得到其中的一个值)。
就例如有一个总体,进行两次普查,得到两个x ,而这两个值有可能不一样,也就存在标准误了。
第十章假设检验辅导第一节假设检验的基本问题1. 假设检验首先一个步骤是建立H o(零假设),本章后一部分例题均省去了这一步(从解题来讲这一步确实可以省略),但是应该清楚:任何一种统计量的假设检验,其出发点都是对H o的检验。
统计结论是对H o能否被拒绝作出推断。
2. 假设检验的基本思想是一种“反证法”式的推理,即通过检验H o的真伪来反证研究假设H1的真伪,若H o为真,则H1必为假,而H o为假,H1即为真,而且无论作出H o是真还是假的结论都是在一个概率水平意义上的推断。
3. 假设检验中的“显著”与实际问题中效果的“显著”既有联系又有区别。
前者是统计学概念而后者是专业上常用的术语,以两个样本平均数差异为例,当t检验的结果在0.05水平上“显著”,这是从统计学意义来说由样本平均数之间的差异可以作出“两个总体平均数存在差异”的结论。
但两总体平均数之间的差异是否具有专业意义(即有否实际上的“显著效果”)还要根据专业上的标准而定。
就是说,统计结论“显著”并不一定意味着实际效果的“显著”。
在具体应用假设检验时,一定要根据各种条件,使用相应的公式,不可错用,尤其是平均数差异的t检验,条件较多,相应的公式不少,切不能以一代全。
每一种统计检验方法都有它的使用条件和对数据资料的要求,在实际应用中,一定要注意它们的使用条件和应用范围,要对相应的前提条件进行检验和证明。
第二节平均数差异显著性检验平均数的显著性检验是常用的参数检验的方法。
平均数的显著性检验分两种情况,其一是关于样本平均数与总体平均数差异的显著性检验,在总体服从正态分布,总体方差已知的情况下,用Z检验;总体方差未知的情况下,用t检验。
其二是平均数差异的显著性检验,在两个总体都服从正态分布,总体方差均已知的情况下,用Z检验(相关样本和独立样本所用统计量不同);在两个总体都服从正态分布,但是总体方差未知时,用t检验(所用检验统计量方法与两个总体是否独立以及方差是否相等有关)。
第十章假设检验辅导第一节假设检验的基本问题1. 假设检验首先一个步骤是建立Ho(零假设),本章后一部分例题均省去了这一步(从解题来讲这一步确实可以省略),但是应该清楚:任何一种统计量的假设检验,其出发点都是对Ho的检验。
统计结论是对Ho能否被拒绝作出推断。
2. 假设检验的基本思想是一种“反证法”式的推理,即通过检验Ho的真伪来反证研究假设H1的真伪,若Ho为真,则H1必为假,而Ho为假,H1即为真,而且无论作出Ho是真还是假的结论都是在一个概率水平意义上的推断。
3. 假设检验中的“显著”与实际问题中效果的“显著”既有联系又有区别。
前者是统计学概念而后者是专业上常用的术语,以两个样本平均数差异为例,当t检验的结果在0.05水平上“显著”,这是从统计学意义来说由样本平均数之间的差异可以作出“两个总体平均数存在差异”的结论。
但两总体平均数之间的差异是否具有专业意义(即有否实际上的“显著效果”)还要根据专业上的标准而定。
就是说,统计结论“显著”并不一定意味着实际效果的“显著”。
在具体应用假设检验时,一定要根据各种条件,使用相应的公式,不可错用,尤其是平均数差异的t检验,条件较多,相应的公式不少,切不能以一代全。
每一种统计检验方法都有它的使用条件和对数据资料的要求,在实际应用中,一定要注意它们的使用条件和应用范围,要对相应的前提条件进行检验和证明。
第二节平均数差异显著性检验平均数的显著性检验是常用的参数检验的方法。
平均数的显著性检验分两种情况,其一是关于样本平均数与总体平均数差异的显著性检验,在总体服从正态分布,总体方差已知的情况下,用Z检验;总体方差未知的情况下,用t检验。
其二是平均数差异的显著性检验,在两个总体都服从正态分布,总体方差均已知的情况下,用Z检验(相关样本和独立样本所用统计量不同);在两个总体都服从正态分布,但是总体方差未知时,用t检验(所用检验统计量方法与两个总体是否独立以及方差是否相等有关)。
连续型变量的推断性分析方法主要有t检验和方差分析两种,这两种方法可以解决一些实际的分析问题,下面我们分别来介绍一下这两种方法一、t检验(Student's t test)t检验也称student t检验(Student's t test),由Gosset提出,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
我们在介绍连续变量分布时讲过t分布,t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
介绍t检验之前,先说一下Z检验,假设我们已知一个样本的均值和总体均值,二者之间存在差异,仅凭差异值这一个数字,很难判断这种差异是否超出了抽样误差的概率范围,因此需要以某种方式对这个差值进行标准化。
由中心极限定理得知当样本量足够大时,样本的均值分布近似正态分布,因此可以通过如下变换,就可以完成对差值的标准化,实际上就是将近似正态分布转换为标准正态分布,而变换的方法其实就是Z分数,因此也叫Z检验,标准正态分布也称为Z分布。
国内普遍称为u分布和u检验,但个人认为Z检验更为确切。
Z检验在标准化过程中需要已知总体标准差,但是这点在实际工作中很难满足,因此Gosset提出使用样本标准差代替总体标准差进行计算,这样就构成了t统计量和t分布。
t分布曲线形态与样本量n(确切地说是自由度v)大小有关。
与标准正态分布曲线相比,自由度v越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度v愈大,t分布曲线愈接近正态分布曲线,当自由度v=∞时,t分布曲线为标准正态分布曲线。
对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律。
t检验就是应用t分布特征,将t作为检验的统计量来进行检验。
在使用t检验和Z检验时,要注意一点:在大样本条件下(n>50),Z检验和t检验的结果是一致的,当n<50时,需要使用t检验。
我们在将样本均值和总体均值的差值进行标准化的过程时,是假定样本服从正态分布的,这是个前提条件,但是根据中心极限定理,即使原数据不服从正态分布,只要样本量足够大,其样本均数的抽样分布依然是正态的,因此在大样本情况下,我们很少考虑这个前提条件,只要数据不是强烈的偏态,均值一般都可以较好的代表数据的集中趋势,这时都可以使用t或Z检验。