第五章--统计推断
- 格式:doc
- 大小:1.04 MB
- 文档页数:15
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
统计推断原理统计推断是指根据样本数据对总体特征进行推断的一种统计方法。
它是基于概率理论和数理统计学的基本原理,通过对样本数据的分析和推断,来对总体的特征进行估计和推断。
统计推断在科学研究、社会调查、经济预测等领域都有着广泛的应用,是一种非常重要的统计方法。
统计推断的原理可以分为参数估计和假设检验两个方面。
参数估计是指根据样本数据对总体参数进行估计,常见的参数包括总体均值、总体方差等。
而假设检验则是根据样本数据对总体特征进行检验,判断某种假设是否成立。
在进行参数估计和假设检验时,我们通常会使用一些统计量来进行推断,如样本均值、标准差、t 值、F值等。
统计推断的原理主要包括抽样理论、估计理论和假设检验理论。
抽样理论是统计推断的基础,它研究如何从总体中抽取样本,并对样本数据进行分析和推断。
估计理论则是研究如何根据样本数据对总体参数进行估计,包括点估计和区间估计两种方法。
假设检验理论则是研究如何根据样本数据对总体特征进行检验,判断某种假设是否成立。
在统计推断中,我们通常会使用一些统计分布来进行推断,如正态分布、t分布、F分布等。
这些统计分布在进行参数估计和假设检验时起着非常重要的作用,它们可以帮助我们进行推断,并且在一定条件下具有一定的稳定性和可靠性。
统计推断的原理在实际应用中有着广泛的应用。
在医学研究中,我们可以通过对样本数据的分析和推断,来对某种药物的疗效进行评估;在市场调查中,我们可以通过对样本数据的分析和推断,来对市场需求进行预测;在质量控制中,我们可以通过对样本数据的分析和推断,来对产品质量进行检验。
统计推断的原理为我们提供了一种科学的方法,来对未知总体特征进行推断,它具有着重要的理论和实际意义。
总之,统计推断的原理是一种基于概率理论和数理统计学的推断方法,它通过对样本数据的分析和推断,来对总体特征进行估计和推断。
统计推断的原理包括参数估计和假设检验两个方面,它在实际应用中有着广泛的应用,为我们提供了一种科学的方法,来对未知总体特征进行推断。
概率论与数理统计第五章知识点第五章的概率论与数理统计的知识点主要涉及到概率函数、统计推断、分布函数和多元正态分布等内容,这其中包括了多项式概率分布、超几何分布、二项分布、线性回归、假设检验、多重切线回归、卡方检验、小抽样检验、检验均值和协方差等内容。
首先,多项式概率分布是一种特殊的概率分布,它建立了在有限次试验中某个事件出现次数的概率,它由定义性的概率空间和一组完备的事件集合组成,并可以使用不同的统计技术来计算它们。
其次,超几何分布是一种分布,用于计算取样观测中某种特征发生次数的概率,它与多项式分布有着很大的不同,它建立了一个独立的取样模型,它是一种独立取样模型,它利用概率论中的概率空间来分析一个独立取样实验中观测到一个特征发生次数的概率。
再次,二项分布也是一种概率分布,它用来计算一系列试验中出现某种特征的次数的概率。
它是一种特殊的多项式分布,可以使用概率论的工具来应用二项式分布,以确定两个不同事件之间的概率。
此外,线性回归也是第五章概率论与数理统计中一个重要的概念,它是一种统计方法,用来预测一个变量的变化可能会导致另一个变量的变化。
线性回归的基本原理是拟合两个变量的关系,使回归线能够最佳地拟合所有数据,以找到其中的趋势。
另外,假设检验是一种重要的统计技术,在假设检验中,需要使用概率空间,以便计算假设检验中备择假设的概率,并判断假设是否成立。
另外,多重切线回归也是一种重要的统计方法,它是以多元关系作为因变量和因变量之间的关系来拟合数据,以确定多元回归线的最佳拟合方式,让其效果最好。
此外,卡方检验、小抽样检验和检验均值和协方差等也是第五章概率论与数理统计的重要内容。
其中,卡方检验是一种特殊的假设检验,用来判断一组数据的差异是否大于预期,以确定数据的分布情况。
而小抽样检验是一种统计方法,用于给出总体参数的精确估计,以帮助确定相关的总体统计量,用来估计总体参数。
最后,检验均值和协方差也是一种重要的统计方法,它可以帮助分析两个变量之间的关系,以确定两个变量之间的相关程度。
第五章 统计推断统计推断的意义和内容统计推断是据统计数的分布和概率理论,由样本统计数推论总体参数的方法。
先根据试验目的,对试验总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的估算,做出在概率意义上应接受那种假设的推断。
由于种测验首先对总体提出假设又叫统计假设测验。
统计推断的前提条件:资料必须来自随机样本;统计数的分布规律必须已知。
&5.1 统计假设测验概述统计假设:在科学研究中,往往首先要提出一个有关某一总体参数的假设。
这种假设称为统计假设。
一、数据结构从服从正态分布N(μ0=300,σ=75)的原品种总体中,随机抽取n 个个体构成样本,则样本观察值可表示为 xi = μ0 + εi (i=1,2 ,… ,n)而从新品系总体中随机抽取的样本观察值,则为 xi = μ + εi (i=1,2 ,… ,n) (5.2) 新品系与原品种的产量差异为τ = μ - μ0 (5.3) 将(5.3)代入(5.2)得xi = μ0 + τ + εi (i=1,2 ,… ,n) (5.4) 二、统计假设测验的基本原理 对一个样本的n 个观察值xi 求平均数因x i = μ0 + τ + εi (i=1,2 ,… ,n)iix x εμμμετμ+-=-++=∴)()(0上式说明,x 与 μ0的表面差异(x - μ0)是由真实差异(μ- μ0 )和试验误差εi 构成。
小机率原理:概率很小的事件,在一次试验中是不至于发生的。
统计假设测验:是指据某种需要,对末知的或不完全清楚的总体提出一些假设,由样本实际结果经过一定的概率测验,作出接受或否定假设的推论。
三、统计假设测验的基本步骤例5.1 设某地区的当地小麦品种一般亩产300kg ,多年种植结果获得标准差为75kg 。
现有某新品种n=25,平均数330kg ,问新品种样本所属总体与当地品种这个总体是否差异显著。
第一步 统计假设H0:0μμ=第二步 计算统计量225/75300330/0=-=-=n x u σμu=2> u0.05=1.96,即对应的概率p <0.05。
第五章统计推断•总体与样本之间的关系-从总体到样本的研究。
-由样本推断总体:样本统计量的分布规律一般是正态分布、t 分布、χ2分布和F分布。
•对总体做统计推断的两种途径–先对所估计的总体做一假设,然后通过样本数据推断这个假设是否接受,这种途径称为统计假设检验(statistical test of hypothesis)–通过样本统计量估计总体参数,称为总体参数估计(estimation of population parameter)•本章重点讲解统计推断的一般原理以及对总体平均数及标准差的推断。
一、假设检验假设检验就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种被此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
如果抽样结果使小概率发生,则拒绝假设,如抽样结果没有使小概率发生,则接受假设。
小概率原理在一次试验中,某事件几乎是不会发生的,若根据一定的假设条件计算出来的该事件发生的概率很小,而在一次试验中它竟然发生了,则可认为原假设条件不正确,给予否定。
在生物统计的显著性检验中,通常取5%或1%小概率为显著性水平,记为“α”例5.1 根据以往的经验,用一般疗法治疗某种疾病,其死亡率为40%,治愈率为60%。
今用一种新药治疗染上该病的6名患者,这6人均治愈了,问该新药是否显著优于一般疗法?小概率原理用于显著性检验例5.2用实验动物作实验材料,现从一批动物(σ= 0.4)中抽取含量n= 10的样本并已经计算出平均值为10.23 g。
已知这批动物饲养时间较长,不可能小于10g,问此批动物材料是否是抽自于μ=10的总体中?解:1 样本平均数满足何种分布?2 从正态分布表查出P = 0.03438< 0.05,这是一个小概率事件,该样本几乎不可能抽自μ = 10.00 g的总体。
单侧检测(one-sided test)•上尾检验(upper tailed test):拒绝H0后,接受μ>μ0,如下左图。
•下尾检验(lower tailed test):拒绝H0后,接受μ < μ0 ,如下右图。
•双侧检验(two-sided test):拒绝H0后,接受μ≠μ0,如下图。
•由于单侧检验时利用了已知有一侧是不可能的这一条件,从而提高了它的辨别力,所以单侧检验比双侧检验的辨别力更强些。
•实际应用时,要尽量选用单侧检验,但要根据实际情况而定。
二、假设检验中的两类错误是真实的,却否定了它,又叫弃真错误。
1. Type Ⅰ error(α错误),如果H0是错误的,却接受了它,又叫纳伪错误。
2. Type Ⅱerror (β类错误),如果H0例5.3 用实验动物作实验材料,现从一批动物(σ= 0.4)中抽取含量n= 10的样本并已经计算出平均值为10.20 g。
已知这批动物饲养时间较长,不可能小于10g,问此批动物材料是否是抽自于μ=10的总体中?方法1方法2图 5-2 两种类型的错误样本抽自HA:u=10.3g,但却错误的接受H0:u=10.0 g的概率为0.2327。
关于两种类型错误的三点解释•当μ1越接近于μ0时,犯Ⅱ型错误的概率愈大;当μ1越远离μ0时,犯Ⅱ型错误的概率愈小。
•在样本含量和样本平均数都固定时,为了降低犯Ⅰ型错误的概率α(就应将图5-2中的竖线右移),必然增加犯Ⅱ型错误的概率。
•为了同时降低α和β就需增加样本含量。
三、假设检验的步骤●对样本所属总体提出假设,无效假设记作H0,备择假设,记作H A。
●确定显著水平在进行无效假设和备则假设之后,要确定一个否定H0的概率标准,这个标准叫显著水平或概率水平。
●在H0正确的前提下,根据抽样分布的统计数,进行假设检验的概率计算。
●根据显著水平α的统计数(如u值)的临界值,进行差异是否显著的推断。
四、均值检验5.1 单个样本的统计假设检验5.1.1 σ已知单个平均数显著性检验:u检验例5.5母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、 112、114、117、 115、 116、 114、113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?根据题意,本例应进行双侧t检验。
1、提出无效假设与备择假设2、计算u值3、建立H0的拒绝域:因HA:μ> μ0,故为上尾单侧检验,当μ> μ0.05时拒绝H0,a=0.05的上侧分位数μ0.05=1.645。
4、结论:因为m> μ0.05所以拒绝H0,接受HA.上述样本很可能不是抽自N (377.2,3.32)的总体,抽出样本的那个总体的平均数是大于377.2的某个值,即栽培条件的改善显著提高了豌豆籽粒重量。
5.1.2 σ未知时平均数显著性检验:t检验例5.5 母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、 115、 116、 114、 113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?根据题意,本例应进行双侧t检验。
1、提出无效假设与备择假设2、计算t值3、查临界t值,作出统计推断由df=9,查t值表(附表3)得t0.05(9)=2.262,因为|t|<t0.05, P>0.05, 故不能否定H0:μ= 114, 表明样本平均数与总体平均数差异不显著,可以认为该样本取自母猪怀孕期为114天的总体。
5.1.3 变异性的显著性检验:χ2检验例5.6一个混杂的小麦品种,株高标准差σ0=14cm,经提纯后随机抽取10株,它们的株高为:90, 105, 101, 95, 100, 100, 101, 105, 93,97,考察提纯后的群体是否比原群体整齐?1、小麦株高是服从正态分布的随机变量2、提出假设关于备择假设的说明:小麦经提纯后只能变得更整齐,绝不会更离散,即s只能小于σ0,因此HA:σ<σ0。
3、显著性水平规定α=0.054、统计量的值:5、建立的拒绝域:因H A:σ<s0,故为下尾单侧检验,当χ2<c21-α时拒绝H0,从附表6中可以查出χ29,0.99= 2.09,拒绝H0,接受HA,提纯后株高比原株高整齐。
6、结论,因χ2<χ29,0.99EX5.1某鱼场按常规方法所育鲢鱼苗一月龄的平均体长为7.25 cm,标准差为1.58cm,为提高鱼苗质量,现采用一新方法进行育苗,一月龄时随机抽取100尾进行测量,测得其平均体长为7.65cm,试问新育苗方法与常规方法有无显著差异?解题过程EX5.2某鱼塘水中的含氧量,多年平均为4.5mg·L-1,现在该鱼塘设10个点采集水样,测定水中含氧量分别为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48.4.26mg·L-1,试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。
解题过程小结5.2 两个样本的显著性差异检验•单个样本的显著性检验需要事先能够提出合理的参数假设值和对参数有某种意义的备择值。
然而,实际工作中很难提出,故限制了实际应用。
•在实际应用时,常常选用两个样本,一个作为处理,一个作为对照,在这两个样本之间作比较,判定它们之间的差异是否用偶然性解释,若不能用偶然性解释时,则认为它们之间存在足够显著的差异,从而判断这两个样本来自两个不同的总体。
5.2.1 两个方差的检验(方差齐性分析)—F检验1假定从两个正态总体中,独立地抽取含量分别为n1和n2的两个随机样本,计算出s12和s22.总体平均数可以相等也可以不等.2零假设H0:σ1= σ2.备择假设HA:σ1 >σ2若已知σ1不可能小于σ2 。
HA: σ1 <σ2若已知σ1不可能大于σ2。
HA:σ1 ≠σ2 包括σ1 >σ2和σ1<σ2。
3 显著性水平:经常用α=0.05和α=0.01两个水平。
4 统计检验量:F df1,df2=s12/s22, df1=n1-1 df2=n2-1 。
5 建立H0的拒绝域:σ1>σ2,上尾单侧检验,F >Fα时拒绝σ1<σ2,下尾单侧检验,F <F1-α时拒绝σ1≠σ2,,双侧检验, F >Fα/2及F <F1-α/2时拒绝。
6作出结论并解释。
例5.7 测定了20位青年男子和20位老年男子的血压值(收缩压mmHg)如下表所示。
问老年人血压值个体间的波动是否显著高于青年人?解:根据检验的基本程序:(1)人类血压值是服从正态分布的随机变量,而且上述两样本是独立获得的。
(2)假设:H:σ1=σ2HA:σ1<σ2(由于老年人的血压值波动只会大于青年人,单侧)(3)显著性水平:根据问题的要求(是否显著),选α=0.05。
(4)统计量的值:Fdf1,df2=S12/s22,根据表中数据计算可得S12=193.4,s22=937.7,故F=0.206。
(5)建立H0的拒绝域: 由于HA :σ1<σ2,故为下尾单侧检验,当F<F0.95时拒绝H。
查表可得F19,19,0.95=1/ F19,19,0.05=0.459(6)结论:F<F0.95,所以结论是拒绝H,接受HA。
即老年人的血压值在个体间的波动高于青年人。
5.2.2 标准差(σi)已知时,两个平均数间差异显著性的检验—u检验例5.8调查两个不同渔场的马面鲀体长,每一渔场调查200条。
平均体长分别为19.8cm和18.5cm。
σ1=σ2=7.2cm。
问在α=0.05水平上,第一渔场的马面鲀体长是否显著高于第二渔场的?解:(1)假设:H0:μ1=μ2,HA:μ1>μ2(2)确定显著性水平:α=0.05。
(3)计算统计量。
(4)建立H0的拒绝域:因HA:μ1>μ2,故为上尾单侧检验。
当u>u0.05时拒绝H0,由附表查出u0.05=1.645。
5.2.3 标准差(σi)未知,但相等时,两个平均数间差异显著性的检验—成组数据t检验检验程序与5.2.2基本相同,只是所使用的统计量不同,当两个总体的标准差相等时,检验统计量t由下式给出:•在H0:μ1=μ2下变为在平均数检验中应用最为广泛。
先做方差齐性检验(F-双侧检验)判断σi 是否相等;按上式计算统计量t,进行t检验以判断两个平均数之间差异是否显著。
例 5.9 研究两种激素类药物对肾组织切片的氧消耗的影响,结果是:研究第一种药物的样本数为9,平均数为27.92,样本方差为8.673。
研究第二种药物的样本数为6,平均数为25.11,样本方差为1.843。
问两种药物对肾组织切片氧消耗的影响差异是否显著?解:第一步,做方差齐性检验:H0:σ1=σ2,HA:σ1≠σ2,α=0.05F8,5=8.673/1.843=4.71,F8,5,0.025=6.757F8,5,0.975=1/4.817=0.208,F8,5,0.975<F<F0.025,结论是接受H0(σ1=σ2)第二步,做平均数之间差异的显著性检验:H0:μ1=μ2, HA:μ1≠μ2,α=0.05;计算统计量t=2.168。