统计量与抽样分布
- 格式:doc
- 大小:1.31 MB
- 文档页数:28
数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。
在数理统计中,样本统计量和抽样分布是两个关键概念。
本文将详细解释这些概念,并介绍相关的公式和定理。
一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。
常用的样本统计量有平均值、方差、标准差、相关系数等。
下面我们将详细介绍这些统计量以及它们的计算公式。
1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。
样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。
2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。
样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。
3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。
样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。
4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。
样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。
概率论与数理统计教案-统计量和抽样分布一、教学目标1. 理解统计量的概念,掌握常见统计量的计算方法。
2. 了解抽样分布的定义,掌握正态分布、t分布、卡方分布等常见抽样分布的特点及应用。
3. 学会使用抽样分布进行假设检验和置信区间的估计。
二、教学内容1. 统计量的概念及计算方法统计量的定义样本均值、样本方差、样本标准差等常见统计量2. 抽样分布的定义及特点抽样分布的定义正态分布、t分布、卡方分布等常见抽样分布的特点3. 抽样分布的应用假设检验置信区间的估计三、教学方法1. 讲授法:讲解统计量的概念、计算方法,抽样分布的定义及特点。
2. 案例分析法:通过具体案例,让学生学会使用抽样分布进行假设检验和置信区间的估计。
3. 互动教学法:引导学生参与课堂讨论,提问、解答问题,提高学生的积极性和主动性。
四、教学步骤1. 引入统计量的概念,讲解样本均值、样本方差、样本标准差等常见统计量的计算方法。
2. 讲解抽样分布的定义,介绍正态分布、t分布、卡方分布等常见抽样分布的特点及应用。
3. 通过具体案例,让学生学会使用抽样分布进行假设检验和置信区间的估计。
五、课后作业1. 复习本节课的内容,整理笔记。
2. 完成课后习题,加深对统计量和抽样分布的理解。
3. 选择一个感兴趣的话题,运用抽样分布进行实际问题的分析。
六、教学评估1. 课堂提问:通过提问了解学生对统计量和抽样分布的理解程度。
2. 课后习题:检查学生对课堂内容的掌握情况。
3. 实际案例分析:评估学生运用抽样分布解决实际问题的能力。
七、拓展与延伸1. 引导学生探讨抽样分布在其他领域的应用,如经济学、生物学等。
2. 介绍与抽样分布相关的高级主题,如非参数统计、贝叶斯统计等。
3. 鼓励学生参加相关竞赛、研究项目,提高实践能力。
八、教学资源1. 教材:概率论与数理统计相关教材。
2. 课件:PPT课件,辅助学生理解统计量和抽样分布的概念及应用。
3. 案例资料:提供具体案例,方便学生学会使用抽样分布进行假设检验和置信区间的估计。
抽样分布样本统计量的分布及其应用在统计学中,抽样是一种数据分析的方法,它通过对总体中的一部分个体进行观察和测量来推断总体的特征。
而抽样分布是指抽取相同样本量的多个样本后得到的统计量的分布。
样本统计量是对样本数据进行计算得到的统计指标,它可以用来估计总体参数,并进行假设检验。
1. 抽样分布的基本概念抽样分布具有一些基本性质,首先是无偏性。
当样本容量趋向于总体容量时,样本统计量的期望值会无限接近总体参数的真实值。
其次是有效性,即样本统计量的方差趋近于零,它可以用来估计总体参数的精确度。
最后是一致性,样本统计量在样本容量逐渐增大时趋近于总体参数。
2. 抽样分布的常见形式常见的抽样分布有正态分布、t分布和卡方分布。
其中正态分布应用最为广泛,它在中心极限定理的作用下,当样本容量足够大时,样本均值的抽样分布近似服从正态分布。
而t分布则适用于当总体标准差未知、样本容量较小的情况下,它的形状比正态分布要略扁平一些。
卡方分布则主要用于样本方差的估计与检验。
3. 抽样分布的应用抽样分布的应用非常广泛,常用于以下几个方面:3.1 参数估计通过抽样分布,我们可以利用样本统计量对总体参数进行估计。
例如,可以利用样本均值估计总体均值,利用样本标准差估计总体标准差。
通过计算置信区间,我们可以得到对总体参数的范围估计。
3.2 假设检验假设检验是统计学中非常重要的一项工具,用于判断样本数据是否支持某个假设。
基于抽样分布,我们可以计算统计量的P值,进而判断样本数据与假设的一致性。
常用的假设检验有均值检验、方差检验、比例检验等。
3.3 质量控制在生产过程中,质量控制是非常关键的。
通过对样本数据进行分析,可以判断生产过程是否正常。
例如,可以通过控制图分析样本均值的变化情况,以判断过程是否处于控制状态。
3.4 统计决策在实际决策中,我们往往需要依据样本数据来进行判断。
抽样分布提供了一种基于统计的决策依据。
例如,在市场调研中,我们可以通过对样本数据进行分析,对市场潜力进行预测,从而指导营销策略的制定。
第6章统计量与抽样分布【引例】1899年,戈塞特(1876-1937)进入都柏林A.吉尼斯父子酿酒公司担任酿酒化学技师,主要从事统计和实验工作。
他在工作中发现,供酿酒的每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样本在不同的温度下做实验,其结果相差很大。
这就决定了不同批次和温度的麦子样本是不相同的,不能进行样本合并。
这样一来,实际上取得的麦子样本,不可能是大样本,只能是小样本。
他在工作中还发现,利用小样本得出的结果,和正态分布有较大的差异,特别是两端尾部的概率,比正态分布明显高。
因此1907年戈塞特决心把小样本和大样本之间的差别搞清楚。
为此,他试图把一个总体中的所有小样本的平均数的分布刻画出来。
做法是:在一个大容器里放了一批纸牌,把它们弄乱,随机地抽若干张(小样本),对这一样本记录观察值,然后再把纸牌弄乱,抽出几张,对相应的样本再记录观察值。
大量地记录这种随机抽样的小样本观察值,就可以获得小样本观察值的分布。
1908年,戈塞特以“学生(Student)”为笔名在《生物计量学》杂志发表了论文《平均数的规律误差》。
这篇论文开创了小样本统计理论的先河,为研究样本分布理论奠定了重要基础。
被统计学家誉为统计推断理论发展史上的里程碑。
那么总体和样本是如何联系的?大样本和小样本下究竟有什么差异?什么是t分布?它和正态分布有什么不同?它有什么作用?统计推断中常用的分布还有哪些?这些问题都将在本章中找到答案。
统计研究的目的是为了探索现象内在的数量规律性。
为了解总体的数量特征,可以直接对总体进行全面调查,得到总体数据,进而归纳出数量特征;也可以对总体进行抽样,利用样本对总体进行推断,后一种方法称为统计推断。
抽样分布是进行统计推断的理论基础。
本章将主要介绍统计推断所涉及的总体、分布,t分布样本、统计量及抽样分布等概念,以及在统计推断中最常用的2和F分布和抽样分布定理。
§6.1 总体与样本的统计分布总体与样本是统计推断中的两个基本概念。
统计推断的目的是从样本信息出发,运用概率论的方法,推断总体的特征;因此如何将统计学的总体、样本和概率论的基础——随机变量与分布联系起来,就成为统计推断首先要解决的问题。
§6.1.1统计推断中的总体及总体分布第一章中已经明确统计所研究的是由同类事物构成的总体的数量特征,总体是根据一定的目的确定的所要研究的事物的全体,它是由客观存在的、具有某种共同性质的众多个体构成的。
总体中的每个单位称为个体。
比如前面引例中,每一批麦子的全体就是一个总体,而其中每单位的麦子就是个体。
这是统计学中关于总体的概念,我们可以称其为实物总体。
在前面章节的学习中,我们已经发现:我们真正关心和收集研究的并不是这些总体中的个体本身,而是这些个体的某些特征及其数值,在前面我们将这些特征用变量来描述,对应的数值称为变量值。
关心这批麦子,主要关心的是其酿酒的效果出酒量。
此时出酒量成为需要研究的变量,每单位麦子出酒量的具体数值成为变量值。
在研究这批麦子时,并不需要将全部这批麦子都收集过来,只需要记录这批麦子每单位出酒量的数值,再对这些数值进行研究就可以了。
此时的总体实质是这批麦子的出酒量对应的若干个数值,总体已经从实物抽象到了数值,可以称之为数值总体。
这是对总体概念的第一次抽象。
如果实物总体中个体很多,则对应的数值总体其规模将非常大,而且往往其中重复的值会很多,即使没有重复值(变量取值连续时),在不同值周围的“密集程度”也会不相同。
逐一研究每个变量值将会非常繁琐,当总体规模趋于无穷时,研究每个变量值更是变得不可能。
若统计出变量的所有不同取值(或取值区间)及其出现的频率,编制变量的分布数列,则可以对变量的全部取值情况一览无遗。
研究一个变量的全部数值,就转化为研究该变量的分布了。
用变量及其分布来描述一个总体,可以称之为分布总体。
例如研究某批麦子的出酒量X,这是个连续变量,可以统计出X在不同区间取值的频率,得到X的分布。
对全部单位出酒量的数值的研究,就可转化研究出酒量X的分布了。
这是对总体概念的第二次抽象。
对于随机变量X,其取值是随机的,关注该变量的全部取值,也就是要关注其各个可能取值(或取值区间)及其相应概率,即关注该随机变量的概率分布。
在统计推断中利用随机变量X及其概率分布来描述一个总体,应用起来非常有优势,尤其是当总体容量趋于无穷时,另外一个好处是可以利用概率论的理论和方法来研究总体。
例如麦子出酒量的总体分布如果是正态分布,就可以利用正态分布的密度函数计算出酒量在各区间的概率。
经过上述讨论,完成了从“实物总体→数值总体→分布总体”的两次抽象,也完成了我们将统计学中“总体”与概率论中“分布”的衔接,这是统计推断对总体概念的延伸,也是概率论知识应用于统计推断的基础。
以后在本章及以后统计推断的相关章节中,如无特别说明,总体均表示分布总体,给定一个总体,只需要给出总体的分布即可。
§6.1.2 统计推断中的样本及样本性质统计推断的重要任务是通过对总体中随机抽取的部分个体的观测结果来推断总体的特征。
按照随机原则,通过观测或试验的方法所获得的总体中一部分个体的取值称为样本,每个个体的取值称为样本点或样品。
抽出样本之前,由于总体中各个体有同等被抽中的可能,抽中那个个体不能确定,因此样本是一组随机变量,每个样本点都可以取总体中任意一个值;但是当样本被抽取并观测记录后,若干个体被抽出,各样本点的取值确定,样本成为是一组确定的数值。
统计推断中为了区分此二重性,将抽取前具有随机性的样本称为样本,用大写字母表示;将抽取的一组确定的数值称为样本观测值,用小写字母表示。
如要推断某种灯泡使用寿命总体X的特征,拟随机抽取n只灯泡进行测试,其使用寿命(X1,X2,…,X n)称为灯泡使用寿命总体X的样本,一次具体抽样测试得到n个灯泡使用寿命的数值(x1, x2,…,x n),称为总体X的样本观察值。
统计推断中,把具有以下两个重要性质的样本称为简单随机样本:1. 样本点与总体同分布这一点很容易从数值总体的角度加以理解:由于采取随机原则抽取样本点,每个个体被抽中的可能性相同。
假设总体容量为N,则每个个体被抽中的概率为1/N,假设对离散型总体取值等于x,或对连续型总体取值在区间(x, x+△x)中的个体总数为M,那么抽出样本点取值为x或在区间(x, x+△x)中的概率就是M/N,恰好等于总体X取值为x或取值在区间(x, x+△x)中的频率(或概率),从而可以看出样本点与总体分布相同。
2. 样本点之间相互独立从总体中抽取样本的方法有重复抽样和不重复抽样两种。
采用重复抽样时,每次随机抽取一个样本点并记录其特征以后,又将它放回总体中参加下一次抽取,每次抽取样本点都是在总体的N个单位中进行的,前一次抽取的结果不会影响后一次抽取的结果,因此样本点之间相互独立。
采用不重复抽样时,每次随机抽出一个样本点后不再将它放回总体中,下一次只能在其余个体中抽取,前面抽取的结果就会影响后面的抽取,因此样本点之间不是相互独立的。
但通常实际工作中总体容量非常大,采用不重复抽样时也可以近似认为样本点之间相互独立。
对于总体容量无限的情形,无论采取重复抽样还是不重复抽样,都可以认为样本点是相互独立的。
在本书后面的叙述中,常常将以上两个性质一同简写为“样本点独立同分布(i.i.d )”。
没有特别说明的情况下,我们讨论的样本均指的是简单随机样本。
§6.2 统计量§6.2.1 统计量的概念在统计推断中,总体信息是未知的,但从总体中抽取的样本中含有总体的信息,统计推断就是利用样本的信息来推测总体的信息。
然而样本的信息是隐蔽的、分散的,必须经过必要的加工对样本信息进行集中和提炼才能用来推断总体信息,构造样本统计量是集中和提炼样本信息来推断总体信息的有效手段之一。
设1(,,)n X X 是来自总体X 的一个样本,如果12(,,...,)n T T X X X =是样本1(,,)n X X 的函数, T 中不含任何未知参数,则称12(,,...,)n T X X X 为一个统计量。
如果1(,,)n x x 为样本1(,,)n X X 的观测值,则12(,,...,)n T T x x x =为统计量12(,,...,)n T T X X X =的观测值。
统计量的观测值是确定的,没有随机性。
统计量有以下两个特征:统计量是样本的函数,统计量通常为随机变量;统计量不能含有未知的参数。
例如,当从正态总体中抽出样本1,,n X X 时,考查随机变量21()n i i Xμ=-∑,当总体均值μ为已知时,该变量是统计量;当总体均值未知时,该变量就不是统计量。
统计量既然是随机变量,那么它应该有概率分布,统计量的分布称为抽样分布。
抽样分布和统计推断有着密切的联系。
统计量明确以后,必须要知道其抽样分布才能在统计推断中使用,因为只有知道了统计量的分布,才能利用概率论对总体的特征进行推断,并得到相应的推断置信度。
所以在统计推断中,一项重要的工作就是寻找统计量和导出统计量的抽样分布或渐近抽样分布。
【例6-1】总体X 服从两点分布,概率分布律如下:(1)P X p ==,(0)1P X p ==-从总体中抽取容量为n 的样本,构造统计量1n i i T X==∑,求此统计量的分布。
解:由于样本是独立的,i X 服从两点分布,统计量T 为随机变量,其取值是0到n 之间的所有整数,其分布恰好是二项分布:()(1)k k n k n P T k C p p -==-,0,1,2,...,k n =从上面的例子中,可以看出抽样分布未必与总体的分布一致。
【例6-2】总体分布为~(1,1)X N ,抽取容量为n 的样本,构造如下三个统计量:11T X =,212T X X =+和311ni i T X X n ===∑。
求此三个统计量的抽样分布。
解:由于样本是独立的,i X 服从均值和方差都为1的正态分布,三个统计量都是样本的线性函数,由正态分布的性质,三个统计量仍服从正态分布,下面分别求解其均值和方差:11()()1E T E X ==,11()()1D T D X ==212()()()2E T E X E X =+=,212()()()2D T D X D X =+=311()()1n i i E T E X n ===∑,32111()()n i i D T D X n n===∑ 由上面计算可以得出,统计量1T 服从均值和方差都为1的正态分布,这和总体的分布相同;统计量2T 服从均值和方差都为2的正态分布,而统计量3T 服从均值为1,方差为1/n 的正态分布。
§6.2.2 常用统计量11.样本均值和样本方差1 常用统计量还包括样本相关系数,我们将在第9章介绍。