样本与抽样分布
- 格式:doc
- 大小:491.00 KB
- 文档页数:38
数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。
在数理统计中,样本统计量和抽样分布是两个关键概念。
本文将详细解释这些概念,并介绍相关的公式和定理。
一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。
常用的样本统计量有平均值、方差、标准差、相关系数等。
下面我们将详细介绍这些统计量以及它们的计算公式。
1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。
样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。
2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。
样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。
3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。
样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。
4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。
样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。
报告中的随机抽样与样本分布分析方法一、随机抽样的概念及意义随机抽样是指从总体中按照一定的概率规则,以任意方式选择样本的一种抽样方法。
通过随机抽样得到的样本能够代表总体的特征,从而使得研究结果具有可信度和普适性。
随机抽样的意义在于降低研究误差、节省调查成本、提高调查效率,并确保研究结果的可靠性。
二、简单随机抽样方法简单随机抽样是指在总体中以相同的概率随机选取个体作为样本的一种抽样方法。
它具有容易实施、适用范围广的特点。
在实际应用中,可以使用随机数表或随机数生成器来进行简单随机抽样。
在抽样过程中,需要注意避免人为干预,保证抽样的随机性和公正性。
三、系统抽样方法系统抽样是指按照一定的规则在总体中选择个体作为样本的一种抽样方法。
它常用于在总体有序排列的情况下,根据设定的抽样比率进行个体的选择。
系统抽样相对于简单随机抽样来说更加方便快捷,且能够保证样本具有代表性。
四、整群抽样方法整群抽样是指将总体划分为若干个互不重叠的群体,然后从其中随机选择若干个群体作为样本的一种抽样方法。
整群抽样能够更好地保留总体的内部结构和联系,并且能够提高调查效率。
在实际应用中,选择合适的群体进行抽样可以根据总体的特点和调查的目的而定。
五、分层抽样方法分层抽样是指将总体按一定的规则划分为若干个层次,然后从每个层次中随机抽取一定数量的个体作为样本的一种抽样方法。
分层抽样能够保证样本更精确地反映各层次的特征,提高样本的代表性。
在实际应用中,需要根据总体的特点、抽样目标和可行性等因素来决定分层抽样的方案。
六、样本分布分析方法样本分布分析是指通过对样本数据进行统计学分析,了解样本的特征和总体参数的分布情况。
常见的样本分布分析方法包括描述统计、假设检验、置信区间估计等。
通过样本分布分析可以评估样本的质量、推断总体的特征以及验证研究假设的合理性。
在实际应用中,样本分布分析方法有助于准确地利用样本数据进行决策和预测。
总结:报告中的随机抽样与样本分布分析方法在实际应用中起着重要的作用。
样本及抽样分布§6.1 基本概念一、总体:在统计学中, 我们把所研究的全部元素组成的集合称作母体或总体, 总体中的每一个元素称为个体。
我们只研究感兴趣的某个或者几个指标(记为X),因此把这些指标的分布称为总体的分布,记为X~F(x)。
二、样本:设总体X具有分布函数F(x),若X1, X2,…,Xn是具有分布函数F(x)的相互独立的随机向量,则称其为总体F(或总体X )的简单随机样本, 简称样本,它们的观察值x1,x2, …, xn称为样本观察值, 又称为X 的n 个独立的观察值。
三、统计量:设X 1, X 2, …, X n 是来自总体X 的一个样本, g (X 1, X 2, …, X n )是一个与总体分布中未知参数无关的样本的连续函数,则称g (X 1,X 2,…,X n )为统计量。
统计量是样本的函数,它是一个随机变量,如果x 1, x 2, …, x n 是样本观察值, 则g (x 1, x 2, …, x n )是统计量g (X 1, X 2, …, X n )的一个观察值.四、 常用的统计量:, ,)(x 11s ,,x 1x 1. n12i2n1i 称为样本方差均值仍称为样本它们的观察值为∑∑==--==i i x n n .B ,,1,2,X A ,1k 2.22221S S nn B k ≈-====当样本容量很大时时当时当3.kkkk若总体X 的k 阶矩E(X )存在,则当n时, A .P注:ni i 111. X X ;n ==∑样本均值2n 2i i 112. S (X );n-1X ==-∑样本方差n kk i 113. k A X , k 1, 2,;n i ===∑样本阶原点矩nk i i 114. k B (X ) , k 2, 3,.n k X ==-=∑样本阶中心矩4.样本的联合分布:2) 若总体X 是离散型随机变量,其分布律为 p x =P (X=x ) , x=x 1,x 2,… 则样本X 1, X 2, …, X n 的联合分布:11112(,,)(),,;(1,2,,)nn n i i i i P X y X y P X y y x x i n =======∏其中12n *12i 13)(), ,X , (, ,)()n n i X f x X X f x x x f x ==∏若具有概率密度则的联合概率密度为12121211)(),,,,, ,,,:()()n n n*n i i X ~F x X X X F X X X F x , x ,x F x ==∏若为的一个样本则的联合分布函数为例1:X~U (0,θ),X 1, X 2, …, X n 是来自X 的样本,求(X 1, X 2, …, X n )的联合密度函数。
随机样本与抽样分布一、引言随机样本和抽样分布是统计学中非常重要的概念,它们在统计推断和假设检验中起着核心作用。
本文将从理论和实践两个方面来探讨随机样本和抽样分布的相关知识,帮助读者更好地理解和应用这些概念。
二、随机样本1. 随机样本的定义随机样本是指从总体中以随机的方式抽取出来的样本。
在实际调查和研究中,通常需要根据一定的规则和方法来获取样本,而随机样本则是保证了每个总体单位有相同被选入样本的机会,从而能够更好地代表总体特征。
2. 随机样本的特点随机样本具有以下特点: - 代表性:通过随机抽样得到的样本能够较好地代表总体特征。
- 可比性:不同的随机样本之间可以进行比较分析,结果具有一定的可靠性。
- 独立性:各个个体之间的选取是相互独立的,不会受到其他因素的影响。
三、抽样分布1. 抽样分布的概念抽样分布是指统计量由一个个样本算出来时所得到的概率分布。
在统计推断中,我们通常需要根据样本来对总体参数进行估计或进行假设检验,而抽样分布则是帮助我们推断出总体参数的分布情况。
2. 常见的抽样分布(1) 正态分布当总体服从正态分布时,根据中心极限定理可知,样本均值的抽样分布也会趋近于正态分布,而且当样本量大于30时,可以认为近似服从正态分布。
(2) t 分布在总体标准差未知且根据小样本得到的数据时,往往使用t分布来进行统计推断。
t分布相较于正态分布,在小样本情况下具有更大的尾部面积,更符合对总体参数进行估计时对抽样误差可能带来的影响。
(3) 卡方分布卡方分布是一种重要的统计分布,在统计学中有着广泛的应用。
在假设检验、方差分析等领域都有着重要作用。
四、随机样本与抽样分布在实际中的应用随机样本和抽样分布在现实生活和科学研究中都有着重要应用。
例如,在医学研究中,需要通过对患者进行随机抽样来获取数据,然后利用抽样分布的知识对药物疗效等进行评估;在市场调查中,通过对消费者群体进行随机抽样,并利用抽样分布进行数据处理和结果推断。
管理统计学(李金林版教材)课后习题答案~~~第六章基础习题1. 解释总体分布、样本分布和抽样分布的含义。
答:总体分布:整体取值的概率分布规律,即随机变量X 服从的分布;样本分布:从总体中按照一定的抽样规则抽取的部分个体的分布,若从总体中简单随机抽取容量为n 的样本,则样本分布为(X 1,X 2,...,X n );抽样分布:样本统计量的分布。
2. 简述卡方分布、t 分布、F 分布及正态分布之间的关系,它们的概率密度曲线各有什么特征?答:若随机变量X 服从N(μ,σ2),则Z =X−μσ服从N(0,1);若随机变量X 服从N(0,1),则Y =∑(X i )2n i=1服从自由度为n 的χ2分布;若随机变量X~N(0,1),随机变量Y~χ2(n),且X 与Y 相互独立,则称随机变量T =√Y n⁄服从自由度为n 的t 分布;若随机变量X~χ2(n),若随机变量Y~χ2(m),且X 与Y 相互独立,则称随机变量F n,m =X n ⁄Y m ⁄服从第一自由度为n ,第二自由度为m 的F 分布,记为F n,m ~F(n,m)。
χ2分布的概率密度曲线分布在第一象限内,随着自由度n 的增大,曲线向正无穷方向延伸,并越来越低阔,越来越趋近于正态分布的曲线形态。
t 分布的概率密度曲线以0为中心,左右对称,随着自由度n 的增大,t 分布的概率密度曲线逐渐接近标准正态分布的概率密度曲线。
F 分布的概率密度曲线分布在第一象限内,当第一个自由度不变,第二个自由度增大时,曲线越来越向右聚拢,当两个自由度都增加时,F 分布概率密度曲线逐渐接近正态分布的概率密度曲线。
3. 解释中心极限定理的含义。
从均值为μ,方差为σ2的任意一个总体中抽取样本容量为n 的随机样本,则当n 充分大时,样本均值x̅的抽样分布近似服从均值为μ,方差为σ2n ⁄的正态分布,即x̅~N(μ, σ2n ⁄)。
4. 某公司有20名销售员,以下是他们每个人的销售量:3,2,2,3,4,3,2,5,3,2,7,3,4,5,3,3,2,3,3,4。
随机样本与抽样分布随机样本是指从总体中按照一定的概率分布规律随机选择的样本。
在统计学中,随机样本是进行统计推断的基础,通过对随机样本的分析可以得出对总体的推断。
而抽样分布则是指在多次独立重复抽取同样大小的随机样本,并计算所得样本统计量的分布情况。
本文将从随机样本的概念、抽样方法、抽样误差以及抽样分布的特点等方面进行探讨。
一、随机样本的概念随机样本是指从总体中按照一定的概率分布规律随机选择的样本。
在进行统计推断时,我们往往无法对整个总体进行调查,而是通过对随机样本的研究来推断总体的特征。
随机样本的选择要具有代表性和随机性,确保样本能够准确反映总体的特征。
通过对随机样本的分析,可以得出对总体的推断,从而进行决策和预测。
二、抽样方法抽样是指从总体中选择样本的过程,其目的是获取代表性的样本以进行统计推断。
常见的抽样方法包括简单随机抽样、分层抽样、整群抽样和系统抽样等。
简单随机抽样是指从总体中随机选择若干个体作为样本,每个个体被选中的概率相等且相互独立。
分层抽样是将总体按照某种特征分成若干层,然后从每一层中分别进行简单随机抽样。
整群抽样是将总体分成若干群,然后随机选择若干群作为样本。
系统抽样是按照一定的规律从总体中选择样本,如每隔若干个单位选择一个单位作为样本。
三、抽样误差抽样误差是指由于样本选择不足以代表总体而导致的误差。
抽样误差的大小受到多种因素的影响,包括样本容量、抽样方法、总体的特征等。
通常情况下,样本容量越大、抽样方法越科学、总体的特征越均匀,抽样误差就越小。
在进行统计推断时,需要对抽样误差进行估计,并考虑其对推断结果的影响。
四、抽样分布抽样分布是指在多次独立重复抽取同样大小的随机样本,并计算所得样本统计量的分布情况。
常见的抽样分布包括 t 分布、F 分布和χ² 分布等。
其中 t 分布适用于小样本情况下对总体均值的推断,F 分布适用于对总体方差的推断,χ² 分布适用于对总体分布的推断。
第六章样本及抽样分布【基本要求】1、理解总体、个体和样本的概念;2、理解样本均值、样本方差和样本矩的概念并会计算;3、理解统计量的概念,掌握几种常用统计量的分布及其结论;4、理解分位数的概念,会计算几种重要分布的分位数。
【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2 分布,t分布,F分布;分位数的理解和计算。
【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。
【学时分配】4学时【授课内容】§6.0 前言前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。
它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。
所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。
其研究方法是归纳法(部分到整体)。
对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。
数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。
§6.1 随机样本一、总体与样本1.总体、个体在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。
例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。
但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。
在上述例子中X是表示灯泡的寿命或男大学生的身高和体重。
在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,因而这个数量指标X是一个随机变量(或向量),而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。
第五章 样本及抽样分布从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节 数理统计的基本概念内容分布图示★ 引言 ★ 总体与总体分布 ★ 样本与样本分布 ★ 例1★ 例2 ★ 例3 ★ 例4★ 统计推断问题简述★ 分组数据统计表和频率直方图 ★ 例5 ★ 经验分布函数 ★ 例6★ 统计量 ★ 样本的数字特征★ 例7 ★ 例8 ★ 例9 ★ 内容小结 ★ 课堂练习 ★ 习题5-1 ★ 返回内容要点:一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量X 的值,于是, 一个总体对应于一个随机变量X , 对总体的研究就相当于对一个随机变量X 的研究, X 的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义:定义 统计学中称随机变量(或向量)X 为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O 型、A 型、B 型、AB 型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如p ,,2σμ等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体X 的一组数值),,,(21n x x x Λ,其中每一i x 是从总体中抽取的某一个体的数量指标i X 的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为n 的样本可视为n 维随机向量),,,(21n X X X Λ,一旦具体取定一组样本,便得到样本的一次具体的观察值),,,(21n x x x Λ,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: n X X X ,,,21Λ与所考察的总体具有相同的分布;2. 独立性: n X X X ,,,21Λ是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的n 个相互独立的随机变量n X X X ,,,21Λ表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体X 的分布函数为)(x F ,则简单随机样本),,,(21n X X X Λ的联合分布函数为∏==ni i n x F x x x F 121)(),,,(Λ并称其为样本分布.特别地, 若总体X 为连续型随机变量,其概率密度为)(x f ,则样本的概率密度为∏==ni i n x f x x x f 121)(),,,(Λ分别称)(x f 与),,,(21n x x x f Λ为总体密度与样本密度.若总体X 为离散型随机变量,其概率分布为}{)(i i x X P x p ==, x 取遍X 所有可能取值, 则样本的概率分布为,)(},,,{),,,(12121∏======ni i n n x p x X x X x X p x x x p ΛΛ分别称)(i x p 与),,,(21n x x x p Λ为离散总体密度与离散样本密度.三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21Λ对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设n x x x ,,,21Λ是样本的n 个观察值.(i) 求出n x x x ,,,21Λ中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm 在101左右): mab t m i t t t i i -=∆=∆+,,,2,1),,[Λ, 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn ∆=,以及),,2,1(,n i tfh i i Λ=∆=(iv) 在),[t t t i i ∆+上以i h 为高,t ∆为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图五、经验分布函数样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。
抽样分布和样本分布你们知道抽样分布和样本分布各是什么吗?以下是有店铺为大家整理的抽样分布和样本分布,希望能帮到你。
抽样分布:从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。
抽样分布是统计推断的理论基础。
如果从容量为的有限总体抽样,若每次抽取容量为的样本,那么一共可以得到N取n的组合个样本(所有可能的样本个数)。
抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数。
如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。
由平均数构成的新总体的分布,称为平均数的抽样分布。
随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。
样本分布:总体是指考察的对象的全体,个体是总体中的每一个考察的对象,样本是总体中所抽取的一部分个体,而样本容量则是指样本中个体的数目样本分布是用来估计总体分布的。
样本分布有区别于总体分布,它是从总体中按一定的分组标志选出来的部分样本容量。
实际中很多不确定现象都可以用随机变量描述,而应用中的一个十分重要的问题是找到随机变量的分布或其数字特征。
例如:某进出口贸易公司进口了10万台微型计算器,按产品技术规定,使用寿命小于4000小时即为次品,且次品率大于1% 就不接受这批产品。
如何得知这批产品的次品率呢?是否要测量每一台计算器呢?显然,这是不现实的,解决这个问题的好办法就是随机抽样,然后根据抽样检验得到的次品率来估计整批产品的次品率。
也就是从10万台产品中按随机原则,抽取一部分(假如100件)产品组成一个样本,由样本(100件产品)次品率推断整批产品的次品率。
这里,我们把被观察对象的全体(本例中的10万台计算器)称作总体,把从总体中随机抽取的(被抽中的100台计算器)小群体称作样本,而样本中所包含的个体单位数目称为样本容量(100个)。
对于这批计算器,我们关心的是它的使用寿命(低于4000小时的比例有多少)的分布,设X表示“任一台计算器的使用寿命”,它是一个随机变量,我们把随机抽中的100件产品看作是100个随机变量X1,X2……,X100,每一个计算器的使用寿命都是一个随机变量,一旦测试完毕,测试的结果就是100个观测值x1,x2,……x100, 统计抽样的任务就是根据测试结果x1,x2,……x100来估计总体X的分布情况。
第六章样本与抽样分布§6.1 数理统计的基本概念一.数理统计研究的对象例:有一批灯泡,要从使用寿命这个数量指标来看其质量,设寿命用X表示。
(1)若规定寿命低于1000小时的产品为次品。
此问题是求P(X 1000)=F(10000),求F(x)? (2)从平均寿命、使用时数长短差异来看其质量,即求E(x)?、D(x)?。
要解决二个问题1.试验设计抽样方法。
2.数据处理或统计推断。
方法具有“从局部推断总体”的特点。
二.总体(母体)和个体1.所研究对象的全体称为总体,把组成总体的每一个对象成员(基本单元)称为个体。
说明:(1)对总体我们关心的是研究对象的某一项或某几项数量指标(或属性指标)以及他们在整体中的分布。
所以总体是个体的数量指标的全体。
(2)为研究方便将总体与一个R.V X对应(等同)。
a.总体中不同的数量指标的全体,即是R.V.X的全部取值。
b.R.V X的分布即是总体的分布情况。
例:一批产品是100个灯泡,经测试其寿命是:1000小时1100小时1200小时20个30个50个X 1000 1100 1200P 20/100 30/10050/100(设X表示灯泡的寿命)可知R.V.X的分布律,就是总体寿命的分布,反之亦然。
常称总体X,若R.VX~F(x),有时也用F(x)表示一个总体。
(3)我们对每一个研究对象可能要观测两个或多个数量指标,则可用多维随机向量(X,Y,Z, …)去描述总体。
2.总体的分类有限总体无限总体三.简单随机样本.1.定义6.1 :从总体中抽得的一部分个体组成的集合称为子样(样本),取得的个体叫样品,样本中样品的个数称为样本容量(也叫样本量)。
每个样品的测试值叫观察值。
取得子样的过程叫抽样。
样本的双重含义:(1)随机性:用(X1,X2,……X n) n维随机向量表示。
X i表示第i个被抽到的个体,是随机变量。
(i=1,2,…n)(2)确定性:(x1,x2,……x n)表示n个实数,即是每个样品Xi观测值x i(i=1,2,…n)。
2.定义6.2:设总体为X,若X1,X2……X n相互独立且与X同分布,则称(X1,X2 (X)n)为来自总体X的容量为n的简单随机样本(简称样本)。
3.已知总体的分布写出子样的分布(1)已知总体X~F(x),则样品X i~F(x i) i=1,2…n样本(X1,X2…X n)的联合分布为:F(x 1,x 2…x n )=P(X 1≤x 1,X ≤2x 2…X ≤n x n) =∏=ni 1P(X ≤x i) =∏=ni 1F(x i) 若总体X ~f(x ),样品X i ~f(x i ) i=1,2……n样本(X 1,X 2……X n)的联合密度是 : f(x 1,x 2……x n )=∏=ni 1f(x i)例:总体X ~N(),2σμ,写出该总体样本(X 1,X 2…X n)的 联合密度。
(2)若总体X 是离散型随机变量,一般给出分布律:P(X=x k ) = p k . k=1,2……要写出概率函数f(x )即f(x )=P(X=x k )=i k p i k =1,2….., n i ,...,2,1=例: 总体X ~π(λ)写出该总体样本(X 1,X 2,…X n )的联合概率函数例:总体X ~B(1,p), 0<p <1写出其样本(X 1,X 2,……X n)的联合概率函数。
四 经验分布函数与直方图1.样本的经验分布函数(1)定义:设(x 1, x 2,…x n )是来自总体X 的一组样本值。
将它们按由小到大排序为:x 1*≤x 2*≤…≤x i *≤…≤x n * 对任意的实数x ,定义函数:F n * (x)=⎪⎪⎩⎪⎪⎨⎧<-=<≤<**+**x x n k x x x nk x x n k k 11,...2,1011 则称F *n (x )为总体X 的经验分布函数。
(2)格列文科定理:设总体X的分布函数、经验分布函数分别为F(x)、F n*(x),则有:P {}0)()(=-*+∞<<∞-∞→XFxFSupLimnxn=1上式表明,当∞→n,概率为1的有F)(x n均匀地趋于F(x)。
2总体的概率密度的估计−直方图(第一版)[p143 例6.3]可以用SAS下的interactive data analysis 模块演示。
五 统计量与样本的数字特征1 定义6.3: 设X 1,X 2,…,X n 是来自总体X 的容量为n 的样本,g(x 1, x 2,…,x n )是定义在R n或R n子集上的普通函数。
如果g 中不含有任何未知量,则称g(X 1,X 2,…,X n )为统计量。
2.常用的统计量(样本的数字特征)定义6.4:设X 1,X 2,…,X n 是来自总体X 的样本,则称∑∆=ni X n X 11 为样本均值()∑--=∆n i X X n S 12211为样本方差,...3,2,1,11==∑=∆K X n M n i Ki K 为样本k 阶原点矩 为样本k 阶中心矩3.重要性质定理6.1:设总体X 不论服从什么分布,只要其二阶矩存在,即E(X)=μ、D(X)=б2都存在,则: (1) E(X )=E(X)=μ(2)D(X )=n 1D(X)=n2σ(3) E(S 2)=D(X)=б2重要恒等式:()21212X n X X X nini-=-∑∑§6.2 抽样分布统计量是样本的函数,它是一个随机变量。
统计量的分布称为抽样分布。
一. 三个重要分布(一)2χ分布1. 定义6.5:设X 1,X 2,…X n 相互独立,均服从N(0,1),则称随机变量222221...n n X X X χ=+++服从自由度为n的2χ分布,记为()n 2χ,即:)(~22n n χχ。
2.定理3.8:)(2n χ的概率密度为⎪⎩⎪⎨⎧=>⎪⎭⎫ ⎝⎛Γ≤--0,210 ,0221222),(y n y e y yn n n y χ其中⎰+∞--=Γ01)(dt x e t tx定理的说明见P146页。
3.图形.分布函数图:data Kf;do x=0 to 30 by0.1;y= PROBCHI(x, 8);output;end;run;proc gplot data=kf;plot y*x=1 ;symbol1v=none i=join r=1c=black; run;密度函数图:n=1,5,15data kf;do y=0to20by0.1;z0=(y**(-0.5)*exp(-y/2))/(2**0.5* GAMMA(0.5));z1=(y**(1.5)*exp(-y/2))/(2**2.5* GAMMA(2.5)); z2=(y**(6.5)*exp(-y/2))/(2**7.5* GAMMA(7.5)); output;end;run;proc gplot data =kf;plot z0*y=1 z1*y=1 z2*y=1 /overlay ; symbol1 v =none i =join r =1 c =black; run;求概率:自由度为n=25, P{X<34.382}的概率这样求。
data ;p=PROBCHI(34.382,25); put p=; run ;其它可类推。
4.性质①若)(~22n χχ,则E(2χ)=n ,D(2χ)=2n②若),(~1221n χχ),(~2222n x χ且它们相互独立,则)(~2122221n n ++χχχ③若n X X X ,...,,21相互独立,均服从N (μ,σ2),则~)(11222∑-=niX X μσ)(2n χ④总体X 服从参数为λ的指数分布;X 1,X 2,…,X n 是来自该总体的样本.则:2(~2)(221_nX n niX χλλ∑=(二).t 分布定义6.6:设X ~N (0,1),Y ~χ2(n)且它们相互独立,则称随机变量n Y X T n/=服从自由度为n 的t 分布,记为t(n),即)(~n t T n 。
定理3.9:n T 的概率密度为212)1()2()21(),(+-+Γ+Γ=n n n n n n t T t π -∝<t<+∝性质:(1)t 分布的密度是偶函数,图形为:n=1, 10, 100时data student;do t=-3 to 3 by 0.01;z1=(gamma(1)*(1+t**2)**(-1))/((3.1415926)**0.5*gamma(0.5));z10=(gamma(5.5)*(1+t**2/10)**(-5.5))/((10*3.1415926)**0.5*gamma(5));z100=(gamma(50.5)*(1+t**2/100)**(-50.5))/(100*(3.1415926)**0.5*gamma( 50));output;end;run;proc gplot data=student;plot z1*t=1 z10*t=1 z100*t=1/ overlay ;symbol1v=none i=join r=1c=black;run;类似N(0,1)图形,n越大峰值越高。
分布函数图:n=10.data t;do x=-5to5by0.1;y=PROBT(x, 10);output;end;run;proc gplot data=t;plot y*x=1 ;run;(2)可证明当n >45时,t 分布与()1,0N 接近。
(3)当n>2时,E(T)=0,2)(-=n nT D (证略)(三)F 分布定义 6.7:设V ~χ2(m),W ~χ2(n),且它们相互独立,则称随机变量nW m VF n m =,服从第一自由度为m 、第二自由度为n 的F 分布,记为F(m,n), 即F m,n ~F(m,n)。
定理3.10:F m,n 为服从第一自由度为m ,第二自由度为n的F 分布的随机变量, 则其密度函数为⎪⎪⎩⎪⎪⎨⎧=>+ΓΓ+Γ<+--0y )1())(()2()2()2(0y 0212),,(n m m y n m y n m n m n m n m n m y F图形: 给定m,n 可画出一个密度图形密度函数图:data f;%macro a(m,n,x);data a;do y=0 to 2 by 0.01;F&x=(gamma((&m+&n)/2)*(&m/&n)**(&m/2)*y**(&m/2-1))/(gamma(&m/2)*gamma (&n/2)*(1+(&m*y/&n))**(&m+&n)/2);output;end;data F;merge a f;%mend a;%a(10,25,1);%a(10,5,2);run;proc gplot data=f;plot F1*y=1 F2*y=1 / overlay ;symbol1v=none i=join r=1c=black;run;易推知:1~F(n,m)①若F~F(m,n),则F②若X~t (n),则X2~F(1,n)练习:书上P151有证明。