01 第一节 数理统计的基本概念
- 格式:doc
- 大小:355.00 KB
- 文档页数:8
第一章 数理统计的基本概念数理统计与概率论一样,也是研究随机现象统计规律性的一门数学学科.概率论主要研究在已知随机变量服从某种分布的情况下,讨论随机变量的性质、数字特征、随机变量序列的极限等.但是,对实际问题中的一个随机变量来说,如何判断它服从某种分布,如果知道它服从某种分布,又该如何确定其中的参数,这些问题概率论都没有涉及,它们都是数理统计研究的内容.并且这些问题的研究都直接或间接建立在试验的基础上.数理统计学就是利用概率论的理论,对要研究的随机现象进行多次独立重复的观察或试验,研究如何合理地获得数据,如何对所获得的数据进行整理、分析,如何对关心的问题进行估计或推断的一门数学学科.数理统计由基本原理和应用方法两大内容组成.本章介绍数理统计的基本概念和抽样分布.§1.1 基本概念一、总体与样本用数理统计研究某个问题时,把研究对象的全体称为总体(或母体),而把每一个研究对象称为个体.例如,一批灯泡的全体就组成一个总体,其中每一个灯泡是一个个体.再例如,一群人(一个班或一个年级)的全体就组成一个总体,其中每一个人是一个个体.在数理统计中,我们关心的并不是组成总体的各个个体本身,而是与它们的性能相联系的某个数量指标或者多个数量指标.例如,在研究一批灯泡组成的总体时,可能关心的是灯泡的使用寿命这个数量指标.再例如,在研究一群组成的总体时,可能关心的是人的身高和体重等多个数量指标.因此,总体可以认为是研究对象的全体的一个或多个数量指标.在研究一批灯泡组成的总体时,可能关心的是灯泡的使用寿命的分布情况.由于任何一个灯泡的寿命事先是不能确定的.而每一个灯泡都确实对应着一个寿命值,所以我们可认为灯泡寿命是一个随机变量.也就是说,我们把总体与一个随机变量(如灯泡寿命)联系起来.因此,对总体的研究就转化为对表示总体的随机变量的统计规律的研究,所以,今后我们说到总体,指的是一个具有确定概率分布的随机变量(但它的分布又是未知的或至少分布的某些参数是未知的),而每个个体则是随机变量可能取的每一个数值.为了推断出这批灯泡的使用寿命的分布(或这批灯泡的次品率),最精确的办法就是把每个灯泡的使用寿命都测试出来.然而,寿命试验是破坏性试验,即使是非破坏性试验,考虑到试验要花费时间、人力和钱,我们只能从总体中抽取一部分(个个体)进行试验(称这个个体为容量是的样本),试验结果可得一组数值,其中是第i 个个体的试验结果,我们要根据这组数值对总体n n n ),,,(21n x x x L i x ξ进行推断,这样对试验的抽取方式就有一定的要求.首先,要求抽取必须是随机的,即每次每个个体被抽到的机会是等可能的,这样被抽到的个体才具有代表性,即每每次抽取的都具有总体的特征.其次,抽取必须是独立的、即每次抽取互不影响.也就是每次抽取后不能改变总的成分,这就要求.如果试验是非破坏性的,那么抽取时应该是有放回的;如果试验是破坏性的,那么总体应该是无限的.或是很大的.满足以上两个条件的抽取方式称为简单随机抽样.用简单随机抽样方法对—次抽取个个体的试验结果而言是一组数值,但是它又随着每次抽样的不同而变化,因此,实际上是维随机变量n ),,,(21n x x x L n ),,,(21n x x x L ),,,(21n ξξξL 的一次观察值.即在抽样试验之前,将要抽取的样本可以认为是维维随机变量n ),,,(21n ξξξL n ξξξ,,,21L .又因抽样具有代表性和独立性,所以是相互独立同分布随机变量,每个都与总体ξ同分布的.我们称),,,(21n ξξξL 为总体ξ的容量为的简单随机样本,简称为样本.抽样试验后的结果称为样本n ),,,(21n x x x L ),,,(21n ξξξL 的观察值.由所有样本值组成的集合ℵ称为样本空间.),,,(21n ξξξL 设总体ξ的分布函数,则)(x F ξ的联合分布函数为的样本,1x ),,,(),,(22112n n n x x x P x x F =ξ<ξ<ξ<L L .∏∏===<=ni i ni i ix F x P 11)()(ξ),,,(21n ξξξL )(x ϕξ为连续型随机变量,且有密度函数为.则其样本如果总体为n 维连续型随机变量,且联合密度函数为:∏==ni i n x x x x 121)(),,,(ϕϕL .i i p a P ==)(ξL ,2,1=i ξ为离散型随机变量,且分布律为,,则其样本如果总体),,,(21n ξξξL 为维离散型随机变量,且联合概率函数为:n ∏======ni i n n x P x x x P 12211)(),,,(ξξξξL ,其中,.L ,,21a a x i =n i ,,2,1L = 例1 设总体,求样本),(~2σμξN ),,,(21n ξξξL 的联合密度函数.),,,(21n ξξξL 解: 样本的联合密度函数为∏=−−=ni x i e12)(2221σμσπ∏==ni i n x x x x 121)(),,,(ϕϕL∑⎟⎠⎞⎜⎝⎛==−−ni i x n e122)(2121μσσπ. 例2 设总体),(~p N B ξ,即,,.求总体k N kk N p p C k P −−==)1()(ξN k ,,1,0L =),,,(21n ξξξL 10<<p ξ的联合分布律.的样本),,,(21n ξξξL 的联合分布律为解: 样本∏===ni i x P 1)(ξ),,,(2211n n x x x P ===ξξξL. ∏=−∑−∑===ni x N x nN x i ni ini iC p p111)1(∏=−−=ni x N x x Niii p p C 1)1(二、统计量从总体中抽出样本的观测值后,只是得到了一组静态的数据.对于这些数据要进行处理,才能解决我们所关心的问题.有时候我们可能只想估计出总体的期望或者方差,有时候我们可能想了解总体的分布,对于不同的问题,必须对数据进行不同的处理,这就需要构造样本的不同函数.样本的函数常称为统计量.),,,(21n T ξξξL n ξξξ,,,21L n ξξξ,,,21L ξ定义: 设为取自总体的一个样本,样本的函数,且不含未知参数,则称),,,(21n T ξξξL 为统计量.如果是样本),,,(21n x x x L ),,,(21n x x x T L ),,,(21n ξξξL 的一个观测值(观察值),则称是统计量),,,(21n T ξξξL 的一个观测值(观察值).例3 设总体,),(~2σμξN μ未知,为已知,2σ),,,(21n ξξξL ξ为的一个样本,则∑=n i i 121ξσ是统计量.而∑不是统计量.=−ni i12)(μξn ξξξ,,,21L 根据统计量的定义,它是随机变量的函数,因此统计量也是一个随机变量,它也有概率分布.统计量的分布称为抽样分布.但要注意,尽管一个统计量不合任何未知参数,但它的分布却可能含有未知参数.例4 设621,,,ξξξL 是来自),0(θ上的均匀分布的样本,0>θ未知.指出下列样本函数中哪些是统计量,哪些不是?为什么?66211ξξξ+++=L T θξ−=62T 163EX T −=ξ},,,max{6214ξξξL =T ,,,.解:和是,和不是.因为和中不含总体中的未知参数1T 4T 2T 1T 4T 3T θ,而和中含有未知参数2T 3T θ.常用统计量n ξξξ,,,21L ξ设为取自总体的一个样本,∑==+++=ni i n n n 1211)(1ξξξξξL (1)样本均值:;[]∑∑==−=−=−++−=n i i n i i n n n n S 1221222121)(1)()(1ξξξξξξξξL (2)样本方差:;∑∑==−−−=−−=n i i n i i n n n n S 122122*111)(11ξξξξ(3)修正样本方差:;∑=−=ni i n S 12)(1ξξ; (4)样本标准差:∑=−−=ni i n S 12*)(11ξξ(5)修正样本标准差:; ∑===n i ki kk n A 11ξξL ,2,1=k (6)样本k 阶原点矩: , ;∑=−=n i ki k n B 1(1ξξL ,3,2=k (7)样本k 阶中心矩: .,若是样本),,,(21n x x x L ),,,(21n ξξξL 的一组观测值,则∑=−=n i i x x n s 12)(1∑=−=n i i x x n s 122(1∑=−−=n i i x x n s 122*(11∑==n i i x n x 11、、、、∑=−−=n i i x x n s 12*)(11∑===n i k i kk x n x a 11∑=−=n i k i k x x n b 1)(1、、 分别是样本均值、样本方差、修正样本方差、样本标准差、修正样本标准差、样本k 阶原点矩、样本k 阶中心矩的.例5 从—批机器零件毛坯中随机招取8件,测得其重量(单位:kg)为230,243,185,240, 228,196,246,200.求样本均值、样本方差和样本二阶原点矩的观测值.221)200246196228240185243230(8111=+++++++==∑=n i i x n x 解:;[]25.495)221200()221243()221230(81)(1222122=−++−+−=−=∑=L n i i x x n s ;25.49336)200243230(811222122=+++==∑=L n i i x n x 。
第六章数理统计的基本概念一、教学要求1理解总体、个体、简单随机样本和统计量的概念,掌握样本均值、样本方差及样本矩的计算。
2. 了解一J分布、t分布和F分布的定义和性质,了解分位数的概念并会查表计算。
3. 掌握正态总体的某些常用统计量的分布。
4 .了解最大次序统计量和最小次序统计量的分布。
本章重点:统计量的概念及其分布。
二、主要内容1. 总体与个体我们把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。
在实际问题中,通常研究对象的某个或某几个数值指标,因而常把总体的数值指标称为总体。
设x为总体的某个数值指标,常称这个总体为总体X。
X的分布函数称为总体分布函数。
当X为离散型随机变量时,称X的概率函数为总体概率函数。
当X为连续型随机变量时,称X的密度函数为总体密度函数。
当X服从正态分布'--时,称总体X为正态总体。
正态总体有以下三种类型:(1)“未知,但b已知;(2)丁未知,但-已知;(3)宀和’均未知。
2. 简单随机样本数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。
要作统计推断,首先要依照一定的规则抽取n个个体,然后对这些个体进行测试或观察得到一组数据兀、门宀-,这一过程称为抽样。
由于抽样前无法知道得到的数据值,因而站在抽样前的立场上,设有可能得到的值为J-" " ' ■■,n维随机向量(:「…J -)称为样本。
n称为样本容量。
(「匕…二)称为样本观测值。
如果样本满足(1)二:相互独立;(2)'-'-…■"服从相同的分布,即总体分布;则称'L)为简单随机样本。
简称样本。
设总体X的概率函数(密度函数)为「儿,贝U样本(二匚…凡)的联合概率函数(联合密度函数为)(i ) 样本均值: (2) 样本方差: Ri-L/3j-l Hi-1(3) 它们的观察值分别为:1 ”Ki-1Q = -2(^ -无『=-£x i -样本标准差:4炉=上丈可-尹这些观察值仍分别称为样本均值、样本方差和样本标准差。
第五章 数理统计的基础知识从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节 数理统计的基本概念内容分布图示★ 引言 ★ 总体与总体分布 ★ 样本 ★ 例1 ★样本分布★ 例2 ★ 例3 ★ 例4★ 统计推断问题简述★ *分组数据统计表和频率直方图 ★ 例5 ★ *经验分布函数 ★ 例6★ 统计量 ★ 常用统计量★ 例7 ★ 例8 ★ 例9 ★ 内容小结 ★ 课堂练习 ★ 习题5-1内容要点:一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量X 的值,于是, 一个总体对应于一个随机变量X , 对总体的研究就相当于对一个随机变量X 的研究, X 的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义:定义 统计学中称随机变量(或向量)X 为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O 型、A 型、B 型、AB 型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如p ,,2σμ等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体X 的一组数值),,,(21n x x x ,其中每一i x 是从总体中抽取的某一个体的数量指标i X 的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为n 的样本可视为n 维随机向量),,,(21n X X X ,一旦具体取定一组样本,便得到样本的一次具体的观察值),,,(21n x x x ,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: n X X X ,,,21 与所考察的总体具有相同的分布;2. 独立性: n X X X ,,,21 是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的n 个相互独立的随机变量n X X X ,,,21 表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体X 的分布函数为)(x F ,则简单随机样本),,,(21n X X X 的联合分布函数为∏==ni i n x F x x x F 121)(),,,(并称其为样本分布.特别地, 若总体X 为连续型随机变量,其概率密度为)(x f ,则样本的概率密度为∏==ni i n x f x x x f 121)(),,,(分别称)(x f 与),,,(21n x x x f 为总体密度与样本密度.若总体X 为离散型随机变量,其概率分布为}{)(i i x X P x p ==, x 取遍X 所有可能取值, 则样本的概率分布为,)(},,,{),,,(12121∏======ni i n n x p x X x X x X p x x x p分别称)(i x p 与),,,(21n x x x p 为离散总体密度与离散样本密度.三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21 对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设n x x x ,,,21 是样本的n 个观察值.(i) 求出n x x x ,,,21 中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm 在101左右): mab t m i t t t i i -=∆=∆+,,,2,1),,[ , 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn ∆=,以及),,2,1(,n i tfh i i =∆=(iv) 在),[t t t i i ∆+上以i h 为高,t ∆为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图五、经验分布函数样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。
第五章样本及抽样分布从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节数理统计的基本概念内容分布图示★引言★总体与总体分布★样本与样本分布★例1★例2★例3★例4★统计推断问题简述★分组数据统计表和频率直方图★例5★经验分布函数★例6★统计量★样本的数字特征★例7★例8★例9★内容小结★课堂练习★习题5-1 ★返回内容要点:一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量X的值,于是, 一个总体对应于一个随机变量, 对总体的研究就相当于对一个随机变量X的研究, X的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义: 定义统计学中称随机变量(或向量)X为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O型、A型、B型、AB型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如p ,,2σμ等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体X 的一组数值),,,(21n x x x ,其中每一i x 是从总体中抽取的某一个体的数量指标i X 的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为n 的样本可视为n 维随机向量),,,(21n X X X ,一旦具体取定一组样本,便得到样本的一次具体的观察值),,,(21n x x x ,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: n X X X ,,,21 与所考察的总体具有相同的分布;2. 独立性: n X X X ,,,21 是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的n 个相互独立的随机变量n X X X ,,,21 表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体的分布函数为)(x F ,则简单随机样本),,,(21n X X X 的联合分布函数为∏==ni i n x F x x x F 121)(),,,(并称其为样本分布.特别地, 若总体为连续型随机变量,其概率密度为)(x f ,则样本的概率密度为∏==ni i n x f x x x f 121)(),,,(分别称)(x f 与),,,(21n x x x f 为总体密度与样本密度.若总体为离散型随机变量,其概率分布为}{)(i i x X P x p ==, x 取遍所有可能取值, 则样本的概率分布为,)(},,,{),,,(12121∏======ni i n n x p x X x X x X p x x x p分别称)(i x p 与),,,(21n x x x p 为离散总体密度与离散样本密度.三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体的一个样本n X X X ,,,21 对总体的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设n x x x ,,,21 是样本的n 个观察值.(i) 求出n x x x ,,,21 中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm在101左右): mab t m i t t t i i -=∆=∆+,,,2,1),,[ , 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn ∆=,以及),,2,1(,n i tfh i i =∆=(iv) 在),[t t t i i ∆+上以i h 为高,t ∆为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图五、经验分布函数样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。
第五章 数理统计的基础知识从本章开始, 我们将讲述数理统计的基本内容. 数理统计作为一门学科诞生于19世纪末20世纪初, 是具有广泛应用的一个数学分支, 它以概率论为基础, 根据试验或观察得到的数据, 来研究随机现象, 以便对研究对象的客观规律性作出合理的估计和判断.由于大量随机现象必然呈现出它的规律性, 故理论上只要对随机现象进行足够多次观察, 则研究对象的规律性就一定能清楚地呈现出来, 但实际上人们常常无法对所研究的对象的全体(或总体) 进行观察, 而只能抽取其中的部分(或样本) 进行观察或试验以获得有限的数据.数理统计的任务包括: 怎样有效地收集、整理有限的数据资料; 怎样对所得的数据资料进行分析、研究, 从而对研究对象的性质、特点, 作出合理的推断, 此即所谓的统计推断问题, 本课程主要讲述统计推断的基本内容.第一节 数理统计的基本概念分布图示★ 引言 ★ 总体与总体分布 ★ 样本★ 例1 ★ 样本分布 ★ 例2 ★ 例3 ★ 例4★ 统计推断问题简述★ 分组数据统计表和频率直方图 ★ 例5 ★ 经验分布函数 ★ 例6 ★ 统计量 ★ 常用统计量★ 例7 ★ 例8 ★ 例9★ 内容小结 ★ 课堂练习★ 习题5-1内容要点一、总体与总体分布总体是具有一定共性的研究对象的全体, 其大小与范围随具体研究与考察的目的而确定. 例如, 考察某大学一年级新生的体重情况, 则该校一年级全体新生就构成了待研究的总体. 总体确定后, 我们称总体的每一个可观察值为个体. 如前述总体(一年级新生) 中的每一个个体即为每个新生的体重. 总体中所包含的个体的个数称为总体的容量. 容量为有限的称为有限总体, 容量为无限的称为无限总体.数理统计中所关心的并非每个个体的所有性质, 而仅仅是它的某一项或某几项数量指标. 如前述总体(一年级新生)中, 我们关心的是个体的体重, 进而也可考察该总体中每个个体的身高和数学高考成绩等数量指标.总体中的每一个个体是随机试验的一个观察值, 故它是某一随机变量X 的值,于是, 一个总体对应于一个随机变量X , 对总体的研究就相当于对一个随机变量X 的研究, X 的分布就称为总体的分布函数, 今后将不区分总体与相应的随机变量, 并引入如下定义:定义 统计学中称随机变量(或向量)X 为总体, 并把随机变量(或向量)的分布称为总体分布.注(i) 有时个体的特性很难用数量指标直接描述, 但总可以将其数量化,如检验某学校全体学生的血型, 试验的结果有O 型、A 型、B 型、AB 型4种, 若分别以1,2,3,4依次记这4种血型,则试验的结果就可以用数量来表示了;(ii) 总体的分布一般来说是未知的, 有时即使知道其分布的类型(如正态分布、二项分布等),但不知这些分布中所含的参数等(如p ,,2σμ等).数理统计的任务就是根据总体中部分个体的数据资料对总体的未知分布进行统计推断.二、样本与样本分布由于作为统计研究对象的总体分布一般来说是未知的,为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干个体进行观察,通过观察可得到关于总体X 的一组数值),,,(21n x x x ,其中每一i x 是从总体中抽取的某一个体的数量指标i X 的观察值.上述抽取过程为抽样,所抽取的部分个体称为样本.样本中所含个体数目称为样本的容量.为对总体进行合理的统计推断,我们还需在相同的条件下进行多次重复的、独立的抽样观察,故样本是一个随机变量(或向量).容量为n 的样本可视为n 维随机向量),,,(21n X X X ,一旦具体取定一组样本,便得到样本的一次具体的观察值),,,(21n x x x ,称其为样本值.全体样本值组成的集合称为样本空间.为了使抽取的样本能很好地反映总体的信息, 必须考虑抽样方法,最常用的一种抽样方法称为简单随机抽样, 它要求抽取的样本满足下面两个条件:1. 代表性: n X X X ,,,21 与所考察的总体具有相同的分布;2. 独立性: n X X X ,,,21 是相互独立的随机变量.由简单随机抽样得到的样本称为简单随机样本, 它可用与总体独立同分布的n 个相互独立的随机变量n X X X ,,,21 表示. 显然, 简单随机样本是一种非常理想化的样本, 在实际应用中要获得严格意义下的简单随机样本并不容易.对有限总体, 若采用有放回抽样就能得到简单随机样本,但有放回抽样使用起来不方便, 故实际操作中通常采用的是无放回抽样, 当所考察的总体很大时, 无放回抽样与有放回抽样的区别很小, 此时可近似把无放回抽所得到的样本看成是一个简单随机样本. 对无限总体, 因抽取一个个体不影响它的分布, 故采用无放回抽样即可得到的一个简单随机样本.注: 今后假定所考虑的样本均为简单随机样本, 简称为样本.设总体X 的分布函数为)(x F ,则简单随机样本),,,(21n X X X 的联合分布函数为∏==ni i n x F x x x F 121)(),,,(并称其为样本分布.特别地, 若总体X 为连续型随机变量,其概率密度为)(x f ,则样本的概率密度为∏==ni i n x f x x x f 121)(),,,(分别称)(x f 与),,,(21n x x x f 为总体密度与样本密度.若总体X 为离散型随机变量,其概率分布为}{)(i i x X P x p ==, x 取遍X 所有可能取值, 则样本的概率分布为,)(},,,{),,,(12121∏======ni i n n x p x X x X x X p x x x p分别称)(i x p 与),,,(21n x x x p 为离散总体密度与离散样本密度.三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21 对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.四、分组数据统计表和频数直方图 通过观察或试验得到的样本值,一般是杂乱无章的,需要进行整理才能从总体上呈现其统计规律性. 分组数据统计表或频率直方图是两种常用整理方法. 1. 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距. 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱. 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数陈为该区间的组频数. 组频数与总的样本容量之比称为组频率.2. 频数直方图:频率直方图能直观地表示出频数的分布,其步骤如下: 设n x x x ,,,21 是样本的n 个观察值.(i) 求出n x x x ,,,21 中的最小者)1(x 和最大者)(n x ;(ii) 选取常数a (略小于)1(x )和b (略大于)(n x ),并将区间],[b a 等分成m 个小区间(一般取m 使nm在101左右): mab t m i t t t i i -=∆=∆+,,,2,1),,[ , 一般情况下,小区间不包括右端点.(iii) 求出组频数i n ,组频率i i f nn ∆=,以及),,2,1(,n i tfh i i =∆=(iv) 在),[t t t i i ∆+上以i h 为高,t ∆为宽作小矩形,其面积恰为i f ,所有小矩形合在一起就构成了频率直方图五、经验分布函数样本的直方图可以形象地描述总体的概率分布的大致形态,而经验分布函数则可以用来描述总体分布函数的大致形状。
定义 设总体X 的一个容量为n 的样本的样本值n x x x ,,,21 可按大小次序排列成.)()2()1(n x x x ≤≤≤,)1()(+<≤k k x x x 若则不大于x 的样本值的频率为.nk因而函数 ⎪⎪⎩⎪⎪⎨⎧≥<≤<=+.,1,,,,0)()()1()()1(n k k n x x x x x nkx x x F 若若若与事件}{x X ≤在n 次独立重复试验中的频率是相同的,我们称)(x F n 为经验分布函数。
对于经验分布函数)(x F n , 格里汶科(Glivenko)在1933年证明了以下的结果: 对于任一实数x , 当∞→n 时)(x F n 以概率1一致收敛于分布函数)(x F , 即.1}0|)()(|sup lim {==-∞<<∞-∞→x F x F P n x n因此, 对于任一实数x 当n 充分大时, 经验分布函数的任一个观察值)(x F n 与总体分布函数)(x F 只有微小的差别, 从而在实际中可当作)(x F 来使用. 这就是由样本推断总体其可行性的最基本的理论依据.六、统计量为由样本推断总体,要构造一些合适的统计量, 再由这些统计量来推断未知总体. 这里, 样本的统计量即为样本的函数. 广义地讲, 统计量可以是样本的任一函数, 但由于构造统计量的目的是为推断未知总体的分布,故在构造统计量时, 就不应包含总体的未知参数, 为此引入下列定义.定义 设),,,(21n X X X 为总体X 的一个样本, 称此样本的任一不含总体分布未知参数的函数为该样本的统计量.七、常用统计量以下设n X X X ,,,21 为总体X 的一个样本. 1. 样本均值 ∑==ni i X n X 112. 样本方差 ∑=--=ni i X X n S 122)(11 3. 样本标准差 ∑=--=ni i X X n S 12)(11 4. 样本(k 阶)原点矩 ,2,1,11==∑=k X n A n i ki k5. 样本(k 阶)中心矩 ,3,2,)(11=-=∑=k X X n B ni k i k注: 上述五种统计量可统称为矩统计量,简称为样本矩,它们都是样本的显示函数,它们的观察值仍分别称为样本均值、样本方差、样本标准差、样本(k 阶)原点矩、样本(k 阶)中心矩.6. 顺序统计量 将样本中的各分量按由小到大的次序排列成,)()2()1(n X X X ≤≤≤ 则称)()2()1(,,,n X X X 为样本的一组顺序统计量, )(i X 称为样本的第i 个顺序统计量. 特别地, 称)1(X 与)(n X 分别为样本极小值与样本极大值, 并称)1()(X X n -为样本的极差.例题选讲例1 (E01) 样本的一些例子与观察值的表示方法:(1) 某食品厂用自动装罐机生产净重为345克的午餐肉罐头, 由于随机性, 每个罐头的净重都有差别. 现在从生产线上随机抽取10个罐头, 秤其净重, 得如下结果:344 336 345 342 340 338 344 343 344 343这是一个容量为10的样本的观察值, 它是来自该生产线罐头净重这一总体的一个样本的观察值.(2) 对363个零售商店调查周售额(单位:元)的结果如下:154211013561]30000,20000(]20000,10000(]10000,5000(]5000,1000(1000商店数零售额≤这是一个容量为363的样本的观察值, 对应的总体是所有零售店的周零售额. 不过这里没有给出每一个样品的具体的观察值, 而是给出了样本观察值所在的区间, 称为分组样本的观察值.这样一来当然会损失一些信息, 但是在样本量较大时, 这种经过整理的数据更能使人们对总体有一个大致的印象.例2(E02) 如果称总体X 服从正态总体, 则称总体X 为正态分布. 正态总体是统计应用中最常见的总体. 现设总体X 服从正态分布),(2σμN , 则其样本密度由下式给出:.)(21exp 2121exp 21),,,(1221221⎭⎬⎫⎩⎨⎧--⎪⎪⎭⎫ ⎝⎛=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎪⎪⎭⎫ ⎝⎛--=∑∏==n i i n ni i n x x x x x f μσπσσμπσ例3(E03) 如果总体X 服从以)10(<<p p 为参数的0—1分布, 则称总体X 为0—1总体,即.1}0{,}1{p X P p X P -====不难算出其样本n X X X ,,,21 的概率分布为n n s s n n p p i X i X i X P )1(},,,{2211-====其中)11(≤≤k i k 取1或0, 而n n i i i s +++= 21, 它恰好等于样本中取值为1的分量之总数. 服从0—1分布的总体具有广泛的应用背景. 概率p 通常可视为某实际总体(如工厂的某一批产品)中具有一特征(如废品)的个体所占的比例, 亦称为比率. 从总体中随机抽取一个个体, 可视为一个随机试验, 试验结果可用一随机变量X 来刻画: 若恰好抽到具有该特征的个体, 记1=X ; 否则, 记0=X . 这样, X 便服从以p 为参数的0—1分布. 通常参数p 是未知的, 故需通过抽样对其作统计推断.例4 设总体X 服从参数为λ的泊松分布, n X X X ,,,21 为其样本, 则样本的概率分布为,!!!!}{},,,{21112211λλλλn n s nk ki n k kn n e i i i ei i X P i X i X i X P nk-=-=⋅⋅⋅=======∏∏其中)1(n k i k ≤≤取非负整数, 而n n i i i s +++= 21.例5(E04) 从某厂生产的某种零件中随机抽取120个, 测得其质量(单位: g) 如下表所示. 列出分组表, 并作频率直方图.198200207206206213216206205220207211202209208209211216201211204199214214209208221204216210206216212211213212201214217206214207207214199208211219190218218211221208211219214218209211221216203211220214211211208210208213207208201196207206203213209208206204206204208208213193211213203194202208207218213206203202208206209206208197203216219209213222206216208203202200解 先从这120个样本值中找出最小值190, 最大值222, 取,5.189=a ,5.222=b 将区间]5.222,5.189[等分成11个小区间, 组距.3=∆t得到分组表及频率直方图.从直方图的形状, 可以粗略地认为该种零件的质量服从正态分布, 其数学期望在209附近.例6 (E05) 随机观察总体X ,得到一个容量为10的样本值:3.2, 2.5, 2-, 2.5, 0, 3, 2, 2.5, 2, 4求X 经验分布函数.解 把样本值按从小到大的顺序排列为 5.25.22202=<=<<-42.335.2<<<= 于是得经验分布函数为,4,142.3,10/92.33,10/835.2,10/75.22,10/420,10/202,10/12,0)(10⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧≤<≤<≤<≤<≤<≤<≤--<=xx x x x x x x x F其中如5.22<≤x 时, 因事件}{x X ≤包含的样本值个数,4=k 故事件}{x X ≤发生的频率为,10/4 从而.10/4)(10=x F注: 经验分布函数)(x F n 是一个阶梯形函数, 当样本容量增大时, 相邻两阶梯的跃度变低, 阶梯宽度变窄, 容易想像, 这样的阶梯形折线几乎就是一条曲线, 如果设总体X 的分布函数为),(x F 则)(x F n 非常接近于).(x F例7(E06) 某厂实行计件工资制, 为及时了解情况, 随机抽取30名工人, 调查各自在一周内加工的零件数, 然后按规定算出每名工人的周工资如下: (单位:元)156 134 160 141 159 141 161 157 171 155 149 144 169 138 168 147 153 156 125 156 135 156 151 155 146 155 157 198 161 151这便是一个容量为30的样本观察值, 其样本均值为:质量1120360/6120/665.222~5.219360/8120/885.219~5.216360/14120/14145.216~5.213360/22120/22225.213~5.210360/23120/23235.210~5.207360/20120/20205.207~5.204360/14120/14145.204~5.201360/7120/775.201~5.198360/3120/335.198~5.195360/2120/225.195~5.192360/1120/115.192~5.189/合计高组频率组频数区间t f h f n i i i i ∆=5.153)151161134156(301=++++=x , 它反映了该厂工人周工资的一般水平.进一步我们计算样本方差2s 及样本标准差,s 由于,7121551511341562223012=+++=∑= i ix所以样本方差为,3278.1825.52871301)30(1301301222=⨯-=--=∑=i i x x s 样本标准差为.50.133278.182==s例8 (E07) (分组样本均值与方差的近似计算) 如果在例7中收集得到的样本观察值用分组样本形式给出(见表A), 此时样本均值可用下面方法近似计算: 以i x 表示第i 个组的组中值(即区间的中点), i n 为第i 组的频率, n nk i ki i==∑=1,,,2,1, 则33.15330460011=≈≈∑=ki i i x n nx 表A 某厂30名工人周平均工资额 4600301951951]200,190(01850]190,180(1751751]180,170(6601654]170,160(217015514]160,150(8701456]150,140(4051353]140,130(1251251]130,120(合计组中值工人数周工资额区间i i iix n x n这与例7的结果差不多. 再求样本方差的近似值, 此时有,9985.17230460071035013011121222≈⎪⎪⎭⎫ ⎝⎛--=⎪⎪⎭⎫ ⎝⎛--≈∑=k i i i x n x n n s 而样本标准差为,15.139985.172=≈s 其结果与例7的结果相差也不大.注:上述样本均值的表示式也可改写为,1∑==ki i i x n n x 称为加权平均, nni 称为 ),,2,1(k i x i =的权.例9 (E08) 设我们获得了如下三个样本:样本A : 3,4,5,6,7;样本B : 1,3,5,7,9; 样本C : 1,5,9如果将它们画在数轴上(如图), 明显可见它们的“分散”程度是不同的: 样本A 在这三个样本中比较密集, 而样本C 比较分散.这一直觉可以用样本方差来表示. 这三个样本的均值都是5, 即,5===C B A x x x 而样本容量,3,5,5===C B A n n n 易得,5.2])57()56()55()54()53[(151222222=-+-+-+-+--=A s同理易得.16,1022==C B s s由此可见222AB C s s s >>, 这与直觉是一致的. 由于样本方差的量纲与样品的量纲不一致, 故常用样本标准差表示分散程度, 易求出 ,4,16.3,58.1===C B A s s s 同样有.A B C s s s >>由于样本方差(或样本标准差)很好地反映了总体方差(或标准差)的信息, 因此, 当方差2σ未知时, 常用2S 去估计, 而总体标准差σ常用样本标准差S 去估计.课堂练习一组工人完成某一装配工序所需的时间(分)分别如下:35 38 44 33 44 43 48 40 45 30 45 32 42 39 49 37 45 37 36 42 35 41 45 46 34 30 43 37 44 49 36 46 32 36 37 37 45 36 46 42 38 43 34 38 47 35 29 41 40 41(1) 将上述数据整理成组距为3的频数表,第一组以27为起点; (2) 绘制样本直方图; (3) 写出经验分布函数.。