数理统计第一章
- 格式:doc
- 大小:962.00 KB
- 文档页数:27
高等数理统计笔记高等数理统计笔记第一章:概率论基础1.1 概率的引入1.2 概率的公理化定义1.3 概率的基本性质1.4 条件概率与独立性1.5 全概率公式与贝叶斯公式1.6 随机变量的引入与分布函数1.7 随机变量的分布函数及其性质1.8 随机变量的密度函数及其性质1.9 随机变量的数字特征第二章:多维随机变量及其分布2.1 二维随机变量及其联合分布函数2.2 二维随机变量的联合密度函数及其性质2.3 二维随机变量的条件分布函数及其性质2.4 二维随机变量的条件密度函数及其性质2.5 相互独立的随机变量2.6 随机变量的函数的分布及其性质2.7 两个随机变量的和的分布及其性质第三章:大数定理与中心极限定理3.1 大数定理的概念3.2 切比雪夫不等式3.3 伯努利大数定理3.4 辛钦大数定理3.5 中心极限定理的概念3.6 李雅普诺夫中心极限定理3.7 林德贝格-列维中心极限定理3.8 中心极限定理的应用第四章:参数估计4.1 点估计的概念与性质4.2 最大似然估计法4.3 矩估计法4.4 经验分布函数与分位数的估计4.5 贝叶斯估计第五章:假设检验5.1 总体均值检验的基本知识5.2 单个总体均值的假设检验5.3 单个总体比例的假设检验5.4 两个总体均值的假设检验5.5 两个总体比例的假设检验5.6 方差的假设检验5.7 单个总体分布的非参数检验5.8 两个总体分布的非参数检验第六章:方差分析与回归分析6.1 方差分析的基本概念6.2 单因素方差分析6.3 多因素方差分析6.4 回归分析的概念与简单回归6.5 最小二乘估计法6.6 多元回归分析第七章:统计抽样与抽样分布7.1 抽样调查的概念与方法7.2 抽样分布及其基本性质7.3 样本均值的分布7.4 样本平均数与总体均值的关系7.5 样本方差与总体方差的关系7.6 样本比与总体比的关系第八章:贝叶斯统计推断8.1 贝叶斯定理及其含义8.2 贝叶斯估计量的概念与性质8.3 最大后验概率估计8.4 确定性问题的贝叶斯推断方法第九章:序贯统计与时间序列分析9.1 序贯统计的概念与应用9.2 时间序列的基本概念与应用9.3 平稳序列与非平稳序列的区别9.4 自相关函数与自协方差函数9.5 平稳序列的谱分析9.6 自回归模型与移动平均模型9.7 估计方法与模型诊断第十章:非参数统计方法10.1 非参数统计的基本概念10.2 秩和检验10.3 秩和检验的应用10.4 秩次相关检验10.5 Friedmann检验10.6 克鲁斯卡尔-华里斯检验以上是一份高等数理统计的笔记,涵盖了概率论基础、多维随机变量及其分布、大数定理与中心极限定理、参数估计、假设检验、方差分析与回归分析、统计抽样与抽样分布、贝叶斯推断、序贯统计与时间序列分析、非参数统计方法等内容,共计6000字。
第一章:统计量及其分布19.设母体ξ服从正态分布N(),,2σμξ和2n S 分别为子样均值和子样方差,又设()21,~σμξN n +且与n ξξξ,,,21 独立, 试求统计量111+--+n n S nn ξξ的抽样分布. 解: 因为ξξ-+1n 服从⎪⎭⎫⎝⎛+21,0σn n N 分布. 所以()1,0~121N nn n σξξ+-+ 而()1~222-n nS nχσ且2n S 与ξξ-+1n 独立,, 所以()1~1111--÷+--+n t S n n n n S nnn σξξ分布. 即111+--+n n S nn εε服从()1-n t 分布. 20.(),,,1,,n i i i =ηξ是取自二元正态分布N()ρσσμμ222121,,,的子样,设()∑∑∑===-===n i i i ni n i i n S n n 12111,1,1ξξηηξξξ2,()2121∑=-=n i i n S ηηη和 ()()()()∑∑∑===----=ni i ni ii ni ir 12211ηηξξηηξξ试求统计量()122221--+---n S rS S S ηξηξμμηξ的分布.解: 由于().21μμηξ-=-E ()()=-+=-ηξηξηξ,c o v 2D D D nn nn2122212σσρσσ-+.所以()()n 212221212σρσσσμμηξ-+---服从()1,0N 分布 .()()()()()()()[]211212121222122ηξηξηηξξηηξξ---=----+-=-+∑∑∑∑====i ini i i ni i ni i ni S rS S S ni i ηξ-是正态变量,类似于一维正态变量的情况,可证ηξηξS rS S S 222-+与ηξ-相互独立.()()1~22221222122--+-+n S rS S S n χσρσσσηξηξ, 所以 统计量()122221--+---n S rS S S ηξηξμμηξ()()()()1)2(222122212221222121--+-+-+---=n S rS S S n nσρσσσσρσσσμμηξηξηξ服从()1-n t 分布.第二章:估计量1. 设n ξξ,,1 是来自二点分布的一个子样,试求成功概率p 的矩法估计量.解: p E =ξ ξ=∴pˆ 3. 对容量为n 的子样,求密度函数()()⎪⎩⎪⎨⎧<<-=其它,00,2;2ax x a a a x f 中参数a 的矩法估计3. 对容量为n 的子样,求密度函数 ()()⎪⎩⎪⎨⎧<<-=其它,00,2;2ax x a a a x f 中参数a 的矩法估计量. 解: ()322adx x a ax E a=-=⎰ξ 令ξ=3a 得ξ3ˆ=a . 4. 在密度函数 ()()10,1<<+=x x a x f a中参数a 的极大似然估计量是什么? 矩法估计量是什么? 解: (1) ()()()∏∏==+=+=ni i ni nni x x L 111ααααα ()i i x ∀<<1∴()().ln 1ln ln 1⎪⎪⎭⎫⎝⎛⋅++=∏=n i i x n L ααα令()0ln 1ln 1=++=∂∂∑=i ni x nL ααα, 得 ∑=--=ni iL xn1ln 1ˆα。
数理统计学•主讲人: 沈玉波•办公室地址: 校本部,大黑楼B1005•办公室电话: 84708351-8205•E-mail: shenyubo@•大连理工大学概率统计教研室常见的离散型随机变量1.二项分布:()p B ,”分布“11-0=()为参数为自然数,其中10<<p n ().的二项分布,服从参数为则称随机变量p n X 显然,当n=1 时()()n k p p C k X P kn kk n,,, 101)(=-==-()p n B X ,记作~如果随机变量X 的分布律为()∑=--nk kn kknp p C1()[]11=-+=np p4.帕斯卡分布(负二项分布)如果随机变量X 的分布律为(),,21,)1()(11++=-==---r r r k pp C k X P rrk r k ()为常数其中10<<p 则称随机变量X 服从参数为r , p 的帕斯卡分布.)B(r,~p N X 记为:1)独立重复试验,第r 次成功时实验次数的分布律。
则独立同分布,且已知),(~,,,)221p G X X X X i r ),(~21p r NB X X X r +++1. 概念设X 是一个随机变量,x 是任意实数,函数)()(x X P x F ≤=称为X 的分布函数.2. 分布函数的性质1)(0,)1≤≤∈x F R x 1)(lim )(,0)(lim )()2==∞==-∞∞→-∞→x F F x F F x x 分布函数.)(),()0()5是右连续的即x F x F x F =+3) F (x ) 是一个不减的函数.)()(}{)41221x F x F x X x P -=≤<。
概率论与数理统计第一章习题参考答案第一章随机事件及其概率1.解决方案:(1)s??2,3,4,5,67? (2) s??2,3,4,?? (3) s??h、 th,tth,??(4)s??hh,ht,t1,t2,t3,t4,t5,t6?2.解:?p(a)?14,p(b)?12,p(ab)?1814? 12? 18? 58? p(a?b)?p(a)?p(b)?p(ab)?p(ab)?p(b)?p(ab)=?p(ab)?1?p(ab)?1?1812??7818?38p[(a?b)(ab)]?p[(a?b)?(ab)]p(ab)p(ab)(abab)5818123.解决方案:使用a表示事件“获得的三位数不包含数字1”P(a)?C8C9C990011?8.9? 9900? 一千八百二十五4、解:用a表示事件“取到的三位数是奇数”,用b表示事件“取到的三位数大于330”(1)p(a)?c3c4c4ca121525111?3?4?45?5?41=0.482) p(b)?c2a5?c2c4c5a5121?2.5.4.1.2.45? 5.4=0.485、解:用a表示事件“4只中恰有2只白球,1只红球,1只黑球”,用b表示事件“4只中至少有2只红球”,用c表示事件“4只中没有只白球”(1)p(a)?c5c4c3c12132114=1204954=833(2) p(b)?1.c4c8?c8c412=202195?67165或p(b)?c4c8?c4c8?c4c41222314?67165一(3)p(c)?c7c4412?35495?7996.解决方案:使用a表示事件“在特定销售点获得的K提单”P(a)?cn(m?1)mnkn?K7、解:用a表示事件“3只球至少有1只配对”,用b表示事件“没有配对”(1)p(a)?(2)p(b)?3?13?2?12?1?13?2?1??2313或p(a)?1?2.1.13? 2.1.238、解p(a)?0.5,p(b)?0.3,p(ab)?0.1p(ab)p(b)p(ab)p(a)(1)p(ab)??0.10.30.10.5? 1315,p(ba)p(a?b)?p(a)?p(b)?p(ab)?0.5? 0.3? 0.1? 零点七p[a(a?b)]p(a?b)p(a?ab)p(a?b)p(ab)p(a?b)p(aa?b)p(ab)p(a?b)0.10.717?0.50.7?57 p(aba?b)?p[(ab)(a?b)]p(a?b)p(ab)p(ab)p(aab)?p[a(ab)]p(ab)??1(2)设定人工智能??第一次拿到白球?我1,2,3,4则p(a1a2a3a4)?p(a1)p(a2a1)p(a3a1a2)p(a4a1a2a3)?611?712?513?412?84020592?0.04089.解决方案:用a表示“两个球中至少有一个红球”,用B表示“两个都是红球”。
第一章 数理统计的基本概念数理统计与概率论一样,也是研究随机现象统计规律性的一门数学学科.概率论主要研究在已知随机变量服从某种分布的情况下,讨论随机变量的性质、数字特征、随机变量序列的极限等.但是,对实际问题中的一个随机变量来说,如何判断它服从某种分布,如果知道它服从某种分布,又该如何确定其中的参数,这些问题概率论都没有涉及,它们都是数理统计研究的内容.并且这些问题的研究都直接或间接建立在试验的基础上.数理统计学就是利用概率论的理论,对要研究的随机现象进行多次独立重复的观察或试验,研究如何合理地获得数据,如何对所获得的数据进行整理、分析,如何对关心的问题进行估计或推断的一门数学学科.数理统计由基本原理和应用方法两大内容组成.本章介绍数理统计的基本概念和抽样分布.§1.1 基本概念一、总体与样本用数理统计研究某个问题时,把研究对象的全体称为总体(或母体),而把每一个研究对象称为个体.例如,一批灯泡的全体就组成一个总体,其中每一个灯泡是一个个体.再例如,一群人(一个班或一个年级)的全体就组成一个总体,其中每一个人是一个个体.在数理统计中,我们关心的并不是组成总体的各个个体本身,而是与它们的性能相联系的某个数量指标或者多个数量指标.例如,在研究一批灯泡组成的总体时,可能关心的是灯泡的使用寿命这个数量指标.再例如,在研究一群组成的总体时,可能关心的是人的身高和体重等多个数量指标.因此,总体可以认为是研究对象的全体的一个或多个数量指标.在研究一批灯泡组成的总体时,可能关心的是灯泡的使用寿命的分布情况.由于任何一个灯泡的寿命事先是不能确定的.而每一个灯泡都确实对应着一个寿命值,所以我们可认为灯泡寿命是一个随机变量.也就是说,我们把总体与一个随机变量(如灯泡寿命)联系起来.因此,对总体的研究就转化为对表示总体的随机变量的统计规律的研究,所以,今后我们说到总体,指的是一个具有确定概率分布的随机变量(但它的分布又是未知的或至少分布的某些参数是未知的),而每个个体则是随机变量可能取的每一个数值.为了推断出这批灯泡的使用寿命的分布(或这批灯泡的次品率),最精确的办法就是把每个灯泡的使用寿命都测试出来.然而,寿命试验是破坏性试验,即使是非破坏性试验,考虑到试验要花费时间、人力和钱,我们只能从总体中抽取一部分(个个体)进行试验(称这个个体为容量是的样本),试验结果可得一组数值,其中是第i 个个体的试验结果,我们要根据这组数值对总体n n n ),,,(21n x x x L i x ξ进行推断,这样对试验的抽取方式就有一定的要求.首先,要求抽取必须是随机的,即每次每个个体被抽到的机会是等可能的,这样被抽到的个体才具有代表性,即每每次抽取的都具有总体的特征.其次,抽取必须是独立的、即每次抽取互不影响.也就是每次抽取后不能改变总的成分,这就要求.如果试验是非破坏性的,那么抽取时应该是有放回的;如果试验是破坏性的,那么总体应该是无限的.或是很大的.满足以上两个条件的抽取方式称为简单随机抽样.用简单随机抽样方法对—次抽取个个体的试验结果而言是一组数值,但是它又随着每次抽样的不同而变化,因此,实际上是维随机变量n ),,,(21n x x x L n ),,,(21n x x x L ),,,(21n ξξξL 的一次观察值.即在抽样试验之前,将要抽取的样本可以认为是维维随机变量n ),,,(21n ξξξL n ξξξ,,,21L .又因抽样具有代表性和独立性,所以是相互独立同分布随机变量,每个都与总体ξ同分布的.我们称),,,(21n ξξξL 为总体ξ的容量为的简单随机样本,简称为样本.抽样试验后的结果称为样本n ),,,(21n x x x L ),,,(21n ξξξL 的观察值.由所有样本值组成的集合ℵ称为样本空间.),,,(21n ξξξL 设总体ξ的分布函数,则)(x F ξ的联合分布函数为的样本,1x ),,,(),,(22112n n n x x x P x x F =ξ<ξ<ξ<L L .∏∏===<=ni i ni i ix F x P 11)()(ξ),,,(21n ξξξL )(x ϕξ为连续型随机变量,且有密度函数为.则其样本如果总体为n 维连续型随机变量,且联合密度函数为:∏==ni i n x x x x 121)(),,,(ϕϕL .i i p a P ==)(ξL ,2,1=i ξ为离散型随机变量,且分布律为,,则其样本如果总体),,,(21n ξξξL 为维离散型随机变量,且联合概率函数为:n ∏======ni i n n x P x x x P 12211)(),,,(ξξξξL ,其中,.L ,,21a a x i =n i ,,2,1L = 例1 设总体,求样本),(~2σμξN ),,,(21n ξξξL 的联合密度函数.),,,(21n ξξξL 解: 样本的联合密度函数为∏=−−=ni x i e12)(2221σμσπ∏==ni i n x x x x 121)(),,,(ϕϕL∑⎟⎠⎞⎜⎝⎛==−−ni i x n e122)(2121μσσπ. 例2 设总体),(~p N B ξ,即,,.求总体k N kk N p p C k P −−==)1()(ξN k ,,1,0L =),,,(21n ξξξL 10<<p ξ的联合分布律.的样本),,,(21n ξξξL 的联合分布律为解: 样本∏===ni i x P 1)(ξ),,,(2211n n x x x P ===ξξξL. ∏=−∑−∑===ni x N x nN x i ni ini iC p p111)1(∏=−−=ni x N x x Niii p p C 1)1(二、统计量从总体中抽出样本的观测值后,只是得到了一组静态的数据.对于这些数据要进行处理,才能解决我们所关心的问题.有时候我们可能只想估计出总体的期望或者方差,有时候我们可能想了解总体的分布,对于不同的问题,必须对数据进行不同的处理,这就需要构造样本的不同函数.样本的函数常称为统计量.),,,(21n T ξξξL n ξξξ,,,21L n ξξξ,,,21L ξ定义: 设为取自总体的一个样本,样本的函数,且不含未知参数,则称),,,(21n T ξξξL 为统计量.如果是样本),,,(21n x x x L ),,,(21n x x x T L ),,,(21n ξξξL 的一个观测值(观察值),则称是统计量),,,(21n T ξξξL 的一个观测值(观察值).例3 设总体,),(~2σμξN μ未知,为已知,2σ),,,(21n ξξξL ξ为的一个样本,则∑=n i i 121ξσ是统计量.而∑不是统计量.=−ni i12)(μξn ξξξ,,,21L 根据统计量的定义,它是随机变量的函数,因此统计量也是一个随机变量,它也有概率分布.统计量的分布称为抽样分布.但要注意,尽管一个统计量不合任何未知参数,但它的分布却可能含有未知参数.例4 设621,,,ξξξL 是来自),0(θ上的均匀分布的样本,0>θ未知.指出下列样本函数中哪些是统计量,哪些不是?为什么?66211ξξξ+++=L T θξ−=62T 163EX T −=ξ},,,max{6214ξξξL =T ,,,.解:和是,和不是.因为和中不含总体中的未知参数1T 4T 2T 1T 4T 3T θ,而和中含有未知参数2T 3T θ.常用统计量n ξξξ,,,21L ξ设为取自总体的一个样本,∑==+++=ni i n n n 1211)(1ξξξξξL (1)样本均值:;[]∑∑==−=−=−++−=n i i n i i n n n n S 1221222121)(1)()(1ξξξξξξξξL (2)样本方差:;∑∑==−−−=−−=n i i n i i n n n n S 122122*111)(11ξξξξ(3)修正样本方差:;∑=−=ni i n S 12)(1ξξ; (4)样本标准差:∑=−−=ni i n S 12*)(11ξξ(5)修正样本标准差:; ∑===n i ki kk n A 11ξξL ,2,1=k (6)样本k 阶原点矩: , ;∑=−=n i ki k n B 1(1ξξL ,3,2=k (7)样本k 阶中心矩: .,若是样本),,,(21n x x x L ),,,(21n ξξξL 的一组观测值,则∑=−=n i i x x n s 12)(1∑=−=n i i x x n s 122(1∑=−−=n i i x x n s 122*(11∑==n i i x n x 11、、、、∑=−−=n i i x x n s 12*)(11∑===n i k i kk x n x a 11∑=−=n i k i k x x n b 1)(1、、 分别是样本均值、样本方差、修正样本方差、样本标准差、修正样本标准差、样本k 阶原点矩、样本k 阶中心矩的.例5 从—批机器零件毛坯中随机招取8件,测得其重量(单位:kg)为230,243,185,240, 228,196,246,200.求样本均值、样本方差和样本二阶原点矩的观测值.221)200246196228240185243230(8111=+++++++==∑=n i i x n x 解:;[]25.495)221200()221243()221230(81)(1222122=−++−+−=−=∑=L n i i x x n s ;25.49336)200243230(811222122=+++==∑=L n i i x n x 。
第一章随机事件及概率1.1随机事件1.1.1随机试验一、人在实际生活中会遇到两类现象:1.确定性现象:在一定条件下实现与之其结果。
2.随机现象(偶然现象):在一定条件下事先无法预知其结果的现象。
二、随机试验满足条件:1.实验可以在相同条件写可以重复进行;(可重复性)2.事先的所有可能结果是事先明确可知的;(可观察性)3.每次实验之前不能确定哪一个结果一定会出现。
(不确定性)1.1.2样本空间1.样本点:每次随机试验E 的每一个可能的结果,称为随机试验的一个样本点,用w 表示。
2.样本空间:随机试验E 的所有样本点组成的集合成为试验E 的样本空间。
1.1.3随机事件1.随机事件:一随机事件中可能发生也可能不发生的事件称为试验的随机事件。
2.基本事件:试验的每一可能的结果称为基本事件。
一个样本点w 组成的单点集{w}就是随机试验的基本事件。
3.必然事件:每次实验中必然发生的事件称为必然事件。
用Ω表示。
样本空间是必然事件。
4.不可能事件:每次试验中不可能发生的事件称为不可能事件,用空集符号表示。
1.1.4事件之间的关系和运算1.事件的包含及相等“如果事件A 发生必然导致事件B 发生”,则称事件B 包含事件A ,也称事件A 是B 的子事件,记作A B B A ⊃⊂或。
2.事件的和(并⋃)“事件A 与B 中至少有一个事件发生”,这样的事件称为事件A 与B 的和事件,记作B A 。
3.事件的积(交⋂)“事件A 与B 同时发生”,这样的事件称作事件A 与B 的积(或交)事件,记作AB B A 或 。
4.事件的差“事件A 发生而事件B 不发生”,这样的事件称为事件A 与B 的差事件,记作A-B 。
5.事件互不相容(互斥事件)“事件A 与事件B 不能同时发生”,也就是说,AB 是一个不可能事件,即=AB 空集,即此时称事件A 与事件B 是互不相容的(或互斥的)6.对立事件“若A 是一个事件,令A A -Ω=,称A 是A 的对立事件,或称为事件A 的逆事件”事件A 与事件A 满足关系:=A A 空集,Ω=A A 对立事件一定是互斥事件;互斥事件不一定是对立事件。
第1章抽样调查§1.1 引言数理统计学是数学的一个重要分支.它研究怎样有效地收集、整理和分析带有随机性的数据,以对所考查的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议.若在以上句子中去掉“带有随机性的”这几个字,那就是统计学的研究范围.统计学就是数据科学(《数理统计学讲义》,高教出版)。
数理统计学是这样一门学科:它使用概率论和数学的方法,研究怎样收集(通过试验和观察)带有随机误差的数据,并在设定的模型下(称为统计模型)之下,对数据进行分析(称为统计分析),以对所研究的问题作出推断(称为统计推断)(《概率论与数理统计》,中科大出版,陈希孺).由以上关于数理统计学的概念的阐述可以看出数理统计面对的对象就是数据,而数据的“质量”对最终的得出的结论的可靠性有着重大影响.对于普查的数据,数据的有效性、准确性很重要(这类数据的研究不属于数理统计学的范畴).对于抽查数据,数据的概率性质很重要.本章简要地介绍抽样调查的一些概念和技术以及相关理论.在数理统计学中还有另一种获取数据的方法--试验设计(将在后面介绍).抽样调查是从总体中抽取一小部分个体以获取总体的有关信息.根据研究对象即总体的不同特点需要设计不同的抽样方法以获取高“质量”的数据.抽样技术在很多领域都有应用.抽样技术本质上具有概率性—总体中每个个体都以特定的概率出现在样本中(简称为入样),并且样本的实际构成是随机的. 随机抽样至少有以下的益处:∙ 抽取个体的随机性排除了调查者的偏见,即使是无意识的。
∙ 与完全枚举(即普查)相比,小样本减少很多成本,调查更省时。
∙随机抽样的结论实际上可能比完全枚举更精确。
小样本的数据质量更容易监控,完全枚举需要大量的调查人员去实施,由此可能带来更多业务不精的职员。
∙ 随机抽样技术使得抽样误差估计变得可能。
∙ 在抽样设计时,通常可以确定出满足预设误差水平的样本容量。
以上的讨论中涉及“总体”和“个体”和“样本”三个名词.总体指研究对象的全体.而组成总体的各个成员称为个体.依总体中个体数有限和无限,总体分为有限总体和无限总体.本章讨论的总体都是有限总体.在具体的统计问题中,我们总是关注总体中成员的某项(或多项)数量指标.总体中的N 个成员的数量指标值记为N x ,,x ,x 21.如果将总体中的成员依据某一属性分成r 类,我们可以用数值r ,, 1(或11,0-r ,, )分别代表各个类别(称为分类数据或属性数据),最常见的是分为二类(比如正品与次品,男性与女性),我们称之为二分变量.例1.1 作为本章的第一个例子,我们利用Herkson(1976)的研究来解释一些思想.总体由393=N 个短期居留医院组成.我们关注于医院一个月内出院人数.令i x 表示1968年1月份第i 个医院的出院人数,那么总体为39321x ,,x ,x .总体均值为6.814,总体标准差为7.589.总体的数值都是知道的,我们可通过频数直方图显示总体数值的分布,见P139图7.1.这里举这个例子是为了教学目的,后面还会用这个例子来说明一些方法和思想.实际中,我们往往是不知道总体的数值,而是希望通过抽样而获得的数据去了解总体的信息,比如估计总体均值等.在统计问题中,我们特别关注的是总体的一些数值特征,或参数. 总体均值(population mean )∑==Ni ix N 11μ 在分类数据中,各类别的比例.总体总数(population total)∑==Ni i x 1τ总体方差(population variance)∑==N i i 2)-x(N 121μσ在二分情况下,总体方差为p)p -1(.总体标准差(population standard deviation)2σσ=.一般地,总体的特征数(或参数)是未知的,而我们要做的工作就是通过观察到的数据即样本来获取总体参数的信息.样本是指按照一定的抽样方案(或试验方案)从总体中抽取的若干个个体.由于抽取个体的目的是要调查其某项(或多项)数量指标,因此所得的样本表现为抽取的各个个体的数量指标。
记它们的数量指标为n X ,,X 1.我们称n X ,,X 1为样本,抽取的个体数n 称为样本容量. 由于抽样是随机安排的,因此n X ,,X 1是n 个随机变量(或向量).它们的联合分布依赖于总体的分布及抽样方案.抽样观察完成后便得到n 个具体的观察值n x ,,x 1,称n x ,,x 1为样本值, )x ,,(x n 1是)X ,,(X n 1的一次实现.以后样本值简称为样本,因此以后说到样本可以是n 个随机变量,也可以是n 个的观察值,这就是所谓的样本的二重性.在不会引起混淆时都用n x ,,x 1表示样本.§1.2 简单随机抽样最初级的抽样方法是简单随机抽样:每个个体都以相同的概率入样.简单随机抽样有放回的简单随机抽样(也称为有重复简单随机抽样)和不放回的简单随机抽样(也称为无重复简单随机抽样)两种方式.有放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有(1) 各个i X 具有相同的分布;(2) n X ,,X 1相互独立.不放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有(1)各个i X 具有相同的分布;(2)n X ,,X 1不相互独立. 任意指定的n 个个体组成样本的概率均为n NC 1。
两种方式下的样本的第一条概率特性相同,这是由“每个个体都以相同的概率入样”的缘故.一般而言,简单随机抽样都是指不放回的随机抽样.这里引入有放回的随机抽样是因为(1)放回的随机抽样的样本的概率性质更为简单;(2)给不放回的随机抽样提供一个比较对象.例如,若总体中N 个个体的数量指标值N x ,,x ,x 21各不相同,那么i X 的概率质量函数为 N ,,,j ,N)x X P(j i 211=== 若总体中N 个个体的数量指标值有相同的,各个体的不同取值记为m 1,ςς ,,且取值j ς的个体数为j n )m ,,,j ( 21=,那么i X 的概率质量函数为 m ,,,j ,N n )X P(jj i 21===ς若总体为二分变量,那么i X ~)p ,(B 1,其中p 总体中取值为1的个体的比例.我们往往关心总体均值、总体总数、总体方差等总体参数的估计,通常用样本均值(sample mean ) ∑==n i i X n X 11 作为总体均值μ的估计.作为总体总数的一个估计,我们考虑X N T =由于样本n X ,,X 1是随机的,所以样本均值X 也是随机的,它的概率分布称为抽样分布.X 的抽样分布决定了X 估计μ的精度,粗略地讲,抽样分布越紧密地集中在μ附近,估计越好.例1.2 为了解释抽样分布的概念,我们再一次考虑393个医院的总体.当然,在实践中,总体是未知的.出于教学的目的,我们考如来自这个总体的样本均值的抽样分布.例如,假如我们想寻找容量为16的样本均值的抽样分布,原则上,我们可以得到所有的16393C 个样本,并计算每个样本的均值.但是这样的样本个数是2810阶,这显然是不可行的.因此我们利用称之为模拟的技术.我们抽取很多个容量同为n 的样本,计算均值,然后绘制其直方图,用以估计抽样分布.图7.2(见P141)显示了样本容量为32,16,8和64的500次模拟结果.值得注意的是该图的三个特征:1. 所有的直方图集中在总体均值6.814上.2. 随着样本容量的增加,直方图发散程度降低.3. 尽管总体直方图(图7.1)关于均值不对称,但图7.2的直方图接近于对称.一般而言,得出X 的精确抽样分布很困难.下面计算X 的期望、方差,以了解该估计量的统计性质,并由此看出该估计的优良性. 首先在简单随机抽样下,i X 的期望、方差分别为 μςςς====∑∑==m j j j mj j j j i n N )(X P )E(X 111 211)(σμς==∑=m j 2j j i -(n N X Var ) 以上性质无论放回抽样还是不放回抽样都成立,但对于协方差)X ,X Cov j i ((j i ≠)会不一样,在放回抽样时)X ,X Cov j i (0=;而不放回抽样时,)X ,X Cov j i (12--=N σ,由以上讨论易得性质1.2.1 简单随机抽样下, τμ==)T (E )X E(要注意的是,由于X 是随机的,结论μ=)X (E 可以解释“平均地”μ=X .一般地利用样本构造的统计量θˆ估计总体参数θ时,如果无论θ取何值,总有θθ=)(E ˆ,我们称θˆ为θ的无偏估计.因此X 是μ的无偏估计.但这并不意味着X 会恰好等于μ,X 与μ总会有偏差的,为此还需考验该估计的精度.一般地我们可用均方误差2)ˆˆθθθθ-=(E ),MSE( 来衡量估计的精度.称),MSE(θθˆ为标准误差.易得2)ˆˆˆθθθθθ-+=E ()ar(V ),MSE( θθ-)(E ˆ称为偏差或偏倚.若θˆ为θ的无偏估计,那么 )ar(V ),MSE(θθθˆˆ= 性质1.2.2 在简单随机抽样下,(1) 若放回抽样,则 n )X Var(2σ=, n X σσ= 22σn N )T (Var =,nN T σσ= (2) 若不放回抽样,则)111(2---=N n n )X Var(σ )111(22---=N n n N )T (Var σ, (3)在二分情形下,p )X E(=,n)p -(p )X (Var 1=,(放回抽样时) )1111---=N n (n )p -(p )X (Var ,(不放回抽样时) 可以看出,样本均值的精度与n 和σ有关,两种抽样方式X 的方差相差一个因子1111--=---N n N N n 称它为有限总体校正.比值N n 称为抽样比例,若抽样比例非常小时 111---N n 1≈ 两种抽样方式下样本均值的方差差别不大.例1.3 如果无重复地抽取医院总体,样本容量为32=n ,那么样本均值的标准差为392311327.58911132)(-=---==N n X Var X σσ 0.10096.02.104=⨯= 为了说明0.100=X σ是精度合理的度量,再次审视图7.2b,观测到大部分样本均值在总体均值(814)的2倍标准误差之内,也就是说大部分样本均值在)1014,614(内. 例1.4 在医院总体中,小于1000个出院人数的比例是654.0=p .如果利用样本比例pˆ估计这个总体比例,可得该估计的标准误差为08.096.032346.0654.0111)1(ˆ=⨯⨯=----=N n n p p p σ 总体方差2σ是一个重要的总体参数,也需要通过样本对其作出估计,并且由上面的讨论可看出样本均值作为总体均值的估计时,其精度与总体方差有关,在实现中总体方差未知,我们可由样本对其作出估计,从而对样本均值作为总体均值的估计时的精度作出评估. 下面是一个常用的2σ的估计量 ∑==n i i 2)X -X (n 121ˆσ 性质1.2.3 在简单随机抽样下,(1) 若放回抽样,则 n )n ()E(221ˆσσ-= (2) 若不放回抽样,则 )11ˆ22-N N (n )n ()E(σσ-= 由此可见2ˆσ是2σ的有偏估计,而且总有 22ˆσσ<)E( 也即该估计系统地偏小,为了具有无偏性,我们可对以上估计作如下修正∑==ni i )X -X (-n S 12211,(放回抽样时), 21221111~S N-N )X -X ()N -N (-n S n i i ==∑=,(不放回抽样时), 从无偏性角度,2S (或2~S )优于2ˆσ.但从均方误差准则角度,2σˆ往往优于2S (或2~S ).在实际中人们往往不希望把总体方差估计得偏小,因此总体方差的估计常用2S (或2~S ).我们易得下面结论 性质1.2.4 样本均值X 的方差)X (Var 的无偏估计为 n S S 22=,(放回抽样时), )Nn (n S S 2X -=1~2,(不放回抽样时) 性质 1.2.5 在二分总体中,p 的估计X p=ˆ的方差)p (Var ˆ的无偏估计为 1ˆ1ˆˆ-n )p -(p S 2p =,(放回抽样时), )N n (-n )p -(p S 2p -=11ˆ1ˆˆ,(不放回抽样时) 如果我们知道了实际的总体方差2σ,那么可用σ来度量p,X ˆ的估计精度;如果总体方差2σ未知(实际中2σ通常未知),那用估计的标准误差替代他们,这是通常的做法.例 1.5 从医院总体中抽取一个样本容量为50的样本,并算得样本均值为5.938=x ,标准差为53.614=s .那么可得样本均值X 的方差的估计为 )1(ˆ22N n n s X-=σ6592= X 的估计标准误差是 19.81ˆ=X σ注意,真正的标准误差是 78392491507.589)(=-==X Var X σ例1.6 令p 为出院人数少于1000人的医院比例,从医院总体中抽取一个样本容量为50的样本,其中有26个医院出院人数少于1000.那么p 的估计值为52.05026ˆ==ppˆ的方差的估计为 0045.0)1()ˆ1(ˆˆ2ˆ=--=Nnn p p p σ pˆ的估计标准误差为 067.0ˆˆ=p σ以上例子说明通过简单随机抽样不仅可以得到未知的总体参数的估计,还可以利用样本数据的估计的标准误差刻画估计的误差水平.总结如下表:前面己经讨论了样本均值X 的期望与方差,在理想情况下,我们想知道X 的抽样分布,这样做就可以告诉我们估计精度的一切特征.然而,在没有总体本身的信息时,我们是不能确定抽样分布的.但由中心极限定理我们可以导出其近似分布----正态分布,这种近似可以用来计算估计误差的概率限.若随机变量序列 ,X ,,X ,X n 21独立同分布,且期望,EX i μ=方差2σ=i VarX ,记∑==ni i n X n X 11,那么中心极限定理知nX n /σμ-依分布收敛于标准正态分布)1,0(N .也即当n 充分大时,n X 近似服从正态分布)/,(2n N σμ.由以上结论可知,若n X ,,X ,X 21是从某总体中按放回的简单随机抽样方法得到的样本,总体均值和方差分别为μ和2σ,那么当样本容量n 充分大时,X 近似服从正态分布)/,(2n N σμ.若n X ,,X ,X 21是从某总体中按不放回的简单随机抽样方法得到的样本,此时情况所有不同,诸i X 并不独立,且让样本容量n 趋于无穷是没有意义的.但是当样本容量n 很大,且相对于N 仍很小时,X 近似服从正态分布),(2N σμ.由以上的近似分布,我们可以近似地计算用X 估计μ时误差小于某常数δ的概率)|δμ<-X P(|, )|δμ<-X P(|12-Φ≈)(Xσδ, 或)|δμ>-X P(|]1[2)(XσδΦ-≈ 例1.7 再次考虑医院总体,容量为64的样本均值的标准差为 5.67392631647.589)(=-==X Var X σ那么样本均值X 近似服从正态分布)5.67,(2μN ,这里814=μ为总体均值.由此可近似地计算出样本均值与总体均值的绝对偏差在100以上的概率)100|>-μX P (|138.0]5.671001[2=Φ-≈)(例1.8 续例1.6 p 的真实值为6540.,p 的估计值为520ˆ.p=,两者差距为134.0|ˆ=-p p|,下面近似计算两者的绝对偏差超过134.0的概率. 由于pˆ近似服从正态分布)064.0,(2p N ,因而 )134.0|ˆ>-p pP(|04.0]064.0134.01[2=Φ-≈)( 我们看到这样的样本非常“不幸”,超过这个误差的发生几率仅是4%.§1.3 比例的估计上一节简单随机抽样奠定了抽样调查的理论基础.在此基础上,这一节和下一节介绍抽样调查的一些高深话题.这一节,我们考虑比例估计,假设观察到总体成员的两个数值x 和y .感兴趣的是比例xy Ni iNi ixy r μμ==∑∑==11 这里∑==Ni i y y N 11μ,∑==N i i x x N 11μ比例在抽样调查中经常出现.例如,如抽取家庭,可以计算下面的比例:如果y 是家庭中年龄为20-30岁的失业男性人数,x 是家庭中年龄为20-30岁的男性人数,那么r 是年龄为20-30岁的男性失业比例. 如果y 是周食品消费支出,x 是家庭成员数,那么r 是人均家庭周食品消费支出.在农业调查中,y 可能是种植小麦亩数,x 是所有的亩数.等等. 下面考虑比例的估计问题,设有样本n ,,,i ),Y ,X i i 21=(,很自然地利用XYR =估计r .我们希望能推导出该估计量的期望E(R)和方差)R (Var 的表达式.但是由于R 是X 和Y 的非线性函数,得出期望E(R)和方差)R (Var 的显出表达式行不通.但可以得到他们近似式,下面不加证明地给出结论.性质1.3.1 在简单随机抽样下,XYR =的近似方差为 )r -r ()R Var(Y X Y X xσσσμ212222+≈)r -r ()-N -n -(nxy y x 2xσσσμ211111222+= 其中 )X (Var X =2σ,)Y (Var Y =2σ,)Y ,X (Cov Y X =σ∑==N i x i x)-x (N 1221μσ,∑==N i y i y )-y (N 1221μσ,∑==N i y i x i xy )-y )(-x (N 11μμσxy σ称为x 和y 的总体协方差.而总体相关系数定义为yx xyσσσρ=以上)R (Var 的近似式又可表示为 )r -r ()-N -n -(n)R (Var y x y x 2xσρσσσμ211111222+≈ 由以上近似结果可以看出,R 的方差取决于多种因素,其中的因素之一是x 与y 的相关性,x 与y 具有强的正相关性时,会减少方差.x μ是影响方差的另一因素,||x μ越小,方差越大,这也好理解,因此||x μ越小,比率XYR =的波动幅度会变大. 性质1.3.2 在简单随机抽样下,XYR =的近似期望为 )-r ()-N -n -(n r E(R)y x x xσρσσμ2211111+≈由以上近似结果可以看出,R 不是r 的无偏估计,其偏差的阶是n /1,所以它对均方误差的贡献是21n /,而方差的阶是n /1,因此对于大样本而言,估计的标准误差主要取决于方差,而偏差可忽略不计. 在大样本下,R 近似服从正态分布.利用近似分布,我们可以构造r 的置信区间.也可以找出这种估计的误差的概率限.为了估计R 的标准误差或者说为了具体地计算出R 的标准误差.还必须估计出x μ,22y x ,σσ以及ρ,r .前三者分别用2x S ,X 和2y S 估计,r 用R 估计.为估计ρ,我们先对总体协方差作如下估计:∑==n i i i xy )Y -)(Y X -X (-n S 111 那么ρ的估计为yx xy S S S =ρˆ因此R 的估计方差为)S S R -S S R (X)-N -n -(n S y x y x Rρˆ21111122222+≈ r 的近似α-1的置信区间为R S U R 2/1α-±.例1.9 假设调查了100个最近购房的居民,得到每个购房者的每月按揭付款额和月总收入。