统计量及抽样分布
- 格式:doc
- 大小:477.00 KB
- 文档页数:7
数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。
在数理统计中,样本统计量和抽样分布是两个关键概念。
本文将详细解释这些概念,并介绍相关的公式和定理。
一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。
常用的样本统计量有平均值、方差、标准差、相关系数等。
下面我们将详细介绍这些统计量以及它们的计算公式。
1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。
样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。
2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。
样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。
3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。
样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。
4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。
样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。
第6章 统计量及其抽样分布一、思考题1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设是从总体中抽取的容量为的一个样本,如果由此样本构造一个函数,不依赖于任何未知参数,则称函数是一个统计量。
(2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。
为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。
(3)统计量是样本的一个函数。
由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。
2.判断下列样本函数哪些是统计量?哪些不是统计量?12n X X X ,,…,X n 12()n T X X X ,,…,12()n T X X X ,,…,1121021210310410()/10min()T X X X T X X X T X T X μμσ=+++==-=-…,,…,()/答:统计量中不能含有未知参数,故、是统计量,、不是统计量。
3.什么是次序统计量?答:设是从总体中抽取的一个样本,称为第个次序统计量,它是样本满足如下条件的函数:每当样本得到一组观测值…,时,其由小到大的排序中,第个值就作为次序统计量的观测值,而称为次序统计量,其中和分别为最小和最大次序统计量。
4.什么是充分统计量?答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。
统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。
5.什么是自由度?答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。
第六章 统计量及抽样分布概率论和数理统计都是研究随机现象规律性的数学分支。
(1) 概率论特点:先提出随机现象的数学模型,然后研究其特性和规律 (2) 数理统计:(3) I )以概率论为理论前提,从实际观测或试验出发;II) 研究如何有效的收集、整理和分析受到随机因素影响的数据,并为之建立适当的数学模型; III)对其进行检验,在此基础上对所研究的问题作出推断和预测,为采取行动和决策提供依据和建议。
§1总体、样本与统计量一、总体与样本在实际问题中,我们往往只能通过观察和试验来获取研究对象的信息,但是,如果要把 全体研究对象逐个一一检查,常常是不必要或不可能的. 如:(1)对自动生产线上高速生产的零件逐个检查,要耗费很多的人力、物力、财力及时间,且非必要;(2)为考察某些产品如灯泡的寿命,横梁的耐冲击强度等而进行的破坏性试验,逐个检查将使生产失去意义 所以,实际问题中,只能也只需通过测试部分对象的数据,由此来推断全体研究对象的性质,由部分推断总体。
这是数理统计面对的基本问题。
1、 总体:研究对象的全体,如一批灯泡的寿命具体:研究对象的某个或某几个特性的数量指标,所有的可能取值所构成的集合。
如,研究对象:一个城市的居民家庭;X :人均收入;Y :人均支出;Z :人均居住面积,则三个总体:{}()()(){}()()(){}121122111222,,...,,,,,,,,,,,,,n X X X X X Y X Y X Y X Y Z X Y Z X Y Z ===通常我们学习研究对象的一个特性的数量指标,所有可能取值所构成的集合。
如,X :灯泡寿命,总体{}12,,X x x = ,其中灯泡是研究对象,寿命是数量指标。
2、 个体:组成总体的每一个基本单元(集合中的元素)3、 样本:从总体中随机地抽取几个个体所组成地集合,称为总体地一个样本:()12,,n X X X ,通常看为n 维随机变量(1) 样本容量:样本中所含个体地个数n ,()1,2,n =≤ 总体中个体元素个数 (2) 样本值:12,,n X X X 的一个观测,记为:12,,n x x x4、 抽样:从总体中抽取样本的过程。
这里指随机抽样。
目的:通过样本得到总体的相应情况。
(1)简单随机抽样:数理统计最常用的抽样方法。
满足特点:代表性:总体中每个个体被抽入样本的机会均等,即每个i X (个体)与总体X具有相同分布;独立性:样本中每个个体取什么值并不影响其它个体取什么值,即12,,n X X X 相互独立。
(2)简单随机样本:简称样本(指用简单抽样方法获得的样本)。
即:12,,n X X X 为简单随机样本()1212,,,,n n X X X X X X ⎧⎪⇔⎨⎪⎩ 相互独立;与X具有相同的分布如,一批灯泡5万只,随机抽取1000只检查其寿命i X ,()1,2,1000i = ,其中4只寿命低于规律值,为次品,总体{}1250000,,X X X X = ,一个样本121000,,,X X X ∴ 样本的次品率为0.4%。
可推断,总体的次品率为0.4%。
(4) 这里可得到简单随机样本的方式:通常采用有放回地重复随机抽样:通常针对有限总体,尤其总体容量较小时;无放回…………………:指无限总体或样本容量相对较少,如小于等于总体的5%时。
5、 样本12,,n X X X 的联合密度函数()()()()1212,,n n p x x x p x p x p x = ,其中:总体X 是连续型随机变量,其密度函数为()p x 。
二、统计量1、统计量:设12,,n X X X 为取自总体X 的一个样本,()12,,n g x x x 为一个连续函数,且不含未知参数,则称()12,,n g x x x 为统计量。
如:总体()2~,XN μσ,12,,n X X X 为取自总体X 的一个样本,(1)μ未知,σ已知,则含μ的不是;(2)σ未知,μ未知,则含μ或含σ的不是;简单地讲:统计量满足a )是样本12,,n X X X 的实值函数;b )样本观测值()12,,n x x x ?,就可求出统计量的具体值。
2、常用统计量设12,,n X X X 为取自总体X 的一个样本, (1)样本均值:11ni i X X n==∑(2)样本方差:()()2222111111nni i i i S X XX n Xn n ===-=---∑∑证明:(略)(3)样本均方差(标准差):S =样本方差2S 与均方差S 都反映了总体波动的大小,即反映总体()D X 的信息。
例1、从一批袋装食品中随机抽取6袋,测得其重量(单位:克),如下:462,465,451,472,459,448。
求样本均值X 和样本方差2S 。
解:总体X :指这批食品的重量(各袋重量构成的集合); 样本()126,,X X X 是抽取6袋食品的重量样本值:(462,465,451,472,459,448)为这次抽取6袋食品测得的重量 (1)612611462465448459.5666i i X X X X X =++++++====∑(2)()6222222212611166615i i S X XX X X X =⎡⎤=-=++-⎢⎥⎣⎦-∑()222214624654486459.579.55=+++-⨯=或2S ()()()2221462459.5465459.5448459.579.55⎡⎤=-+-++-=⎣⎦ §2样本分布函数设12,,n x x x 为取自总体X 的一组样本值,可用频率分布表和直方图粗略地描述总体X 地分布。
一、频率分布表1、设总体X 是离散型随机变量,12,,n x x x 是样本12,,n X X X 地一组样本值。
12,,n X X X 取到的值为12,,m a a a ,且取到12,,m a a a 的个数分别为12,,m v v v ,(1)频数:i a 出现的次数i ν; (2)频率:ii f nν=,其中,12m n v v v =+++ ,即n 个数据中,取到i a 值的频率、比例;(3)频率分布表:可近似地反映(代替)总体X 的分布律二、直方图当总体X 是连续型随机变量时,可采用直方图来处理样本值。
1、 方法:(1)将样本值12,,n x x x 从小到大排列,***12,,n x x x ⇒ 样本值落入区间](()**1,,na b xx ⊃,a 略小于*1x,比*1x 通常多一位小数;b 略小于*n x ,比*n x 通常多一位小数。
(2)将n 个样本值的各个不同取值所在的区间](,a b ()1m +等分()1m +等分,使m a 的值落入分割的小区间中,0121m m a t t t t t b +=<<<<<= ,每一小区间长度:()1,0,1,1i i b a t t i m m +--==+m 大小,通常与样本容量对应,(3)依次数出样本值落在区间](1,i i t t +中的个数i ν,()0,1,i m =ii f nν=——为样本值落入区间](1,i i t t +中的频率;(4)画出(频率)直方图:每个直方条:宽](1,i i t t +,长1i i if t t +-(){}111i i i i i i i if f t t S P t x t t t +++=⨯-=≈<≤-小矩形(5) 相应密度函数的大致曲线:光滑连接每条长方形上边中点。
三、样本分布函数由样本的分布函数,推断(近似得出)总体X 的分布函数。
作法:将一组来自总体X 的样本值12,,n x x x ,从小到大排列***12n x x x ≤≤≤()*1**112**223*0,,,1,n n x x x x x n F x x x x n x x νν⎧<⎪⎪≤<⎪⎪⎪=≤<⎨⎪⎪⎪>⎪⎪⎩,()n F x ――称样本分布函数通常n 越大,近似程度越好。
§3常用统计量的分布四种常用的统计量及其分布 一、X 的分布1、定理:设12,,n X X X 是取自正态总体X 的样本。
()2~,X N μσ,则有:样本均值2~,X N n σμ⎛⎫ ⎪⎝⎭,()~0,1X N μ-∴样本12,,n X X X 独立与X 同分布,()()2,,i i E X D X μσ==()121n X X X X n∴=++ 也服从正态分布,()()1211n E X E X X X n nn μμ∴=++=⋅= , ()()22122211n D XD X X X n nnσσ=++=⋅=例1、设总体()~12,4X N ,抽取容量为16的样本。
求样本平均值X 的分布及{}13P X > 解:()~12,4X N ,16n = (1)()21~,12,4X N N μσ⎛⎫= ⎪⎝⎭,即X服从参数2112,4μσ==的正态分布;(2){}{}()()13121311311311210.97720.022812P X P X F ⎛⎫⎪->=-≤=-=-Φ=-Φ=-=⎪ ⎪⎝⎭二、2χ-分布1、定义:若随机变量12,,n X X X 相互独立,都服从同分布,()~0,1i X N ,则称随机变量222212n X X X X χ=+++= 服从自由度n 的2χ分布,记:2~()X n χ(1)2~()X n χ,X 的密度函数图形2χ-分布的密度曲线是个对称的,其形状与自由度n 有关,随自由度n 的增大而渐趋于对称。
(2)2χ-分布:已知自由度n ,给定正数()0,1α∈,由2χ分布表⇒临界值2αχ⇒{}2P X αχα≥=例2、设随机变量2~(20)X χ,求下列情况下的k (1){}0.05P X k ≥=,解:20,0.05n α==,查表:{}31.410.05,31.41P X k ≥=∴=——即临界值2αχ2、 定理:设12,,n X X X 是取自总体X 的样本,()2~,X N μσ,则样本均值X和样本方差2S 相互独立,且()()2221~1n S n χσ--三、t -分布1、定义:若随机变量()~0,1X N ,2~()Y n χ,且X 与Y相互独立,则称随机变量T X=n 的t 分布,记为:()~T t n(1)t 分布的密度函数图形:对称,当自由度n 增大,其曲线趋于标准正态分布曲线 (2)t 分布表:已知()~X t n ,给定正数()0,1α∈,自由度n 查表⇒临界值()t n α⇒(){}P X t n αα≥= 例3、已知:()~15X t ,求下列情形中的k (1){}0.05P X k ≥=,解:0.0515,0.05(15) 1.75n k t α==⇒==,即{}1.750.05P X ≥= *2两个定理(1)设12,,n X X X 是取自正态总体()2~,X N μσ的样本,则()~1X Tt n μ-=-,其中:X :样本均值;S 样本均方差(2)设X 和21S 为总体X 的样本均值和样本方差,()211~,X N μσ,容量为1n ;设Y 和22S 为总体Y 的样本均值和样本方差,()222~,Y N μσ,容量为2n 。