样本方差的抽样分布
- 格式:doc
- 大小:40.25 KB
- 文档页数:3
抽样分布与理论分布一、抽样分布总体分布:总体中所有个体关于某个变量的取值所形成的分布。
样本分布:样本中所有个体关于某个变量大的取值所形成的分布。
抽样分布:样品统计量的概率分布,由样本统计量的所有可能取值和相应的概率组成。
即从容量为N 的总体中抽取容量为n 的样本最多可抽取m 个样本,m 个样本统计值形成的频率分布,即为抽样分布。
样本平均数的抽样分布:设变量X 是一个研究总体,具有平均数μ和方差σ2。
那么可以从中抽取样本而得到样本平均数x ,样本平均数是一个随机变量,其概率分布叫做样本平均数的抽样分布。
由样本平均数x 所构成的总体称为样本平均数的抽样总体。
它具有参数μx 和σ2x ,其中μx 为样本平均数抽样总体的平均数,σ2x 为样本平均数抽样总体的方差,σx 为样本平均数的标准差,简称标准误。
统计学上可以证明x 总体的两个参数 μx 和σ2x 与X 总体的两个参数μ和σ2有如下关系:μx = μ σ2x = σ2 /n由中心极限定理可以证明,无论总体是什么分布,如果总体的平均值μ和σ2都存在,当样本足够大时(n>30),样本平均值x 分布总是趋近于N (μ,n2)分布。
但在实际工作中,总体标准差σ往往是未知的,此时可用样本标准差S 估计σ。
于是,以nS估计σx ,记为X S ,称为样本标准误或均数标准误。
样本平均数差数的抽样分布:二、正态分布2.1 正态分布的定义:若连续型随机变量X 的概率密度函数是⎪⎭⎫ ⎝⎛--=σμπσx ex f 22121)( (-∞<x <+∞)则称随机变量X 服从平均数为μ、方差为σ2的正态分布,记作X~N (μ,σ2)。
相应的随机变量X 概率分布函数为 F (x )=⎰∞-x dx x f )(它反映了随机变量X 取值落在区间(-∞,x )的概率。
2.2 标准正态分布当正态分布的参数μ=0,σ2=1时,称随机变量X 服从标准正态分布,记作X~N (0,1)。
统计学原理-《统计学》第五章统计量及其抽样分布试题1、智商的得分服从均值为100,标准差为16的正态分布。
从总体中抽取一个容量为n的样本,样本均值的标准差为2,样本容量为____________。
2、样本均值与总体均值之间的差被称作____________。
3、从均值为50,标准差为5的无限总体中抽取容量为30的样本,则抽样分布的超过51的概率为____________。
4、某校大学生中,外国留学生占10%。
随机从该校学生中抽取100名学生,则样本中外国留学生比例的标准差为____________。
5、假设总体服从均匀分布,从此总体中抽取容量为36的样本,则样本均值的抽样分布( )。
A.服从非正态分布B.近似正态分布C.服从均匀分布D.服从x²分布6、从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,当样本容量增大时,样本均值的标准差( )。
A.保持不变B.增加C.减小D.无法确定7、总体均值为50,标准差为8,从此总体中随机抽取容量为64的样本,则样本均值的抽样分布的均值和标准误差分别为( )。
A.50,8B.50,1C.50,4D.8,88、某厂家生产的灯泡寿命的均值为60小时,标准差为4小时。
如果从中随机抽取30只灯泡进行检测,则样本均值( )。
A.抽样分布的标准差为4小时B.抽样分布近似等同于总体分布C.抽样分布的中位数为60小时D.抽样分布近似等同于正态分布,均值为60小时9、假设某学校学生的年龄分布是右偏的,均值为23岁,标准差为3岁。
如果随机抽取100名学生,下列关于样本均值抽样分布描述不正确的是( )。
A.抽样分布的标准差等于3B.抽样分布近似服从正态分布C.抽样分布的均值近似为23D.抽样分布为非正态分布10、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的数学期望是( )。
A.150B.200C.100D.25011、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的标准差是( )。
6.1 调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差 1.0σ=盎司的正态分布。
随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。
试确定样本均值偏离总体均值不超过0.3盎司的概率。
解:总体方差知道的情况下,均值的抽样分布服从()2,N n σμ的正态分布,由正态分布,标准化得到标准正态分布:x ~()0,1N ,因此,样本均值不超过总体均值的概率P为:()0.3P x μ-≤=P ⎫≤=x P ⎛⎫≤≤=()0.90.9P z -≤≤=2()0.9φ-1,查标准正态分布表得()0.9φ=0.8159 因此,()0.3P x μ-≤=0.63186.2在练习题6.1中,我们希望样本均值与总体均值μ的偏差在0.3盎司之内的概率达到0.95,应当抽取多大的样本?解:()0.3P x μ-≤=P ⎫≤=x P ⎛⎫≤≤=210.95Φ-≥0.975⇒Φ≥1.96⇒≥42.6828843n n ⇒≥⇒≥6.3 1Z ,2Z ,……,6Z 表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b ,使得 6210.95i i P Z b =⎛⎫≤= ⎪⎝⎭∑ 解:由于卡方分布是由标准正态分布的平方和构成的: 设Z 1,Z 2,……,Z n 是来自总体N (0,1)的样本,则统计量222212χ=+++n Z Z Z服从自由度为n 的χ2分布,记为χ2~ χ2(n ) 因此,令6221ii Z χ==∑,则()622216ii Zχχ==∑,那么由概率6210.95i i P Z b =⎛⎫≤= ⎪⎝⎭∑,可知:b=()210.956χ-,查概率表得:b=12.596.4 在习题6.1中,假定装瓶机对瓶子的灌装量服从方差21σ=的标准正态分布。
假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出样本方差22211(())1n i i S S Y Y n ==--∑,确定一个合适的范围使得有较大的概率保证S 2落入其中是有用的,试求b 1,b 2,使得 212()0.90p b S b ≤≤=解:更加样本方差的抽样分布知识可知,样本统计量:222(1)~(1)n s n χσ--此处,n=10,21σ=,所以统计量22222(1)(101)9~(1)1n s s s n χσ--==-根据卡方分布的可知:()()2212129990.90P b S b P b S b ≤≤=≤≤=又因为:()()()2221221911P n S n ααχχα--≤≤-=-因此:()()()()22221212299919110.90P b S b P n S n ααχχα-≤≤=-≤≤-=-= ()()()()222212122999191P b S b P n S n ααχχ-⇒≤≤=-≤≤- ()()()2220.950.059990.90P S χχ=≤≤=则: ()()2210.9520.0599,99b b χχ⇒==()()220.950.051299,99b b χχ⇒==查概率表:()20.959χ=3.325,()20.059χ=19.919,则()20.95199b χ==0.369,()20.05299b χ==1.887.1 从一个标准差为5的总体中采用重复抽样方法抽出一个样本容量为40的样本,样本均值为25。
1、依据统计数据的收集方法不同,可将其分为【观测数据】数据和【实验数据】数据。
2、收集的属于不同时间上的数据称为【时间序列】数据。
5、在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:1080、750、1080、850、960、2000、1250、1080、760、1080、950、1080、660,则其众数为 1080,中位数为1080。
7、设总体X ~),(2σμN ,x为样本均值,S 为样本标准差。
当σ未知,且为小样本时,则n sx μ-服从自由度为n-1的___t__分布。
1、数据分析所用的方法分为 描述统计方法 和 推断统计方法 。
2、数据的基本类型有 分类数据 、 顺序数据 和 数值型数据 。
3、在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据:1080,750,780,1080,850,960,2000,1250,1630(单位:元),则人均月收入的平均数是 1153.3 ,中位数是 1020 。
4、设连续型随机变量X 在有限区间(a,b)内取值,且X 服从均匀分布,其概率密度函数0()1f x b a ⎧⎪=⎨⎪-⎩则X 的期望值为 2a b + ,方差为2()12b a - 。
1、收集数据的基本方法是 自填式 、 面访式 和 电话式 。
2、依据统计数据的收集方法不同,可将其分为 观测数据 和 实验数据 。
3、分类数据、顺序数据和数值型数据都可以用 饼图 、 条形图 等图形来显示。
5、测定数值型数据的离散程度,依据研究目的及资料的不同,可用的指标有 方差 、 离散系数 。
5、原假设0H 为真时却被我们拒绝,称为 弃真错误 。
7、对回归方程线性关系的检验,通常采用的是 F 检验。
2、如果我们要研究某班学生的学习状况,则总体是 ,总体单位是_ _ 。
4、利用估计的回归方程进行区间估计有两种类型,一是 置信区间估计 ,二是 预测区间估计 。
8、在参数估计时,评价估计量的主要有三个指标是无偏性、 、有效性、一致性。
样本方差的抽样分布
样本方差
先求出总体各单位变量值与其算术平均数的离差的平方,然后再对此变量取平均数,就叫做样本方差。
在许多实际情况下,人口的真实差异事先是不知道的,必须以某种方式计算。
当处理非常大的人口时,不可能对人口中的每个物体进行计数,因此必须对人口样本进行计算。
样本方差也可以应用于从该分布的样本的连续分布的方差的估计。
[
从一个样本取n个值y1,...,y n,其中n <N,并根据这个样本估计方差。
直接取样本数据的方差给出平均偏差的平均值:
这里,表示样本均值
由于y i是随机选择的,所以和是随机变量。
他们的预期值可以通过从群体中的大小为n的所有可能样本{yi}的集合进行平均来评估。
对于,有
因此给出了基于因子的人口方差的估计值。
被称为偏样本方差。
纠正该偏差之后形成无偏样本方差:
估计值可以简单地称为样本方差。
同样的证明也适用于从连续概率分布中抽取的样本。
样本方差分布
作为随机变量的函数,样本方差本身就是一个随机变量,研究其分布是很自然的。
在yi是来自正态分布的独立观察的情况下,s2服从卡方分布:
所以可求;和
如果y i独立同分布,但不一定是正态分布,那么
如果大数定律的条件对于平方观测值同样适用,则s2是σ2的一致估计量。
抽样分布
抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布。
样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布。
以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能
样本的平均数所形成的分布,就是样本平均数的抽样分布。
抽样分布定理
(1)从总体中随机抽取容量为n的一切可能个样本的平均数之平均数,等于总体的平均数,即(E为平均的符号,为样本的平均数,μ为总体的平均数)。
(2)从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。
(3)虽然总体不是正态分布,如果样本容量较大,反映总体μ和σ的样本平均数的抽样分布,也接近于正态分布。
样本方差的抽样分布
样本方差的抽样分布是指在重复选取容量为n的样本时,样本方差的所有可能取值形成的概率分布。
χ2分布具有如下性质和特点:
(1)χ2分布的变量值始终为正。
(2)χ2(n)分布的形状取决与其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称,如图7-2所示。
(3)χ2分布的期望为E(χ2)=n,方差为D(χ2)=2n(n为自由度)。
(4)χ2分布具有可加性。
若U和V为两个独立的χ2分布随机变量,U~χ2(n1),V~χ2(n2),则随机变量U+V服从自由度为n1+n2的χ2分布。