统计学第5-6章 正态分布、 统计量及其抽样分布
- 格式:doc
- 大小:819.50 KB
- 文档页数:20
第6章 统计量及其抽样分布一、思考题1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设是从总体中抽取的容量为的一个样本,如果由此样本构造一个函数,不依赖于任何未知参数,则称函数是一个统计量。
(2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。
为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。
(3)统计量是样本的一个函数。
由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。
2.判断下列样本函数哪些是统计量?哪些不是统计量?12n X X X ,,…,X n 12()n T X X X ,,…,12()n T X X X ,,…,1121021210310410()/10min()T X X X T X X X T X T X μμσ=+++==-=-…,,…,()/答:统计量中不能含有未知参数,故、是统计量,、不是统计量。
3.什么是次序统计量?答:设是从总体中抽取的一个样本,称为第个次序统计量,它是样本满足如下条件的函数:每当样本得到一组观测值…,时,其由小到大的排序中,第个值就作为次序统计量的观测值,而称为次序统计量,其中和分别为最小和最大次序统计量。
4.什么是充分统计量?答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。
统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。
5.什么是自由度?答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。
第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。
2.解释描述统计与推断统计。
描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计研究的是如何利用样本数据来推断总体特征的统计方法。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。
4.解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。
5.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。
6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。
分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。
7.举例说明离散型变量和连续型变量。
离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。
使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
第5-6章 统计量及其抽样分布5.1正态分布5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。
概率密度曲线图例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量如果随机变量X 的概率密度为22()21(),2x f x ex μσπσ--=-∞<<∞则称X 服从正态分布。
记做2(,)X N μσ,读作:随机变量X 服从均值为μ,方差为2σ的正态分布 其中,μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X的标准差5.1.2正态密度函数f(x)的一些特点:()0f x ≥,即整个概率密度曲线都在x 轴的上方。
曲线()f x 相对于x μ=对称,并在x μ=处达到最大值,1()2fμπσ=。
1μ<2μ<3μ曲线的陡缓程度由σ决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当x趋于无穷时,曲线以x轴为其渐近线。
标准正态分布当0,1μσ==时,221()2xf x eπ-=,x-∞<<∞称(0,1)N为标准正态分布。
标准正态分布的概率密度函数:()x ϕ标准正态分布的分布函数:()x Φ任何一个正态分布都可以通过线性变换转化为标准正态分布设2(,)X Nμσ,则(0,1)XZ Nμσ-=变量211(,)X Nμσ与变量222(,)Y Nμσ相互独立,则有221212+(+,+) X Y Nμμσσ5.1.3正态分布表:可以查的正态分布的概率值()1()x xΦ-=-Φ例:设(0,1)X N,求以下概率(1)( 1.5) P X<(2)(2) P X>(3)(13) P X-<≤(4)(2)P X ≤解:(1) 1.5( 1.5)()(1.5)0.9332P X t dt ϕ-∞<==Φ=⎰(2)(2)1(2)1210.97730.0227P X P X >=-≤=-Φ=-=() (3)(13)(3)(1)(3)(1)(3)(1(1))0.9987(10.8413)0.84P X P X P X -<≤=≤-≤-=Φ-Φ-=Φ--Φ=--= (4)(2)(22)(2)(2)(2)(1(2))2(2)10.9545P X P X ≤=-≤≤=Φ-Φ-=Φ--Φ=Φ-=一般,若(0,1)XN ,则有()()()P a X b b a <≤=Φ-Φ()2()1P X a a ≤=Φ-例设2(5,3)XN ,求以下概率(1)(10)P X ≤(2)(210)P X <<(3)(28)P X ≤≤(4)(56)P X -≤(5)(59)P X -≤解:由2(5,3)XN ,5(0,1)3X N -(1)1.675105(10)()335( 1.67)3()(1.67)0.9522X P X P X P t dt ϕ-∞--≤=≤-=≤==Φ=⎰(2)255105(210)()3335(1 1.67)3(1.67)(1)0.7938X P X P X P ---<<=<<-=-<<=Φ-Φ-=(3)25585(28)()3335(11)32(1)120.841310.6826X P X P X P ---≤≤=≤≤-=-≤≤=Φ-=⨯-=(4)56(56)()335(2)32(2)120.977210.9544X P X P X P --≤=≤-=≤=Φ-=⨯-=(5)5(59)(3)32(3)120.998710.9974X P X P --≤=≤=Φ-=⨯-=一般,若2(,)XN μσ,则有()()()b a P a X b μμσσ--<≤=Φ-Φ5.1.4 3σ准则若(0,1)X N ,则有(1)2(1)10.6826P X ≤=Φ-=(2)2(2)10.9545P X ≤=Φ-=(3)2(3)10.9973P X ≤=Φ-=即,X 的取值几乎全部集中在[]3,3-区间内,超出这个范围的可能不到0.3%至一般正态总体,即2(,)XN μσ,有()0.6826P X μσ-≤=(2)0.9545P X μσ-≤=(3)0.9973P X μσ-≤=显然(3)P X μσ->的概率很小,因此可以认为X 的值几乎一定落在区间(3,3)μσμσ-+内——统计学的“3σ准则”5.1.5 正态分布函数的一个重要性质 设变量211(,)XN μσ,222(,)Y N μσ~,X 与Y 相互独立,则有221212+(+,+)X Y N μμσσ221212-(-,+)X YN μμσσ5.1.6求分位数Z α设()0,1XN()()Z P X Z x dx ααϕα∞≥==⎰1-=-Z Z αα常用的几个Z 分位数:0.050.0251.64, 1.96Z Z ==0.950.975-1.64,-1.96Z Z ==5.2 由正态分布导出的几个重要分布三大分布:2,,t F χ分布5.2.12χ分布1 定义:设随机变量12,,,nX X X 相互独立,且(0,1)iX N (1,2,,)i n =,则它们的平方和服从自由度为n 的2x分布。
统计学原理-《统计学》第五章统计量及其抽样分布试题1、智商的得分服从均值为100,标准差为16的正态分布。
从总体中抽取一个容量为n的样本,样本均值的标准差为2,样本容量为____________。
2、样本均值与总体均值之间的差被称作____________。
3、从均值为50,标准差为5的无限总体中抽取容量为30的样本,则抽样分布的超过51的概率为____________。
4、某校大学生中,外国留学生占10%。
随机从该校学生中抽取100名学生,则样本中外国留学生比例的标准差为____________。
5、假设总体服从均匀分布,从此总体中抽取容量为36的样本,则样本均值的抽样分布( )。
A.服从非正态分布B.近似正态分布C.服从均匀分布D.服从x²分布6、从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,当样本容量增大时,样本均值的标准差( )。
A.保持不变B.增加C.减小D.无法确定7、总体均值为50,标准差为8,从此总体中随机抽取容量为64的样本,则样本均值的抽样分布的均值和标准误差分别为( )。
A.50,8B.50,1C.50,4D.8,88、某厂家生产的灯泡寿命的均值为60小时,标准差为4小时。
如果从中随机抽取30只灯泡进行检测,则样本均值( )。
A.抽样分布的标准差为4小时B.抽样分布近似等同于总体分布C.抽样分布的中位数为60小时D.抽样分布近似等同于正态分布,均值为60小时9、假设某学校学生的年龄分布是右偏的,均值为23岁,标准差为3岁。
如果随机抽取100名学生,下列关于样本均值抽样分布描述不正确的是( )。
A.抽样分布的标准差等于3B.抽样分布近似服从正态分布C.抽样分布的均值近似为23D.抽样分布为非正态分布10、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的数学期望是( )。
A.150B.200C.100D.25011、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的标准差是( )。
第5-6章 统计量及其抽样分布正态分布5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。
概率密度曲线图例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量如果随机变量X 的概率密度为22()21(),2x f x ex μσπσ--=-∞<<∞则称X 服从正态分布。
记做2(,)XN μσ,读作:随机变量X 服从均值为μ,方差为2σ的正态分布 其中,μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X 的标准差5.1.2正态密度函数f(x)的一些特点:()0f x≥,即整个概率密度曲线都在x轴的上方。
曲线()f x相对于xμ=对称,并在xμ=处达到最大值,1()2fμπσ=。
1μ<2μ<3μ曲线的陡缓程度由σ决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当x趋于无穷时,曲线以x轴为其渐近线。
标准正态分布当0,1μσ==时,2 21 ()2xf x eπ-=,x-∞<<∞称(0,1)N为标准正态分布。
标准正态分布的概率密度函数:()x ϕ标准正态分布的分布函数:()x Φ任何一个正态分布都可以通过线性变换转化为标准正态分布设2(,)X Nμσ,则(0,1)XZ Nμσ-=变量211(,)X Nμσ与变量222(,)Y Nμσ相互独立,则有221212+(+,+) X Y Nμμσσ5.1.3 正态分布表:可以查的正态分布的概率值()1()x xΦ-=-Φ例:设(0,1)X N,求以下概率(1)( 1.5)P X <(2) (2)P X >(3)(13)P X -<≤(4) (2)P X ≤解:(1) 1.5( 1.5)()(1.5)0.9332P X t dt ϕ-∞<==Φ=⎰(2)(2)1(2)1210.97730.0227P X P X >=-≤=-Φ=-=() (3)(13)(3)(1)(3)(1)(3)(1(1))0.9987(10.8413)0.84P X P X P X -<≤=≤-≤-=Φ-Φ-=Φ--Φ=--= (4)(2)(22)(2)(2)(2)(1(2))2(2)10.9545P X P X ≤=-≤≤=Φ-Φ-=Φ--Φ=Φ-=一般,若(0,1)XN ,则有()()()P a X b b a <≤=Φ-Φ()2()1P X a a ≤=Φ-例 设2(5,3)XN ,求以下概率(1)(10)P X ≤(2)(210)P X <<(3)(28)P X ≤≤(4)(56)P X -≤ (5)(59)P X -≤解:由2(5,3)XN ,5(0,1)3X N -(1)1.675105(10)()335( 1.67)3()(1.67)0.9522X P X P X P t dt ϕ-∞--≤=≤-=≤==Φ=⎰(2) 255105(210)()3335(1 1.67)3(1.67)(1)0.7938X P X P X P ---<<=<<-=-<<=Φ-Φ-=(3)25585(28)()3335(11)32(1)120.841310.6826X P X P X P ---≤≤=≤≤-=-≤≤=Φ-=⨯-=(4)56(56)()335(2)32(2)120.977210.9544X P X P X P --≤=≤-=≤=Φ-=⨯-=(5)5(59)(3)32(3)120.998710.9974X P X P --≤=≤=Φ-=⨯-=一般,若2(,)XN μσ,则有()()()b a P a X b μμσσ--<≤=Φ-Φ3σ准则若(0,1)X N ,则有(1)2(1)10.6826P X ≤=Φ-=(2)2(2)10.9545P X ≤=Φ-=(3)2(3)10.9973P X ≤=Φ-=即,X 的取值几乎全部集中在[]3,3-区间内,超出这个范围的可能不到%至一般正态总体,即2(,)XN μσ,有()0.6826P X μσ-≤=(2)0.9545P X μσ-≤=(3)0.9973P X μσ-≤=显然(3)P X μσ->的概率很小,因此可以认为X 的值几乎一定落在区间(3,3)μσμσ-+内——统计学的“3σ准则”5.1.5 正态分布函数的一个重要性质 设变量211(,)XN μσ,222(,)Y N μσ~,X 与Y 相互独立,则有221212+(+,+)X Y N μμσσ221212-(-,+)X YN μμσσ5.1.6 求分位数Z α设()0,1XN()()Z P X Z x dx ααϕα∞≥==⎰1-=-Z Z αα常用的几个Z 分位数:0.050.0251.64, 1.96Z Z ==0.950.975-1.64,-1.96Z Z ==由正态分布导出的几个重要分布三大分布:2,,t F χ分布5.2.12χ分布1 定义:设随机变量12,,,nX X X 相互独立,且(0,1)iX N (1,2,,)i n =,则它们的平方和服从自由度为n 的2x分布。
记做,22()i Xn χ∑2 2x 分布的密度函数图形图形特点:(1)2x分布的变量值始终为正。
(2)2x分布的形状取决于其自由度n 的大小,通常为不对称的右偏分布,随着自由度的增大逐渐趋于对称。
(3)2x分布的期望为2()E n χ=,方差为2()2D n χ=(n 为自由度)。
(4)2x分布具有可加性。
若X Y与是相互独立的随机变量,21~(),X x n 22~()Y x n ,则它们的和服从于自由度为12n n +的2x分布,即212~()X Y x n n ++。
3 2x 分布临界值表的使用,求得2x 分布的分位数2x 分布临界值表中给出的是概率为α时,2x α的取值,k 是自由度。
222()()x P x x f x dx ααα+∞≥==⎰x α例如,若随机变量2(10)Xχ,则查表可得20.05(10)3.94χ=,20.95(10)18.307χ=,5.2.2 t 分布(student 分布)设随机变量,X Y互相独立,2~(0,1),~()X N Y x n ,则随机变量~()X t t n =——自由度为n 的t 分布t 分布概率密度函数图特点:① 关于y 轴对称,与标准正态分布的密度函数的图像非常相似。
② 厚尾:当x →∞时,t 分布的密度函数趋于0的速度要比标准正态分布密度函数慢,所以t 分布的密度函数的尾部要比(0,1)N 密度的尾部厚些。
③ 当自由度n 无限增大时,t 分布将趋近于标准正态分布。
所以,当n 很大时,t 分布可以用标准正态分布近似。
记()t n α为分布()t n 的α分位数。
在实际使用中,当30n ≥,就近似有 ()t n Z αα≈α由于t 分布密度曲线的对称性,可得1()()t n t n αα-=-例如,若随机变量(15)T t ,查表可得,0.05(15) 1.7531t =,而0.950.05(15)(15) 1.76531tt =-=-0.05(40) 1.6839t =,0.05(45) 1.6794t = 0.95 1.645Z =可见随着自由度n 的增大,t 分位数与z 分位数越来越接近。
5.2.3 F 分布设随机变量X 与Y 相互独立且分别服从自由度为m 和n 的2χ分布。
则随机变量//X mF Y n=服从第一自由度为m第二自由度为n的F 分布。
记为()FF m n ,xF 分布的概率密度函数的图设随机变量(,)FF m n ,(,)F m n α表示分布(,)F m n 的α分位数,α可以证明11(,)(,)F m n F n m αα-=例如查表得0.95F (8,9)=3.23,则0.050.950.31F F 11(9,8)==(8,9) 3.23小概率原理指发生概率很小的随机事件在一次实验中几乎不可能出现。
统计量定义:设12,,,n X X X 是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个不依赖于任何未知参数的函数12(,,,)n T X X X ,则称函数12(,,,)n T X X X 是一个统计量。
特点:由样本构造而得,是样本的函数 不含任何未知的参数当获得样本的一组具体观测值12(,,,)n x x x ,带入T,计算出12(,,,)n T x x x 的数值,称为统计量的值常用的统计量2,X S抽样分布抽样分布:统计量的分布随机变量X精确分布:可以得到分布的数学表达式渐近分布:难以得到精确分布时,借助于极限工具,求得抽样分布的近似分布,称为渐近分布。
定理1:设()12,,,nX X X是取自总体X的一个样本,记()iE Xμ=,2()iD Xσ=,那么①()E Xμ=,2()D Xnσ=②22()E sσ=,221()nnE snσ-=③当n→∞时,PXμ−−→lim ()1n P X με→∞-<=④ 当n →∞时,22P s σ−−→,22P ns σ−−→定理2:设()12,,,n X X X 是取自正态总体2(,)N μσ的一个样本①2(,)XN n σμ,或等价地(0,1)X N μ-②2222222()(1)(1)in X X nsn sn χσσσ--==-∑③ X 与2s 相互独立推论1:设()12,,,n X X X 是取自正态总体2(,)N μσ的一个样本,那么(1)/X t n s μ--简要证明:2(,)X N μσ(0,1)X N μ-⇒222(1)(1)n s n χσ--(1)X t n μ-⇒- 独立(t 分布的定义)即(1)X t n μ--推论2设()12,,,m X X X 是取自正态总体211(,)N μσ的一个样本,()12,,,n Y Y Y 是取自正态总体222(,)N μσ的一个样本,X与Y 相互独立,那么()()(0,1)X Y N μμ---简要证明:211(,)XN μσ211(,)XN mσμ⇒222(,)YN μσ222(,)YN nσμ⇒独立,221212(,)X YN mnσσμμ--+12()()(0,1)X Y N μμ---推论3:设()12,,,m X X X 是取自正态总体21(,)N μσ的一个样本,()12,,,n Y Y Y 是取自正态总体22(,)N μσ的一个样本,X 与Y 相互独立,那么()()(2)X Y t m n μμ---+-其中,22212(1)(1)(2)pm s n s s m n -+-=+-简要证明:21(,)XN μσ21(,)XN mσμ⇒22(,)YN μσ22(,)YN nσμ⇒独立,2212(,)X YN mnσσμμ--+2212(1)(1)m sm χσ--2222(1)(1)n sn χσ--可加性2221222(1)(1)(2)m sn sm n χσσ--++-()()(2)X Y t m n μμ---⇒+-整理得()()(2)X Y t m n μμ---⇒+-设22212(1)(1)(2)pm s n s s m n -+-=+-即()()(2)X Y t m n μμ---+-推论4: 设()12,,,m X X X 是取自正态总体211(,)N μσ的一个样本,()12,,,n Y Y Y 是取自正态总体222(,)N μσ的一个样本, X与Y 相互独立,那么22112222/(1,1)/s F m n s σσ-- 简要证明: 正态211(,)XN μσ22121(1)(1)m s m χσ-⇒-222(,)YN μσ22222(1)(1)n s n χσ-⇒-21212222(1)/(1)(1,1)(1)/(1)m s m F m n n sn σσ--⇒----即22112222/(1,1)/s F m n s σσ--非正态总体的情形定理:设()12,,,n X X X 是取自总体X 的一个样本,当n 较大时,近似地有①(0,1)X N μ-②(0,1)X N μ-。