5-4单正态总体参数的区间估计
- 格式:pdf
- 大小:601.03 KB
- 文档页数:53
第四节 正态总体的置信区间与其他总体相比, 正态总体参数的置信区间是最完善的,应用也最广泛。
在构造正态总体参数的置信区间的过程中,t 分布、2χ分布、F 分布以及标准正态分布)1,0(N 扮演了重要角色.本节介绍正态总体的置信区间,讨论下列情形: 1. 单正态总体均值(方差已知)的置信区间; 2. 单正态总体均值(方差未知)的置信区间; 3. 单正态总体方差的置信区间;4. 双正态总体均值差(方差已知)的置信区间;5. 双正态总体均值差(方差未知但相等)的置信区间;6. 双正态总体方差比的置信区间.注: 由于正态分布具有对称性, 利用双侧分位数来计算未知参数的置信度为α-1的置信区间, 其区间长度在所有这类区间中是最短的.分布图示★ 引言★ 单正态总体均值(方差已知)的置信区间★ 例1 ★ 例2★ 单正态总体均值(方差未知)的置信区间 ★ 例3 ★ 例4★ 单正态总体方差的置信区间 ★ 例5 ★ 双正态总体均值差(方差已知)的置信区间 ★ 例6 ★ 双正态总体均值差(方差未知)的置信区间★ 例7 ★ 例8★ 双正态总体方差比的置信区间 ★ 例9 ★ 内容小结 ★ 课堂练习 ★ 习题6-4内容要点一、单正态总体均值的置信区间(1)设总体),,(~2σμN X 其中2σ已知, 而μ为未知参数, n X X X ,,,21 是取自总体X 的一个样本. 对给定的置信水平α-1, 由上节例1已经得到μ的置信区间,,2/2/⎪⎪⎭⎫⎝⎛⋅+⋅-n u X n u X σσαα二、单正态总体均值的置信区间(2)设总体),,(~2σμN X 其中μ,2σ未知, n X X X ,,,21 是取自总体X 的一个样本. 此时可用2σ的无偏估计2S 代替2σ, 构造统计量n S X T /μ-=,从第五章第三节的定理知).1(~/--=n t nS X T μ对给定的置信水平α-1, 由αμαα-=⎭⎬⎫⎩⎨⎧-<-<--1)1(/)1(2/2/n t n S X n t P ,即 ,1)1()1(2/2/αμαα-=⎭⎬⎫⎩⎨⎧⋅-+<<⋅--n S n t X n S n t X P因此, 均值μ的α-1置信区间为.)1(,)1(2/2/⎪⎪⎭⎫ ⎝⎛⋅-+⋅--n S n t X n S n t X αα三、单正态总体方差的置信区间上面给出了总体均值μ的区间估计,在实际问题中要考虑精度或稳定性时,需要对正态总体的方差2σ进行区间估计.设总体),,(~2σμN X 其中μ,2σ未知,n X X X ,,,21 是取自总体X 的一个样本. 求方差2σ的置信度为α-1的置信区间. 2σ的无偏估计为2S , 从第五章第三节的定理知,)1(~1222--n S n χσ, 对给定的置信水平α-1, 由,1)1()1()1()1(,1)1(1)1(22/12222/222/2222/1αχσχαχσχαααα-=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧--<<---=⎭⎬⎫⎩⎨⎧-<-<---n S n n Sn P n S n n P 于是方差2σ的α-1置信区间为⎪⎪⎭⎫ ⎝⎛-----)1()1(,)1()1(22/1222/2n S n n S n ααχχ而方差σ的α-1置信区间.)1()1(,)1()1(22/1222/2⎪⎪⎭⎫ ⎝⎛-----n S n n S n ααχχ四、双正态总体均值差的置信区间(1)在实际问题中,往往要知道两个正态总体均值之间或方差之间是否有差异,从而要研究两个正态总体的均值差或者方差比的置信区间。
一、概述总体参数的区间估计是统计学中一个重要的概念,在实际应用中具有广泛的应用。
区间估计的目的是利用样本数据对总体参数进行估计,以确定参数的取值范围。
在进行区间估计时,需要考虑三个重要的要素,以确保估计结果的准确性和可靠性。
二、总体参数的定义在统计学中,总体参数指的是对整个总体的某一特征进行描述的指标。
例如总体均值、总体比例等。
总体参数通常是未知的,需要通过样本数据来进行估计。
区间估计就是利用样本数据对总体参数进行估计,给出一个区间,以确定参数的取值范围。
三、区间估计的三个要素1. 置信水平置信水平是区间估计中非常重要的一个要素。
它指的是对总体参数估计的准确程度的度量,通常用1-α来表示,其中α称为显著性水平,通常取0.05或0.01。
置信水平越高,说明对总体参数的估计越可信。
在实际应用中,常用的置信水平为95或99。
2. 样本容量样本容量是另一个影响区间估计结果的重要要素。
样本容量的大小直接影响了估计结果的精确度。
通常来说,样本容量越大,估计结果越精确。
在进行区间估计时,一般需要根据置信水平和总体参数的方差来确定合适的样本容量。
3. 统计分布在进行区间估计时,需要考虑所使用的统计分布。
常用的统计分布包括正态分布、t分布、F分布等。
选择合适的统计分布对区间估计的结果具有重要影响。
通常在实际应用中,根据样本容量和总体参数的分布情况来选择合适的统计分布。
四、区间估计的计算方法区间估计的计算方法通常包括以下几个步骤:1. 确定置信水平,通常取95或99。
2. 根据置信水平和总体参数的分布情况,选择合适的统计分布。
3. 根据样本数据计算得到统计量的值。
比如样本均值、样本比例等。
4. 根据统计量的值,计算得到区间估计的上限和下限。
通常使用公式:点估计值±临界值×标准误差。
五、实际应用区间估计在实际应用中具有广泛的应用,比如医学研究、市场调研、经济预测等领域。
在这些领域中,通常需要对总体参数进行估计,以确定参数的取值范围。
第八届2022全国大学生市场调查大赛题库1(含答案)试题答案及解析第一部分(),共70小题,70.0分。
1、随机变量中,出现次数最多的变量值是该变量的()。
(1.0分)A.众数B.中位数C.极值D.均值正确答案:A试题解析:2、小刘想对Z市人口居住情况进行一个调查,因此,他把Z市随机地分成了几个情况相似的区域,然后从中选取了10个区域并对这些区域的家庭情况进行了全面的调查。
在这个例子中,小刘运用的是()。
(1.0分)A.分层随机抽样B.分群随机抽样C.判断抽样D.整群抽样正确答案:D试题解析:3、抽样效率是指两个抽样方案在样本容量相同的情况下的()。
(1.0分)A.样本比例之比B.抽样平均误差之比C.样本均值之比D.抽样方差之比正确答案:D试题解析:4、在实际工作中,市场调查分析方法主要有两种,即定性分析法和()。
(1.0分)A.归纳分析法B.定量分析法C.比较分析法D.演绎分析法正确答案:B试题解析:5、变量测量尺度的类型包括()。
(1.0分)A.间隔尺度.长短尺度.名义尺度B.顺序尺度.名称尺度.长短尺度C.名称尺度.间隔尺度.长短尺度D.间隔尺度.顺序尺度.名义尺度正确答案:D试题解析:6、某商品的100件样品中,测得的优质品为98件,则样本优质品成数为()。
(1.0分)A.100%B.98%C.2%D.无法计算正确答案:B试题解析:7、下列描述直方图与条形图差别的说法不正确的是()。
(1.0分)A.条形图用于展示分类数据,直方图用于展示数值型数据B.条形图用高度表示类别变化的多少,宽度则固定,表示类别C.直方图的各矩形和条形图的各条形都是连续排列的D.直方图中的矩形用高度表示频数或频率,用宽度表示各组组距正确答案:C试题解析:8、小王对香槟酒的消费情况进行了一次调研。
她界定了三个不同层次的收入阶段,然后规定调研人员对每个收入阶层中特定数量的人群进行访谈,这种抽样方法属于()。
(1.0分)A.分群抽样B.配额抽样C.任意抽样D.随机抽样正确答案:B试题解析:9、某银行想知道平均每户活期存款余额和估计其总量,根据存折账号的顺序,每50本存折抽出一本登记其余额。
2019年4⽉全国⾃考概率论与数理统计答案详解19页word 2019年4⽉⾼等教育⾃学考试《概率论与数理统计》(经管类)答案解析课程代码:04183⼀、单项选择题(本⼤题共10⼩题,每⼩题2分,共20分)1.甲,⼄两⼈向同⼀⽬标射击,A表⽰“甲命中⽬标”,B表⽰“⼄命中⽬标”,C表⽰“命中⽬标”,则C=()A.AB.BC.ABD.A∪B【答案】D【解析】“命中⽬标”=“甲命中⽬标”或“⼄命中⽬标”或“甲、⼄同时命中⽬标”,所以可表⽰为“A∪B”,故选择D.【提⽰】注意事件运算的实际意义及性质:(1)事件的和:称事件“A,B⾄少有⼀个发⽣”为事件A与B的和事件,也称为A 与B的并A∪B或A+B.性质:①,;②若,则A∪B=B.(2)事件的积:称事件“A,B同时发⽣”为事件A与B的积事件,也称为A与B的交,记做F=A∩B或F=AB.性质:①,;②若,则AB=A.(3)事件的差:称事件“A发⽣⽽事件B不发⽣”为事件A与B的差事件,记做A-B.性质:①;②若,则;③.(4)事件运算的性质(i)交换律:A∪B=B∪A, AB=BA;(ii)结合律:(A∪B)∪C=A∪(B∪C), (AB)C=A(BC);(iii)分配律:(A∪B)∩C=(A∩C)∪(B∩C)(A∩B)∪C=(A∪C)∩(B∪C).(iv)摩根律(对偶律),2.设A,B是随机事件,,P(AB)=0.2,则P(A-B)=()A.0.1B.0.2C.0.3D.0.4【答案】A【解析】,,故选择A.【提⽰】见1题【提⽰】(3).3.设随机变量X的分布函数为F(X)则()A.F(b-0)-F(a-0)B.F(b-0)-F(a)C.F(b)-F(a-0)D.F(b)-F(a)【答案】D【解析】根据分布函数的定义及分布函数的性质,选择D.详见【提⽰】. 【提⽰】1.分布函数定义:设X为随机变量,称函数,为的分布函数.2.分布函数的性质:①0≤F(x)≤1;②对任意x1,x2(x1< x2),都有;③F(x)是单调⾮减函数;④,;⑤F(x)右连续;⑥设x为f(x)的连续点,则f′(x)存在,且F′(x)=f(x).3.已知X的分布函数F(x),可以求出下列三个常⽤事件的概率:①;②,其中a③.4.设⼆维随机变量(X,Y)的分布律为0 1 20 1 0 0.1 0.2 0.4 0.3 0则()A.0B.0.1C.0.2D.0.3【答案】D【解析】因为事件,所以,= 0 + 0.1 + 0.2 = 0.3故选择D【提⽰】1.本题考察⼆维离散型随机变量的边缘分布律的求法;2.要清楚本题的三个事件的概率为什么相加:因为三事件是互不相容事件,⽽互不相容事件的概率为各事件概率之和.5.设⼆维随机变量(X,Y)的概率密度为,则()A.0.25B.0.5C.0.75D.1【答案】A【解析】积分区域D:0<X≤0.5,0<Y≤1,所以故选择A.【提⽰】1.⼆维连续型随机变量的概率密度f(x,y)性质:①f(x,y)≥0;②;③若f(x,y)在(x,y)处连续,则有,因⽽在f(x,y)的连续点(x,y)处,可由分布函数F(x,y)求出概率密度f(x,y);④(X,Y)在平⾯区域D内取值的概率为.2.⼆重积分的计算:本题的⼆重积分的被积函数为常数,根据⼆重积分的⼏何意义可⽤简单⽅法计算:积分值=被积函数0.5×积分区域⾯积0.5.6.设随机变量X的分布律为X﹣2 0 2P 0.4 0.3 0.3则E(X)=()A.﹣0.8B.﹣0.2C.0D.0.4【答案】B【解析】E(X)=(﹣2)×0.4+0×0.3+2×0.3=﹣0.2故选择B.【提⽰】1.离散型⼀维随机变量数学期望的定义:设随机变量的分布律为,1,2,….若级数绝对收敛,则定义的数学期望为.2.数学期望的性质:①E(c)=c,c为常数;②E(aX)=aE(x),a为常数;③E(X+b)=E(X+b)=E(X)+b,b为常数;④E(aX+b)=aE(X)+b,a,b为常数.7.设随机变量X的分布函数为,则E(X)=()A. B. C. D.【答案】C【解析】根据连续型⼀维随机变量分布函数与概率密度的关系得,所以,=,故选择C.【提⽰】1.连续型⼀维随机变量概率密度的性质①;②;③;④;⑤设x为的连续点,则存在,且.2.⼀维连续型随机变量数学期望的定义:设连续型随机变量X的密度函数为,如果⼴义积分绝对收敛,则随机变量的数学期望为.8.设总体X服从区间[,]上的均匀分布(),x1,x2,…,x n为来⾃X的样本,为样本均值,则A. B. C. D.【答案】C【解析】,,⽽均匀分布的期望为,故选择C.【提⽰】1.常⽤的六种分布(1)常⽤离散型随机变量的分布(三种):X0 1概率q pA.两点分布①分布列②数学期望:E(X)=P③⽅差:D(X)=pq.B.⼆项分布:X~B(n,p)①分布列:,k=0,1,2,…,n;②数学期望: E(X)=nP③⽅差: D(X)=npq.C.泊松分布:X~①分布列:,0,1,2,…②数学期望:③⽅差:=(2)常⽤连续型随机变量的分布(三种):A.均匀分布:X~①密度函数:,②分布函数:,③数学期望:E(X)=,④⽅差:D(X)=.B.指数分布:X~①密度函数:,②分布函数:,③数学期望:E(X)=,④⽅差:D(X)=.C.正态分布(A)正态分布:X~①密度函数:,-∞+∞②分布函数:③数学期望:=,④⽅差:=,⑤标准化代换:若X~,,则~.(B)标准正态分布:X~①密度函数:,-∞+∞②分布函数:,-∞+∞③数学期望:E(X)=0,④⽅差:D(X)=1.2.注意:“样本”指“简单随机样本”,具有性质:“独⽴”、“同分布”.9.设x1,x2,x3,x4为来⾃总体X的样本,且,记,,,,则的⽆偏估计是()A. B. C. D.【答案】A【解析】易知,,故选择A.【提⽰】点估计的评价标准:(1)相合性(⼀致性):设为未知参数,是的⼀个估计量,是样本容量,若对于任意,有,则称为的相合(⼀致性)估计.(2)⽆偏性:设是的⼀个估计,若对任意,有则称为的⽆偏估计量;否则称为有偏估计.(3)有效性设,是未知参数的两个⽆偏估计量,若对任意有样本⽅差,则称为⽐有效的估计量.若的⼀切⽆偏估计量中,的⽅差最⼩,则称为的有效估计量.10.设总体~,参数未知,已知.来⾃总体的⼀个样本的容量为,其样本均值为,样本⽅差为,,则的置信度为的置信区间是()A.,B.,C.,D.【答案】A【解析】查表得答案.【提⽰】关于“课本p162,表7-1:正态总体参数的区间估计表”记忆的建议:①表格共5⾏,前3⾏是“单正态总体”,后2⾏是“双正态总体”;②对均值的估计,分“⽅差已知”和“⽅差未知”两种情况,对⽅差的估计“均值未知”;③统计量顺序:, t, x2, t, F.⼆、填空题(本⼤题共15⼩题,每⼩题2分,共30分)11.设A,B是随机事件,P (A)=0.4,P (B)=0.2,P (A∪B)=0.5,则P (AB)= _____.【答案】0.1【解析】由加法公式P (A∪B)= P (A)+ P (B)-P (AB),则P (AB)= P (A)+ P (B)-P (A∪B)=0.1故填写0.1.12.从0,1,2,3,4五个数字中不放回地取3次数,每次任取⼀个,则第三次取到0的概率为________.【答案】【解析】设第三次取到0的概率为,则故填写.【提⽰】古典概型:(1)特点:①样本空间是有限的;②基本事件发⽣是等可能的;(2)计算公式.13.设随机事件A与B相互独⽴,且,则________.【答案】0.8【解析】因为随机事件A与B相互独⽴,所以P (AB)=P (A)P (B)再由条件概率公式有=所以,故填写0.8.【提⽰】⼆随机事件的关系(1)包含关系:如果事件A发⽣必然导致事件B发⽣,则事件B包含事件A,记做;对任何事件C,都有,且;(2)相等关系:若且,则事件A与B相等,记做A=B,且P (A)=P (B);(3)互不相容关系:若事件A与B不能同时发⽣,称事件A与B互不相容或互斥,可表⽰为=,且P (AB)=0;(4)对⽴事件:称事件“A不发⽣”为事件A的对⽴事件或逆事件,记做;满⾜且.显然:①;②,.(5)⼆事件的相互独⽴性:若, 则称事件A, B相互独⽴;性质1:四对事件A与B,与B,A与,与其⼀相互独⽴,则其余三对也相互独⽴;性质2:若A, B相互独⽴,且P (A)>0, 则.14.设随机变量服从参数为1的泊松分布,则________.【答案】【解析】参数为泊松分布的分布律为,0,1,2,3,…因为,所以,0,1,2,3,…,所以=,故填写.15.设随机变量X的概率密度为,⽤Y表⽰对X的3次独⽴重复观察中事件出现的次数,则________.【答案】【解析】因为,则~,所以,故填写.【提⽰】注意审题,准确判定概率分布的类型.16.设⼆维随机变量(X,Y)服从圆域D: x2+ y2≤1上的均匀分布,为其概率密度,则=_________.【答案】【解析】因为⼆维随机变量(X,Y)服从圆域D:上的均匀分布,则,所以故填写.【提⽰】课本介绍了两种重要的⼆维连续型随机变量的分布:(1)均匀分布:设D为平⾯上的有界区域,其⾯积为S且S>0,如果⼆维随机变量(X,Y)的概率密度为,则称(X,Y)服从区域D上的均匀分布,记为(X,Y)~.(2)正态分布:若⼆维随机变量(X,Y)的概率密度为。
正态分布N (μ,σ)参数区间估计允许μ为任意的实数,σ为任意的正实数。
基于Wolfram Mathematica ,给出了正态分布N (μ,σ)抽样定理,从而得到参数μ,σ2,σ的区间估计。
在σ已知和未知情形下,通过均值分布、中位值分布、卡方分布三种方法估计总体均值μ,区间长度均值分布最短,卡方分布次之,中位值分布最长,但当样本量n 较大时,区间长度趋于接近。
在μ已知和未知情形下,通过卡方分布可以估计总体方差的置信区间,通过卡分布、卡方分布可以估计总体标准差的置信区间。
最后给出不同情形下不同方法的MMA 程序及运行结果。
◼抽样分布定理引理1:X Ν(μ,σ)⇔X -μσΝ 0,1 .转换分布TransformedDistributionX -μσ,X 正态分布NormalDistribution [μ,σ]NormalDistribution [0,1]转换分布TransformedDistribution [μ+X σ,X 正态分布NormalDistribution [],假设Assumptions →σ>0]NormalDistribution [μ,σ]引理2:X χ(ν)⇔X 2 χ2(ν).转换分布TransformedDistribution X 2,X 卡分布ChiDistribution [ν]ChiSquareDistribution [ν]转换分布TransformedDistribution X ,X 卡方分布ChiSquareDistribution [ν]ChiDistribution [ν]引理3:X Ν 0,1 ,Y χ2(n )⇒Xt (n ).=转换分布TransformedDistributionX,{X 正态分布NormalDistribution [],Y 卡方分布ChiSquareDistribution [n ]} ;概率密度函数PDF [ ,x ]==⋯PDF [学生t 分布StudentTDistribution [n ],x ]//幂展开PowerExpand //完全简化FullSimplify [#,n >0&&x ≠0]&True定理1:X i Ν(μ,σ)⇒X -Νμ,σn⇔X --μσnΝ 0,1 .CharacteristicFunction NormalDistribution [μ,σ],t nn;特征函数CharacteristicFunction 正态分布NormalDistribution μ,σn,t ;%⩵%%//完全简化FullSimplify [#,n >0&&n ∈整数域Integers ]&True定理2:X i Ν(μ,σ)⇒ i =1nX i -μσ2=∑i =1n (X i -μ)2σ2χ2(n )⇔σχ(n ).转换分布TransformedDistributionX [i ]-μσ,X [i ] 正态分布NormalDistribution [μ,σ]NormalDistribution [0,1]n =7;=转换分布TransformedDistribution i =1nY [i ]2,数组Array [Y,n ] 联合分布ProductDistribution [{正态分布NormalDistribution [],n }]ChiSquareDistribution [7]定理3:X i Ν(μ,σ)⇒(n -1)S 2σ2χ2 n -1⇔σχ n -1 .令Y i =X i -μσ,则(n -1)S 2σ2=i =1n2=i =1n-= i =1nY i -Y 2= i =1nY i 2-2Y Y i +Y 2= i =1nY i 2-2Y i =1nY i +n Y 2= i =1nY i 2-n Y 2χ2n -1 ⇒σχ n -1 .2 正态分布\\正态分布统计分析\\正态分布参数区间估计.nbn =n0=35;=转换分布TransformedDistribution i =1nY [i ]2-1ni =1nY [i ]2,数组Array [Y,n ] 联合分布ProductDistribution [{正态分布NormalDistribution [],n }] ;Block {n =n0},显示Show 直方图Histogram 伪随机变数RandomVariate ,2×106 ,500,"概率密度函数PDF" ,绘图Plot [⋯PDF [卡方分布ChiSquareDistribution [n -1],x ],{x,5,65},绘图样式PlotStyle →粗Thick ]定理4:X i Ν(μ,σ)⇒X --μSnt n -1 .根据定理1,得X iΝ(μ,σ)⇒X --μσnΝ 0,1 ,根据定理3,得(n -1)S 2σ2χ2 n -1 ,根据引理3,X --μσn=X --μSnt n -1 .定理5:F Xn +12=正则化的不完全贝塔函数BetaRegularized12补余误差函数Erfc-x +μ2σ ,1+n2,1+n 2,n =2k +1.次序分布OrderDistribution {正态分布NormalDistribution [μ,σ],n },n +12;累积分布函数CDF [%,x ]//完全简化FullSimplifyBetaRegularized 12Erfc ,1+n 2,1+n 2推论:μ=x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized q,1+n 2,1+n 2.In[2]:=解方程Solve 正则化的不完全贝塔函数BetaRegularized12补余误差函数Erfc-x +μ2σ ,1+n 2,1+n 2⩵q,μOut[2]=μ→x +2σInverseErfc 2InverseBetaRegularized q,1+n 2,1+n 2定理6:-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σχ2 2n .正态分布\\正态分布统计分析\\正态分布参数区间估计.nb3In[5]:=转换分布TransformedDistribution -2对数Log12补余误差函数Erfc-X +μ2σ,X 正态分布NormalDistribution [μ,σ] ;概率密度函数PDF [%,x ]⩵⋯PDF [卡方分布ChiSquareDistribution [2],x ]//完全简化FullSimplify [#,x >0]&Out[6]=True**参数区间估计**In[7]:=需要Needs ["HypothesisTesting`"]μ0=20;σ0=3;X =伪随机变数RandomVariate [正态分布NormalDistribution [μ0,σ0],10001];n =长度Length [X ];S =标准偏差StandardDeviation [X ];α=0.01;"参数的极大似然估计:"清除Clear [μ,σ]{μ1,σ1}={μ,σ}/.求分布参数FindDistributionParameters [X,正态分布NormalDistribution [μ,σ]]"一、总体均值μ的区间估计""(一)均值分布U =X --μσnN(0,1)——σ已知"σ=σ0;Sw =σn ;m =平均值Mean [X ];"1.计算法"Q =分位数Quantile 正态分布NormalDistribution [0,1],1-α 2 ;{m -Sw Q,m +Sw Q }"2.MeanCI"MeanCI X,KnownVariance →σ2,置信级别ConfidenceLevel →1-α"3.NormalCI"NormalCI [m,Sw ,置信级别ConfidenceLevel →1-α]"区间长度:"L =2Sw Q"相对区间长度:"r =L /m "(二)均值分布T =X -μSnt (n -1)——σ未知""1.计算法"Sw =S n ;m =平均值Mean [X ];Q =分位数Quantile 学生t 分布StudentTDistribution [n -1],1-α 2 ;{m -Sw Q,m +Sw Q }4 正态分布\\正态分布统计分析\\正态分布参数区间估计.nb"2.MeanCI"MeanCI [X,KnownVariance →无None,置信级别ConfidenceLevel →1-α]"3.StudentTCI"StudentTCI [m ,Sw ,n -2,置信级别ConfidenceLevel →1-α]"区间长度:"L =2Sw Q"相对区间长度:"r =L /m"(三)均值近似分布U =X --μσn~N[0,1]——σ未知""1.计算法"σ=σ1;Sw =σn ;m =平均值Mean [X ];Q =分位数Quantile 正态分布NormalDistribution [0,1],1-α 2 ;{m -Sw Q,m +Sw Q }"2.MeanCI"MeanCI X,KnownVariance →σ12,置信级别ConfidenceLevel →1-α"3.NormalCI"NormalCI [m,Sw ,置信级别ConfidenceLevel →1-α]"区间长度:"L =2Sw Q"相对区间长度:"r =L /m"(四)中位值分布F Xn +12=正则化的不完全贝⋯BetaRegularized [12补余误差函数Erfc [-x +μ2σ],1+n 2,1+n2],n =2k +1——σ已知""1.等尾区间:"σ=σ0;x =中位数Median [X ];μL =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized 1-α 2,1+n 2,1+n 2;μU =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized α 2,1+n 2,1+n 2;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"r =2L μU +μL "(五)中位值分布F Xn +12=正则化的不完全贝⋯BetaRegularized [12补余误差函数Erfc [-x +μ2σ ],1+n 2,1+n2],n =2k +1——σ未知""1.等尾区间:"σ=σ1;x =中位数Median [X ];正态分布\\正态分布统计分析\\正态分布参数区间估计.nb5中位数μL =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized 1-α 2,1+n 2,1+n 2;μU =x +2σ反互补误差函数InverseErfc 2正规化不完全贝塔函数的逆InverseBetaRegularized α 2,1+n 2,1+n 2;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"r =2L μU +μL"(六)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ]] χ2(2n )——σ已知"清除Clear [μ]σ=σ0;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];μL =μ/.求根FindRoot 累积分布函数CDF [F,x ]==α2,{μ,μ1} ;μU =μ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{μ,μ1} ;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"r =2L μU +μL"(七)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ ]]~χ2(2n )——σ未知"清除Clear [μ]σ=σ0;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];μL =μ/.求根FindRoot 累积分布函数CDF [F,x ]==α2,{μ,μ1} ;μU =μ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{μ,μ1} ;{μL,μU }"等尾区间长度:"L =μU -μL"相对区间长度:"6 正态分布\\正态分布统计分析\\正态分布参数区间估计.nbr =2L μU +μL"二、总体方差σ2的区间估计""(一)卡方分布χ2=∑i =1n (X i -μ)2σ2χ2(n )——μ已知"μ=μ0;T =n 平均值Mean (X -μ)2 ;F =卡方分布ChiSquareDistribution [n ];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;VL =T QL;VU =T QU;{VL,VU }"等尾区间长度:"L =VU -VL"相对区间长度:"r =2L VL +VU "(二)卡方分布χ2=(n -1)S 2σ2χ2(n -1)——μ未知"T = n -1 S 2;F =卡方分布ChiSquareDistribution [n -1];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;VL =T QL;VU =T QU;{VL,VU }"等尾区间长度:"L =VU -VL"相对区间长度:"r =2L VL +VU "(三)卡方分布χ2=∑i =1n (X i -μ )2σ2~χ2(n )——μ未知"μ=μ1;T =n 平均值Mean (X -μ)2 ;F =卡方分布ChiSquareDistribution [n ];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;VL =T QL;VU =T QU;{VL,VU }"等尾区间长度:"L =VU -VL"相对区间长度:"r =2L VL +VU"三、总体标准差σ的区间估计""(一)卡分布χ(n )——μ已知"μ=μ0;T =n Mean (X -μ)2 ;F =卡分布ChiDistribution [n ];"1.等尾区间:"正态分布\\正态分布统计分析\\正态分布参数区间估计.nb7QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;σL =T QL;σU =T QU;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU "(二)卡分布χ(n -1)——μ未知"T =n -1S;F =卡分布ChiDistribution [n -1];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;σL =T QL;σU =T QU;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU "(三)卡分布χχ(n )——μ未知"μ=μ1;T =n Mean (X -μ)2 ;F =卡分布ChiDistribution [n ];"1.等尾区间:"QL =分位数Quantile F,1-α 2 ;QU =分位数Quantile F,α 2 ;σL =T QL;σU =T QU;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU "(四)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ]] χ2(2n )——μ已知"清除Clear [σ]μ=μ0;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];σL =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{σ,σ1} ;σU =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵α2,{σ,σ1} ;{σL,σU }8 正态分布\\正态分布统计分析\\正态分布参数区间估计.nb"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σU"(五)卡方分布-2 i =1n对数Log [12补余误差函数Erfc [-X i +μ2σ]] χ2(2n )——μ未知"清除Clear [σ]μ=μ1;x =-2 i =1n对数Log12补余误差函数Erfc-X i +μ2σ;F =卡方分布ChiSquareDistribution [2n ];σL =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵1-α2,{σ,σ1} ;σU =σ/.求根FindRoot 累积分布函数CDF [F,x ]⩵α2,{σ,σ1} ;{σL,σU }"等尾区间长度:"L =σU -σL"相对区间长度:"r =2L σL +σUOut[11]=参数的极大似然估计:Out[13]={19.9803,3.00134}Out[14]=一、总体均值μ的区间估计Out[15]=(一)均值分布U =X --μσnN(0,1)——σ已知Out[17]=1.计算法Out[19]={19.9031,20.0576}Out[20]=2.MeanCIOut[21]={19.9031,20.0576}Out[22]=3.NormalCIOut[23]={19.9031,20.0576}Out[24]=区间长度:Out[25]=0.154542Out[26]=相对区间长度:Out[27]=0.00773471Out[28]=(二)均值分布T =X -μSn t (n -1)——σ未知正态分布\\正态分布统计分析\\正态分布参数区间估计.nb9Out[29]= 1.计算法Out[32]={19.903,20.0577} Out[33]= 2.MeanCIOut[34]={19.903,20.0577} Out[35]= 3.StudentTCIOut[36]={19.903,20.0577} Out[37]=区间长度:Out[38]=0.154648Out[39]=相对区间长度:Out[40]=0.00774003Out[41]=(三)均值近似分布U=X--μσ n~N[0,1]——σ未知Out[42]= 1.计算法Out[45]={19.903,20.0576} Out[46]= 2.MeanCIOut[47]={19.903,20.0576} Out[48]= 3.NormalCIOut[49]={19.903,20.0576} Out[50]=区间长度:Out[51]=0.154611Out[52]=相对区间长度:Out[53]=0.00773817Out[54]=(四)中位值分布F X n+12=BetaRegularized[12Erfc,1+n2,1+n2],n=2k+1——σ已知Out[55]= 1.等尾区间:Out[59]={19.8529,20.0466} Out[60]=等尾区间长度:Out[61]=0.193686Out[62]=相对区间长度:Out[63]=0.00970872Out[64]=(五)中位值分布F X n+12=BetaRegularized[12Erfc,1+n2,1+n2],n=2k+1——σ未知Out[65]= 1.等尾区间:Out[69]={19.8529,20.0466}Out[70]=等尾区间长度:10正态分布\\正态分布统计分析\\正态分布参数区间估计.nbOut[71]=0.193773Out[72]=相对区间长度:Out[73]=0.00971306Out[74]=(六)卡方分布-2 i =1n Log [12Erfcχ2(2n )——σ已知Out[78]={19.9015,20.0722}Out[79]=等尾区间长度:Out[80]=0.170753Out[81]=相对区间长度:Out[82]=0.00854324Out[83]=(七)卡方分布-2 i =1n Log [12Erfcχ2(2n )——σ未知Out[87]={19.9015,20.0722}Out[88]=等尾区间长度:Out[89]=0.170753Out[90]=相对区间长度:Out[91]=0.00854324Out[92]=二、总体方差σ2的区间估计Out[93]=(一)卡方分布χ2=∑i =1n (X i -μ)2σ2 χ2(n )——μ已知Out[95]= 1.等尾区间:Out[98]={8.68869,9.34535}Out[99]=等尾区间长度:Out[100]=0.656658Out[101]=相对区间长度:Out[102]=0.0728243Out[103]=(二)卡方分布χ2=(n -1)S 2σ2 χ2(n -1)——μ未知Out[105]= 1.等尾区间:Out[108]={8.68917,9.3459}Out[109]=等尾区间长度:Out[110]=0.656728Out[111]=相对区间长度:Out[112]=0.0728279Out[113]=(三)卡方分布χ2=∑i =1n (X i -μ )2σ2~χ2(n )——μ未知正态分布\\正态分布统计分析\\正态分布参数区间估计.nb 11Out[115]= 1.等尾区间:Out[118]={8.68832,9.34495}Out[119]=等尾区间长度:Out[120]=0.65663Out[121]=相对区间长度:Out[122]=0.0728243Out[123]=三、总体标准差σ的区间估计Out[124]=(一)卡分布χ(n )——μ已知Out[126]= 1.等尾区间:Out[129]={2.94766,3.05702}Out[130]=等尾区间长度:Out[131]=0.109358Out[132]=相对区间长度:Out[133]=0.0364242Out[134]=(二)卡分布χ(n -1)——μ未知Out[136]= 1.等尾区间:Out[139]={2.94774,3.05711}Out[140]=等尾区间长度:Out[141]=0.109366Out[142]=相对区间长度:Out[143]=0.0364261Out[144]=(三)卡分布χχ(n )——μ未知Out[146]= 1.等尾区间:Out[149]={2.9476,3.05695}Out[150]=等尾区间长度:Out[151]=0.109355Out[152]=相对区间长度:Out[153]=0.0364242Out[154]=(四)卡方分布-2 i =1n Log [12Erfcχ2(2n )——μ已知Out[158]={2.89486,3.15965}Out[159]=等尾区间长度:12 正态分布\\正态分布统计分析\\正态分布参数区间估计.nbOut[160]=0.264793Out[161]=相对区间长度:Out[162]=0.0874698Out[163]=(五)卡方分布-2 i =1n Log [12Erfcχ2(2n )——μ未知Out[167]={2.86679,3.12718}Out[168]=等尾区间长度:Out[169]=0.260386Out[170]=相对区间长度:Out[171]=0.0868828正态分布\\正态分布统计分析\\正态分布参数区间估计.nb 13。
第19讲 正态总体参数的区间估计教学目的:理解区间估计的概念,掌握各种条件下对一个正态总体的均值和方差进行区间估计的方法。
教学重点:置信区间的确定。
教学难点:对置信区间的理解。
教学时数: 2学时。
教学过程:第六章 参数估计§6.3正态总体参数的区间估计1. 区间估计的概念我们已经讨论了参数的点估计,但是对于一个估计量,人们在测量或计算时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度。
因此,对于未知参数θ,除了求出它的点估计ˆθ外,我们还希望估计出一个范围,并希望知道这个范围包含参数θ真值的可信程度。
设ˆθ为未知参数θ的估计量,其误差小于某个正数ε的概率为1(01)αα-<<,即ˆ{||}1P θθεα-<=-或αεθθεθ-=+<<-1)ˆˆ(P这表明,随机区间)ˆ,ˆ(εθεθ+-包含参数θ真值的概率(可信程度)为1α-,则这个区间)ˆ,ˆ(εθεθ+-就称为置信区间,1α-称为置信水平。
定义 设总体X 的分布中含有一个未知参数θ。
若对于给定的概率1(01)αα-<<,存在两个统计量1112(,,,)n X X X θθ= 与2212(,,,)n X X X θθ= ,使得12{}1P θθθα<<=-则随机区间12(,)θθ称为参数θ的置信水平为1α-的置信区间,1θ称为置信下限,2θ称为置信上限,1α-称为置信水平。
注(1)置信区间的含义:若反复抽样多次(各次的样本容量相等,均为n ),每一组样本值确定一个区间12(,)θθ,每个这样的区间要么包含θ的真值,要么不包含θ的真值。
按伯努利大数定理,在这么多的区间中,包含θ真值的约占100(1)%α-,不包含θ真值的约仅占100%α。
例如:若0.01α=,反复抽样1000次,则得到的1000个区间中,不包含θ真值的约为10个。
(2)置信区间的长度表示估计结果的精确性,而置信水平表示估计结果的可靠性。
142 概率论与数理统计 则称ˆθ为θ的相合估计量. 例如由第6章知,样本(1)k k ≥阶矩是总体X 的k 阶矩()k k E X μ=的相合估计量,进而若待估参数12(,,,)k g θμμμ=",其中g 为连续函数,则θ的矩估计量12ˆˆˆˆ(,,,)k g θμμμ="12(,,,)ng A A A ="是θ的相合估计量.由最大似然估计法得到的估计量,在一定条件下也具有相合性.相合性是对一个估计量的基本要求,若估计量不具有相合性,那么不论将样本容量n 取多么大,都不能将θ估计得足够准确,这样的估计量是不可取的.7.3置信区间前面讨论了参数的点估计,它是用样本算出的一个值去估计未知参数. 即点估计值仅仅是未知参数的一个近似值,它没有给出这个近似值的误差范围. 点估计方法不能回答估计量的可靠度与精度问题,不知道点估计值与总体参数的真值接近程度.若能给出一个估计区间,让我们能以较大把握来相信参数的真值被含在这个区间内,这样的估计就是所谓的区间估计.下面介绍区间估计的概念、方法,并重点讲述正态总体下参数的区间估计.7.3.1 置信区间的概念定义7.5 12,,,n X X X "是取自总体X 的一个样本,设θ为未知参数,对给定的数1α−(01)α<<,若存在统计量1212(,,,),(,,,),n n X X X X X X θθθθ==""使得{}1,P θθθα<<=− (7.6)则称随机区间(,θθ为θ的置信水平为1α−的置信区间,称1α−为置信度(置信水平),又分别称θ与θ为θ的置信下限与置信上限.如果取10.95α−=,那么(,θθ为θ的置信水平为0.95的置信区间,其含义是:重复抽样多次,得到多个样本值12(,,,)n x x x ",对应每个样本值确定一个置信区间(,θθ,每个区间要么包含了θ的真值,要么不包含θ的真值. 比如重复抽样100次,则其中大约有95个区间包含θ的真值,大约有5个区间不包含θ的真值.7.3.2 单个正态总体参数的置信区间正态总体是最常见的分布,下面我们讨论它的两个参数的置信区间.1.σ已知时,μ的置信区间设总体2~(,),X N μσ其中2σ已知,而μ为未知参数,12,,,n X X X "是取自总体X 的一个样本. 求μ的置信水平为1α−的置信区间.我们知道X 是μ的无偏估计,且有。
第二节区间估计、区间估计的概念和步骤点估计用一个确定的值去估计未知的参数,具有较大的风险。
因为估计量来自于一个随机抽取的样本,结果也就带有随机性。
样本估计量刚好等于所估计的总体参数的可能性极小。
但是如果说所估计的总体参数就落在估计值附近,即所估计的总体参数就落在以点估计所得到的估计值为中心的某一个小区间内,那就比较有把握了。
这种方法就是区间估计法。
在第四章中我们已经知道,一个足够大样本的均值的抽样分布是正态的,并且所抽到的样本均值落在总体均值的两侧x范围内的概率是0.683 ,落在总体均值2范围内的概率是0.955 ,落在总体均值3 范围内的概率是0.997 等等。
由此xx 可见,我们可以按照概率来估计总体均值是落在某一区间范围内的。
我们把这种对总体均值的估计称作区间估计。
从上述说明可以看到:1. 如果所估计的区间越大,参数被包含在该区间内的概率就越大。
2. 如果样本的方差越小,则在相同的概率下区间估计所得到的结果就越短。
一般地,设为总体的一个未知参数,1, 2 分别为由一组样本所确定的对的两个估计量,对于给定的0 1,若P( 1 2 )=1 ,则称区间[ 1, 2 ]为置信度是1 的置信区间。
1, 2 分别为置信区间的下限和上限。
1 称为置信度或置信概率,表示区间估计的可靠度。
称为置信度水平。
常用的置信度有0.80,0.90,0.95 0.99等。
一般来说,对于估计要求比较精确的问题,置信程度也要求高一些,在社会经济现象中,通常采用95%就可以了。
置信度反过来也表示可能犯错误的概率。
如置信度为95%,则犯错误的概率就为1-95%=5% 。
这一概率也就是置信度水平,也可理解为风险率或风险水平。
图5-2 根据不同样本所得到的置信度为95.5%的置信区间需要指出的是, P ( 1 2 )=1不应理解为 落在某一固定区间的概率。
因为这里 是一个参数,而不是随机变量,而1, 2 是根据抽样的结果计算出来的,因此,[ 1, 2 ]是一个随机区间。
数理统计12:枢轴量法、分位数、正态参数区间估计上篇⽂章中,我们探讨了区间估计的相关基本概念,也提出了Neyman置信区间,今天我们将聚焦于如何寻找置信区间的问题上,并对最常⽤的总体:正态总体给出⼀些置信区间的找法。
为了⽅便起见,以下我们都让置信⽔平为1−α。
由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!⽬录Part 1:枢轴量法枢轴变量法是基于点估计量的。
我们知道,统计量是样本的函数,这意味着统计量中不能含有未知参数,⽽参数的点估计量是⽤统计量的观测值作为待估参数的估计值,其分布⼀定含有待估参数,枢轴量法的思想就是,通过⼀定的变换,让点估计的函数的分布不含待估参数,进⽽基于分布来构造区间估计。
举⼀个简单的例⼦,对于正态总体N(µ,4),显然¯X∼N(µ,4/n),这⾥¯X的分布含有未知参数µ。
构造其枢轴量,就是找到⼀个函数变换,使得新的随机变量分布不含未知参数。
注意,这⾥⽤了随机变量这个词⽽不是统计量,意味着枢轴量不是统计量,即不能由样本观测值计算出,这是因为虽然枢轴量的分布不含未知参数,但是枢轴量的表现形式含有未知参数。
显然,这⾥¯X−µ∼N(0,4 n),这样,¯X−µ的分布已知,⾃然容易找到⼀个常数区间[c,d],使得这个区间有1−α的概率包含¯X−µ的观测值,虽然此时我们不知道区间的端点是多少,但⾄少知道端点可以是固定的数c,d。
对枢轴量使⽤不等式变换,即¯X−µ∈[c,d]⇒µ∈[¯X−d,¯X−c],得到置信⽔平为1−α的置信区间。
这就是枢轴量法的操作步骤。
不同分布族的参数对于总体的意义是不同的。
像正态分布N(µ,σ2)的均值µ,均匀分布U(a,a+r)的起点a这种参数主要影响观测值的⼤⼩,可以直接通过X−µ,X−a的⼿段消除,这种参数称为位置参数;正态分布N(µ,σ2)的标准差σ,指数分布E(λ)的速率λ这种参数主要影响观测值的离散程度,可以通过X/σ,λX之类的⼿段消除,这种参数称为尺度参数。