第七章参数估计(统计学贾俊平)总结
- 格式:ppt
- 大小:551.00 KB
- 文档页数:1
第7章参数估计7.1 考点归纳【知识框架】【考点提示】(1)置信区间的含义理解(选择题、简答题考点);(2)估计量的三个评价标准(判断题、填空题、简答题考点);(3)区间估计的步骤(简答题考点)、总体参数的区间估计选择恰当的统计量(计算题考点);(4)必要样本容量的影响因素、计算(简答题、计算题考点)。
【核心考点】考点一:参数估计的基本原理1.置信区间(1)置信水平为95%的置信区间的含义:用某种方法构造的所有区间中有95%的区间包含总体参数的真值。
(2)置信度愈高(即估计的可靠性愈高),则置信区间相应也愈宽(即估计准确性愈低)。
(3)置信区间的特点:置信区间受样本影响,具有随机性,总体参数的真值是固定的。
一个特定的置信区间“总是包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题。
2.评价估计量的标准(1)无偏性:估计量抽样分布的期望值等于被估计的总体参数,即E(θ∧)=θ。
(2)有效性:估计量的方差尽可能小。
(3)一致性:随着样本量的增大,估计量的值越来越接近被估计总体的参数。
【提示】本考点常见考查方式:①直接考查置信水平为95%的置信区间的含义;②置信度、估计可靠性、置信区间的关系及应用;③置信区间的特点;④给出估计量的具体含义,判断体现了什么标准;⑤直接回答估计量的三个评价标准及具体含义(简答题)。
考点二:一个总体参数的区间估计表7-1 一个总体参数的区间估计【总结】一个总体参数的估计及所使用的分布见图7-1:图7-1 一个总体参数的估计及所使用的分布【真题精选】设总体X~N(μ,σ2),σ2已知,样本容量和置信水平固定,对不同的样本观测值,μ的置信区间的长度()。
[对外经济贸易大学2018研]A.变长B .变短C .保持不变D .不能确定 【答案】C【解析】在正态总体方差已知的条件下,μ的置信区间为/2x z ±ασ所以置信区间长度为/22Z α,当样本容量和置信水平固定时,置信区间长度保持不变。
统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。
第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。
2.解释描述统计与推断统计。
描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计研究的是如何利用样本数据来推断总体特征的统计方法。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。
4.解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。
5.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。
6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。
分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。
7.举例说明离散型变量和连续型变量。
离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。
使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
统计学(第七版贾俊平)第七章期末复习笔记(详细附例题详解及公式)第七章7.1估计量与估计值估计⽅法:(1)点估计:据估计、最⼤似然法、最⼩⼆乘法(2)区间估计置信⽔平:(1- α),α为总体参数未在区间内的⽐例;常⽤的置信⽔平:99%(α=0.01),95%(α=0.05),90%(α=0.10)评价估计量的标准:⽆偏性 有效性 ⼀致性7.2 ⼀个总体参数的区间估计7.2.1总体均值的区间估计:题型:(1)总体服从正态分布,⽅差已知 (⼤、⼩样本) ;(2)总体服从正态分布,⽅差未知 (⼤样本);(3)⾮正态分布,⼤样本例⼀:(1)总体服从正态分布,且⽅差已知(⼤、⼩样本)例⼆:(3)⾮正态分布,⼤样本(n>=30)题型:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)例三:(4)总体服从正态分布 ,但⽅差未知,⼩样本(n<30)总结:7.2.2 总体⽐例的区间估计题型:总体服从⼆项分布,可由正态分布来近似(只讨论⼤样本)例四:7.2.3 总体⽅差的区间估计题型:估计⼀个总体的⽅差或标准差(只讨论正态总体)例五:⼩结:7.3 两个总体参数的区间估计7.3.1 两个总体均值之差的区间估计(2)⾮正态分布,但两个总体都是⼤样本;例⼀:(3)例⼀:(1)例⼆: (2)题型:(1)两个匹配的⼤样本;(2)两个匹配的⼩样本例⼀:(2)7.3.2 两个总体⽐例之差的区间估计题型:两个总体服从⼆项分布,样本独⽴例⼀:7.3.3 两个总体⽅差⽐的区间估计题型:求两个总体的⽅差⽐例⼀:7.4 样本量的确定7.4.1 估计总体均值时的样本量的确定例⼀:7.4.2 估计总体⽐例时的样本量的确定例⼀:。
第 1 节参数的点估计一.数学概念与定义(1)点估计问题设总体的分布函数的形式已知的,其中是未知参数,借助于总体的一个样本,来估计未知参数的值的问题,称为参数的点估计问题。
点估计的问题就是要构造一个适当的统计量,用样本的一组观察值,得到的观察值,以此来估计未知参数。
我们称统计量为的估计量,它的观察值称为的估计值。
注意:估计量与估计值的区别。
(2)矩估计法(适用于总体未知的情况,但是必须保证总体的k阶原点距存在)设随机变量为总体,其分布函数为,其中为个未知参数(对于连续型的总体,给出概率,对于离散型的总体,给出分布律)。
假设总体的各阶原点矩存在,则是的函数,记作,即,对于来自总体的的一个样本,它的样本阶原点矩为,我们令,即从上述方程组中解出,分别记作……………以此作为参数的估计量,称为矩估计量。
如果测得样本观察值为,代入上述矩估计量,便得到未知参数的矩估计值为…………上述估计未知参数的方法叫做矩估计法。
用样本矩代替总体矩,从而得到未知参数估计的方法,称为矩估计法.考试题型:见p123例1 设总体2~(,)X N μσ,求未知参数2,μσ的矩估计.解 因为,2)(σ=X D ,所以 )(X E =μ,)(2X D =σ。
故2,μσ的矩估计分别为ˆXμ=,22ˆS =σ。
注: 1)总体均值的矩估计是样本均值X ;总体方差()D X 的矩估计是样本方差2S ;2)矩估计法直观、简便;估计总体均值和总体方差时不必知道总体的分布. 3)矩估计法需要总体的原点矩存在.例2 设总体)(~λP X ,未知参数0>λ.求λ的矩估计.解 因为 λ=)(X E ,所以 )(X E =λ.故λ的矩估计为X =λˆ。
注: 2S 也可算是λ的矩估计.例3: 设总体的概率密度为 其中,与为未知参数。
又设为总体的样本,求民的矩估计量。
解: 由于令 即解得与的矩估计量为.例4:p 书124例2(详细步骤)()E X μ=()EX(3)最大似然估计法 最大似然思想在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数θ作为真实的θ参数估计这就是最大似然思想。
统计学(第五版)贾俊平课后习题答案(完整版)第一章思考题1.1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。
1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。
1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。
它也是有类别的,但这些类别是有序的。
(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。
第一章导论概念:统计学:收集、处理、分析、解释数据井从数据中得出结论的科学。
统计的分类:描述统计:研究的是数据收集,处理,汇总,图表描述,文字概括与分析等统计方法。
推断统计:是研究如何利用样木数据进行推断总体特征。
数据:1.分类数据:对事物进行分类的结果数据,表现为类别,用文字来表述。
例如,人口按性别分为男、女两类2.顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3.数值型数据对事物的精确测度,结果表现为具体的数值。
例如:身高为175cm,190cm,200cm 参数:描述总体特征。
有总体均值(μ)、标准差()总体比例(T)统计量:描述样本特征,样本标准差(s),样木比例(p)第二章 数据的搜集1. 数据来源包括直接来源(一手数据)和间接来源(二手数据)2. 抽样方式包括概率抽样与非概率抽样3. 概率抽样:也称随机抽样。
按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中。
4.5.抽样误差:是由抽样的随机性引起的样本结果与总体真值之间的误差。
抽样误差并不是针对某个样本的检测结果与总体真是结果的差异而言,抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。
统计数据的分类按计量层次分类的数据顺序的数据数值型数据 按时间状况截 面 的 数 据时序的数据按收集方法 观察的数据 实验的数据6.抽样误差的大小与样本量的大小和总体的变异程度有关。
第三章数据的图表展示计算机实训内容,要求:1.数据筛选,自动筛选2.高级筛选,3.数据排序4.分类汇总-利用数据透视表5.对比条形图6.环形图7.累计频数图8.散点图9.雷达图等等频数分布图两种方法:工具-数据分析-直方图数值型和顺序数据数据-数据透视表数据透视表第四章数据的概括性度量集中趋势:算数平均数:几何平均数:指n个观察值连乘积的n次方根,计算平均发展速度时复利下的平均年利率,最常用的一种计算公式为,几何平均数≤算术平均数。
第七章 参数估计参数估计是数理统计研究的主要问题之一. 假设总体X ~N (μ,σ2),μ,σ2是未知参数,X 1,X 2,…,X n 是来自X 的样本,样本值是x 1,x 2,…,x n ,我们要由样本值来确定μ和σ2的估计值,这就是参数估计问题,参数估计分为点估计(Point estimation )和区间估计(Interval estimation).第一节 点估计所谓点估计是指把总体的未知参数估计为某个确定的值或在某个确定的点上,故点估计又称为定值估计.定义7.1 设总体X 的分布函数为F (x ,θ),θ是未知参数,X 1,X 2,…,X n 是X 的一样本,样本值为x 1,x 2,…,x n ,构造一个统计量(X 1,X 2,…,X n ),用它的观察值 (x 1,x 2,…,x n )作为θ的估计值,这种问题称为点估计问题.习惯上称随机变量(X 1,X 2,…,X n )为θ的估计量,称(x 1,x 2,…,x n )为的估计值.构造估计量(X 1,X 2,…,X n )的方法很多,下面仅介绍矩法和极大似然估计法. 1.矩法矩法(Moment method of estimation )是一种古老的估计方法.它是由英国统计学家皮尔逊(K .Pearson )于1894年首创的.它虽然古老,但目前仍常用.矩法估计的一般原则是:用样本矩作为总体矩的估计,若不够良好,再作适当调整. 矩法的一般作法:设总体X ~F (X ;θ1,θ2,…,θl )其中θ1,θ2,…,θl 均未知. (1) 如果总体X 的k 阶矩μk =E (X k ) (1≤k ≤l)均存在,则μk =μk (θ1,θ2,…,θl ),(1≤k ≤l ).(2) 令⎪⎪⎩⎪⎪⎨⎧.),,,(,),,,(,),,,(2122121211l l l l l A A A θθθμθθθμθθθμ其中A k (1≤k ≤l )为样本k 阶矩.求出方程组的解,ˆ,,ˆ,ˆ21l θθθ 我们称),,,(ˆˆ21n k k X X X θθ=为参数θk (1≤k ≤l )的矩估计量, ),,,(ˆˆ21nk k x x x θθ=为参数θk 的矩估计值. 例7.1 设总体X 的密度函数为:f (x )=⎩⎨⎧-><<+.,0),1(,10,)1(其他αααx x其中α未知,样本为(X 1,X 2,…,X n ),求参数α的矩法估计.解 A 1=X .由μ1=A 1及μ1=E (X )=21)1()(1++=+=⎰⎰+∞∞-ααααx x x x x xf d d , 有21++=ααX ,得121ˆ--=X Xα.例7.2 设X ~N (μ,σ2),μ,σ2未知,试用矩法对μ,σ2进行估计. 解⎪⎪⎩⎪⎪⎨⎧======∑∑==.1)(,1)(12222111ni i ni i X n A X E X n A X E μμ 又 E (X )=μ, E (X 2)=D (X )+(EX )2=σ2+μ2,那么 .1ˆˆ,ˆ2222S nn A X -=-==μσμ. 例7.3 在某班期末数学考试成绩中随机抽取9人的成绩.结果如下:试求该班数学成绩的平均分数、标准差的矩估计值.解 设X 为该班数学成绩,μ=E (X ),σ2=D (X ))558994(919191+++==∑= i i x x =75;2/19122)(819898⎥⎦⎤⎢⎣⎡-⋅=∑=i i x x s =12.14.⎪⎪⎩⎪⎪⎨⎧======∑∑==.91)(,91)(9122229111i i i i X A X E X A X E μμ 由于E (X 2)=D (X )+(EX )2=σ2+μ2,那么,2222228ˆˆˆ,().9X A A x S μσμ==-=-= 所以,该班数学成绩的平均分数的矩估计值x =μˆ=75分,标准差的矩估计值298ˆs =σ=12.14. 作矩法估计时无需知道总体的概率分布,只要知道总体矩即可.但矩法估计量有时不惟一,如总体X 服从参数为λ的泊松分布时,X 和B 2都是参数λ的矩法估计.2.极(最)大似然估计法极大似然估计法(Maximum likelihood estimation)只能在已知总体分布的前提下进行,为了对它的思想有所了解,我们先看一个例子.例7.4 假定一个盒子里装有许多大小相同的黑球和白球,并且假定它们的数目之比为3∶1,但不知是白球多还是黑球多,现在有放回地从盒中抽了3个球,试根据所抽3个球中黑球的数目确定是白球多还是黑球多.解 设所抽3个球中黑球数为X ,摸到黑球的概率为p ,则X 服从二项分布P {X =k }=k 3C p k(1-p )3-k , k =0,1,2,3.问题是p =1/4还是p =3/4?现根据样本中黑球数,对未知参数p 进行估计.抽样后,共有4种可能结果,其概率如表7-1所示.假如某次抽样中,只出现一个黑球,即X =1,p =1/4时,P {X =1}=27/64;p =3/4时,P {X =1}=9/64,这时我们就会选择p =1/4,即黑球数比白球数为1∶3.因为在一次试验中,事件“1个黑球”发生了.我们认为它应有较大的概率27/64(27/64>9/64),而27/64对应着参数p =1/4,同样可以考虑X =0,2,3的情形,最后可得p =⎪⎩⎪⎨⎧==.3,2,43,1,0,41时当时当x x(1) 似然函数在极大似然估计法中,最关键的问题是如何求得似然函数(定义下文给出),有了似然函数,问题就简单了,下面分两种情形来介绍似然函数. (a ) 离散型总体设总体X 为离散型,P {X =x }=p (x ,θ),其中θ为待估计的未知参数,假定x 1,x 2,…,x n 为样本X 1,X 2,…,X n 的一组观测值.P {X 1=x 1,X 2=x 2,…,X n =x n }=P {X 1=x 1}P {X 2=x 2}…P {X n =x n }=p (x 1,θ)p (x 2,θ)…p (x n ,θ)=∏=ni ix p 1),(θ.将∏=ni ix p 1),(θ看作是参数θ的函数,记为L (θ),即 L (θ)=∏=ni ix p 1),(θ. (7.1)(b ) 连续型总体设总体X 为连续型,已知其分布密度函数为f (x ,θ),θ为待估计的未知参数,则样本(X 1,X 2,…,X n )的联合密度为:f (x 1,θ)f (x 2,θ)…f (x n ,θ)=∏=ni ix f 1),(θ.将它也看作是关于参数θ的函数,记为L (θ),即L (θ)=∏=ni ix f 1),(θ. (7.2)由此可见:不管是离散型总体,还是连续型总体,只要知道它的概率分布或密度函数,我们总可以得到一个关于参数θ的函数L (θ),称L (θ)为似然函数.(2) 极大似然估计极大似然估计法的主要思想是:如果随机抽样得到的样本观测值为x 1,x 2,…,x n ,则我们应当这样来选取未知参数θ的值,使得出现该样本值的可能性最大,即使得似然函数L (θ)取最大值,从而求参数θ的极大似然估计的问题,就转化为求似然函数L (θ)的极值点的问题,一般来说,这个问题可以通过求解下面的方程来解决0)(=θθd d L . (7.3)然而,L (θ)是n 个函数的连乘积,求导数比较复杂,由于ln L (θ)是L (θ)的单调增函数,所以L (θ)与ln L (θ)在θ的同一点处取得极大值.于是求解(7.3)可转化为求解0)(=θθd dln L .(7.4)称ln L (θ)为对数似然函数,方程(7.4)为对数似然方程,求解此方程就可得到参数θ的估计值.如果总体X 的分布中含有k 个未知参数:θ1,θ2,…,θk ,则极大似然估计法也适用.此时,所得的似然函数是关于θ1,θ2,…,θk 的多元函数L (θ1,θ2,…,θk ),解下列方程组,就可得到θ1,θ2,…,θk 的估计值,⎪⎪⎪⎩⎪⎪⎪⎨⎧=∂∂=∂∂=∂∂.0),,,(ln ,0),,,(ln ,0),,,(ln 21221121k k k k L L L θθθθθθθθθθθθ(7.5) 例7.5 在泊松总体中抽取样本,其样本值为:x 1,x 2,…,x n ,试对泊松分布的未知参数λ作极大似然估计.解 因泊松总体是离散型的,其概率分布为:P {X =x }=λλ-e !x x,故似然函数为:L (λ)=∏∏==∑--⋅⋅==ni ni i x nixx x ni ii11!1!1λλλλee. ln L (λ)=11ln ln (!)nniii i n x x λλ==-+-∑∏,∑=+-=ni i x n 11)ln(λλλd d . 令λλd d ln =0,得: ∑=+-ni i x n 11λ=0.所以x x n ni i L ==∑=11ˆλ,λ的极大似然估计量为X L=λˆ(为了和λ的矩法估计区别起见,我们将λ的极大似然估计记为Lλˆ). 例7.6 设一批产品含有次品,今从中随机抽出100件,发现其中有8件次品,试求次品率θ的极大似然估计值.解 用极大似然法时必须明确总体的分布,现在题目没有说明这一点,故应先来确定总体的分布.设 X i =,100,,2,1,0,1 =⎩⎨⎧i ,i ,i 次取正品第次取次品第则X i 服从两点分布:12100p (x i ,θ)=P {X i =x i }=θ xi (1-θ)1-xi ,x i =0,1,故似然函数为:L (θ)=∑-∑=-==-=-∏1001100110010011)1()1(i ii i iix x i x x θθθθ由题知:∑=1001i ix =8,所以 L (θ)=θ8(1-θ)92. 两边取对数得:ln L (θ)=8ln θ+92ln (1-θ).对数似然方程为:θθθθ--=1928)(ln d d L =0.解之得θ=8/100=0.08.所以Lθˆ=0.08. 例7.7 设x 1,x 2,…,x n 为来自正态总体N (μ,σ2)的观测值,试求总体未知参数μ,σ2的极大似然估计.解 因正态总体为连续型,其密度函数为f (x )=222)(21σμσ--x e π,所以似然函数为:L (μ,σ2)=⎭⎬⎫⎩⎨⎧--⎪⎭⎫ ⎝⎛=⎭⎬⎫⎩⎨⎧--∑∏==n i i nni i x x 122122)(21exp 212)(exp 21μσσσμσππ ln L (μ,σ2)=∑=----n i i x n n 1222)(21ln 22ln 2μσσπ. 故似然方程组为:⎪⎪⎩⎪⎪⎨⎧=-+-=∂∂=-=∂∂∑∑==.0)(212),(ln ,0)(1),(ln 124222122ni i ni i x n L x L μσσσσμμσμσμ 解以上方程组得:⎪⎪⎩⎪⎪⎨⎧=-=-===∑∑∑===.ˆ)(1)(1,12121221B x x n x n x x n ni i n i i ni i μσμ 所以 ⎩⎨⎧==.ˆ,ˆ22B X L σμ例7.8 设总体X 服从[0,θ]上的均匀分布,X 1,X 2,…,X n 是来自X 的样本,求θ的矩法估计和极大似然估计.解 因为E (X )=θ/2,令X =E (X ),得.2ˆX =矩θ 又 f (x )=⎪⎩⎪⎨⎧≤≤.,0,0,1其他θθx所以L (θ)=n θ1,0≤x i ≤θ. 要L (θ)最大,θ必须尽可能小,又θ≥x i ,i =1,2,…,n ,所以{}ini L X ≤≤=1max ˆθ.第二节 估计量的评价标准设总体X 服从[0,θ]上的均匀分布,由上节例7可知ˆ2X θ=矩,{}1ˆmax L ii nX θ≤≤ 都是θ的估计,这两个估计哪一个好?下面我们首先讨论衡量估计量好坏的标准问题.1.无偏性定义7.2 若估计量(X 1,X 2,…,X n )的数学期望等于未知参数θ,即:ˆ()E θθ=, (7.6) 则称ˆθ为θ的无偏估计量(Non -deviation estimator ).估计量ˆθ的值不一定就是θ的真值,因为它是一个随机变量,若ˆθ是θ的无偏估计,则尽管ˆθ的值随样本值的不同而变化,但平均来说它会等于θ的真值.例7.9 设X 1,X 2,…,X n 为总体X 的一个样本,E (X )=μ,则样本平均数11nii X X n ==∑是μ的无偏估计量.证 因为E (X )=μ,所以E (X i )=μ,i =1,2,…,n ,于是1111()()n ni i i i E X E X E X n n ==⎛⎫== ⎪⎝⎭∑∑=μ.所以X 是μ的无偏估计量.例7.10 设有总体X ,E (X )=μ,D (X )=σ2,(X 1,X 2,…,X n )为从该总体中抽得的一个样本,样本方差S 2及二阶样本中心矩B 2=11()ni i X X n =-∑是否为总体方差σ2的无偏估计?解 因为E (S 2)=σ2,所以S 2是σ2的一个无偏估计,这也是我们称S 2为样本方差的理由.由于B 2=21n S n -, 那么 E (B 2)=2211()n n E S n nσ--=, 所以B 2不是σ2的一个无偏估计.还需指出:一般说来无偏估计量的函数并不是未知参数相应函数的无偏估计量.例如,当X ~N (μ,σ2)时,X 是μ的无偏估计量,但2X 不是μ2的无偏估计量,事实上:22222()()().E X D X E X nσμμ⎡⎤=+=+≠⎣⎦2.有效性对于未知参数θ,如果有两个无偏估计量1ˆθ与2ˆθ,即E (1ˆθ)=E (2ˆθ)=θ,那么在1ˆθ,2ˆθ中谁更好呢?此时我们自然希望对θ的平均偏差E (ˆθ-θ)2越小越好,即一个好的估计量应该有尽可能小的方差,这就是有效性.定义7.3 设1ˆθ和2ˆθ都是未知参数θ的无偏估计,若对任意的参数θ,有 D (1ˆθ)≤D (2ˆθ), (7.7)则称1ˆθ比2ˆθ有效. 如果1ˆθ比2ˆθ有效,则虽然1ˆθ还不是θ的真值,但1ˆθ在θ附近取值的密集程度较2ˆθ高,即用1ˆθ估计θ精度要高些. 例如,对正态总体N (μ,σ2),11ni i X X n ==∑,X i 和X 都是E (X )=μ的无偏估计量,但D (X )=2nσ≤D (X i )=σ2,故X 较个别观测值X i 有效.实际当中也是如此,比如要估计某个班学生的平均成绩,可用两种方法进行估计,一种是在该班任意抽一个同学,就以该同学的成绩作为全班的平均成绩;另一种方法是在该班抽取n 位同学,以这n 个同学的平均成绩作为全班的平均成绩,显然第二种方法比第一种方法好.3.一致性无偏性、有效性都是在样本容量n 一定的条件下进行讨论的,然而(X 1,X 2,…,X n )不仅与样本值有关,而且与样本容量n 有关,不妨记为n ,很自然,我们希望n 越大时,n 对θ的估计应该越精确.定义7.4 如果n 依概率收敛于θ,即∀ε>0,有{}ˆlim 1,nn P θθε→∞-<=,(7.8) 则称ˆnθ是θ的一致估计量(Uniform estimator ). 由辛钦大数定律可以证明:样本平均数X 是总体均值μ的一致估计量,样本的方差S 2及二阶样本中心矩B 2都是总体方差σ2的一致估计量.第三节 区间估计1.区间估计的概念上节我们介绍了参数的点估计,假设总体X ~N (μ,σ2),对于样本(X 1,X 2,…,X n ),ˆX μ=是参数μ的矩法估计和极大似然估计,并且满足无偏性和一致性.但实际上X =μ的可能性有多大呢?由于X 是一连续型随机变量,P {X =μ}=0,即ˆμ=μ的可能性为0,为此,我们希望给出μ的一个大致范围,使得μ有较高的概率在这个范围内,这就是区间估计问题.定义7.5 设1ˆθ(X 1,X 2,…,X n )及2ˆθ (X 1,X 2,…,X n )是两个统计量,如果对于给定的概率1-α(0<α<1),有:P {1ˆθ<θ<2ˆθ}=1-α, (7.9) 则称随机区间(1ˆθ,2ˆθ)为参数θ的置信区间(Confidence interval ),1ˆθ称为置信下限,2ˆθ称为置信上限,1-α叫置信概率或置信度(Confidence level).定义中的随机区间(1ˆθ,2ˆθ)的大小依赖于随机抽取的样本观测值,它可能包含θ,也可能不包含θ,(7.9)式的意义是指(1ˆθ,2ˆθ)以1-α的概率包含θ.例如,若取α=0.05,那么置信概率为1-α=0.95,这时,置信区间(1ˆθ,2ˆθ)的意义是指:在100次重复抽样中所得到的100个置信区间中,大约有95个区间包含参数真值θ,有5个区间不包含真值θ,亦即随机区间(1ˆθ,2ˆθ)包含参数θ真值的频率近似为0.95. 例7.11 设X ~N (μ,σ2),μ未知,σ2已知,样本X 1,X 2,…,X n 来自总体X ,求μ的置信区间,置信概率为1-α.解 因为X 1,X 2,…,X n 为来自X 的样本,而X ~N (μ,σ2),所以uX ~N (0,1),对于给定的α,查附录中表2可得上分位点2z α,使得2P z α⎫<⎬⎭=1-α,即22P X z X z ααμ⎧-<<+⎨⎩=1-α. 所以μ的置信概率为1-α的置信区间为X z X z αα⎛-+ ⎝. (7.10) 由(7.10)式可知置信区间的长度为22z α,若n 越大,置信区间就越短;若置信概率1-α越大,α就越小,2z α就越大,从而置信区间就越长.2.正态总体参数的区间估计由于在大多数情况下,我们所遇到的总体是服从正态分布的(有的是近似正态分布),故我们现在来重点讨论正态总体参数的区间估计问题.在下面的讨论中,总假定X ~N (μ,σ2),X 1,X 2,…,X n 为其样本. (1) 对μ的估计 分两种情况进行讨论. (a ) σ2已知此时就是例7.11的情形,结论是:μ的置信区间为22X z X z αα⎛-+ ⎝, 置信概率为1-α.(b ) σ2未知当σ2未知时,不能使用(7.10)式作为置信区间,因为(7.10)式中区间的端点与σ有关,考虑到S 2=211()1n ii X X n =--∑是σ2X σ换成S 得 TX ~t (n -1).对于给定的α,查附录中t 分布表4可得上分位点t σ/2(n -1),使得2(1)P t n α⎫<-⎬⎭=1-α,即22(1)(1)P X t n X t n ααμ⎧⎫-<<-⎨⎬⎩⎭=1-α.所以μ的置信概率为1-α的置信区间为22(1),(1)X t n X t n αα⎛⎫-- ⎪⎝⎭. (7.11)=,S 0,所以μ的置信区间也可写成22(1),(1)X t n X t n αα⎛⎫-+- ⎪⎝⎭.(7.12) 例7.12 某车间生产滚珠,已知其直径X ~N (μ,σ2),现从某一天生产的产品中随机地抽出6个,测得直径如下(单位:毫米)14.6 15.1 14.9 14.8 15.2 15.1试求滚珠直径X 的均值μ的置信概率为95%的置信区间.解 111(14.615.114.914.815.215.1)6n i i x x n ===+++++∑=14.95,s 0, t α/2(n -1)=t 0.025(5)=2.571,所以2(t n α-=2.571=0.24, 置信区间为(14.95-0.24,14.95+0.24),即(14.71,15.19),置信概率为95%.σ2的置信区间我们只考虑μ未知的情形.此时由于S 2=211()1n i i X X n =--∑是σ2的无偏估计,我们考虑22(1)n S σ-,由于222(1)~(1)n S n χσ--,所以,对于给定的α,2122222(1)(1)(1)n S P n n ααχχσ-⎧⎫--<<-⎨⎬⎩⎭=1-α. 即222221(1)(1)(1)(1)n S n S P n n αασχχ-⎧⎫--⎪⎪<<⎨⎬--⎪⎪⎩⎭=1-α.所以σ2的置信区间为2222221(1)(1),(1)(1)n S n S n n ααχχ-⎛⎫-- ⎪ ⎪--⎝⎭(7.13) 或222200221,(1)(1)nS nS n n ααχχ-⎛⎫ ⎪ ⎪--⎝⎭, 其中S 02=211()ni i X X n =-∑. 例7.13 某种钢丝的折断力服从正态分布,今从一批钢丝中任取10根,试验其折断力,得数据如下:572 570 578 568 596 576 584 572 580 566试求方差的置信概率为0.9的置信区间.解 因为111(572570566)10n i i x x n ===+++∑=576.2,s 02=2211n i i x x n =-∑=71.56, α=0.10,n -1=9,查附表得:2220.05(1)(9)n αχχ-==16.919,220.951(1)(9)n αχχ--==3.325,22021071.56(1)16.919ns n αχ⨯=-=42.30,220211071.56(1) 3.325ns n αχ-⨯=-=215.22.所以,σ2的置信概率为0.9的置信区间为(42.30,215.22).以上仅介绍了正态总体的均值和方差两个参数的区间估计方法.在有些问题中并不知道总体X 服从什么分布,要对E (X )=μ作区间估计,在这种情况下只要X 的方差σ2已知,并且样本容量n 很大,X 准正态分布N (0,1),因而μ的置信概率为1-α的近似置信区间为X z X z αα⎛-+ ⎝.小 结参数估计问题分为点估计和区间估计.设θ是总体X 的待估计参数.用统计量ˆθ=ˆθ(X 1,X 2,…,X n )来估计θ称ˆθ是θ的估计量,点估计只给出未知参数θ的单一估计.本章介绍了两种点估计的方法:矩估计法和极大似然估计法.矩法的做法:设总体X ~F (X ;θ1,θ2,…,θl )其中θk (1≤k ≤l )为未知参数. (1) 求总体X 的k (1≤k ≤l )阶矩E (x k ); (2) 求方程组112112(,,,)(),(,,,)().l l l l l E X A E X A μθθθμθθθ==⎧⎪⎨⎪==⎩的一组解1ˆθ,2ˆθ,…, ˆl θ,那么ˆk θ=ˆk θ (X 1,X 2,…,X n )(1≤k ≤l)为k 的矩估计量. ˆkθ(x 1,x 2,…,x n )为θk 的矩估计值. 极大似然估计法的思想是若已观察到样本值为(x 1,x 2,…,x n ),而取到这一样本值的概率为P =P (θ1,θ2,…,θl ),我们就取θk (1≤k ≤l )的估计值使概率P 达到最大,其一般做法如下: (1) 写出似然函数L =L (θ1,θ2,…,θl ) 当总体X 是离散型随机变量时,L =121(;,,,)nil i P x θθθ=∏,当总体X 是连续型随机变量时L =121(;,,,)nil i f x θθθ=∏,(2) 对L 取对数ln L =121ln (;,,,)nil i f x θθθ=∑,(3) 求出方程组ln kLθ∂∂=0, k =1,2,…,l . 的一组解ˆk θ=ˆk θ (x 1,…,x n ) (1≤k ≤l )即k 为未知参数θ的极大似然估计值,ˆkθ=(X 1,X 2,…,X n )为θk 的极大似然估计量.在统计问题中往往先使用极大似然估计法,在此法使用不方便时,再用矩估计法进行未知参数的点估计.对于一个未知参数可以提出不同的估计量,那么就需要给出评定估计量好坏的标准.本章介绍了三个标准:无偏性、有效性、一致性.重点是无偏性.点估计不能反映估计的精度,我们就引人区间估计.设θ是总体X 的未知参数,1ˆθ,2ˆθ均是样本X 1,X 2,…,X n 的统计量,若对给定值α(0<α<1)满足P (1ˆθ<θ<2ˆθ)=1-α,称1-α为置信度或置信概率,(1ˆθ,2ˆθ)为θ的置信度为1-α的置信区间.参数的区间估计中一个典型、重要的问题是正态总体X (X ~N (μ,σ2))中μ或σ2的区间估计,其置信区间如表7-3所示.表7-3 正态总体的均值、方差的置信度为(1-α)的置信区间区间估计给出了估计的精度与可靠度(1-α),其精度与可靠度是相互制约的即精度越高(置信区间长度越小),可靠度越低;反之亦然.在实际中,应先固定可靠度,再估计精度. 重要术语及主题矩估计量 极大似然估计量估计量的评选标准:无偏性、有效性、一致性, 参数θ的置信度为(1-α)的置信区间, 单个正态总体均值、方差的置信区间.习 题 七1.设总体X 服从二项分布b (n ,p ),n 已知,X 1,X 2,…,X n 为来自X 的样本,求参数p 的矩法估计.2.设总体X 的密度函数f (x ,θ)=22(),0,0,.x x θθθ⎧-<<⎪⎨⎪⎩其他X 1,X 2,…,X n 为其样本,试求参数θ的矩法估计.3.设总体X 的密度函数为f (x ,θ),X 1,X 2,…,X n 为其样本,求θ的极大似然估计.(1) f (x ,θ)=,0,0,0.e x x x θθ-⎧≥⎨<⎩(2) f (x ,θ)=1,01,0,.x x θθ-⎧<<⎨⎩其他5.随机变量X 服从[0,θ]上的均匀分布,今得X 的样本观测值:0.9,0.8,0.2,0.8,0.4,0.4,0.7,0.6,求θ的矩法估计和极大似然估计,它们是否为θ的无偏估计.6.设X 1,X 2,…,X n 是取自总体X 的样本,E (X )=μ,D (X )=σ2,2ˆσ=k 1211()n i ii XX -+=-∑,问k 为何值时2ˆσ为σ2的无偏估计. 7.设X 1,X 2是从正态总体N (μ,σ2)中抽取的样本112212312211311ˆˆˆ;;;334422X X X X X X μμμ=+=+=+ 试证123ˆˆˆ,,μμμ都是μ的无偏估计量,并求出每一估计量的方差. 8.某车间生产的螺钉,其直径X ~N (μ,σ2),由过去的经验知道σ2=0.06,今随机抽取6枚,测得其长度(单位mm )如下:14.7 15.0 14.8 14.9 15.1 15.2 试求μ的置信概率为0.95的置信区间.9.总体X ~N (μ,σ2),σ2已知,问需抽取容量n 多大的样本,才能使μ的置信概率为1-α,且置信区间的长度不大于L ? 10.设某种砖头的抗压强度X ~N (μ,σ2),今随机抽取20块砖头,测得数据如下(kg ·cm -2):64 69 49 92 55 97 41 84 88 99 84 66 100 98 72 74 87 84 48 81 (1) 求μ的置信概率为0.95的置信区间. (2) 求σ2的置信概率为0.95的置信区间. 11.设总体X ~f (x )=(1),01;10,.x x θθθ⎧+<<>-⎨⎩其中其他 X 1,X 2,…,X n 是X 的一个样本,求θ的矩估计量及极大似然估计量. (1997年研考)12.设总体X ~f (x )= 36(),0;0,.xx x θθθ⎧-<<⎪⎨⎪⎩其他X 1,X 2,…,X n 为总体X 的一个样本(1) 求θ的矩估计量;(2) 求ˆ()D θ. (1999研考) 13.设某种电子元件的使用寿命X 的概率密度函数为f (x ,θ)= 2()2,0;0,.e x x x θθ--⎧>⎨≤⎩其中θ(θ>0)为未知参数,又设x 1,x 2,…,x n 是总体X 的一组样本观察值,求θ的极大似然估计值. (2000研考)估计值和极大似然估计值. (2002研考)15.设总体X 的分布函数为F (x ,β)=1,,0,.x xx ββααα⎧->⎪⎨⎪<⎩其中未知参数β>1,α>0,设X 1,X 2,…,X n 为来自总体X 的样本(1) 当α=1时,求β的矩估计量;(2) 当α=1时,求β的极大似然估计量;(3) 当β=2时,求α的极大似然估计量. (2004研考) 16.从正态总体X ~N (3.4,62)中抽取容量为n 的样本,如果其样本均值位于区间(1.4,5.4)内的概率不小于0.95,问n 至少应取多大?2/2()d zt z t ϕ-=⎰(1998研考)17. 设总体X 的概率密度为f (x ,θ)=,01,1,12,0,.x x θθ<<⎧⎪-≤<⎨⎪⎩其他 其中θ是未知参数(0<θ<1),X 1,X 2,…,X n 为来自总体X 的简单随机样本,记N 的样本值x 1,x 2,…,x n 中小于1的个数.求: (1) θ的矩估计;(2) θ的最大似然估计. (2006研考)。
第一章统计:收集、处理、分析、解释数据并从数据中得出结论的科学。
数据1. 分类数据对事物进行分类的结果数据,表现为类别,用文字来表述.例如,人口按性别分为男、女两类2. 顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3. 数值型数据对事物的精确测度,结果表现为具体的数值.例如:身高为175cm ,168cm,183cm总体–所研究的全部元素的集合,其中的每一个元素称为个体–分为有限总体和无限总体.有限总体的范围能够明确确定,且元素的数目是有限的.无限总体所包括的元素是无限的,不可数的样本–从总体中抽取的一部分元素的集合–构成样本的元素数目称为样本容量参数:描述总体特征。
有总体均值()、标准差(σ)总体比例(π)统计量:描述样本特征。
样本标准差(s),样本比例(p)变量:说明现象某种特征,分类,顺序,数值型:离散型,连续型。
经验,理论变量描述统计研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计是研究如何利用样本数据进行推断总体特征第二章间接数据(查询的)与直接数据:调查(通常是对社会现象而言的)普查信息全面完整。
再一个是实验。
概率抽样:也称随机抽样。
按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中–每个单位被抽中的概率是已知的,或是可以计算出来的–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的分层抽样:优点:保证样本的结构与总体的结构比较相近将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层的目标量进行估计整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查优点:抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是统计的精度较差系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位操作简便,可提高估计的精度多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查–群是初级抽样单位,第二阶段抽取的是最终抽样单位。
第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。
2.解释描述统计与推断统计。
描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计研究的是如何利用样本数据来推断总体特征的统计方法。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。
4.解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。
5.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。
6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。
分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。
7.举例说明离散型变量和连续型变量。
离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。
使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。