第五章比率估计与回归估计
- 格式:ppt
- 大小:1.75 MB
- 文档页数:35
Chap5比估计与回归估计教学要求:重难点:引语:(请学生回顾)前面介绍过的目标量有四个类型:总体均值、总体总量、总体比例、两个指标的总数或均值的比值R,在简单随机抽样和分层抽样中讨论的目标都是前三类,且它们本质上是一类,相互之间可类推。
本章讨论第四类目标量比值R的估计,这是第一个问题。
比如服装消费支出占总支出的比值,在校儿童对全体儿童的比重。
其次前面所用的估计量是简单估计,它只涉及所估计的指标本身。
如果有另一个与Y关系密切(比例关系或线性回归关系)的指标X可作为辅助变量,来构造另一类估计量,即比估计量或回归估计量,来提高估计精度,这是第二问题。
如调查每月每户平均消费,消费通常与每户人口数密切相关,可用每户人口数作为辅助变量,先估计每月每户平均消费与每户人口数的比值R,然后利用已知的每户平均人口,就可得到每月每户平均消费的估计值。
由于这两个问题之间存在密切的内在关系,因此放在这一章节一起讨论。
5.1比估计1. 基本概念考虑到有两个指标量Y和X,不妨将总体记为⎭⎬⎫⎩⎨⎧N N X X X Y Y Y ,...,, ,... 2,12,1,对应样本为⎭⎬⎫⎩⎨⎧n n x x x y y y ,...,,...,2,12,1,如果要估计的是总体比值X YXY R ==,则总体比值R可用样本的比值 xyR ∆=ˆ进行估计,该估计量称为比值估计量.当调查指标仅为Y,X为辅助变量时,在∑==Ni iXX 1或NXX Ni i∑==1已知时,Y 和Y可用X R y R ˆ∆= X R N y N Y RR ˆˆ==∆分别进行估计,称为比(比率)估计量.这三者通称为比估计量,它们之间只相差一个常数,相互之间可推导,研究时只选择一个即可.2. 性质我们知道简单估计量是无偏估计,其均值误差等于其方差.但对于比估计量却不具有无偏性,而是渐近无偏.其均值误差与方差有差异,但偏倚不大.可证:对于简单随机抽样,当n 很大时,R RE ≈)ˆ( 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YX n fR V R MSE Ni i i简要证明: xx R y R x y R R-=-=-ˆ 当n 很大时,x X ≈,代入上式分母中,有[]0)(1)()(1)()ˆ(=-=-=-≈-X R Y Xx RE y E X X x R y E R RE 所以,当n 很大时R RE ≈)ˆ(.此时 222()ˆˆˆ()()()E y Rx V R MSE R E R R X-≈=-≈ 对每个总体单元,令),...,2,1(N i RX Y G i i i =-=,对每个样本单元有),...,2,1(n i Rx y g i i i =-=,则其总体均值和样本均值分别为0=-=X R Y G x R y g -=因而 ==-22)()(g E x R y E )()()(2g V g E g V =+=21G S nf -1)(112---=∑=N G G n fNi i 1)(112---=∑=N RX Y nfNi i i所以,当n 很大时 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YXn fR V RMSE Ni i i此方差的估计量可采用1)ˆ(1)ˆ(1221--⋅-≈∑=n x R yXn fRv ni ii或 1)ˆ(1)ˆ(1222--⋅-≈∑=n x R yx n fRv ni ii说明:这两个方差估计量很难比较谁优谁劣,对不同总体有不同结论。
Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。
他获得了一个遍布全国范围的30个社区(commune )的样本,截至1802年9月23日总共有2037615居民。
在包括1802年9月23日以前的三年中,215599个新生儿在30个commune 。
拉普拉斯认为30个commune 的每年注册的新生儿数为215599/3=71866.33。
把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。
具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。
调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。
一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。
辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。
第二,x y的抽样分布较ux y 的抽样分布变动性要小得多。
第三,辅助指标的总体总量或总体均值已知。
比率估计、回归估计需要有足够的样本量才能保证估计的有效。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
简单地想要估计一个比率:假定总体由面积不同农业用地构成,i y i =地谷物的产量,i x i =地的面积,B=每亩谷物的平均产量。
想要估计一个总体总数,但总体大小N 是未知的。
但是我们知道,于是可以通过y N t y =ˆ来估计N,由此我们可以使用不同于总数N 的方法而是采用辅助变量来进行测量。
要估计渔网中长度长于12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm 的鱼所占的比例,用鱼的总数N 乘以这个比例即可得到,但如果N 未知不能使用。
能称量渔网中鱼的总重量。
鱼的长度与其重量相关。
xt yt x yr =ˆ调整来自样本的估计量以便它们反映人口统计学的总量。
在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
比估计与回归估计在分层抽样中的应用摘要:本文主要探讨了在分层抽样中,估计与回归估计的应用。
首先,我们介绍了分层抽样的基本概念和方法,然后详细阐述了估计和回归估计的基本原理和应用。
我们发现,在分层抽样中,估计和回归估计可以有效地提高样本的代表性和估计的准确性。
此外,我们还讨论了估计和回归估计在实际应用中可能遇到的问题和挑战,以及如何解决这些问题。
最后,我们通过实证研究验证了估计和回归估计在分层抽样中的有效性。
关键词:分层抽样;估计;回归估计;样本代表性;估计准确性;问题与挑战;实证研究。
一、引言1 研究背景和意义在研究背景和意义上,分层抽样是一种复杂而有效的抽样方法,它的主要目标是从复杂的总体中抽取出具有代表性的研究样本。
这种方法特别适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
具体来说,分层抽样将总体按照某种共同特性或属性划分为多个较小的子组或层,再从每个层内独立随机抽取样本。
估计与回归估计作为统计学中的核心概念,其主要目标是根据样本数据来估计或预测一个未知的总体参数。
在分层抽样的背景下,估计和回归估计的应用变得尤为重要。
因为通过这两个方法,我们可以有效地提高样本的代表性和估计的准确性,进而更准确地对总体进行推断和预测。
然而,在实际应用中,我们可能会遇到一些问题和挑战,如如何选择合适的分层变量,如何处理层间异质性等问题。
因此,如何解决这些问题,优化估计和回归估计在分层抽样中的应用,是本研究的重要任务。
最后,我们将通过实证研究来验证估计和回归估计在分层抽样中的有效性。
2 研究目的和方法2.1研究目的2.1.1对比估计与回归估计在分层抽样中的优劣:通过对比研究,明确哪种估计方法在分层抽样中更有效,或者在不同情况下哪种方法更适用。
2.1.2探讨分层抽样中估计与回归估计的应用:研究如何在分层抽样中应用比估计和回归估计,以及如何根据实际情况选择合适的估计方法。
2.1.3为分层抽样中的估计方法提供理论支持和实践指导:通过对比研究,为分层抽样中的估计方法提供理论依据和实践指导,帮助相关领域的研究者和实践者更好地理解和应用这些方法。