统计学提纲第五章总结
- 格式:doc
- 大小:416.00 KB
- 文档页数:15
统计学原理与实务各章节复习知识点归纳(考试复习资料精华版-根据历年考试重点以及老师画的重点原创整理)第一章总论重点在“第三节:统计学中的基本概念”考点一:掌握以下四组概念(含义及举例)——肯定考一个名词解释!①总体、总体单位(统计)总体:是由客观存在的,具有某种共同性质的许多个别事物构成的整体。
总体单位:构成总体的个别事物。
②标志、标志值及分类标志:说明总体单位特征的名称。
分类:Ⅰ按性质不同a.品质标志:说明总体单位的品质特征,一般用文字表现。
(有些品质标志虽然以数量表现,但实质表现产品质量差异。
例如产品质量的具体表现未“一等、二等、三等”。
)b.数量标志:说明总体单位的数量特征。
只能用数值来表现。
Ⅱ按变异情况可变标志:当一个标志在各个总体单位表现不尽相同时称为可变标志不变标志:……都相同……不变标志。
标志值:标志的具体表现。
③变量、变量值变量:指数量标志。
变量值:指数量标志值,具有客观存在性。
④指标的含义及分类(统计)指标:是综合反映统计总体某一数量特征的概念和数值,简称指标。
a.按其反映总体现象内容不同:数量指标(绝对数,绝对指标,总量指标),质量指标(相对数或平均数,相对指标和平均指标)。
b.按其作用不同:总量指标,相对指标和平均指标。
c.按反映的时间特点不同:试点指标和时期指标d.计量单位的特点:实物指标、价值指标和劳动指标。
★指标和标志的区别与联系:区别:①标志是说明总体单位特征的名称;指标是说明总体的数量特征;②标志既有反映总体单位数量特征的,也有反映总体单位品质特征;而指标只反映总体的数量特征;③凡是统计指标都具有综合的性质,而标志一般不具有。
联系:①许多指标由数量标志值汇总而得;②指标与数量标志可随统计研究目的而改变;课后习题:社会经济统计学研究对象的特点是:数量性、总体性、变异性。
统计研究运用的方法主要包括:大量观察法、统计分组法、综合指标法、统计模型法标志值就是标志表现。
第二章统计调查考点一:统计报表的分类①填报内容和实施范围:国家、部门和地方统计报表②调查范围:全面、非全面③报送周期长短:日报、旬报、月报、季报、半年报和年报④填报单位:基层、综合报表考点二:“普查”的含义普查:是普遍调查的简称。
第五章综合指标学习要点:了解各种指标的概念及作用,掌握相对指标、平均指标的特点及计算方法,变异指标的计算方法。
§1、总量指标§2、相对指标§3、平均指标§4、变异指标学习知识点:前言:1、总量指标是反映社会经济现象发展的总规模、总水平的综合指标。
将总体单位数相加或总体单位标志值相加,就可以得到说明在一定时间、空间条件下某种现象总体的总规模、总水平的指标,即总量指标。
如:2010年年年末为1339724852亿,反映是我国人口的总规模。
总量指标的作用:第一、总量指标可以用来反映一个国家的基本国情国力,反映一个地区、一个部门或一个单位的人力、物力和财力,是人们对客观事物认识的起点。
第二、总量指标可以用来作为制定政策、制定计划和实行科学管理的基本依据,也是检查政策、计划执行情况,反映社会经济活动绝对效果的重要指标。
第三、总量指标可以用来研究客观现象的数量表现及其发展的变化趋势。
第四、总量指标是计算相对指标和平均指标的基础。
一、总量指标的种类:1、按其反映现象总体内容的不同:• 总体单位总量(简称单位总量):指总体内所有单位的总数,表示总体本身规模的大小。
对于一个确定的统计总体,其总体单位总量是唯一确定的。
• 总体标志总量(简称标志总量):指总体中各单位标志值总和。
对于确定的统计总体,标志总量不是唯一的,而是随着标志的不同可计算不同的标志。
• 例:我们研究某市三级医院的基本情况,则全市三级医院的总数量是总体单位总量,而全部三级医院职工总人数、全部三级医院职工工资总额等就是总体指标总量。
2、按反映时间状况的不同,可分为时期指标和时点指标。
• 时期指标指反映某社会经济现象在一段时间活动结果的总量指标,它反映的是一段时间连续发生变化过程。
如产品总量、货物运输量、商品销售量、国内生产总量等。
• 时点指标是反映社会经济现象在某一时间(瞬间)状况上的总量指标。
如人口数、职工数、设备台数等。
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
医学统计学第七版教材第五章总结假设检验1.试述假设检验中α与P的联系与区别。
区别:(1)α值是事先确定的一个小的概率值。
为一次检验中,甘愿冒的风险。
(2)P值是在H,成立的条件下,出现当前检验统计量以及更极端状况的概率。
为一次检验中,实际冒的风险。
联系:以t检验为例,P、α都可以用t分布尾部面积大小表示。
Kα时,拒绝H。
假设,差异有统计学意义。
2.试述假设检验与置信区间的联系与区别。
联系:区间估计与假设检验是由样本数据对总体参数做出统计学推断的两种主要方法。
区别:置信区间用于说明量的大小,即推断总体参数的置信范围;假设检验用于推断质的不同,即判断两总体参数是否不等。
3.怎样正确运用单侧检验和双侧检验?需要根据数据的特征及专业知识进行确定。
若比较甲、乙两种方法有无差异,则应选用双侧检验。
若需要区分何者为优,,则应选用单侧检验。
在没有特殊专业知识说明的情况下,一般采用双侧检验即可。
4.试述两类错误的意义及其关系。
(1)Ⅰ类错误:如果检验假设H。
实际是正确的,由样本数据计算获得的检验统计量得出拒绝H。
的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设H。
(弃真)的错误称为Ⅰ类错误。
I类错误的概率用α表示。
(2)Ⅱ类错误:若检验假设H。
原本不正确(H正确),由样本数据计算获得的检验统计量得出不拒绝H。
(纳伪)的结论,此时就犯了Ⅱ类错误。
Ⅱ类错误的概率用β表示。
5.简述假设检验的基本思想。
假设检验是在局成立的前提下,从样本数据中寻找证据来拒绝H。
、接受H,的一种“反证”方法。
如果从样本数据中得到的证据不足,则只能不拒绝H,暂且认为H,成立,即样本与总体间的差异仅仅是由于抽样误差所引起。
拒绝H。
是根据某个界值,即根据小概率事件确定的。
所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05,则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝H。
,即有足够证据推断差异具有统计学意义。
统计学提纲第五章总结————————————————————————————————作者:————————————————————————————————日期:第五章抽样推断第一节抽样推断的相关基本概念一、抽样调查(一)什么是抽样调查抽样调查是按随机原则从总体中选取部分单位进行观察,用所获得的样本数据推算总体数量特征的一种非全面调查。
(二)抽样调查的特点:1.按随机原则去抽取调查单位。
随机原则也就是机会均等的原则,每个单位被抽中的机会相等。
其目的是保证抽出的样本是随机样本。
2.以样本数据估计总体参数或检验总体的某种假设。
抽样调查虽仅是直接调查被抽取的那一部分样本,但其目的是着眼于研究总体的数量特征。
3.抽样误差可以事先计算并加以控制。
(三)抽样调查的适用范围:1.能够解决全面调查无法或难以解决的问题;2.对能取得全面资料,但不必进行全面调查的情况。
3.可以补充和订正全面调查的结果;4.可用于对总体的某种假设进行检验,为行动决策提供依据。
(四)抽样调查的基本形式基本形式有简单随机抽样、类型随机抽样、等距抽样、整群抽样。
1.简单随机抽样按随机原则直接从总体中抽选样本单位进行调查。
这里,不论是重复抽样还是不重复抽样,每个单位都有相等的中选机会。
2.类型随机抽样(分层抽样)先将总体单位按某一标志分类,然后按随机原则直接从各类中抽取一定的样本单位进行调查。
3.等距抽样(机械抽样或系统抽样)它是先将总体单位按某一标志进行排列,再按照一定的间隔抽取样本单位进行调查。
4.整群抽样(集团抽样)整群抽样是先将总体单位按某一标志进行分群,再按随机原则从各群中抽取部分群,对抽中的群的所有单位进行调查是抽样组织方式。
二、抽样推断的概念及主要内容(一)抽样推断是在抽样调查的基础上,以样本实际数据计算的样本指标推算总体相应数量特征的一种统计分析方法。
(二)抽样推断的主要内容为:参数估计和假设检验三、抽样的有关基本概念(一)全及总体和样本总体1.全及总体简称总体,又称母体,它是指所要认识的研究对象的全体。
也就是具有某种共同性质的许多单位的集合体。
2.样本总体简称样本,又称子样,是从全及总体中抽取,代表全及总体的那部分单位的集合体。
全及总体是我们所要研究的对象,而样本总体则是我们所要观察和采集数据的对象,两者是有区别。
(二)样本容量和样本个数1.样本容量是指样本所包含的单位数。
2.样本个数又称样本可能数目,也就是从一个总体中可能抽取的样本个数。
重复抽样时:; 不重复抽样时:对于一次抽样调查,全及总体是唯一确定的,而一个全及总体可能抽出很多个样本总体;样本的个数和样本的容量有关,也和抽样的方法有关。
(三)参数和统计量1.根据全及总体各个单位的标志值或标志属性计算的,反映总体某一数量特征的综合指标称为全及指标,也称为总体参数,简称参数。
2.由样本总体各单位标志值或标志属性计算的,反映样本数量特征,并用以估计全及指标的综合指标称为样本指标,或称为抽样指标、统计量。
统计量有:样本平均数nx x ∑= 抽样成数p x =样本方差:()nx x ∑-=22σpq p p =-=)1(2σ样本标准差:()nx x ∑-=2σ[注意:()12-=∑-n S x x ]σ1(p=)pq-p=对于一个问题,全及总体是唯一确定的,而一个总体有多少样本;总体指标值是唯一确定的;而统计量是样本变量的函数,也就是样本统计量就有多种取值。
(四)重复抽样和不重复抽样重复抽样:从有N个单位的总体中,每次随机抽取1个单位,登记其标志表现后放回,再从总体中重新抽取,一直抽取n次。
不重复抽样:从有N个单位的总体中,每次随机抽取1个单位,登记其标志表现后不放回,再从总体中重新抽取,一直抽取n次。
第二节抽样误差一、误差调查资料的检查是指对资料的准确性、完整性、及时性检查(一)登记性误差凡是由于错误判断事实、错误登记事实或错误计算而发生的误差,登记性误差在全面调查与非全面调查中都可能存在。
它分为1.偶然登记性误差;2.系统登记性误差其特点是具有明显的倾向性和一贯性。
(二)代表性误差在没有登记性误差的条件下,由于用样本指标代表总体指标而产生的误差,它分为:1.偏差凡是由于违反随机原则抽样而产生的代表性误差,又称为系统性代表误差、非偶然性代表误差。
2.抽样误差 是指由于随机抽样的偶然因素,使样本的结构不足以代表总体各单位的结构,而引起抽样指标和总体指标之间的误差,也称为随机误差、偶然性代表误差。
抽样误差既不包括登记误差,也不包括系统性代表误差。
影响抽样误差的因素有:总体各单位标志值的差异程度;样本的单位数;抽样的方法;抽样调查的组织形式。
二、抽样平均误差。
抽样平均误差是反映抽样误差一般水平的指标,它反映了抽样指标与总体指标的平均离差程度,即样本指标与总体指标的标准差。
通常用抽样平均数的标准差来衡量MX x x ∑-=2)(μ MP p p∑-=2)(μi x X 为第i 个样本的平均数;为总体平均数; M 为样本个数i p P 为第i 个样本的成数;为总体成数;M 为样本个数抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。
平均误差大,说明样本指标对总体指标的代表性低;反之,则说明代表性高。
抽样平均数的平均数=总体平均数。
抽样平均误差的计算: (一)简单随机抽样条件下:1、重复抽样: nnσσμ==22、不重复抽样:)1(2--=N nN nσμ当总体单位数N 很大时,)1(2N n n-=σμ当N 很大且很小时,nσμ=其中,σ为总体标准差,n 为样本单位数,在总体标准差未知,用样本标准差2()1x x x S n -'=-∑代替σ;但如果是大样本时,可以用样本标准差nx x S x ∑-=2)(代替xS '。
(二)分层抽样条件下: 分类 1 2 … k 合计 总体单位数 … N 总体标准差 … 样本单位数 …n抽重复抽样:不重复抽样:若总体标准差未知时,可用样本标准差代替。
分层抽样为等比例抽样时: (三)整群抽样条件下:由于整群抽样一般采用不重复抽样,因而有:其中,R 为总体群数;r 为样本群数;为群(组)间方差。
为第i 群的样本平均数;为全样本平均数,。
三、抽样极限误差抽样极限误差是指用绝对值形式表示的样本指标与总体指标之间偏差的最大允许范围。
Xx x -=∆ Pp p -=∆即:x x x X x ∆+≤≤∆- p p p P p ∆+≤≤∆- 四、抽样误差的概率度抽样极限误差以抽样平均误差为标准单位来衡量。
即把极限误差 △x 或 △p 相应除以x μ或p μ,得出相对的误差程度t 倍,t 称为抽样误差的概率度。
于是有:x x t μ=∆或p p t μ=∆概率度与概率保证程度之间的几个数值关系:概率度1234概率保证程度 68.27% 95.45% 99.73% 99.99%五、样本容量的确定 在简单随机抽样下:1.在重复抽样的条件下,样本容量的确定:222xt n ∆=σ 22)1(x p p t n ∆-=2.在不重复抽样的条件下,样本容量:22222xx xNt n N t σσ=∆+ 222(1)(1)p Nt p p n N t p p -=∆+-第三节 抽样估计一、抽样估计的的概念抽样估计就是利用实际调查计算的样本指标值来估计相应的总体指标值。
抽样估计有点估计和区间估计两种估计量是根据样本数据来估计总体参数的形式。
一般情况下估计量就是样本统计量。
估计量的优良标准:(1)无偏性 要求样本指标值的平均数等于被估计的总体指标值,即无系统性误差。
(2)有效性 要求作为优良估计量的方差(标准差)应比其它估计量的方差(标准差)小,即估计量的数学期望等于总体参数;(3)一致性 当作为优良估计量的样本容量充分大时,抽样指标也应充分地靠近总体指标. 即估计量的误差随着样本容量的增大而减小。
二、点估计参数的点估计:直接以样本指标作为相应总体参数的估计量。
总体平均数的估计:用样本平均数估计总体平均数 三、区间估计参数的区间估计:根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限。
抽样估计的置信度是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。
注意:抽样估计的置信度并不是概率度,但两者之间存在一一对应的关系。
2.区间估计步骤:(1)计算抽样平均数和标准差。
(2)计算抽样平均误差(3)计算抽样极限误差x x t μ=∆(4)根据给定的抽样极限误差计算总体平均数的上下限x x x X x ∆+≤≤∆-如果抽样误差的概率度已给出,查《正态分布概率表》得出置信度。
四、抽样估计的精度x x X x x-∆==误差率 估计精度=1-误差率误差率是抽样的相对误差率。
概率保证程度,置信区间长度及估计精度的关系:概率保证程度越大,置信区间长度越长,估计精度越低;反之,概率保证程度越小,置信区间长度越短,估计精度越高。
例1、某学校进行一次统计学测验,为了解学生的考试情况,随机从全校统计学考生中抽选部分学生进行调查,所得资料如下:成绩60以下60-70 70-80 80-9090以上 组中值 55 65758595人数 102022408(1)试以95.45%的可靠性估计该校学生统计学的平均成绩的范围;(2)试以95.45%的可靠性估计该校学生成绩在80分以上的学生所占的比重的范围;(3)如果其它条件不变,将允许极限误差缩小一半,应抽取多少名学生?解:1、该校学生统计学平均成绩的范围: 计算样本平均数:∑∑∑∑⋅==ii iii i ff x f f x x 1008951055⨯++⨯=Λ=76.6(分)计算样本标准差:∑∑-=ii ff x x 2)(σ=11.38(分) 计算抽样平均误差:nxσμ=100377.11==1.1377(分)查《正态概率表》得出误差概率度t=2计算抽样极限误差:△x =t μx =2×1.1377=2.2754 该校学生考试的平均成绩的区间范围是: x-△x ≤X≤x+△x76.6-2.2754≤X≤76.6+2.275474.32≤X≤78.89在95.45%概率保证程度下,该校学生的平均成绩74.32%—78。
89.99%之间。
2、估计该校学生成绩在80分以上的学生所占的比重的范围 计算样本成数平均数:48=0.48100x p == 计算样本成数标准差:(1)0.480.520.4996p p σ=-=⨯=计算抽样平均误差:0.49960.04996100pnσμ=== 查《正态概率表》得出误差概率度t=2 计算抽样极限误差:20.049960.09992p p t μ∆==⨯=80分以上学生所占的比重的范围:p p p P p ∆+≤≤∆-P=p ±△p =0.48±0.09992 0.3801≤P≤0.5799在95.45%概率保证程度下,该校学生成绩在80分以上学生所占的比重在38.01%—57.99%之间。