统计学第五章
- 格式:doc
- 大小:575.00 KB
- 文档页数:22
第五章综合指标学习要点:了解各种指标的概念及作用,掌握相对指标、平均指标的特点及计算方法,变异指标的计算方法。
§1、总量指标§2、相对指标§3、平均指标§4、变异指标学习知识点:前言:1、总量指标是反映社会经济现象发展的总规模、总水平的综合指标。
将总体单位数相加或总体单位标志值相加,就可以得到说明在一定时间、空间条件下某种现象总体的总规模、总水平的指标,即总量指标。
如:2010年年年末为1339724852亿,反映是我国人口的总规模。
总量指标的作用:第一、总量指标可以用来反映一个国家的基本国情国力,反映一个地区、一个部门或一个单位的人力、物力和财力,是人们对客观事物认识的起点。
第二、总量指标可以用来作为制定政策、制定计划和实行科学管理的基本依据,也是检查政策、计划执行情况,反映社会经济活动绝对效果的重要指标。
第三、总量指标可以用来研究客观现象的数量表现及其发展的变化趋势。
第四、总量指标是计算相对指标和平均指标的基础。
一、总量指标的种类:1、按其反映现象总体内容的不同:• 总体单位总量(简称单位总量):指总体内所有单位的总数,表示总体本身规模的大小。
对于一个确定的统计总体,其总体单位总量是唯一确定的。
• 总体标志总量(简称标志总量):指总体中各单位标志值总和。
对于确定的统计总体,标志总量不是唯一的,而是随着标志的不同可计算不同的标志。
• 例:我们研究某市三级医院的基本情况,则全市三级医院的总数量是总体单位总量,而全部三级医院职工总人数、全部三级医院职工工资总额等就是总体指标总量。
2、按反映时间状况的不同,可分为时期指标和时点指标。
• 时期指标指反映某社会经济现象在一段时间活动结果的总量指标,它反映的是一段时间连续发生变化过程。
如产品总量、货物运输量、商品销售量、国内生产总量等。
• 时点指标是反映社会经济现象在某一时间(瞬间)状况上的总量指标。
如人口数、职工数、设备台数等。
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
第五章方差分析思考与练习参考答案1.试述方差分析的基本思想。
解答:方差分析的基本思想是,将观察值之间的总变差分解为由所研究的因素引起的变差和由随机误差项引起的变差,通过对这两类变差的比较做出接受或拒绝原假设的判断的。
2.方差分析有哪些基本假设条件?如何检验这些假设条件? 解答:(1)在各个总体中因变量都服从正态分布;(2 )在各个总体中因变量的方差都相等;(3)各个观测值之间是相互独立的。
正态性检验:各组数据的直方图/峰度系数、偏度系数/Q-Q图,K-S检验*等方差齐性检验:计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。
最大值和最小值的比例等于 1.83<2。
也可以采用Levene检验方法。
独立性检验:检查样本数据获取的方式,确定样本之间无相关性。
3.对三个不同专业的学生的统计学成绩进行比较研究,每个专业随机抽取6人。
根据数据得到的方差分析表的部分内容如表5-21。
请完成该表格。
如果显著性水平a=0.05,能认为三个专业的考试成绩有显著差异吗?表5-21不同专业考试成绩的方差分析表解答:表不同专业考试成绩的方差分析表查f分布可知,p(F< 0.9067964)= 0.7952296,在显著性水平a=0.05时,不能拒绝原假设,认为三个专业的成绩无显著差异。
根据以下背景资料和数据回答4-7题。
为测试A、B、C、D、E五种节食方案,一位营养学家选择了50名志愿者随机分成五组,每组采用一种方案测量两个月后每个人的降低的体重,得到的实验数据如表5-22。
表5-22不同节食方案的降低的体重(公斤)序号 万案A 万案B 万案C 万案D 万案E1 6.5 2.9 8 5.1 11.52 11.6 5.5 11.9 2.5 13.23 7.7 4.3 8.5 1.5 114 8.7 3.6 8.9 2.2 13.15 8.4 3.9 9.1 1.4 13.86 4.1 6.7 11.4 3.1 12.8 7 8.7 4.5 12.6 5.4 12 8 6.6 1.7 12.4 1.9 11.5 9 7.1 6.59.4 4.1 14.6 108.9 5.4 10.6 3.6 13.74.不同节食方案的实验效果的描述统计资料如表5-23。
第五章 概率与概率分布§1 随机事件及其概率一、随机事件的几个基本概念确定现象:在一定条件下必然出现某种结果。
随机现象:在一定条件下,可能出现的结果不止一种,且不能事先断定会出现那种结果。
随机试验:对客观随机现象的观察,满足三个条件:(1) 相同条件下可重复;(2) 所有可能的结果已知,且不止一种结果; (3) 试验前,不能断定哪种结果出现。
基本事件:随机试验的每一种可能的结果。
样本空间:所有基本事件构成的集合,记为Ω.事件: Ω的子集。
由若干基本事件构成的集合,记为A,B,C,….不可能事件:Φ 必然事件: Ω注意不可能事件和概率为0的事件的区别,必然事件和概率为1的事件的区别。
事件可以运算,且运算律与集合相同。
对立事件:如果Ω⊆A ,则A A \Ω=称为A 的对立事件。
不相容事件:如果Φ=⋂B A ,则称A 与B 互为不相容事件。
二、事件的概率概率是对事件发生的可能性大小的一种测度,记为)(A P . 古典定义:事件的个数样本空间所包含的基本数所包含的基本事件的个事件A A P =)(该定义对随机试验有两个基本假定: (1) 样本空间有限;(2) 基本事件发生的可能性完全相同。
如抛掷均匀的骰子,均匀的硬币等。
统计定义(试验概率)在可进行重复试验的条件下,用试验中各种结果出现的频率来估计对应事件的概率。
如,产品合格率。
主观概率人们利用知识或经验对一个事件发生的可能性大小的判断。
如对第二天股市大盘走势的判断。
个股的涨跌等。
概率的数学定义:设E 是随机试验,Ω是它的样本空间。
对于E 的每一事件,赋予一个实数,记为)(A P 。
如果集合函数)(•P 满足下列条件:1) 对每一事件A ,有0)(≥A P ; 2) 1)(=ΩP ;3) 设 ,,21A A 两两互不相容,则有 ++=⋃)()()(2121A P A P A A P , 则称)(A P 为事件A 的概率。
三、关于概率计算的几个例子例5.1 某钢铁公司所属三个厂的职工人数如下表:从该公司中随机抽取一人,问:(1)该职工为男性的概率?(2)该职工为炼钢厂职工的概率?例5.2 某工厂为了节约用电,规定每天的用电量指标为1000度,按照上个月的用电记录,30天中有12天的用电量超过指标,若第二个月仍没有具体的节电措施,试问该月的第一天用电量超过指标的概率。
例5.3在例5.2中若第二个月采取了节措施,预计超过用电指标的概率将大大降低。
因此上一个月超过用电指标的概率就不适用了。
要预计下一个月第一天用电量超过指标的概率要请该厂管理用电的工程师根据采用节电措施后的情况进行预测。
该工程师根据该厂过去的用电情况和采用节电措施后可以节电的程度判断,用电超过指标的概率为10%,这就属于主观概率。
§2 概率的性质与运算规则一、概率的性质:见数学定义二、概率的运算规则:与集合运算律相同,略。
例5.4利用例5.1的资料,随机抽取一名职工,计算该职工为炼钢厂或轧钢厂的概率。
BPAP+⋃=A(B())()P例5.5设某地有甲、乙两种报纸,该地成年人中有20%读甲报纸,16%读乙报纸,8%两种报纸都读,问成年人中有百分之几至少读一种报纸。
PPAAP-⋃=+BB)()()(AB)(P三、条件概率与相互独立事件条件概率:一个事件发生条件下另一事件发生的概率,记为P.(AB)|例5.6100件产品中,有80件正品,20件次品;而80件正品中有50件一等品,30件二等品。
现从这100件产品中任取1件,用A表示“取到一等品”,B表示“取到正品”,求P(A)及P(A|B)。
条件概率的数学定义:)()()|(A P AB P A B P =概率的乘法公式:)()|()()|()(B P B A P A P A B P AB P == 例5.7 设有1000件产品,其中850件是正品,150件是次品,从中依次抽取2件,2件都是次品的概率是多少?相互独立事件:设A,B 为两个随机事件,如果)()()(B P A P AB P =则称A,B 相互独立。
实际工作中,往往先根据专业知识确定两个事件是否有关系(独立),然后利用上式计算两个事件的交的概率。
如 A: 男同学B: 来自材料学院 则)()()(B P A P AB P =例5.8 某工人同时看管三台机床,每单位时间(如30分钟)机床不需要看管的概率:甲机床为0.9,乙机床为0.8, 丙机床为0.85。
若机床是自动机床且独立工作(三台机床能同时进行工作),求:(1)在30分钟内三台机床都不需要看管的概率;(2)在30分钟内甲、乙机床不需要看管,而丙机床需要看管的概率。
四、全概率公式及贝叶斯公式1. 全概率公式设n 个事件n A A A ,,21互不相容,0)(>i A P ,,,,2,1n i =且n A A A B ⋃⋃⋃⊂ 21,则∑==ni i i A P A B P B P 1)()|()(例5.9 某车间用甲、乙、丙三台机床进行生产,各台机床的次品率分别为:5%,4%,2%,它们各自的产品分别占总产量的25%,35%,40%,将它们的产品混在一起,求任取一个产品是次品的概率。
B:次品 1A :甲车床 2A :乙车床 3A :丙车床2. 贝叶斯公式设n 个事件n A A A ,,21互不相容,0)(>i A P ,,,,2,1n i =且n A A A B ⋃⋃⋃⊂ 21,则∑==ni iii i i A P A B P A P A B P B A P 1)()|()()|()|(.贝叶斯公式的用途是:如果导致事件B 发生的所有可能原因有n A A A ,,21,则在事件B 发生后,可用该公式帮助人们确定引起事件B 发生的最可能原因。
例5.10 在例5.9中,如果取到的一件产品是次品,分别求这一次品是由甲、乙、丙生产的概率。
B:次品 1A :甲车床 2A :乙车床 3A :丙车床§3 离散型随机变量及其分布一、随机变量的概念前面我们已经知道什么是随机试验。
随机试验的例子随处可见,如从某厂生产的袋装白糖中任意抽取一袋,检测其重量;从一批同种产品中随机抽取一件,检测其是否合格;抛掷一枚硬币,观察是出现正面还是反面。
随机试验的结果可能是数值,也可能不是数值,如: 从一批产品中随机抽取一件,结果可能是:正品或次品; 抛掷一枚硬币,结果可能是:正面或反面;掷一枚骰子,可能出现的点数为:1,2,3,4,5,6;检测一袋标重为500克的白糖,实际重量可能介于490到510克之间。
随机变量就是用来统一表示各种随机试验结果的抽象数值变量,如:在抽检产品时,引入随机变量X ,使正品对应X=1,次品对应X=0; 掷硬币时,引入随机变量X, 使正面对应X=1, 反面对应X=0; 掷骰子时,引入随机变量Y, 其取值范围为1,2,3,4,5,6,使Y 的每一个取值对应于一种抛掷结果;检测白糖重量时,引入随机变量Z, 其取值范围为490—510,使每一检测结果都可由Z 的一个取值表示。
下面给出随机变量的定义。
设E 是随机试验,它的样本空间(即所有可能的试验结果)为S, 如果对每个e ∈S,即每一种试验结果,有一个实数X(e)与之对应,则称定义在S 上的这个单值实函数X=X(e)为一个随机变量。
随机变量可分为离散型和连续型两种。
离散型随机变量的全部取值可一一列举(试验结果有有限种或可列种,如某服务台前等待服务的顾客数),连续型随机变量可连续取值(对应于在一个区间内取值的情况,如电子元件的寿命,测量误差等)。
二、离散型随机变量的概率分布 (一)离散型随机变量的概率分布设离散型随机变量X 所有可能的取值为),2,1( =k x k ,记,2,1,)(===k p x X P k k (※)则称(※)为X 概率分布。
实际上,概率分布就是给出随机变量取每个值的概率。
描述离散型随机变量的概率分布有: 公式法;描述法;列表法;图示法设随机变量X 的可能取值只有0和1,且取值为1的概率为p, 取值为0的概率为1-p, 则其概率分布为k,pp1,0XP k=-kk),1()-(1==或=1=)0()1,(,==pPXP-Xp或或0 1我们称X服从参数为p的0-1分布。
例5.11如规定打靶中域I得3分,中域II得2分,中域III得1分,中域外得0分。
今某射手进行100次射击,有30次中域I,55次中域II,10次中域III,5次中域外。
考察每次射击得分为例 5.12设已知一批产品的废品率为p=0.05,合格率为q=1-p=1-0.05=0.95.并指定废品用1代表,合格品用0代表,则考察任抽取一件为废品或合格品,即1或0这一离散型随机变量例5.13抛掷一颗股子,出现点数是个离散型随机变量,其概率分布为:(二)离散型随机变量的数学期望与方差对离散型随机变量X ,定义其数学期望(简称期望)为∑===μ)()(iix X P x X E ,即关于概率加权平均值。
注意到随机变量的函数也是随机变量,故有∑==)()())((i i x X P x f X f E ,这里,)(X f 是X 的函数。
数学期望具有如下性质: 1. C C E =)(,2. )()(X CE CX E =,3.)()()(Y E X E Y X E +=+,4. )()()(,Y E X E XY E Y X =则独立与如果.我们对性质3加以证明:)()()()(),(),(),(),(),()()(,,,Y E X E y Y P y x X P x y Y x X P y y Y x X P x y Y x X P y y Y x X P x y Y x X P y x Y X E jj j ii i ij i jj jj i ii ji j i j ji j i i ji j i j i +==+====+=====+=====+=+∑∑∑∑∑∑∑∑∑对离散型随机变量X ,定义其方差(一般记为2σ)为)))((()(2X E X E X D -=.容易证明, 随机变量的方差亦可依如下公式计算:)()())(()()(2222X E X E X E X E X D -=-=.事实上,)()()()()(2)())()(2()))((()(2222222X E X E X E X E X E X E X E X XE X E X E X E X D -=+-=+-=-=一个随机变量的方差的算术平方根称为这个随机变量的标准差,记为σ.方差具有如下性质: 1. 0)(=C D , 2.)()(2X D C CX D =,3. 若X 与Y 相互独立, 则. )()()(Y D X D Y X D +=±方差或标准差可以衡量一个随机变量取值的分散程度,它们的值越大,变量的取值就越分散。