第六章 概率分布
- 格式:doc
- 大小:415.50 KB
- 文档页数:16
第六章概率与概率分布推论统计研究如何依据样本资料对总体性质作出推断,这是以概率论为基础的。
通过概率论,可以知道在一定条件下,总体的各种抽样结果所具有的概率特性。
然后,推论统计依据这些概率特性,研究在发生了某种抽样结果的情况下总体参数是什么,或者对社会研究中提出的某种假设进行检定。
学习推论统计必须首先对概率论有所了解。
第一节概率论1.随机现象和随机事件概率是与随机现象相联系的一个概念。
所谓随机现象,是指事先不能精确预言其结果的现象。
随机现象具有非确定性,但内中也有一定的规律性。
例如,事先我们虽不能准确预言一个婴儿出生后的性别,但大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是0.5,这就是概率。
随机现象具有在一定条件下呈现多种可能结果的特性。
但由于到底出现哪种结果,却又无法事先预言。
因此,人们把随机现象的结果以及这些结果的集合体称作随机事件,简称事件。
当随机事件发生的可能性能用数量大小表示出来时,我们就得到了概率。
在统计学中,我们把类似掷一枚硬币的行为(或对某一随机现象进行观察)称之为随机试验。
随机试验必须符合以下三个条件:①它可以在相同条件下重复进行;②试验的所有结果事先已知;③每次试验只出现这些可能结果中的一个,但不能预先断定出现哪个结果。
随机试验的每一个可能的结果,称为基本事件(或称样本点);所有可能出现的基本事件的集合,称为样本空间,记为Ω。
随机事件(可记为A、B、C等)如果仅含样本空间中的一个样本点,该事件称为简单事件;随机事件如果含样本空间中的一个以上的样本点,该事件称为复合事件。
换言之,复合事件是样本空间Ω的某个子集。
随机事件有两种极端的情况:一种是必然会出现的结果,称为必然事件;另一种是不可能出现的结果,称为不可能事件。
从样本空间来看,必然事件是由其全部基本事件组成的,可记为S;不可能事件则不含任何基本事件,可记为Φ。
2.事件之间的关系客观事物之间总是存在着一定的关系,随机事件之间也不例外。
第六章 概率与概率分布第一节 概率论随机现象与随机事件·事件之间的关系(事件和、事件积、事件的包含与相等、互斥事件、对立事件、互相独立事件)·先验概率与古典法·经验概率与频率法第二节 概率的数学性质概率的数学性质(非负性、加法规则、乘法规则)·排列与样本点的计数·运用概率方法进行统计推断的前提第三节 概率分布、期望值与变异数概率分布的定义·离散型随机变量及其概率分布·连续型随机变量及其概率分布·分布函数·数学期望与变异数一、填空1.用古典法求算概率.在应用上有两个缺点:①它只适用于有限样本点的情况;②它假设( 机会均等 )。
2.分布函数)(x F 和)(x P 或 )(x 的关系,就像向上累计频数和频率的关系一样。
所不同的是,)(x F 累计的是( 概率 )。
3.如果A 和B ( 互斥 ),总合有P(A/B)=P 〔B/A 〕=0。
4.( 大数定律 )和( 中心极限定理 )为抽样推断提供了主要理论依据。
5.抽样推断中,判断一个样本估计量是否优良的标准是( 无偏性 )、( 一致性 )、( 有效性 )。
6.抽样设计的主要标准有( 最小抽样误差原则 )和( 最少经济费用原则 )。
7.在抽样中,遵守( 随机原则 )是计算抽样误差的先决条件。
8.抽样平均误差和总体标志变动的大小成( 正比 ),与样本容量的平方根成( 反比 )。
如果其他条件不变,抽样平均误差要减小到原来的1/4,则样本容量应( 增大到16倍 )。
9.若事件A 和事件B 不能同时发生,则称A 和B 是( 互斥 )事件。
10.在一副扑克牌中单独抽取一次,抽到一张红桃或爱司的概率是( 1/4 );在一副扑克牌中单独抽取一次,抽到一张红桃且爱司的概率是( 1/52 )。
二、单项选择1.古典概率的特点应为(A )A 、基本事件是有限个,并且是等可能的;B 、基本事件是无限个,并且是等可能的;C 、基本事件是有限个,但可以是具有不同的可能性;D 、基本事件是无限的,但可以是具有不同的可能性。
第六章概率分布第一节概率的基本概念一、什么是概率概率指用一个比值来概括某事件出现的可能性大小。
因为纯粹利用概率的概念是无法计算出概率的,所以它有几个用于不同情况下的计算办法:(一)古典概率(先验概率)基本事件:如果某一随机实验可以分成有限的n种可能结果,这n种结果之间是互不交叉的,而且这些结果出现的可能性相等,我们把这n种可能结果称为基本事件。
如抛置骰子这一随机试验的基本事件为:{1}{2}{3}{4}{5}{6}。
基本事件必须具备如下的五个条件:①等可能性:实验中基本事件发生的概率相等(根据对称性来判断)。
②互斥性:各个基本事件不可能在一次试验中同时发生,或者说一次试验中只能发生基本事件中的一个。
③完备性:一次试验中所有基本事件必然有一个发生,即所有基本事件概率之和为100%。
④有限性:全部结果只有有限的n种。
⑤不可再分性:不可能有比基本事件范围更小的事件。
若把抛置骰子的基本事件取为:A={1,2,3},B={4,5,6},则它满足前面的所有4上条件,但它们可以再分。
古典概率的定义:在只含有有限个基本事件的试验中,任意事件A发生的概率定义为:(二)统计概率(后验概率)统计概率常用于随机现象不满足“基本事件等可能发生”的条件,或者某些试验不可能分为等可能的互不相交的事件。
在相同条件下进行n次试验,事件A出现了m次,如果试验次数n充分地大,且事件A出现的频率稳定在某一数值p附近,则称p为事件A的概率。
由于p也是一抽象的值,常常用n在充分大时的代替。
即:。
二、概率的基本性质1、概率的加法定理两个互不相容事件A、B之和的概率,等于两个事件概率之和,P(A+B)=P(A)+P(B)2、概率的乘法定理两个独立事件同时出现的概率等于该两事件概率的乘积,P(AB)=P(A)×P(B)例6-1:一枚硬币掷三次,或三枚硬币各掷一次,问出现两次或两次以上H的概率是多少?解:这样掷硬币可能出现地情况有:HHH,HHT,HTH,THH,TTH,THT,HTT,TTT 共八种。
每种结果可能出现的概率,依概率乘法规则计算: 各为1/8。
设:P(A)代表3次H 的概率,P(B)代表“HHT ”这种结果的概率,P(C)代表“HTH ”的概率,P(D)代表“THH ”的概率,依概率加法规则计算: P(A+B+C+D)= P(A) +P(B) +P(C)+ P(D)=答:一枚硬币掷三次,或三枚硬币各掷一次,出现两次或两次以上H 的概率是1/2。
三、概率分布类型(一)离散分布与连续分布 1、离散分布如果随机变量只能取有限的或无限但可以数下去的数值,则这种随机变量取值的概率规律称为离散分布。
这类分布往往将随机试验的所有结果及其相应的概率一一列出来以表示分布规律。
例如:抛置硬币这一随机试验可以用如下一些方式来表示其分布规律: ①记A={正面向上},B={反面向上},则P(A)=0.5,P(B)=0.5。
②令出现正面向上用1表示,反面向上用0表示,则P(ξ=1)=0.5,P(ξ=0)=0.5 ③用图形来表示:2、连续分布如果随机变量可以取连续的数值,则这种随机变量取值的概率规律称为连续分布。
对于连续分布,不能列出所有取值及其对应的概率。
连续分布的表示方法有别于离散分布,一般采用概率密度函数来表示。
当样本的容量及分组逐渐增加时,次数分布图将趋近于一条稳定而连续的曲线,这条曲线就称为连续随机变量的概率密度函数,一般记为f(x)。
(二)经验分布与理论分布根据分布情况如果获得分成这样两类。
1、经验分布经验分布是根据观察或实验所获得的数据而编制的次数分布或相对频率分布,经验分布往往是总体的一个样本的情况,用来反映总体的大致情况,因此经验分布也称为样本分布。
在第一章中对100个考生成绩所做的次数分布就是一个经验分布的例子。
81212121=⨯⨯2181818181=+++2、理论分布理论分布是指根据理论推演出来的随机变量的概率分布模型,它指的是总体的分布规律(与样本分布相对应)。
在我们的学习中要学到的理论分布有正态分布、二项分布、T 分布、F 分布、χ2分布。
在不同的理论分布中,反映它们特征的参数是不一样的。
(三)基本随机变量分布与抽样分布 1、基本随机变量分布基本随机变量是一个与随机变量的函数相对应的。
随机变量的函数仍然是随机变量,后面将学习到的t 分布、χ2分布和F 分布,都是由正态随机变量构造而成。
2、抽样分布抽样分布是样本统计量的理论分布,又称随机变量函数的分布。
抽样是从总体中随机地选取一个样本的过程,每一个样本都可以计算平均数、方差、标准差、相关系数等指标,显然从同一总体的抽取出的不同样本的这些指标是不一样的。
比如说对于一个容量为50的有限总体,其容量为5的不同样本一共有505= 312,500,000个(允许重复的组合),显然这是一个很大的数值,这里的每一个样本可以计算一个平均数,故一共有312,500,000个平均数,这些平均数的分布情况(或分布规律)就是从容量为50的有限总体中抽取容量为5的样本的抽样分布。
第二节 正态分布一、正态分布(一)正态分布定义正态分布也称常态分布,是连续随机变量概率分布的一种,中间量数次数分布多,两端量数次数分布少,呈对称型的概率分布。
正态分布的概率密度函数为:其中,Y 为概率密度,σ为分布的标准差,X 为变量值,μ为分布的平均数,e 和π为常数(e =2.7183,π=3.1416)。
在正态分布中,平均数μ和标准差σ决定着分布曲线的位置和形状。
其中,平均数决定着曲线在x 轴上的位置,标准差σ决定着曲线的形状。
当σ相同而μ不同时,曲线形状相同,位置各异。
当μ相同而σ不同时,正态曲线有不同的形状,σ越大,曲线越是“低阔”,σ越小曲线越是“高窄”, (二)正态分布的特征1、正态分布的形式是对称的,对称轴是经过平均数的垂线;2、正态分布的中央点最高,然后逐渐向两侧下降,曲线先向内弯,后向外弯,两端靠近基线处无限延伸;3、正态曲线下的面积为1,故对称轴将正态曲线下的面积划分为相等的两部分;4、正态分布是一族分布。
二、标准正态分布()22221σμπσ--=X eY所有正态分布都可以通过Z 分数公式转换成标准正态分布。
标准正态分布是标准差(σ)为1,平均数(μ)为0的正态分布,其函数为 标准正态分布的特征:1.曲线以=z 0为中心,双侧对称。
2.曲线在=z 0处为最高点。
当=z 0时,21e Y π==0.39894,这是y 的最大值。
3.曲线以最高点向左右两侧缓慢下降,且无限延伸,但永远不与基线相交。
4.标准正态曲线只有一条。
三、正态分布表的编制与使用(一)正态分布曲线的面积,高度与标准分数在正态分布中,总次数N 的几何意义是曲线与x 轴间所包含的总面积,用p 表示,且1=p 。
以曲线中线为界,每边为分布50%的面积。
垂线为曲线的纵线高度,以y 表示。
基线是Z 分数的刻度。
本教材上的标准正态概率表的编制方法是从 Z=0 开始,逐渐变化Z 值,计算从 Z=0 至某一定值之间的概率,如图所示。
(二)标准正态分布曲线相应内容的求解方法 1.已知Z 值,求面积值p1)求均数(Z=0)与某个Z 值之间的p 值,可直接查正态曲线表。
例如:求0=Z 至Z = -1之间的面积。
查表可知Z = 1时,3413.0=p ;因为正态分布为具有对称性,所以有Z = -1时,3413.0=p 。
2)求任何两个Z 值之间的p例如:求1=Z ~2=Z 之间的面积。
首先,查出0=Z 至每个Z 值间的面积,即有1=Z ,3413.0=p ;2=Z ,475.0=p 其次,求两个Z 值之间的面积,即有1337.03413.0475.0=-=P 2221ze Y -∙=π规律:Z 值符号相反,用加法求p ;Z 值符号相同,用减法求p 。
3)求某个Z 值以下或以上的面积例如:求85.0-=Z 以下和76.1=Z 以上的面积。
首先,出0=Z 至每个Z 值间的面积,即有85.0-=Z ,3023.0=p ,76.1=Z ,4608.0=p其次,用正态分布一半的面积(0.50)减去所查出的面积,即有0082.04918.05000.01=-=p ,1151.03849.05000.02=-=p2.已知p 值求Z 值.1)查表法——求近似的Z 值 例如,求30.0=p 时,Z 的面积。
正态曲线表中并无可30.0=p 的面积,只有与其接近的两个值,即29955.01=p ,30234.02=p ,前者与0.30相差0.00045,后者与0.30相差0.00234。
可见,0.29955与0.30更接近,其对应的Z 值0.84,即为30.0=p 时Z 的近似值。
2)内插法——求精确的Z 值,其公式为()121211Z Z P P P P Z Z X ---+=pZ1p0.29955 0.84()84.085.029955.030234.029955.030.084.0---+=X Zp0.30000 X Z8416.00016.084.0=+=2p0.302340.853.已知p 值求y 值 查表法——求近似的y 值:例如,求当30.0=p 的y 值。
同样,与0.30接近的p 值为0.29955,其y 值为0.28034。
(三)正态分布中的几个常用值在σ1±,σ2±,σ3±及其σ96.1±,σ58.2±范围内的面积值。
四、正态分布理论在测验中的应用 (一)化等级评定为连续数据1、处理等级评价时面临的问题及其解决思路 问题:①不同评价者由于各自的标准不同,在对同一个心理量进行评定时可能给出不同的等级分数,如何综合评价各评价者的结果。
②如何比较不同被评者的心理量的差异。
2、转化的前提条件:被评定的心理量从意义上来说应是一个测量数据,而且服从正态分布(凭常识),只是人为地在评定时划分为等级。
对于一个具体的样本来说,他们所服从的正态分布是固定的,只是不同评价者对这个正态分布的划分不一样。
3、转化方法——用各等级中点对应的Z 分数代表该等级分数。
①根据各等级被评者的数目求出各等级的人数比率。
②求各等级中点以下的累加比率。
③用累加比率查正态表求Z 分数,用Z 分数代表各等级的测量值。
④求各被评者所得评价等级的测量分数的算术平均数,即为综合评定分数。
例6-2:甲、乙、丙三位教师对100名学生的学习能力进行等级评定见表6-2。
表6-3是三名同学所获得的评定等级。
试比较三个学生学习能力的高低。
表6-2 3位教师对100名学生学习能力的评定等级评 定 结 果转 换 过 程 与 结 果甲乙丙甲 教 师乙 教 师丙 教 师nn npp Fp 'Zpp Fp 'Zpp Fp 'ZA 510 20 0.05 .975 .495 1.96 0.10 .95 .45 1.64 0.20 .900 .400 1.28 B 25 20 25 0.25 .825 .325 0.93 0.20 .80 .30 0.84 0.25 .675 .175 0.45 C 40 40 35 0.40 .500 .000 0.000.40 .50.00 0.000.35 .325 .125 -0.32D 25 20 15 0.25 .175 .325 -0.93 0.20 .20 .30 -0.84 0.15 .125 .375 -1.15 E5 1050.05 .025 .475 -1.96 0.10 .05.45 -1.64 0.05 .025 .475 -1.96 ∑100 100 100 1.00———1.00———1.00———1)求各等级人数分布的比例p 值,见表7-12。