浅谈正态分布在现实生活中的应用
摘要 :无论从理论和实际应用的观点来看,正态分布毫无疑问是概率论和
数理 统计中的重要分布。它的重要性质是由于实际中遇到的随机变量有许多服从正态分布 或近似服从正态分布的。 (例如,气象学中的温度、湿度、降雨量,有机体的长度、 重量,智能测度的评分,实验中的测量误差,经济学中的众多度量等等)正态分布是 许多重要分布的极限分布; 许多非正态分布变量是正态分布变量的函数; 正态分布的 概率密度和分布函数具有各种优良性质等。 本文总结分析了正态分布和标准正态分布 的性质和特点,然后着重分析了正态分布在医学,岗位测评,试卷命题难度评价,天 气预报等实际问题中的应用。
关键词 :正态分布;标准正态分布;统计量
一、 正态分布的有关知识
1、正态分布的定义 设连续型随机变量 X 具有概率
1 (x ) 2
f (x) 1
e (2 ) , x
2 其中 ( < < ), ( 0)为常数,则称 x 服从以 , 为参数的正态分布, 正 态
分布又称高斯分布,记为 X N( , 2)。
2、 正态分布的图形特点 为了画出正态分布的图形,先对概率密度做几点讨
论:
(1) f (x) 0 ,即整个概率密度曲线都在 x 轴的上方;
2)
令 x c , x c(c 0) ,分别代入 f (x) ,由( 1.1)式可得
f ( c) f ( c) 且 f ( c) f ( ) f ( c) f ( )
故 f (x) 以 x 为对称轴,并在 x 处达到最大
值 3) 当 x 时,f(x) 0,这说明曲线 f ( x)向左右伸展时越来越贴近
以 x 轴,
(1.1)
f ( )
即 f (x)以x轴为渐近线。
4)用求导的方法可以证明 x 为,为 f(x) 的两个拐点的横坐标。
综上,即可画出正态分布的概率密度曲线如图1,它是一条关于 x 对称的钟形曲线。
图1
为了说明参数 , 对曲线位置形状的影响,请看图2 化为标准正态分布。
X
定理1 设X N( , 2),则Y X N (0,1) 。
根据定理1,只要将标准正态分布的分布函数制成表,就可以解决一般正态分
布的概率计算问题。
至此,我们对正态分布的性质、特点有了初步的了解。从密度函数的图形看,
它是一条关于 x 对称的钟形曲线。可以形象地用“两头小,中间大,左右对称”
来描述。在自然界和社会领域常见的变量中,很多都有这种性质。
4、正态分布的几个定义:
可以看出:决定了图形的中心位置,决定了图形中峰的陡峭程度,当较大时,图形趋于平缓,当较小时,图形趋于陡峭。也就是说,决定了分布的中心位置,反映了分布的分散或集中程度。
由( 1.1)式得x 的分布函数为
F(x) 12 e 2 2 dt 1.2)
3、标准正态分布
当 0, 1时,相应的正态分布 N (0,1) 叫做标准正态分布。对标准正态分布,
通常用 (x) 表示概率密度函数,用 (x)表示分布函数,即
t2
x x
1
(x) (t)dt 1 e 2 dt
2
(1.3)
标准正态分布的重要性质在于,任何一个一般的正态分布都可以通过线性变换转
①设 X 1,X 2, X n 是来自总体 X 的一个样本, x 1,x 2, x n 是相应的样本值,
g(X 1,X 2, ,X n )是样本 X 1,X 2, X n 的函数,若 g 中不包含任何未知参数,则称
g(X 1,X 2, ,X n )是一个统计量
②下面是几个常用的统计量, 设 X 1,X 2, X n 是来自总体 X 的一个样本,
x 1,x 2, x n 是相应的样本值,定义
1n
样本均值 X 1 X i ;
n i1
1 n 1 n
2 样本方差 S 2 1 (X i X) 1 ( X i 2 nX ) ;
n 1 i 1 1n 样本 k 阶(原点)矩 A k 1 X i k ,k 1,2, ; n i1
B k n 1
(X
i X) ,k 1,2, n i 1 二、 正态分布在现实生活中的应用
1、在医学方面的应用 某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实 验中的随机误差, 呈现为正态或近似正态分布; 有些资料虽为偏态分布, 但经数据变 换后可成为正态或近似正态分布,故可按正态分布
规律处理。
( 1) 估计正态分布资料的频数分布
例 1.10 某地 1993 年抽样调查了 100 名 18 岁男大学生身高( cm ),其
均数 =172.70cm ,标准差 s=4.01cm ,①估计该地 18 岁男大学生身高在 168cm 以下者占该 地 18 岁男大学生总数的百分数;②分别求 、 、 范围内 18
岁男大学生占该地 18 岁男大学生总数的实际百分数,并与理论百分数比较。
本例, 、 未知但样本含量 n 较大,按式( 3.1)用样本均数 和标准差 S 分 别代替 和 ,求得 u 值, u=(168-172.70)/4.01=-1.17 。查附表标准正态曲
样本标准差(样本均方差) S S 2 n 11
(X i X)2
;
n 1 i 1 样本 k 阶中心矩
线下的面积,在表的左侧找到-1.1 ,表的上方找到0.07 ,两者相交处为0.1210=12.10%。该地18 岁男大学生身高在168cm以下者,约占总数
12.10%。其它计算结果见表1 。
100 名18 岁男大学生身高的实际分布与理论分布
表1
(2).制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量
足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
①正态分布法:适用于正态或近似正态分布的资料。
②对数正态分布法:适用于对数正态分布资料。
双侧界值:;单侧上界:,或单侧下界:
常用u 值可根据要求由下表2 查出
参考值范
围(%)
单侧双侧
80 0.842 1.282
90 1.282 1.645
95 1.645 1.960
99 2.326 2.576
表2
2、正态分布在岗位测评中的应用
假定某公司有50 个岗位,应该有50 个人,则系数为10 以下的岗位数和人数为:50* P(10 )=46.18 ,则岗级系数分布在10 的岗位数和人数为:50-50* P(10 )=4;根据正态分布的性质,则岗级分布在3 的岗位数和人数也应为4;岗级4 ~9 的岗位数和人数应为42。如果我们称岗级系数为4 ~9 的人为中等收入者,说明这种岗位分配和收入分配符合正态分布,分布在各岗级系数的人数是合理的,有利于企业的稳定、发展。
同理根据正态分布函数,依次求得各岗级系数的岗位数和人数:
P(x)=P(9)=0.8461;则系数为9 以下的岗位数和人数为:50*P(9)
双侧界值:单侧上界:,或单侧下
界:
=42 人;则岗级系数分布在9 的岗位数为:46 -42=4 个。
依次求得:
P(8)=0.7291 ,则系数为8 以下的岗位和人数为:50* P(8)=36 人;即岗级系数分布在8 的岗位数为:42 -36=6 个。
P(7)=0.5793 ,则系数为7 以下的岗位和人数为:50* P(7)=28 人;即岗级系数分布在7 的岗位数为:36 -28=8 个。
P(6)=0.4207 ,则系数为6 以下的岗位和人数为:50* P(6)=21 人;即岗级系数分布在6 的岗位数为:28 -21=7 个。
P(5)=0.2709 ,则系数为5 以下的岗位和人数为:50* P(5)=14 人;即岗级系数为分布在5 的岗位数为:21-14 =7 个。
P(4)=0.1539 ,则系数为4 以下的岗位和人数为:50* P(4)=8 人;即岗级系数分布在4 的岗位数为:14-8=6 个。
P(3)=0.0764 ,则系数为3 以下的岗位人数为:50*P(3)=4 人;即岗级系数分布在3 的岗位数应为4 个。
如下表3 和图3:
图3
这说明,上述分布符合正态分布,对于一个企业来说,上述分布正是企业经营者所希望的
各岗级系数的岗位数一旦确定,那么岗位测评中的打分结果就可以从最高到最低排序,定出各岗级的岗位数,相应的人数也就定了,相应的薪酬也就定了。由于计算过程有累计误差,所以相差4 人,根据正态分布原理,这4 人岗级系数应落在4~9 范围里面,可以根据企业具体情况调整。
3 、正态分布规律在试卷命题难度评价中的应用教育评价技术方法中教育测量
理论是应用教育统计学方法来实现的,众所周知,正态分布是最常见、应用最广的一种重要分布,按照数理统计学的基本原理,经统计分析(样本数≥ 30)93%的考试成绩分布状况在直观上呈现为“中间多,两边少,左右基本对称”的特点,因此被测验对象的学习或某种能力指标和某种能力指标的测验结果ξ可
以近似地用正态分布N(μ 2),来描述。因而通过样本对总体的某些特征(如均值或方差)推理判断,已成为教育研究中一种较为常见的方法。用统计学原理确定学生成绩的平均分及正态分布曲线,并将其作为对试卷分析评价的基础。(1)考试成绩的分布形态(规律)保证考试质量是数学活动中不容忽视的重要组成部分。如何提高考试质量,不仅应在
试前对试卷质量进行预测分析,更应结合试后考试成绩分析作出最终评价。用学生的考试成绩可以定量对命题质量进行评价与分析。观察统计学生考试成绩的直方图
,其
分布大致可分为5 种情形①单峰且对称、单峰大体对称;②单峰但峰值向左移;③单峰但峰值向右移;④双峰或多峰;⑤大体上可以一个平台型为代表等等。(2)学生成绩正态分布曲线分析根据教育学与统计学的理论,一次难度适中信度可靠的考试,学生的成绩应接近正态分布。也就是说,当学生的成绩接近于正态分布时,则说明此次考试基本达到了教学要求。判断成绩是否接近正态分布,最直观,最有效的方法是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。当然,学生成绩呈现正态分布是理想化状态。考试成绩完全呈正态分布有一定的困难,也不现实。但我们要以正态分布为标准模式,加以对比, 找出不足。
利用教育统计学研究发现,对于难度适中、客观有效的考试成绩一般都符合正态分布, 且平均分在75分左右,标准差在9 —5之间。因此,我们有理由使用各种高级统计方法处理考试分数,以挖掘更多的教育信息。考试成绩是考生水平的反映,
同时考试成绩分布是否正态分布反映了命题质量。根据正态分布曲线呈现的形态,可以进行考题相对难度分析。
平均成绩的差异引起曲线的水平位置变化,平均成绩偏低,如低于65 分说明试卷难度较大;而偏高在90 分以上说明试卷难度太小。若学生成绩分布属①所示的形态,这表明试卷命题的质量是比较好的.这里又有两种情形:在标准差不变的情况下随着平均分数的增加曲线向右移说明考生答题逐渐轻松;相反,随着平均分数的减小说明考题逐渐变难,学生成绩逐渐降低。在学生和教师工作正常情况下,题目越容易曲线越向右移。在平均分不变的情况下,标准差较小如低于6,成绩分布较集中,正态分布曲线呈陡峭型状态说明试卷区分度太小,表示中等难度试题所占比重太大;标准差较大如大于9,成绩分布较平坦,试卷区分度太大,则表示中等难度试题偏少。
若学生成绩分布属②所示形态, 即负偏态分布说明难度较大的试题比例偏高,表明试卷题目偏难;若学生成绩分布属③所示的形态, 即正偏态分布说明难度较小的试题比例偏重,则表明试卷题目偏易。若学生成绩分布属④或⑤等所示的形态,则表明试卷的命题质量不好,随意性较强,这样的试卷成绩不能很好地测量出学生对所学知识掌握情况。
(3)正态分布应用的结论考题相对难度是指考题从整体上讲相对考生其难易程度的合理性,用学生成绩的平均
分数衡量考题相对难度应是合理、可行的。对于高校结业类型的考试,经统计平均分数在77分附近时,考题相对难度是适中的。通过确定恰当的偏离度等级标准,对试卷做出试题难度相对学生①考题合理、②考题稍偏易或稍偏难、③考题较易或较难、④考题过易或过难、⑤考题难度不合理的5 个等级判断。
综上所述,考试成绩符合正态分布是说明考题命题合理的条件,也是衡量考试质量的一个客观标准。考试的重要功能之一是信息反馈, 考试分数的分布形态里蕴含着丰富的教学信息。对考试分数的统计处理可以得出大量有价值的教学信息,据以评价教学、
改进教学和进行教学研究。进一步分析发现,正态性较弱的课程有这样一些特点:考试分数出现了“极值” (特小值),或者是中间分数段分数的频数太小,或者是尾端频数略高。所以根据正态分布曲线呈现的状态,可以评价试卷的难易程度,
为评价试卷命题质量提供数据资料。进而调整教学进度,改进教学方法。
在正常情况下,成绩均服从或近似服从正态分布规律,可认为成绩分布比较理想,命题恰当,难易适中。但是考试成绩呈正态分布也是有生成条件的,当考分出现非正态分布
时有下列情况,①在统计样本中有弃学逃学学生,如果该类学生有一定比例势必使低分段学生分布密度高于正态分布曲线;②在统计样本中有复修该课程而且前期学习较好的考生,否则高分段分布密度过大;③考试题是偏难怪的题目。
4、正态分布在天气预报中的应用
降水资料(1953-2003 年)取自亳州市气象观测站,监测点地理纬度:
33o52'N 、115o46'E 。
(1)降水概率分布模型及其参数估计
①降水概
率分布模型降水资料是否服从正态分布或标准正态分布,可利用样本的偏度系数(Cs)
进行检验[6] ,Cs的计算式为:
Cs 3s3 (2.1)其中:3为样本的3阶中心矩;σ为样本标准差。
理论上讲,当Cs=0 时,降水资料即服从正态概率分布。事实上,由于观测资料本身存在着随机抽样误差,使计算的C s 也有一定的误差。因而,实践上认为:
-2(6/n)1/2≤Cs≤ +(26/n)1/2时,降水资料可近似认为服从正态概率分布;否则服从偏态概率分布。
文献[4] 、[5]指出,将气候要素极值变量作适当初等函数变换后,偏度系数会显著减少而能满足正态概率分布,即准正态概率分布。因此,本文采取此方法,对涉及的不同时段的降水要素值(x)进行适当的初等变换,如对数(lnx)变换、平方根(x 1/2)变换、立方根(x 1/3)变换等,然后,统计分析其C s,从中选取C s满足上述标准的变换形式作为求取概率模型的样本资料,进而求取各自的概率分布模型。
②准正态概率模型参数的估计准正态概率分布密度函数通式可推导如下,设原始观测记录为连续变量X ,经过函数变换后,新变量为y,即有y=g(x),原变量x 的分布密度函数f(z)为:
2.2)
F(z) F(y)dy/dx
2.2)式中Φ(y)是变量y的概率分布密度函数,据假设条件有:
式(2.4)中μ和σ两参数的估算,可利用矩法或极大似然法(本文用此法求取参数)求得分别为(2.5)、(2.6)式:
^
1
n
1 g(x)i n i1
2 1 2
2 1(g(x)
i
x)2
n i 1
其准正态概率分布函数为:
F(x) f (x)dx
2)研究结果
①各时段降水的正态、偏态检验
图4 亳州市历年年降水量和汛期降水量
图4 为1953—2003 年以来亳州市汛期与年降水量的波动图。从图1 可见,1953—2003 年以来亳州市汛期与年降水量波动显著,这是当地旱涝灾害年年发生的主要原因。
因此,仅从现有监测资料中,通过求解发生频率来获得当地汛期与年降水的概率,显然具有一定局限性,难以满足工程设计和防灾减灾工作的需要。为此需进一步从理论上寻找解决方法。
表4 给出了亳州市汛期及各月和年降水量的原始资料以及经过初等变换后的偏度F(y)
2 y
e
2 y
2
(y
y
) 2.3) 则原变量X 的概率密度函数为:
1 dy e 1
2
(g(x)
y
)2
F(x) 2 dx 2 2.4)
2.5)
2.6)
2.7)
系数(Cs)和理论偏度系数(|Cs|)的计算结果。
表4
从表4 可见,各时段降水量原始监测资料的Cs均远大于理论上的偏态系数。特别是6 月份的降水量,竟达到1.5763,是理论值的2.3 倍。
但是,原始资料经过初等变换后,其相应的Cs则显著减少。表4 中带有“*号”标志的即为满足上述要求的符合准正态分布的样本。它们分别为汛期和年降水量的对数处理结果、6、7 月份的立方根处理结果和8 月份的平方根处理结果。这样以来,即可求取各自的概率分布模型。
②各时段降水的准正态分布模型
本文采取极大似然法,按照公式(2.5)、(2.6),分别求取各自准正态概率分布模型的参数。结果见表5 所示。
表5
将表5 中的相应参数,带入公式(2.4),即可求得各自的概率密度。汛期与年降
水的概率分布密度见图5 所示
为检验各自概率分布模型的模拟效果,分别计算了各时段降水量的经验概率
图5
从图6 可见,理论概率分布与经验分布拟合效果较好,具有一定参考价值。
(3)结语
① 通过研究认为,亳州市汛期及年降水量的概率分布函数为准正态分布函数形式。
②研究结果可用于当地工程抗灾设计所参考,并可以用于旱涝指标的制定等研究之中。如可以通过概率分布函数,求得某时段雨量的再现期或某一雨量指标的发生概率等等。
③给出的模型如何用于旱涝指标的制定,涉及到当地的自然降水情况和农业生产状况。
全文总结综上所述,正态分布是实际生活中应用极其广泛的重要分布,生活中许多重要的普遍规律最初都是应用正态分布解释和建立的,随着
科学的发展,数学在生活中应用越来越广,生活中的数学无处不在,概率论已成为最重要和最活跃的学科之一,它既有严密的数学基础它又与
学科联系紧密,在自然科学,社会科学,管理科学等各个领域都得到了广泛的应用。
参考文献 :
[1] 丁裕国.探讨灾害规律的理论基础—极端气候事件概率 [J] .气象与减灾研究,Vol.29 NO.1.
[2 ] 丁裕国.降水量概率分布的一种间接模式 [J] .南京气象学院学报. 1989,10( 4):407-416 .
[3]魏淑秋.农业气象统计 [M] .福建:福建科学技术出版社, 1985:12 ~ 13.
[4]董迎春,徐国志,董振宇 . 《中国市场》 [M].2006 年 01 期 .
[5]盛骤,谢式千 . 概率与数理统计 [M]. 高等教育出版社, 2004.
[6]缪全生 . 概率与数理统计 [M]. 华东师范大学出版社, 1997.
[7]廖玉麟 ,刘恺. 概率与数理统计试题精选题解 [M]. 华中科技大学出版社, 2001.
[8]朱秀娟 ,洪再吉 .概率统计问答 150题 [M]. 湖南科技出版社, 1982.
[9]袁荫棠 ,范培华 .概率统计解题思路与方法 [M]. 世界图书出版公司 ,1998.