当前位置:文档之家› 统计学原理

统计学原理

统计学原理
统计学原理

社会经济统计学的定义

社会经济统计学是研究社会经济统计活动的规律和方法的学科。社会经济统计是对社会经济现象的一种调查研究活动。它密切联系事物的质的方面,调查研究社会经济现象的数量方面,并用数字语言尽可能精确地表述出来。社会经济统计学就是研究如何进行这种调查研究活动的一门社会科学。

[编辑本段]

统计和统计学派的形成

在原始社会末期和奴隶社会形成过程中,已出现了统计的萌芽。在国家产生以后,统治阶级为了征兵、劳役和税收,需要了解人口、土地、粮食和牧畜等的数量。最早的统计是从人口和土地的计量开始的。在封建社会中,统计已略具规模,但总的说来发展缓慢。至资本主义上升时期,随着经济文化的发展和生产逐步社会化,统计逐渐扩大到工业、农业、商业等各个方面。在这种统计活动发展到一定阶段时,人们开始总结统计实践的经验,逐渐形成了比较系统的统计理论知识,产生了统计学。现在,一般公认的最早的统计学著作,是英国W.配第1676年所著的《政治算术》。还有差不多同时出现的德国H.康令(1606~1681)所著的《国情论》。此后,在统计学说史上形成长期并存的“政治算术学派”和“国势学派”。两大学派的共同点,在于都以社会经济作为研究对象;不同之点,在于是否把数量方面的研究作为这门学科的基本特征。经过两百年之久的争论,到19世纪中叶,统计学作为一门对社会经济现象进行数量分析的科学才得到社会的公认。在政治算术学派和国势学派的争论还没有完全解决时,比利时的L.A.凯特尔(1796~1874)在他的《社会物理学:或试论人的才能的发展》(1869)等著作中,把概率论引入了统计学,开辟了统计学的新领域,逐渐形成了一门独立的学科,即数理统计学。

目前世界上存在着多种统计学派。数理统计学派认为,统计学就是数理统计学,是现代应用数学的一个分支,是通用于研究随机的自然现象和社会现象数量特征的方法体系。数理统计学在近几十年中,在理论、方法和应用上有了很大的发展。社会统计学派则认为,统计学的研究对象是社会现象,目的在于研究社会现象内部的联系和相互关系。

K.马克思和F.恩格斯是社会主义社会经济统计理论的奠基人。他们在领导第一国际的革命运动中,提出无产阶级必须建立自己的统计,作为了解各国工人阶级状况、揭露资本主义制度的本质、制定国际工人运动战略策略的依据。列宁曾指出社会经济统计是认识社会的有力武器之一,是国家监督的重要工具之一。他为世界上第一个社会主义国家统计的理论建设、制度建设、组织建设奠定了基础。毛泽东强调实事求是、调查研究,并把“注意基本的统计”作为党委会的工作方法之一。

[编辑本段]

社会经济统计的特点和分科

社会经济统计的主要特点是:①数量性。包括社会经济现象的数量多少,现象之间的数量关系,质量互变的数量界限。社会经济统计是在与一定质的联系中,反映这些数量方面的现状和它们的发展变化过程。②总体性。即对社会经济现象总体的数量方面的认识。③具体性。指具体事物的数量方面。它研究具体事物在一定时间、地点、条件下的数量表现。因此,它总是同现象的质密切联系在一起的。④社会性。社会经济现象是人类社会活动的条件、过程和结果。它们都是人类有意识的社会活动,都和人们的利益有关。社会经济统计的认识主体也有社会性。

社会经济统计活动的成果有:①统计资料;②统计方法。在社会经济统计学的发展过程中,曾一度把这两方面的成果都包括在自己的研究范围以内。实际的发展情况表明,社会经济统计学的研究领域,逐步向后者发展。它已经成为一门认识社会经济现象数量方面的方法论学科。

社会经济统计学是一门多科性的学科。它的基本分科是:社会经济统计学原理、经济统计学、社会统计学、部门统计学及统计史。在部门统计学中,又分为人口统计学、农业统计学、工业统计学、教育统计学、文化统计学、卫生统计学等。

[编辑本段]

社会经济统计与其他学科的联系

除各部门统计学与相对应的部门学科联系密切外,社会经济统计学作为一个整体,与哲学、政治经济学和数学的关系最为密切。

哲学中物质是第一性的原理、事物对立统一的法则、事物普遍联系和不断发展的观点等,都是社会经济统计学中所论述的许多方法的依据。社会经济统计学也以社会经济理论科学所揭示的经济关系和经济规律作为其理论指导。例如,总产值、净产值、工资、利润、劳动生产率等具体统计指标,都反映一定的经济范畴。在确定它们的概念和计算范围时,也是以政治经济学所阐述的有关原理为依据的。

社会经济统计学还运用数学方法,包括数理统计方法,以进行严密的数量描述和定量分析。在社会经济现象中,许多数量关系可以利用一定的数学模型来研究。所以,社会经济统计学不断吸收和运用现代数学方法的最新成果。

第三节统计学中的几个基本概念

1、同质(homogeneity)与变异(variation)

严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。所以,在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,而不易控制的遗传、营养等影响因素可以忽略。

同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。事实上,客观世界充满了变异,生物医学领域更是如此。哪里有变异,哪里就需要统计学。若所研究的同质群体中所有个体一模一样,只需观察任一个体即可,无须进行统计研究。

2、总体(population)与样本(sample)

任何统计研究都必须首先确定观察单位(observed unit),亦称个体(individual)。观察单位是统计研究中最基本的单位,可以是一个人、一个家庭、一个地区、一个样品、一个采样点等。

总体是根据研究目的确定的同质观察单位的全体,或者说,是同质的所有观察单位某种观察值(变量值)的集合。例如欲研究山东省2002年7岁健康男孩的身高,那么,观察对象是山东省2002年的7岁健康男孩,观察单位是每个7岁健康男孩,变量是身高,变量值(观察值)是身高测量值,则山东省2002年全体7岁健康男孩的身高值构成一个总体。它的同质基础是同地区、同年份、同性别、同为健康儿童。总体又分为有限总体(finite population)和无限总体(infinite population)。有限总体是指在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个,如上例;无限总体是抽象的,无时间和空间的限制,观察单位数是无限的,如研究碘盐对缺碘性甲状腺病的防治效果,该总体的同质基础是缺碘性甲状腺病患者,同用碘盐防治;该总体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果,没有时间和空间范围的限制,因而观察单位数无限,该总体为无限总体。

在实际工作中,所要研究的总体无论是有限的还是无限的,通常都是采用抽样研究。样本是按照随机化原则,从总体中抽取的有代表性的部分观察单位的变量值的集合。如从上例的有限总体(山东省2002年7岁健康男孩)中,按照随机化原则抽取100名7岁健康男孩,他们的身高值即为样本。从总体中抽取样本的过程为抽样,抽样方法有多种,详见第14章。抽样研究的目的是用样本信息推断总体特征。

统计学好比是总体与样本间的桥梁,能帮助人们设计与实施如何从总体中科学地抽取样本,使样本中的观察单位数(亦称样本含量,sample size)恰当,信息丰富,代表性好;能帮助人们挖掘样本中的信息,推断总体的规律性。

3、资料(data)与变量(variable)及其分类

总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,特征称为变量。如“身高”、“体重”、“性别”、

“血型”、“疗效”等。变量的测定值或观察值称为变量值(value of variable)或观察值(observed value),亦称为资料。

按变量的值是定量的还是定性的,可将变量分为以下类型,变量的类型不同,其分布规律亦不同,对它们采用的统计分析方法也不同。在处理资料之前,首先要分清变量类型。

1)数值变量(numerical variable):其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。如身高(cm)、体重(kg)、血压(mmHg kPa)、脉搏(次/min)和白细胞计数(×10 9 /L)等。这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料(quantitative data)。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统计学中把它们也视为连续型变量。

2)分类变量(catagorical variable):其变量值是定性的,表现为互不相容的类别或属性。分类变量可分为无序变量和有序变量两类:

(1)无序分类变量(unordered categorical variable)是指所分类别或属性之间无程度和顺序的差别。,它又可分为①二项分类,如性别(男、女),药物反应(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。

(2)有序分类变量(ordinal categorical variable)各类别之间有程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。

变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例如血红蛋白量(g/L)原属数值变量,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时,可按等级资料分析。有时亦可将分类资料数量化,如可将病人的恶心反应以0、1、2、3表示,则可按数值变量资料(定量资料)分析。

4、随机事件(random event)与概率(probability)

医学研究的现象,大多数是随机现象,对随机现象进行实验或观察称为随机试验。随机试验的各种可能结果的集合称为随机事件,亦称偶然事件,简称事件。例如用相同治疗方案治疗一批某病的患者,治疗转归可能为治愈、好转、无效、死亡四种结果,对于一个刚入院的患者,治疗后究竟发生哪一种结果是不确定的,可能发生的每一种结果都是一个随机事件。

对于随机事件来说,在一次随机试验中,某个随机事件可能发生也可能不发生,但在一定数量的重复试验后,该随机事件的发生情况是有规律可循的。概率是描述随机事件发生的可能性大小的数值,常用P表示。例如,投掷一枚均匀的硬币,随机事件A表示“正面向上”,用 n表示投掷次数;m表示随机事件A发生的次数;f表示随机事件A

发生的频率(f=m/n),0≤m≤n, 0≤f≤1。

用不同的投掷次数n作随机试验,结果如下:m/n=8/10=0.8, 7/20=0.35,…… , 249/500=0.498, 501/1000=0.501, 10001/2000=0.5000,由此看出当投掷次数n足够大时,f=m/n→0.5,称P(A)=0.5,或简写为:P=0.5。当n足够大时,可以用f估计P。

随机事件概率的大小在0与1之间,即0

P越接近0,表示某事件发生的可能性越小。P=1表示事件必然发生,P=0表示事件不可能发生,它们是确定性的,不是随机事件,但可以把它们看成随机事件的特例。

若随机事件A的概率P(A)≤a,习惯上,当a=0.05时,就称A为小概率事件。其统计学意义是小概率事件在一次随机试验中不可能发生。例如,某都市大街上疾驶的汽车撞伤行人的事件的发生概率为1/万,但大街上仍有行人,这是因为“被撞”事件是小概率事件,所以行人认为自己上街这“一次试验”中不会发生“被撞”事件。“小概率”的标准a是人为规定的,对于可能引起严重后果的事件,如术中大出血等,可规定a=0.01,甚至更小。

第二章统计调查与整理

第一节统计调查方案

统计调查方案包括确定调查目的,确定调查对象和调查单位,确定调查项目,确

定调查时点、调查期限、调查地点、调查方法,拟定调查的组织实施计划等。

一、确定调查目的

明确调查目的,是统计调查的首要问题。它决定着整个调查工作的内容、范围、

方法和组织工作。

二、确定调查对象和调查单位

调查对象:就是指根据调查目的,需要进行调查的社会经济现象总体,即统计总

体。它是由性质相同的许多调查单位所构成的。

调查单位:就是调查对象中的每个个别事物,即统计总体中的每个个体,也就是

在调查过程中应该登记春标志的那些具全单位。

实际工作中,需要注意的是不要把调查单位和填报单位相混淆。

调查单位是调查项目的承担者,而填报单位则是负责上报调查资料的单位。例如,

调查目的是了解企业职工的状况,则每个职工就是一个调查单位;全部职工的调

查资料由企业汇总上报,则该企业就是填报单位。但有时二者又可能是一致的,

例如工业普查,每个工业企业既是一个调查单位,又是填报单位。

三、确定调查项目

调查项目是所要调查的具体内容,即总体单位所承担的基本标志。换句话说,就

是向被调查者调查什么,需要被调查者回答什么问题。调查项目完全由调查对象

的性质、调查目的和任务所决定,包括一系列品质标志和数量标志构成的标志体

系。

例如, 1997 年全国城市居民生活时间分配调查,目的是为了了解我国城市居民各种群体的生活时间分配和利用状况,研究城市居民的生活方式。根据调查项目拟定了姓名、性别、年龄、民族、文化程度、职业、行业、婚姻状况及工作时间、生活必须时间、家务劳动时间和闲暇时间等调查项目。

在确定调查项目时尚须注意以下 4 个问题。

1 、调查项目应是为实现调查目的所需要的项目,可有可无和备而不用的项目一律不要列入。

2 、调查项目应是能够取得实际资料的项目。有些虽属需要,但实际上没有条件取得实际资料的项目,不要列入。

3 、调查项目要注意彼此衔接,避免重复和相互矛盾。

4 、列出调查项目的表格形式就是调查表。调查表是搜集原始资料常用的基本工具。调查表有单一表和一览表两种形式。

单一表是在一张表上只登记一个调查单位,一览表是在一张表上登记若干个调查单位的资料。

四、确定调查时间、调查期限。

调查时间:是指调查资料所属的时间(时期或时点)。明确规定调查的时期或时点,是保证调查资料准确性的重要条件。如果所要调查的资料是某一时期的总量,就要规定报告期的起止日期;如果调查资料是某一时点上的水平,就要规定统一的标准时点。

调查期限:是指进行调查工作的时间,包括搜集资料和报送资料的整个工作所需要的时间。

例如,全国企业 1998 年产品产量报表,呈报时间规定在 1999 年 1 月 7 日,此处调查时间为 1998 年全年,调查期限为 7 天。 1998 年某市外来人口普查,将 5 月 10 日零时定为普查登记的标准时点,要求在 1998 年 5 月 15 日以前完成普查登记工作,此处的调查时间为 5 月 10 日零时,调查期限为 5 天。任何调查都应尽可能缩短调查期限,及时上报受表部门。

三、统计调查的种类

1、统计调查按组织形式,可分为统计报表和专门调查。

统计报表是国家统计系统和专业部门为了定期取得系统、全面的统计资料而采用的一种搜集资料的方式,目的在于掌握经常变动的、对国民经济有重大意义的指标的统计资料。专门调查是为了了解和研究某种情况或问题而专门组织的统计调查,包括抽样调查、普查、重点调查和典型调查等几种调查方法。

2、统计调查按研究总体的范围,可分为全面调查和非全面调查。

全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报

表和普查;非全面调查是对调查对象中的一部分单位进行调查,包括非全面统计报表、抽样调查、重点调查和典型调查。

3、统计调查按调查登记的时间是否连续,分为连续调查和非连续调查。

连续调查是指对研究对象的变化进行连续不断的登记,如工业企业总产值、产品产量、原材料消耗量等,在观察期内连续登记。连续调查所得资料是现象在一段时间内的总量。不连续调查是指间隔一段相当长的时间对研究对象某一时刻的资料进行登记。如人口数、机器设备台数等资料短期内变化不大,没有必要连续登记资料。不连续调查所得资料体现现象在某一瞬间所具有的水平。

4、统计调查按搜集资料的方法分为直接调查、凭证调查、派员调查、问卷调查。

直接调查又称直接观察,由调查人员到现场对调查单位直接查看、测量和计量;凭证调查是以各种原始和核算凭证为调查资料来源,依照统一的表格形式和要求,按照隶属关系,逐级向有关部门提供资料的方法;采访调查是通过指派调查员对被调查者询问、采访,提出所要了解的问题,借以搜集资料;问卷调查是以问卷形式提问。

此外,也有人根据调查工作时间的周期长短,将统计调查划分为经常性调查和一次性调查。所谓经常性调查是指调查周期在一年以内的调查,间隔超过一年的为一次性调查。这种划分和调查对象没有关系,不要把经常性调查误以为是全面调查,也不要误以为经常性调查就是调查时期现象,而一次性调查就是调查时点现象。

四、统计调查方法

常用的统计调查方法有统计报表、普查、抽样调查、重点调查、典型调查等,它们各有其特点。1994年全国统计工作会议提出要建立以必要的周期性普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方法体系。

1、统计报表

统计报表是按国家统一规定的表式,统一的指标项目,统一的报送时间,自下而上逐级定期提供基本统计资料的调查方式方法。我国大多数统计报表要求调查对象全部单位填报,属于全面调查范畴,所以又称全面统计报表。

统计报表具有统一性、全面性、周期性、可靠性等特点。

目前我国统计报表,是由国家统计报表、业务部门统计报表和地方统计报表组成,其中国家统计报表是统计报表体系的基本部分。

2、普查

普查是专门组织的不连续性全面调查。主要调查一定时点状况的社会经济现象的总量,搜集那些不能够或者不适宜用定期全面报表搜集的统计资料,以搞清重要的国情国力。

普查的主要特点是不连续调查。

普查的组织形式有两种:一是组织专门的普查机构,配备一定数量的普查人员,对调查单位直接进行登记;另一种是利用普查单位的原始记录和核算资料,颁发一定的调查表格由调查单位自填上报。

普查按资料汇总的特点分为一般普查和快速普查。前者逐级上报资料,后者越过中间环节,由基层单位将资料直接报送给最高领导机关。

普查和全面统计报表都属于全面调查,但二者并不能互相代替。普查属于不连续调查,调查内容主要是反映国情国力方面的基本统计资料;而全面统计报表属于连续调查,调查内容主要是需要经常掌握的各种统计资料。全面统计报表要经常填报,因此报表内容固定,调查项目较少;而普查是专门组织的一次性调查,在调查时可以包括更多的单位、分组更细、项目更多。因此,有些社会经济现象不可能也不需要进行经常调查,但又需要掌握比较全面、详细的资料时,就可通过普查来解决。普查花费的人力、物力和时间较多,不宜经常组织,

取得经常性的统计资料还需要靠全面统计报表。

3、抽样调查

抽样调查是按随机原则从总体中选取一部分单位进行观察,用以推算总体数量的一种非全面调查。

抽样调查的特点:

①既是非全面调查,又要达到对总体数量特征的认识;

②按随机原则去抽取调查单位。

抽样调查具有经济性、时效性、准确性、灵活性等特点。

抽样调查的作用:一是能够解决全面调查无法或难以解决的问题;二是可以补充和订正全面调查的结果,三是可用于生产过程中产品质量的检查和控制,四是可用于对总体的某种假设进行检验。

抽样调查是非全面调查中最完善、最有科学根据的方式方法。

抽样调查的基本形式有简单随机抽样、类型随机抽样、等距抽样、整群抽样。

4、重点调查

重点调查是专门组织的一种非全面调查,它是对所要调查的全部单位选择一部分重点单位进行调查。

重点调查的关键是选择好重点单位。所谓重点单位,是从标志量的方面而言的,尽管这些单位在全部单位中只是一部分,但这些单位的某一主要标志量占总体单位标志总量的绝大比重。对这些单位进行调查,就可以了解调查对象的基本情况。

重点调查中重点单位的选择着眼于标志量的比重,因而重点单位的选择具有客观性。当调查目的是掌握现象的基本情况,而部分单位又能比较集中地反映所研究的项目和指标时,可用重点调查。重点调查可以定期进行,也可以不定期进行,重点调查实际上是范围比较小的全面调查,它的目的是反映现象总体的基本情况。

抽样调查和重点调查都是专门组织的非全面调查,具有调查单位少,省时省力的特点,在选取调查单位时不受主观因素的影响。但二者之间有明显的区别:首先是调查单位的意义和取得方式不同,重点调查是选择为数不多但标志量占总体标志总量绝大比重的单位进行调查;抽样调查中的样本单位是按照随机原则从研究总体中抽取的、具有较高代表性。其次,二者研究目的不同。重点调查是为了了解现象总体的基本情况,但不能推断总体总量;抽样调查的目的在于以样本量来推断总体总量。再次,适用场合不同。重点调查适用于部分单位能比较集中地反映所研究的项目或指标的场合;抽样调查最适合于不能或很难进行全面调查,而又需要全面数值的场合,在能进行全面调查的场合也有独到的作用。

5、典型调查

典型调查是根据调查的任务目的,对所研究的现象总体进行初步分析的基础上,有意识的选择若干具有代表性的单位进行调查,借以认识事物发展变化的规律。

典型调查的特点一是深入细致的调查,既可以搜集数字资料,又可以搜集不能用数字反映的实际情况;二是调查单位是有意识的选择出来的若干有代表性的单位,它更多地取决于调查者的主观判断和决策。

典型调查和重点调查相比,前者调查单位的选择取决于调查者的主观判断,后者调查单位的选择具有客观性;前者在一定条件下可以用典型单位的量推断总体总量,后者不具备用重点单位的量推断总体总量的条件。

典型调查在做总体数量上的推断时无法估计误差,推断结果只是一个近似值。

抽样调查和重点调查、典型调查的根本区别就在于选取调查单位的方法不同。

五、各种调查方式的结合运用

不同的统计调查的方式方法,各有其特点和作用。在实际工作中,并非单用一种方式方

法,而是多种方式方法的结合运用。这是因为:

①国民经济和社会发展情况复杂,国民经济门类众多,必须应用多种多样的统计调查方法,才能搜集到丰富的统计资料;

②任何一种统计调查方法,都有它的优越性与局限性,各有不同的实施条件,只用一种统计调查方法,不能满足多种需要。

第三节统计分组

一、统计分组的概念

根据研究任务的需要,按某种标志将总体划分为几个性质不同而又有联系的几个组,就是统计分组。统计分组就是在总体同一性的前提下,对总体内存在的差别、特点进行认识的手段。

二、统计分组的作用

统计分组的基本作用有:

1 .划分社会经济类型。统计分组是确定社会经济现象各种类型的基础,例如将工业企业按所有制的不同、按轻重工业划分,居民按城镇、农村划分,从而说明不同的经济类型的特点。一般来说,社会经济类型的分组多采用品质标志来划分。

表 3 — 1 1997 年我国不同所有制单位职工及工资资料。

2 .研究总体内部的结构。通过统计分组可以反映总体内部各部分之间的差别和相互关系,表明总体的内部结构。同时在各组的基础上计算各组所占总体的比重,从总体的构成上认识总体各部分的作用,并对总体作出正确的评价。表

3 —2 是我国 1987 年和 1997 年从业人员按三次产业的分组。

表 3 — 2

从表中可以看出 1987 年 ~1997 年从业人员的分布情况,通过分组表明了从业人员在三次产业中的分布,也显示了人员在三次产业中的结构比重,说明这 10 年间我国的产业结构发生了很大的变化。

3 .分析现象之间的依存关系。社会经济现象之间存在着相互制约、相互联系的关系,通过统计分组可以根据现象间的影响因素和结果因素的对应更好地揭示现象之间的这种依存关系。

三、分组标志的选择

统计分组能把总体划分为不同的组,关键在于分组标准的选定。

分组标准就是统计分组标志,它有数量标志和品质标志两种。

根据研究现象的具体情况和研究任务的需要,分组仅按一个标志来进行的,称为简单分组;分组按两个或两个以上的标志来分组为复合分组。

简单分组实际上就是各个组是按一个标志形成的。例如将社会消费品零售总额按经济类型分为国有经济、集体经济、联营经济、个体和其他经济等几个组。

复合分组实际上是各组按两个以上的标志形成的,即先按一个标志分组,再在其基础上按第二个标志分组,依次类推。例如工业企业先按经济类型分组,再按行业分组,又在此基础上进行规模分组。

四、统计分组方法

统计分组根据分组标志的性质,分为按品质标志分组和按数量标志分组。

品质标志上是说明事物的性质或属性特征的,它反映的是总体单位在性质上的差异,它不能用数值来表现。

数量标志是直接反映事物的数量特征的,它反映的是事物在数量上的差异。如人口的年龄、企业的产值等。统计分组方法就是指这两种标志的具体分组方法。

(一)品质标志的分组

(二)按数量标志分组

按数量标志分组根据实际情况的不同,有以下几种方法:

1 .单项式分组和组织式分组。数量标志也称变量,变量有离散型和连续型两种。离散型变量如果变量值的变动范围不大,可以将一个变量值作为一组,称单项式分组。如对居民家庭按家庭人口数进行分组:

按家庭人数分组

1 人

2 人

3 人

4 人

5 人及以上

但在离散型变量的取值范围大、项数又多的情况下,就不宜进行单项式分组。

所以单项式变量分组通常适合于变量较少的情况,并且只适合于离散型变量。

在连续型变量或离散型变量变量值较多的情况下,我们可以采用组距式分组的形式。组距式分组就是把全部变量值划分为几个区间,每一区间的变量值作为一个组,区间的距离称为组距。例如,企业的工人按其日产零件数进行分组:

按零件数分组

50 — 60

60 — 70

70 — 80

80 — 90

90 及以上

连续型变量由于不能一一列举它的变量值,只能进行组距式分组,如工人按工资水平分组:

按工资水平分组

300 — 400

400 — 500

500 — 600

600 — 700

700 — 800

按组距式分组首先要确定的是组数。

在组距式分组中,当组数确定后,可以根据全组变量值中的最大值和最小值确定组距。组距 = (最大值 - 最小值)÷组数。

2.等距分组和不等距分组。

等距分组即标志值在各组保持相等的组距,在变量值变动比较均匀的情况下,没有突然的大起大落时,可采用等距分组。

在变量值的变动不稳定,出现大幅度的上升,下降,变动很大的情况下,或为了研究问题的需要,也可以采用不等组距。

例如对城市的百货商店营业额的分组,各商店的年营业额差异是很大的,如采用等距分组,组数过多,就很难表现其分布规律,可以考虑用不等组距分组, 50~500万元、500~5000万元、5000~5000万元。

在不等组距中,如果变量值是按一定的比例发展变化的,可以按等比的组距间距来分组,如对商店按营业额分组,但主要是根据事物性质变化的数量界限来确定组距,如人口年龄分组。

3.组限和组中距。

组限:在组距式分组中,组距两端的数值就是组限。每组的最大值称为上限,最小值称为下限。由于变量分为离散型变量和连续型变量,因此组限的表示方法也不同。

离散型变量的数值可以一一列举,并且相邻的两个数值之间没有中间数值,因此在确定组限时,上、下限的确定就可以采用确定的数值来表示。

连续型变量由于不能一一列举,并且有中间数值,因此相邻的上、下限无法用一个确定的数值来表示。相邻两组的组限应该重叠。

组中值:是上、下限之间的中点数值。组距式分组掩盖了各组内的标志值的分布情况,为了反映各组标志值的一般水平,通常用组中值作为各组的代表值。

在组距式分组中,我们假定各组内的标志值的变动是均匀的,则组中值的计算就是上、下限的简单平均。(上限 +下限)÷2。实际上各组内标志值的分布不一定均匀,因此组中值与实际的标志值有所不同,它只是一个假定的代表值。

第三节分配数列

一、分配数列的概念

在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列,也称分布数列或次数分布。

分配数列包括两个要素:一是总体按某标志所分的组;二是各组所占有的总体单位数。

分配数列在统计研究中具有重要意义。分配数列是统计分组结果的主要表现形式,也是统计分析的一种重要方法。它可以表明总体单位在各组的分布特征、结构状况,并在这个基础上来进一步研究标志的构成、平均水平及其变动规律性。

二、分配数列的种类

分配数列根据分组标志的性质不同,分为品质分配数列和变量分配数列。

(一)品质数列

品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。见表3-4。

表3-4 某大学在校学生的性别分布情况

性别学生人数(人)学生人数比重(%)

男性女性11696

1984

85.5

14.5

合计13680 100.0

编制品质分配数列,只要分组标志选择得好,分组标准定得恰当,则事物性质的差异表现得比较明确,总体中各组的划分较容易。因而品质分配数列一般比较稳定,能准确地反映总体的分布特征。

(二)变量数列

按数量标志分组所编制的分配数列叫变量数列。变量数列又可分为单项式变量数列和组距式变量数列。

1.单项式变量数列

按每个变量值分别列组,所编制的变量数列叫单项式变量数列,又称单项数列。这样的数列组数等于数量标志所包含的变量值的数目。见表3-5,

表3-5 某车间工人看管机器台数分布

按工人看管机器分组工人数(人)工人比重(%)

5 6 8 10 18

26

24

12

22.5

32.5

30.0

15.0

合计80 100.0

单项变量数列一般在变量值不多且变量值的变动范围不大的条件下采用。

2.组距式变量数列

用表示一定变量范围(或距离),以起止的两个变量分别列组,所编制的变量数列叫组距式变量数列,又称组距数列。见表3-6。

表3-6 某企业职工月工资情况 按工资水平分组(元) 按工人数(人) 比重(%)

100~150

150~200

200~250

250以上

180 320 400 100 18 32 40 10 合 计

1000 100.0

在组距数列中,要弄清以下几个概念:

(1) 组限。表示各组界限的变量值叫组限。组限又分上限和下限。下限是每组最小的变量值,上限是每组最大的变量值。表3-6中100~150元一组,100元和150元是组限,100元为下限,150元为上限。

(2) 组距。每组下限与上限之间的距离叫组距,它等于上限与下限之差,即组距=上限-下限。

(3) 组中值。每组下限与上限之间的中点数值叫组中值,组中值=。上表3—6中的第一组的组距=150-100=50元,组中值= 。 编制组距式变量数列时,往往使用最小组缺下限或最大组缺上限,这样不确定组距的组,称为开口组,表3—6中第四组为开口组。开口组的组距以相邻组的组距作为本组的组距,确定其下限或上限,再计算组中值。表3-6中第四组的组中值为:。 必须指出,组中值代表各组内的一般水平,这种代表有一定的假定性,即假定次数在组内分布是均匀的。

组距变量数列,根据各组的组距是否相等,可分为等距数列和异距数列。等距数列由于组距相等,各组次数的分布不受组距大小的影响,它和消除了组距影响的次数密度的分布是一致的。异距数列各组次数多少受组距不同的影响;组距大次数数值可能大,组距小则次数数值可能小。为了比较要清除此影响,需要计算次数密度。次数密度是单位组距的次数多少,又称为频数密度。 次数密度。表3—6中第一组次数密度为: 。 组距变量数列,一般在变量值较多,且变量值的变动范围较大时采用。

三、变量数列的编制

变量数列有单项变量数列和组距变量数列两种数列。在编制变量数列时, 首先要确定

变量数列的形式。当分组标志的标志值个数不多,且属离散型变量,一般编制单项变量数列,当分组标志的标志值较多,且属连续性变量(离散变量亦可),一般编制组距变量数列。

变量数列的编制步骤如下:

第一步,将调查获得的原始资料按数值大小依次排列。设某班学生统计学考试分数数据排列如下(单位:分):

44、50、56、60、62

63、65、65、69、69

69、70、73、74、76

77、78、78、79、80

83、84、85、85、86

87、88、89、90、91

91、92、93、94、94

第二步,确定组数和组距。一般是依据对总体内部情况进行定性分析,然后具体确定。但组数的多少和组距的大小是相互制约的。组数越多,组距就越小;反之组数越少,组距就越大。对于组数和组距,先确定哪一个,不能机械地规定,而应视具体情况确定。确定组数和组距应注意以下问题:

(1)要能明显地反映出总体的分布特征;

(2)要尽可能分出组与组性质上的差异。

如果对上述资料进行分析,决定先确定组数,则可依变量值的变动范围(全距)除以组数,即可得到组距。

设R为总体内变量值的变动范围(全距),它等于总体内最大变量值与最小变量值

之差,K为组数,i为等组距,则

为了计算方便,组距通常取5或10,或为5和10的倍数。

美国学者斯特吉斯提出,在总体各单位按其标志值分布趋近于正态的情况下,可根据总

体单位数(N)来确定分组的组数(n)。确定组数的参考公式为:

第三步,确定组限。当组数、组距确定以后,还需划定各组的数量界限,才可编制组距变量数列。组限的确定,除了应区分事物的性质和反映总体的分布特征外,还应注意下列几点:

1.最小组下限低于最小变量值,最大组上限高于最大变量值;

2.确定组限的形式。由于变量有连续型变量和离散型变量之分,其组限的划分要求也不同。对于连续型变量,划分组限时相邻的组限必须重合,而习惯上规定,各组不包括其上限变量值的单位,即所谓“上组限不在内”的原则。对于离散型变量,划分组限时相邻组的组限必须间断。但是,在实际工作中,为了保证不重复不遗漏总体单位,对于离散变量也常常采用连续型变量的组限表示方法。

3.确定开口组和闭口组。当变量出现极大值或极小值时,可采用开口组,即用××以下或××以上表示。

第四步,将总体各单位分配到各组,计算出各组的次数,便得组距变量数列。

将上述资料编制成组距变量数列表,见表3-7.

表3-7 某班统计学考试成绩表

按考试分数分组(%)学生人数(人)

60以下

60~70

70~80

80~90

90以上

3

8

8

9

7

合计35

第四节统计表

图为表格式样

数据经整理后使之进一步表格化,便形成统计表(statistical table)

统计表是由纵横交叉线条所绘制的表格来表现统计资料的一种形式。

根据《中国小学教学百科全书》介绍,统计表是用原始数据制成的一种表格。为了实际需要,人们常常要把工农业生产、科学技术和日常工作中所得到的相互关联的数据,按照一定的要求进行整理、归类,并按照一定的顺序把数据排列起来,制成表格,这种表格叫做统计表。

它的作用是:①用数量说明研究对象之间的相互关系。②用数量把研究对象之间的变化规律显著地表示出来。③用数量把研究对象之间的差别显著地表示出来。这样便于人们用来分析问题和研究问题。

统计表的形式繁简不一,通常按项目的多少,分为单式统计表和复式统计表两种。只对某一个项目的数据进行统计的表格,叫做单式统计表,也叫做简单统计表。统计项目在两个或两个以上的统计表格,叫做复式统计表。

统计表的内容一般都包括总标题、横标题、纵标题、数字资料、单位、制表日期。总标题是指表的名称,它要能简单扼要地反映出表的主要内容,横标题是指每一横行内数据的意义;纵标题是指每一纵栏内数据的意义;数字资料是指各空格内按要求填写的数字;单位是指表格里数据的计量单位。在数据单位相同时,一般把单位放在表格的左上角。如果各项目的数据单位不同时,可放在表格里注明。制表日期放在表的

右上角,表明制表的时间。各种统计表都应有“备考”或“附注”栏,以便必要时填入不属于表内各项的事实或说明。

第三章综合指标

(一)总量指标的概念

就是反映在一定时间地点和条件下的社会经济现象总体规模或水平的统计指标。这类指标是通过全面调查的方法,对总体单位进行调查登记,逐步汇总得出的总体单位总数或某种标志总量,所以称为总量指标,其表现形式就是绝对数。

(二)总量指标的种类

1.总量指标按其反映内容的不同,分为总体单位总量和总体标志总量。单位总量反映总体中单位的总数,说明总体本身的规模大小。如工业企业总数、职工总数、学校总数,等等。标志总量反映,总体中各个单位某一标志值的总和,说明总体某一数量特征的总量。例如工农业总产值、基本建设投资额、商品销售额、工资总额,等等。随着统计研究目的的改变,单位总量与标志总量可以相互转化。

2.总量指标按其反映的时间状态的不同,分力时期指标和时点指标。时期指标是反映总体在一段时期内(例如—旬、一月、一季或一年)活动过程的总量,例如产品产量、产值、商品销售额等。经济学中又称之为流量。时点指标是反映总体在某一特定时刻(瞬间)上的总量,例如期初或期末的职工人数、设备台数、商品库存量等。经济学中又称之为存量。

3.总量指标按其指标数值采用的计量单位不同,分为实物指标、价值指标和劳动量指标。实物指标是以实物单位计量的总量指标。用于反映各同类实物的总量,但不能用于不同类别的总量的汇总。实物单位还有不同的表现形式,可以根据事物的性质和研究任务分别采用:(1)实物的自然单位。(2)度量衡单位。(3)标准实物单位。(4)有时,为了充分表明实物的数量,需要采用复合计量单位。

价值指标是以货币单位计量的总量指标。货币单位是由社会必要劳动时间所确定的商品的价值单位,如元、千元、万元等。价值指标按价格的固定程度分为不变价价值指标和现价价值指标,上例中就是现价价值指标。价值指标具有综合和概括的能力,可以综合表现各种具有不同。使用价值的产品或商品的总量。

劳动量指标是以劳动单位计量的总量指标。劳动单位是用劳动时间表示的计量单位,是一种复合单位,通常用工时、工日表示。劳动量可以相加,加总的结果就是劳动消耗总量。它可用于分析劳动资源和劳动时间的利用情况,为核算企业工人工资和计算劳动生产率提供依据。同时,也是基层企业编制和检查生产作业计划的重要依据。

(三)总量指标的作用

反映社会经济基本情况的数字资料,最先都表现为总体单位总量或标志总量。在统计分析中,总量指标是综合指标中的基本指标,具有重要的意义和作用。

首先,总量指标是从数量方面反映社会经济现象基本情况的指标,是认识事物的客观依据和起点。

其次,总量指标是实行社会主义的科学管理的重要依据。各级领导机构指导工作、决定政策、编制和检查计划飞进行科学管理,都需要胸中有“数”,这个“数”首先就是事物的总量指标的数值。

第三,总量指标是计算相对指标和平均指标的基础。总量指标准确与否,直接影响统计分析的准确性。

第二节相对指标的概念

编辑本段

相对指标是质量指标的一种表现形式。它是通过两个有联系的统计指标对比而得到的,其具体数值表现为相对数,一般现为无名数,也有用有名数表示的。

相对指标的种类

编辑本段

相对指标按其作用不同可划分为六种:结构相对指标、比例相对指标、强度相对指标、动态相对指标、比较相对指标和计划相对指标。

《1》结构相对指标又称结构相对数。总体的某一部分与总体数值相对比求得的比重或比率指标。

《2》比较相对指标又称比较相对数或同类相对数。同类指标在不同空间进行静态对比形成的相对指标。

《3》比例相对指标又称比例相对数或比例指标。反映总体中各组成部分之间数量联系程度和比例关系的相对指标。

《4》强度相对指标又称强度相对数。有一定联系的两种性质不同的总是指标相比较形成的相对指标。通常以复名数、百分数(%)、千分数(?)表示。

《5》动态相对指标又称动态相对数或时相对指标。某一社会经济现象的同类指标在不同时间的数值之比。通常以百分数(%)或倍数表示。

《6》计划完成程度指标又称计划完成百分数。以计为比较标准,将实际完成数与计划规定数相比较,用以表明计划完成情况的相对指标,通常用百分数(%)表示。

相对指标的表现形式

编辑本段

相对指标又称统计相对数。它是两个有联系的现象数值的比率,用以反映现象的发展程度、结构、强度、普遍程度或比例关系。在统计分析中运用相对指标,可使我们能够更清楚

地认识现象之间的关系,可以使不能直接对比的现象找到可以对比的基础。相对指标就是应用对比的方法,来反映社会经济现象中某些相关事物间数量联系程度的综合指标,其表现形式为相对数。相对指标可以反映现象之间的相互联系程度,说明总体现象的质量,经济效益和经济实力情况,利用相对指标可使原来不能直接对比的数量关系变为可比,有利于对所研究的事物进行比较分析。

因为相对指标是运用对比的方法揭示现象之间的联系程度,用以反映现象之间的差异程度。所以,计算相对指标时分子分母指标是否具有可比性,是计算结果能否正确反映现象之间数量关系的重要条件。

分子分母指标的可比性主要包括:指标内容是否相适应;总体范围是否一致;计算方法是否相同;计量单位是否统一。

相对指标的计算

编辑本段

(1)结构相对指标结构相对指标是在对总体分组的基础上,以总体总量作为比较标准,求出各组总量占总体总量的比重,来反映总体内部组成情况的综合指标。

结构相对指标=各组(或部分)总量/总体总量

如:甲地职工男职工人数占职工人数的70%

计算结构相对指标能够反映总体内部结构和现象的类型特征。

(2)比例相对指标比例相对指标是总体中不同部分数量对比的相对指标,用以分析总体范围内各个局部、各个分组之间的比例关系和协调平衡状况比例相对指标=总体中某一部分数值/总体中另一部分数值

如:甲地职工男职工人数是女职工人数的2倍

(3)比较相对指标比较相对指标是不同单位的同类现象数量对比而确定的相对指标,用以说明某一同类现象在同一时间内各单位发展的不平衡程度,以表明同类实物在不同条件下的数量对比关系。

统计学统计学概率与概率分布练习题

第5章 概率与概率分布 练习题 5.1 写出下列随机事件的基本空间: (1) 抛三枚硬币。 (2) 把两个不同颜色的球分别放入两个格子。 (3) 把两个相同颜色的球分别放入两个格子。 (4) 灯泡的寿命(单位:h )。 (5) 某产品的不合格率(%)。 5.2 假定某布袋中装有红、黄、蓝、绿、黑等5个不同颜色的玻璃球,一次从中取出3个球, 请写出这个随机试验的基本空间。 5.3 试定义下列事件的互补事件: (1) A ={先后投掷两枚硬币,都为反面}。 (2) A ={连续射击两次,都没有命中目标}。 (3) A ={抽查三个产品,至少有一个次品}。 5.4 向两个相邻的军火库发射一枚导弹,如果命中第一个和第二个军火库的概率分别是、, 而且只要命中其中任何一个军火库都会引起另一个军火库的爆炸。试求炸毁这两个军火库的概率有多大。 5.5 已知某产品的合格率是98%,现有一个检查系统,它能以的概率正确的判断出合格品, 而对不合格品进行检查时,有的可能性判断错误(错判为合格品),该检查系统产生错判的概率是多少 5.6 有一男女比例为51:49的人群,已知男人中5%是色盲,女人中%是色盲,现随机抽中 了一个色盲者,求这个人恰好是男性的概率。 根据这些数值,分别计算: (1) 有2到5个(包括2个与5个在内)空调器出现重要缺陷的可能性。 (2) 只有不到2个空调器出现重要缺陷的可能性。 (3) 有超过5个空调器出现重要缺陷的可能性。 5.8 设X 是参数为4=n 和5.0=p 的二项随机变量。求以下概率: (1))2(

5.9 一条食品生产线每8小时一班中出现故障的次数服从平均值为的泊松分布。求: (1) 晚班期间恰好发生两次事故的概率。 (2) 下午班期间发生少于两次事故的概率。 (3) 连续三班无故障的概率。 5.10 假定X 服从12=N ,7=n ,5=M 的超几何分布。求: (1))3(=X P 。(2))2(≤X P 。(3))3(>X P 。 5.11 求标准正态分布的概率: (1))2.10(≤≤Z P 。 (2))49.10(≤≤Z P 。 (3))048.0(≤≤-Z P 。 (4))037.1(≤≤-Z P 。 (5))33.1(>Z P 。 5.12 由30辆汽车构成的一个随机样本,测得每百公里的耗油量数据(单位:L )如下: 试判断该种汽车的耗油量是否近似服从正态分布 5.13 设X 是一个参数为n 和p 的二项随机变量,对于下面的四组取值,说明正态分布是否 为二项分布的良好近似 (1)30.0,23==p n 。(2)01.0,3==p n 。 (3)97.0,100==p n 。(4)45.0,15==p n 。

《概率统计学》答案

单项选择题: 1.D 对以往数据分析的结果表明,机器在良好状态时,生产的产品合格率为90%,而当机器在有故障状态时,产品合格率为30%,每天开机时机器良好的概率为75%。当某天开机后生产的第一件产品为合格品时,机器是良好状态的概率等于()。 A、0.9 B、0.75 C、0.675 D、0.525 2.D 袋中有5个球(3个新球,2个旧球)。现每次取一个,无放回的抽取两次,则第二次取到新球的概率是()。 A、3/5 B、3/4 C、1/2 D、3/10 3.B 已知在10个电子元件中有2只是次品,从其中取两次,每次随机的取一只,做不放回抽取,则第二次取出的是次品的概率是()。 A、1/45 B、1/5 C、16/45 D、8/45 4.A 已知P(A)=P(B)=P(C)=1/4,P(AB)=P(BC)=0,P(AC)=3/16,则事件A,B,C全不发生的概率等于()。 A、7/16 B、3/4 C、1/4 D、9/16 5.D 6.C

7.B 8.B 甲、乙两袋内都装有两个黑球和两个白球,现从甲、乙两袋中各摸取一个球,记事件A为“从甲袋中摸出白球”,B为“从乙袋中摸出白球”,C为“摸出的两个球颜色不同”,则有()。 A、A,B,C相互独立 B、A,B,C三个事件两两独立 C、A,B,C三个事件两两互不相容 D、AB与C互不相容 9.D 10.C 对于任意两个事件A与B,则有P(A-B)为() A、P(A)-P(B) B、P(A)-P(B)+P(AB) C、P(A)-P(AB) D、P(A)+P(AB) 11.C

12.D 13.A 14.C 15.B

概率论与数理统计学1至7章课后标准答案

第五章作业题解 5.1 已知正常男性成人每毫升的血液中含白细胞平均数是7300, 标准差是700. 使用切比雪 夫不等式估计正常男性成人每毫升血液中含白细胞数在5200到9400之间的概率. 解:设每毫升血液中含白细胞数为,依题意得,7300)(==X E μ,700)(==X Var σ 由切比雪夫不等式,得 )2100|7300(|)94005200(<-=<

统计学第5章概率论作业

一、选择 1、一项试验中所有可能结果的集合称为() A事件B简单事件C样本空间D基本事件 2、每次试验可能出现也可能不出现的事件称为() A必然事件B样本空间C随机事件D不可能事件 3、抛3枚硬币,用0表示反面,1表示正面,其样本空间Ω=() A{000,001,010,100,011,101,110,111} B{1,2,3}C{0,1}D{01,10} 4、随机抽取一只灯泡,观察其使用寿命t,其样本空间Ω=() A{t=0} B{t<0} C{t>0} D{t≥0} 5、观察一批产品的合格率P,其样本空间为Ω=() A{0

概率论与数理统计学1至7章课后答案

第二章作业题解: 掷一颗匀称的骰子两次, 以X 表示前后两次出现的点数之和, 求X 的概率分布, 并验证其满足(2.2.2) 式. 解: 由表格知X 并且,361)12()2(= ===X P X P ;362)11()3(====X P X P ; 363)10()4(====X P X P ;364)9()5(====X P X P ; 36 5)8()6(= ===X P X P ;366)7(==X P 。 即 36 | 7|6)(k k X P --== (k =2,3,4,5,6,7,8,9,10,11,12) 设离散型随机变量的概率分布为,2,1,}{Λ===-k ae k X P k 试确定常数a . 解:根据 1)(0 ==∑∞=k k X P ,得10 =∑∞ =-k k ae ,即 111 1 =---e ae 。 故 1-=e a 甲、乙两人投篮时, 命中率分别为 和 , 今甲、乙各投篮两次, 求下列事件的概率: (1) 两人投中的次数相同; (2) 甲比乙投中的次数多. 解:分别用)2,1(,=i B A i i 表示甲乙第一、二次投中,则 12121212()()0.7,()()0.3,()()0.4,()()0.6,P A P A P A P A P B P B P B P B ======== 两人两次都未投中的概率为:0324.06.06.03.03.0)(2121=???=B B A A P , 两人各投中一次的概率为: 2016 .06.04.03.07.04)()()()(1221211212212121=????=+++B B A A P B B A A P B B A A P B B A A P 两人各投中两次的概率为:0784.0)(2121=B B A A P 。所以: (1)两人投中次数相同的概率为3124.00784.02016.00324.0=++ (2) 甲比乙投中的次数多的概率为:

概率统计学答案

读书破万卷下笔如有神 单项选择题: 1.D 对以往数据分析的结果表明,机器在良好状态时,生产的产品合格率为90%,而当机器在有故障状态时,产品合格率为30%,每天开机时机器良好的概率为75%。当某天开机后生产的第一件产品为合格品时,机器是良好状态的概率等于()。 A、0.9 B、0.75 C、0.675 D、0.525 2.D 袋中有5个球(3个新球,2个旧球)。现每次取一个,无放回的抽取两次,则第二次取到新球的概率是()。 A、3/5 B、3/4 C、1/2 D、3/10 3.B 已知在10个电子元件中有2只是次品,从其中取两次,每次随机的取一只,做不放回抽取,则第二次取出的是次品的概率是()。 A、1/45 B、1/5 C、16/45 D、8/45 4.A 已知P(A)=P(B)=P(C)=1/4,P(AB)=P(BC)=0,P(AC)=3/16,则事件A,B,C全不发生的概率等于()。 A、7/16 B、3/4 C、1/4 D、9/16 5.D

6.C 读书破万卷下笔如有神 7.B 8.B 甲、乙两袋内都装有两个黑球和两个白球,现从甲、乙两袋中各摸取一个球,记事件A为“从甲袋中摸出白球”,B为“从乙袋中摸出白球”,C为“摸出的两个球颜色不同”,则有()。 A、A,B,C相互独立 B、A,B,C三个事件两两独立 C、A,B,C三个事件两两互不相容 D、AB与C互不相容 9.D 10.C 对于任意两个事件A与B,则有P(A-B)为()

A、P(A)-P(B) B、P(A)-P(B)+P(AB) C、P(A)-P(AB) D、P(A)+P(AB) 11.C 读书破万卷下笔如有神 12.D 13.A 14.C

《统计学》概率论与数理统计概述

【基础理论知识衔接】第三章1-3节《概率论与数理统计》 一、总结和复习描述数据的方法 二、密度曲线 三、关于概率 (一)三种解释: 古典概率(63页) 统计概率(64页) 主观概率(65页) 概率的以上三种定义,各有其特定的应用范围,也存在局限性,都缺乏严密性。 ?古典定义要求试验的基本事件有限且具有等可能性 ?统计定义要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明 ?主观概率的确定又具有主观随意性 苏联数学家柯尔莫哥洛夫于1933年提出了概率的公理化定义 ——通过规定应具备的基本性质来定义概率 公理化定义为概率论严谨的逻辑推理打下了坚实的基础。 (二)概率的基本性质(67页) ?非负性:对任意事件A,有0 ≤P(A)≤ 1。 ?规范性:必然事件的概率为1,即:P(Ω)=1;不可能事件的概率为0 ,即:P(Φ)=0。 ?可加性:若A与B互斥,则:P ( A∪B ) = P ( A ) + P ( B ) 对于多个两两互斥事件A1,A2,…,A n,则有: P ( A1∪A2∪… ∪A n) = P ( A1) + P (A2) + …+ P (A n) 上述三条基本性质,也称为概率的三条公理。 四、随机变量及其数字特征 (75---86页) 随机变量——表示随机试验结果的变量 取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果 用大写字母如X、Y、Z...来表示,具体取值则用相应的小写字母如x、y、z…来表示 根据取值特点的不同,可分为: ?离散型随机变量——取值可以一一列举 ?连续型随机变量——取值不能一一列举 离散型随机变量 (1)离散型随机变量的第一个数字特征 是指数学期望,又称均值 描述一个随机变量的概率分布的中心位置 离散型随机变量X的数学期望:(77页公式3.12) 相当于所有可能取值(以概率为权数)的加权平均值 数学期望的主要数学性质 ?若k是一常数,则E (k X) =k E(X) ?对于任意两个随机变量X、Y,有E(X+Y)=E(X)+E(Y) ?若两个随机变量X、Y相互独立,则E(XY)=E(X) E(Y) (2)离散型随机变量X的方差——第二个数字特征 ?方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或σ2

概率统计学复习题及答案

《概率论与数理统计》综合练习题 第一章﹑事件与概率 1.事件之间的关系与运算:事件的积、和、差,事件的包含,尤其是对互不相容(互斥)事件,互逆(对立)事件,事件的独立性等概念的理解及其应用;交换律,结合律,分配律,对偶律等的运用 例1.设A﹑B是任意两个概率不为零的互不相容事件,则下列结论中哪些是正确的:(B、D) A、P(AB)=P(A)P(B), B、P(A+B)=P(A)+P(B), C、P(AˉBˉ)=0, D、P(A-B)=P(A), E、P(A∪B)=1, F、P(AB) > 0 解:由题意:P(A)>0, P(B)>0,A、B互不相容有P(AB)=0, A中,P(AB)=0,而P(A)P(B)>0,不正确,当A、B独立时选项A是对的;A不对; B中,由加法公式P(A+B)=P(A)+P(B)- P(AB)= P(A)+P(B),或根据有限可加性直接得到,B对; D中,由减法公式P(A-B)=P(A)- P(AB)= P(A),D对; 可类似讨论其他选项均不对。 2.古典概型的计算:公式P(A)=N(A)/N(Ω) 例2.将四个不同的球随机地放入五个不同的杯中,求(1)出现四个空杯的概率;(2)杯中球的个数最 多为一个的概率。 解:此题为古典概型中的分房模型: 将四个不同的球放入五个不同的杯子,每个球有五种不同的放法, 则Ω中含有54个基本事件,即N(Ω)= 54, (1)事件A:出现四个空杯,即四个球放入同一个杯子中,将五个杯子选出一个放入四球,共有五种选法,即N(A)= C51, 由公式得P(A)=N(A)/N(Ω)= C51/ C544!=1/125. (2)事件B:杯中球的个数最多为一个,即四个球放入四个不同的杯子中,还剩一个空杯,即先从五个杯子中选出四个,共C54种选法,再把四个不同的球放入,共有4!种方法,根据乘法原理得N(B)= C54A44,由公式得P(B)=N(B)/N(Ω)= C54A44/ 54=24/125. 3.伯努利概型,二项概率公式的应用,其公式:X~B(n,p), P{X=k}= C n k p k(1-p)n-k, k=0,1,2,…,n。 例3.一批产品的次品率为p (0

统计学习题答案 第3章 概率与概率分布

第3章 概率与概率分布——练习题(全免) 1 .某技术小组有12人,他们的性别和职称如下,现要产生一名幸运者。试求这位幸运者分别是以下几种可能的概率:(1)女性;(2)工程师;(3)女工程师,(4)女性或工程师。并说明几个计算结果之间有何关系? 解:设A =女性,B =工程师,AB =女工程师,A+B =女性或工程师 (1)P(A)=4/12=1/3 (2)P(B)=4/12=1/3 (3)P(AB)=2/12=1/6 (4)P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/2 2. 某种零件加工必须依次经过三道工序,从已往大量的生产记录得知,第一、二、三道工序的次品率分别为0.2,0.1,0.1,并且每道工序是否产生次品与其它工序无关。试求这种零件的次品率。 解:求这种零件的次品率,等于计算“任取一个零件为次品”(记为A )的概率()P A 。 考虑逆事件A =“任取一个零件为正品”,表示通过三道工序都合格。据题意,有: ()(10.2)(10.1)(10.1)0.648P A =---= 于是 ()1()10.6480.352P A P A =-=-= 3. 已知参加某项考试的全部人员合格的占80%,在合格人员中成绩优秀只占15%。试求任一参考人员成绩优秀的概率。 解:设A 表示“合格”,B 表示“优秀”。由于B =AB ,于是 )|()()(A B P A P B P ==0.8×0.15=0.12 4. 某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击)。某射击选手第一发命中的可能性是80%,第二发命中的可能性为50%。求该选手两发都脱靶的概率。 解:设A =第1发命中。B =命中碟靶。求命中概率是一个全概率的计算问题。再利用对立事件的概率即可求得脱靶的概率。 )|()()|()()(A B P A P A B P A P B P += =0.8×1+0.2×0.5=0.9 脱靶的概率=1-0.9=0.1 或(解法二):P (脱靶)=P (第1次脱靶)×P(第2次脱靶)=0.2×0.5=0.1 5.已知某地区男子寿命超过55岁的概率为84%,超过70岁以上的概率为63%。试求任一刚过55岁生日的男子将会活到70岁以上的概率为多少?

如何理解统计学中的小概率事件

如何理解统计学中的“小概率原理”? 朱继民博士 统计学是一门处理数据的收集、整理与分析的艺术,是指导人们如何对科学探索活动进行严密地设计、获取可靠的数据、正确地归纳分析与推理判断的科学。医学统计学在医学研究中帮助揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。 学过统计学的同学多有这样的体会:刚刚开始的前前几节课感觉很轻松,可是学着学着就开始犯糊涂了,晕车现象较为严重。原因在哪里呢?许多人给出的答案是数学基础差,而我却认为症结不在这里。统计学的概念与统计思维较为抽象,不易理解;方法丰富、适用范围与对数据的要求不尽相同,掌握起来困难,实际应用时常有无从下手的困惑;统计学内容的连贯性很强,环环相扣,而且前一环恰是下一环的基础;如果中间环节脱落,对后面内容的学习往往会有超出想象的影响。 现从统计学中的一个概念谈谈如何理解统计学的概念,并从应用层面看其与其他知识点的融合。 概率是统计学的一个重要的基本概念,它反映事件或现象发生可能性的大小,用P 表示;当P= 1时,表示肯定发生,即为必然事件,P= 0时,肯定不会发生,即为不可 能事件,P介于0与1之间,可能发生也可能不发生,即为随机事件。统计学重点关注的是随机事件在一次试验中发生的概率。掷币的结果有两种可能,要么正面朝上,要么反面朝上,概率均为0.5 ;如果只进行一次掷币试验,那么在掷币前我们无法确定掷币的结果到底是哪种情况,即朝上的面是正还是反。掷币的结果就是一种随机事件。 小概率事件即发生概率很小的事件(通常指P W 0.05或0.01 )在统计学中有着重要 的应用。对于小概率事件,很容易理解;即这样的事件理论上可以发生但发生的概率较小,在一次试验中发生的可能性则几乎为零。如买彩票中大奖就是典型的小概率事件。也许每一期均会有大奖开出(概率超低),但对于某一个彩民来说他买一注就中大奖的可能性(小概率事件在一次试验中就发生的概率)几乎没有。其实这就是小概率事件在统计学上应用的重要理论依据——小概率原理,即小概率事件在一次试验中发生的可能性很小,如果真的发生了,统计学则怀疑其真实性。统计学依据小概率原理作出结论的正确性很高,但也存在犯错误的风险(较低)。现以一个例子来看统计学是如何对待小概率事件的:不透明箱子里装有大小、形状、质地均相同的小球100个,其中白色球95 个,红色球5个。现在如果由某个人从该箱子中摸球,每次只允许摸 1 个球;那么,在球被摸出之前,我们知道白球和红球均有被摸到的可能,只是被摸到的概率不同,分别是0.95 和0.05。在试验中,如果摸到的是白球,统计学会承认球是从该箱子中摸出的;如果摸到的是红球,统计学则否认球是从该箱子中摸出的。统计学这样判定结果的依据 就是小概率事件在一次试验中发生的可能性几乎不存在,这样判定结果的正确性理论上可高达

统计学及概率论重要公式

条件概率 记为=)/(A B P ) () (A P AB P 。 乘法 乘法公式:)/()()(A B P A P AB P = 独立性 ①两个事件的独立性 )()() ()()()()|(B P A P B P A P A P AB P A B P === 全概公式 设事件n B B B ,,,21 满足 1°n B B B ,,,21 两两互不相容,),,2,1(0)(n i B P i =>, 则有 )|()()|()()|()()(2211n n B A P B P B A P B P B A P B P A P +++= 。 贝叶斯公式 ∑== n j j j i i i B A P B P B A P B P A B P 1 ) /()() /()()/(,i=1,2,…n 。 伯努利概型 k n k k n n q p k P C -=)(,n k ,,2,1,0 =。

离散型随 机变量的 分布律(2)∑∞ = = 1 1 k k p 。 连续型随机变量的分布密度设 ) (x F是随机变量X的分布函数,若存在非负函数) (x f,对任意实数x,有 ?∞-=x dx x f x F) ( ) ( , 则称X为连续型随机变量。) (x f称为X的概率密度函数或密度函数,简称概率密度。 1° ) (≥ x f。 2° ?+∞∞-=1 ) (dx x f 。 离散与连续型随机变量的关系 dx x f dx x X x P x X P) ( ) ( ) (≈ + ≤ < ≈ = 积分元 dx x f) (在连续型随机变量理论中所起的作用与k k p x X P= =) (在离散型随机变量理论中所起的作用相类似。 分布函数 设X为随机变量,x是任意实数,则函数 ) ( ) (x X P x F≤ = 称为随机变量X的分布函数,本质上是一个累积函数。 ) ( ) ( ) (a F b F b X a P- = ≤ <可以得到X落入区间] , (b a的概率。分布函数) (x F表示随机变量落入区间(–∞,x]内的概率。 分布函数具有如下性质: 1°,1 ) ( 0≤ ≤x F+∞ < < ∞ -x; 2°) (x F是单调不减的函数,即2 1x x<时,有≤ ) (1x F) (2x F; 3°0 ) ( lim ) (= = -∞ -∞ → x F F x ,1 ) ( lim ) (= = +∞ +∞ → x F F x ; 4°) ( )0 (x F x F= +,即) (x F是右连续的; 5°)0 ( ) ( ) (- - = =x F x F x X P。 八 大 分 布0-1分布P(X=1)=p, P(X=0)=q

相关主题
文本预览
相关文档 最新文档