抽样第十二章
- 格式:ppt
- 大小:864.00 KB
- 文档页数:50
第2章2.1 解:()1 这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是1100。
()2这种抽样方法不是等概率的。
利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2100,而尚未被抽中的编号为36~63的每个单元的入样概率都是1100。
()3这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为20 000~21 000中的每个单元的入样概率都是11000,所以这种抽样是等概率的。
2.3 解:首先估计该市居民日用电量的95%的置信区间。
根据中心极限定理可知,在大_y E y y -=近似服从标准正态分布, _Y 的195%α-=的置信区间为y z y z y y αα⎡⎡-+=-+⎣⎣。
而()21f V y S n-=中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。
由题意知道,_29.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _21130050000()2060.6825300f v y s n --==⨯=。
将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。
下一步计算样本量。
绝对误差限d 和相对误差限r 的关系为_d rY =。
根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≤≥-⎨⎬⎩⎭根据正态分布的分位数可以知道1P Z αα⎫⎪⎪≤≥-⎬⎪⎪⎭,所以()2_2rY V y z α⎛⎫⎪= ⎪⎝⎭。
也就是2_2_222/221111r Y r Y S n N z S n N z αα⎡⎤⎛⎫⎢⎥⎛⎫⎪⎛⎫⎝⎭⎪⎢⎥-=⇒=+ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎢⎥⎣⎦。
把_29.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。
本章的重点为:(1)审计抽样,包括抽样风险与⾮抽样风险、样本设计、样本选取、对样本实施审计程序、样本结果评价;(2)控制测试中抽样技术的运⽤,主要是三种抽样⽅法的具体运⽤;(3)实质性程序中抽样技术的运⽤,主要是两种抽样⽅法的具体运⽤。
&&本章难点&抽样结果的评价、五种抽样⽅法的具体运⽤。
&本章重点内容总结&§1 审计抽样概述在设计审计程序时,CPA应当确定选取测试项⽬的适当⽅法。
选取测试项⽬旨在帮助CPA确定实施审计程序的范围。
审计程序的范围是指实施审计程序的数量,包括抽取的样本量,对某项控制活动的观察次数等。
CPA可以使⽤的⽅法有三种:(1)选取全部项⽬;(2)选取特定项⽬;(3)审计抽样。
§2审计抽样⼀、抽样风险和⾮抽样风险(⼀)抽样风险1.抽样风险是指CPA根据样本得出的结论,与对总体全部项⽬实施与样本同样的审计程序得出的结论存在差异的可能性。
也就是说,样本中包含的⾦额错报或对设定控制的偏差,可能不能代表某类交易或账户余额总体中存在的错报或控制偏差。
2.抽样风险的类型。
抽样风险分为下列两种类型:(1)在实施控制测试时,CPA推断的控制有效性⾼于其实际有效性的风险,或在实施细节测试时,CPA推断某⼀重⼤错报不存在⽽实际上存在的风险。
此类风险影响审计的效果,并可能导致CPA发表不恰当的审计意见。
(2)在实施控制测试时,CPA推断的控制有效性低于其实际有效性的风险,或在实施细节测试时,CPA推断某⼀重⼤错报存在⽽实际上不存在的风险。
此类风险影响审计的效率。
也就是说,⽆论在控制测试中还是在细节测试中,抽样风险都可以分为两种类型:⼀类是影响审计效果的抽样风险,另⼀类是影响审计效率的抽样风险。
但在控制测试和细节测试中,这两类抽样风险的表现形式有所不同。
在实施控制测试时,CPA要关注的两类抽样风险是信赖过度风险和信赖不⾜风险。
信赖过度风险是指推断的控制有效性⾼于其实际有效性的风险。
现代管理学第十二章社会调查方法与技术一、单选题1.在社会调查中,两个变量相关系数在0.5~0.7之间,说明变间的相关程度()A.较低B.一般C.显著D.极高答案:C解析:表示变量之间相关关系密切程度的指标,称为关系数或相关指数。
一般情况下,两个变量之间的相关系数的取值在0与1之间。
如果相关系数在0.3以下,表明变量间相关程度低;如果相关系数在0.3~0.5之间,表明变量间相关程度一般;如果相关系数在0.5~0.7之间,表明变量间相关程度显著;如果相关系数在0.7~0.9之间,表明变量间相关程度高;如果相关系数在0.9以上,表明变量间相关程度极高。
2.一项社会调查在问卷中了解不同年龄的居民对网络购物的看法和态度,其中的“看法和态度”属于()A.因变量B.自变量C.中间变量D.中间变量答案:A解析:自变量是不受外部因素影响而自身产生变化的变量,如年龄、身高等;因变量是指受外界因素的影响而产生变化的变量,如人们对某事物的看法和态度,它往往受职业、文化程度以及所处的工作、生活环境的影响;中间变量是指介于自变量、因变量之间的变量。
3.若确认社会调查资料基本可靠,则要求信度系数达到()A.0.3以上B.0.5以上C.0.8以上D.0.9以上答案:C解析:信度与效度是调查研究的重要概念之一。
信度即资料的可靠性与真实性,它一般用信度系数来表示。
信度系数在0.8以上,一般认为调查资料是基本可靠的。
4.某牙膏生产企业在近期的一项调查中重点了解城市中成年居民每天刷牙的次数,这指标属于()A.评价性指标B.问题性指标C.主观性指标D.描述性指标答案:D解析:描述性指标是反映社会现象实际情况的指标,如居民拥有电视机台数、生活消费支出等。
某牙膏生产企业在近期的一项调查中重点了解城市中成年居民每天刷牙的次数就属于描述性指标。
5.抽样调查中,抽取样本的所有抽样单位的名单是()A.总体B.抽样框C.概率抽样D.非概率抽样答案:B解析:抽样框也称抽样范畴,是从中抽取样本的所有抽样单位的名单。
第十二章风险应对一、单项选择题1、分析程序是注册会计师执行财务报表审计业务时运用的一种重要的审计程序。
这种程序通常适合于审计()。
A.连续三年中各年营业成本占营业收入的比例B.连续三年中各年预付账款与当年年末应收账款的比例C.被审计期间实际发生的坏账损失占当年年末应收票据的比例D.相邻两个会计期间营业外支出中包含的无形资产的损失情况2、注册会计师应当设计控制测试,以获取控制在整个拟信赖的期间有效运行的充分、适当的审计证据。
下列关于控制测试范围的叙述不正确的是()。
A.控制执行的频率越高,控制测试的范围越小B.控制的预期偏差率越高,对拟信赖控制实施控制测试的范围越大C.如果控制的预期偏差率过高,注册会计师应当考虑控制可能不足以将认定层次的重大错报风险降至可接受的低水平,从而针对某一认定实施的控制测试可能是无效的D.信息技术处理具有内在一贯性,除非系统发生变动,注册会计师通常不需要增加自动化控制的测试范围3、下列关于实质性程序的结果对控制测试结果的影响表述不正确的是()。
A.如果通过实施实质性程序发现某项认定存在错报,注册会计师可以得出控制运行有效的结论B.如果通过实施实质性程序未发现某项认定存在错报,这本身并不能说明与该认定有关的控制是有效运行的C.如果通过实施实质性程序发现某项认定存在错报,注册会计师应当在评价相关控制的运行有效性时予以考虑D.如果实施实质性程序发现被审计单位没有识别的重大错报,通常表明内部控制存在重大缺陷,注册会计师应当就这些缺陷与管理层和治理层进行沟通4、注册会计师在了解及评价被审计单位内部控制后,实施控制测试的范围是()。
A.有重大缺陷的内部控制B.拟信赖的内部控制C.对财务报表有重大影响的内部控制D.并未有效运行的内部控制5、下列关于控制测试的说法不正确的是()。
A.控制测试与了解内部控制的目的不同,但二者有时可以采用相同的审计程序类型B.控制测试与细节测试的目的不同,但注册会计师可以考虑针对同一交易同时实施控制测试和细节测试,以实现双重目的C.如果确定评估的认定层次重大错报风险是特别风险,并拟信赖旨在减轻特别风险的控制,注册会计师可以信赖以前审计获取的证据而不再测试D.注册会计师可以考虑在评价控制设计和获取其得到执行的审计证据的同时测试控制运行有效性,以提高审计效率6、审计甲有限责任公司2018年度财务报表时,注册会计师A在风险评估阶段发现甲有限责任公司在2018年12月份发生了多笔重大的销售业务,并且还有若干笔大额销售业务在2018年底尚未完成。
第十二章概率与统计(理)网络体系总览考点目标定位1.离散型随机变量的分布列.离散型随机变量的期望和方差.2.抽样方法、总体分布的估计、正态分布、线性回归.复习方略指南在复习中,要注意理解变量的多样性,深化函数的思想方法在实际问题中的应用,充分注意一些概念的实际意义,理解概率中处理问题的基本思想方法,掌握所学概率知识的实际应用.1.把握基本题型应用本章知识要解决的题型主要分两大类:一类是应用随机变量的概念,特别是离散型随机变量分布列以及期望与方差的基础知识,讨论随机变量的取值范围,取相应值的概率及期望、方差的求解计算;另一类主要是如何抽取样本及如何用样本去估计总体.作为本章知识的一个综合应用,教材以实习作业作为一节给出,应给予足够的重视.2.强化双基训练主要是培养扎实的基础知识,迅捷准确的运算能力,严谨的判断推理能力.3.强化方法选择特别在教学中要掌握思维过程,引导学生发现解决问题的方法,达到举一反三的目的,还要进行题后反思,使学生在大脑记忆中构建良好的数学认知结构,形成条理化、有序化、网络化的有机体系.4.培养应用意识要挖掘知识之间的内在联系,从形式结构、数字特征、图形图表的位置特点等方面进行联想和试验,找到知识的“结点”.再有就是将实际问题转化为纯数学问题进行训练,以培养利用所学知识解决实际问题的能力.12.1 离散型随机变量的分布列巩固·夯实基础一、自主梳理1.随机变量的概念如果随机试验的结果可以用一个变量表示,那么这样的变量叫做随机变量,它常用希腊字母ξ、η等表示.(1)离散型随机变量.如果对于随机变量可能取的值,可以按一定次序一一列出,那么这样的随机变量叫做离散型随机变量.(2)若ξ是随机变量,η=aξ+b,其中a、b是常数,则η也是随机变量.2.离散型随机变量的分布列(1)概率分布(分布列).设离散型随机变量ξ可能取的值为x1,x2,…,x i,…,ξ取每一个值x i(i=1,2,…)的概率P(ξ=x i)=p i,则称表为随机变量ξ的概率分布,简称ξ的分布列.(2)二项分布.如果在一次试验中某事件发生的概率是p,那么在n 次独立重复试验中这个事件恰好发生k 次的概率是P(ξ=k)=C k n p k q n-k .C k n p k q n-k =b(k;n,p). 二、点击双基1.抛掷两颗骰子,所得点数之和为ξ,那么ξ=4表示的随机试验结果是( ) A.一颗是3点,一颗是1点 B.两颗都是2点C.两颗都是4点D.一颗是3点,一颗是1点或两颗都是2点 解析:对A 、B 中表示的随机试验的结果,随机变量均取值4,而D 是 ξ=4代表的所有试验结果.掌握随机变量的取值与它刻画的随机试验的结果的对应关系是理解随机变量概念的关键. 答案:DA.1B.1±22 C.1+22 D.1-22解析:∵0.5+1-2q+q 2=1,∴q=1±22. 当q=1+22时,1-2q<0,与分布列的性质矛盾, ∴q=1-22. 答案:D3.已知随机变量ξ的分布列为P(ξ=k)=k21,k=1,2,…,则P(2<ξ≤4)等于( ) A.163 B.41 C.161 D.51 解析:P(2<ξ≤4)=P(ξ=3)+P(ξ=4)=321+421=163.答案:A4.某批数量较大的商品的次品率为10%,从中任意地连续取出5件,其中次品数ξ的分布列为 __________________________.解析:本题中商品数量较大,故从中任意抽取5件(不放回)可以看作是独立重复试验n=5,因而次品数ξ服从二项分布, 即ξ—B(5,0.1).5.某射手有5发子弹,射击一次命中目标的概率为0.9,如果命中就停止射击,否则一直到子弹用尽,则耗用子弹数ξ的分布列为___________________________. 解析:ξ可以取1,2,3,4,5,P(ξ=1)=0.9,P(ξ=2)=0.1×0.9=0.09,P(ξ=3)=0.12×0.9=0.009,P(ξ=4)=0.13×0.9=0.000 9,P(ξ=5)=0.14=0.000 1. 诱思·实例点拨【例1】 一袋中装有5只球,编号为1,2,3,4,5,在袋中同时取3只,以ξ表示取出的三只球中的最小号码,写出随机变量ξ的分布列.剖析:因为在编号为1,2,3,4,5的球中,同时取3只,所以小号码可能是1或2或3,即ξ可以取1,2,3.解:随机变量ξ的可能取值为1,2,3.当ξ=1时,即取出的三只球中最小号码为1,则其他两只球只能在编号为2,3,4,5的四只球中任取两只,故有P (ξ=1)=3524C C =106=53;当ξ=2时,即取出的三只球中最小号码为2,则其他两只球只能在编号为3,4,5的三只球中任取两只,故有P (ξ=2)=3523C C =103;当ξ=3时,即取出的三只球中最小号码为3,则其他两只球只能在编号为4,5的两只球中任取两只,故有P (ξ=3)=3522C C =101.讲评:求随机变量的分布列,重要的基础是概率的计算,如古典概率、互斥事件的概率、相互独立事件同时发生的概率、n 次独立重复试验有k 次发生的概率等.本题中基本事件总数,即n=C 35,取每一个球的概率都属古典概率(等可能性事件的概率).【例2】(2005北京高考,理)甲、乙两人各进行3次射击,甲每次击中目标的概率为21,乙每次击中目标的概率为32. (1)记甲击中目标的次数为ξ,求ξ的概率分布及数学期望E ξ;(2)求乙至多击中目标2次的概率;(3)求甲恰好比乙多击中目标2次的概率.剖析:(1)甲射击有击中目标与击不中目标两个结果,且3次射击是3次独立重复试验.∴ξ—B(3,21).(2)“乙至多击中目标2次”的对立事件是“乙击中目标3次”.(3)“甲恰好比乙多击中目标2次”即“甲击中2次乙没击中目标或甲击中目标3次乙击中1次”.解:(1)P(ξ=0)=C 03(21)3=81; P(ξ=1)=C 13(21)3=83;P(ξ=2)=C 23(21)3=83;P(ξ=3)=C 33(21)3=81.∵ξ—B(3,2), ∴E ξ=3×21=1.5.(2)乙至多击中目标2次的概率为1-C 33(32)3=2719. (3)设甲恰好比乙多击中目标2次为事件A,甲恰好击中目标2次且乙恰好击中目标0次为事件B 1,甲恰好击中目标3次且乙恰好击中目标1次为事件B 2,则A=B 1+B 2,B 1、B 2为互斥事件,∴P(A)=P(B 1)+P(B 2)=83×271+81×92=241. ∴甲恰好比乙多击中目标2次的概率为241.讲评:求离散型随机变量的概率分布的步骤为:(1)找出随机变量ξ的所有可能的值x i (i=1,2,…);(2)求出各值的概率P(ξ=x i )=p i ;(3)列成表格.【例3】(2005广东高考)箱中装有大小相同的黄、白两种颜色的乒乓球,黄、白乒乓球的数量比为s ∶t.现从箱中每次任意取出一个球,若取出的是黄球则结束,若取出的是白球,则将其放回箱中,并继续从箱中任意取出一个球,但取球的次数最多不超过n 次.以ξ表示取球结束时已取到白球的次数. (1)求ξ的分布列; (2)求ξ的数学期望.解:(1)ξ的可能取值为0,1,2,…,n.(2)ξ的数学期望为E ξ=0×t s s ++1×2)(t s st++2×32)(t s st ++…+(n-1)×n n t s st )(1+-+n ×n n t s t )(+. ① t s t +E ξ=3)(t s st ++42)(2t s st ++…+n n t s st n )()2(1+--+1)()1(++-n n t s st n +11)(+++n n t s nt . ②①-②,得E ξ=s t +1)()1(-+-n n t s s t n -n n t s t n )()1(+--nn t s s nt )(1++. 讲评:本题是几何分布问题,其中用到数列的错位相减法求和,注意运算的严谨性.。
第十二章研究资料的审核、整理与统计分析第一节资料的审核与整理研究资料的审核与整理是分析资料的基础,它同研究阶段后期的第一项工作,是保证调查资料客观性、准确性、条理性、完整性不可缺少的重要环节。
一、资料审核的概念与原则资料审核是指在着手整理调查资料之前,对原始资料进行审查与核实的工作过程,目的是保证资料的客观性、准确性和完整性,为资料的整理打下坚实的基础。
资料审核和资料收集工作同步进行,叫做实地审核或收集审核。
在收集资料后集中时间进行审核叫做系统审核。
对重要资料进行反复的各种形式审核,叫做多次审核。
资料审核的原则(1)真实性原则。
(看其是否真实可靠地反映了调查对象的客观情况)(2)标准性原则。
(在较大规模的调查中,对于需要相互比较的材料,要审核其所涉及的事实是不是具有可比性。
指标的定义是否一致,计量单位是否相同等)(3)准确性原则。
(对资料进逻辑检查,有无不合理和相互矛盾的地方,如某人的年龄栏内填写的是23岁,而工龄栏内填写的是18年,显然不合逻辑。
)(4)完整性原则。
(是否收集齐全)二、资料的整理1.资料整理的概念和原则资料的整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化,为进一步深入分析提供条件。
资料整理应遵循三条原则:(1)条理化。
(是指对资料进行分类从而为进一步分析创造条件。
分类反映着研究者对研究对象的认识)(2)系统化。
(条理化是从分类着手,系统化是从整体综合的角度考虑问题)(3)统计汇总。
(是指将调查得到的各种数据进行初步的统计整理,以把握其总体上的数量特征。
)2.分类和分组从严格的意义讲,分类和分组都是一种定性分类方法,即根据研究对象的某些特征将其区分为不同种类。
分类适用于全部调查资料,分组只限于数量化的统计资料。
调查资料的分类有两种,即前分类和后分类。
(标准是按资料收集前后)文献调查的资料、非结构观察、座谈会的记录、问卷调查中开放性回答是属于后分类。
分类的方法有两种,即现象分类方法和本质分类方法。
第十二章 统计12.1抽样方法一、知识导学 1.抽签法:(1)将总体中的所有个体编号(号码可以从1到N );(2)将1到N 这N 个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作);(3)将号签放在同一箱中,并搅拌均匀;(4)从箱中每次抽出1个号签,并记录其编号,连续抽取k 次; (5)从总体中将与抽到的签的编号相一致的个体取出. 2.随机数表法:(1)对总体中的个体进行编号(每个号码位数一致); (2)在随机数表中任选一个数作为开始;(3)从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满为止; (4)根据选定的号码抽取样本. 3.系统抽样(等距抽样):(1)采用随机的方式将总体中的个体编号; (2)将整个的编号按一定的间隔(设为k )分段,当nN(N 为总体中的个体数,n 为样本容量)是整数时,n N k =;当nN 不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N /能被n 整除,这时nN k /=,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l ;(4)将编号为k n l k l k l l )1(.,,.........2,,-+++的个体抽出. 4.分层抽样:(1)将总体按一定标准分层;(2)计算各层的个体数与总体的个数的比;(3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量; (4)在每一层进行抽样(可用简单随机抽样或系统抽样). 二.疑难知识1.简单随机抽样是从总体中逐个不放回地抽取.2.简单随机抽样和系统抽样都是一种等概率抽样,即每个个体被抽到的可能性都是相同的. 3.简单随机抽样适用于总体中个体较少的情况;系统抽样适用于总体中个体数较多的情形;分层抽样用于总体由几个差异明显的部分组成的情况.4. 分层抽样时,在每一层内进行抽样时可根据具体情况,采用简单随机抽样或系统抽样. 5. 在使用分层抽样时,在每一层内抽样的比例相同. 三.经典例题[例1]某工厂生产A,B,C,D 四种不同型号的产品,产品数量之比依次为2:3:5:1,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号有16件,那么此样本容量n 是多少?错解:样本容量1615322+++⨯=2(件)错因:混淆了A 型号产品与样本容量的比例关系.正解:在分层抽样中,每一层所抽的个体数的比例与总体中各层个体数的比例是一致的,所以,样本容量为881621532=⨯+++=n答:此样本容量为88件.[例2]从1002名学生中选取100名进行抽样检查.请用系统抽样法设计一种方案,叙述其步骤. 解:(1)将1002名学生进行编号,号码分别为1,2,……,1002; (2)用随机数表法剔除2个个体,并将剩下的学生重新编号,号码分别为1,2,……1000;(3)将1000个号码平均分成100组,并在第一组1,2,……,10中用简单随机抽样法确定一个号码(如l );(2) 将号码为l l l l +++990,......20,10,的个体抽出. [例3]某学校有2005名学生,从中选取20人参加学生代表大会,采用简单随机抽样方法进行抽样,是用抽签法还是随机数表法?如何具体实施?分析:由于学生人数较大,制作号签比较麻烦,所以决定用随机数表法 解:采用随机数表法 实施步骤:(1) 对2005名同学进行编号,0000-2004(2) 在随机数表中随机地确定一个数作为开始,如21行45列的数字9开始的4位:9706;依次向下读数,5595,4904,………,如到最后一行,转向左边的四位数字号码,并向上读,凡不在0000-2004范围内的,则跳过,遇到已读过的数也跳过,最后得到号码为:0011,0570,1449,1072,1338,0076,1281,1866,1349,0864,0842,0161,1839,0895,1326,1454,0911,1642,0598,1855的学生组成容量为20的样本.[例4]某工厂有3条生产同一产品的流水线,每天生产的产品件数分别是3000件,4000件,8000件.若要用分层抽样的方法从中抽取一个容量为150件产品的样本,应该如何抽样? 解:总体中的个体数N=3000+4000+8000=15000样本容量n=150抽样比例为100115000150==N n 所以应该在第一条流水线生产的产品中随机抽取30001001⨯=30件产品 在第二条流水线生产的产品中随机抽取:40001001⨯=40件产品 在第三条流水线生产的产品中随机抽取:50001001⨯=50件产品这里因为每条流水线所生产的产品数都较多,所以,在每条流水线的产品中抽取样品时,宜采用系统抽样方法四.典型习题1.为了解某班50名同学的会考及格率,从中抽取10名进行考查分析,则在这次考查中,考查的总体内个体总数为 样本容量为 .2.采用系统抽样从含有2000个个体的总体(编号为0000,0001,……,1999)中抽取一个容量为100的样本,则第一段的编号为 若在第一段中用简单随机抽样得到起始个体编号为0013,则前6个入样编号为 .3.某市为了了解职工的家庭生活状况,先将职工所在的国民经济行业分成13类,然后每个行业抽1001的职工家庭进行调查,这种抽样方法是 . 4.用分层抽样的方法在一个企业中抽取一个样本容量为50的样本,其中在管理营销部门抽了15人,技术部门10人,其余在生产工人中抽取,已知该企业有生产工人375人,那么这个企业共有多少职工?5.采用简单随机抽样从含有5个人的身高的总体{}173,171,161,167,162中抽取一个容量为2的样本,写出全部样本,并计算各个样本的平均值,各样本平均值的平均值.12.2频率分布直方图、折线图与茎叶图一、知识导学1.频率分布表:反映总体频率分布的表格.2.一般地,编制频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=组数全距;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表.3. 频率(分布)直方图:利用直方图反映样本的频率分布规律. 4. 一般地,作频率分布直方图的方法为:(1)把横轴分成若干段,每一线段对应一个组的组距;(2)以此线段为底作矩形,它的高等于该组的组距频率,这样得出一系列的矩形;(3)每个矩形的面积恰好是该组上的频率.5. 频率折线图:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起,就得到一条折线,称这条折线为本组数据的频率折线图.6. 制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出. 二、疑难知识1. 在编制频率分布表时,要选择适当的组距和起始点才可以使频率分布表更好地反映数据的分布情况.2. 在编制频率分布表时,如果取全距时不利于分组(如不能被组数整除),可适当增大全距,如在左右两端各增加适当范围(尽量使两端增加的量相同).3. 频率折线图的优点是它反映了数据的变化趋势,如果将样本容量取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线. 4. 茎叶图对于分布在0~99的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地表示原始数据的信息.5. 在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图. 三、典型例题[例1]一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人用再用分层抽样方法抽出100人作进一步调查,则在[)3000,2500(元)月收入段应抽出 人.解析:由直方图可得[2500,3000)(元)月收入段共有100000.00055002500⨯⨯=人, 按分层抽样应抽出10025002510000⨯=人.故答案 25点评:频率分布直方图中,关健要理解图中数据的意义,特别是图中每个小矩形的面积才是这一组距内个体的频率.[例2]从有甲乙两台机器生产的零件中各随机抽取15个进行检验,相关指标的检验结果为: 甲:534,517,528,522,513,516,527,526,520,508,533,524,518,522,512 乙:512,520,523,516,530,510,518,521,528,532,507,516,524,526,514 画出上述数据的茎叶图 错解:甲 乙 8 0 787632 1 024668 8764220 2 013468 43 3 02 4错因,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,对于三位数字,应该把前两位数字作为茎,最后一位数字作为叶,然后从图中观察数据的分布情况,而不是仍考虑两位数,尽管此题的效果一样. 正解:用前两位数作为茎,茎叶图为甲 乙 8 50 787632 51 024668 8764220 52 013468 43 53 02 54从图中可以看出,甲机床生产的零件的指标分布大致对称,平均分在520左右,中位数和众数都是522,乙机床生产的零件的指标分布也大致对称,平均分也在520左右,中位数和众数分别是520和516,总的看,甲的指标略大一些. [例3]在绘制频率分布直方图的第三个矩形时,矩形高度① 与这个矩形的宽度(组距)有关; ② 与样本容量n 无关; ③ 与第三个分组的频数有关; ④ 与直方图的起始点无关. 以上结论中正确的共有()A .0个 B.1个 C. 2个 D.3个错解:D.错因:起始点与组距均影响第三组的频数,所以矩形高度与以上各因素均有关,①③正确,正解:C.[例4]根据中国银行的外汇牌价,2005年第一季度的60个工作日中,欧元的现汇买入价(100欧元的外汇可兑换的人民币)的分组与各组频数如下:〔1050,1060〕:1,〔1060,1070〕:7,〔1070,1080〕:20,〔1080,1090〕:11,〔1090,1100〕:13,〔1100,1110〕:6,〔1110,1120〕:2.(1)列出欧元的现汇买入价的频率分布表;(2)估计欧元的现汇买入价在区间1065~1105内的频率;(3)如果欧元的现汇买入价不超过x 的频率的估计值为0.95,求此x 解:(1)欧元的现汇买入价的频率分布表为:84.01100111011001105100.0217.0183.0333.01060107010651070117.0=--⨯++++--⨯(3)因为0.017+0.117+0.333+0.183+0.217=0.867〈0.95,0.017+……+0.217+0.100=0.967〉0.95,所以x 在[1100,1110]内,且满足0.867+0.1003.1108,95.0110011101100≈∴=--⨯x x 即欧元现汇买入价不超过1108.3的频率的估计为0.95 [例如果80分以上(包括80分)定为成绩优秀,60分以上(包括60分)定为成绩及格.那么,在这个班级的这次成绩统计中,成绩不及格的频率是多少?成绩及格的频率是多少?成绩优秀的频率是多少?解:被统计的对象(参加这次考试的本班学生)共有2+6+12+21+7+2=50个.60分以上的有48个,80分以上的有20个,所以成绩不及格的频率是04.0502=,成绩及格的频率是96.05048=,成绩优秀的频率是4.05020=.说明 要计算一组数据中某个对象的频率,要先计算数据的总的个数,再计算符合这个对象要求的数据的个数.某个对象可以是一个确定的数据,也可以是在某一范围内数据的总数.[例6]在英语单词frequency 和英语词组relative frequency 中,频数最大的各是哪个字母?它们的频数和频率各是多少?解:在frequency 和英语词组relative frequency 中,频数最大的字母都是e ,在单词frequency 中,e 的频数是2,频率是92;在词组relative frequency 中,e 的频数是4,频率是174.点评:在两组数据中,同一个对象的频数相等,但频率不一定相等,频数大,不一定频率大.在同一组数据中,某两个对象的频数相等,频率也相等;频数大,频率也大. 一、典型习题1.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为185.17-岁的男生体重kg ,得到频率分布直方图如下:根据上图可得这100名学生中体重在]5.64,5.56[的学生人数是( ). A . 20 B.30 C.40 D. 502. 一个容量为800的样本,某组的频率为6.25%,则这一组的频数是3. 某校随机抽取了20名学生,测量得到的视力数据如下:4.7,4.2,5.0,4.1,4.0,4.9,5.1,4.5,4.8,5.2,5.0,4.0,4.5,4.8,4.7,4.8,4.6,4.9,5.3,4.0(1) 列出频率分布表(共分5组)(2) 估计该校学生的近视率(视力低于4.9) 4. 用一个容量为200的样本制作频率分布直方图时,共分13组,组距为6,起始点为10,第4组的频数为25,则直方图中第4个小矩形的宽和高分别是多少? 5. 200名学生某次考试的成绩的分组及各组频率如下表:则及格率,优秀率()的估计分别是6.某地随机检查了140名成年男性红细胞(/1012L ),数据的分组及频率如下表:(2)根据上面的图表,估计成年男性红细胞数在正常值(4.0~5.5)内的百分比7.名著《简爱》的中英文版本中,第一节部分内容每句句子所含单词(字)数如下:英文句子所含单词数10,52,56,40,79,9,23,11,10,21,30,31;中文句子所含字数11,79,7,20,63,33,45,36,87,9,11,37,17,18,71,75,51. (1)作出这些数据的茎叶图;(2)比较茎叶图,你能得到什么结论?12.3平均数、方差与标准差一、知识导学1.n 个数据1a ,2a ,…….n a 的平均数或平均值一般记为-a =na a a n+++........21.2.一般地,若取值n x x x ,......,,21的频率分别为n p p p ,......,,21,则其平均数为n n p x p x p x +++......2211.3.把一组数据的最大值与最小值的差称为极差.4. 一般地,设一组样本数据n x x x ,......,,21,其平均数为-x ,则称212)(1∑=--=ni i x x n s 为这个样本的方差,算术平方根21)(1∑=--=n i ix x n s 为样本的标准差,分别简称样本方差,样本标准差. 二、疑难知识1.平均数,中位数和众数都是总体的数字特征,从不同角度反映了分布的集中趋势,平均数是最常用的指标,也是数据点的“重心”位置,它易受极端值(特别大或特别小的值)的影响,中位数位于数据序列的中间位置,不受极端值的影响,在一组数据中,可能没有众数,也可能有多个众数.2.方差和标准差是总体的数字特征,反映了分布的分散程序(波动大小),标准差也会受极端值(特别大或特别小的值)的影响.3.分布的分散程序还可以用极差来描述,但较粗略.4.样本方差也可以用公式21221x x n s n i i -=∑=计算.三、经典例题[例1]某人5次上班途中所花的时间(单位:分钟)分别为.9,11,10,,y x 已知这组数据的平均数为10,方差为2,则y x -的值为( )A .1 B.2 C.3 D.4 解:由平均数公式为10,得1051)91110(=⨯++++y x ,则20=+y x ,又由于方差为2,则()()()()()[]25110910111010101022222=⨯-+-+-+-+-y x 得20822=+y x 1922=xy 所以有()42222=-+=-=-xy y x y x y x ,故选D.[例2]数据n x x ,,1 是一名运动员的n 次射击的命中环数,则他的平均命中环数的估计是( ).A .样本平均数均值∑==ni i x n x 11 B .样本极差),,min(),,max(11n n x x x x R -=C .样本方差212)(1x x n s n i i -=∑= D .样本平均差AD=∑=-n i i x x n 11错解:C.错因:后三个选项都表示了样本的波动程度,不能用于总体平均值的估计. 正解:A.[例3]某房间中10个人的平均身高为1.74米,身高为1.85米的第11个人,进入房间后,这11个人的平均身高是多少?解:原来的10个人的身高之和为17.4米,所以,这11个人的平均身高为1185.11074.1+⨯=1.75.即这11个人的平均身高为1075米[例4]若有一个企业,70%的人年收入1万,25%的人年收入3万,5%的人年收入11万,求这个企业的年平均收入及年收入的中位数和众数解:年平均收入为12%511%253%70=⨯+⨯+⨯(万);中位数和众数均为1万(1)计算所有人员的月平均收入;(2)这个平均收入能反映打工人员的月收入的一般水平吗?为什么?(3)去掉老板的收入后,再计算平均收入,这能代表打工人员的月收入的水平吗? (4)根据以上计算,以统计的观点对(3)的结果作出分析 解:(1)平均收入711=-x (3000+450+350+400+320+320+410)=750元 (2)这个平均收入不能反映打工人员的月收入水平,可以看出打工人员的收入都低于平均收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是打工人员(3)去掉老板后的月平均收入612=-x (450+350+400+320+320+410)=375元.这能代表打工人员的月收入水平(4)由上可见,个别特殊数据可能对平均值产生大的影响,因此在进行统计分析时,对异常值要进行专门讨论,有时应剔除之 四、典型习题A .4 B.4.4 C.8 D.8.82.8名新生儿的身长(cm )分别为50,51,52,55,53,54,58,54,则新生儿平均身长的估计为 ,约有一半的新生儿身长大于等于 ,新生儿身长的最可能值是 .用上述分组资料计算得病人平均等待时间的估计值-x = ,病人等待时间的标准差的估计值s =4.样本1021,......,,x x x 的平均数为5,方差为7,则3()()()13,......,13,11021---x x x 的平均数、方差,标准差分别为5.下面是一个班级在一次测验时的成绩(已按从小到大的次序排列),分别计算男生和女生的成绩和平均值,中位数以及众数,试问中位数的含义是什么?对比两个平均值和中位数,你分析一下这个班级的学习情况男生:55,55,61,65,68,71,72,73,74,75,78,80,81,82,87,94女生:53,66,70,71,73,73,75,80,80,82,82,83,84,85,87,88,90,93,94,976.某工厂甲,乙两个车间包装同一产品,在自动包装传送带上每隔30min 抽一包产品,称其重量是否合格,分别记录抽查数据如下:甲车间:102,101,99,103,98,99,98;乙车间:110,105,90,85,75,115,110. (1)这样的抽样是何种抽样方法?(2)估计甲、乙两车间的均值与方差,并说明哪个车间的产品较稳定.12.4线性回归方程一、知识导学1. 变量之间的常见关系有如下两类:一类是确定性函数关系,变量之间的关系可以用函数表示;一类是相关关系,变量之间有一定的联系,但不能完全用函数来表达 2. 能用直线方程a bx y +=^近似表示的相关关系叫做线性相关关系当a,b 使2222211)(......)()(a bx y a bx y a bx y Q n n --++--+--=取得最小值时,就称a bx y +=∧为拟合这n 对数据的线性回归方程,将该方程所表示的直线称为回归直线.4.线性回归方程a bx y +=∧中的系数b a ,满足:⎪⎪⎩⎪⎪⎨⎧=+⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡+⎥⎦⎤⎢⎣⎡∑∑∑∑∑=====ni i ni i ni ii n i i n i i y na b x y x a x b x 111112 由此二元一次方程组便可依次求出a b ,的值:⎪⎪⎪⎩⎪⎪⎪⎨⎧-=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-=--=====∑∑∑∑∑x b y a x x n y x y x n b ni i n i i n i i n i i n i i i 2112111(*) 5.一般地,用回归直线进行拟合的一般步骤为: (1)作出散点图,判断散点是否在一条直线附近;(2)如果散点在一条直线附近,用公式(*)求出b a ,,并写出线性回归方程.二、疑难知识1.现实世界中两个变量的关系中更多的是相关关系而不是确定性关系,许多物理学中公式看起来是确定性关系,实际上由于公式的使用范围,测量误差等的影响,试验得到的数据之间是相关关系.2.用最小二乘估计方法计算得到的b a ,使函数()b a Q ,达到最小3.还有其他寻找较好的回归直线的原则(如使y 方向的偏差和最小,使各点到回归直线的距离之和最小等)4. 比较相关关系绝对值的大小可以比较一组变量之间哪两个变量有更强的(线性)相关关系.5. “最好的”直线方程中“最好”可以有多种解释,也就有不同的求解方法,现在广泛采用的最小二乘法所用的思想是找到使散点到直线a bx y +==在垂直方向上的距离的平方和最小的直线a bx y +=,用这个方法,b a ,的求解最简单 三、经典例题问y 与x 的(样本)相关系数r 是多少?这是否说明y 与x 没有关系? 错解:040707))((7171=⨯⨯-=-=--∑∑==xy y x y y x xi i i i i i所以相关系数r=0,即y 与x 没有关系.错因:相关系数r=0并不是说明y 与x 没有关系,而是说明y 与x 没有线性相关关系,但有可能有非线性相关关系. 正解:040707))((7171=⨯⨯-=-=--∑∑==xy y x y y x xi i i i i i所以相关系数r=0,即y 与x 没有线性相关关系,但有可能有非线性相关关系. 此题中y 与x 之间存在着2x y =的二次相关关系的.[例2]某工厂在2004年的各月中,一产品的月总成本y (万元)与月产量x (吨)之间有如若2005年1月份该产品的计划产量是6吨,试估计该产品1月份的总成本. 分析:可将此问题转化为下面三个问题:(1)画出散点图,根据散点图,大致判断月总成本y 与月产量之间是否有线性相关关系; (2)求出月总成本y 与月产量x 之间的线性回归方程;(4) 若2005年1月份该产品的计划产量是6吨,试估计该产品1月份的总成本.错解:省去第一步,即把判断判断月总成本y 与月产量之间是否有线性相关关系的过程舍去,想当然其具有线性相关关系,直接代入公式,求出线性回归方程.错因:此题的月总成本y 与月产量x 之间确实是有线性相关关系,若不具有则会导致错误.因此判断的过程不可少. 正解:(1)散点图见下面,从图中可以看到,各点大致在一条直线附近,说明x 与y 有较强的线性相关关系.(2)代入公式(*)得:a=0.9100,b=0.6477,线性回归方程是:y=0.9100x+0.6477. (3)当x=6.0时,y=0.910011.66477.00.6≈+⨯(万元),即该产品1月份的总成本的估计值为6.11万元.[例3]变量y 与x 有线性回归方程a bx y +=,现在将y 的单位由cm 变为x m ,的单位由ms变为s ,则在新的回归方程**a x b y +=中.=*a .错解:0.1a错因:由 ⎪⎪⎪⎩⎪⎪⎪⎨⎧-=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-=--=====∑∑∑∑∑x b y a x x n y x y x n b n i i n i i n i i n i i ni i i 2112111且y 的值变为原来的210- ,x 的值变为原来的310-可得*a 的值应为原来的210-.正解:0.01a高度(距离)与时间之间的关系由公式22gt s =给出,这里g 是重力加速度的值. (1)画出s 关于t 的散点图,这些点在一条直线附近吗?(2)设2t x =,画出s 关于x 的散点图,这些点在一条直线附近吗?(3)求出s关于x的线性回归方程.解:(1)高度s关于时间t的散点图见下面,从图中可以看到这些点似乎在一条直线附近,也好像在一条抛物线附近(2)高度s关于x的散点图见下面,从图中可以看到这些散点大致在一条直线附近(3)可以求得s关于x的线性回归方程是s=0.0004901x-18.8458(2)求出y与x之间的线性回归方程;(3)如果父亲的身高为73英寸,估计儿子的身高.解:(1)散点图见下面:(2)从散点图可以看出,这些点都分布在一条直线附近,可求得线性回归方程为98.354645.0+=∧x y(3)当73=x 时,9.6998.35734645.0≈+⨯=∧y所以当父亲的身高为73英寸时,估计儿子的身高约为69.9英寸. 四、典型习题1.回归直线方程的系数a,b 的最小二乘估计使函数),(b a Q 最小,Q 函数指( ).A .21)(∑=--ni i ibx a yB.∑=--ni i i bx a y 1C .2)(i i bx a y -- D.i i bx a y --2.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论在儿子的身高y 与父亲的身高x 的线性回归方程bx a y +=∧中,b ( ).A .在(-1,0)内 B.等于0 C .在(0,1)内 D.在[1,+∞]内3.在研究硝酸钠的可溶性程度时,对不同的温度观测它在水中的溶解度,得到观测结果如下:则由此得到的回归直线的斜率是 (保留4位有效数字)4.下面的数据是年龄在40至60岁的男子中随机抽取的6个样本,分别测定了心脏功能水5.某地区近年来冬季的降雨量x(cm)与次年夏季空气中碳氢化合物的最高平均浓度y (ppm ),你认为y与x是什么关系?y与n是什么关系?6.每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的托压强度(单位:kg/cm2)(2)如果y与x具有线性相关关系,求线性回归方程.。
抽样计划培训教材第一章:抽样基础知识1.1 抽样的定义抽样是指从总体中选择代表性样本进行研究或测试的过程。
抽样计划是确保样本能够准确、可靠地代表总体的设计与实施。
在实际工作中,抽样计划通常是研究设计的一个重要组成部分。
1.2 抽样的基本原则1) 代表性原则:样本应该能够准确地代表总体。
这需要根据总体的特点和研究目的来选择适当的抽样方法。
2) 随机性原则:抽样应该是随机的,即每个个体都有机会被选中,以减少抽样误差。
3) 目标性原则:抽样应该根据研究目的来设计,以确保研究结果的准确性和可靠性。
1.3 抽样的类型1) 简单随机抽样:从总体中随机地选择样本,每个样本被选中的概率相等。
2) 分层抽样:将总体按某种特征分成若干层,然后从每一层中随机地选择样本。
3) 系统抽样:按照一定的规则从总体中选择样本,如每隔一定的间隔选取一个样本。
4) 整群抽样:将总体按照一定的特征分成若干个群体,然后从这些群体中随机地选择样本。
1.4 抽样误差与样本量1) 抽样误差是由于样本不能完全准确地代表总体而产生的误差,通常通过置信区间来度量。
2) 样本量是影响抽样误差的重要因素,通常通过科学计算得出。
第二章:抽样计划的设计与实施2.1 确定研究目的1) 了解研究的目的和问题,明确研究的范围和目标。
2) 确定所需要的数据类型和数量,包括目标总体的基本情况和特征。
2.2 选择抽样框架1) 按照研究的要求和目的,选择合适的抽样框架,如人口普查、企业数据库等。
2) 确保抽样框架能够准确地代表总体,避免出现抽样偏差。
2.3 确定抽样方法1) 根据总体的特点和研究目的,选择适当的抽样方法,如简单随机抽样、分层抽样等。
2) 计算样本量,确定具体的抽样方案。
2.4 实施抽样计划1) 严格按照抽样计划的要求进行抽样,确保抽样的随机性和代表性。
2) 记录抽样的过程和结果,及时处理抽样中出现的问题。
第三章:抽样结果的分析与应用3.1 数据整理与处理1) 对抽样得到的数据进行整理和处理,确保数据的准确性和可靠性。