第3章抽样误差陆
- 格式:ppt
- 大小:3.46 MB
- 文档页数:58
孙山泽抽样调查答案【篇一:北京大学数学教学系列丛书(本科生)】t>本科生数学基础课教材《抽象代数Ⅰ》赵春来徐明曜编著《高等代数简明教程》(上册)(第二版)蓝以中编著《数学分析》(第一册)伍胜健编著《数学分析》(第二册)伍胜健编著《数学分析》(第三册)伍胜健编著《高等代数简明教程》(上册)(第二版)蓝以中编著《高等代数简明教程》(下册)(第二版)蓝以中编著《金融数学引论》吴岚黄海编著《概率论》何书元编著《随机过程》何书元编著《抽样调查》孙山泽编著《应用多元统计分析》高惠璇编著《应用时间序列分析》何书元编著《测度论与概率论基础》程士宏编著《偏微分方程》周蜀林编著《偏微分方程数值解讲义》李治平编著《寿险精算基础》杨静平编著《非寿险精算学》杨静平编著《复变函数简明教程》谭小江伍胜健编著《实变函数与泛函分析》郭懋正编著《概率与统计》陈家鼎郑忠国编著【篇二:社会库存数理统计模型设计】西省白酒销售公司近三年的白酒销量分别为10.31万箱、10.73万箱、11.31万箱(1箱=250瓶)。
6个主要营销城市,分别为西安市、咸阳市、汉中市、铜川市、延安市和宝鸡市,白酒主要通过以下7类零售户进行销售:便利店、服务业、商场、其他、超市、烟酒店和食杂店。
各类零售户总量在各个市区的分布情况如下表。
为了了解各个市区合计2万多个零售户的白酒库存情况,公司让各地区130多名经理在不同的零售户类型中分别对大中小经营规模的10-15个零售户做了随机抽样调查,调查数据见附录,包括被调查的零售户的经营规模、其总库存量以及主要11种白酒的相应库存量。
问题:1)抽样的方式是否合理?样本数量是否足够,能否达到95%的置信区间?2)建立数学模型或提出一种算法,用给出的数据估计出每个市区、每种经营规模、每类零售户的总库存量。
(即采用什么样的计算模型推测总体)3)能否用当前的数据预测出下个月(3月份)各市区库存量?(可不做)4)如果需要开发一个程序,输入部分零售户的调查数据(总量和各个规格数量),输出为所有零售户的整体库存,(输出结果可以转换为excel文件),你会怎么做或有什么建议?要求1)首页信息:2)双面打印3)论文不要超过15页,按照数模论文格式和内容书写。
练习题答案第一章医学统计中的基本概念练习题一、单向选择题1. 医学统计学研究的对象是A. 医学中的小概率事件B. 各种类型的数据C. 动物和人的本质D. 疾病的预防与治疗E.有变异的医学事件2. 用样本推论总体,具有代表性的样本指的是A.总体中最容易获得的部分个体 B.在总体中随意抽取任意个体C.挑选总体中的有代表性的部分个体 D.用配对方法抽取的部分个体E.依照随机原则抽取总体中的部分个体3. 下列观测结果属于等级资料的是A.收缩压测量值 B.脉搏数C.住院天数 D.病情程度E.四种血型4. 随机误差指的是A. 测量不准引起的误差B. 由操作失误引起的误差C. 选择样本不当引起的误差D. 选择总体不当引起的误差E. 由偶然因素引起的误差5. 收集资料不可避免的误差是A. 随机误差B. 系统误差C. 过失误差D. 记录误差E.仪器故障误差答案: E E D E A二、简答题1.常见的三类误差是什么?应采取什么措施和方法加以控制?[参考答案]常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。
要尽量查明其原因,必须克服。
(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。
譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。
对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。
一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。
(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。
抽样误差名词解释
抽样误差(Sampling Error):
一、定义
抽样误差(Sampling Error)是指当抽取一定数量的样本用于进行科学
分析时,根据样本结果得到的统计结论,与实际总体情况存在的偏差。
二、分类
它大概有三类:
1. 第一类是抽筹误差:由抽取样本中偶然性造成的,它表现为随机性
变化,例如,抽取多次同样的样本,每次的样本中所含有的实体可能
并不完全一样。
2. 第二类是选空误差:由样本中漏抽某些实体造成的,它表现为实体
数量仍为抽取样本大小的实际样本,但是可能与实际总体的构成不同,因此产生的统计结论也就存在误差。
3. 第三类是抽取操纵误差,即抽取时采取的方法出现问题造成的误差,因为选取样本的方法可能造成抽取出来的实际样本与实际总体的构成
偏离。
三、计算
抽样误差主要是指样本所表示的样本总体和实际总体的均值的差距,
可以通过均方根误差(Standard Error of mean)来计算。
四、控制
为了控制抽样误差,有以下几项基本要求需要注意:
1. 确定实际总体,详细精确地了解它的特点;
2. 明确抽取样本的目的,是抽筹误差还是选空误差;
3. 采用科学的样本抽取方法和取样数量,以控制抽样误差;
4. 完备记录样本抽取过程中的要素,保证以航安全;
5. 采取不同的统计方法,使结果能体现出总体的真实状况;
6. 最终的结论要进行统计检验,以评价抽样误差的程度。
练习题答案第一章医学统计中的基本概念练习题一、单向选择题1. 医学统计学研究的对象是A. 医学中的小概率事件B. 各种类型的数据C. 动物和人的本质D. 疾病的预防与治疗E.有变异的医学事件2. 用样本推论总体,具有代表性的样本指的是A.总体中最容易获得的部分个体 B.在总体中随意抽取任意个体C.挑选总体中的有代表性的部分个体 D.用配对方法抽取的部分个体E.依照随机原则抽取总体中的部分个体3. 下列观测结果属于等级资料的是A.收缩压测量值 B.脉搏数C.住院天数 D.病情程度E.四种血型4. 随机误差指的是A. 测量不准引起的误差B. 由操作失误引起的误差C. 选择样本不当引起的误差D. 选择总体不当引起的误差E. 由偶然因素引起的误差5. 收集资料不可避免的误差是A. 随机误差B. 系统误差C. 过失误差D. 记录误差E.仪器故障误差答案: E E D E A二、简答题1.常见的三类误差是什么?应采取什么措施和方法加以控制?[参考答案]常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。
要尽量查明其原因,必须克服。
(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。
譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。
对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。
一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。
(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。
第三章 先验分布的确定3.1 大学生中戴眼镜的比例是0.7 3.6 (1)由题意可知因此,该密度既不是位置密度也不是尺度密度。
(2)由题意可知令 ,则因此,该密度是尺度密度。
(3)由题意可知令 ,则因此,该密度是尺度密度。
3.8 解:(1)由题意可知设12,,...,n X X X 是来自X 的简单随机样本,则对上式分别求一阶导、二阶导得(2)由题意可知 设,,...,X X X 是来自X 的简单随机样本,则1,11()20x p x θθθ⎧-<<+⎪=⎨⎪⎩ 其他2221111()1p x x x βθπβπββ==+⎛⎫+ ⎪⎝⎭2111x x ϕβπβ⎛⎫= ⎪⎝⎭⎛⎫+ ⎪⎝⎭1()x p x θϕββ⎛⎫= ⎪⎝⎭()1000(),a a x p x x x x x θ-+⎛⎫=> ⎪⎝⎭()100a x x a x x ϕ-+⎛⎫⎛⎫= ⎪ ⎪⎝⎭⎝⎭0001(),x p x x x x x θϕ⎛⎫=> ⎪⎝⎭()!x e p x x θθθ-=()11111ln ()lnln ln !!nii x n nnn i i i ni i i ii e l x p x x n x x θθθθθθ=-====∑===--∑∏∏∏11n i i l x n θθ=∂=-∂∑22211n i i l x θθ=∂=-∂∑22211()nx x i i l nI E E x θθθθθθ=⎡⎤∂⎡⎤=-==⎢⎥⎢⎥∂⎣⎦⎣⎦∑()πθ=()(1)x xn xn p x C θθθ-=-()21111ln ()ln ln ()ln(1)i n n n nx i ni i i i i i l x p x C x n x θθθθ======++--∑∑∑∏对上式分别求一阶导、二阶导得(3)由题意可知 1()(1)x m x x m p x C θθθ+-=- 设12,,...,n X X X 是来自X 的简单随机样本,则()1111ln ()ln ln ln(1)ii nnnx i x m i i i i l x p x Cnm x θθθθ+-=====++-∑∑∏对上式分别求一阶导、二阶导得(4)由题意可知 设12,,...,n X X X 是来自X 的简单随机样本,则()()()111ln ()ln ln 1ln nnni i i i i i l x p x n n x x αθαλααλ=====-Γ+--∑∑∏对上式分别关于α求一阶导、二阶导得(5)设,,...,X X X 是来自X 的简单随机样本,则21111ni n i i i n x l x θθθ==-∂=-∂-∑∑()221222111nini i i n x l x θθθ==-∂=--∂-∑∑()222122211()(1)1ni nx x i i i n x l n I E E x θθθθθθθθ==⎡⎤-⎢⎥⎡⎤∂⎢⎥=-=+=⎢⎥∂--⎢⎥⎣⎦⎢⎥⎣⎦∑∑()πθ=111n i i l nm x θθθ=∂=-∂-∑()212221n i i x l nm θθθ=∂=--∂-∑()212222()(1)1ni x x i x l nm nm I E E θθθθθθθθ=⎡⎤⎢⎥⎡⎤∂⎢⎥=-=+=⎢⎥∂--⎢⎥⎣⎦⎢⎥⎣⎦∑()πθ=1()ln ln ()nii l n n x αλαα='∂Γ=-+∂Γ∑()()()()()222l n αααααα''''ΓΓ-ΓΓ∂=-∂Γ()1(),0xp x x e x ααλλαα--=>Γ()()()()()()()()()()2222()x x l I E E n n αααααααααααααα⎡⎤''''''''ΓΓ-ΓΓΓΓ-ΓΓ⎡⎤∂=-==⎢⎥⎢⎥∂ΓΓ⎣⎦⎣⎦()πα=,0xe x λ->()()()111ln ()ln ln 1ln n n ni i i i i i l x p x n n x x λθαλααλ=====-Γ+--∑∑∏对上式分别关于λ求一阶导、二阶导得(6)由题意可知 设12,,...,n X X X 是来自X 的简单随机样本,则()()()111,ln ()ln ln 1ln nnni i i i i i l x p x n n x x αλθαλααλ=====-Γ+--∑∑∏对上式分别关于λ求导得令(),θαλ=,则3.9 证明:由题意可知 ()()ln i i i i i l x p x θθ=()i i πθ=1nii l n x αλλ=∂=-∂∑222l n αλλ∂=-∂2222()x x l n n I E E λλααλλλλ⎡⎤∂⎡⎤=-==⎢⎥⎢⎥∂⎣⎦⎣⎦()πλ=222l n αλλ∂=-∂()()()()()()()()()()()22222det 1nn n I nn αααααααααλθαλααλλ''''ΓΓ-ΓΓ-⎡⎤''''ΓΓ-ΓΓΓ==-⎢⎥Γ⎣⎦-()1(,),0xp x x e x ααλλαλα--=>Γ()()()()()222l n αααααα''''ΓΓ-ΓΓ∂=-∂Γl n αλλ∂=∂∂()()()()()()()()()()2222l E E n n ααααααααααα⎡⎤''''''''ΓΓ-ΓΓΓΓ-ΓΓ⎡⎤∂-==⎢⎥⎢⎥∂ΓΓ⎣⎦⎣⎦2222l n n E E ααλλλ⎡⎤∂⎡⎤-==⎢⎥⎢⎥∂⎣⎦⎣⎦()l n E αλλ∂-=-∂∂()2n πθα⎡=⎢()()22i i i i l x I E θθθ⎛⎫∂=- ⎪ ⎪∂⎝⎭由于各i X 独立,因此有()()1211(,,...,)ln ln kkk i i i i i i i i l x x x p x p x θθθ====∑∏由上式可得出因此有 ()()1d e t ki i I I θθ==∏所以3.10 解: 由题意可知 ()0.0120.01,0e θπθθθ--=>因此有 所以有3.11解:由题意可知所以有 ()(,)()h x p x θθπθ= 进而有()()2222i i i i i l x l x θθθθ∂∂=∂∂()20i i j l x θθθ∂=∂∂()()()()11det k k kiii i I I πθθθπθ======∏∏()0.010.01123(,)()e0.010.01e,0x xh x p x e x θθθθθπθθθθθ+------===>>0.010.010.01300111()0.01eee 0.010.01x x x xx x m x d x x θθθθθθ+++----⎡⎤==+=⎢⎥++⎣⎦⎰121211(,,...,,,...,)()!iix n ni n n i i i i i e p x x x p x x θθθθθθ-====∏∏()()()11112111,,...,()niii n nnnn i i i n i i i e eαααβθβθαββπθθθπθθθαα=----===∑⎛⎫=== ⎪ΓΓ⎝⎭∏∏∏()12121212(0,)()(,,...,,,...,),,...,...n n n nm x p x x x d d d θθθπθθθθθθ+∞=⎰。
抽样误差实例一、范围误差和无回答误差的例子1936年,《文学文摘》杂志预测:堪萨斯州州长阿尔弗·兰登将会在总统选举中获得57%的选票,压倒性地超过弗兰克林·D·罗斯福总统,挫败其再次当选的企图。
然而,兰登最终只获得38%的选票,被彻底地打败了。
这种由一家杂志社与主要民意调查机构造成的失误,过去从未发生过,因而是史无前例的。
这次预测使这家杂志社的名誉扫地,并最终导致了其破产。
《文学文摘》的民意调查者认为他们所做的预测不存在什么问题,因为这是根据一个很大的样本预测的,这个样本是根据从抽样框中选出的1,000万登记的选民、给他们寄出调查问卷所回收的240万张答卷所组成的。
错误怎么会发生呢?实际上存在着两个原因:抽样框范围的选择误差和无回答误差。
为了了解选择抽样框范围时的误差,有必要解释一下当时的历史背景。
1936年时,美国仍受到大萧条的影响。
《文学文摘》没有考虑到这个情况,把电话薄上的用户、俱乐部会员、杂志订户和汽车用户等作为形成抽样框的资料来源(见参考文献3)。
这就无意之中选择了一个主要由富人构成的抽样框,而没有把选民中的大部份人包括进去,这些人在大萧条时期不可能拥有电话、汽车、俱乐部会员卡和订阅杂志。
这样,所预测的57%的选民会投兰登的票也许与抽样框非常接近,但显然与全美国真实的人口总体相距甚远。
在1,000万登记的选民这个容量巨大的样本中,只回收了240万份答卷,这种无回答的误差就会产生偏差。
回答率仅为24%,无法确定不回答的760万选民的真实想法,这对正确估计总体参数而言实在是太低了。
然而,无回答偏差所造成的问题没有选择性偏差大,即使此样本中1,000万登记的选民都回答了问卷,仍无法弥补这样一个事实:抽样框与真实的选民总体的结构之间是不同的。
二、非概率抽样所造成的危害1948年,主流的民意调查者们对美国总统的选举结果进行了预测。
在当时的总统哈里·S·杜鲁门和纽约市长托马斯·E·杜威两个侯选人之间,他们预测杜威会获胜。
上海交通大学网络教育学院医学院分院医学统计学课程练习册第一章绪论一、单选题1.小概率事件是指P()?B.P<0.052.从一个数值变量资料的总体中抽样,产生抽样误差的原因是?A总体中个体值存在差别??????3.调查中国放射科医生接触射线情况,全国放射科医生的全部组成为A.研究总体4.若以舒张压90mmHg、收缩压130mmHg为高血压阳性临界点,调查3000人中有300名血压超过临界值,这份资料属于:B.分类资料5.下列属于统计量的指标是C样本标准差6.调查某地区高血压的患病情况,抽样调查了2000名居民,得到了2000对舒张压与收缩压的数据,请问此资料是:C定量资料7.下列属于参数的指标是D总体标准差8.用样本做统计推断,样本应是B.总体中有代表性一部分9.统计推断的内容为?D.A和B均是10.随机调查社区2000人,得到平均体重为60公斤,则该资料属于A.计量资料二、名词解释1.抽样误差:由于总体中各观察单位间存在个体变异,抽样研究中抽取的样本,只包含总体的一部分观察单位,因而样本指标不一定恰好等于相应的总体指标。
样本指标与总体指标的差异称为抽样误差。
2.总体:根据研究目的性质相同的观察单位的全体。
3.分类变量:用定性方法测得,表现为互不相容的类别或属性,如性别等。
4.数值变量:用定量方法测量得到,表现为数值大小,一般有计量单位,如身高、体重。
三、问答题1.什么叫计量资料,它的统计分析方法有哪些(包括统计描述和统计推断)?在科研中,用测量方法获得数据,对各观察单位用定量方法测定某项指标量的大小,这类资料一般有度量衡单位。
计量资料的统计分析包括统计描述和统计推断:统计描述主要是统计图表、集中趋势和离散趋势的描述,集中趋势中可以计算算术均数、几何均数、中位数和众数,离散趋势可以计算极差、标准差、方差和变异系数。
统计推断包括点估计、区间估计和假设检验。
常用的假设检验方法包括:t检验、u检验、方差分析(F检验)和秩和检验。