统计描述思考与练习参考答案
- 格式:doc
- 大小:79.00 KB
- 文档页数:5
思考与练习(第五章) BY 缪嘉伦 思考题1. 解释原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则。
答:原假设(null hypothesis )通常是研究者想悼念证据予以反对的假设,也称零假设,用H 0表示。
备择假设(alternative hypothesis)通常是研究者想悼念证据予以支持的假设,也称研究假设,用H l 或 H a 表示。
几种常见的原则:第一, 原假设和备择假设是一个完备事件组,而且相互对立。
第二, 在建立原假设时,通常是先确定备择假设,然后再确定原假设。
第三, 在假设检验中,等号“=”总是放在原假设上。
第四, 在面对某一实际问题时,由于不同的研究者有不同的研究目的,即使对同一问题也可能提出截然相反的原假设和备择假设。
第五, 假设检验的目的主要是收集证据拒绝原假设。
3.什么是显著性水平?它对于假设检验决策的意义是什么?与置信水平的区别?答:显著性水平(level of significance )是指当原假设实际上是正确时,检验统计量落在拒绝域的概率,记为α。
它是人们事先指定的犯第I 类错误概率α的最大允许值。
显著性水平α越小,犯第I 类错误的可能性自然就越小,但犯第∏类错误的可能性随之增大。
置信水平是指变量落在置信区间的可能性,记为1-α。
4.什么是P 值?P 值检验和统计量检验有什么不同?答:P 值(P value )就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
如果P 值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P 值越小,我们拒绝原假设的理由越充分。
总之,P 值越小,表明结果越显著。
但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P 值的大小和实际问题来解决。
区别:从显著性水平来比较,如果选择的α值相同,所有检验结论的可靠性都一样;通过计算P 值,可测量出样本观测数据与原假设的值0μ的偏离程度。
1.解:(1)打开EXCEL工作簿,选取一张工作表,输入待分析的数据。
见下图。
(2)使用工具栏里的“数据分析”,点击“描述统计”,在“输入区域”填上“$A$1:$A$10”并确定。
结果如下图。
1(3)在A12单元格输入“t统计量值”,在B12单元格输入公式“=(K3-12)/(K7/SQRT(K15-1)”,结果如下图。
(4)在A13单元格输入“P值”,在B13单元格输入公式“=TDIST(0.70533,9,2)”,结果如下图。
从给出的图上可以看出P值比给定的显著性水平0.05要大得多,所以我们不2能拒绝原假设。
2.解:(1)打开EXCEL工作簿,选取一张工作表,输入待分析的数据。
见下图。
3(2)使用工具栏里的“数据分析”,点击“描述统计”,在“输入区域”填上“$A$1:$A$25”并确定。
结果如下图。
4(3)在J20单元格输入“t值”,在K20单元格输入公式“=TINV(0.05,K20-1)”,结果如下图。
5(4) 在J21单元格输入“抽样标准差”,在K21单元格输入公式“=K7/(SQRT(K15)”。
在J22单元格输入“置信区间上限”,在K22单元格输入公式“=K3+K20*K21”,在J23单元格输入“置信区间下限”,在K23单元格输入公式“=K3-K20*K21”。
结果如下图。
6可以从图上看出,该食品平均重量在95%置信水平下的置信区间为101.4g~109.34g。
3.解:(1)打开EXCEL工作簿,选取一张工作表,输入待分析的数据。
见下图。
7(2)使用工具栏里的“数据分析”,点击“回归”,在“回归”窗口“Y值输入区域”填上“$B$2:$B$16”,在“X值输入区域”填上“$A$2:$B$16”并确定。
在“残差”窗口勾选“残差”。
结果如下图。
89从输出的结果可以看出,趋势方程为X Y*5908.026.1193ˆ-=,各期的趋势值即图中的“预测值Y ”,各期的预测误差是图中的“残差”。
统计课后思考题答案统计课后思考题答案第一章思考题1.1什么是统计学统计学是关于数据的一门学科它收集处理分析解释来自各个领域的数据并从中得出结论。
1.3解释描述统计和推断统计描述统计它研究的是数据收集处理汇总图表描述概括与分析等统计方法。
推断统计它是研究如何利用样本数据来推断总体特征的统计方法。
1.5解释分类数据顺序数据和数值型数据统计数据按所采用的计量尺度不同分定性数据分类数据只能归于某一类别的非数字型数据它是对事物进行分类的结果数据表现为类别用文字来表述定性数据顺序数据只能归于某一有序类别的非数字型数据。
它也是有类别的但这些类别是有序的。
定量数据数值型数据按数字尺度测量的观察值其结果表现为具体的数值。
统计数据按统计数据都收集方法分观测数据是通过调查或观测而收集到的数据这类数据是在没有对事物人为控制的条件下得到的。
实验数据在实验中控制实验对象而收集到的数据。
统计数据按被描述的现象与实践的关系分截面数据在相同或相似的时间点收集到的数据也叫静态数据。
时间序列数据按时间顺序收集到的用于描述现象随时间变化的情况也叫动态数据。
1.6举例说明总体样本参数统计量变量这几个概念对一千灯泡进行寿命测试那么这千个灯泡就是总体从中抽取一百个进行检测这一百个灯泡的集合就是样本这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量变量就是说明现象某种特征的概念比如说灯泡的寿命。
1.7变量的分类变量可以分为分类变量顺序变量数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
1.8举例说明离散型变量和连续性变量离散型变量只能取有限个值取值以整数位断开比如“企业数”连续型变量取之连续不断不能一一列举比如“温度”。
1.8统计应用实例人口普查商场的名意调查等。
1.9统计应用的领域经济分析和政府分析还有物理生物等等各个领域。
第二章思考题2.4自填式面访式和电话式各自的长处和弱点自填式优点 1调查组织者管理容易2成本低可进行大规模调查3对被调查者可选择方便时间答卷减少回答敏感问题压力。
统计课后思考题答案第一章思考题1。
1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。
1。
2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。
1。
3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据.它也是有类别的,但这些类别是有序的.(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值. 统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的.实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据.时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
1。
4解释分类数据,顺序数据和数值型数据答案同1.31。
5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
1。
7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。
1
第二章 描述统计(计算题答案)
1、某市工业企业按产值分组资料如下: 按产值分组(万元) 企业数(个)
100—200 200—400 400—600 600—800 800—1000 1000—1200 50
110
130
140
90
30
合 计 550
解:27.577550317500
===∑∑f xf
x (万元)
92.576200130160
2550
40021=⨯-+=⨯-
+=-∑i f S f
L M m m e (万元)
2
33.6332
120=⨯∆+∆∆-=i U M (万元)
2、某车间有两个小组,每组都是7人,每人日产量件数如下
第一组:20、40、60、70、80、100、120
第二组:67、68、69、70、71、72、73
若这两组工人每人平均日产量件数都是70件,计算每人日产量的差异指标:①全距;②平均差;③标准差,并比较哪个组的平均数的代表性大?
解:
大。
第二组的平均数代表性,,件,件
件件件
件件∴<⋅<⋅<====⋅===⋅=1
2121221222111702,71.1,662.31,7.25,100σσσσD A D A R R x x D A R D A R Θ
3、有两个生产作业班工人按其产品日产量分组的资料如下: 甲组 乙组
日产量(件) 工人数(人) 日产量(件) 工人数(人)。
统计学(第五版)贾俊平课后思考题和练习题答案(最终完整版)第一部分思考题第一章思考题1.1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。
1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。
1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。
它也是有类别的,但这些类别是有序的。
(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。
思考与练习参考答案第1章绪论一、选择题1. 研究中的基本单位是指( D)。
A.样本 B. 全部对象C.影响因素D. 个体E. 总体2. 从总体中抽取样本的目的是( B )。
A.研究样本统计量 B. 由样本统计量推断总体参数C.研究典型案例 D. 研究总体统计量E. 计算统计指标3. 参数是指( B )。
A.参与个体数 B. 描述总体特征的统计指标C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数4. 下列资料属名义变量的是(E)。
A.白细胞计数B.住院天数C.门急诊就诊人数D.患者的病情分级 E. ABO血型5.关于随机误差下列不正确的是(C)。
A.受测量精密度限制B.无方向性 C. 也称为偏倚D.不可避免 E. 增加样本含量可降低其大小二、名称解释(答案略)1. 变量与随机变量2. 同质与变异3. 总体与样本4. 参数与统计量5. 误差6. 随机事件7. 频率与概率三、思考题1. 生物统计学与其他统计学有什么区别和联系?答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。
而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。
2. 某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?答:不能。
因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。
样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。
即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。
因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。
第四章 定量资料的统计描述【习题解析】一、思考题1. 均数、中位数、几何均数三者的相同点是都用于描述定量资料的集中趋势。
不同点:①均数用于单峰对称分布,特别是正态分布或近似正态分布的资料;②几何均数用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料;③中位数用于不对称分布资料、两端无确切值的资料、分布不明确的资料。
2. 同一资料的标准差不一定小于均数。
均数描述的是一组同质定量变量的平均水平,而标准差是描述单峰对称分布资料离散程度最常用的指标。
标准差大,表示观察值之间变异大,即一组观察值的分布较分散;标准差小,表示观察值之间变异小,即一组观察值的分布较集中。
若标准差远大于均数表明数据离散程度较大,可能为偏态分布,此时应考虑改用其他指标来描述资料的集中趋势。
3. 极差、四分位数间距、标准差、变异系数四者的相同点是都用于描述资料的离散程度。
不同点:①极差可用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度;②四分位数间距可用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度;③标准差用于描述正态分布或近似正态分布资料的离散程度;④变异系数用于比较几组计量单位不同或均数相差悬殊的正态分布资料的离散程度。
4. 正态分布的特征:①正态曲线在横轴上方均数处最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即位置参数μ和形态参数σ;④正态曲线下的面积分布有一定的规律,正态曲线与横轴间的面积恒等于1。
曲线下区间( 2.58, 2.58)μσμσ-+内的面积为95.00%;区间( 2.58, 2.58)μσμσ-+内的面积为99.00%。
5.①通过大量调查证实符合正态分布的变量或近似正态分布的变量,可按正态分布曲线下面积分布的规律制定医学参考值范围;服从对数正态分布的变量,可对观察值取对数后按正态分布法算出医学参考值范围的对数值,然后求其反对数;②对于经正态性检验不服从正态分布的变量,应采用百分位数法制定医学参考值范围。
思考与练习参考答案
一、最佳选择题
1. 编制频数表时错误的作法是( E )。
A. 用最大值减去最小值求全距
B. 组距常取等组距,一般分为10~15组
C. 第一个组段须包括最小值
D. 最后一个组段须包括最大值
E. 写组段,如“~3,3~5, 5~,…”
2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是(A)。
A. 中位数
B. 几何均数
C. 调和均数
D. 算术均数
E. 众数
3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用(A)。
A. 变异系数
B. 全距
C. 标准差
D. 四分位数间距
E. 百分位数与的间距
4. 均数X和标准差S的关系是(A)。
A. S越小,X对样本中其他个体的代表性越好
B. S越大,X对样本中其他个体的代表性越好
C. X越小,S越大
D. X越大,S越小
E. S必小于X
5. 计算乙肝疫苗接种后血清抗-HBs的阳转率,分母为(B)。
A. 阳转人数
B. 疫苗接种人数
C. 乙肝患者数
D. 乙肝病毒携带者数
E. 易感人数
6. 某医院的院内感染率为人/千人日,则这个相对数指标属于(C)。
A. 频率
B. 频率分布
C. 强度
D. 相对比
E. 算术均数
7. 纵坐标可以不从0开始的图形为(D)。
A. 直方图
B. 单式条图
C. 复式条图
D. 箱式图
E. 以上均不可
二、简答题
1. 对定量资料进行统计描述时,如何选择适宜的指标?
答:详见教材表2-18。
教材表2-18 定量资料统计描述常用的统计指标及其适用场合描述内容指标意义适用场合平均水平均数个体的平均值对称分布
几何均数平均倍数取对数后对称分布
中位数位次居中的观察值①非对称分布;②半定量资料;③末端开
口资料;④分布不明
众数频数最多的观察值不拘分布形式,概略分析
调和均数基于倒数变换的平均值正偏峰分布资料
变异度全距观察值取值范围不拘分布形式,概略分析
标准差(方差)观察值平均离开均数的
程度
对称分布,特别是正态分布资料
四分位数间距居中半数观察值的全距
①非对称分布;②半定量资料;③末端开
口资料;④分布不明
变异系数标准差与均数的相对比
①不同量纲的变量间比较;②量纲相同但
2. 举例说明频率和频率分布的区别和联系。
答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情稳定,66人处于进展状态,54人死亡。
当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。
当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。
两者均为“阳性率”,都是基于样本信息对总体特征进行估计的指标。
不同的是:频率只是一种结局发生的频率,计算公式的分子是某一具体结局的发生数;频率分布则由诸结局发生的频率组合而成,计算公式的分子分别是各种可能结局的发生数,而分母则与频率的计算公式中分母相同,是样本中被观察的单位数之和。
3. 应用相对数时应注意哪些问题?
答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。
(2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。
(3)观察单位数不等的几个相对数,不能直接相加求其平均水平。
(4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。
4. 常用统计图有哪些?分别适用于什么分析目的?
答:详见教材表2-20。
教材表2-20 常用统计图的适用资料及实施方法
图形适用资料实施方法
条图组间数量对比用直条高度表示数量大小
直方图定量资料的分布用直条的面积表示各组段的频数或频率
百分条图构成比用直条分段的长度表示全体中各部分的构成比
饼图构成比用圆饼的扇形面积表示全体中各部分的构成比
线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系
半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布用茎表示组段的设置情形,叶片为个体值,叶长为频数
三、计算题
1. 某内科医生调查得到100名40~50岁健康男子总胆固醇(mg/dl),结果如下
227190224259225238180193214195213193209172244 199155208203199253181196224210220255257216249 235220190203197149175236202209174184174185167 235167210171248201266189222199197214199198230 246209202186217206200203197161247138186156195 163273178190207259186194246172234232189172235 207208231234226174199278277181
(1)编制频数表,绘制直方图,讨论其分布特征。
答:频数表见练习表2-1。
根据直方图(练习图2-1),可认为资料为基本对称分布,其包络线见练习图2-2。
练习表2-1 某地100名40~50岁健康男子总胆因醇/(mg·dl-1)
Frequency
Perce
nt
Valid
Percent
Cumulative
Percent
Valid 130~
145~
160~
175~
190~
205~
220~
235~
250~
265~28
Total
1
3
11
12
25
15
13
11
5
4
100
练习图2-1 直方图
练习图2-2 包络线图
(2)根据(1)的讨论结果,计算恰当的统计指标描述资料的平均水平和变异度。
答:利用原始数据,求出算术均数4.207=X mg/dl 和标准差8.29=S mg/dl 。
(3)计算P 25,P 75和P 95。
答:利用原始数据,求出P 25= mg/dl ,P 75= mg/dl ,P 95= mg/dl 。
2. 某地对120名微丝蚴血症患者治疗3个疗程后,用IFA 间接荧光抗体试验测得抗体滴度如下,求抗体滴度的平均水平。
抗体滴度 1:5 1:10 1:20 1:40 1:80 1:160 1:320 例 数
5
16
27
34
22
13
3
利用上述频数表,得平均滴度为1:。
3. 某地1975-1980年出血热发病和死亡资料如教材表2-21,设该地人口数在此6年间基本保持不变。
年 份 发病数
病死数
1975 32 4 1976 56 5 1977 162 12 1978 241 13 1979 330 10 1980
274
5
试分析:
(1)粗略判断发病率的变化情况怎样。
答:该地人口数在此6年间基本保持不变,发病人数在1979年前逐年上升,1980年略有下降。
可以认为发病率大致呈上升趋势,1980年略有下降。
(2)病死率的变化情况怎样?
答: 病死率由各年度病死数除以发病数获得,病死率依次为%、%、%、%、%和%,呈逐年下降趋势。
(3)上述分析内容可用什么统计图绘制出来?
答:由于没有给出该地人口数,故不能计算发病率,可用普通线图表示发病数变化情况。
病死率的下降情况可以用普通线图表示,下降速度则可以用半对数线图表示。
(4)评述该地区出血热防治工作的效果。
答:随着时间的推移,预防工作做得不好,治疗水平则逐年提高(体现在病死率下降)。
(张晋昕)。