统计学第四章两变量描述统计
- 格式:ppt
- 大小:1.02 MB
- 文档页数:42
统计学习题_第四章_数据分布特征的描述习题答案第四章静态指标分析法(⼀)⼀、填空题1、数据分布集中趋势的测度值(指标)主要有、和。
其中和⽤于测度品质数据集中趋势的分布特征,⽤于测度数值型数据集中趋势的分布特征。
2、标准差是反映的最主要指标(测度值)。
3、⼏何平均数是计算和的⽐较适⽤的⼀种⽅法。
4、当两组数据的平均数不等时,要⽐较其数据的差异程度⼤⼩,需要计算。
5、在测定数据分布特征时,如果M M e X 0==,则认为数据呈分布。
6、当⼀组⼯⼈的⽉平均⼯资悬殊较⼤时,⽤他们⼯资的⽐其算术平均数更能代表全部⼯⼈⼯资的总体⽔平。
⼆.选择题单选题:1.反映的时间状况不同,总量指标可分为()A 总量指标和时点总量指标B 时点总量指标和时期总量指标C 时期总量指标和时间指标D 实物量指标和价值量指标2、某⼚1999年完成产值200万元,2000年计划增长10%,实际完成了231万元,超额完成( )A 5.5%B 5%C 115.5%D 15.5%3、在同⼀变量数列中,当标志值(变量值)⽐较⼤的次数较多时,计算出来的平均数()A 接近标志值⼩的⼀⽅B 接近标志值⼤的⼀⽅C 接近次数少的⼀⽅D 接近哪⼀⽅⽆法判断4、在计算平均数时,权数的意义和作⽤是不变的,⽽权数的具体表现()A 可变的B 总是各组单位数C 总是各组标志总量D 总是各组标志值 5、1998年某⼚甲车间⼯⼈的⽉平均⼯资为520元,⼄车间⼯⼈的⽉平均⼯资为540元,1999年各车间的⼯资⽔平不变,但甲车间的⼯⼈占全部⼯⼈的⽐重由原来的40%提⾼到了60%,则1999年两车间⼯⼈的总平均⼯资⽐1998年()A 提⾼D 不能做结论 6、在变异指标(离散程度测度值)中,其数值越⼩,则()A 说明变量值越分散,平均数代表性越低B 说明变量值越集中,平均数代表性越⾼C 说明变量值越分散,平均数代表性越⾼D 说明变量值越集中,平均数代表性越低7、有甲、⼄两数列,已知甲数列:07.7,70==甲甲σX ;⼄数列:41.3,7==⼄⼄σX 根据以上资料可直接判断( )A 甲数列的平均数代表性⼤B ⼄数列的平均数代表性⼤C 两数列的平均数代表性相同D 不能直接判别8、杭州地区每百⼈⼿机拥有量为90部,这个指标是()A 、⽐例相对指标B 、⽐较相对指标C 、结构相对指标D 、强度相对指标9、某组数据呈正态分布,计算出算术平均数为5,中位数为7,则该数据分布为() A 、左偏分布 B 、右偏分布 C 、对称分布 D 、⽆法判断10、加权算术平均数的⼤⼩() A 主要受各组标志值⼤⼩的影响,与各组次数多少⽆关; B 主要受各组次数多少的影响,与各组标志值⼤⼩⽆关; C 既与各组标志值⼤⼩⽆关,也与各组次数多少⽆关; D 既与各组标志值⼤⼩有关,也受各组次数多少的影响11、已知⼀分配数列,最⼩组限为30元,最⼤组限为200元,不可能是平均数的为() A 、50元 B 、80元 C 、120元 D 、210元12、⽐较两个单位的资料,甲的标准差⼩于⼄的标准差,则()A 两个单位的平均数代表性相同B 甲单位平均数代表性⼤于⼄单位C ⼄单位平均数代表性⼤于甲单位D 不能确定哪个单位的平均数代表性⼤ 13、若单项数列的所有标志值都增加常数9,⽽次数都减少三分之⼀,则其算术平均数() A 、增加9 B 、增加6 C 、减少三分之⼀ D 、增加三分之⼆ 14、如果数据分布很不均匀,则应编制 ( )A 开⼝组B 闭⼝组C 等距数列D 异距数列 15、计算总量指标的基本原则是:( )A 总体性B 全⾯性16、某企业的职⼯⼯资分为四组:800元以下;800-1000元;1000—1500元;1500以上,则1500元以上这组组中值应近似为 ( )A1500元 B 1600元 C 1750元 D 2000元 17、统计分组的⾸要问题是 ( )A 选择分组变量和确定组限B 按品质标志分组C 运⽤多个标志进⾏分组,形成⼀个分组体系D 善于运⽤复合分组18、某连续变量数列,其末组为开⼝组,下限为200,⼜知其邻组的组中值为170,则末组组中值为 ( )A 230B 260C 185D 215 19、分配数列中,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,这种分布的类型是 ( )A 钟型分布B U 型分布C J 型分布D 倒J 型分布 20、要了解上海市居民家庭的开⽀情况,最合适的调查⽅式是:() A 普查 B 抽样调查 C 典型调查 D 重点调查21、已知两个同类企业的职⼯平均⼯资的标准差分别为5元和6元,⽽平均⼯资分别为3000元,3500元则两企业的⼯资离散程度为 ( )A 甲⼤于⼄B ⼄⼤于甲C ⼀样的D ⽆法判断 22、加权算术平均数的⼤⼩取决于 ( )A 变量值B 频数C 变量值和频数D 频率23、如果所有标志值的频数都减少为原来的1/5,⽽标志值仍然不变.那么算术平均数 ( ) A 不变 B 扩⼤到5倍 C 减少为原来的1/5D 不能预测其变化 24、计算平均⽐率最好⽤ ( )A 算术平均数B 调和平均数C ⼏何平均数D 中位数25、若两数列的标准差相等⽽平均数不同,在⽐较两数列的离散程度⼤⼩时,应采⽤ ( ) A 全距 B 平均差 C 标准差 D 标准差系数26、若n=20,∑∑==2080,2002x x ,标准差为 ( )A 2B 4C 1.5D 327、已知某总体3215,3256==eMM,则数据的分布形态为( )A左偏分布 B 正态分布 C 右偏分布 D U型分布28、⼀次⼩型出⼝商品洽谈会,所有⼚商的平均成交额的⽅差为156.25万元,标准差系数为14.2%,则平均成交额为( )万元A11 B 177.5 C 22.19 D 8826、欲粗略了解我国钢铁⽣产的基本情况,调查了上钢、鞍钢等⼗⼏个⼤型的钢铁企业,这是()A普查B重点调查C典型调查D抽样调查多选题:1.某企业计划2000年成本降低率为8%,实际降低了10%。
第四章一.思考题1、一组数据的分布特征可以从哪几个方面进行测度?答:可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2、怎样理解平均数在统计学中的地位?答:平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。
从统计学思想上看,平均数是一组数据的重心所在,是数据误差相互抵消后的必然结果。
3、简述四分位数的计算方法。
答:四分位数是一组数据排序后处于25%和75%位子上的值。
四分位数是通过3个点将全部数据等分成4分,其中每部分包含25%的数据。
中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。
它是根据为分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数据就是四分位数。
4、对于比率数据的平均数为什么采用几何平均?答:几何平均数是适用于特殊数据的一种平均数,主要适用于计算平均比率。
当所掌握的变量值本身是比率的形式时,采用几何平均法计算平均比率更为合理。
5、简述众数、中位数、平均数的特点和应用场合。
答:众数是数据中出现次数次数最多的变量值。
主要应用于分类数据。
中位数是一组数据排序后处于中间位置的变量值,其适用于顺序数据。
平均数也称均值,它是一组数据相加后除以数据个数的结果,是集中去世的主要测量值,它适用于数值型数据。
6、简述异众比率、四分位差、方差、标准差的使用场合。
答:异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。
四分位差主要用于测度顺序数据的离散程度。
方差和标准差适用于测度数值型数据的离散程度。
7、标准分数有哪些用途?答:首先是比较不同单位和不同质数据的位置。
其次是和正态分布结合起来,求得概率和标准分值之间的对应关系。
还有就是在假设检验和估计中应用。
有用的统计学Statistics第3讲描述分析中央财经大学统计与数学学院学习目标:•单个变量时,用哪些统计表和统计图•两个变量时,用哪些统计表和统计图3.4用统计表和统计图做描述分析:双变量1.两个定性变量:(1)使用列联表–依据两个定性变量的取值交互情况,分别统计每种取值实际被观测到的频次表2六个城区不同楼层的二手房数量楼层低楼层中楼层高楼层城区东城丰台朝阳海淀石景山西城444546512129 443749413960 4965465337471.两个定性变量:(2)使用堆积柱形图–可以对比各个城区中不同楼层的二手房数量分布情况图1六个城区不同楼层二手房数量的堆积柱形图1.两个定性变量:(3)表示比例的堆积柱形图–横轴上的6根柱子高度是一致的,每根柱子内部的色块高度表示对应城区中不同楼层二手房所占的比例图2六个城区不同楼层二手房比例的堆积柱形图2.两个定量变量:使用散点图–将定量变量的观测值绘制在二维平面上–判断定量变量之间的相关关系:✓相关方向:正相关、负相关;✓相关形态:线性相关、非线形相关;✓相关关系的密切程度:强相关,弱相关,基本不相关图3面积与房价的散点图3.一个定量变量+一个定性变量:使用分组箱线图图4不同城区房价的分组箱线图–对定性变量的每个取值,单独绘制对应的定量变量数据的箱线图,把所有的箱线图放在一起做横向比较。
–如图4所示,可以在一个图内同时观察到:不同城区的房价在集中趋势、离散程度上是否有差异,不同城区是否都存在极端房价的情况小结描述两个变量时,按照它们的组合情况来选择恰当的统计表和统计图:•对于两个定性变量,可以绘制列联表、堆积柱形图来展示两个变量的观测值分布情况•对于两个定量变量,可以绘制散点图,帮助判断两个变量的相关方向、相关形态、相关关系的紧密程度。
•对于一个定性变量、一个定量变量的情况,可以绘制分组箱线图本章总结•描述统计可以帮助我们快速地从数据中提取有用信息。
统计方法学部分对于连续变量和分类变量的描述统计方法学:连续变量与分类变量的描述在统计学中,根据变量的类型,我们可以将统计方法分为针对连续变量的分析和针对分类变量的分析。
本文将详细探讨这两种变量的描述方法及其在统计中的应用。
一、连续变量的描述连续变量是指在一定区间内可以取无限个可能值的变量,如身高、体重、温度等。
在统计学中,我们通常采用以下参数来描述连续变量:1.均值(Mean):一组数据的平均值,反映了这组数据的中心位置。
2.标准差(Standard Deviation, SD):衡量数据离散程度的一种度量,表示数据值与均值的平均偏差。
3.方差(Variance):标准差的平方,反映了数据离散程度的绝对大小。
4.中位数(Median):将一组数据从小到大排序后,位于中间位置的数值,用于描述数据的中心位置。
5.四分位数(Quartiles):将一组数据分为四等份的数值,包括第一四分位数(Q1)、第二四分位数(Q2,即中位数)和第三四分位数(Q3),用于描述数据的分布情况。
二、分类变量的描述分类变量是指变量值是离散的、有限的,如性别、血型、职业等。
对于分类变量的描述,我们通常采用以下参数:1.频数(Frequency):指某一类别在数据集中出现的次数。
2.频率(Relative Frequency):某一类别的频数与总频数的比值。
3.比率(Ratio):某一类别的频数与另一类别频数的比值。
4.优势比(Odds Ratio, OR):表示某一事件发生与不发生的概率之比。
5.相对风险(Relative Risk, RR):表示某一事件在暴露组和非暴露组中发生的风险之比。
三、连续变量与分类变量的统计方法应用1.单个自变量:当自变量为连续变量时,可以使用t检验、相关分析、回归分析等方法;当自变量为分类变量时,可以使用方差分析(ANOVA)、协方差分析(ANCOVA)等方法。
2.多个自变量:当自变量中包含分类变量和连续变量时,可以使用多元方差分析、多元回归分析等方法。
变量间的相关关系与统计案例教师版教师版:变量间的相关关系与统计案例引言:在统计学中,了解变量间的相关关系是非常重要的。
相关关系描述了两个或更多变量之间的连接,帮助我们理解它们如何相互影响和变化。
本文将介绍变量间相关关系的基本概念,并提供一些统计案例来帮助教师教授有关此主题的课程。
第一部分:相关性的定义和计算相关性是指两个或多个变量之间的关系程度。
直观上,当一个变量的值增加时,另一个变量的值是否也随之增加或减少。
相关性可以是正面的(变量之间的关系是正向的),也可以是负面的(变量之间的关系是反向的)。
相关性的计算可以通过两种方法来完成:Pearson相关系数和Spearman等级相关系数。
Pearson相关系数用于度量两个连续变量之间的线性关系,它的值介于-1和1之间。
当其值接近1时,表示两个变量之间的关系很强;当其值接近-1时,表示两个变量之间的关系是反向的;当其值接近0时,表示两个变量之间的关系较弱。
Spearman等级相关系数用于度量两个等级变量之间的关系,它的计算方式类似于Pearson相关系数,但在计算前将变量转换为等级。
第二部分:相关关系的案例研究案例1:学生的学习时间和学生成绩在这个案例中,我们研究了学生的学习时间和他们的学生成绩之间的相关关系。
我们收集了一组学生的学习时间(以小时为单位)和他们的学生成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现学习时间和学生成绩之间存在较强的正面相关关系(r = 0.8)。
这意味着学习时间越多,学生成绩越高。
案例2:家庭收入和孩子的学习成绩在这个案例中,我们研究了家庭收入与孩子学习成绩之间的相关关系。
我们收集了一组家庭收入水平(以年收入为单位)和孩子的学习成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现家庭收入和孩子学习成绩之间存在较弱的正面相关关系(r = 0.4)。
这意味着家庭收入较高的孩子往往有更好的学习成绩,但这种关系不是很强。
第四章 统计描述【4.1】某企业生产铝合金钢,计划年产量40万吨,实际年产量45万吨;计划降低成本5%,实际降低成本8%;计划劳动生产率提高8%,实际提高10%。
试分别计算产量、成本、劳动生产率的计划完成程度。
【解】产量的计划完成程度=%5.112100%4045100%=⨯=⨯计划产量实际产量即产量超额完成12.5%。
成本的计划完成程=84%.96100%5%-18%-1100%-1-1≈⨯=⨯计划降低百分比实际降低百分比即成本超额完成3.16%。
劳动生产率计划完=85%.101100%8%110%1100%11≈⨯++=⨯++计划提高百分比实际提高百分比即劳动生产率超额完成1.85%。
【4.2】某煤矿可采储量为200亿吨,计划在1991~1995年五年中开采全部储量的0.1%,在五年中,该矿实际开采原煤情况如下(单位:万吨)试计算该煤矿原煤开采量五年计划完成程度及提前完成任务的时间。
【解】本题采用累计法:(1)该煤矿原煤开采量五年计划完成=100%⨯数计划期间计划规定累计数计划期间实际完成累计 =75%.12610210253574=⨯⨯ 即:该煤矿原煤开采量的五年计划超额完成26.75%。
(2)将1991年的实际开采量一直加到1995年上半年的实际开采量,结果为2000万吨,此时恰好等于五年的计划开采量,所以可知,提前半年完成计划。
【4.3】我国1991年和1994年工业总产值资料如下表:要求:(1)计算我国1991年和1994年轻工业总产值占工业总产值的比重,填入表中; (2)1991年、1994年轻工业与重工业之间是什么比例(用系数表示)? (3)假如工业总产值1994年计划比1991年增长45%,实际比计划多增长百分之几? 【解】(1)(2)是比例相对数;1991年轻工业与重工业之间的比例=96.01.144479.13800≈;1994年轻工业与重工业之间的比例=73.04.296826.21670≈(3)%37.251%)451(2824851353≈-+即,94年实际比计划增长25.37%。