当前位置:文档之家› 第二章 统计数据的描述

第二章 统计数据的描述

第2章统计数据的描述

第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 解:(1)由于表中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频数)频率% A1414 B2121 C3232 D1818

E1515 合计100100 (3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题。即得到如下的条形图: 700716728719685709691684705718 706715712722691708690692707701 708729694681695685706661735665 668710693697674658698666696698 706692691747699682698700710722 694690736689696651673749708727 688689683685702741698713676702 701671718707683717733712683692 693697664681721720677679695691 713699725726704729703696717688 (1)利用计算机对上面的数据进行排序;

第二章 定量变量的描述性统计

第二章定量变量的描述性统计(中大.公卫学院.医学统计与流行病学系.骆福添.020-********) 第一节频数分布 ·收集到的数据必须给读者介绍一下,例2-1数据 怎么讲,读出来? 介绍特征,有何特征? ·例:肿瘤什么年龄多发?对发病年龄分组整理 ·脉搏:不妨对脉搏进行分组整理 一、频数分布表 例2-1测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。 66 77 64 67 76 75 75 71 65 62 76 72 71 60 67 75 75 73 79 66 69 79 78 70 72 70 72 78 72 67 72 80 68 70 61 70 73 72 71 81 70 66 75 71 63 77 74 76 68 65 77 69 77 75 79 64 79 73 76 61 80 64 69 70 73 68 65 70 69 66 81 63 64 80 74 78 76 66 70 73 60 76 82 73 64 65 73 73 63 80 68 76 70 79 77 64 70 66 69 73 78 76 制作频数表的步骤为: 1.计算极差极差R=84 -57=27 (次/分)。 2.决定组数、组距和组段 (1)组数:10组左右 (2)组距:等组距(取方便数) (3)组段:下限(最小值)、上限(最大值.空穴)、组中值(代表值.正中)注意:组段应包含全部数据(上下封顶、取方便数) 3.列表划记特别简单、特难全对 表2-1 130名健康成年男子脉搏(次/分)的频数分布表 组段划记频数相对频数(%) 频数频数(%) (1) (2) (3) (4)=(3)/N(5)=(3) (6)=(5)/N 56~ 2 1.54 2 1.54 59~正 5 3.85 7 5.38 62~正正12 9.23 19 14.62 65~正正正15 11.54 34 26.15 68~正正正正正25 19.23 59 45.38 71~正正正正正一26 20.00 85 65.38 74~正正正19 14.62 104 80.00 77~正正正15 11.54 119 91.54 80~正正10 7.69 129 99.23 83~85 一 1 0.77 130 100.00 合计130 ·频数表有2个重要特征: (1)集中趋势划记的杠杠(数据)多数向中间集中 (2)离散趋势划记的杠杠(数据)少数向两头分散

统计学 第2章 统计数据的描述

第2章统计数据的描述 练习: 2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的 等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2)用Excel制作一张频数分布表; (3) 绘制一张条形图,反映评价等级的分布。 2.2某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元): 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126 (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率; (2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业, 105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 2.3某百货公司连续40天的商品销售额如下(单位:万元): 41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 2.4为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果 如下: 700 716 728 719 685 709 691 684 705 718 706 715 712 722 691 708 690 692 707 701

第二章 统计数据的描述

第二章统计数据的描述 一、填空题: 1.统计分组有等距分组与异距分组两大类。 2. 频率是每组数据出现的次数与全部次数之和的比值。 3. 统计分组的关键在于确定组数和组距。 4. 统计表从形式上看,主要由表头(总标题)、横行标题、纵栏标题和数字资料(指标数值)四部分组成。 5. 均值是测度集中趋势最主要的测度指标,标准差是测度离散趋势最主要的测度指标。 6.当平均水平和计量单位不同时,需要用变异系数(离散系数)来测度数据之间的离散程度。 7.众数是一组数据中出现次数最多的变量值。 8.对于一组数据来说,四分位数有 3 个。 二、单项选择题: 1. 次数是分配数列组成的基本要素之一,它是指( B )。 A、各组单位占总体单位的比重 B、分布在各组的个体单位数 C、数量标志在各组的划分 D、以上都不对 2. 某连续变量数列,其末组为600以上。又如其邻近组的组中值为560,则末组的组中值为 ( D )。 A、620 B、610 C、630 D、640 3. 变量数列中各组频率的总和应该是( B )。 A、小于1 B、等于1 C、大于1 D、不等于1 4. 某连续变量数列,其首组为500以下。又如其邻近组的组中值为520,则首组的组中值为 ( C )。 A、460 B、470 C、480 D、490 5. 在下列两两组合的指标中,哪一组的两个指标完全不受极端数值的影响(D ) A、算术平均数和调和平均数 B、几何平均数和众数 C、调和平均数和众数 D、众数和中位数 6. 在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距应取(D )

A、9.3 B、9 C、6 D、10 7. 一项关于大学生体重的调查显示,男生的平均体重是60公斤,标准差为5公斤;女生的平均体重是50公斤,标准差为5公斤.据此数据可以推断( B) 用变异系数算 A、男生体重的差异较大 B、女生体重的差异较大 C、男生和女生的体重差异相同 D、无法确定 8. 某生产小组有9名工人,日产零件数分别为10,11,14,12,13,12,9,15,12.据此数据计算的结果是( A ) 众数12 中位数12 平均数12 A、均值=中位数=众数 B、众数>中位数>均值 C、中位数>均值>众数 D、均值>中位数>众数 9. 按连续型变量分组,最后一组为开口组,下限值为2000。已知相邻组的组距为500,则最后一组组中值为(B ) A、2500 B、2250 C、2100 D、2200 10. 下列数据是某班所有学生的统计学考试成绩:72,90,91,84,85,57,90,84,77,84,69,77,66,87,85,95,86,78,86,45,87,92,73,82。这些成绩的极差是(B) A、78 B、50 C、45 D、40 11. 下列关于众数的叙述中,不正确的是( C ) A、一组数据可能存在多个众数 B、一组数据可能没有众数 C、一组数据的众数是唯一的 D、众数不受极端数值的影响 三、多项选择题: 1. 下列分组哪些是按品质标志分组?(BCDE ) A、职工按工龄分组 B、科技人员按职称分组 C、人口按民族分组 D、企业按所有制分组 E、人口按地区分组 F、职工按收入水平分组 2. 下列分组哪些是按数量标志分组(AF )。 A、职工按工龄分组 B、科技人员按职称分组 C、人口按民族分组 D、企业按所有志分组 E、人口按地区分组 F、职工按收入水平分组 3. 下列哪些属于离散程度的测度指标(BDE )。 A、几何平均数 B、极差 C、中位数 D、方差 E、离散系数 4. 下列哪些属于集中趋势的测度指标(AC )。

统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案

第2章 定量资料的统计描述 案例2-1(P27) 答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。 对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下: 25507523.5(23825%20) 4.7(mol/kg) 6625.5(23850%86) 6.6(mol/kg) 602 7.5(23875%146)8.9(mol/kg) 48(%) x x L x i P L n x f f P u P u P u =+?==+?==+?==+?S

离散程度指标: 四分位间距=P75-P25=8.9-4.7=4.2umol/kg。 故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,

思考与练习(P31) 1. 答: (1) 某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布 Group Frequency Percent Cumulative Percent 49.0- 1 .8 .8 50.0- 4 3.3 4.2 51.0- 8 6.7 10.8 52.0- 6 5.0 15.8 53.0- 19 15.8 31.7 54.0- 18 15.0 46.7 55.0- 14 11.7 58.3 56.0- 26 21.7 80.0 57.0- 10 8.3 88.3 58.0- 9 7.5 95.8 59.0- 4 3.3 99.2 61.0-62.0 1 .8 100.0 Total 120 100.0

第2章 统计描述思考与练习参考答案

第2章统计描述 思考与练习参考答案 一、最佳选择题 1. 编制频数表时错误的作法是( E )。 A. 用最大值减去最小值求全距 B. 组距常取等组距,一般分为10~15组 C. 第一个组段须包括最小值 D. 最后一个组段须包括最大值 E. 写组段,如“~3,3~5, 5~,…” 2. 描述一组负偏峰分布资料的平均水平时,适宜的统计量是(A)。 A. 中位数 B. 几何均数 C. 调和均数 D. 算术均数 E. 众数 3. 比较5年级小学生瞳距和他们坐高的变异程度,宜采用(A)。 A. 变异系数 B. 全距 C. 标准差 D. 四分位数间距 E. 百分位数与的间距 4. 均数X和标准差S的关系是(A)。 A. S越小,X对样本中其他个体的代表性越好 B. S越大,X对样本中其他个体的代表性越好 C. X越小,S越大 D. X越大,S越小 E. S必小于X 5. 计算乙肝疫苗接种后血清抗-HBs的阳转率,分母为(B)。 A. 阳转人数 B. 疫苗接种人数 C. 乙肝患者数 D. 乙肝病毒携带者数 E. 易感人数 6. 某医院的院内感染率为人/千人日,则这个相对数指标属于(C)。 A. 频率 B. 频率分布 C. 强度 D. 相对比 E. 算术均数 7. 纵坐标可以不从0开始的图形为(D)。

A. 直方图 B. 单式条图 C. 复式条图 D. 箱式图 E. 以上均不可 二、简答题 1. 对定量资料进行统计描述时,如何选择适宜的指标 答:详见教材表2-18。 教材表2-18 定量资料统计描述常用的统计指标及其适用场合 描述内容指标意义适用场合 平均水平均数个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众数频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平均值正偏峰分布资料 变异度全距观察值取值范围不拘分布形式,概略分析 标准差(方差)观察值平均离开均数的 程度 对称分布,特别是正态分布资料 四分位数 间距居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 2. 举例说明频率和频率分布的区别和联系。 答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情稳定,66人处于进展状态,54人死亡。 当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。

第二章 统计数据的描述

第二章统计数据的描述 一、单项选择题 1.当数据呈对称分布或接近对称分布时,应选择( )作为集中趋势的代表值。 A .众数 B .均值 C .中位数 D .几何平均数 2.( )是用来对两组数据的差异程度进行相对比较的。 A .标准差 B .离散系数 C .平均差 D .全距 3.由组距数列确定众数时,如果众数相邻两组的次数相等时,则( )。 A .众数为零 B .众数就是那个最大的变量值 C .众数组的组中值就是众数 D .众数就是当中那一组的变量值 4.某连续变量数列,其首组为50以下。又知其邻近组的组中值为75,则首组的组中值为( ) A 24 B 25 C 26 D 27 5.两组数据相比较( )。 A.标准差大的离散程度也就大 B.标准差大的离散程度就小 C .离散系数大的离散程度也就大 D.离散系数大的离散程度就小 6.某连续变量分为5组:第一组为40—50,第二组为50—60,第三组为60—70,第四组为70—80,第五组为80以上,则( ) A.50在第一组,70在第四组 B.60在第三组,80在第五组 C.70在第三组,80在第五组 D.80在第四组,50在第二组 7.若某总体次数分布呈左偏分布,则成立的有()。 A.x >e M >o M B.x o M >e M D.以上都不对 8.统计分组的依据是() A.标志 B.指标 C.标志值 D.变量值 9.统计分组的关键在于() A.正确选择分组标志 B.正确划分各组界限 C.正确确定组数和组限 D.正确选择分布数列种类 10.在全距一定的情况下,组距的大小与组数的多少成() A.正比B.反比C.无比例关系D.有时成正比有时成反比 11.按某一标志分组的结果表现为() A.组内同质性,组间同质性 B.组内同质性,组间差异性 C.组间差异性,组间同质性 D.组间差异性,组间差异性 12.不能全面反映总体各单位标志值变异程度的标志变异指标是() A.全距B.平均差C.标准差 D.标准差系数 13.某单位职工最大年龄与最小年龄之差称为该单位职工年龄的 ( ) A.标 志 B.全距 C.平均差 D.众 数 14.某企业的职工工资水平比上年提高5%,职工人数增加2%,则企业工资总额增长( )。 A. 10% B. 7.1% C. 7% D. 11%

第2章 统计数据的描述

第2章 统计数据的描述 练习: 2 比较哪个企业的总平均成本高?并分析其原因。 2. 11在某地区抽取的120家企业按利润额进行分组,结果如下: 按利润额分组(万元) 企业数(个) 200~300 19 300~400 30 400~500 42 500~600 18 600以上 11 合计 120 计算120家企业利润额的均值和标准差。 2. 12对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下: 成年组 166 169 172 177 180 170 172 174 168 173 幼儿组 68 69 68 70 71 73 72 73 74 75 (1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么? (2)比较分析哪一组的身高差异大? 答案 2.10 (1)甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。 2.11 x =426.67(万元);48.116=s (万元)。 2.12 (1)离散系数,因为它消除了不同组数据水平高地的影响。 (2)成年组身高的离散系数: 024.01.1722 .4== s v ; 幼儿组身高的离散系数: 032.03.713 .2== s v ; 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度 相对较大。

第5章参数估计 练习: 5.1从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。 (1)样本均值的抽样标准差x σ等于多少? (2)在95%的置信水平下,允许误差是多少? 5.2某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客 组成了一个简单随机样本。 (1)假定总体标准差为15元,求样本均值的抽样标准误差; (2)在95%的置信水平下,求允许误差; (3)如果样本均值为120元,求总体均值95%的置信区间。 5.3某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽 取36人,调查他们每天上网的时间,得到下面的数据(单位:小时): 3.3 3.1 6.2 5.8 2.3 4.1 5.4 4.5 3.2 4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3 2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5 求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。 5.4从一个正态总体中随机抽取容量为8 的样本,各样本值分别为:10,8,12,15,6,13,5,11。 求总体均值95%的置信区间。 5.5某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样 本,他们到单位的距离(公里)分别是: 10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2 求职工上班从家里到单位平均距离95%的置信区间。 5.6在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视 机。其中拥有该品牌电视机的家庭占23%。求总体比率的置信区间,置信水平分别为90%和95%。 5.7某居民小区共有居民500户,小区管理者准备采取一向新的供水设施,想了解居民是否 赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。 (1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%; (2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查? 答案 5.1 (1) 79 .0 = x σ;(2)E=1.55。 5.2 (1) 14 .2 = x σ;(2)E=4.2;(3)(115.8,124.2)。 5.3 (2.88,3.76);(2.80,3.84);(2.63,4.01)。 5.4 (7.1,12.9)。 5.5 (7.18,11.57)。 5.6 (18.11%,27.89%);(17.17%,22.835)。

第二章 统计数据的描述习题及答案

第一章统计数据的描述习题及答案 1.简述众数、中位数和均值的特点和应用场合。 答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。 2.为什么要计算离散系数? 答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。 3.某百货公司6月份各天的销售额数据如下(单位:万元): 257 276 297 252 238 310 240 236 265 278 271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 (1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。 解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223,于是得该百货公司日销售额的均值: 或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:A30”,回车,得到均值也为274.1。在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数272和273的平均数: 由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8位)靠上四分之一的位置上,由重新排序后的Excel表中第8位是261,第15位是272,从而: 同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而: (2)未分组数据的标准差计算公式为:

第二章 数据描述与基本操作

C语言程序设计详解 第二章数据描述与基本操作 一、主要知识点 (一)C的基本类型节 (二)常量和符号常量 1、常量定义:在程序运行过程中,其值不能被改变的量称为常量。常量常区分不同的类型,如1 2、0、-3为整型常量,‘a’、‘D’为字符常量。 2、符号常量:用一个标示符代表一个常量的,称为符号常量,即标示符形式的常量。常量不同于变量,它的值在作用域不能改变,也不能再被赋值。 (三)变量 1、变量定义:其值可以改变的量称为变量。 2、标识符的命名规范和其它高级语言一样,用来标识变量名、符号常量名、函数名、数组名、类型名、文件名的有效字符序列称为标识符,C语言中的标识符命名规范为:○1变量名只能由字母、数字和下划线三种字符组成,且第一个字符必须是字母或者下划线。 ○2C语言中标识符的长度(字符个数)无统一规定,随系统而不同。许多系统取前7个字符。 ○3C语言有32个关键字它们已有专门含义,不应该采用与它们同名的变量名。 ○4C语言将大小写字母认为是两个不同字。习惯上符号常量名用大写,变量名用小写来示区别,但大写字母作变量名并无错误。 (四)整型数据 1、整型常量 整型常量即整常数。C语言整常数可用以下三种表示形式。 ○1十进制表示。如321,-234,34.324 ○2八进制表示。以0开头的数是八进制数。如0123

○3十六进制表示。以Ox开头的数是16进制。如Ox123 2、整型变量 整型变量分为:基本型、短整型、长整型和无符号型4种。 ○1基本型,以int表示 ○2短整型,以short int表示或short表示 ○3长整型,以long int表示或long表示 ○4无符号型,存储单元中全部二进制位(bit)用作存数本身,而不包括符号。 3、整型数据的取值范围 4、整型常量的分类 ○1一个整常量,如果其值在-32768~32767范围内,认为他是int型,他可以赋值给int 型和long int型变量。 ○2一个整常量,如果其值超过了上述范围,而在-2147483648~2147483647范围内,则认为它是long int型,可以将它赋值给一个ling int型变量。 ○3在一个整常量后面加一个字母l或L,则认为是ling int型常量。 (五)实型数据 1、实型常量 实数在C语言中又称为浮点数。实数有两种表示形式: ○1十进制形式。它由数字和小数点组成(注意必须有小数点)。例:0.123、.123、123.0、0.0都是hi十进制数形式。 ○2指数形式。如123.56e4或123.56E4都代表123.56 *10^4。但字母e(或E)之前必须有数字,e后面指数必须为整数。例如:e3、1.2e3.5、.e3、e都是不合法的指数形式。 例:下面四个选项中,均是不合法的浮点数的选项是 B 。 A、160. 0.12 e3 B、123 2e4.2 .e5 C、-.18 123e4 0.0 D、-.e3 .234 1e3 2、实型变量 C实型变量分为单精度(float型)和双精度(double型)两类。 在一般系统中,一个单精度型数据在内存中占4个字节(32位),一个double型数据占8个字节。一个单精度型变量能接收7位有效数字,一个double型变量能接收17位有效数字,数值的范围随机器系统而异。

第二章 简单统计描述分析

第二章单变量和双变量统计描述分析 第一节单变量统计描述基本技术 一、变量的计量尺度/层次 1、定类变量——最低层次的变量类型。只有类别属性之分,无大小程度之分。根据变量值,只能知道研究对象的异同。从数学运算特性来看,定类变量只有等于或不等于的性质。 2、定序变量——层次高于定类变量。取值除类别属性外,还有等级、次序之分。数学运算特性除等于或不等于外,还有大于或小于。 3、定距变量——层次高于定序变量。取值除类别属性、次序之外,取值之间的距离可以用标准化的举例度量。数学运算特性除等于不等于,大于小于之外,还可以加减。如收入,以1元为标准化距离,则2000元比1500元多了500元。 4、定比变量——最高层次变量。除了上述三种属性外,可以进行乘除运算。 1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。 2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。高层次变量可以降低层次来使用。一般来说,测量层次越高越好,数学特性就越多,统计分析就越方便,能了解资料的程度就越深入。 二、基本技术 1、次数分布(定类)——针对定类变量 最基本的统计分析方法。面对大量的数据资料,首先要组织整理,第一步就是要采用次数分布来简化资料,看某变量的每一个值出现的次数是多少。 定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,一个观察值只能归入一类,对于分组数据遵循上限不包括在内原则。 次数分布可简化资料,但不能比较样本,因为样本量不同。 2、比、比例和比率(通常保留一位或两位小数) 比:某两类的次数相除,如性别比=男性/女性 比例:某类次数除以总数,老年人口比例=老年人口数/总人口数×100% 比率:某一确定变量相对应的某些事件发生的频率。分子和分母不存在隶属关系,有时是不同的变量,如人均GDP,患病率。 3、累加次数和累加百分比(定序和定距)

STATA 第二章 描述性统计命令与输出结果说明

第二章描述性统计命令与输出结果说明 上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。 计算资料均数,标准差命令summarize,以述资料为例: . summarize Variable Obs Mean Std. Dev. Min Max x1 11 4.710909 1.302977 2.6 6.53 x2 13 3.354615 1.304368 1.67 5.78 Mean 均值;Std.Dev.标准差 即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。 计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例:

. summarize x1 x2,detail x1 Percentiles Smallest 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11 25% 3.73 3.73 Sum of Wgt. 11 50% 4.73 Mean 4.710909 Largest Std. Dev. 1.302977 75% 5.78 5.58 90% 6.4 5.78 Variance 1.697749 95% 6.53 6.4 Skewness -.0813446 99% 6.53 6.53 Kurtosis 1.809951 x2 Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% 2.33 2.33 Sum of Wgt. 13 50% 3.6 Mean 3.354615 Largest Std. Dev. 1.304368 75% 4.17 4.17 90% 4.82 4.57 Variance 1.701377 95% 5.78 4.82 Skewness .2963943 99% 5.78 5.78 Kurtosis 1.875392 . 结果: Percentiles 显示了从1%到99%的分位数的取值。第二列是最小和最大的5个数。第三列从上到下:obs观测值数目、mean平均数、std.dev标准差、variance 方差。 skewness偏度:偏度的绝对值越小,表明该数据的正态对称性越好。 kurtosis峰度:峰度值越大表明该数据的正态峰越明显。 95%可信限计算: 正态数据:ci 变量名 0-1 数据:ci 变量名,binomial poisson分布数据:ci变量名,poisson 90%可信限计算(其它可信限类推) 正态数据:ci 变量名,level(90) 0-1数据:ci 变量名,level(90) binomial poisson分布数据:ci 变量名,level(90) poisson ci x1 x2 . ci x1 x2 Variable Obs Mean Std. Err. [95% Conf. Interval] x1 11 4.710909 .3928624 3.835557 5.586261 x2 13 3.354615 .3617667 2.566393 4.142837 [95%Conf.Interval]为95%的可信限,因此x1的95%可信限为[3.8356,5.5863],x2的95%可信限为[2.5664,4.1428]。 根据样本数,样本均数和标准差计算可信限。

第二章 数据分布特征的测度

第二章数据分布特征的测度 对数据分布特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。 第一节函数的介绍 本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。 一、统计计算中经常用到的函数(函数列表)★ Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。下面将这些函数名称及功能列表显示。 ★本小节摘自: 安维默主编,《统计电算化》第34~37页,中国统计出版社,2000

表2-1 可用于统计分析的函数(续2)

1、函数的语法 工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和A VERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“=SUM(327,209,176)”中的SUM 函数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“Microsoft Excel 在公式中发现了错误。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值﹟NAME?。 如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“=PRODUCT (C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表中包括任意数目单元格的区域。例如,函数“=SUM(A1:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从A1到A5的所有单元格,依此类推)。反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。 2、函数的输入 对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相

第二章 统计图表

第二章统计图表 第一节统计图 一、统计表的结构与种类 统计表:是将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式。 (一)统计表的结构 ?序号 ?名称(标题):表的题目,居表上端的中间位置,概括全表统计资料的主要内容。 ?标目(项目):统计表的横行标题和纵列标题。 ?数字:统计表的语言,又称统计指标。 ?表注 ?线条 (二)统计表的种类 统计表按分类标志的标准和数目的不同,分为: ?简单表 简单表:统计资料的标目未经任何分组,只按一个标志简单列出调查单位、时序或统计指标名称的统计表。 ?分组表 分组表:统计资料的标目按一个标志(品质或数量)进行分组列成都统计表。 ?复合表 由两个或两个以上标志分组列成的统计表 二、次数分布表 定义:表现总体单位在各组次数分配情况的统计表 (一)简单次数分布表 是依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。

(二)分组次数分布表 分组次数分布表的编制步骤: ? 1.求全距——R ? 2.定组数——K ? 3.求组距——I ? 4.定组限 ?表述组限与精确组限 ? 5.求组中值 ? 6.归类划记 ?7.记录次数 ?8.核对 (三)、累积次数分布表 通过简单次数分布表中各组对应的次数,可以进一步求出累积次数,制成累积次数分布表。 第二节统计图 定义:利用几何图形或具体事物来表示统计事项数量关系的图形。 一、统计图的结构 图号及图题;图目;图尺;图形;图例;图注等。 二、几种常见统计图的应用举例 (一)条形图 用相同宽度的条形长短或高度来比较图示指标数值大小的图形。 (二)圆形图 用圆形内扇形面积的大小来说明总体中各组成部分构成比例的图形。 练习题:某大学美术系有教职工58人,其中教师48人,行政和教辅人员10人。48位教师中,教授18人,副教授15人,讲师15人。请绘制一个圆形统计图表示该系教职工的比例。 (三)曲线图:用曲线的升降来表现统计资料数值变动的图形。 1.动态曲线图:表现统计事项随时间的变化其整体指标数值发展变化趋势的

第二章课本习题答案

第2章统计数据的描述 练习题部分: 2.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的 等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (2)用Excel制作一张频数分布表; (3)绘制一张条形图,反映评价等级的分布。 2.2某行业管理局所属40个企业2008年的产品销售收入数据如下(单位:万元): 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126 (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率; (2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业, 105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 2.3某百货公司连续40天的商品销售额如下(单位:万元): 41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 2.4为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果 如下: 700 716 728 719 685 709 691 684 705 718 706 715 712 722 691 708 690 692 707 701 708 729 694 681 695 685 706 661 735 665 668 710 693 697 674 658 698 666 696 698 706 692 691 747 699 682 698 700 710 722 694 690 736 689 696 651 673 749 708 727

第2章描述性统计分析实例

第2章 描述性统计分析实例 当进行数据分析时,如果研究者得到的数据量很小,那么就可以通过直接观察原始数据来获得所有的信息;如果得到的数据量很大,那么就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据,对数据展开描述的统计分析方法被称为描述性统计分析。常用的描述性统计分析有频数分析、描述性分析、探索分析、列联表分析。下面我们将一一介绍这几种方法在实例中的应用。 2.1 实例1——频数分析 2.1.1 频数分析的功能与意义 SPSS的频数分析(Frequencies)是描述性统计分析中比较常用的方法之一。通过频数分析,我们可以得到详细的频数表以及平均值、最大值、最小值、方差、标准差、极差、平均数标准误、偏度系数和峰度系数等重要的描述统计量,还可以通过分析得到合适的统计图。所以进行频数分析不仅可以方便地对数据按组进行归类整理,还可以对数据的分布特征形成初步的认识。 2.1.2 相关数据来源 下载资源\video\chap02\... 下载资源\sample\2\正文\原始数据文件\案例2.1.sav 【例2.1】表2.1给出了山东省某学校50名高二学生的身高。试分析这50名学生的身高分布特征,计算平均值、最大值、最小值、标准差等统计量,并绘制频数表、直方图。 表2.1 山东省某学校50名高二学生的身高 编号身高(cm) 001 175 002 163 003 156 004 174 005 167 … … 048 158 049 164 050 163

15 第2章 描述性统计分析实例 2.1.3 SPSS分析过程 在用SPSS 进行分析之前,我们要把数据录入到SPSS 中。本例中有两个变量,分别是编 号和身高。我们把编号定义为字符型变量,把身高定义为数值型变量,然后录入相关数据。录入完 成后,数据如图2.1所示。 图2.1 案例2.1数据 先做一下数据保存,然后开始 展开分析,步骤如下: 进入SPSS 24.0,打开相关数据文件,选 择“分析”|“描述统计”| “频率”命令,弹出如图2.2所示的对话框。 选择进行频数分析的变量。在“频率”对 话框的左侧列表框中选择“身高”选项,单击中间 的按钮使之进入“变量”列表框。 选择是否输出频数表格。选中“频率”对 话框左下角的“显示频率表”复选框,要求输出频数表格。 选择输出相关描述统计量。单击“频率”对话框右上角的“统计”按钮,弹出如图 2.3所示的对话框,在该对话框中可以设置相关描述统计量。我们在“百分位值”选项组中选中“四分位数”“分割点”复选框;在“集中趋势”选项组中选中“平均值”“中位数”“众数”“总和”复选框;在“离散”选项组中选中“标准差”“方差”“范围”“最小值”“最大值”“标 准误差平均值”复选框;在“分布”选项组中选中“偏度”“峰度”复选框。设置完毕后,单击“继续”按钮返回“频率”对话框。 设置图表的输出。单击“频率”对话框中的“图表”按钮,弹出如图 2.4所示的对话 框,选择有关的图形输出。在此我们选择直方图,并且带正态曲线。 图2.2 “频率”对话框

相关主题
相关文档 最新文档