【统计学】第3章统计数据的搜集
- 格式:doc
- 大小:70.00 KB
- 文档页数:10
一、思考题3.1数据的预处理包括数据审核,数据筛选,数据排序,数据透视表。
3.2分类数据整理:频数分布表(频数,比例,百分比,比率)图示方法:条形图,对比条形图,帕累托图,饼图。
顺序数据的整理:频数分布表(累计频数,累计频率)图示方法:环形图。
3.3数值型数据的分组方法是组距分组,步骤:1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。
在实际分组时,组数一般为5≤K ≤152.确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=( 最大值 - 最小值)÷ 组数3.统计出各组的频数并整理成频数分布表3.4直方图和条形图区别:1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据3.5绘制线图应该注意的问题:一般情况下,纵轴数据下端应从“0”开始,以便于比较。
数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断3.6饼图和环形图的不同:饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。
3.7茎叶图与直方图相比的优点与各自的应用场合:直方图可观察一组数据的分布状况,但没有给出具体的数值;茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。
直方图适用于大批量数据,茎叶图适用于小批量数据3.8鉴别图表优劣的准则有:3.9制作统计表时应注意的问题:二、练习题3.1为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别为:A.好;B.较好;C.一般;D.较差;E.差。
1. 2.掌握3.掌握 4.用Excel5.§3.1数据的预处理3.1.1 数据审核3.1.2 数据筛选3.1.3 数据排序1.错误2.符合条件3.升序和降序4.按需要汇总(raw data)完整性准确性检查数据是否有错误,计算是否正确等数值型数据,计算检查)(second hand data)1.适用性2.时效性3.确认(data filter)1. 2.不符合明显错误剔除符合筛选出来,而不用Excel 进行数据筛选8名学生的考试成绩数据(data filter)(data rank)1.一定顺序2.有助于3.排序本身就是分析的目的4.借助于计算机(方法)1.分类数据 字母型习惯上用升序汉字型首位拼音字母笔画多少2.数值型–递增递增–递减x (2)>…>x (n)数据透视表(pivot table )1.复杂提取有用 2.重要信息汇总和作图3. 4.首行列标题拖至区域,将需要汇总的“变【向导—3步骤之3】对,即可输出数据透视表§3.2 分类和顺序数据的整理与显示3.2.1 分类数据的整理与显示3.2.2 顺序数据的整理与显示(基本问题)1.弄清数据类型2.分类数据和顺序数据分类整理3.数值型数据分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整(基本过程) BAEDC比率百分比比例频数分类(可计算的统计量)1.个数2.一类别全部数据3.4.不同类别制作频数分布表(bar Chart )1.宽度相同高度或长短2.单式复式3.分类数据频数分布4.条形图可以横置或纵置汇源果汁露露品牌(side - 1.不同时间或不同空间2.差异或变化趋势688563328247戴尔电脑品牌1.频数多少排序2.分类数据不同品牌饮料的帕累托图百事可乐露露汇源果汁品牌(pie Chart)1.圆形及圆内扇形的角度2.各组成部分所占的比例结构性问题3.绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占不同品牌饮料的构成旭日升冰茶22%分类数据显示图例(可计算的指标)频数逐级累加频率(百分比)的逐级累加☺☺☺☺☺☺———100.092562510276168753044.075.090.0100.0132225270300乙城市回答类别100.093.060.034.012.7300279180102387.040.066.087.3100.0211201982623007.033.026.021.312.72199786438非常不满意不满意一般满意非常满意百分比(%)户数(户)百分比(%)户数(户)向下累积向上累积百分比(%)户数(户)乙城市家庭对住房状况评价的频数分布(243001322252700100200300400非常不满意不满意一般满意非常满意累积户数(户)(a)向上累积非常不满意不满意一般满意非常满意(b)向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布(annular chart)1. 2.同时绘制多个总体3. 4.环形图主要用于展示分类和顺序数据满意非常满意§3.3 数值型数据的整理与显示3.3.1 数据分组3.3.2 数值型数据的图示等距分组等距分组异距分组异距分组(要点)一个变量值离散变量值较少的情况☺☺☺☺(要点)1.一个区间2.连续变量3.变量值较多4.“不重不漏”5.等距不等距☺~ ☺☺~ ☺☺~ ☺☺~ ☺☺~ ☺(步骤)1.确定组数2.确定组距上限与下限之差,可根据全部数据的最大统计频数并整理成频数分布表(几个概念)(例题分析)【例】某电脑公司2005年前四个月各天的销售量数据(单位:台)。
统计学复习重点第一章导论统计是静止的历史,历史是流动的统计。
1、掌握统计的含义:统计工作、统计数据、统计学。
政治算数阶段的代表人物是威廉·佩蒂和约翰·格朗特2、了解统计学的研究对象:客观事物的总体数量特征和数量关系。
3、掌握统计研究的基本方法:大量观察法、统计分组法、综合分析法、统计模型法、归纳推断法4、了解统计研究的基本程序:统计目的→统计设计→统计调查→统计整理→统计分析→统计服务5、了解统计具有的职能:信息职能、监督职能、咨询职能、辅助决策职能6、重点掌握统计学的基本范畴:①统计总体和总体单位②标志和标志表现③统计指标和指标体系(*统计指标六要素;指标名称、计量单位、计算方法、时间限制、空间限制、指标数值)④变异、变量与变量值。
统计学上把总体各单位由于随机因素引起的某一标志表现的差异称为变异。
变量按其值是否连续可以分为连续变量和离散变量7、问答:说明指标和标志的区别与联系。
答:区别:指标是说明总体特征的,标志是说明总体单位特征的。
指标具有可量性,无论是质量指标还是数量指标,都能用数字表示。
而标志则不一定,数量标志具有可量性,而品质标志不具有可量性。
联系:①指标值往往由数量标志值汇总而来,没有总体单位的标志值就不会总体的指标值。
②在一定条件下,数量标志和指标存在着互换关系。
8.、质量指标分为相对指标和平均指标,通常是由两个总量指标对比派生出来的。
统计指标分为相对指标,平均指标和总量指标(数量指标)。
9.第二章统计设计1、掌握正交试验设计的方法。
2、第三章统计数据的搜集1、掌握数据的计量与分类。
计量尺度由低级向高级、由粗略到经济分为定类尺度、定序尺度、定距尺度、定比尺度;分类:定性数据和定量数据,原始资料和次级资料。
2、了解统计调查的意义与形式。
种类①调查单位是否完全:全面调查和非全面调查②登记时间是否连续:经常性调查和一次性调查(间隔时间相当长)③组织方式不同:统计报表和专门调查。
第三章统计数据的整理与显示一、单项选择题:1.将统计总体按某一标志进行分组后,其结果是()。
A.组内同质性,组间同质性B.组内差异性,组间差异性C.组内同质性,组间差异性D.组内差异性,组间同质性2.在组距数列中,当全距确定时,组距与组数的关系是()。
A.组距越大,组数越小B.组距越大,组数越大C.组距越小,组数越小D.组距与组数的关系不确定3.连续型量在确定组限时,相邻组的组限必须()。
A.间断B.重叠C.相等D.不等4.变量数列中,各组频率的合计数应该为()。
A.大于1B.等于1C.小于1D.不等于15.在异距数列中,要准确反映其分布状况,必须采用()。
A.向上累计B.向下累计C.频数D.频率密度6.计算向上累计次数或频数时,其计数表达的意义是()。
A.上限以下的累计次数或频数B.上限以上的累计次数或频数C.下限以下的累计次数或频数D.上限以上的累计次数或频数7.在统计表中,说明统计表名称的词语是()。
A.主词B.宾词C.总标题D.横行标题8.次数分布的特征是:两头小,中间大。
即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少。
这种次数分布是()。
A.正态分布B.U形分布C.正J形分布D.反J形分布9.类似于直方图,与直方图比较,其构造更容易,且能显示变量的实际值,从而不会因数据分组将具体的数值信息丢失,这种图是()。
A.折线图B.曲线图C.茎叶图D.帕拉图10.填写统计表时,当某一位置不应该有数字,应用的符号是()。
A.0B.×C.…D.–二、多项选择题:1.在统计数据整理之前,要对统计数据进行审核。
审核的主要内容是()。
A.数据的准确性B.数据的及时性C.数据的系统性D.数据的完整性E.数据的客观性2.统计分组的作用是()。
A.划分社会经济现象的类型B.刻画总体具有的特征C.揭示社会经济现象的内部构成D.反映总体单位的分布情况E.分析社会经济现象之间的依存关系3.在组距数列中,组中值是()。
第三章统计整理一、单项选择题1、统计整理阶段最关键的问题是:A统计分组和统计汇总B统计指标和统计分析C统计分组和统计指标D统计分组和统计分析2、在统计整理工作阶段的统计整理:A主要对原始资料整理B只对原始资料整理C主要对次级资料整理D只对次级资料整理3、将统计总体按某一标志分组的结果表现为:A组内同质性,组间差异性B组内差异性,组间差异性C组内差异性,组间同质性D组内同质性,组间同质性4、统计分组的关键在于:A确定分组标志B确定组数C确定组距D确定分组组限5、按组距分组而编制的变量数列称为:A分配数列B组距数列C分组数列D分布数列6、划分连续型变量的组限时,相邻组的组限必须:A相等B不等C重叠D间断7、次数分配数列是指:A各组组别依次排成的数列B各组次数依次排成的数列C各组组别与次数(或频率)依次排列而成的数列D各组频率依次排成的数列8、在次数分布中,比率是指:A各组分布次数频率之比B各组分布次数与总次数之比C各组分布次数相互之比D各组的频率相互之比9、各组变量值在决定总体数量大小中所起的作用:A与次数或比率大小无关B与次数或比率大小有关C与次数大小有关,与比率大小无关D与次数大小无关,与比率大小有关10、商业企业按经济类型分组和商业企业按职工人数分组,这两个统计分组是:A按数量标志分组B前者按数量标志分组,后者按品质标志分组C按品质标志分组D前者按品质标志分组,后者按数量标志分组11、下面属于变量分配数列的资料有:A大学生按专业分配B电站按发电能力分配C商业企业按类型分配D企业按国民经济部门分配12、对同一总体选择两个或两个以上的标志进行简单分组是:A简单分组B平行分组体系C复合分组D复合分组体系13、变量数列中各组频率的总和应该:A小于1B等于1C大于1D不等于114、在等距数列中,组距的大小与组数多少成:A正比B等比C反比D不成比例15、要准确地反映异距数列的实际分布情况,必须采用:A次数B次数密度C频率D累计频率16、说明统计表名称的语句,在统计表中称为:A横行标题B主词C纵栏标题D总标题17、统计表中的横行标题是表示各组的名称,一般写在统计表的:A上方B下方C左方D右方18、统计表的主词是指:A各种指标所描述的研究对象B描述研究对象的指标C宾词的具体表现D总体单位标志的总称19、区分简单分组和复合分组的依据是:A分组对象的复杂程度B采用分组标志的多少不同C分组的数目多少不同D研究的总体变化如何20、把统计表区分为简单表和分组表的标志是:A分组标志的选定B分组的数目多少C看主词是否分组D总体是否相同21、统计表区分为调查表、汇总表(或整理表)和分析表,其划分依据是:A统计表的性质B统计表的作用C统计数列的性质D统计分组的情况22、反映事物属性、性质的标志分组称为:A数量标志分组B品质标志分组C主要标志分组D辅助标志分组23、统计资料整理的内容不包括:A对原始资料进行审核与检查B对原始指标进行综合汇总C将汇总的结果编制成统计表与分析表D对统计资料进行分析研究24、将某企业职工人数按年龄分为5组,这种分组属于:A简单分组B复合分组C平行分组D再分组25、分配数列中的次数是指:A用以分组的标志B分组的组数C分布在各组的单位数D分组的次数26、品质数列和变量数列的区别在于:A数列的质量B数列的组数C各组次数分布性质D分组标志的性质27、在全距一定的情况下,组距大小与组数多少:A成反比B成正比C无比例关系D有时成正比,有时成反比28、组距数列中的上限一般是指:A本组变量的最大值B本组变量的最小值C总体内变量的最大值D总体内变量的最小值29、有各组上限和下限进行平均,其结果是:A组距B组数C组限D组中值30、某大学学生分别按年龄和年级分组,形成的是:A平行分组体系B复合分组体系C平行与复合二者兼而有之D不成体系二、填空题1、______是统计工作的第三阶段,既是______的继续,又是______的前提。
第3章统计数据的搜集
一、数据的计量尺度:
1、定类尺度(列名尺度):依据客观事物的品质标志进行分组或分类,各组或各类别间是
并列、平等且互相排斥,测量结果形成定类变量或定类指标。
对定
类尺度的计量结果可以计算每一类别中各元素或个体出现的频数。
例如:1表示男性人口,0表示女性人口
2、定序尺度(顺序尺度):对客观事物之间等级差或顺序差别的一种测度,测量结果形成
定序变量或定序指标。
该尺度只测量类别之间的顺序,而未测量出
类别之间的准确差值。
该尺度的计量结果只能比较大小,不能进行
数学运算。
例如:AAAAA级景区
3、定距尺度(间隔尺度):对客观事物类别或次序之间间距的测度,测量结果形成定距变
量或定距指标。
该尺度的计量结果表现为数值。
例如:收入用元分数用分
4、定比尺度(比率尺度):在定距尺度的基础上,确定相应的比较基数或共同起点并可将
两种相关的数量对比计算相对数,测量结果形成定比定量或定比指
标。
定比尺度中必须有一个绝对固定的“零点”,这也是它与定距
尺度唯一差别。
4种计算尺度比较
测定层次特征测量精度运算功能举例定类尺度分类很低计数产业分类
定序尺度分类
排序
较低
计数
排序
企业等级
1
2 二、数据的分类 1、根据4种计量尺度的结果,可将统计数据分为 定性数据和定量数据
定性数据:也称品质数据,它说明的是事物的品质特征,是不能用数值表示的,其结果
通常表现为类别,这类数据是由定类尺度和定序尺度计量形成的。
定量数据:也称数量数据,它说明的是现象的数量特征,是能够用数值来表现的,这类
数据是由定距尺度和定比尺度计量形成的。
对不同类型的数据,可采用不同的统计方法来处理和分析。
比如,对品质数据通常可以
计算出各组的频数或频率,而数量数据则可以用更多的统计方法进行处
理。
2、根据统计数据获得途径的不同,又可将统计数据分为原始资料和次级资料
原始资料又称初始资料或称一手资料,是根据特定的目的和要求而专门搜集的资料,如
原始记录、统计台帐、调查问卷答案、访谈录、实验结果等。
次级资料或称为二手资料,是早已存在的他人已整理分析的资料。
I 、获取二手资料的方法
·传统方法:传统方法一般可概括为文献资料筛选法、报刊剪辑法和情报联络
定距尺度 分类
排序
有基本测量单位
无绝对零点
较高 计数 排序 加减 产品质量差异 定比尺度
分类
排序
有基本测量单位
有绝对零点
很高 计数 排序 加减乘除 商品销售额
网法等。
·网上搜索法:网上搜索法是利用搜索引擎在网上检索所需信息。
II、使用次级资料的优缺点
·优点
1、有助于明确或重新明确探索性研究中的研究主题。
2、可以切实提供一些解决问题的方法。
3、可以提供搜集原始资料的备选方法
4、提醒市场调研者注意潜在的问题和困难
5、提供必要的背景资料
6、二手资料可以作为以后调研方案的参照基础
·缺点
1、缺乏可得性和相关性
2、准确性较差
3、内容不够充足。
三、统计调查
1、概念:统计调查是按照统计研究的目的,运用科学的调查方法,有计划、有组织地向客
观实际搜集统计数据的过程。
2、统计调查的基本要求:准确性和及时性
准确性是指调查资料客观地反映现象和过程本质的程度
及时性则指搜集资料完成的时间符合该项调查所规定的要求3、统计调查的基本任务:按照所确定的指标体系,通过具体的调查,取得反映客观事物的
统计数据
4、统计调查的意义:它在统计工作中处于基础阶段,人们的认识是一个由感性认识到理性
认识的发展和深化过程。
统计是一种认识活动,是人们认识社会的有
3
力武器。
5、统计调查的组织形式
·统计调查按其所包括的调查单位是否完全分为全面调查和非全面调查
全面调查:是对调查对象中所包括的全部单位都进行调查,其主要目的在于取得总体现象的全面系统的问题指标。
包括全面统计报表、普查
非全面调查:是对调查对象中的一部分单位所进行的调查,包括非全面统计报表、重点调查、典型调查、抽样调查等
·统计调查按登记时间是否连续分为经常性调查和不连续调查
经常性调查:是连续性的调查,它是随着被研究对象在时间上的发展变化而连续不断地进行登记
一次性调查:是间隔一定时间,一般是相当长时间,如一年以上,它是对事物在一定时点上的状态进行登记。
包括周期性调查和一次性调查。
·统计调查按组织方式不同分为统计报表制度和专门调查
统计报表制度:是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计资料的一种统计调查方式。
专门调查:是为了研究某些问题,由进行调查的单位专门组织的调查。
包括普查、重点调查、典型调查、抽样调查等
6、统计调查(数据搜集)的具体方法
I.询问调查法
·面谈调查
·自由交谈方式
·调查表提问方式:适用于需要获得统计数据的调查
·邮寄调查法
·电话调查法
4。