第二章统计数据的搜集与整理
- 格式:doc
- 大小:36.50 KB
- 文档页数:6
第二章统计数据的搜集与整理第一节数据的计量与类型一、数据的计量尺度统计数据是对客观现象进行计量的结果。
不同的十五计量和测度的程度是不同。
有些可以进行属性分类,有些则可以采用数字计量。
不同的计量尺度,可以得到不同类型的统计数据,使用与不同的统计分析方法。
一般可采用的计量尺度有以下四种:(一)、定类尺度定类尺度也成列名尺度,他就是按照事物的某种属性进行平行的分类或分组。
丁类尺度只是册读了事物之间的类型差别,而事物之间的其他差别却无法表现。
对丁类尺度的脊梁解雇,可以计算每一类中个个体出现的聘书。
在使用定类尺度进行分类是必须符合穷尽和护持的要求。
穷尽是指在所作的全部分类中,必须保证每个个体都能归属于某一类别,不能遗漏。
类别护持是指每一个体只能在一个类别中出现,而不能在其他类别中重复出现。
(二)、定序尺度定序尺度有成顺序尺度,它是对事物之间登记差别和顺序差别的一种册度。
这种尺度不仅可以将事物分成不同的类别,还可以确定这些事物的优劣和顺序。
也就是说不仅可以册度类别差,还可以册度次序差。
定序尺度的计量结果虽然也表现为类别,但这些类别之间是可以比较顺序的。
相比较而言,定序尺度对事物的计量必定类尺度要精确一些,计量的结果能比较大小,但不能进行数学运算。
(三)、定距尺度定距尺度也称间隔尺度。
他不仅能够区分事务类型,并进行排序,而且可以掷出类别之间的差距是多少。
定距尺度斯对事物类别或次序之间艰巨的侧度,这种尺度通常使用自然或无力单位作为剂量的标准。
因此,定距尺度的计量结果表现为数值。
由于这类尺度的每一间隔都是相等的,只要给出一个度量单位,就可以准确地指出两个技术之间的差值。
因此,其计量结果可以进行加、减的数学运算。
(四)、定比尺度定比尺度也称比率尺度。
他预订距尺度属于同一层次,他的计量结果也表现为数值。
它具有以上三种尺度的全部特性,另外还具有一个特性,就是可以计算两个测读书之之间的比值。
这要求定比尺度中必须有一个固定的“零点”,这是它与定距尺度的差别。
第⼆章统计数据的搜集与整理第⼆章统计数据的搜集与整理(⼀)教学⽬的通过本章的学习,了解统计数据搜集与整理的基本理论与⽅法,掌握各种⽅法的特性。
(⼆)基本要求要求灵活运⽤各种数据搜集的⽅式⽅法,并对所得数据进⾏加⼯整理,为以后各章学习打下基础。
(三)教学要点1、数据搜集的⽅式⽅法;2、统计调查⽅案的设计;3、统计分组;4、变量数列的编制;5、统计数据的显⽰。
(四)教学时数9课时(五)教学内容本章共分四节:第⼀节数据的计量与类型⼀、数据的计量尺度在计量学的⼀般分类⽅法中,依据对事物计量的精确程度,可将所采⽤的计量尺度由低级到⾼级、由粗略到精确分为四个层次,即名类尺度、顺序尺度、区间尺度和⽐尺度。
1.定类尺度定类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样⼀种品质标志,按照它可对研究客体进⾏平⾏的分类或分组,使同类同质,异类异质。
例如,按照性别将⼈⼝分为男、⼥两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。
这⾥的“性别”和“经济性质”就是两种名类尺度。
名类尺度是最粗略、计量层次最低的计量尺度,利⽤它只可测度事物之间的类别差,⽽不能了解各类之间的其他差别。
名类尺度计量的结果表现为某种类别,但为了便于统计处理,例如为了计算和识别,也可⽤不同数字或编码表⽰不同类别。
⽐如⽤1表⽰男,0表⽰⼥;⽤1表⽰国有企业,2表⽰集体企业,3表⽰私营企业,等等。
这些数字只是不同类别的代码,决不意味着它区分了⼤⼩,更不能进⾏任何数学运算。
名类尺度能对事物做最基本的测度,是其他计量尺度的基础。
2.定序尺度定序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样⼀种品质标志,利⽤它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。
例如“产品等级”就是⼀种测度产品质量好坏的顺序尺度,它可将产品分为⼀等品、⼆等品、三等品、次品等;“考试成绩”也是⼀种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某⼀事物的态度”作为⼀种顺序尺度,可将⼈们的态度分为⾮常同意、同意、保持中⽴、不同意、⾮常不同意,等等。
第二章统计数据的收集、整理与显示2.1统计数据的收集一、统计数据的来源1、直接来源(原始来源):分为实验和统计调查(直接观察、报告、采访、登记)2、间接来源(二手资料):出版物、网络二、统计调查组织方式1、分类①按调查单位的范围大小分:全面调查和非全面调查②按调查时间是否连续分:经常性调查和一次性调查③按调查组织方式分:统计报表和专门调查。
其中专门调查又分为普查、重点调查、典型调查、抽样调查2、统计报表制度:按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度①优点:能保证统计资料的全面性和连续性;能保证统计资料的统一性和及时性;能满足各级部门对统计资料的需要②缺点:统计报表过多会增加基层负担;有可能由于虚假瞒报而影响统计资料质量3、普查:是指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查(主要用于搜集时点资料)①作用:可以为抽样调查提供抽样框;可以收集统计报表所不能提供的反映重大国情国力的基本统计信息②局限:由于需要大量的人力、物力、财力,不宜经常进行4、重点调查:是指为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式。
(这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况)①作用:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料②局限:只适用于客观存在重点单位的情况5、典型调查:是指在对调查对象有一定了解的基础上,有意识的选择少数典型单位进行调查的一种非全面调查方式。
(指在数量表现上具有普遍意义呵呵代表性的总体单位,可以用来推断总体的数量)①作用:一定条件下能估计总体指标数值;可以用来研究新生事物②缺陷:不能确定推断的把握程度,无法计算和控制推断误差6、抽样调查:是指按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。
第二章统计数据的搜集与整理一、教学目的与要求通过本章的学习,了解统计数据的计量尺度和数据的类型,了解绝对数和相对数的意义及比例和比率的计算方法;了解各种统计调查方式的特点和适用场合;掌握统计调查方案设计的内容,了解数据预处理的意义;掌握统计数据的分组方法,能够对原始数据进行适当的分组并编制频数分布表,绘制频数分布的直方图和茎叶图。
二、教学重点1、统计调查方案设计2、统计数据的分组3、变量数列的编制三、教学难点1、抽样调查、重点调查与典型调查的比较2、调查方案的设计3、次数分布的概念4、变量数列的基本术语及编制四、教学基本内容第一节数据的计量与类型一、数据的计量尺度(一)定类尺度按事物的某种属性对其进行平行的分类或分组。
(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类。
(二)定序尺度又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。
它不仅可以测度类别差,还可以测度次序差。
(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:考试成绩可分为优、良、中、及格、不及格。
(三)定距尺度又称间隔尺度,是对事物类别或次序之间距离的测度。
该尺度通常使用自然或物理单位作为计量尺度。
例:考试成绩80分与90分之间相差10分。
定距数据可以进行加、减运算,不能进行乘、除运算。
其原因为定距尺度中没有绝对零点(定距尺度中的“0”表示水平,不表示没有)。
(四)定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,不存在)。
因此,不仅可以加减运算,还可以乘除运算。
例如,甲工资为600元,乙工资为1200元,则乙的工资为甲的2倍。
二、数据的类型统计数据大体上分为两种类型:定性的数据和定量的数据。
定性数据也称品质数据,它说明的是事物的品质特征,是不能用数值表示的,这类数据由定类尺度和定序尺度计量形成。
定量数据也称数量数据,它说明的是事物的数量特征,是能够用数值表示的,这类数据由定距尺度和定比尺度计量形成。
说明现象某种特征的概念称为变量,变量的具体表现称为变量值。
变量可分为连续型变量和离散型变量。
离散变量只能取有限个数,而且其取值都以整位数断开,如企业个数、职工人数等;连续变量可以取无穷个数值,其取值是连续不断的,不能一一列举,如零件尺寸、年龄、温度等。
三、统计数据的表现形式数量型统计数据通常有两种基本的表现形式,即绝对数与相对数。
(一)总量指标(绝对数)1、概念:反映客观现象总规模、总水平的指标。
2、种类按反映现象总体内容的不同,可分为:总体单位总量:反映总体所有单位总数的指标。
总体标志总量:反映总体中各单位标志值总和的指标。
按指标反映的时间状况不同时期指标:反映现象在一段时期发展变化的总量指标。
时点指标:反映现象在某个时点所达总量的指标。
(二)相对指标1、概念:两个相互联系的指标数值对比的比值(相对水平)2、作用:用一个抽象化了的数值来反映两个有联系的事物之间的数量关系3、种类计划完成程度相对数、结构相对数、比例相对数、比较相对数、强度相对数、动态相对数第二节统计数据的搜集一、统计数据的直接来源直接来源:专门组织的调查、科学试验;(一)统计调查方式1、普查专门组织的一次性的全面调查。
特点:(1)、一次性调查;(2)、全面性调查;(3)、是有关国情、国力的调查。
标准时点:对调查对象登记时所依据的统一时点。
标准时点的作用:(1)、避免调查数据的重复或遗漏,确保数据的准确性。
(2)、反映现象在该时点上的状况。
普查的组织方式(1)、通过专门组织的普查机构进行。
如人口普查(2)、利用企事业单位日常核算资料和报表资料进行。
如物资库存普查、快速普查等2、抽样调查从调查总体中按随机原则抽取部分单位进行调查,并根据其结果推断总体数量特征。
特点:(1)、根据样本资料推断总体数量特征;(2)、按随机原则抽取调查单位;(3)、抽样误差可以计算和控制。
3、重点调查从调查对象中选择一部分重点单位进行调查。
重点单位是指调查的标志值在总体标志总量中占有绝大比重的单位。
特点:(1)、调查目的是了解总体的基本情况;(2)、重点单位的重点位置是客观存在的;(3)、不可推断总体数量特征。
4、典型调查在对调查对象初步分析的基础上,选择几个有代表性的单位进行深入细致的调查。
特点:(1)、是深入细致的调查;(2)、典型单位的选择带有明显的主观因素;(3)、可以据以估算总体数值,但不能计算和控制调查误差。
5、统计报表制度自上而下布置任务,自下而上上报资料的统计制度或调查方法。
(二)数据的搜集方法1、访问调查2、邮寄调查3、电话调查4、座谈会5、个别深度访问(三)调查方案设计1、确定调查目的(Why)2、确定调查对象与调查单位(Who)调查对象:被研究现象的总体(即调查范围)。
调查单位:需要对它的标志进行登记的总体单位填报单位:填写、上报统计资料的单位。
注:调查单位与填报单位有时一致,有时不一致。
3、确定调查项目和调查表(What)调查项目:调查时应进行登记的标志。
调查表:具体可区分为单一表与一览表。
单一表:一个调查单位用一张表;一览表:多个调查单位共一张表。
4、确定调查时间(When)调查时间:资料所属时间(一段时期、某个时点)。
时期现象:资料所反映的起止时间。
时点现象:调查规定的时点。
调查期限:调查工作进行的起止时间。
5、组织实施计划(How)二、统计数据的间接来源第二手数据:主要有公开出版或公开报道的数据。
第三节统计数据的整理统计整理的概念:根据研究的目的和要求,对调查资料进行科学的加工处理,使之条理化、系统化,以反映总体特征的工作过程。
一、数据的预处理(一)数据的审核与筛选准确性审核(包括逻辑检查和计算检查)及时性审核(是否按时交统计数据)完整性审核(调查单位是否全包括?调查项目是否都回答?)(二)数据的排序二、数据分组与频数分布(一)统计分组1、统计分组的概念和作用概念:将总体按照一定的分组标志区分为若干个性质不同的组成部分的一种统计方法。
作用:(1)、划分现象的不同类型;(2)、揭示现象的内部结构;(3)、分析现象之间的依存关系。
2、统计分组的原则和关键原则:保持组内的同质性与组与组之间的差异性关键:选择分组标志和划分各组界限(二)、次数分布的概念及类型1、概念次数:分布在各组的单位数频率:各组次数与总次数的比重次数分布:反映总体单位数在各组间的分布(表、图)。
次数分布作用:显示现象的分布规律和分布特征。
2、类型属性分布数列:按品质标志分组所形成的分布数列。
体现现象质上的差别且较稳定。
变量分布数列:按数量标志分组所形成的分布数列。
体现现象量上的差别且有多种编制方法。
变量数列的构成:(1)变量及变量值;(2)次数或频率。
3、变量数列的编制组限:一组的数量界限。
组限的确定原则:确保组内的同质性,组间的差异性。
组距=本组上限-本组下限组数=全距/组距组中值=(上限十下限)/2开口组首组组中值=上限一邻组组距/2开口组末组组中值=下限+邻组组距/2次数密度=本组次数/本组组距对连续型变量,只可编制组距数列,且相邻的组限必须重叠。
记住:“上组限不在内”对离散型变量,可编制单项数列和组距数列。
编制组距数列时采用不重叠组限依据:遵循不重复、不遗漏的原则。
三、次数分布的图示和类型(一)直方图和折线图(1)直方图横轴:表示变量;纵轴:表示次数。
(2)折线图:将组中值用折线连接而成。
(二)茎叶图茎叶图可用于展示原始数据的分布,同时还保留原始数据在图形里面,相当直观。
从茎叶图中,可直接看出数据是否对称、是否有极端值以及数据的集中趋势和离中趋势。
茎叶图由“茎”和“叶”两部分构成,其图形由数字组成。
绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎。
树茎一经确定,树叶就自然地长在相应的树茎上了。
第三章数据分布特征的描述一、教学目的与要求通过本章的学习,要求学生熟练掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。
二、教学重点1、集中趋势测度的方法及应用场合2、离散程度测度的方法及应用场合3、分布偏态与峰度的测度三、教学难点1、集中趋势测度的方法及应用场合2、离散程度测度的方法及应用场合四、教学基本内容第一节分布集中趋势的测度集中趋势是指一组数据向分布的中心集中的现象。
数据分布集中趋势的测度指标又称平均指标。
一、众数众数是指总体中出现次数最多的标志值。
一般只有在总体单位比较多,且存在明显集中趋势的数列中才存在众数。
众数是根据标志值在数列中所处的位置来计算的,不受极端值影响。
在实际工作中,可以利用众数来表明现象的一般水平。
例如,某农贸市场某种蔬菜的单价有1.00、1.20、1.50、2.00元不等,在了解这种蔬菜的平均价格时,不需登记这种蔬菜所有的成交量和成交额来加以平均计算,只要掌握这种蔬菜成交量最大的价格就可以了。
(一)、由单项数列确定众数在单项数列中,出现次数最多的标志值就是众数。
(二)、由组距数列确定众数下限公式:上限公式:二、中位数把总体各单位标志值按大小顺序排列起来,处于中点位置的标志值就是中位数。
中位数不受极端值影响,当一个总体的大部分总体单位的标志值比较集中时,以中位数为代表值,比算术平均数还能更确切地反映次数分配的集中趋势。
(一)、根据未分组资料确定中位数当总体单位数为奇数时,处于中间位置上的那个标志值就是中位数;如果总体单位数为偶数,中位数则是位于中间位置的两个标志值的算术平均数。
(二)根据分组资料确定中位数1、由单项数列确定中位数。
第—步,根据中位数位置公式确定中位数所在组;第二步:中位数所在组的标志值,就是中位数。
2、由组距数列确定中位数。
第一步:根据中位数位置公式确定中位数所在组;第二步:在假定中位数所在组的次数是均匀分布的前提下,利用比例插值法推算中位数的近似值。
下限公式:上限公式:三、均值(算术平均数)(一)、简单算术平均数(适用于未分组资料):(二)、加权算术平均数(适用于分组资料):次数之所以具有权数的作用,是因为各组的次数不相等。
如果各组次数相同,那它对各组标志值来说,就失去了权衡轻重的作用。
用绝对数权数与用相对数权数计算的结果一致。
(三)、算术平均数的数学性质1、各个变量值与其算术平均数离差之和等于零。
2、各变量值与其算术平均数的离差平方和为最小值。
四、几何平均数几何平均数是N个变量值乘积的N次方根。
(一)、简单几何平均数当各变量值的次数不相同时,采用简单几何平均数。
(二)加权几何平均数当各变量值的次数不相同时,采用加权几何平均数。
用同一资料计算算术平均数、调和平均数和几何平均数的结果是:H≤G≤。
五、集中趋势测定指标的比较(一)、各种数值平均数的比较1、适用场合不同。