定类、定序、定距、定比数据的区分
- 格式:doc
- 大小:34.50 KB
- 文档页数:1
统计尺度定类尺度定比尺度
统计尺度是指用于描述和度量数据的标准化方法。
根据测量属性的性质,统计尺度可以分为四种类型:定量尺度、定序尺度、定距尺度和定比尺度。
定量尺度指的是可测量、可数的属性,其数值代表了属性的数量或程度。
常见的定量尺度包括身高、体重、年龄等。
定序尺度指的是可排序的属性,但不能准确衡量程度或数量。
例如,星级评分、教育程度等。
定距尺度指的是可以衡量属性之间的差异和相似程度,其中零点是确定的但不代表缺乏该属性。
例如,温度尺度、时间等。
定比尺度是最完整和精确的尺度,其数值代表了属性的数量和比例。
例如,体积、长度、质量等。
在统计分析中,选择合适的尺度是非常重要的。
不同的尺度类型有不同的分析方法和解释。
因此,在数据收集和分析过程中,应根据研究目的和数据属性选择合适的统计尺度。
- 1 -。
统计数据类型统计数据类型2010-09-14 08:51统计数据(Statistical Data)什么是统计数据统计数据是活动过程中所取得的反映国民经济和社会现象的数字资料以及与之相联系的其他资料的总称。
统计研究客观事物的数量方面,离不开统计数据,统计数据是对客观现象进行计量的结果。
统计数据的类型统计数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。
从上述四种计量尺度计量的结果来看,可以将统计数据分为以下四种类型:定类数据--表现为类别,但不区分顺序,是由定类尺度计量形成的。
定序数据--表现为类别,但有顺序,是由定序尺度计量形成的。
定距数据--表现为数值,可进行加、减运算,是由定距尺度计量形成的。
定比数据--表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。
前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据(Oualitative data);后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitative data)。
由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。
区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的方法来处理和分析。
比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种、进行参数估计和检验等。
我们所处理的大多为数量数据。
这里需要特别指出的是,适用于低层次测量数据的,也适用于较高层次的测量数据,因为后者具有前者的数学特性。
比如:在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽与互斥的要求;数据表现为“类别”;具有=或≠的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但就是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ⨯ 或 ÷ 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系)&以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图就是用条形的长度表示各类别频数的多少,其宽度就是固定的;直方图就是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常就是连续排列,条形图则就是分开排列3、均值、中位数与众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系就是:众数与算术平均数的距离就是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:()X M M X X M e e 2330-=--=320X M M e += 230M M X e -=4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,就是对数据相对离散程度的测度,消除了数据水平高低与计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
一、名词解释1、定性数据是指只能用文字或数字代码来表现事物的品质特征或属性特征的数据,具体又分为定类数据与定序数据。
(定类数据是对事物进行分类的结果,表现为类别,由定类尺度计量而成。
定序数据是对事物按照一定的排序进行分类的结果,表现为有顺序的类别,由定序尺度计量而成。
)2、定量数据是指用数值来表现事物数量特征的数据,具体又分为定距数据与定比数据两种。
(定距数据是一种不仅能反映事物所属的类别和顺序,还能反映事物类别或顺序之间数量差距的数据,由定距尺度计量而成。
定比数据是一种不仅能体现事物之间数量差距,还能通过对比运算,即计算两个测度值之间的比值来体现相对程度的数据,由定比尺度计量而成。
)3、长期趋势是指时间数列中指标值在较长一段时间内,由于受普遍的、持续的、决定性的基本因素的作用,使发展水平沿着一个方向持续向上或向下发展或持续不变的基本态势。
4、季节变动是指数列中各期指标值随着季节交替而出现周期性的、有规则的重复变动,这里的时间通常指一年。
5、循环变动是指时间数列中各项指标值随着时间变动发生周期性的重复变化,但循环变动所需的时间更长,重复变动的规律性、变动周期和时间也不像季节变动来得稳定、可以预测。
6、不规则变动是由未能得到解释的一些短期波动所组成的,常指时间数列由于受偶然因素或意外条件影响,在一段时间内(通常指短期内)呈现不规则的或自然不可预测的变动。
7、相关关系,也称统计相关,是指现象之间存在的非确定性的数量依存关系。
8、点估计也称定值估计,就是以样本观测数据为依据,对总体参数做出确定值的估计,也就是用一个样本的具体统计值去估计总体的未知参数。
9、区间估计,就是指用一个具有一定可靠程度的区间范围来估计总体参数,即对于未知的总体参数θ,想办法找出两个数值θ1和θ2(θ1<θ2),使θ处于区间(θ1,θ2)内的概率为1-α,即π(θ1<θ<θ2)=1-α。
区间(θ1,θ2)为总体参数的估计区间或置信区间,θ1为估计下限或置信下限,θ2为估计上限或置信上限。
(一)定类尺度*~4Dc SY又称类别尺度,按事物的某种属性对其进行平行的分类或分组。
(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
(二)定序尺度又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。
它不仅可以测度类别差,还可以测度次序差。
(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。
满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。
IYD 7MD KDy(j(三)定距尺度#j h~7y/y;A又称间隔尺度,是对事物类别或次序之间距离的测度。
该尺度通常使用自然或物理单位作为计量尺度。
例:30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。
再比如,1等星比2等星亮10倍,0等星比1等星亮10倍,-1等星又比0等星亮10倍。
定距数据可以进行加、减运算,不能进行乘、除运算。
其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。
(四)定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。
因此,不仅可以进行加减运算,还可以进行乘除运算。
例如,绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。
一般来说,定比尺度的数据不可能取负值。
一般也不会取零值,因为要么就是不存在了,要么就是极限情况。
如,绝对零度只能无限接近,不可能完全达到。
如果一个物体的体积为零,那么它要么不存在,要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。
而一个人的年龄为0时呢?作为社会学意义上的人,可以认为它是极限(开始);作为生物学上的人,则是定距尺度的。
定类变量定序变量定距变量定比变量定类变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
第二章统计数据的采集学习目标知识目标:了解统计数据的类型;掌握统计数据的搜集组织形式和方法,以及统计数据搜集方案、调查问卷的设计方法。
能力目标:能够设计统计数据搜集方案和调查问卷,并能组织实施统计调查。
第一节统计数据的类型关键词:统计数据;定类数据;定序数据;定距数据;定比数据一、统计数据的计量尺度统计数据是采用某种计量尺度对客观现象进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。
因而人们在搜集统计数据之前要先对客观现象进行计量或测量。
按照计量学的一般分类方法以及对事物计量的精确程度,可将计量尺度由低级到高级、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。
对客观现象进行计量或测量时,采用不同的计量尺度可以得到不同类型的统计数据,而不同类型的统计数据需要用不同的统计分析方法来进行分析。
(一)定类尺度定类尺度也称类别尺度或列名尺度,是最粗略、最低层次的计量尺度。
这种计量尺度只能按照事物的某种属性对其进行平行的分类或分组。
例如,企业按组织形式分为独资企业、合伙企业和公司等。
这种计量尺度只能反映事物之间的类别差,对事物之间的其他差别不能反映。
因而,使用这种尺度对客观现象所作的分类,各类别之间只是并列关系,不能区分彼此的优劣或大小,各类别之间的顺序可以改变。
运用定类尺度计量出的统计数据,通常是通过计算出每一类别中各元素或个体出现的频数或频率来进行分析。
(二)定序尺度定序尺度又称顺序尺度,是对客观现象之间等级差别或顺序差别的一种测度。
这种计量尺度不仅可以将客观现象分成不同的类别,而且还可以确定这些类别的优劣或顺序。
定序尺度的计量结果也表现为类别,但与定类尺度测度的类别不一样,这些类别之间可以比较顺序。
例如,合格产品可以分为优等品、一等品、二等品、三等品等等。
定序尺度对事物的计量要比定类尺度精确一些,但它也只是测度了事物类别之间的顺序,并未测量出类别之间的准确差值。
定序尺度可用于分类,也可以用于统计分析中确定中位数、四分位数、众数等指标的位置。
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或≠的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ⨯ 或 ÷ 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:()X M M X X M e e 2330-=--=320X M M e += 230M M X e -=4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。