教你区分定类定序定距定比变量
- 格式:docx
- 大小:584.27 KB
- 文档页数:3
测量:定类、定序、定距、定比研究方法02测量(measurement)是指根据一定的法则,将某种物体或现象所具有的属性或特征用数字或符号表示出来的过程,主要作用是确定一个特定分析单位的特定属性的类别或水平。
在社会研究中,变量按照取值的性质可以分为定类变量、定序变量、定距变量、定比变量。
定类变量称为定性变量,后三个变量称为定量变量。
变量的解释和运用离不开测量,不同的变量需要相应的测量尺度。
史蒂文斯于1951年创立了测量尺度分类法,将测量尺度分为定类尺度、定序尺度、定距尺度、定比尺度。
定类尺度定类尺度(nominal scale),也称为类别尺度、定名尺度,是用于测量定类变量的尺度,是测量尺度中最低的一种。
定类尺度在本质上是一种分类体系,即把研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其类别。
定类尺度所分的类别必须兼具穷尽性和互斥性,即既要相互排斥,互不交叉重叠,又包罗各种可能的情况。
所测量的每一个对象,都会在分类体系中占据一个类别,并且只占据一个类别。
性别、种族、职业、宗教、籍贯、婚姻状况等是典型的定类尺度。
定类尺度的数学特征是“等于”或“不等于”。
测量给出的数字仅仅是识别调查对象或对调查对象进行分类的标签或编码,不具备任何数学特性,也不能说明其本质特征。
定类尺度具有对称性和传递性。
对称性,即如果甲与乙同类,则乙也一定与甲同类;如果甲与乙不同类,则乙也一定不会与甲同类。
传递性,如果甲与乙同类,乙与丙同类,则甲与丙一定也同类。
对于任何一门学科来说,分类都是基础。
其他几种层次的测量,也都把分类作为其最低限度的操作,都包含着定类尺度的分类功能。
在社会现象的测量中,大量的变量都是定类变量,分类是最基本的目标和最经常的操作。
定类尺度可分为标记和类别两种①标记标记可作为一个识别的记号。
数字当用作标记时,不表示数量的多少,也不能做加减乘除运算。
例如,体育运动中用号码区分运动员:3号球员、6号球员、9号球员……但不能说9号球员>6号球员、3号球员+6号球员=9号球员或者9号球员x3号球员=18号球员。
数据的测量层次1951年史蒂⽂斯创⽴了被⼴泛采⽤的测量层次分类法,即定类、定序、定距和定⽐测量。
1.定类测量(nominal measurement)也称为类别测量或定名测量,它是测量层次中最低的⼀种。
定类测量在本质上是⼀种分类体系,即将研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其类别。
其测量的数学特征主要是等于与不等于(属于与不属于)。
在社会研究中,对诸如⼈们的性别(男、⼥)、职业(⼯⼈、教师、农民等)、婚姻状况(已婚、未婚、离异)、宗教信仰等特征的测量。
由于定类测量实质上是⼀种分类体系,因⽽必须注意所分的类别既要具有穷尽性,⼜要具有互斥性。
即所分的类别既要相互排斥,互不交叉重叠,⼜对各种可能的情况包罗⽆遗。
定类测量具有对称性和传递性。
2.定序测量(ordinal measurement)也称为等级测量或顺序测量。
定序测量的取值可以按照某种逻辑顺序将研究对象排列出⾼低和⼤⼩,确定其等级及次序。
或者说定序测量可以按照某种特征或标准将对象区分为强度、程度或等级不同的序列。
例如,测量⽂化程度(⽂盲、半⽂盲、⼩学、初中……)在社会学研究中,可以⽤定序测量对⼈们的社会地位、⽣活⽔平、住房条件、⼯作能⼒等特征进⾏类似的等级排列。
定序测量不仅像定类测量⼀样,将不同的事物区分为不同的类别,⽽且还能反映事物或现象在⾼低、⼤⼩、先后、强弱等序列上的差异。
它的数字特征是⼤于或⼩于。
在实践中,为了统计的需要常将不同的等级转化为数字“1、2、3……”,这些数字并⾮真正意义上的数字,只是表⽰⼤⼩的符号。
3.定距测量(interval measurement)也称为等距测量或区间测量,它不仅能够将社会现象或事物区分为不同的类别、等级,⽽且可以确定它们相互之间不同等级的间隔距离和数量差别。
例如,测量温度、智商就是这样的例⼦。
在定距测量中,我们不仅可以说明哪⼀类别的等级较⾼,⽽且还能说明⾼出多少单位,也就是定距测量的结果之间可以进⾏加减运算。
测量类型一直是一大难点,主要难点在对各种测量难以清晰准确的区分,那么依据考情我将为大家呈现以下几种测量。
根据数量化程度由低到高的顺序,可将测量分为定类测量、定序测量、定距测量和定比测量 4个层次。
一、定名测量:定类测量也称为类别测量或定名测量,定类测量是测量层次中最低的一种。
其在本质上是一种分类体系,即将研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其分类。
二、定序测量:对研究对象的特征或属性作次序的鉴别。
如文化程度用大学、中学和小学来区分时就构成定序测量。
定序测量只能区分次序而不能确定距离。
如文化程度在定序层次只有高低之分,不能判定各文化程度之间的间隔大小。
三、定距测量:定距测量,也称区间测量,它是对测量对象之间的数量差别或间隔距离的测量。
例如,对人的智商、初婚年龄、人均生活费用、家庭人数等可用某种基本单位表示数量差别或间隔距离的社会现象的测量,就属于定距测量,其测量结果可用具体数字来反映。
如平均初婚年龄,城市为26岁,农村为22岁,城市比农村大4岁;月人均生活费用,1980年为60元,1990年为100元,1990年比1980年增加40元等等。
定距测量不仅能反映社会现象的分类和顺序,而且能反映社会现象的数量状况,计算出它们之间的距离,因而其数量化程度比定序测量更高一个层次。
定距测量的结果一般用具体数字表示,并可进行加法或减法等数学运算。
四、定比测量:定比测量,也称比例测量,它是对测量对象之间的比例或比率关系的测量。
例如,对出生率、死亡率、性比例、劳动力负担系数、工资增长速度等反映两个数值之间比例或比率关系的社会现象的测量,就属于定比测量,其测量结果一般用百分比来表示,有时也可用绝对数来反映。
如,甲地出生率为20,乙地出生率为15,甲地出生率比乙地出生率高25%;农村性比例为118,城市性比例为102,前者比后者高16等等。
定比测量的数量化程度比定距测量更高一个层次,其测量结果不仅能进行加减运算,而且能进行乘除运算,并可作各种统计分析。
测量层次是指对某一概念或变量进行测量时,所采用的不同抽象程度或精细程度的级别。
测量层次从低到高依次为定类、定序、定距和定比。
- 定类:将研究对象分为不同的类别,但不关心各类别之间的大小关系。
例如,性别可以分为男性和女性两类。
- 定序:将研究对象按照某种特征的大小顺序排列,但不关心具体数值。
例如,将学生的成绩分为优秀、良好、中等和较差四类。
- 定距:将研究对象按照某种特征的具体数值进行测量,但不关心绝对数值。
例如,将学生的身高用厘米为单位进行测量。
- 定比:将研究对象按照某种特征的具体数值进行测量,并关心绝对数值。
例如,将学生的体重用千克为单位进行测量。
定类变量定序变量定距变量定比变量定类变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
机器学习中数据一般分为四种,分别为标称型数据(Nominal),排序型数据(Ordinal),间隔型数据(Interval)和比率型数据(Ratio),分别对应定类,定序,定距和定比。
一、标称型数据(Nominal)
互斥,无序但是有类别。
变量的不同取值仅仅代表不同类的事物,这样的变量称为定类变量。
比如:性别,肤色就是定类变量,对于这种变量来说,加减乘除的运算时没有意义的。
二、排序型数据(Ordinal)
有顺序,有类别,但是无运算意义。
变量的值不仅可以代表事物的类别,还可以表示事物的某种特性的顺序或大小,这样的变量叫做定序变量。
比如文化程度:小学,中学,高中,大学等,这些数据可以排序,也有一定的实际意义,但是运算没有意义。
三、间隔型数据(Interval)
本质是数据之间的间隔,变量之间的值可以比较大小,差值有实际意义,此类变量可以成为定距变量。
比如年龄,月平均收入等,都是定距变量。
四、比率型数据(Ratio)
0点有明确的定义,比如质量,高度。
定比变量和定距变量在市场调查中一般不加以区分,二者区别在于,定距变量为0时不表示没有,只是值为0,定比变量为0时表示没有。
社会统计学知识1.定类变量:当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其他特征时,这种变量称为定类变量。
P72.定序变量:当变量值的含义不仅表示个体的不同类别,还可以区分个体之间的大小、程度等序次差异时,这种变量称为定序变量。
P83.定距变量:当变量值不仅可以将个体区分为不同类别并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这种变量称为定距变量。
P84.定比变量:当变量除了具有定类、定序、定距这三种变量的全部特征外,还可以计算两个变量之间的比值时,这样的变量称为定比变量。
P95.离散变量:如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。
6.连续变量:如果一个变量的变量值是连续不断的,即可以取无限多个数值,这种变量称为连续变量。
P107.自变量:把能引起其他变量变化的变量,称为自变量。
P108.因变量:把由其他变量的变化而导致自身发生变化的变量称为因变量。
P109.总体:是指构成它的所有个体的集合,P1110.个体:是指构成总体的最基本单位。
P1111.样本:是指从总体中按照一定方法抽取的一部分个体的集合。
P1112.抽样单位:是指一次直接的抽样所使用的基本单位。
P1113.抽样框:是指一次直接抽样时样本中所有抽样单位的名单。
P1114.普查:是指对总体中所有的个体进行的一次全面调查。
P1215.抽样调查:是指从总体中按照一定方法抽取的一部分个体组成一个样本进行调查的方式,再根据调查结果推断总体特征。
16.归纳法:是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;17.演绎法:是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。
18.组距:各组上限值与下限值的差。
P4519.频数:就是某个类别或某个小组中的数据个数,也叫次数。
P4920.频率:就是一个样本中某一类别或某一小组中数据个数占总数据个数的比重。
教你区分定类定序定距定
比变量
It was last revised on January 2, 2021
定类变量定序变量定距变量定比变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、3 5%、20%、10%。
甲区与丙区相差33%,丙区与丁区相差15%。
这也是一个定距变量。
定距变量各类别之间的距离,只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。
定比变量也是区别同一类别个案中等级次序及其距离的变量。
定比变量除了具有定距变量的特性外,还具有一个真正的零点,因而它具有乘与除(×、÷)的数学特质。
例如年龄和收入这两个变量,固然是定距变量,同时又是定比变量,因为其零点是绝对的,可以作乘除的运算。
如A月收入是60元,而B是30元,我们可以算出前者是后者的两倍。
智力商数这个变量是定距变量,但不是定比变量,因为其0分只具有相对的意义,不是绝对的或固定的,不能说某人的智商是0分就是没有智力;同时,由于其零点是不固定的,即使A是140分而B是70分,我们也不能说前者的智力是后者的两倍,只能说两者相差70分。
因为0值是不固定的,如果将其向上移高20分,则A的智商变为120分而B变成50分,两者的相差仍是70分,但A却是B的倍,而不是原先的两倍了。
摄氏温度这一变量也如此。
定比变量是最高测量层次的变量。