当前位置:文档之家› 指标的无量纲化

指标的无量纲化

指标的无量纲化
指标的无量纲化

指标的无量纲化

无量纲化是通过数学变换来消除原始指标量纲影响的方法。无量纲化的方法很多,归结起来有三大类方法,即直线型无量纲化方法、折线型无量纲化方法和曲线型无量纲化方法。本文将采用不安全指数法进行无量纲化,后两种方法不作讨论。生态安全评价是多指标综合评价,指标涉及范围广,如果指标间不可公度,即各个指标间没有统一的度量标准,难以进行比较。为了使表示不同含义的各种指标能够综合起来,表征生态安全,也需将各类指标无量纲化,都化成以百分比为单位的指标值。

本文提出生态安全指标的安全趋向性有正向和逆向之分,安全正向性即上面提到的指标值越大越安全,相反,安全逆向性则为越小越安全,这是土地安全评价指标的两种属性。

假设X i , (i =1,2,...,n)为第i 个指标的实际值,S i , (i =1,2,...,n)为评价指标的标准值,P (X i )为该指标的不安全指数,P ′(X i )为该指标的安全指数,具体确定过程为:

(1)安全正向性指标

如果以“安全”为标准值:

如X i ≧ S i ,则P (X i )=0;

如i i S X <,则i i i S X X P /1)(-=。

如果以“不安全”为标准值:

如i i S X ≤,则()1=i X P ;

如i i S X >,则()i i i X S X P /=。

(2)安全逆向性指标

如果以“安全”为标准值:

如i i S X ≤,则()0=i X P ;

如i i S X >,则i i i X S X P /1)(-=。

如果以“不安全”为标准值:

如i i S X ≥,则 ()1=i X P 。

如i i S X <,则()i i i X S X P /=。

本文进行无量纲化处理,是为了消除不同指标之间由于不同量纲所带来的不可综合性问题,那么对于量化指标体系中,本身指标实际值就是相对数的情况,

本身指标实际值就是没有实际单位的,这种指标也是需要进行无量纲化处理的。因为,两个不同含义的相对数相加,是没有现实意义的。两个指标的变动代表了不同的含义,不存在严格的一致性变化,而且有时两个指标的变化方向也是不同的,即安全指标具有正向和逆向属性。所以,如果把这类指标直接综合起来(相加或者相乘),就破坏了综合指标的同质性原则。基于上述的原因,本文在实证中,对所有指标的实际值统一进行了无量纲化处理。

(3)把不安全指数转换为安全指数:P’(X i)=1一P(X i)

多指标综合评价中指标正向化和无量纲化方法的选择

多指标综合评价中指标正向化和无量纲化方法的选择 叶宗裕 摘要:本文用实例说明了多指标综合评价中,用“倒数逆变换法”进行指标正向化时会完全改变原指标的分布规律,影响综合评价结果的准确性;对三种常用无量纲化方法——极差变换法、标准化法和均值化法的选择使用问题,用实例进行了比较分析。 关键词:综合评价,正向化,无量纲化,标准化法,均值化法 在多指标综合评价中,有些是指标值越大评价越好的指标,称为正向指标(也称效益型指标或望大型指标);有些是指标值越小评价越好的指标,称为逆向指标(也称成本型指标或望小型指标),还有些是指标值越接近某个值越好的指标,称为适度指标。在综合评价时,首先必须将指标同趋势化,一般是将逆向指标和适度指标转化为正向指标,所以也称为指标的正向化。不同评价指标往往具有不同的量纲和量纲单位,直接将它们进行综合是不合适的,也没有实际意义。所以必须将指标值转化为无量纲的相对数。这种去掉指标量纲的过程,称为指标的无量纲化(也称同度量化),它是指标综合的前提。在多指标评价实践中,常将指标无量纲化以后的数值作为指标评价值,此时,无量纲化过程就是指标实际值转化为指标评价值(即效用函数值)的过程,无量纲化方法也就是指如何实现这种转化。从数学角度讲就是要确定指标评价值依赖于指标实际值的一种函数关系式,即效用函数fj。因此,指标的无量纲化是综合评价的一项重要内容,对综合评价结果有重要影响。 指标的正向化和无量纲化都有多种方法,应用时,应根据实际情况选择合适的方法,否则将会使综合评价的准确性受到影响。本章就如何选择正向化和无量纲化方法作些讨论。(一)关于指标正向化方法 对于指标的正向化,在实际应用中许多学者常使用将指标取倒数的方法(苏为华教授称其为“倒数逆变换法”[1]),写成公式为: yij=C/xij (1) 其中C为正常数,通常取C=1。很明显,用(1)式作为指标的正向化公式时,当原指标值xij较大时,其值的变动引起变换后指标值的变动较慢;而当原指标值较小时,其值的变动会引起变换后指标值的较快变动。特别是当原指标值接近0时,变换后指标值的变动会非常快,使得指标评价值的确定,也即指标的无量纲化变得困难。 比如徐国祥等将指标资产负债率、流动比率、速动比率作为适度指标[2],对它们的正向化方法为 (2) 适度值k取各单位该指标值的平均值。这种取倒数的方法使得:一些接近k的指标值之间的差距扩大,而远离k的指标值之间的差距缩小,因而不能真实反映原指标的分布情况。笔者选取2001年全国各地区全部国有及规模以上非国有工业企业主要经济效益指标中的资产负债率为例(为节省篇幅选前10个省市的值),用(2)式进行正向化变换,10个省市的资产负债率及其正向化值见表1。资产负债率的平均值k=58.59。 表1 10省市资产负债率及其正向化值

数据的无量纲化处理及示例

数据的无量纲处理方法及示例 在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得各指标间不具有可比性。在数据分析之前,通常需要先将数据规范化,利用规范化后的数据进行分析。数据规范化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系的作用力同趋化。数据无量纲化主要解决数据的不可比性,在此处主要介绍几种数据的无量纲化的处理方式。 (1)极值化方法 可以选择如下的三种方式: (A )' max min i i i x x x R 即每一个变量除以该变量取值的全距,规范化后的每个变量的取值范围限于[-1,1]。 (B)' min min max min i i i x x x R 即每一个变量与变量最小值之差除以该变量取值的全距,规范化后各变量的取值范围限于[0,1]。 (C) ' max i i x x ,即每一个变量值除以该变量取值的最大值,规范化后使变量的最大取值为1。 采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。由于极值化方法对变量无量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。 (2)规范化方法 利用'i i x x x 来计算,即每一个变量值与其平均值之差除以该变量的规范差,无量 纲化后各变量的平均值为0,规范差为1,从而消除量纲和数量级的影响。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且规范差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异。

数据标准化处理方法

数据标准化处理方法 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA 分别为属性A的最小值和最大值,将A的一个原始值x通过min-max 标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化

这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 三、Decimal scaling小数定标标准化

指标无量纲化

评价指标的无量纲化处理 在多指标综合评价中涉及到两个基本变量:一是各评价指标的实际值,另一个是各指标的评价值。由于各指标所代表的物理涵义不同,因此存在着量纲上的差异。这种异量纲性是影响对事物整体评价的主要因素。指标的无量纲化处理是解决这一问题的主要手段。无量纲化,也称作数据的标准化、规格化,是一种通过数学变换来消除原始变量量纲影响的方法。 (1)直线型无量纲化方法 基本思想是假定实际指标和评价指标之间存在着线性关系,实际指标的变化将引起评价指标一个相应的比例变化。代表方法有:阈值法、标准化法(Z-score 法)、比重法等等。 a. 阈值法 阈值也称临界值,是衡量事物发展变化的一些特殊指标值,比如极大值、极小值、满意值、不允许值等。阈值法是用指标实际值与阈值相比以得到指标评价值的无量纲化方法。常用算法公式有: n i i i i x x y ≤≤=1m a x (2.24) n i i i n i i n i i i x x x x y ≤≤≤≤≤≤-+=111m a x m i n m a x (2.25) n i i n i i i n i i i x x x x y ≤≤≤≤≤≤--=111m i n m a x m a x (2.26) n i i n i i n i i i i x x x x y ≤≤≤≤≤≤--=111m i n m a x m a x (2.27) q k x x x x y n i i n i i n i i i i +--=≤≤≤≤≤≤111m i n m a x m a x (2.28) b 标准化法 统计学原理告诉我们,要对多组不同量纲数据进行比较,可以先将它 们标准化转化成无量纲的标准化数据。而综合评价就是要将多组不同的数 据进行综合,因而可以借助于标准化方法来消除数据量纲的影响。标准化 (Z-score )公式为:

数据的无量纲化处理及示例

数据得无量纲处理方法及示例 在对实际问题建模过程中,特别就是在建立指标评价体系时,常常会面临不同类型得数据处理及融合。而各个指标之间由于计量单位与数量级得不尽相同,从而使得各指标间不具有可比性。在数据分析之前,通常需要先将数据规范化,利用规范化后得数据进行分析.数据规范化处理主要包括同趋化处理与无量纲化处理两个方面.数据得同趋化处理主要解决不同性质得数据问题,对不同性质指标直接累加不能正确反应不同作用力得综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系得作用力同趋化。数据无量纲化主要解决数据得不可比性,在此处主要介绍几种数据得无量纲化得处理方式。 (1)极值化方法 可以选择如下得三种方式: (A) 即每一个变量除以该变量取值得全距,规范化后得每个变量得取值范围限于[-1,1]。 (B) 即每一个变量与变量最小值之差除以该变量取值得全距,规范化后各变量得取值范围限于[0,1]。 (C),即每一个变量值除以该变量取值得最大值,规范化后使变量得最大取值为1。 采用极值化方法对变量数据无量纲化就是通过变量取值得最大值与最小值将原始数据转换为界于某一特定范围得数据,从而消除量纲与数量级得影响。由于极值化方法对变量无量纲化过程中仅仅对该变量得最大值与最小值这两个极端值有关,而与其她取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。 (2)规范化方法 利用来计算,即每一个变量值与其平均值之差除以该变量得规范差,无量纲化后各变量得平均值为0,规范差为1,从而消除量纲与数量级得影响.虽然该方法在无量纲化过程中利用了所有得数据信息,但就是该方法在无量纲化后不仅使得转换后得各变量均值相同,且规范差也相同,即无量纲化得同时还消除了各变量在变异程度上得差异. (3)均值化方法 计算公式为:,该方法在消除量纲与数量级影响得同时,保留了各变量取值差异程度上得信息。 (4)规范差化方法 计算公式为:。该方法就是规范化方法得基础上得一种变形,两者得差别仅在无量纲化后各变量得均值上,规范化方法处理后各变量得均值为0,而规范差化方法处理后各变量均值为原始变量均值与规范差得比值。 综上所述,针对不同类型得数据,可以选择相应得无量纲化方法。如下得示例就就是一个典型得评价体系中无量纲化得范例. 示例:近年来我国淡水湖水质富营养化得污染日益严重,如何对湖泊水质得富营养化进行综合评价与治理就是摆在我们面前得任务,下面两个表格分别为我国5个湖泊得实测数据与湖泊水质评价规范。 表2-2全国五个主要湖泊评价参数得实测数据

指标标准化方法

3.2.2指标数据的标准化方法 (1)正向指标的标准化 正向指标指数值越大表明经济状况越好的指标。设:x ij –第i 个评价地区第j 个指标的隶属度,v ij –第i 个评价地区第j 个指标的值,m –被评价地区的个数。根据正向指标的打分公式[19],则x ij 为 111min()max()min()ij ij i m ij ij ij i m i m v v x v v ≤≤≤≤≤≤?=? (1) (2)负向指标的标准化 负向指标指数值越小表明经济状况越好的指标。设:x ij –第i 个评价地区第j 个指标的隶属度,v ij –第i 个评价地区第j 个指标的值,m –被评价地区的个数。根据负向指标的打分公式[19],则x ij 为 111max()max()min()ij ij i m ij ij ij i m i m v v x v v ≤≤≤≤≤≤?=? (2) (3)适中指标的标准化 适中指标指越接近某一个规定的值越好的指标。设:x ki –第i 个被评价年第k 个指标规范化处理后的值; q –第i 个被评价年第k 个指标理想值;V ki –第i 个被评价年第k 个指标的值。 根据适中指标的打分公式[19],则x ki 为 11111,max(min(),max())1max(min(),max())1,ki ki ki ki i n i n ki ki ki ki ki i n i n ki q V V q q V V q V q ,x V q V V q V q ≤≤≤≤≤≤≤≤????????=??? q (3) (4)最佳区间型指标的标准化 最佳区间型指标指数值在某一个特定区间内都是合理的指标。设:x ij –第i 个评价地区第j 个指标的隶属度;v ij –第i 个评价地区第j 个指标的值;m –被评价地区的个数。 根据最佳区间型指标的打分公式[19],则x ij 为 111211*********,max(min(),max())1max(min(),max())1,ij ij ij ij i m i m ij ij ij ij ij i m i m ij q v v q q v v q v q v q x q v v q q v q ≤≤≤≤≤≤≤≤???=???????,≤≤? (4) 其中,q 1–指标最佳区间左边界;v ij –第i 个评价地区第j 个指标的值;q 2–指标最佳区间右边界。

数据标准化处理

在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 三、Decimal scaling小数定标标准化 这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A

数据标准化的原因和方法

数据标准化的原因和方法 一、为何要将数据标准化? 由于不同变量常常具有不同的单位和不同的变异程度。不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm )相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在 2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。 二、数据标准化的方法: 1、对变量的离差标准化 离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即 x’ =[x ik-Min (x k)]/R k ik 经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。 2,对变量的标准差标准化 标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’ = (x ik- )/s k ik 经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。

量纲分析法原理

量纲和谐原理 我们经常遇到许多物理量,如长度、时间、质量、力、速度、密度及动量等。它们的名称、记号和量纲如表所示。 表1 流体力学中常见物理量的量纲 速度v 表示单位时间内所经历的距离,它的单位是[米/秒]。距离是长度l ,它的量纲是[L ],而时间t 的量纲是[T ],故速度v 的量纲是[1LT -]。 动量是质量m 和速度v 之积。质量的量纲是[M ],故动量的量纲是[1MLT -]。 如果我们选定三个相对对立的,例如长度l 的量纲[L ]、时间t 的量纲[T ]、质量m 的量纲[M ]为基本量纲,那么其他物理量的量纲都可用这三个基本量纲来表示。如表5-1中所示,例如,加速度a 的量纲可表示为[2LT -],力F 的量纲可表示为[2LMT -]。当我们把一些物理量进行组合、分析或作比较时,用量纲表示就比较便利。 如果我们要写出一个流体微团的运动方程 F ma =∑v v 式子左边是作用在微团的各力和,它可以包括:重力W v 、压力P v 、粘滞τv 、力弹性力E v 等;右边是微团的惯性力ma v 。于是得到 +++W P E ma t =v v v v v (5-1) 上式中的每项都是力,所以各项的量纲都是[2 LMT -]。又如,关于理想流体的伯努利方程

2 ++=2v p z H g g r 表示流管中三项能头之和保持常数,即等于总能头H 。每项的单位都是米,故它们的量纲都是[L]。不仅如此,在力学上任何有物理意义的方程或关系式,每一项的量纲必定相同。这称为力学方程的量纲和谐性原理,又称为“量纲齐次性规律”。量纲和谐原理是由傅里叶1822年提出来的,它是量纲分析法中具有基本重要性的一个概念,也是量纲分析法的理论基础,并可具体表达成:只有相同类型的物理量才能相加减,也就是相同量纲的物理量才可以相加减或比较大小;不同类型的物理量相加减没有任何意义。例如,速度可以和速度相加减,但绝不可以加上粘性系数或压力。当然,相同量纲和不同单位的物理量之间是可以相互加减和比较大小的,因为只要将其单位稍加换算即可完成。 一个量纲齐次性的方程,可以化为无量纲方程,只要用方程中的任意一项除其他各项。例如,在式(5-1)中,用惯性力项遍除其他各项,于是各项都变成无量纲量,而各无量纲量之和等于1,即 +++1W P E ma ma ma ma τ=v v v v v v v v 由以上讨论可见,运用量纲可以更明显地指出物理量的性质。 不同量纲的物理量不能相加减,但它们可以根据某种需要进行乘除,从而导出另一量纲的物理量。 量纲和谐原理可以用来检验新建方程或经验公式的正确性和完整性,也可以用来确定公式中物理量的未知指数,还可以用来建立有关方程式。对于量纲齐次的方程,只要用方程的任一项量纲去除其余各项,就可以使方程的每一项都变成无量纲量,方程变为无量纲方程。量纲分析就是基于物理方程具有和谐原理,通过量纲分析和计算,将原来含有较多物理量的方程转化为含有比原物理量少的无量纲方程,使得为研究这些变量关系而进行的实验大大简化。 量纲分析法原理 在量纲和谐原理基础上发展起来的量纲分析法分为瑞利法和p 定理白金汉定理法。 为了简单地说明量纲分析法,我们先来讨论理论力学中熟悉的单摆周期,其关系式为 =2t π (5-2) 假设,我们先前只见过单摆的物理现象,而还不知这个表明单摆周期的关系式时,可以

数据的标准化

数据的标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。log函数转换通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。atan 函数转换用反正切函数也可以实现数据的归一化:使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:z-score 标准化(zero-mean normalization)也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。 z-score 标准化 用zscore,标准化的目的是:使得平均值为0,标准差为1,这样可以使不同量纲的数据放在一个矩阵. >> A=magic(4) A = 16 2 3 13 5 11 10 8 9 7 6 12 4 14 1 5 1 >> [Z,MU,SIGMA] = zscore(A) Z = 1.3770 -1.2509 -1.0585 0.8262 -0.6426 0.4811 0.2887 -0.0918

多指标综合评价中指标正向化和无量纲化方法的选择

多指标综合评价中 指标正向化和无量纲化方法的选择 叶宗裕 摘要:本文用实例说明了多指标综合评价中,用“倒数逆变换法”进行指标正向化时会完全改变原指标的分布规律,影响综合评价结果的准确性;对三种常用无量纲化方法——极差变换法、标准化法和均值化法的选择使用问题,用实例进行了比较分析。 关键词:综合评价,正向化,无量纲化,标准化法,均值化法 在多指标综合评价中,有些是指标值越大评价越好的指标,称为正向指标(也称效益型指标或望大型指标);有些是指标值越小评价越好的指标,称为逆向指标(也称成本型指标或望小型指标),还有些是指标值越接近某个值越好的指标,称为适度指标。在综合评价时,首先必须将指标同趋势化,一般是将逆向指标和适度指标转化为正向指标,所以也称为指标的正向化。不同评价指标往往具有不同的量纲和量纲单位,直接将它们进行综合是不合适的,也没有实际意义。所以必须将指标值转化为无量纲的相对数。这种去掉指标量纲的过程,称为指标的无量纲化(也称同度量化),它是指标综合的前提。在多指标评价实践中,常将指标无量纲化以后的数值作为指标评价值,此时,无量纲化过程就是指标实际值转化为指标评价值(即效用函数值)的过程,无量纲化方法也就是指如何实现这种转化。从数学角度讲就是要确定指标评价值依赖于指标实际值的一种函数关系式,即效用函数f j。因此,指标的无量纲化是综合评价的一项重要内容,对综合评价结果有重要影响。 指标的正向化和无量纲化都有多种方法,应用时,应根据实际情况选择合适的方法,否则将会使综合评价的准确性受到影响。本章就如何选择正向化和无量纲化方法作些讨论。 (一)关于指标正向化方法 对于指标的正向化,在实际应用中许多学者常使用将指标取倒数的方法(苏为华教授称其为“倒数逆变换法”[1]),写成公式为: y ij=C/x ij(1)其中C为正常数,通常取C=1。很明显,用(1)式作为指标的正向化公式时,当原指标值x ij较大时,其值的变动引起变换后指标值的变动较慢;而当原指标

数据标准化的原因及方法

数据标准化的原因及方法 (2011-01-21 20:43:34) 转载▼ 标签: 杂谈 一、为何要将数据标准化? 由于不同变量常常具有不同的单位和不同的变异程度。不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm )相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。 二、数据标准化的方法: 1、对变量的离差标准化 离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即x’ik=[x ik-Min (x k)]/R k 经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。 2,对变量的标准差标准化 标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’ik=(x ik-)/s k 经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。 3,先对事例进行标准差标准化,再对变量进行标准差标准化 第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即 x’ik=(x ik-)/s i 第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

(完整版)第一节量纲分析方法

第一节量纲分析方法 量纲分析是物理学中常用的一种定性分析方法,也是在物理领域中建立数学模型的一个有力工具。利用这种方法可以从某些条件出发,对某一物理现象进行推断,可将这个物理现象表示为某些具有量纲的变量的方程,从而可以用此来分析个物理量之间的关系。 1.1量纲 当对一个物理概念进行定量描述时,总离不开它的一些特性,比如,时间、质量、密度、速度、力等等,这种表示不同物理特性的量,称之为具有不同的“量纲”。概括来说,将一个物理导出量用若干个基本量的乘方之积表示出来的表达式,称为该物理量的量纲式,简称量纲(dimension)(量纲又称为因次)。它是在选定了单位制之后,由基本物理量单位表达的式子。在国际单位制(I)中,七个基本物理量长度、质量、时间、电流、热力学温度、物质的量、发光强度的量纲符号分别是L、M、T、I、Q、N和J。按照国家标准(GB3101—93),物理量?的量纲记为dim?,国际物理学界沿用的习惯记为[?]。

实际中,有些物理量的量纲是基本的,成为基本量纲。系统因选定的基本单位不同,而分成绝对系统与工程系统两大类。工程系统的基本单位:质量、长度、时间、力。绝对系统的基本单位:质量、长度、时间。绝对系统以长度(length)、质量(mass)、时间(time)及温度(temperature)为基本量纲,各以符号L 、M 、T 、θ表示其量纲。其他可由基本量纲推导出的量纲称为导出量纲。但在工程系统中,除了长度L 、质量M 、时间T 及温度θ等基本量纲外,也将力定义为基本量纲,而以符号F 表示其量纲。此外在探讨热量 (heat)时,热量亦被定义为基本量纲,而以H 表示。而其他的物理量的量纲可以由这些基本量纲来表示,比如: 速度v = ds/dt 量纲:[]V =1 LT - 加速度a = dv/dt 量纲:2 []a LT -= 力F = ma 量纲:22[][][]F M LT MLT --== 压强P = F/S 量纲: 22[]P MLT L --= 21MT L --= 实际中,也有些量是无量纲的,比如,e π等,此 时记为[][]1e π==。 有量纲的物理量都可以进行无量纲化处理量纲有赖于基本量的选择,是外加的有关量的度量手段。模型所描述的规律应该独立于量纲的影响。机理模型的

数据的标准化处理及实际应用

数据的标准化处理及实际应用 数据标准化处理是数据挖掘一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标即处于同一数量级,适合进行综合对比评价。 极差法 极差法是对原始数据的线性变换,首先计算指标值得最小值、 最大值,计算 极差,通过极差法将指标值映射到[0-1]之间。公式为: 新数据=(原数据-极小值)/ (极大值-极小值) t ;r ? min 需= ~ max — frun Z-score 标准化法 SPSS默认的数据标准化方法即是Z得分法,这种方法基于原始数据的均值 (mean和标准差(standard deviation )进行数据的标准化。经过处理的数 据符合标准正态分布,即均值为0,标准差为1。公式为: 其中卩为所有样本数据的均值,c为所有样本数据的标准差。 数据标准化的另外一个实用之处 在实际应用中,数据标准化不只是用于指标的可比性处理,还有一些非常实用的用处,利用标准化方法将指标归到最适于我们观测的范围,更加直观。且看案例:有一组数据,是学生参加某次社会公益活动的数据,其中有一指标为:在校综合评价指数,反映学生在校综合表现水平。

可以看出这个指标的范围为[0-140],但这个范围不太符合我们在学校里的习惯,在学校里经常用[0-100]的百分制,60分以上基本认可为及格,现在这个范围不能直观的反映学生在校表现水平。此时,极差法是一个非常好的选择,我 们可以将[0-140]数值,映射到[0-100],便于直观对比学生的表现。 公式为:(原数据-极小值)/ (极大值-极小值)*100 我们再来看看结果:

关于多指标综合评价中指标正向化和无量纲化方法的选择

关于多指标综合评价中指标正向 化和无量纲化方法的选择 叶宗裕 在多指标综合评价中,有些是指标值越大评价越好的指标,称为向指标。也称效益型指标或望大型指标。有些是指标值越小评价越好的指标,称为逆向指标,也称为成本型指标或望小型指标。还有些是指标值越接近某个值越好的指标,称为适度指标。在综合评价时,首先必须将指标同趋势化,一般是将逆向指标和适度指标转化为正向指标,所以也称为指标的正向化。不同评价指标往往具有不同的量纲和量纲单位。为了消除由些带来的不可公度性,还应将各评价指标作无量纲化处理。指标的同趋势化和无量纲化都有多种方法,应用时应根据实际情况选择合适的方法,否则,将会使综合评价的准确性受到影响。本文就如何选择同趋势化和无量纲化方法作些讨论。 一、关于指标的正向化方向 对于指标的正向化,在实际应用中许多学者常使用将指标取倒数的方法。比如徐国祥等在《上市公司经营业绩综合评价及其实研究》载统计研究2000年第9期一文中将指标资产负债率、流动比率、速动比率作为适度指标,对它们的正向化方法为: x ij =k x ij -1 (1) 适度值k 取各单位该指标值的平均值。这种取倒数的方法使得一些接近k 的指标值之间的差距扩大,而远离k 的指标值之间的差距缩小,因而不有真实反映原指标的分布情况。笔者选取各地区全部国有及规模以上非国有工业企业主要经济效益指标2001年中的资产负债为例,用1式进行正向化变换,可得变换后的值见表1。 由表1易见,天津与内蒙古的资产负债率原值为58.28和58.44,相差极小,而变换后的值分别为3.25和6.76,相差很大;北京和上海的原值分别为55.29和46.46,相差很大,而变换后的值为0.30和0.08,相差很小。可见用这种取倒数的变换方法完全改变了原指标的分布规律,所得综合评价结果肯定是不准确的,因而是不可取的。 笔者认为,对逆向指标正各化方法应为: x ij =max {}ij x -x ij 或x ij =-x ij ≤1i ≤n 对适度指标正向化方法应为: x ij =max k x ij --k x ij - 或x ij =-k x ij - ≤1i ≤n 这种线性变换不会改变指标值的分布规律,是比较好的变换方法。

数据标准化的几种方法

数据标准化的几种方法 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化

这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。在SPSS中依次点击Analyze Descriptive Descriptive 点击Save standardized values as varianles即可。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 三、Decimal scaling小数定标标准化

数据的无量纲化处理

常用的数据无量纲化处理方法,主要包括如下几种: (1)总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 ),,2,1;,,2,1(1n j m i x x x m i ij ij ij ==='∑= (2.4.1) 经过总和标准化处理后所得到的新数据ij x ',满足 ∑==='m i ij n j x 1),,2,1(1 (2)标准差标准化,即 ),,2,1;,,2,1(n j m i s x x x j j ij ij ==-=' (2.4.2) 式中: ∑==m i ij j x m x 1 1 ∑=-=m i j ij j x x m s 1 2)(1 经过标准差标准化处理后所得到的新数据ij x ',各要素(指标)的平均值为0, 标准差为1,即有: 011 ='=∑=m i ij j x m x ∑=='-'=m i j ij j x x m s 1 21)(1 (3)极大值标准化,即 ),,2,1;,,2,1(}{m a x n j m i x x x ij i ij ij ===' (2.4.3) 经过极大值标准化处理后所得的新数据ij x ',各要素(指标)的极大值为1,其余各数值小于1。 (4)极差的标准化,即

{} {}{}),,2,1;,,2,1(m i n m a x m i n n j m i x x x x x ij i ij i ij i ij ij ==--= (2.4.4) 经过极差标准化处理后所得的新数据ij x ',各要素(指标)的极大值为1,极小值为0,其余的数值均在0与1之间。

数据标准化的几种方法

数据标准化的几种方法 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有: min-max标准化(Min-max normalization) 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下: 其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。 log函数转换 通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下: 看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。 atan函数转换 用反正切函数也可以实现数据的归一化: 使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。

而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z 标准化,也是SPSS中最为常用的标准化方法: z-score 标准化(zero-mean normalization) 也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为: 其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

(完整版)2.3数据的无量纲化处理及示例(可编辑修改word版)

i i i i i i 数据的无量纲处理方法及示例 在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得各指标间不具有可比性。在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行分析。数据标准化处理主要包括同趋化处理和无量纲化处理两个方面。数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评价体系的作用力同趋化。数据无量纲化主要解决数据的不可比性,在此处主要介绍几种数据的无量纲化的处理方式。 (1) 极值化方法 可以选择如下的三种方式: (A ) x ' = x i max - = x i min R 即每一个变量除以该变量取值的全距,标准化后的每个变量的取值范围限于[-1,1]。 (B) x ' = xi - max - min = min x i - min R 即每一个变量与变量最小值之差除以该变量取值的全距,标准化后各变量的取值范围限于[0,1]。 (C) 值为 1。 x ' = x i max ,即每一个变量值除以该变量取值的最大值,标准化后使变量的最大取 采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。由于极值化方法对变量无量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。 (2) 标准化方法 利用 x ' = x i - s x 来计算,即每一个变量值与其平均值之差除以该变量的标准差,无量 纲化后各变量的平均值为 0,标准差为 1,从而消除量纲和数量级的影响。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异。 (3) 均值化方法 计算公式为: x ' = 异程度上的信息。 x i ,该方法在消除量纲和数量级影响的同时,保留了各变量取值差 x i (4) 标准差化方法 计算公式为: x ' = x i 。该方法是标准化方法的基础上的一种变形,两者的差别仅在无 s 量纲化后各变量的均值上,标准化方法处理后各变量的均值为 0,而标准差化方法处理后各

相关主题
文本预览
相关文档 最新文档