当前位置:文档之家› 基于条件信息熵的决策表约简

基于条件信息熵的决策表约简

基于条件信息熵的决策表约简
基于条件信息熵的决策表约简

偏于客观的确定权重的方法-信息熵法

确定权重的信息熵法 相对于层次分析法,专家打分等偏于主观的确定权重的方法,信息熵法是偏于客观的确定权重的方法,它借用信息论中熵的概念。所谓“熵”,是信息论中衡量不确定性的指标,信息量的(概率)分布越趋于一致,不确定性越大。 假定有n 个属性12,,...,n X X X ,以及它们的属性值构成的决策矩阵 111212122212n n m m mn d d d d d d D d d d ??????=??????? ? 先对决策矩阵D 进行标准化处理得到决策矩阵R 111212122212n n m m mn r r r r r r R r r r ??????=??????? ? 这里矩阵R 满足归一性:1 1,1,2,3,...,m ij i r j n ===∑,即每列的元素之和为1。 如何利用信息熵法确定属性12,,...,n X X X 的权重12(,,,)T n w w w w = 呢? 这里1 0,1,2,...,; 1n j j j w j n w =≥==∑。 这里有一个重要思想就是将归一化后的决策矩阵R 的列向量12(,,...,)n A A A ,即 12(,,...,)n X X X 的属性值1(,,),1,2,...,j mj r r j n = 视为信息量的分布。 j A 对属性j X 的熵j E 定义为: 11ln ,1,2,...,ln m j ij ij i E r r j n m ==-=∑, 易知01j E ≤≤,例如若1(,,)(1/,,1/)j mj r r m m = ,则1j E =; 若1(,,)(0,0,1,0,)j mj r r = ,则0j E =;总之ij r 越一致,则j E 越接近1,这样就越不易区分方案的优劣 。所以下面定义j X 对于方案的区分度: 1j j F E =-

C语言求信息熵,条件熵,联合熵

#include #include #define u 20 int i,j,n,m; float H_X,H_Y,H_XY,H_XpY,Pypx[u][u],Px[u],H_YpX,Py[u],Pxpy[u][u],Pxy[u][u]; /*H_X=H(X)平均自信息;H_XY=H(XY)联合熵;H_XpY=H(X|Y)、H_YpX=H(Y|X)条件熵; Pypx[i][j]=P(y[j]|x[i])条件概率;Px[i]=P(x[i])发x[i]的概率; H_XpY=H(Y/X)条件熵;Py[j]=P(y[j])收到y[j]的概率; Pxpy[i][j]=P(x[i]/y[j])条件概率;Pxy[i][j]=P(x[i]y[j])联合概率*/ /*定义以2为底的对数函数*/ float log2(float x) { float z; z=(float)(log(x)/log(2)); return z; } H X函数*/ /*求信源熵() float entropy(float *x,int n) { float z=0; for(i=1;i<=n;i++) { z+=(*(x+i))*log2(1/(*(x+i))); } return z; } /*求联合熵的函数*/ float joint_entropy(float (*p)[u]) { float z=0; for(i=1;i<=n;i++) for(j=1;j<=m;j++) { z+=*(p[i]+j)*log2(1/(*(p[i]+j))); } return z; } main() { float s=0; printf("\nplease in put the dimension of 'X' and 'Y'\n"); scanf("%d %d",&n,&m); printf("\nThe dimension of X is n=%d\nThe dimension of Y is m=%d\nPlease input the condition probability:P(y[j]/x[i]),",n,m); printf("(after you input one number please click the 'enter')\n"); /*条件概率P(y[j]/x[i])赋值*/

决策系统中几种约简之间的关系

第45卷 第11A 期 2018年11月 计算机科学COMPUTER SCIENCE Vol.45No.11A Nov.2018 本文受国家自然科学基金(61473239) 资助三敬思惠(1993-),女,硕士生,主要研究方向为粗糙集理论;秦克云(1962-),男,教授,博士生导师,CCF 高级会员, 主要研究方向为粗糙集理论二粒计算二多值逻辑(通信作者) 三决策系统中几种约简之间的关系 敬思惠 秦克云 (西南交通大学数学学院 成都611756) 摘 要 不可区分关系是粗糙集理论的基础三首先,刻画了λ约简与最大分布约简二分布约简之间的相互关系,证明了λ协调集是最大分布协调集,也是分布协调集;其次,针对λ约简设计了一种基于区分矩阵中属性频率的启发式约简算法,可以降低约简计算的复杂度;最后,通过实例验证了所提算法的可行性与有效性三关键词 粗糙集,协调集,不可区分关系,区分矩阵中图法分类号 TP18 文献标识码 A Relationshi p s Between Several Reductions in Decision S y stem JING Si -hui QIN Ke -y un (Colle g e of Mathematic ,Southwest Jiaoton g Universit y ,Chen g du 611756,China ) Abssract The indiscernibilit y relation is the basis of rou g h set theor y .Firstl y ,this p a p er studied the relationshi p be -tween λ-reduction ,maximal distribution reduction and distribution reduction in decision table.It is p roved that a λ-con -sistent set is a maximal distribution consistent set and a distribution consistent set.Secondl y ,this p a p er desi g ned a heu -ristic reduction al g orithm based on the attribute fre q uenc y in the distin g uishin g matrix for λ-reduction ,which can reduce the com p lexit y of reduction calculation.Finall y ,the feasibilit y and effectiveness of the p ro p osed al g orithm was verified b y exam p les. Ke y words Rou g h set ,Consistent set ,Indiscernibilit y relationshi p ,Discernibilit y matrixes 1 引言 粗糙集理论是一种处理不确定性问题的数学工具,自1982年由波兰数学家Pawlak [1] 首次提出以来, 已经在理论和应用方面取得了长足的发展,受到了学术界的广泛关注三目前,粗糙集理论已经在人工智能二知识与数据发现二模式识别与分类二故障检测等方面得到了广泛的应用三 信息系统研究是粗糙集理论的一个重要方向,其中的约简问题是粗糙集理论和应用研究的热点问题三不可区分关 系[1-2] 是粗糙集理论的基础,其实质是指出这样一个事实:由于我们对问题认识的深入程度有限,或者可获得的数据样本不完备,使得我们缺乏足够的知识去区分论域中的某些数据对象三不可区分关系用于刻画信息系统中对象的相似性,具有明确的语义解释,即具有相同描述的对象相互之间不可区分三基于不可区分关系,人们从相关实际问题的研究背景出 发,提出了多种信息系统属性约简标准,如正域约简[2] 二分配约简[3]二分布约简[3]二最大分布约简[4-5] 二基于信息熵的约简[6]二λ约简[7]等, 并给出了多种协调集判定定理,如λ协调集二分布协调集二最大分布协调集二分配协调集二近似协调集 等,得出了属性约简方法三这些约简都可以通过Skowron [ 8] 提出的区分函数获得,但其中涉及的布尔合取范式到布尔析取范式的转换是NP - 难问题三因此,人们分别从属性依赖度二属性信息熵二属性在区分矩阵中出现的频率等角度提出了属 性重要度,进而基于属性重要度设计了一些计算约简的启发 式算法[9-13] 三决策表基于粗糙集理论有多种约简标准,对于这些约简标准之间的相互关系已有大量研究[3-6] ,本文在相关 研究的基础上进一步讨论了λ约简与最大分布约简二分布约简之间的相互关系,并且设计了一种基于属性频率的启发式约简算法三 2 决策表基于粗糙集理论的约简 Pawlak 粗糙集模型[1] 将知识理解为对对象进行分类的 能力,形式化的知识通过论域(即所讨论对象构成的集合)上的等价关系进行刻画三论域的子集从外延角度理解为概念三如果某子集恰好是若干等价类的并集,则它表示一个精确概念,否则表示不确定性概念三在粗糙集模型中,不确定性概念借助上二下近似算子通过精确概念进行逼近三 定义1[1] 设U 是非空集合,称为论域,R 是U 上的一个等价关系,称(U ,R )为一个近似空间三对于任意X ?U ,X 关于(U ,R ) 的上二下近似分别定义为:R (X )={x ?U ;[x ]R ?X ??}(1)R (X )={x ?U ;[x ]R ?X } (2) 其中,[x ]R ={y ?U ;(x ,y ) ?R }为x 关于R 的等价类三信息系统属性约简与知识获取是粗糙集理论的重要研究 方向三一个信息系统是一个四元组T =(U ,A ,V ,f ) ,其中U 是非空有限集合,称为论域,其元素称为对象;A 是非空有限 万方数据

实验一-信息熵与图像熵计算-正确

实验一信息熵与图像熵计算(2 学时) 一、实验目的 1.复习MATLAB的基本命令,熟悉MATLAB下的基本函数; 2.复习信息熵基本定义,能够自学图像熵定义和基本概念。 二、实验内容 1.能够写出MATLAB源代码,求信源的信息熵; 2.根据图像熵基本知识,综合设计出MATLAB程序,求出给定图像的图像熵。 三、实验仪器、设备 1.计算机-系统最低配置256M内存、P4 CPU; 2.MATLAB编程软件。 四实验流程图 五实验数据及结果分析

四、实验原理 1.MATLAB中数据类型、矩阵运算、图像文件输入与输出知识复习。 2.利用信息论中信息熵概念,求出任意一个离散信源的熵(平均自信息量)。自信息是一个随机变量,它是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。任何一个消息的自信息量都代表不了信源所包含的平均自信息量。不能作为整个信源的信息测度,因此定义自信息量的数学期望为信源的平均自信息量: 1( ) 1 ( ) [log ] ( ) log ( ) i n i i p a i H E p a p a X 信息熵的意义:信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意

义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。 3.学习图像熵基本概念,能够求出图像一维熵和二维熵。 图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i的像素所占的比例,则定义灰度图像的一元灰度熵为: 2550 log i i i p p H 图像的一维熵可以表示图像灰度分布的聚集特征,却不能反映图像灰度分布的空间特征,为了表征这种空间特征,可以在一维熵的基础上引入能够反映灰度分布空间特征的特征量来组成图像的二维熵。选择图像的邻域灰度均值作为灰度2

信息熵.doc

一些信息熵的含义 (1) 信息熵的定义:假设X是一个离散随即变量,即它的取值范围R={x1,x2...}是有限可数的。设p i=P{X=x i},X的熵定义为: (a) 若(a)式中,对数的底为2,则熵表示为H2(x),此时以2为基底的熵单位是bits,即位。若某一项p i=0,则定义该项的p i logp i-1为0。 (2) 设R={0,1},并定义P{X=0}=p,P{X=1}=1-p。则此时的H(X)=-plogp-(1-p)log(1-p)。该H(x)非常重要,称为熵函数。熵函数的的曲线如下图表示: 再者,定义对于任意的x∈R,I(x)=-logP{X =x}。则H(X)就是I(x)的平均值。此时的I(x)可视为x所提供的信息量。I(x)的曲线如下: (3) H(X)的最大值。若X在定义域R={x1,x2,...x r},则0<=H(X)<=logr。 (4) 条件熵:定义

推导:H(X|Y=y)= ∑p(x|y)log{1/p(x,y)} H(X|Y)=∑p(y)H(X|Y=y)= ∑p(y)*∑p(x|y)log{1/p(x/y)} H(X|Y)表示得到Y后,X的平均信息量,即平均不确定度。 (5) Fano不等式:设X和Y都是离散随机变量,都取值于集合{x1,x2,...x r}。则 H(X|Y)<=H(Pe)+Pe*log(r-1) 其中Pe=P{X≠Y}。Fano表示在已经知道Y后,仍然需要通过检测X才能获得的信息量。检测X的一个方法是先确定X=Y。若X=Y,就知道X;若X≠Y,那么还有r-1个可能。 (6) 互信息量:I(X;Y)=H(X)-H(X|Y)。I(X;Y)可以理解成知道了Y后对于减少X的不确定性的贡献。 I(X;Y)的公式: I(X;Y)=∑(x,y)p(x,y)log{p(y|x)/p(y)} (7)联合熵定义为两个元素同时发生的不确定度。 联合熵H(X,Y)= ∑(x,y)p(x,y)logp(x,y)=H(X)+H(Y|X) (8)信道中互信息的含义 互信息的定义得: I(X,Y)=H(X)-H(X|Y)= I(Y,X)=H(Y)-H(Y|X) 若信道输入为H(X),输出为H(Y),则条件熵H(X|Y)可以看成由于信道上存在干扰和噪声而损失掉的平均信息量。条件熵H(X|Y)又可以看成由于信道上的干扰和噪声的缘故,接收端获得Y后还剩余的对符号X的平均不确定度,故称为疑义度。 条件熵H(Y|X)可以看作唯一地确定信道噪声所需要的平均信息量,故称为噪声熵或者散布度。 (9)I(X,Y)的重要结论

图表示下的知识约简_苗夺谦

图表示下的知识约简 苗夺谦1,陈玉明1,2,王睿智1,张红云1 (1.同济大学计算机科学与技术系,上海201804;2.厦门理工学院计算机科学与技术系,福建厦门361024) 摘 要: 知识约简主要有代数表示下的知识约简和信息表示下的知识约简.本文提出图表示下的知识约简,给出图表示下求最小约简的完备递归算法.借鉴人工智能理论中的图搜索技术,提出旋转剪枝和回溯剪枝两个搜索算子 求最小约简,并证明了在这种表示下求最小约简的完备性,理论分析和实验结果表明,在图表示下求最小约简是有效可行的. 关键词: 粗糙集;约简;幂图;图表示 中图分类号: TP18 文献标识码: A 文章编号: 0372-2112(2010)08-1952-06 Kno wledge Reduction Algorithm under Graph Vie w MI AO Duo -qian 1,CHEN Yu -ming 1,2,WANG rui -zhi 1,ZHANG Hong -yun 1 (1.Department of Compute r Sc ienc e and T echnology ,Tongji Unive rs ity ,Shanghai 201804,C hina ; 2.Depart me nt of C omput er Science and Tec hnology ,Xiamen Unive rsit y of T echnol ogy ,Xi amen ,Fujian 361024,C hina ) Abstract : Knowledge reduction is widely studied under algebra view and information view .In thi s paper ,knowledge reduc -tion under g raph view is presented .A complete recu rsive algorithm for minimal reductio n under graph view is designed .In virtue of g raph searching method s of artificial intelligence ,rotation pru ning operator and backtracki ng p r u ning operator fo r answering the min -imal reduction question are proposed .These methods 'completeness for the minimal reductio n i s proved .In order to test the efficien -cy of the algorithm ,some experi ments are made on simulative data .Theo retical analysis and experimental results show that the re -duction algorithm under g raph view i s efficient and feasible . Key words : rough sets ;reduction ;power graph ;g raph view 1 引言 Pawlak Z 提出的粗糙集理论[1] 中所有的概念和运算 都是通过代数学的等价关系和集合运算来定义的,被称为粗糙集理论的代数表示.Sko wr on A 在这种表示下提出基于差别矩阵的知识约简[2].Kr yszkiewic z M 研究了代数表示下不一致决策系统中各种约简之间的关系[3],张文修等发展了Kryszkie wicz M 的思想,进一步研究了代数表示下各种约简的关系,提出了最大分布约简的概念[4].在代数表示下,粗糙集理论中的许多概念与运算的直观性较差,不容易使人理解其本质,并且在此表示下许多算法的效率也不高.苗夺谦等提出知识约简的信息 表示[5,6],王国胤等研究代数表示下的约简和信息表示下的约简之间的关系[7].信息表示是以信息论为基础,通过信息熵来表示知识和度量知识,这种表示从更深层次上揭示了知识的本质,苗夺谦等在这种表示下提出基于信息熵的信息系统知识约简算法[5]和基于互信息的决策表知识约简算法 [6] ,杨明提出基于条件信息熵的近 似约简算法[8]. 代数表示下的知识约简,难于理解,算法效率不高,信息表示下的知识约简解释了约简的信息含义,提高了算法的效率,但在代数表示下和信息表示下都没有考虑约简的空间拓扑结构,求最小约简算法的完备性也有待于进一步的研究.刘少辉等[9]提出的完备算法针对约简是完备的,但针对最小约简并不完备.知识约简包括信息系统的知识约简和决策表的知识约简.本文对信息系统的知识约简进行研究,结合信息表示下约简的判定,考虑到知识约简的空间拓扑结构,构建一种新的知识表示方式—幂图和幂树,用于知识约简当中,在这种新的表示方式基础上,借鉴人工智能理论中的图搜索技术,提出旋转剪枝法和回溯剪枝法两个搜索算子求最小约简,提出求最小约简的完备递归算法,分析了算法的时间和空间复杂度,证明了图表示下求最小约简的完备性.理论分析和实验结果表明,图表示下的知识约简是有效可行的. 收稿日期:2008-06-18;修回日期:2010-03-25 基金项目:国家自然科学基金(No .60475019,No .60775036,No .60970061)   第8期2010年8月电 子 学 报ACTA ELECTRONICA SINICA Vol .38 No .8 Aug . 2010

信息熵

信息熵在遥感影像中的应用 所谓信息熵,是一个数学上颇为抽象的概念,我们不妨把信息熵理解成某种特定信息的出现概率。信源各个离散消息的自信息量得数学期望(即概率加权的统计平均值)为信源的平均信息量,一般称为信息源,也叫信源熵或香农熵,有时称为无条件熵或熵函数,简称熵。 一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。 利用信息论中的熵模型,计算信息量是一种经典的方法,广泛应用于土地管理,城市扩张以及其他领域。熵值可以定量的反应信息的分散程度,将其应用于遥感图像的解译中可以定量的描述影像包含的信息量,从而为基于影像的研究提供科学的依据。利用信息熵方法对遥感影像的光谱特征进行离散化,根据信息熵的准则函数,寻找断点,对属性进行区间分割,以提高数据处理效率。 遥感影像熵值计算大致流程为:遥感影像数据经过图像预处理之后,进行一系列图像配准、校正,图像增强,去除噪声、条带后,进行图像的分类,然后根据研究区域进行数据的提取,结合一些辅助数据对图像进行监督分类后生成新的图像,将新的图像与研究区边界图和方格图生成的熵单元图进行进一步的融合便可得到熵分值图。 1.获得研究区遥感影像 以研究区南京市的2009 年6 月的中巴资源二号卫星分辨率20 米得影像为例,影像是有三幅拼接完成。通过ArGIS9.2 中的选择工具从全国的行政区域图中提取边界矢量图,再通过掩膜工具获得研究区的影像。分辨率的为90 米得DEM 图有两副影像拼接而得,操作的步骤与获取影像一致,为开展目视解译工作提供参考。然后依照相关学者的相关研究以及城市建设中的一些法律法规,参照分类标准,开展影像解译工作,对于中巴资源二号影像开展监督分类,以及开展目视解译工作。 2.二值图像的建立 将两种解译所得的图像按照一定的标准转化为城镇用地和非城镇用地两种,进一步计算二值图像的熵值。 3.熵值单元图 根据一些学者对城市边缘带的研究,其划分的熵值单元为 1 km ×1 km,针对样 区的具体情况,采用500 m ×500 m 的熵值单元。在ERDAS 软件和

信息熵理论

信息熵理论 在通信系统中,信息从发送到接收的传输过程是一个有干扰的信息复制过程。 对每一个具体的应用而言,传输的信息是确定的,有明确的应用目的。 对一个通信系统而言主,不同的用户要传送的具体的信息内容是不同的,则如何从这些繁杂的具体信息中提炼出它们的共同特征,并可进行量化估计是shannon 信息论研究的基础。 所谓量化估计就是用提炼的共同特征估计与某些具体内容所对应的需要传输的信息量大小。 信息量定义的另一个重要特征是它能保证信息量值的大小与具体的信息内容无关。 1.定义信息熵: 设X 是一个离散的随机变量,其定义空间为一个字符集E 。 ()()E x x X P x p ∈==,,表示相应的概率分布函数,则 ()()()()x p x p X H x log ∑-=称为离散随机变量的熵。 有时记()()()()(){}X p E x p x p p H p x log log -=-=∑ {}p E 表示以概率分布()x p 对某随机变量或随机函数求概率平均。 2.定义联合熵: 设X ﹑Y 是丙个离散的随机变量,(X,Y )的联合概率分布函数为()()y Y x X P y x p ===,,,则 ()()()y x p y x P Y X H x y ,log ,,∑∑-= 称为离散随机变量X 与Y 的联合熵。 有时记为: ()()()(){}Y X p E y x p y x p Y X H p x y ,log ,log ,,-=-=∑∑ 3.定义条件熵: 如果()(),,~,y x p Y X 则条件熵()X Y H /定义为 ()()() ∑=-=x x X Y H x p X Y H // ()()()∑∑- =x y x y p x y p x p /log / ()()∑∑-=x y x y p y x p /log , (){}X Y p E /log -= 条件熵等于零的条件为()1==Y X p 事实上,对任意的y x ,都有()()0/log /=x y p x y p ,从而得()()1/0/==x y p x y p 或,又因为X 与Y 是取值空间完全相同的随机变量,所以有()1/=X Y p

证据理论与熵值融合的知识约简新方法

2016,52(19)1引言Rough Set [1]是波兰数学家Pawlak 于1982年提出的,该理论是一种处理不精确、不完全与不相容知识的数学方法。近年来,由于其在人工智能和认知科学中的重要性和优越性,受到国内外研究人员越来越多的关注[2-4]。知识约简是Rough Set Theory 的核心内容之一。知识约简就是在保持知识库的分类能力或决策能力不变的情况下,删减其中冗余的知识。目前,决策表的知识约简算法大致可以归为三类:基于正域的属性约简算法[5-6]、基于差别矩阵的属性约简算法[7-8]和启发式的属性约简算法。寻找决策表的最小约简已被证明是NP-hard 问题。因此,知识约简的启发式算法成为当前研究的一个热 点。苗夺谦等[9]从信息的角度出发,提出了一种基于互信息的知识相对约简算法,并指出算法的复杂性是多项式的。杨明[10]提出了基于条件信息熵的近似约简算法,能够根据实际对冗余属性进行取舍。翟俊海等[11]考虑 了条件属性之间的相关性,提出了利用最小相关性和最大依赖度准则求约简方法。陈颖悦等[12]引入蚁群优化算法,提出基于信息熵与蚁群优化的最小属性约简算法,在大多数情况下能够找到最小约简。 本文利用粗糙集等价划分的概念并结合信息熵的知识得到求核的表达式,同时引入证据理论中的二分 mass 函数对每个属性建立一个证据函数,证据融合得到证据理论与熵值融合的知识约简新方法 吴根秀,吴恒,黄涛 WU Genxiu,WU Heng,HUANG Tao 江西师范大学数学与信息科学学院,南昌330022 School of Mathematics and Information Science,Jiangxi Normal University,Nanchang 330022,China WU Genxiu,WU Heng,HUANG Tao.New method of knowledge reduction based on fusion of evidence theory and https://www.doczj.com/doc/c84822479.html,puter Engineering and Applications,2016,52(19):167-170. Abstract :It is proved that solving the minimal reduction of decision table is a NP-hard problem.This paper puts on a heuristic algorithm based on rough set and evidence theory.It gives attribute information entropy by using the concept of equivalence partitioning of rough set,and defines the attribute importance to get the core of the knowledge.It establishes an evidence function for each attribute by the concept of dichotomous mass functions,combining which to get the evi-dence importance of each attribute.Set the core as the start of the algorithm and make size of attributes importance as heu-ristic information until it meets the reduction condition.Examples show that it can find the core and reduction quickly,and the reduction used in classification accuracy is higher. Key words :rough set;reduction of knowledge;dichotomous mass functions;entropy;importance of attributes 摘要:求解决策表的最小约简已被证明是NP-hard 问题,在粗糙集和证据理论的基础上提出了一种知识约简的启发式算法。利用粗糙集等价划分的概念给出属性的信息熵,定义每个属性的熵值重要性并由此确定知识的核。引入二分mass 函数对每个属性建立一个证据函数,证据融合得到每个属性的证据重要性。以核为起点,以证据重要性为启发,依次加入属性直至满足约简条件。实例表明,该方法能够快速找到核和相对约简,并且该约简运用到分类上正确率也是较高的。 关键词:粗糙集;知识约简;二分mass 函数;熵;属性重要性 文献标志码:A 中图分类号:TP31doi :10.3778/j.issn.1002-8331.1601-0262 基金项目:江西省自然科学基金(No.20151BAB207030);江西省教育厅科技项目(No.GJJ14244)。 作者简介:吴根秀(1965—),女,教授,主要研究领域为数据挖掘、不确定性推理;吴恒,硕士研究生,E-mail:wuheng321@https://www.doczj.com/doc/c84822479.html, ; 黄涛,硕士研究生。 收稿日期:2016-01-19修回日期:2016-04-15文章编号:1002-8331(2016)19-0167-04 CNKI 网络优先出版:2016-06-17,https://www.doczj.com/doc/c84822479.html,/kcms/detail/11.2127.TP.20160617.1550.024.html Computer Engineering and Applications 计算机工程与应用 167 万方数据

信息熵的应用

分类号: O236单位代码:106 密级:一般学号: 本科毕业论文(设计) 题目:信息熵在球员选拔中的应用专业: 姓名: 指导教师: 职称: 答辩日期:

信息熵在球员选拔中的应用 摘要:.本课题通过研究信息熵的定义和性质,运用p c -分析法,通过统计一场球赛中各个球员的各项技术指标并该场球赛中各个队员的信息熵,自信息等值,得到球员选拔过程中对球员的评判方法.并以此法选出优秀的球员,根据信息熵的性质指出每个球员的不足之处,为今后的训练指明了方向. 关键字:信息熵;P-C分析法;球员选拔 Information entropy application in selecting players Abstract: Shannon information entropy presented expressions in 1948, which pioneered information theory. Now more and more international competitions, how to select best players on behalf of the state competition become critical .This issue through the definition and nature of information entropy, use of p c -law to come the assessment of each player, and select a good player, and point out the inadequacties of each player based on information entropy, that should be strengthened in future training exercises. Key Words: Information Entropy; P-C Analysis; Selecting Players

指标权重确定方法之熵权法计算方法参考

指标权重确定方法之熵权法 一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据指标变异性的大小来确定客观权重。 一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。 二、熵权法赋权步骤 1.数据标准化 将各个指标的数据进行标准化处理。 假设给定了k个指标,其中。假设对各指标数据标准化后的值为,那么。 2.求各指标的信息熵 根据信息论中信息熵的定义,一组数据的信息熵。其中,如果,则定义。 3.确定各指标权重 根据信息熵的计算公式,计算出各个指标的信息熵为。通过信息熵计算各指标的权重:。

三、熵权法赋权实例 1.背景介绍 某医院为了提高自身的护理水平,对拥有的11个科室进行了考核,考核标准包括9项整体护理,并对护理水平较好的科室进行奖励。下表是对各个科室指标考核后的评分结果。 但是由于各项护理的难易程度不同,因此需要对9项护理进行赋权,以便能够更加合理的对各个科室的护理水平进行评价。 2.熵权法进行赋权 1)数据标准化 根据原始评分表,对数据进行标准化后可以得到下列数据标准化表 表2 11个科室9项整体护理评价指标得分表标准化表 科室X1X2X3X4X5X6X7X8X9 A B C D

E F G H I J K 2)求各指标的信息熵 根据信息熵的计算公式,可以计算出9项护理指标各自的信息熵如下: 表3 9项指标信息熵表 X1X2X3X4X5X6X7X8X9 信息熵 3)计算各指标的权重 根据指标权重的计算公式,可以得到各个指标的权重如下表所示: 表4 9项指标权重表 W1W2W3W4W5W6W7W8W9权重 3.对各个科室进行评分 根据计算出的指标权重,以及对11个科室9项护理水平的评分。设Z l为第l个科室的最终得分,则,各个科室最终得分如下表所示 表5 11个科室最终得分表 科室A B C D E F G H I J K 得分

信息熵与图像熵计算

p (a i ) ∑ n 《信息论与编码》课程实验报告 班级:通信162 姓名:李浩坤 学号:163977 实验一 信息熵与图像熵计算 实验日期:2018.5.31 一、实验目的 1. 复习 MATLAB 的基本命令,熟悉 MATLAB 下的基本函数。 2. 复习信息熵基本定义, 能够自学图像熵定义和基本概念。 二、实验原理及内容 1.能够写出 MATLAB 源代码,求信源的信息熵。 2.根据图像熵基本知识,综合设计出 MATLAB 程序,求出给定图像的图像熵。 1.MATLAB 中数据类型、矩阵运算、图像文件输入与输出知识复习。 2.利用信息论中信息熵概念,求出任意一个离散信源的熵(平均自信息量)。自信息是一个随机变量,它是指某一信源发出某一消息所含有的信息量。所发出 的消息不同,它们所含有的信息量也就不同。任何一个消息的自信息量都代表不了信源所包含的平均自信息量。不能作为整个信源的信息测度,因此定义自信息量的数学期望为信源的平均自信息量: H (X ) = E [ log 1 ] = -∑ p (a i ) log p (a i ) i =1 信息熵的意义:信源的信息熵H 是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。 1. 学习图像熵基本概念,能够求出图像一维熵和二维熵。 图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令 P i 表示图像中灰度值为 i 的像素所占的比例,则定义灰度图像的一元灰度熵为: 255 H = p i log p i i =0

信息熵的表示和计算

实验一信息熵的表示和计算 (实验估计时间:120 分钟) 1.1.1 背景知识 信息熵是美国贝尔实验室数学家仙侬(SHANNON)在1948年他的"通讯数学理论"那篇文章中首先提出的. 仙侬也因此获得了现代信息通讯技术之父的美称. 他对信息通讯的贡献可以说是对世纪进入信息时代奠定了最重要的基础理论. 要简单说信息熵(ENTROPY)的概念很不容易,不过你只要把它看做是信息的一种数量化的衡量尺度就八九不离十了. 就象世界原来并没有时间这个东西,但是处于测度生命和运动过程的需要,人们发明了时间的概念.同样,信息原本并没有测度标准,但是出于衡量信息传递量和速度的需要,仙侬先生发明了对于信息的一个度量方法,这就是信息熵,它的单位是BIT. 为什么用BIT? 因为在二次大战结束后,世界通讯领域发展很快,电报,电话,电传等普及了,而这些以电脉冲为信号载体的设备的最基本的结构就是只具有两种状态的开关(继电器). 所以二进制的通讯信号已经是最普及的信息通讯编码方式,以它作为信息的测度尺寸也是最自然的选择. 以英文为例看如何计算信息熵. 我们都知道英文使用26个字母,如果我们把字母在所传输信息中出现的频率看做是随机的,而且具有同样的概率. 那么要传输26个字母中的任何一个就至少需要4个多BIT才够(4位最大是16个,5位最大是32个,26个字母介于两者之间). 当然,每个字母在传输信息中出现的概率不可能一样,比如 A是1/16; B是1/13; ...Z是1/126;(它们的和是1),那么通过计算可以得出英文的信息熵是4.03(根据参考文章介绍的数据). 2n = X; 其中 X 就是传输信息所需要的字符集的大小减去它的冗余度. 公式: H(信息熵) = -∑ P i log 2 (P i ); P i :为每个字母在信息中出现的概率; 计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2n = X 的话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。 小知识 冯志伟先生将仙侬的信息熵的计算用于非拼音的汉字字符集的信息熵的计算,这是一项工作量很大的任务.因为我们都知道,汉字的字符集很大,常用的有6-7000个,当然随着字符集的扩大,每个汉字出现的概率是不同的,有些罕用字

信息熵在对未来信息的预测应用综述

信息熵在对未来信息的预测应用综述 一、引言: 预测未来信息的准确性无疑是当今社会人类最为关注的焦点之一,无论是在以市场经济为主体的经济时代对市场的预测,在证券市场对未来股市走势的预测以及在供应链市场对其上下游销售和库存等的预计,信息的是否准确都关系到对应行业的兴衰成败,因此,采用何种方式收集和把握相对准确的信息是一个企业是否能够发展一个社会能够进步的关键。 未来的信息是不确定的,我们可以通过经验预测其走势。然而这种预测的准确性是否有保证,是否达到了一定范围内的置信度。对此,信息熵的引入为这类问题的解决提供了一条途径,将预测信息的概率化,预期结果的定量化,为预测信息的相对可靠性提供了保障。 二、信息熵的基本理论 (一)熵的相关概念 熵是一个状态函数,系统的状态一旦确定,其熵值就保持不变。也就是说,,其改变量的大小仅与研究对象的起始和终止状态有关,,而与其经历的途径无关。熵作为描述复杂系统结构的物理量,在复杂系统理论中受到越来越多的关注,成为研究复杂系统的一个重要工具[ 1]。 熵概念内涵丰富,源远流长,在不同领域都得到深化和泛化,仅定义就有几十种,但一般说来,基本上就分为物理熵和信息熵[10]。

(二)信息和信息熵的引入 信息作为科学的概念,有它自身的特殊性,有着确切的含义,并可定量度量。熵最初作为热力学中的一个十分重要的态函数有着确切的物理意义。现如今,它的应用已远远超出这一范畴,广泛运用到信息论、控制论等其它领域中。由此而出现了信息熵。熬红(2001)认为,信息熵并没有脱离物理熵而单独存在,它和物理熵可用一统一表达式来表示,它们具有一定联系[ 2]。 1929年,匈牙利科学家L.Szilard提出了熵与信息不确定性的关系,进一步拓宽了熵的内涵。1948年,贝尔实验室的C.Shannon创立了信息论,他把通讯过程中信源讯号的平均信息量称为熵,从而使得熵概念的应用领域又获得了新的扩展,这就是这里所说的信息熵。信息熵是一个数学上颇为抽象的概念,在这里把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。 热力学熵和信息熵都可以作为描述系统紊乱程度的测度,但一个物理系统的热力学熵是它的无组织程度的度量,是系统无序状态的描述,是状态无序性的表现。而信息熵表征物理系统运动状态的不确定性(无序性)通过通信收到消息后,这种不确定性的减少就获得信息,因此,如果信源的状态是完全确定的( 完全有秩序) ,那么信息熵就等于零。有秩序的信源其熵小,无秩序的信源其熵大,所以信息熵也是紊乱程度的一种度量。信息熵也是动态的,如当消息通

最新信息熵的matlab程序实例资料

求一维序列的信息熵(香浓熵)的matlab程序实例 对于一个二维信号,比如灰度图像,灰度值的范围是0-255,因此只要根据像素灰度值(0-255)出现的概率,就可以计算出信息熵。 但是,对于一个一维信号,比如说心电信号,数据值的范围并不是确定的,不会是(0-255)这么确定,如果进行域值变换,使其转换到一个整数范围的话,就会丢失数据,请高手指点,怎么计算。 比如数字信号是x(n),n=1~N (1)先用Hist函数对x(n)的赋值范围进行分块,比如赋值范围在0~10的对应第 一块,10~20的第二块,以此类推。这之前需要对x(n)做一些归一化处理 (2)统计每一块的数据个数,并求出相应的概率 (3)用信息熵公式求解 以上求解方法获得的虽然是近似的信息熵,但是一般认为,这么做是没有问题的 求一维序列的信息熵的matlab程序代码如下:(已写成调用的函数形式) 测试程序: fs=12000; N=12000; T=1/fs; t=(0:N-1)*T; ff=104; sig=0.5*(1+sin(2*pi*ff*t)).*sin(2*pi*3000*t)+rand(1,length(t)); Hx=yyshang(sig,10) %———————求一维离散序列信息熵matlab代码 function Hx=yyshang(y,duan) %不以原信号为参考的时间域的信号熵 %输入:maxf:原信号的能量谱中能量最大的点 %y:待求信息熵的序列 %duan:待求信息熵的序列要被分块的块数 %Hx:y的信息熵 %duan=10;%将序列按duan数等分,如果duan=10,就将序列分为10等份 x_min=min(y); x_max=max(y); maxf(1)=abs(x_max-x_min); maxf(2)=x_min; duan_t=1.0/duan; jiange=maxf(1)*duan_t; % for i=1:10 % pnum(i)=length(find((y_p>=(i-1)*jiange)&(y_p

相关主题
文本预览
相关文档 最新文档