教育信息熵第二章

  • 格式:ppt
  • 大小:1.82 MB
  • 文档页数:80

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4 信息量的可加性
单调减函数可以有很多种,用来度量信息的函数 f(Pi)究竟应当是哪一种呢?有了可加性即可解决 即P(x1,x2)=P(x1)*P(x2) 联合概率(两个变量相 互独立) 而f(P1,P2)=f(P1)+f(P2) 不确定性 可见 f(P)满足取对数的关系
f(P)=log(1/p) = -log p 它满足的两个关系: (1) 不确定性与概率的关系 (2) 可加性的要求
实例:(英语字母),为了表示某一内容 的文章,我们需要用更多的字母。
五 关于冗余度的讨论 1 冗余度使得信息传递的效率降低
实例:英语字母使用中的冗余度达到70%-80%, 所以英语是一种传递效率不高的语言。
2 冗余度可以提高信息传递中的抗干扰能力 实例:传输“中华人民共和国”与传输“中国”,效
果是一样的,因此有一定的冗余度。 但前者在传输时,抗干扰能力更高。 中文(汉字)的冗余度
6 非负性
H(p1,p2,…,pn) ≥0 (只针对离散信源)
小结:熵是一种描述系统总体特性的统计量
第二节 相对熵与冗余度
一 最大熵 任何一个随机系统(共有n个状态),各状 态出现为等概率时,且各个状态无相关性, 其信息熵都有一个最大值: Hmax = log n
实例:英语用来传输信息,使用26个字母,加 上一个空格,共27个符号。
三 熵的意义
1 熵的大小表示某概率系统的不确定程度 实例1:某一概率系统的概率分布如下: (1,0,0,,,0) 这是一个确定性系统,计算其信息熵H=0,
即该系统不确定性为0。
实例2:某一概率系统的概率分布为等概率: (1/n,1/n,,,1/n),设该系统共有n个
状态(事件); 这是一个最不确定系统,计算其信息熵H为
2)英语字母并非等概率使用(表2.1:P33)
故:英语字母的熵通常远小于4.76(有人计算 ≈1.4)。
三 相对熵
我们定义:h= H / Hmax 为相对熵, 它便于比较两个不同事件数目的系统的 信息熵 。
四 冗余度
定义:r=1-h=1-H/Hmax= (Hmax -H)/Hmax 冗余度的含义:在传递信息时,不必要的 冗长部分的比例,即为了表示某一定量的信 息量,我们需要用更多的事件数。
第四节 熵模型 (略)
第五节 测试问题信息量
一 测试问题信息熵的计算
1 多重选择题(设有5个备选答案)
几种应答分布:
1)(1,0,0,0,0),
应答信息熵:H=0
2)(1/2,1/8,1/8,1/8,1/8),应答信息熵:H=2
3)(1/2,1/2,0,0,0), 应答信息熵:H=1
4)(1/5,1/5,1/5,1/5,1/5) 应答信息熵:H=log5
4 互信息 定义 I(X,Y)=H(X)+ H(Y)- H(X,Y)
为信源X和信源Y的互信息。
通过变换,可得: I(X,Y)=H(X,Y)- H(X|Y)- H(Y|X)
5 关于几个熵的关系: H(X) H(Y) H(X,Y) H(Y/X) H(X/Y) I(X;Y)
三 Kullback信息量(略)
= -Σ P(xi)logP(xi) -ΣΣ P(xi,yj)logP(yj/xi)
= H(X)+H(Y/X)
2 条件熵 上式中的 H(Y/X)=-ΣΣ P(xi,yj)logP(yj/xi)
叫做给定X时关于Y的条件熵 它表示:已知X时关于Y还保留的平均不确定性
3 讨论:
(1)联合熵表示将XY作为一个整体看待时, 总的平均不确定性H(X,Y)等于X的不确 定性与已知X后关于Y的不确定性H(Y/X) 的和。
第二章 教育信息熵
• 熵的最早提出(1865年)与热力学 • 熵在信息论中的地位
第一节 熵的概述
一 信息量的表示 1 信息的多少与信源的不确定性有关 实例:5个学生比赛选拔出1人为冠军
2 信息量的度量与信源的不确定性
实例1:5个学生水平相差不多(接近等概率); 实例2:5个学生水平相差大(不等概率),
一般系统介于上述两种极端情况之间。
四 信息熵的基本性质 1 单峰性(极值性)
任何一个随机系统,其信息熵都有一个极大值(单 峰),即各状态出现为等概率时,熵为最大:
H(p1,p2,,,pn)≤H(1/n,1/n,,,1/n) = log n
实例:一个二事件系统,概率分别为p和1-p 该系统的熵为:H=-[plogp+(1-p) log(1-p)] 其H—P图具有单峰性(图2.1)
2 两种不同的单位
上面的定义式中,没有考虑对数的底a, 当它取不同的底时(常取2或e),信息 熵的单位为比特(bits)和奈特(nats)。
1比特=0.693奈特
1奈特=1.443比特
此外,还有一个哈特(以10为底),是 取人名哈特莱(Hartley),他提出了熵 定义式中的对数,且1哈特=3.32比特。
(2)如果X和Y独立,则 H(Y/X)=H(Y) 这时H(X,Y)=H(X)+H(Y)
(3)反之,若Y完全由X决定,因而已知X 即可确定Y,不再有任何不确定性, 则 H(Y/X)=0 这时H(X,Y)=H(X)
(4)一般情况下 0<= H(Y/X)<= H(Y) 即条件熵永远小于或等于无条件熵
(5) 由于X与Y之间存在的 对称性 ,可得 H(X,Y)=H(Y)+H(X/Y)
H(X,Y)=H(X)+H(Y) 即联合熵等于每一个信源熵之和。 但由于相关性的存在,会减少平均不确定性 故 H(X,Y) <= H(X)+H(Y)
3例
考虑m=2的情况,且假定联合概率分 布如下:
P(xi,yj) y1
wenku.baidu.com
y2
y3
x1
1/20 7/20 1/10 1/2
x2
7/20 1/20 1/10 1/2
(比特/事件)
(3) H(X,Y)= -[P(x1,y1)logP(x1,y1) + P(x1,y2)logP(x1,y2) +P(x1,y3)logP(x1,y3) +P(x2,y1)logP(x2,y1) +P(x2,y2)logP(x2,y2) +P(x2,y3)logP(x2,y3)]
= -[(1/20)log(1/20)+(7/20)log(7/20) +(1/10)log(1/10)+(7/20)log(7/20) +(1/20)log(1/20)+(1/10)log(1/10)]
2/5
2/5
1/5
(1) 先求出 Px(x1)=1/2 Px(x2)=1/2 Py(y1)=2/5 Py(y2)=2/5 Py(y3)=1/5 (2) 求出 H(X)= -[(1/2)log(1/2)+
(1/2)log(1/2)] = 1 同理 H(Y)=1.522 而 H(X)+H(Y)=2.522
…………. P(xn,y1),P(xn,y2)……… P(xn,ym)
其中P(xi,yj)为xi和yj的联合概率 且P(xi,yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj) 当:xi和yj相互独立时:
P(yj/ xi)= P(yj) P(xi/ yj)= P(xi)
2 二元联合信源的熵: H(X,Y)= -ΣΣP(xi,yj) log P(xi,yj) 当每个信源相互独立时:
二 信息熵
1 平均信息量(信息熵)
一般情况下
状态空间: X: x1 , x2 …………… xn
概 率 分 布 : P(x):P(x1),P(x2) ……… P(xn),

n
P(xi) 1
i 1
这里假定各状态是相互独立的.
出现Xi的不确定性: log(1/P(xi)) 该信源每个状态的平均(加权平均)不确定性:
第三节 熵函数的展开
一 联合熵
1 信源
现有两个信源:X,Y
X:x1,x2… xn
Y: y1,y2,…… ym
P(x):P(x1),P(x2)… P(xn) P(y):P(y1),P(y2)… P(ym)
联合空间: X.Y: x1y1, x1y2,………… x1ym
……………. xny1, xny2,………… xnym P(x.y):P(x1,y1),P(x1,y2)………P(x1,ym)
通过信息熵的计算,我们能够得到这些测试问题的难 易程度和学生的学习能力倾向,可以作为测试问题的 评价及其指标。
二 等价预选项数
题目分析:难度,区分度
这里主要讨论选择题:除了难度与区分度, 还有一个问题:就是对题目各备选项的 有效性作出评价。
1 等价预选项数 令 i=1,2,3………m 为 选 择 题 的 一 个 选 项 , Pi 为考生选择第i项的概率,则该选择题的熵:
= 2.157
显然 H(X,Y)<= H(X)+H(Y)
2.157
2.522
二 条件熵 1 概率关系 把联合概率P(xi,yj)=P(xi)*P(yj/xi)代入 H(X,Y)= -ΣΣ P(xi,yj)log[P(xi)*P(yj/xi)]
= -ΣΣ P(xi,yj)logP(xi) -ΣΣ P(xi,yj)logP(yj/xi)
3例
某一系统具有四种状态(或四种事件)A1、 A2、A3、A4,各自的概率为:
p1=1/2 , p2=1/4 , p3=1/8 , p4=1/8, 注意:概率和为1 计算得熵: H=1.75 (比特/状态)
4 连续信源
如果概率空间为连续系统,其概率分布 为:p(x),对应系统的熵为:
b
H a [ p(x) log p(x)]dx
n i1
P( Xi)
log(1/
P( Xi))
/
n i1
P( Xi)
n
[
P(
xi)
log(
P
1 (x
i)
)]
i 1
信息熵(平均信息量):
n
n
H (X )
P( xi)
log(
) 1
P( xi)
P(xi) log P(xi)
i 1
i 1
也可以简写为:
n
H Pi log Pi H ( p1, p2, , , pn) i 1
图2-1 两个事件H-P图
2 对称性
H(p1 , p2 , p3) = H(p1 , p3 , p2) = H(p3,p2,p1)
1)这是由于加法满足交换率; 2)这也说明熵反映了该系统的整体特性。
3 渐化性(递增性) 设某系统共有n个事件,现在第n个事件分裂
成两个事件,概率分别为q、r 即 pn = q+r 该系统的熵变为:
证明(利用熵函数的表达式):作为习题
4 展开性(扩展性)
H(p1,p2,,,pn) = H(p1,p2,,,pn,0) = H (p1,p2,,,pn,0,,,0)
说明:某系统的事件数增加了,但这些事 件的出现概率为0时,该系统的熵不变。
5 确定性 H(1,0) = H(0,1)=H(1,0,,,0) = H(0,0,,,0,1)=0
其中A的水平高超;
哪一组比赛悬念更大(获得的信息量多)?
3 小结:信源输出的消息可以看作是随机事件 事件出现的概率大,出现机会多,不确定程度小 事件出现的概率小,出现机会少,不确定程度大
即 Pi大, f(Pi)小 Pi小, f(Pi)大
即 f(Pi)应是Pi的单调减函数 f(pi)=∽(1/pi)
这样的系统,其最大熵为: Hmax=log 27 ≈ 4.76 (比特/字母)
二 一般情况
一般情况下,任何一个系统(共有n个状态), 各状态出现一般为不等概率,且各个状态有相 关性,其实际信息熵(H)都有小于最大值, 即
H≤ Hmax = log n 实例:1)英语字母的使用并非是相互独立的,
字母间存在相关性;
H = -Σ Pi logPi
讨 论 : 某 一 个 Pi=1, 其 它 选 项 无 人 选 , 此 时 : H=0,分散程度最小
每一个Pi=1/m,每个选项均匀分布,此 时:H=log m(最大)分散程度最大。
如图所示
图2-8 等价预选项目的数据
由于H是熵(平均信息量)
设H与回答均匀地分布于K个(不是m个,而 是小于或等于m个)选项时的信息量相等 (原来是m个答案非均匀的分布)
最大,即该系统不确定性最大。
一般系统介于上述两种极端情况之间。
2 熵的大小表示某系统中任一状态(事件)出 现后产生的平均信息量
实例1:某一概率系统的概率分布如下:
(1,0,0,,,0)
在这个系统中,只有第一个状态出现, 当它出现之后,没有给我们带来任何信息量, 计算其信息熵H=0。
实例2:某一概率系统的概率分布为等概率: (1/n,1/n,,,1/n) , 设该系统共有n个 状态(事件); 在这个系统中,任何一个状态都有均等的 机会出现,当某一个状态出现之后,都给我们 带来最大的信息量,计算其信息熵H为最大。