- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一阶马尔可夫信源:m=1
p( x1 , x2 , x3 ,...,xL ) p( xL | xL1 ) p( xL1 | xL2 )...p( x2 2.2.1自信息量
概率大小决定信息量的大小 1.自信息量的定义:
I(x i ) log 2 p(x i )
条件熵表示已知Y后,X的不确定度
联合熵
定义:
H(X ,Y)
p(x i ,y )I(xi ,y )
j j j
p(x i ,y )logp(x i ,y )
j j j
联合熵表示X和Y同时发生的不确定度
联合熵、熵、条件熵三者之间的关系
H(X,Y)= H(X)+H(Y|X) = H(Y)+H(X|Y)
Logo
第二章 信源与信息熵
informationzhl@
邹慧兰
本节目的
1
了解信源的分类
2
理解自信息量的概念,意义
3
理解信息熵的概念及意义
本章内容
1 信源的分类
2
离散信源熵和互信息
3 离散序列信源的熵
4
连续信源的熵和互信息
5
冗余度
2.1 信源分类
1.按照消息在时间和幅度上的分布情况分:
2.1.3 马尔可夫信源
定义:该时刻的符号与前m个符号有关联性,与更 前的符号无关。她是一种有记忆信源。 概率公式表示: 只和前m个有关
p(x1,x 2 ,x 3 ,..., x L ) p(x L | x1,x 2 ,x 3 ,..., x L 1 ) p(x1,x 2 ,x 3 ,..., x L 1 )
例2-9
二进制通信系统使用符号0和1,由于存在失真,传输时会 产生误码 ,用符号表示下列事件。 u0:一个0发出 u1:一个1发出 v0:一个0收到 v1:一个1收到 给定下列概率,p(u0)=1/2, p(v0|u0)=3/4, p(v0|u1)=1/2,
H(X) p(x i ) log 2 p(x i )
i
lb10
-3 105
3 10 5 3.322 10 6 bit/ 符号
例2-7 二元信源X输出符号只有两个,设为0和1,输出符号 的概率分别为p和q,p+q=1,信源的概率空间为
X 0 P p 1 yj q
信息熵的物理意义
1 信息熵表示了信源输出前,信源的平均不确定度 2 信息熵表示了信源输出后,每个符号所提供的平 均信息量
例2-5 设信源符号集X={x1,x2,x3},每个符号发生的概率分别为: p(x1) =0.5, p(x2) =0.25, p(x3) =0.25。求信源熵 依据公式:
H(X) p(x i ) log 2 p(x i )
a n ,a n p a ,a
n n
2.1.2 有记忆信源
例二:不放回抽样 若第一个球为红色,则在抽取第二个球时的概率为 红色 白色 P (a1)=79/(79+20) P (a2)=20/(79+20)
若第一个球为白色,则在抽取第二个球时的概率为 红色 白色 P (a1)=80/(79+20) P (a2)=19/(79+20)
例2-4 布袋内100个球,80个红色,20个白色,随 机摸取一个,猜测其颜色。 用随机变量X表示取球事件 该信源的概率空间为: (x1表示摸出的是红球, x2表示摸出的是白球。)
x1 x2 X P p x 1 p x 2
摸到红球,获得信息量是: I(x 1) lbp(x 1) lb0.8bit 摸到白球,获得信息量是: I(x 2) lbp(x 2) lb0.2bit n次实验后,红球出现次数: np(x 1)
I(e) log 2 0.105 3.25bit
I(c) log 2 0.023 5.44bit
I(o) log 2 0.001 9.97bit
2.2.2 离散信源熵
自信息量只表征各个符号的不确定度
一个信源包括多个符号,自信息量不能作为整体的
信息量度。 求信息总体的信息量度 采取求平均的方法
例:信源发出二进制数0、1,其中概率 p(0)=0.25,p(1)=0.75 则这两个符号的自信息量为:
I( 0) log 2 0.25 2bit
I( 1) log 2 0.75 0.415bit
自信息量:
I(x i ) log 2 p(x i )
联合自信息量
I(x i ,y j ) log 2 p(x i ,y j )
X 0
1/4 1/2
3/4
Y
0
? 1
1 (1)求信源熵
2 1 H(X) H ( , ) 0.92bit/ 符号 3 3
1/2
(2)求条件熵H(Y|X)
H (Y X ) p(x i ,yj)logp(yj xi )
ij
求联合概率? 联合概率: p(x i ,yj) p(yj)p( yj x i )
p(x i y )I(x i y ) i
j j
给定Y(所有yj)条件下, X集合的条件熵H(X|Y)定义为
H(X Y )
p(y )H(X y )
j j j
p(y )p(x i y )I(x i y ) ij
j j j
p(x i ,yj) ogp(x i yj ) l
ij
前L-1个作为一个整体
p(x L | x L m ,..., x L 1 ) p(x1,x 2 ,x 3 ,..., x L 1 )
按照同样方式展开
p(x L | x L m ,..., x L 1 ) p(x L 1 | x L m 1,..., x L 2 ) p(x1,x 2 ,x 3 ,..., x L 2 )
指符号出现后,提供给收信者的信息量。 概率与信息量之间是单调递减关系。
自信息量的单位与对数底数有关:
以2为底,单位为比特(bit)
以e为底,单位为奈特(nat) 以10为底,单位为笛特(det) 一般我们取以2为底
三者换算关系:
1nat=log2e=1.433bit 1det=log210=3.322bit
j
求概率?
1 p(y 0) p(x i ,y 0) 2 i
p(y 1)
1 6 1 3
p(y ?)
1 1 1 H(Y) H ( , , ) 1.47bit / 符号 2 6 3
(5)求条件熵H(X|Y) H(X,Y)= H(Y)+H(X|Y) H(X|Y) =H(X,Y)- H(Y) =1.8-1.47 =0.33bit/符号
I(x i y j ) log 2 p(x i y j )
条件自信息量
2.不确定度 信源在发出之前,存在不确定度,用来表征该符号的特性。
不确定度的大小等于它的自信息量,单位相同,含义不同。二者区别: 不确定度是信源符号固有的
自信息量是信源符号发出后给予收信者的。
3.自信息量的特性
1)概率为1,自信息量为0
信源的平均不确定度:又称为信源X的熵,信源熵是在平 均意义上来表征信源的总体特征。 定义式:信源中各个符号自信息量的数学期望,即:
H(X) E(I(X ))
i
p(x i )I(xi ) i
p(x i ) log 2 p(x i )
由上式可以看出,不同的信源因概率空间不同熵值就不同 规定:当符号概率为0时,规定p(xi) log p(xi)也为0
离散信源 时间和幅度都是离散如文字、数据等
连续信源
时间或幅度连续如话音、图像等
0
(a) 话音信号
t
0
(b) 抽样信号
t
2.按照信源发出的符号之间的关系分:
无记忆信源 先验概率不随实验次数变化, 也不与先前的实验结果有关。
有记忆信源
发出的符号序列之间有关联性。
2.1.1 无记忆信源
1.复习几个概念 1)离散信源:时间和幅度都是离散的信源。 2)无记忆信源:先验概率不随实验次数变化,也 不与 先前的实验结果有关。 3)先验概率:各符号之间没有统计关联性,各符号出现 的概率就是其先验概率。如:P(B) 4)后验概率:在已知结果求原因发生的概率。如:P(Bk|A)
1 6
H (Y X ) p(x i ,yj)logp(yj xi ) 0.88bit/ 符号
ij
(3)求联合熵 H(X,Y)= H(X)+H(Y|X)=1.8bit/符号 (4)求H(Y)
H(Y) p(y i ) log 2 p(y i )
i
p(yj)
p(x i ,y ) i
例2-8 有一个二进制信源X发出符号集{0,1},经过离散无记忆 信道传输,信道输出用Y表示。由于信道中存在噪声,接
收端除收到0和1外,还有不确定的符号,用“?”来表
示,已知X的先验概率为P(x=0)=2/3, P(x=1)=2/3,符号转 移概率为P(y=0|x=0)=3/4, P(y=?|x=0)=1/4, P(y=1|x=1)=1/2 P(y=?|x=1)=1/2,其余为0。 求各种熵:H(X),H(Y|X),H(Y),H(X,Y),H(Y|X)
2
连续无记忆信源的概率空间表示
a, b X p X x P
3
发出符号序列信源的概率空间表示
假定信源序列长度为2
a1 ,a 1 X P p a1 ,a 1
a ,a p a ,a
1 2 1 2
求信源熵 依据公式
H(X) p(x i ) log 2 p(x i )