第二章信源与信息熵

  • 格式:ppt
  • 大小:780.50 KB
  • 文档页数:46

下载文档原格式

  / 46
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1
1
2.2.3 互信息
• 1.互信息
先验概率:信息X发出的各个符号消息的集合,以及它 们的概率分布. 后验概率:当信宿收到一个符号消息后,信宿可以计算 的信源各消息的条件概率. 定义:后验概率与先验概率比值的对数.
I ( xi; yj ) log
2.平均互信息量 推导性质:
p( xi / yj ) p( xi )
xiyi 所包含的不确定度在数值上也等于它们的自信息量。
4.条件自信息量:当二者不独立 在给定y条件下,随机事件x所包含的不确定度在数值 上与条件自信息量相同,但两者含义不同。
• 例2. 2.1
英文字母中“e”的出现概率为0.105,“c” 的出现概率为0.023,“o”的出现概率为0.001。分别 计算它们的自信息量。
离散信源熵和互信息
1.一个随机事件的自信息量定义为其出现概率对数的负值。即
I ( xi) log p( xi)
自信息量的单位与所用的对数底有关。 • 在信息论中常用的对数底是2,信息量的单位为比特(bit); • 若取自然对数,则信息量的单位为奈特(nat); • 若以10为对数底,则信息量的单位为笛特(det)。 转换关系如下: 1 nat = log2 e≈1.433 bit,1 det = log210≈3.322 bit 若是一个m位的二进制数,因为该数的每一位可从0,1两个数字中任 取一个,因此有2m个等概率的可能组合。
离散信源的进一步分类:
发出单个符号的无记忆信源 离散无记忆信源 发出符号序列的无记忆信源 离散信源 发出符号序列的有记忆信源 离散有记忆信源 发出符号序列的马儿可夫信源
• 发出单个符号的信源:指信源每次只发出一个 符号代表一个消息. • 发出符号序列的信源:指信源每次发出一组含 二个以上符号的符号序列代表一个消息.
i i, j
i i i j i i, j
j/
xi )
• 5.联合熵
定义:是联合符号集合XY上的每个元素对的自信息量的概率加权统计平 均值,定义为 H ( XY ) p( xiyj )I ( xiyj ) p( xiyj ) log p( xiyj )

i, j

i, j
• 联合熵与熵及条件熵之间存在下列关系:
• 4.条件熵
定义:是在联合符号集合XY上的条件自信息量的联合概率加权统计平均值。 条件熵H(X/Y)表示已知Y后,X的不确定度。 给定Y情况下 H ( X / Y ) p( yj ) H ( X / yj ) p( xiyj ) I ( xi / yj )
给定X情况下 H (Y / X ) p( x ) H (Y / x ) p( x y ) I ( y
j i, j
I ( X ; Y ) p( yj ) I ( X ; yj ) p( xiyj ) log
p( xi / yj ) p( xi )
I(X;Y)=H(X)-H(X/Y);I(Y;X)=H(Y)-H(Y/X)=I(X;Y).
• 3.疑义度或损失熵
条件熵H(X/Y)信道上的干扰和噪声所造成的对信源符号x的平均不确定度.
i 1 2
0.72比特 / 次
自信息量只是表征信源中各个符号的不确定度, 一个信源总是包含着多个符号消息,各个符号消息 又按概率空间的先验概率分布,因而各个符号的自 信息量就不同。
• 1.信源的平均不确定度 定义:信源中各个符号不确定度的数学期望。

H ( X ) E[ I ( X )] P( xi) I ( xi) P( xi) log p( xi)
• •
离散无记忆信源所发出的各个符号是相互独立的,发出的符号 序列中的各个符号之间没有统计关联性,各个符号的出现概率 是它自身的先验概率。 离散有记忆信源所发出的各个符号的概率是有关联的。这种概 率关联性可用两种方式:


一种是用信源发出的一个符号序列的整体概率(即联合 概率)反映有记忆信源的特征. 一种限制记忆长度,即某一个符号出现的概率只与前面 一个或有限个符号有关,而不依赖更前面的那些符号, 这样的信源可以用信源发出符号序列内各个符号之间的 条件概率来反映记忆特征,这就是发出符号序列的马尔 可夫信源.
X 0 P p
二元信源熵为
1 q
H (X ) p log p q log q p log p (1 p ) log(1 p ) H ( p)
信源信息熵H(X)是概率p的函数,通常用 H(p)表示。函数曲线如图
• 噪声熵或散布度
条件熵H(Y/X)可看作唯一地确定信道噪声所需要的平均信息量. 1).如果X与Y是相互独立的,无法从Y中去 提取关于X的信息,即H(X/Y)=H(X),故 称为全损离散信道。 2).如果Y是X的确定的一一对应函数,I(X;Y) =H(X),已知Y就完全解除了关于X的不 确定度,所获得的信息就是X的不确定 度或熵。这可看成无扰离散信道.疑义 度H(X/Y)为零,噪声熵也为零。 在一般情况下,X和Y既非相互独立,也不是一一对应,那么从Y获得X的 信息必在零与H(X)之间,即常小于X的熵。
X x1 x 2 P 0 .8 0 .2
为红球,信息量 为白球,信息量
I ( x1) log 2 p( x1) log 20.8bit I ( x2) log 2 p( x2) log 20.2bit
每次摸出一个球后又放回袋中,再进行下一次摸取。随机摸取n次后 总共所获得的信息量为
2.引入随机事件的不确定度概念
一个出现概率接近于1的随机事件,发生的可能性很大, 所以它包含的不确定度就很小。 一个出现概率很小的随机事件,很难猜测在某个时刻它 能否发生,所以它包含的不确定度就很大。 若是确定性事件,出现概率为1,则它包含的不确定度为0。
注意:随机事件的不确定度在数量上等于它的自信息量, 两者的单位相同,但含义却不相同.
解:
“e”的自信息量
I (e) log 20.105 3.25bit
“c”的自信息量 I (c) log 20.023 5.44bit “o”的自信息量 I (o) log 20.001 9.97bit
2.2.2
离散信源熵
例2.2.2 一个布袋内放100个球,其中80个球是红色的,20个球是白色 的,若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息 量。 这一随机事件的概率空间为
解: (1) 可求出
4 H (V / u 0) p (v 0 / u 0) log 2 p (v 0 / u 0) p (v1 / u 0) log 2 p (v1 / u 0) 1 3 H ( , ) 0.82比特 / 符号 4 4 p (v1 / u 0) 1 p (v 0 / u 0) 1
• 据互信息的定义:
I ( X ; Y ) p( yj ) I ( X ; yj ) p( yj / xi ) p( xi ) log
np( x1) I ( x1) np( x2) I ( x2)
• 平均随机摸取一次所获得的信息量则为 1 H ( X ) [np( x1) I ( x1) np( x 2) I ( x 2)] n
[ p( x1) log 2 p( x1) p( x 2) log 2 p ( x 2)] p( xi ) log 2 p( xi )
p(v 0) p(uiv 0) 5 ; p(v1) p(uiv1) 3 8 8 i 0 i 0 3 5 H (V ) H ( , ) 0.96比特/符号 8 8 H (U / V ) H (UV ) H (V ) 1.91 0.96 0.95比特/符号
p( x 2) ... p( xn)
ቤተ መጻሕፍቲ ባይዱ
显然有:
p ( xn ) 0, p ( x1) 1.
i 1
2.1 信源的描述和分类
• 最简单的有记忆源是N=2的情况,此时 其信源的概率空间为
X a1a1 a1a 2 P p(a1a1) p (a1a 2)
...aqaq p ( a qa q )
• 3.联合自信息量 • 若有两个消息x,y同时出现,可用联合概率p(xy)来表 示,这时的联合自信息量定义为.
I ( xi , yi ) log p( xiyi )
当而者是独立的

p( xiyi) p( xi) p( yi)
I ( xiyi) I ( xi) I ( yi)
I ( xi / yi ) log p( xi / yi )
第2章 信源及信源熵
• • • • • 2.1 2.2 2.3 2.4 2.5 信源的描述和分类 离散信源熵和互信息 连续信源的熵和互信息 离散序列信源的熵 冗余度
2.1
信源的描述和分类
• 信源是发出消息的源,信源输出以符号形式出现 的具体消息。 • 按照信源发出的消息在时间上和幅度上的分布情 况分类: • 离散信源是指发出在时间和幅度上都是离散分布的 离散消息的信源,如文字、数字、数据等符号都是 离散消息。 • 连续信源是指发出在时间和幅度上都是连续分布的 连续消息(模拟消息)的信源,如语言、图像、图 形等都是连续消息。
X X 1X 2
在分析有记忆信源时,有时也可将多个符号合并成一个符号来处理。 例如有L个符号,每个符号取值于A空间,有n种可能性。将这L个 符号组成一个L维随机矢量,则该随机矢量取值于AL空间,共nL个可 能的取值,这样就把有记忆的L个符号的信源转化成单符号问题。
2.2
• 2.2.1 自信息量
3 3 1 1 1 1 log 2 log 2 2 log 2 8 4 8 4 4 2 0.91比特 / 符号
• (3) 因为p(u0)=p(u1)=1/2,所以H(U)=1比特/符号,
H(UV)=H(U)+H(V/U)=1+0.91=1.91比特/符号. • (4) 可求出
i i
I ( xi) 0; P( xi) 0;0 p( xi) 1
H(X ) 0
• 2.信源熵:表征信源的平均不确定度. 3.平均自信息:平均每个信源符号所能提供的信息 量.大小与信源熵相同.
• 例2.2.3二元信源是离散信源的一个特例。该信源X输出符号只 有两个,设为0和1。输出符号发生的概率分别为p和q,p+q=1。 即信源的概率空间为可得二元信源熵为
H(XY)=H(X)+H(Y/X),H(XY)=H(Y)+H(X/Y)
• • • •
例2.2.6 二进制通信系统用符号“0”和“1”,由于存在 失真,传输时会产生误码,用符号表示下列事件: u0:一个“0”发出;u1:一个“1”发出; v0:一个“0”收到;v1:一个“1”收到。 给定下列概率: p(u0)=1/2,p(v0/u0)=3/4,p(v0/u1)=1/2,求 (1) 已知发出一个“0”,收到符号后得到的信息量; (2) 已知发出的符号,收到符号后得到的信息量; (3) 知道发出的和收到的符号能得到的信息量; (4) 已知收到的符号,被告知发出的符号得到的信息量。
2.概率空间
一个离散信源发出的各个符号消息的集合 例如:
X={x1,x2,…,xn}
它们的概率分别为 P={p(x1),p(x2),…,p(xn)} p(xi)称为符号xi的先验概率。 把他们写到一起就是概率空间:
X x1 P p( x1)
x2
n
...xn
(2) 联合概率
p (u 0v 0) p (v 0 / u 0) p (u 0) 3 ,同理可得 8 p (u 0v1) 1 ;p (u1v 0) 1 ;p (u1v1) 1 8 4 4 H(V / U) p (uivi ) log 2 p (vj / ui )
i 0 j 0 1 1