当前位置:文档之家› 信源及信源熵习题答案

信源及信源熵习题答案

信源及信源熵习题答案
信源及信源熵习题答案

第二章:

2、1 试问四进制、八进制脉冲所含信息量就是二进制脉冲得多少倍?

解:

四进制脉冲可以表示4个不同得消息,例如:{0, 1, 2, 3}

八进制脉冲可以表示8个不同得消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同得消息,例如:{0, 1} 假设每个消息得发出都就是等概率得,则:

四进制脉冲得平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲得平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲得平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以:

四进制、八进制脉冲所含信息量分别就是二进制脉冲信息量得2倍与3倍。

2、2 居住某地区得女孩子有25%就是大学生,在女大学生中有75%就是身高160厘米以上得,而女孩子中身高160厘米以上得占总数得一半。假如我们得知“身高160厘米以上得某女孩就是大学生”得消息,问获得多少信息量?

解:

设随机变量X 代表女孩子学历

X x 1(就是大学生) x 2(不就是大学生) P(X) 0、25 0、75 设随机变量Y 代表女孩子身高

Y y 1(身高>160cm) y 2(身高<160cm) P(Y) 0、5 0、5

已知:在女大学生中有75%就是身高160厘米以上得 即:p(y 1/ x 1) = 0、75

求:身高160厘米以上得某女孩就是大学生得信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=???

???-=?

?

??

??-=-= 2、3 一副充分洗乱了得牌(含52张牌),试问

(1) 任一特定排列所给出得信息量就是多少?

(2) 若从中抽取13张牌,所给出得点数都不相同能得到多少信息量?

解:

(1) 52张牌共有52!种排列方式,假设每种排列方式出现就是等概率得则所给出得信息量就是:

(2) 52张牌共有4种花色、13种点数,抽取13张点数不同得牌得概率如下:

2、4 设离散无记忆信源,其发出得信息为(23211223210),求 (1) 此消息得自信息量就是多少?

(2) 此消息中平均每符号携带得信息量就是多少?

解:

(1) 此消息总共有14个0、13个1、12个2、6个3,因此此消息发出得概率就是:

此消息得信息量就是:

(2) 此消息中平均每符号携带得信息量就是:

2、5 从大量统计资料知道,男性中红绿色盲得发病率为7%,女性发病率为0、5%,如果您问一位男士:“您就是否就是色盲?”她得回答可能就是“就是”,可能就是“否”,问这两个回答中各含多少信息量,平均每个回答中含有多少信息量?如果问一位女士,则答案中含有得平均自信息量就是多少?

解: 男士:

symbol

bit x p x p X H bit

x p x I x p bit x p x I x p i i i N N N Y Y Y / 366.0)93.0log 93.007.0log 07.0()(log )()( 105.093.0log )(log )(%

93)( 837.307.0log )(log )(%

7)(222

22222=+-=-==-=-===-=-==∑

女士:

symbol bit x p x p X H i

i i / 045.0)995.0log 995.0005.0log 005.0()(log )()(222

2=+-=-=∑

2、6 设信源,求这个信源得熵,并解释为什么H(X) > log6不满足信源熵得极值性。

解:

585

.26log )(/ 657.2)17.0log 17.016.0log 16.017.0log 17.018.0log 18.019.0log 19.02.0log 2.0()

(log )()(22222226

2=>=+++++-=-=∑X H symbol bit x p x p X H i

i i 不满足极值性得原因就是。

2、7 证明:H(X 3/X 1X 2) ≤ H(X 3/X 1),并说明当X 1, X 2, X 3就是马氏链时等式成立。

证明:

log 1)/()(log )()/()(log 1)/()/()()

/()/(log

)()

/(log )()/(log )()

/(log )()/(log )()

/()/(212

31321212332112313211232213133211

2

3

213133211

2

3

133211

2

3

2133211

3

13311

2

3

21332113213=????

??-??????=??

?

??-=????

??-≤=+-=+-=-∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑e x x p x x p e

x x x p x x p x x p e x x x p x x p x x x p x x x p x x p x x x p x x p x x x p x x x p x x x p x x p x x p x x x p x x x p X X H X X X H i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i

氏链

是马等式成立的条件是时等式成立

_,,)/()/()/()()/()/()()()/()/()()

/()/(01)

/()

/()/()/(321132131232113121212131321213132131313213X X X x x x p x x p x x p x x x p x x p x x p x p x x p x x x p x x p x x p x x x p x x p x x x p x x p X X H X X X H i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i ∴=?=?=?=?=-≤∴

2、8证明:H(X 1X 2 。。。 X n ) ≤ H(X 1) + H(X 2) + … + H(X n )。

证明:

)

(...)()()()...().../()(0)...;(...

)/()(0);()/()(0);().../(...)/()/()()...(3212112112121332131221212121312121N N N N N N N N N N X H X H X H X H X X X H X X X X H X H X X X X I X X X H X H X X X I X X H X H X X I X X X X H X X X H X X H X H X X X H ++++≤∴≥?≥≥?≥≥?≥++++=---

2、9 设有一个信源,它产生0,1序列得信息。它在任意时间而且不论以前发生过什么符号,均按P(0) = 0、4,P(1) = 0、6得概率发出符号。 (1) 试问这个信源就是否就是平稳得? (2) 试计算H(X 2), H(X 3/X 1X 2)及H ∞;

(3) 试计算H(X 4)并写出X 4信源中可能有得所有符号。

解: (1)

这个信源就是平稳无记忆信源。因为有这些词语:“它在任意时间....而且不论以前发生过什么符号...........……” (2)

symbol

bit X H H symbol bit x p x p X H X X X H symbol

bit X H X H i

i i / 971.0)(/ 971.0)6.0log 6.04.0log 4.0()(log )()()/(/ 942.1)6.0log 6.04.0log 4.0(2)(2)(2223213222===+-=-===+?-==∞∑

(3)

1011

111111101101110010101001100001110110010101000011001000010000的所有符号:/ 884.3)6.0log 6.04.0log 4.0(4)(4)(4224X symbol bit X H X H =+?-==

2、10 一阶马尔可夫信源得状态图如下图所示。信源X 得符号集为{0, 1, 2}。 (1) 求平稳后信源得概率分布; (2) 求信源得熵H ∞。

P

P

解: (1)

???

??===??

?=++==????

????+?=?+?=?+?=???

??+=+=+=3/1)(3/1)(3/1)(1)()()()()()()()()()()()()

()()()

/()()/()()()/()()/()()()/()()/()()(3

213213211333222111313333

32322222121111e p e p e p e p e p e p e p e p e p e p p e p p e p e p p e p p e p e p p e p p e p e e p e p e e p e p e p e e p e p e e p e p e p e e p e p e e p e p e p

?

?

????=??????????

???=+=?+?=+==+=?+?=+==+=?+?=+=3/123/113/10

)(3

/13/)()()()/()()/()()(3/13/)()()()/()()/()()(3/13/)()()()/()()/()()(131313333323232222212121111X P X p p e p p e p p e x p e p e x p e p x p p p e p p e p p e x p e p e x p e p x p p p e p p e p p e x p e p e x p e p x p (2)

()

symbol

bit p p p p p p p p p p p p p p p p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e p H i

j

i j i j i / log log log 31log 31log 31log 31log 31log 31

)/(log )/(31)/(log )/(31)/(log )/(31)/(log )/(31

)/(log )/(31)/(log )/(31)

/(log )/(31)/(log )/(31)/(log )/(3

1

)

/(log )/()(222

2222233233322323123123223222222122113213122121121133

?+?-=??

?

?????+??+??+??+?+??-=???++++++???++-=-=∑∑∞

2、11黑白气象传真图得消息只有黑色与白色两种,即信源X ={黑,白}。设黑色出现得概率为P(黑) = 0、3,白色出现得概率为P(白) = 0、7。 (1) 假设图上黑白消息出现前后没有关联,求熵H(X);

(2) 假设消息前后有关联,其依赖关系为P(白/白) = 0、9,P(黑/白) = 0、1,P(白/黑) = 0、2,P(黑/黑) = 0、8,求此一阶马尔可夫信源得熵H 2(X);

(3) 分别求上述两种信源得剩余度,比较H(X)与H 2(X)得大小,并说明其物理含义。

解: (1)

symbol bit x p x p X H i

i i / 881.010log )7.0log 7.03.0log 3.0()(log )()(2=+-=-=∑

(2)

symbol

bit e e p e e p e p H e p e p e p e p e p e p e p e p e p e p e p e p e e p e p e e p e p e p e e p e p e e p e p e p i

j

i j i j i / 553.010

log )9.0log 9.032

1.0log 1.032

2.0log 2.0318.0log 8.031()

/(log )/()(3

/2)(3/1)(1)()()(2)()(2.0)(9.0)()(1.0)(8.0)()/()()/()()()/()()/()()(221211212221112122222121111=?+?+?+?-=-=??

?==??

?=+=??

?+=+=??

?+=+=∑∑∞

(3)

H(X) > H 2(X)

表示得物理含义就是:无记忆信源得不确定度大与有记忆信源得不确定度,有记忆信源得结构化信息较多,能够进行较大程度得压缩。

2、12 同时掷出两个正常得骰子,也就就是各面呈现得概率都为1/6,求: (1) “3与5同时出现”这事件得自信息; (2) “两个1同时出现”这事件得自信息;

(3) 两个点数得各种组合(无序)对得熵与平均信息量;

p(黑/黑)=0.8

e1

e2

(4) 两个点数之与(即2, 3, … , 12构成得子集)得熵; (5) 两个点数中至少有一个就是1得自信息量。

解: (1) (2) (3)

两个点数得排列如下:

11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 共有21种组合:

其中11,22,33,44,55,66得概率就是 其她15个组合得概率就是

symbol bit x p x p X H i

i i / 337.410log )18

1log 18115361log 3616()(log )()(2=?+?

-=-=∑ (4)

参考上面得两个点数得排列,可以得出两个点数求与得概率分布如下:

symbol bit x p x p X H X P X i

i i / 274.310log )6

1log 61365log 365291log 912121log 1212181log 1812361log 3612()

(log )()(36112181111211091936586173656915121418133612)(2=+?+?+?+?+?

-=-=?????????

?=??????∑

(5)

2、13 某一无记忆信源得符号集为{0, 1},已知P(0) = 1/4,P(1) = 3/4。 (1) 求符号得平均熵;

(2) 有100个符号构成得序列,求某一特定序列(例如有m 个“0”与(100 m )个“1”)得自信息量得表达式;

(3) 计算(2)中序列得熵。

解: (1)

symbol bit x p x p X H i

i i / 811.010log )43

log 4341log 41()(log )()(2=+-=-=∑

(2)

(3)

2、14 对某城市进行交通忙闲得调查,并把天气分成晴雨两种状态,气温分成冷暖两个状态,

调查结果得联合出现得相对频度如下:

冷 12

暖 8

暖 16

冷 27

冷 8

暖 15

暖 12冷 5

若把这些频度瞧作概率测度,求: (1) 忙闲得无条件熵;

(2) 天气状态与气温状态已知时忙闲得条件熵;

(3) 从天气状态与气温状态获得得关于忙闲得信息。

解: (1)

根据忙闲得频率,得到忙闲得概率分布如下:

symbol

bit x p X H x x X P X i

i / 964.010340log 1034010363log 10363)()(1034010363闲忙)(222

21=??? ??+-=-=??

???????

?=??????∑

(2)

设忙闲为随机变量X ,天气状态为随机变量Y ,气温状态为随机变量Z

symbol

bit YZ H XYZ H YZ X H symbol

bit z y p z y p YZ H symbol

bit z y x p z y x p XYZ H j

k

k j k j i

j

k

k j i k j i / 859.0977.1836.2)()()/(/ 977.110328log 1032810332log 1033210323log 1032310320log 10320

)

(log )()(/ 836.210312log 103121035log 103510315log 103151038log 103810316log 1031610327log 103271038log 103810312log 103

12

)

(log )()(2222222222

2222=-=-==?

?? ??+++-=-==???++++ ??+++-=-=∑∑∑∑∑

(3)

symbol bit YZ X H X H YZ X I / 159.0859.0964.0)/()();(=-=-=

2、15 有两个二元随机变量X 与Y ,它们得联合概率为

并定义另一随机变量Z = XY (一般乘积),试计算: (1) H(X), H(Y), H(Z), H(XZ), H(YZ)与H(XYZ);

(2) H(X/Y), H(Y/X), H(X/Z), H(Z/X), H(Y/Z), H(Z/Y), H(X/YZ), H(Y/XZ)与H(Z/XY); (3) I(X;Y), I(X;Z), I(Y;Z), I(X;Y/Z), I(Y;Z/X)与I(X;Z/Y)。

解: (1)

symbol bit y p y p Y H y x p y x p y p y x p y x p y p symbol bit x p x p X H y x p y x p x p j

j j i

i i / 1)(log )()(2

1

8183)()()(21

8381)()()(/ 1)(log )()(2

18183)()()(22221212111222122=-==

+=+==

+=

+==-==+=

+=∑∑ Z = XY 得概率分布如下:

symbol

bit z p Z H z z Z P Z k

k / 544.081log 8187log 87

)()(818710)(222

21=??? ??+-=-=??????????===?

?????∑

symbol

bit z x p z x p XZ H z p z x p z x p z x p z p z x p z p z x p z x p z x p z p x p z x p z x p z x p z x p x p i k

k i k i / 406.1)81

log 8183log 8321log 21()(log )()(8

1

)()()()()(8

35.087)()()()()()(5.0)()(0)()()()(22222222221211112121111112121111=++-=-==

=+==-=-=+====+=∑∑

symbol

bit z y p z y p YZ H z p z y p z y p z y p z p z y p z p z y p z y p z y p z p y p z y p z y p z y p z y p y p j k

k j k j / 406.1)81

log 8183log 8321log 21()(log )()(8

1)()()()()(8

35.087)()()()()()(5.0)()(0)()()()(22222222221211112121111112121111=++-=-==

=+==-=-=+====+=∑∑

symbol

bit z y x p z y x p XYZ H y x p z y x p y x p z y x p z y x p z y x p y x p z y x p y x p z y x p z y x p i

j

k

k j i k j i / 811.181log 8183log 8383log 8381log 8

1

)(log )()(8

1

)()()

()()(0

)(8

3)()()()()(2222222222222221221221211212212112=??? ??+++-=-==

==+====+∑∑∑

(2)

symbol

bit XY H XYZ H XY Z H symbol bit XZ H XYZ H XZ Y H symbol bit YZ H XYZ H YZ X H symbol bit Y H YZ H Y Z H symbol bit Z H YZ H Z Y H symbol bit X H XZ H X Z H symbol bit Z H XZ H Z X H symbol bit X H XY H X Y H symbol bit Y H XY H Y X H symbol

bit y x p y x p XY H i j

j i j i / 0811.1811.1)()()/(/ 405.0406.1811.1)()()/(/ 405.0406.1811.1)()()/(/ 406.01406.1)()()/(/ 862.0544.0406.1)()()/(/ 406.01406.1)()()/(/ 862.0544.0406.1)()()/(/ 811.01811.1)()()/(/ 811.01811.1)()()/(/ 811.181log 8183log 8383log 8381log 81

)(log )()(22222=-=-==-=-==-=-==-=-==-=-==-=-==-=-==-=-==-=-==??? ??+++-==-=∑∑ (3)

symbol

bit YZ X H Y X H Y Z X I symbol bit XZ Y H X Y H X Z Y I symbol bit YZ X H Z X H Z Y X I symbol

bit Z Y H Y H Z Y I symbol bit Z X H X H Z X I symbol bit Y X H X H Y X I / 406.0405.0811.0)/()/()/;(/ 457.0405.0862.0)/()/()/;(/ 457.0405.0862.0)/()/()/;(/ 138.0862.01)/()();(/ 138.0862.01)/()();(/ 189.0811.01)/()();(=-=-==-=-==-=-==-=-==-=-==-=-=

2、16 有两个随机变量X 与Y ,其与为Z = X + Y (一般加法),若X 与Y 相互独立,求证:H(X) ≤

H(Z), H(Y) ≤ H(Z)。

证明:

∑∑∑∑?

?

?

???-=-=??

??-∈-=-=∴+=i k i k i k i i k i k k i i k i k j i k i k x z p x z p x p x z p z x p X Z H Y x z Y

x z y p x z p x z p Y

X Z )/(log )/()()/(log )()/()(

0)( )()()/(22Θ

同理可得。

2、17 给定声音样值X 得概率密度为拉普拉斯分布,求H c (X),并证明它小于同样方差得正态变量得连续熵。

解:

()

()()[]

????

??

??????????

????

??

??

??∞

+-∞+-∞+-∞+-∞

+-∞+-∞

+∞--∞

+∞

-∞+-∞+-∞+-∞+-∞+-∞-∞+-∞-∞

+∞--∞+∞-∞+-∞

+--∞

+--∞

+--∞

+--∞

+--∞+∞---∞

+∞

--∞

+∞

-∞

+∞

--∞

+∞

-==??? ??--=-===?==-==+-=∴-==--=+==?===+=∴=??

? ?

?-=-==-=-=--=-=-=00

2

020

20

20

22

||222200000)(000|

|2

22

220

20

20

20

20

22||2|

|2||22||2

22 21)()(0

2

1212

121)()(21212

12121)()(/ 2log log 2

log )(log log log log log log 其中:

log 2

log log 2

12

log log )()(2log 2

1log )()(log )()(xdx e dx e dx e x

e de x dx x e dx x e dx x x p x E m x E xdx e xdx e m ydy e ydy e y d y e xdx e xdx

e xdx e xdx e xdx x p X E m symbol

bit e

e X H e e e e

d e

e

e

e d e dx

e e dx

e e dx e e dx

e x p dx x p dx e x p dx x p x p X H x x x x x x x x x y y y x x x x c x

x

x

x x

x x x x x x x x x x c λλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλσλλλλλλλλλλ

λ

λλλ

λλλ

λΘ

λ

πλσπλλλλλλe

X H e e X H dx e x e xde c c x x x

2log )(2log 2log 21)(2

22

2

2正态2000=>==∴=??? ?

?--=-=??+∞-+∞-+∞

-

2、18 连续随机变量X 与Y 得联合概率密度为:,求H(X), H(Y), H(XYZ)与I(X;Y)。 (提示:)

解:

???

?

??????

??????

?

-+-=+

==-==--=--=--=-+-=--=---=--=-=≤≤--===----------

---202020

220

2

20

20222

20

2

20

222222

2222222222222

22222

222

22sin log 2

2cos 1422cos 1log 4

sin log sin 4

log sin 4

sin log sin 4

sin log sin 4)

cos (sin log sin 4cos log 4log 2log )(/ log 2

1

log log 2

1

1log 2log log )(2log log )(2

log )( 2log )( )(log )()()( 21)()(2

2222

22

π

π

π

π

ππθ

θθ

πθθπθ

θθπ

θθπ

θθθπ

θθθπθθθπθπππππππππd d r d rd d r d r r r r d r r r r x dx x r x r r dx x r r x r dx

x r x p symbol

bit e r e

r r dx

x r x p r dx

x r x p dx r

x p dx

r x r x p dx

x p x p X H r x r r

x r dy r dy xy p x p r

r

r r

r

r r r r r r r

r r

r c x r x r x r x r 令其中:

e

e e d e d e d e d e d e

d d d e

r d r d d r r d d d r d r 220

2220

220

22

0220

2220

220

20

20

20

220

20

220

20

20

20

20

log 21

2sin log 21log 212cos log 1log 122cos 1log 2

cos log 2

sin log cos cos sin 21

sin log 2sin sin log 2sin 12sin sin log 1

sin log 2cos 2

log 2

1

1log sin log 2cos 2

1log sin log 2cos 2

)2log 2

(2

2sin log 1

log sin log 2cos 2

sin log 2

2cos log 2

log 2

-=--=--=+-

=-=-=???

?

??-==

+-=-

-=-

-

+

-

=-

+

-

=

?????

??

??

?

??

?

??π

π

ππ

π

π

π

π

π

π

π

π

π

π

π

π

π

θπθ

θπ

θπθ

θ

πθ

θπθ

θ

θθ

θπθθθθπθ

θπθ

θθπθ

θθπθ

θθπππ

θπ

θ

θθπθθπθθπ

θπ

其中:

bit/symbol

e r e r XY H Y H X H Y X I bit/symbol r dxdy xy p r dxdy r

xy p dxdy

xy p xy p XY H bit/symbol

e r X H Y H x p y p r y r r y r dx r dx xy p y p c c c c R

R

R

c C C y r y r y r y r log log log log log 2 )()()();( log )(log 1

log

)( )(log )()( log 2

1

log )()()

()()

( 21

)()(222222222222

2222

222222

2-=--=-+===-=-=-===≤≤--===???????

?

---

---πππππππππ

2、19 每帧电视图像可以认为就是由3 105个像素组成得,所有像素均就是独立变化,且每像

素又取128个不同得亮度电平,并设亮度电平就是等概出现,问每帧图像含有多少信息量?若有一个广播员,在约10000个汉字中选出1000个汉字来口述此电视图像,试问广播员描述此图像所广播得信息量就是多少(假设汉字字汇就是等概率分布,并彼此无依赖)?若要恰当得描述此图像,广播员在口述中至少需要多少汉字?

解: 1)

2) 3)

2、20 设就是平稳离散有记忆信源,试证明:

).../(...)/()/()()...(12121312121-++++=N N N X X X X H X X X H X X H X H X X X H 。

证明:

)

.../(...)/()/()()

.../(log )...(...... )

/(log )()(log )()

.../(log )...(...... )

/(log )...(...)(log )...(...)

.../().../()(log )...(...)

...(log )...(...)

...(12121312121111

2

211

2

12211

11111

2

21121221112211

2

11121211

2

2121-++++=---=-???

???-??????-=-=-=---∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑N N i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i N X X X X H X X X H X X H X H x x x p x x x p x x p x x p x p x p x x x p x x x p x x p x x x p x p x x x p x x x p x x p x p x x x p x x x p x x x p X X X H N N N

N N N N

N N N N N N

N N N N

N N 2、21 设就是N 维高斯分布得连续信源,且X 1, X 2, … , X N 得方差分别就是,它们之间得相关系数。试证明:N 维高斯分布得连续信源熵

证明:

相关系数,说明就是相互独立得。

∑==+++=

+++=∴=

+++==∴N

i i N N c c c c i i c N c c c N c c e e e e X H X H X H X H e X H X H X H X H X X X H X H 12

222222************log 21 2log 21...2log 212log 21 )(...)()()(2log 2

1

)()(...)()()...()(σπσπσπσπσπΘ

2、22 设有一连续随机变量,其概率密度函数 (1) 试求信源X 得熵H c (X);

(2) 试求Y = X + A (A > 0)得熵H c (Y); (3) 试求Y = 2X 得熵H c (Y)。

解: 1)

symbol

bit e

a b X H ba a F bx x F e

a ba

b xdx

x b b dx

x x f dx x f b dx

bx x f dx x f x f X H c X X R

R

R

R

R

c / log 32log )(1

3

)(,3)(log 92log log 2log log )()(log log )()(log )()(3

223

332

32222222222?--=∴===--=--=-?-=-=-=?????Θ

2)

??????

-----=--?-=--=-=-='=-==-≤=≤+=≤=+≤≤∴≤-≤?≤≤-R

R

R

R

R

c A y A Y A y

d A y A y b b dy

A y y f dy y f b dy A y b y f dy y f y f Y H A y b y F y f A y b

dx bx A y X P y A X P y Y P y F A

a y A a

A y a x )

()(log )(2log )(log )()(log )(log )()(log )()()()()()(3

)()()()(002222222222

32Θ

3)

symbol

bit e a b Y H ba a F y b y F ba e a ba b e a ba b ydy

y b

b dy

y y f dy y f b

dy y b y f dy y f y f Y H y b

y F y f y

b dx bx y

X P y X P y Y P y F a

y a y a x c Y Y R R R

R

R

c y

Y / 1log 32log )(1

3

)2(,24)(3

29log 92log 8log 928log log 48log log )()(8log 8

log )()(log )()(8)()(24

)

2

()2()()(202

003

223

33

32323

2

32222222

22

22

3

202+?--=∴===-+

--=--=--=-?-=-=-=='===≤=≤=≤=≤≤∴≤≤?≤≤??????ΘΘ

信源及信源熵习题答案

第二章: 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 《 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) ( 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) " 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少 (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量 》 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:

第二章信源熵-习题答案(精品文档)

· 1 · 2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 0.75 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 2 213 52 13 =-=-==

实验一-信息熵与图像熵计算-正确

实验一信息熵与图像熵计算(2 学时) 一、实验目的 1.复习MATLAB的基本命令,熟悉MATLAB下的基本函数; 2.复习信息熵基本定义,能够自学图像熵定义和基本概念。 二、实验内容 1.能够写出MATLAB源代码,求信源的信息熵; 2.根据图像熵基本知识,综合设计出MATLAB程序,求出给定图像的图像熵。 三、实验仪器、设备 1.计算机-系统最低配置256M内存、P4 CPU; 2.MATLAB编程软件。 四实验流程图 五实验数据及结果分析 四、实验原理 1.MATLAB中数据类型、矩阵运算、图像文件输入与输出知识复习。 2.利用信息论中信息熵概念,求出任意一个离散信源的熵(平均自信息量)。自信息是一个随机变量,它是指某一信源发出某一消息所含有的信息量。所发出的消息不

同,它们所含有的信息量也就不同。任何一个消息的自信息量都代表不了信源所包含的平均自信息量。不能作为整个信源的信息测度,因此定义自信息量的数学期望为信源的平均自信息量: 1( ) 1 ( ) [log ] ( ) log ( ) i n i i p a i H E p a p a X 信息熵的意义:信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。 3.学习图像熵基本概念,能够求出图像一维熵和二维熵。 图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i的像素所占的比例,则定义灰度图像的一元灰度熵为: 2550 log i ii p p H 图像的一维熵可以表示图像灰度分布的聚集特征,却不能反映图像灰度分布的空间特征,为了表征这种空间特征,可以在一维熵的基础上引入能够反映灰度分布空间特征的特征量来组成图像的二维熵。选择图像的邻域灰度均值作为灰度2

实验1_信息论相关实验实验报告

信息论与编码实验一实验报告 学生姓名周群创 指导教师张祖平 学号0909110814 专业班级电子信息1101

实验一关于信源熵的实验 一、实验目的 1. 掌握离散信源熵的原理和计算方法。 2. 熟悉matlab 软件的基本操作,练习使用matlab 求解信源的信息熵。 3. 自学图像熵的相关概念,并应用所学知识,使用matlab 或其他开发工具求解图像熵。 4. 掌握Excel 的绘图功能,使用Excel 绘制散点图、直方图。 二、实验原理 1. 离散信源相关的基本概念、原理和计算公式 产生离散信息的信源称为离散信源。离散信源只能产生有限种符号。 随机事件的自信息量I(x i)为其对应的随机变量x i 出现概率对数的负值。即: I(x i)= -log2 p(x i) 随机事件X 的平均不确定度(信源熵)H(X)为离散随机变量x i 出现概 率的数学期望,即:

H(X )=-∑p(x )I (x ) =-∑p(x ) log p(x ) 2. 二元信源的信息熵 设信源符号集X={0,1},每个符号发生的概率分别为p(0)=p,p(1)=q, p+ q=1,即信源的概率空间为 则该二元信源的信源熵为: H(X) = - p log p –q log q = - p log p – (1- p) log (1- p) 即:H (p) = - p log p – (1- p) log (1- p) 其中0 ≤p ≤1 3. MATLAB 二维绘图 用matlab 中的命令plot(x, y)就可以自动绘制出二维图来。 例1-2,在matlab 上绘制余弦曲线图,y = cos x,其中0 ≤x ≤2。>>x=0:0.1:2*pi;%生成横坐标向量,使其为0,0.1,0.2,…,6.2 >>y=cos(x);%计算余弦向量 >>plot(x,y) %绘制图形 4. MATLAB 求解离散信源熵 求解信息熵过程: 1) 输入一个离散信源,并检查该信源是否是完备集。 2) 去除信源中符号分布概率为零的元素。 3) 根据平均信息量公式,求出离散信源的熵。 5. 图像熵的相关知识 图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的

第二章信源信息熵

第二章信源与信息熵 主要内容:(1)信源的描述与分类;(2)离散信源熵和互信息;(3)离散序列信源的熵;(4)连续信源的熵和互信息;(5)冗余度。 重点:离散/连续信源熵和互信息。 难点:离散序列有记忆信源熵。 说明:本章内容主要针对信源,但是很多基本概念却是整个信息论的基础,所以安排了较多课时。由于求熵涉及一些概率论的基础知识,考虑到大四的同学可能对这部分知识已经遗忘,故适当复习部分概率论知识。较难的 2.1.2节马尔可夫信源部分放置在本章最后讲,便于同学理解。本章概念和定理较多,比较抽象,课堂教学时考虑多讲述一些例题,通过例题来巩固概念和消化定理。 作业: 2.1—2.7,2.10,2.12。 课时分配:10课时。 板书及讲解要点: 在信息论中,信源是发出消息的源,信源输出以符号形式出现的具体消息。如果符号是确定的而且预先是知道的,那么该消息就无信息而言。只有当符号的出现是随机的,预先无法确定,一旦出现某个符合就给观察者提供了信息。因此应该用随机变量或随机矢量来表示信源,运用概率论和随机过程的理论来研究信息,这就是香农信息论的基本点。 2.1 信源的描述与分类 在通信系统中收信者在未收到消息以前对信源发出什么消息是不确定的,是随机的,所以可用随机变量、随机序列或随机过程来描述信源输出的消息,或者说用一个样本空间及其概率测度——概率空间来描述信源。 信源:产生随机变量、随机序列和随机过程的源。 信源的基本特性:具有随机不确定性。 信源的分类 离散信源:文字、数据、电报——随机序列 连续信源:话音、图像——随机过程 离散信源:输出在时间和幅度上都是离散分布的消息。

消息数是有限的或可数的,且每次只输出其中一个消息,即两两不相容。 发出单个符号的无记忆信源 离散无记忆信源: 发出符号序列的无记忆信源 离散信源 离散有记忆信源: 发出符号序列的有记忆信源 发出符号序列的马尔可夫信源 概率论基础: 无条件概率,条件概率和联合概率的性质和关系: (1) 非负性 0()()(/)(/)()1i j j i i j i j p x p y p y x p x y p x y ≤≤,,,, (2) 完备性 111 1 11 ()1,()1,(/)1, (/)1,()1 n m n i j i j i j i m m n j i i j j j i p x p y p x y p y x p x y ===========∑∑∑∑∑∑ 1 1 ()(),()()n m i j j i j i i j p x y p y p x y p x ====∑∑ (3) 联合概率 ()()(/)()(/)()()()(/)()(/)() i j i j i j i j i j i j j i j i j i p x y p x p y x p y p x y X Y p x y p x p y p y x p y p x y p x =====当与相互独立时,, (4) 贝叶斯公式 1 1 () () (/)(/)() () i j i j i j j i n m i j i j i j p x y p x y p x y p y x p x y p x y === = ∑∑, 2.1.1 无记忆信源: 例如扔骰子,每次试验结果必然是1~6点中的某一个面朝上。可以用一个离散型随机变量X 来描述这个信源输出的消息。

关于信源熵的实验报告讲解

实验报告 实验名称关于信源熵的实验课程名称信息论与编码 姓名xxx 成绩90 班级电子信息 1102学号0909112204 日期2013.11.22地点综合实验楼

实验一关于信源熵的实验 一、实验目的 1. 掌握离散信源熵的原理和计算方法。 2. 熟悉matlab 软件的基本操作,练习使用matlab 求解信源的信息熵。 3. 自学图像熵的相关概念,并应用所学知识,使用matlab 或其他开发工具 求解图像熵。 4. 掌握Excel的绘图功能,使用Excel绘制散点图、直方图。 二、实验原理 1. 离散信源相关的基本概念、原理和计算公式 产生离散信息的信源称为离散信源。离散信源只能产生有限种符号。随机事件的自信息量I(xi)为其对应的随机变量xi 出现概率对数的负值。 即: I (xi )= -log2p ( xi) 随机事件X 的平均不确定度(信源熵)H(X)为离散随机变量 xi 出现概 率的数学期望,即:

2.二元信源的信息熵 设信源符号集X={0,1} ,每个符号发生的概率分别为p(0)= p,p(1)= q, p+ q =1,即信源的概率空间为: 则该二元信源的信源熵为: H( X) = - plogp–qlogq = - plogp –(1 - p)log(1- p) 即:H (p) = - plogp –(1 - p)log(1- p) 其中 0 ≤ p ≤1 3. MATLAB二维绘图 用matlab 中的命令plot( x , y) 就可以自动绘制出二维图来。 例1-2,在matlab 上绘制余弦曲线图,y = cos x ,其中 0 ≤ x ≤2 >>x =0:0.1:2*pi; %生成横坐标向量,使其为 0,0.1,0.2,…, 6.2 >>y =cos(x ); %计算余弦向量 >>plot(x ,y ) %绘制图形 4. MATLAB求解离散信源熵 求解信息熵过程: 1) 输入一个离散信源,并检查该信源是否是完备集。

信息论与编码第二章 信源熵习题的答案[最新]

2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量symbol bit n X H / 24log log )(1=== 八进制脉冲的平均信息量symbol bit n X H / 38log log )(2=== 二进制脉冲的平均信息量symbol bit n X H / 12log log )(0=== 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:bit x y p 75.0)/(11= 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15 .075.025.0log )()/()(log )/(log )/(11111111=?-=-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: ! 521)(=i x p bit x p x I i i 581.225!52log )(log )(==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:

2015秋.信息论.第2章离散信源与信息熵

第2章离散信源与信息熵 信号 信号+干扰 消息 干扰 消息 信源 编码器 信道 译码器 信宿 噪声源 通信系统模型 信息

2.1 信源的分类和描述 信源是信息的发源地,可以是人、生物、机器或其他事物。信源的输出是包含信息的消息。消息的形式可以是离散的或连续的。 信源输出为连续信号形式(如语音),可用连续随机变量描述。 连续信源←→模拟通信系统 信源输出是离散的消息符号(如书信),可用离散随机变量描述。 离散信源←→数字通信系统

离散信源…X i…X j… 离散无记忆信源:输出符号X i X j 之间相互无影响; 离散有记忆信源:输出符号X i X j 之间彼此依存。 3 离散信源 无记忆 有记忆发出单个符号发出符号序列马尔可夫信源 非马尔可夫信源

y j 将一粒棋子随意地放 在棋盘中的某列; 棋子放置的位置是一 个随机事件; 可看做一个发出单个 符号的离散信源。 x i

1212,,...,(),(),...,()m m x x x X P p x p x p x ????=???????? 就数学意义来讲,信源就是一个概率场,可用概率空间来描述信源。由离散随机变量X 表示棋子位置: 10()1,()1m i i i p x p x =≤≤=∑i x 其中,代表随机事件的某一结果。

2.2离散信源的信息熵信息的可度量性是信息论建立的基础; 香农的信息论用事件发生概率的对数来描述事件的不确定性,得到消息的信息量,建立熵的概念。 2.2.1自信息量 –定义2.1 任意随机事件x i 的自信息量定义为: i i i 1(x )log log (x )(x ) I P P ==-

第二章信源与信息度量习题

第二章 信源与信息度量 习题 1. 某大学设置五个学院,每个学院的学生数分别为 学院: 数学 物理 外语 外贸 医学 人数: 300 400 500 600 200 问“某学生王某是外语学院学生”这一消息提供的信息量是多少? 2. 同时扔出两个正常的骰子,也就是各面呈现的概率都是1/6,求: (1) 事件“2和5同时呈现”的自信息量; (2) 事件“两个4同时呈现”的自信息量; (3) 事件“至少呈现一个1”的自信息量。 3. 字母“e ”在英文中出现的概率是0.103,字母“c ”出现的概率为0.022,字母“x ”出现的概率是0.001,求这些字母各自的自信息量。 4. 某电子厂共能生产A 、B 、C 、D 四种仪器,其中A 因技术落后停产了,B 占全部产量的20%,C 占30%,D 占50%。有两个消息“现在完成1台仪器B ”,和“现在完成1台仪器C ”,试确定哪一种消息提供的信息量大些?其中有什么规律? 5. 某地,35%的女孩上大学,65%的女大学生身高超过1.6米,而一个女孩身高超过1.6米的概率是50%,现有一条消息:说某一个身高超过1.6米的女孩是大学生,求这条消息的信息量。 6. 试求: (1) 在一付标准的扑克牌中抽出一张(每张牌均认为是不同的)的平均信息量。 (2) 若扑克牌仅按它的等级鉴定而不问它的花色(大、小王属同一等级),重复上述计算。 7. 某地的天气预报为:晴(占4/8),多云(占2/8),雨(占1/8),雪(占1/8),冰雹(占0/8);而当地老农对天气的预测只能做到:晴(占7/8),雨(占1/8)。试求两者对天气预报各自提供的平均信息量,并说明从中得到的规律。 8. 某离散无记忆平稳信源的概率空间为:12340123()3/81/41/41/8X x x x x p X ====????=????????,若某消息符号序列为:202 120 130 213 001 203 210 110 321 010 021 032 011 223 210,求: (1) 该消息的自信息量; (2) 该消息平均每个符号携带的信息量。 9. 若每帧电视图像由3×105 个像素组成,且像素是独立变化的。每个像素取128个不同的亮度电平,并设亮度电平等概率出现。 (1) 问每帧图像含有多少信息量? (2) 若现有一广播员在约10,000个汉字的字汇中选1,000个字来口述此电视图像,问广播员描述此图像所播出的信息量是多少?(假设,10,000个汉字字汇等概率分布,并彼此无依赖) (3) 若要恰当地描述出此图像的所有信息量,广播员在口述中至少需要多少汉字? 10. 设有一个信源,发送“0”和“1”两种符号,无论何时发出符号的概率均为p (0) = 0.4,p (1) = 0.6,并与以前发出的符号无关, (1) 问该信源是否是平稳信源? (2) 计算2()H X ,312()/H X X X 和lim ()N N H X →∞;

第三章 信源及信源熵

第三章 信源及信源熵 ?信源的主要问题: 信源的描述(数学建模); 信源输出信息能力的定量分析(信源熵); 信源信息的有效表示(信息编码)。 编码器 信道 译码器 信宿 噪声源 信源

第三章 信源及信源熵 ?信源的主要问题: 信源的描述(数学建模); 信源输出信息能力的定量分析(信源熵); 信源信息的有效表示(信息编码)。 编码器 信道 译码器 信宿 噪声源 信源

第三章信源及信源熵 ?3.1 信源的分类及其数学模型?3.2 离散单符号信源 ?3.3 离散多符号信源 ?3.3.1 离散平稳信源 ?3.3.2 离散平稳无记忆信源 ?3.3.3 离散平稳有记忆信源 ?3.3.4 马尔可夫信源 ?3.4 信源的相关性和剩余度

3.1 信源的分类及其数学模型 ?信源的分类 分类1:根据信源输出的消息在时间和取值上是离散或连续分。时间(空间)取值信源种类举例数学描述 离散离散 离散信源 (数字信源) 文字、数据、 离散化图像 离散随机变量序列 离散连续连续信号跳远比赛的结果、 语音信号抽样以后 连续随机变量序列 连续连续 波形信源 (模拟信源) 语音、音乐、热噪 声、图形、图像 随机过程 连续离散不常见

3.1 信源的分类及其数学模型 分类2:根据各维随机变量的概率分布是否随时间的推移而变化分。 1)平稳信源 2)非平稳信源 分类3:根据随机变量间是否统计独立分。 1)有记忆信源 2)无记忆信源

3.1 信源的分类及其数学模型 实际信源分类: ()( ()1H NH X H H m ??=???????????∞????????+?? ?? ???? ?X 离散无记忆信源:)记忆长度无限长:离散平稳信源平稳信源离散有记忆信源记忆长度有限马尔可夫信源:连续平稳信源非平稳信源 信源

信源编码实验报告

电子科技大学 实验报告 课程名称信息论与编码 实验名称信源编码 任课教师 姓名学号 时间2018 年11月28 日 一、实验目的和要求 1.掌握对信源变长编码定理的理解; 2.掌握信源编码技术,如香农编码,费诺编码,哈夫曼编码或其他无失真信源 编码技术; 3.对英文小说“Game of Thrones”中出现的26个英文字母和空格符号(一共 27个符号)进行信源编码。 4.至少对前两章“Prologue”和“Bran”中出现的符号进行统计。 5.任意选择一种编程平台,C++,Java,Python,Matlab等等。 6.运行程序后,能够在屏幕上显示每一个符号对应的码字,原始信源的熵,平 均码字长度,码字长度的方差,以及编码效率。

二、 实验内容 1. 对英文小说“Game of Thrones ”中出现的26个英文字母和空格符号(一共27个符号)进行信源编码。 2. 在屏幕上显示每一个符号对应的码字,原始信源的熵,平均码字长度,码字长度的方差,以及编码效率。 三、 实验原理 1. 采用哈夫曼编码完成实验要求 2.哈夫曼(Haveman )编码算法是满足前缀条件的平均二进制码长最短的编-源输出符号,而将较短的编码码字分配给较大概率的信源输出。算法是:在信源符号集合中,首先将两个最小概率的信源输出合并为新的输出,其概率是两个相应输出符号概率之和。这一过程重复下去,直到只剩下一个合并输出为止,这个最后的合并输出符号的概率为1。这样就得到了一张树图,从树根开始,将编码符号1 和0 分配在同一节点的任意两分支上,这一分配过程重复直到树叶。从树根到树叶途经支路上的编码最后就构成了一组异前置码,就是霍夫曼编码输出。 离散无记忆信源: 例如 Uu 1u 2u 3u 4u 5 P (U ) = 0.4 0.2 0.2 0.1 0.1

英语信源汉语信源信息熵的研究

英语信源、汉语信源及其信息熵的研究 摘要 英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源熵达到最大值。也就是说,信源符号相关性越强,所提供的平均信息量就越小。所以,研究这两种信源的信息熵,就可以得出每种信源中符号的相关性,和提供的平均信息量,量化的来比较两种语言。 关键词 英语信源 汉语信源 信息熵 正文 一、英语信源及其信息熵 英语字母有26个,加上空格,共27个符号。根据熵的性质,信源的最大熵 02log 27 4.76(/)H bit symbol == 但实际上,英语中的字母并非等概率出现,字母之间还有严格的依赖关系。如果我们对英语书中27个符号出现的概率加以统计,可得: 27个英语字符出现的概率 符号 概率 符号 概率 符号 概率 空格 0.2 S 0.052 Y,M 0.012 E 0.105 H 0.047 G 0.011 T 0.072 D 0.035 B 0.0105 O 0.0654 L 0.029 V 0.008 A 0.063 C 0.023 K 0.003 N 0.059 F,U 0.0225 X 0.002

I 0.055 M 0.021 J,Q 0.001 R 0.054 P 0.0175 Z 0.001 如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得 27121()log () 4.03(/) i i i H p a p a bit symbol ==-=∑ 按上述表格中的概率分布,随机选择英语字母排列起来,得到一个信源输出序列: AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_POER_SE TRYGAIETRWCO … 可见,这些字母完全是随机排列,毫无相关性,却不是英语单词,所以我们应该考虑字母的依赖性。 为了进一步逼近实际情况,可把婴语信源近似地看作1阶,2阶,…,∞阶马尔可夫信源,求得相应的熵 2 3.32(/)H bit symbol = 3 3.1(/)H bit symbol = 异推出,马尔可夫信源阶数越高,输出的序列越接近实际情况。当依赖关系延伸到无穷远时,信源输出就是真正的英语。所以我们求马尔可夫信源的极限熵 1.4(/)H bit symbol ∞= 二、汉语信源及其信息熵

实验一:绘制信源熵函数曲线

信息与通信工程学院实验报告 (软件仿真性实验) 课程名称:信息论基础 实验题目:绘制信源熵函数曲线指导教师:毛煜茹 班级:15050541学号:19 学生姓名:王宇 一、实验目的和任务 掌握离散信源熵的原理和计算方法。 熟悉matlab软件的基本操作,练习应用matlab软件进行信源熵函数曲线的绘制。 理解信源熵的物理意义,并能从信源熵函数曲线图上进行解释其物理意义。 二、实验内容及原理 2.1实验内容: 用matlab软件绘制二源信源熵函数曲线。根据曲线说明信源熵的物理意义。 2.2实验原理: (1)离散信源相关的基本概念、原理和计算公式 产生离散信息的信源称为离散信源。离散信源只能产生有限种符号。 假定X是一个离散随机变量,即它的取值范围R={x1,x2,x3,…}是有限或可数的。设第i个变量x i 发生的概率为p i=P{X=x i}。则: 定义一个随机事件的自信息量I(x i)为其对应的随机变量x i出现概率对数的负值。即: I(x i )= -log 2 p(x i ) 定义随机事件X的平均不确定度H(X)为离散随机变量x i出现概率的数学期望,即:

∑∑-==i i i i i i x p x p x I x p X H )(log )()()()( 单位为 比特/符号 或 比特/符号序列。 平均不确定度H (X )的定义公式与热力学中熵的表示形式相同,所以又把平均不确定度H (X )称为信源X 的信源熵。 必须注意以下几点: 某一信源,不管它是否输出符号,只有这些符号具有某些概率特性,必有信源的熵 值;这熵值是在总体平均上才有意义,因而是个确定值,一般写成H (X ),X 是指随机变量的整体(包括概率分布)。 信息量则只有当信源输出符号而被接收者收到后,才有意义,这就是给与信息者的 信息度量,这值本身也可以是随机量,也可以与接收者的情况有关。 熵是在平均意义上来表征信源的总体特征的,信源熵是表征信源的平均不确定度, 平均自信息量是消除信源不确定度时所需要的信息的量度,即收到一个信源符号,全部解除了这个符号的不确定度。或者说获得这么大的信息量后,信源不确定度就被消除了。信源熵和平均自信息量两者在数值上相等,但含义不同。 当某一符号x i 的概率p (x i )为零时,p (x i )log p (x i ) 在熵公式中无意义,为此规定这 时的 p (x i )log p (x i ) 也为零。当信源X 中只含有一个符号x 时,必有p (x )=1,此时信源熵H (X )为零。 例1-1,设信源符号集X ={0,1},每个符号发生的概率分别为p (0)=p ,p (1)=q ,p+ q =1,即信源的概率空间为 ?? ????=?????? 1 0q p P X 则该二元信源的信源熵为: H (X ) = - p log p – q log q = - p log p – (1- p )log (1- p) 即:H (p) = - p log p – (1- p )log (1- p) 其中0 ≤ p ≤1

英语信源汉语信源信息熵的研究

英语信源、汉语信源及其信息熵的研究 摘要英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源 符号概率符号概率符号概率 空格0.2 S 0.052 Y,M 0.012 E 0.105 H 0.047 G 0.011 T 0.072 D 0.035 B 0.0105 O 0.0654 L 0.029 V 0.008 0.023 K 0.003 A 0.063 C N 0.059 F,U 0.0225 X 0.002 I 0.055 M 0.021 J,Q 0.001

R 0.054 P 0.0175 Z 0.001 如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得 27121()log () 4.03(/) i i i H p a p a bit symbol ==-=∑ 1.4(/)H bit symbol ∞= 二、汉语信源及其信息熵 对于英语,字符数少,可轻松的计算出英语信源的信息熵,但是对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计

与计算。方法同上面的英语信源信息熵的计算,不过计算量增加了非常多。下面是截取的一些统计资料。 CCL 语料库-现代汉语总字频数:307,317,060 总字种数:9711 字频表: 的:11523375 一:4140344 是:3291508 了:3059837 在:2933070 人:2827726 不:2733842 国:2645758 有:2507415 中:2182025 他:2029395 这:1968713 我:1940875 和:1872750 大:1832977 (ZIPF'S LAW)核算,汉字的容量极限是12366个汉字,汉字的平均信息量是9.65比特 三、英语信源和汉语信源的比较 显而易见,汉语信源的信源熵远远大于英语信源的信息熵,说明

信源及信源熵习题答案

· 1 · 第二章: 2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 0.75 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 2 213 52 13=-=-==

信息论与编码实验报告-信源熵值的计算

实验报告 课程名称:信息论与编码姓名: 系: 专业: 年级: 学号: 指导教师: 职称: 年月日

实验一 信源熵值的计算 一、 实验目的 1 进一步熟悉信源熵值的计算 2熟悉 Matlab 编程 二、实验原理 熵(平均自信息)的计算公式 ∑∑=--==q i i i q i i i p p p p x H 1 212log 1 log )( MATLAB 实现:))(log *.(2x x sum HX -=;或者))((log *)(2i x i x h h -= 流程:第一步:打开一个名为“nan311”的TXT 文档,读入一篇英文文章存入一个数组temp ,为了程序准确性将所读内容转存到另一个数组S ,计算该数组中每个字母与空格的出现次数(遇到小写字母都将其转化为大写字母进行计数),每出现一次该字符的计数器+1; 第二步:计算信源总大小计算出每个字母和空格出现的概率; 最后,通过统计数据和信息熵公式计算出所求信源熵值(本程序中单位为奈特nat )。 程序流程图:

三、实验内容 1、写出计算自信息量的Matlab 程序 2、已知:信源符号为英文字母(不区分大小写)和空格。 输入:一篇英文的信源文档。 输出:给出该信源文档的中各个字母与空格的概率分布,以及该信源的熵。 四、实验环境 Microsoft Windows 7 Matlab 6.5 五、编码程序 #include"stdio.h" #include #include #define N 1000 int main(void) { char s[N]; int i,n=0; float num[27]={0}; double result=0,p[27]={0}; FILE *f; char *temp=new char[485]; f=fopen("nan311.txt","r"); while (!feof(f)) { fread(temp,1, 486, f);} fclose(f); s[0]=*temp; for(i=0;i='a'&&s[i]<='z') num[s[i]-97]++; else if(s[i]>='A'&&s[i]<='Z')

信源熵值计算实验报告

实验一.信源熵值计算 1.实验目的 进一步熟悉信源熵值的计算 掌握编程语言字符处理程序的设计和调试技术 2.实验要求 已知:信源符号为英文字母(不区分大小写)和空格。 输入:一篇英文的信源文档。 输出:给出该信源文档的中各个字母与空格的概率分布,以及该信源的熵。 3.程序流程 第一步:打开一个名为“guojia ”的TXT 文档,读入一篇英文文章存入一个数组temp ,为了程序准确性将所读内容转存到另一个数组S ,计算该数组中每个字母与空格的出现次数(遇到小写字母都将其转化为大写字母进行计数),每出现一次该字符的计数器+1; 第二步:计算信源总大小计算出每个字母和空格出现的概率; 最后,通过统计数据和信息熵公式计算出所求信源熵值(本程序中单位为奈特nat )。 程序流程图: ↓ 4.程序如下:

#include"stdio.h" #include #include #define N 1000 int main(void) { char s[N]; int i,n=0; float num[27]={0}; double result=0,p[27]={0}; FILE *f; char *temp=new char[485]; f=fopen("guojia.txt","r"); while (!feof(f)) { fread(temp,1, 486, f);} fclose(f); s[0]=*temp; for(i=0;i='a'&&s[i]<='z') num[s[i]-97]++; else if(s[i]>='A'&&s[i]<='Z') num[s[i]-65]++; } printf("文档中各个字母出现的频率:\n"); for(i=0;i<26;i++) { p[i]=num[i]/strlen(s); printf("%3c:%f\t",i+65,p[i]); n++; if(n==3) { printf("\n");

实验一:绘制信源熵函数曲线

成绩 信息与通信工程学院实验报告 (软件仿真性实验) 课程名称:信息论基础 实验题目:绘制信源熵函数曲线指导教师:毛煜茹班级:学号:19 学生姓名:王宇 一、实验目的和任务 掌握离散信源熵的原理和计算方法。 熟悉matlab软件的基本操作,练习应用matlab软件进行信源熵函数曲线的绘制。 理解信源熵的物理意义,并能从信源熵函数曲线图上进行解释其物理意义。二、实验内容及原理 实验内容: 用matlab软件绘制二源信源熵函数曲线。根据曲线说明信源熵的物理意义。 实验原理: (1)离散信源相关的基本概念、原理和计算公式 产生离散信息的信源称为离散信源。离散信源只能产生有限种符号。

假定X是一个离散随机变量,即它的取值范围R={x1,x2,x3,…}是有限或可数的。设第i个变量x i发生的概率为p i=P{X=x i}。则: 定义一个随机事件的自信息量I(x i)为其对应的随机变量x i出现概率对数的负值。即: I(x i)= -log2p(x i) 定义随机事件X的平均不确定度H(X)为离散随机变量x i出现概率的数学期望,即: ∑∑ - = = i i i i i i x p x p x I x p X H) ( log ) ( ) ( ) ( ) ( 单位为比特/符号或比特/符号序列。 平均不确定度H(X)的定义公式与热力学中熵的表示形式相同,所以又把平均不确定度H(X)称为信源X的信源熵。 必须注意以下几点: 某一信源,不管它是否输出符号,只有这些符号具有某些概率特性,必有信源的熵值; 这熵值是在总体平均上才有意义,因而是个确定值,一般写成H(X),X是指随机变 量的整体(包括概率分布)。 信息量则只有当信源输出符号而被接收者收到后,才有意义,这就是给与信息者的信 息度量,这值本身也可以是随机量,也可以与接收者的情况有关。 熵是在平均意义上来表征信源的总体特征的,信源熵是表征信源的平均不确定度,平 均自信息量是消除信源不确定度时所需要的信息的量度,即收到一个信源符号,全 部解除了这个符号的不确定度。或者说获得这么大的信息量后,信源不确定度就被 消除了。信源熵和平均自信息量两者在数值上相等,但含义不同。 当某一符号x i的概率p(x i)为零时,p(x i)log p(x i) 在熵公式中无意义,为此规定这时的 p(x i)log p(x i) 也为零。当信源X中只含有一个符号x时,必有p(x)=1,此时信源熵H (X)为零。

信息论与编码实验报告(DOC)

实验一 绘制二进熵函数曲线(2个学时) 一、实验目的: 1. 掌握Excel 的数据填充、公式运算和图表制作 2. 掌握Matlab 绘图函数 3. 掌握、理解熵函数表达式及其性质 二、实验要求: 1. 提前预习实验,认真阅读实验原理以及相应的参考书。 2. 在实验报告中给出二进制熵函数曲线图 三、实验原理: 1. Excel 的图表功能 2. 信源熵的概念及性质 ()()[] ()[]())(1)(1 .log )( .) ( 1log 1log ) (log )()(10 , 110)(21Q H P H Q P H b n X H a p H p p p p x p x p X H p p p x x X P X i i i λλλλ-+≥-+≤=--+-=-=≤≤? ?????-===??????∑ 单位为 比特/符号 或 比特/符号序列。 当某一符号xi 的概率p(xi)为零时,p(xi)log p(xi) 在熵公式中无意义,为此规定这时的 p(xi)log p(xi) 也为零。当信源X 中只含有一个符号x 时,必有p(x)=1,此时信源熵H (X )为零。 四、实验内容: 用Excel 和Matlab 软件制作二进熵函数曲线。根据曲线说明信源熵的物理意义。 (一) Excel 具体步骤如下: 1、启动Excel 应用程序。 2、准备一组数据p 。在Excel 的一个工作表的A 列(或其它列)输入一组p ,取步长为0.01,从0至100产生101个p (利用Excel 填充功能)。

3、取定对数底c,在B列计算H(x) ,注意对p=0与p=1两处,在B列对应位置直接输入0。Excel中提供了三种对数函数LN(x),LOG10(x)和LOG(x,c),其中LN(x)是求自然对数,LOG10(x)是求以10为底的对数,LOG(x,c)表示求对数。选用c=2,则应用函数LOG(x,2)。 在单元格B2中输入公式:=-A2*LOG(A2,2)-(1-A2)*LOG(1-A2,2) 双击B2的填充柄,即可完成H(p)的计算。 4、使用Excel的图表向导,图表类型选“XY散点图”,子图表类型选“无数据点平滑散点图”,数据区域用计算出的H(p)数据所在列范围,即$B$1:$B$101。在“系列”中输入X值(即p值)范围,即$A$1:$A$101。在X轴输入标题概率,在Y轴输入标题信源熵。 (二)用matlab软件绘制二源信源熵函数曲线 p = 0.0001:0.0001:0.9999; h = -p.*log2(p)-(1-p).*log2(1-p); plot(p,h) 五、实验结果

相关主题
文本预览
相关文档 最新文档