MIT_信息与熵课件_chapter (1)
- 格式:pdf
- 大小:184.55 KB
- 文档页数:6
第1章位就像长度以米为量度,时间以秒为量度一样,信息以位为量度。
当然,知道了信息量并不等同于知道了信息本身,它是什么意思或者它意味着什么。
讲义中我们不会考虑信息的内容或含义,只考虑信息量。
不同的环境下需要不同的尺度衡量长度。
有时候我们用千米量度长度,有时侯用英尺,还有时候用埃。
与之类似,除了位以外我们有时候需要其他信息的尺度;在物理系统中信息通常以焦耳每绝对温度衡量。
信息是怎么被量化的?考虑一种有几种可能结果的情形。
举个例子,像掷一枚硬币(两种结果,正面或反面)或是从一副扑克牌中选一张拍(52种可能的结果)。
一个人(按照惯例叫做Alice )怎么才能简洁地把这个结果告诉另外一个人(Bob )呢?首先考虑掷一枚硬币的两种结果的情况,假设它们的可能性相等。
如果Alice 要告诉Bob 掷硬币的结果,她有几种可能的方法,说“正面”或“反面,或者那种情况下说0或1;但根据传递的信息量,它们是一样的。
我们说传递的信息是1位。
如果Alice 掷两枚硬币,她可以说两次0或1,这样就说明了四种实际可能发生的情况。
相似地,一个8种可能结果的试验的结果可以用3位来表达;更一般地,种结果的试验用n 位表达。
这样,信息量是可能结果的对数(以2为底)。
n2注意传递信息需要两个阶段。
第一个为“起始”阶段,在这个阶段Alice 和Bob 对他们将要传递什么信息,每个位究竟代表什么达成一致的意见。
这样共有的认识称为编码。
这个过程在结果产生以前就完成了。
然后,就是“通讯”阶段,在这个阶段发送0和1的序列。
这些序列叫做数据。
所以要表达一副拍的花色,编码可以是00代表梅花,01代表方块,10代表红桃,11代表黑桃。
用这个编码Alice 就可以抽一张拍,然后发送两位数据来告诉Bob 它的花色。
用同样的编码,她可以重复地做多个实验。
在Bob 知道有一张拍被抽之后,但收到Alice 的信息之前,他并不确定花色。
这个不确定性,或信息缺失也可以用位来表达。
1第5讲 随机变量的信息熵在概率论和统计学中,随机变量表示随机试验结果的观测值。
随机变量的取值是不确定的,但是服从一定的概率分布。
因此,每个取值都有自己的信息量。
平均每个取值的信息量称为该随机变量的信息熵。
信息熵这个名称是冯诺依曼向香农推荐的。
在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。
物理学中的熵也称为热熵。
信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。
香农用信息熵度量一个物理系统内部状态和运动的不确定性。
信息熵是信息论的核心和基础概念,具有多种物理意义。
香农所创立的信息论是从定义和研究信息熵开始的。
这一讲我们学习信息熵的定义和性质。
1. 信息熵我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。
定义1.1 设离散型随机变量X 的概率空间为1212......n n x x x X p p p P ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦我们把X 的所有取值的自信息的期望称为X 的平均自信息量,通常称为信息熵,简称熵(entropy ),记为H(X),即11()[()]logni i iH X E I X p p ===∑ (比特)信息熵也称为香农熵。
注意,熵H (X )是X 的概率分布P 的函数,因此也记为H (P )。
定义1.2 信息熵表达式中的对数底可取任何大于等于2的整数r ,所得结果称为r-进制熵,记为H r (X ),其单位为“r-进制单位”。
我们有2()()log r X H H rX =注意,在关于熵的表达式中,我们仍然约定0log 00 0log00x==, 信息熵的物理意义:信息熵可从多种不同角度来理解。
(1) H(X)是随机变量X 的取值所能提供的平均信息量。
(2) 统计学中用H(X)表征随机变量X 的不确定性,也就是随机性的大小。
例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。
第1章位就像长度以米为量度,时间以秒为量度一样,信息以位为量度。
当然,知道了信息量并不等同于知道了信息本身,它是什么意思或者它意味着什么。
讲义中我们不会考虑信息的内容或含义,只考虑信息量。
不同的环境下需要不同的尺度衡量长度。
有时候我们用千米量度长度,有时侯用英尺,还有时候用埃。
与之类似,除了位以外我们有时候需要其他信息的尺度;在物理系统中信息通常以焦耳每绝对温度衡量。
信息是怎么被量化的?考虑一种有几种可能结果的情形。
举个例子,像掷一枚硬币(两种结果,正面或反面)或是从一副扑克牌中选一张拍(52种可能的结果)。
一个人(按照惯例叫做Alice )怎么才能简洁地把这个结果告诉另外一个人(Bob )呢?首先考虑掷一枚硬币的两种结果的情况,假设它们的可能性相等。
如果Alice 要告诉Bob 掷硬币的结果,她有几种可能的方法,说“正面”或“反面,或者那种情况下说0或1;但根据传递的信息量,它们是一样的。
我们说传递的信息是1位。
如果Alice 掷两枚硬币,她可以说两次0或1,这样就说明了四种实际可能发生的情况。
相似地,一个8种可能结果的试验的结果可以用3位来表达;更一般地,种结果的试验用n 位表达。
这样,信息量是可能结果的对数(以2为底)。
n2注意传递信息需要两个阶段。
第一个为“起始”阶段,在这个阶段Alice 和Bob 对他们将要传递什么信息,每个位究竟代表什么达成一致的意见。
这样共有的认识称为编码。
这个过程在结果产生以前就完成了。
然后,就是“通讯”阶段,在这个阶段发送0和1的序列。
这些序列叫做数据。
所以要表达一副拍的花色,编码可以是00代表梅花,01代表方块,10代表红桃,11代表黑桃。
用这个编码Alice 就可以抽一张拍,然后发送两位数据来告诉Bob 它的花色。
用同样的编码,她可以重复地做多个实验。
在Bob 知道有一张拍被抽之后,但收到Alice 的信息之前,他并不确定花色。
这个不确定性,或信息缺失也可以用位来表达。
听到结果,他的不确定性减少了,因为他收到了信息。
Bob 的不确定性在起始阶段增加,在通讯阶段减少。
注意一些关于信息的重要结论,其中一些在本例中已经说明。
z 通过观察,实验和测量可以得到信息。
z 信息是主观的,或者说“依赖于观察者的”。
Alice 知道的东西和Bob 知道的东西不同。
(如果信息不是主观的,也就不需要通讯来传递信息了。
)z 当一个人知道了在一次观察中信息是有效的,他对事情的不确定性就增加了,当收到了那条信息,不确定性就减少了。
z 可以丢失信息,或者通过丢失数据本身,或者丢失编码。
z 用空间和时间可以定位信息的物理形式。
如一个序列……-信息可以从一个地方被发送到另一个地方。
-信息可以被储存,并在之后重新获得。
1.1 数学位我们看到,信息可以通过01序列来传递。
这一非常有力的抽象使得我们可以忽略特定信息处理和传输系统中伴随的许多细节。
位很简单,只有两个可能的值,而且用于处理单个位的数学并不难。
以数学家George Boole(1815-1864)的名字命名,这就是布尔代数。
在某些方面,布尔代数与高中讲授的整数或实数的代数相似,但在某些方面又不同。
代数涉及的是有某些可能值的变量,还涉及当给出一个或更多的变量时会返回某些可能值的函数。
在布尔代数中可能值是0和1。
准确的说,有4种单变量的布尔函数。
其中一个称为单位函数,它只是简单地返回参数。
另一个称为否定函数,或负函数、反函数、互补函数,它把0变为1,反之亦然。
另外2个函数不管参数是什么都返回0或1,。
描述这些函数最简单的方法就是给出一个带有运算结果的表格:表1.1:单变量布尔函数我们注意到布尔函数比涉及整数和实数的代数简单得多,无疑这些代数都有很多单变量函数。
对两个变量A和B有多少个布尔函数呢?这2个变量中,每一个都可能有2个值,所以有4种可能的输入组合。
将2个布尔值赋给4个输入将会有16种不同的方法。
这16种方法中,2个与输入无关,4个将输出赋予A或B,或是它们的相反的值,其他10个取决于2个输入参数。
最常用的是与,或,异或,与非和或非,如表1.2所示。
我们往往会将布尔值0和1看作和整数0和1是一样的。
那么从某种程度上说,与就是相乘,或就是相加。
然而,简单地从一般代数得到的相似的结果对布尔代数并不成立,所以这样的类比是危险的。
尽管有时候不是很容易,但是完全有必要区分整数和布尔值。
表1.2:双变量布尔函数布尔代数所用的标准符号使得这一任务变得更难了。
(尽管它可能引起混淆,但在这儿我们仍使用这个符号,因为实际当中难以使用不至引起混淆的符号。
)与函数表示为乘法的方式,将两个布尔值相邻排列,中间加一点:A与B写成A·B。
或函数用加号表示:A+B就是A或B。
取反,或称非函数,表示为在符号或表达式上边加一杠,这样取反A就为A。
A⊕。
最后,异或函数XOR表示为内部含有加号的一个圆圈,B布尔函数有些一般的性质非常有用。
通常可以简单地通过对所有有限的可能组合的数进行示范运算进而证明这些性质。
取反 A 与B A • 与非 B A • 或B A + 异或B A ⊕ 表1.3:布尔逻辑符号一个函数如果输出已知可以求出输入,则称该函数是可逆的。
由此4个单变量函数中2个是可逆的(事实上也是自逆的(self-inverse ))。
两个(或更多)输入的函数中显然都是不可逆的,因为输入变量多于输出变量,但是两个或两个以上这样的函数的组合可能是可逆的;比如可以很容易证明当异或函数B A ⊕乘以返回第一个参数的函数时是可逆的。
对于两个变量的函数来说,有很多需要考虑的性质。
比如设A ,B 和C 是布尔变量,或为0或为1,那么函数与是可交换的,因为A B B A •=•。
16个函数中很多也是可交换的。
表4.4概括了布尔代数的一些性质。
表1.4:布尔代数的性质布尔代数还用到一些符号。
这里使用的是最常见的。
有时候与,或和非表示为,和。
有时候使用中缀符号,,,),(B A AND ),(B A OR )(A NOT B A B A •∧表示B A B A +∨表示A A 表示~。
布尔代数在数学逻辑中也非常有用,其中通常地符号,,B A B A •∧表示B A B A +∨表示A A 表示¬。
1.2 物理位如果信息可以被存储或被传输,它一定有一种物理形式。
存储位的装置一定有两个状态,一个表示0,另一个表示1。
将装置设置为这些状态中的一个或另外一个,这样就存储了一位。
当需要该位时就测量该装置的状态。
如果这个装置从一个地方被移动到另外一个地方,那么就发生了通讯。
如果该装置持续存在一段时间,那么就可以把它当作存储器。
如果该装置随机地改变其值,那么它便丢失了初始值。
我们通常对小的物理设备感兴趣。
一个存储一位信息的物体有多小的极限来自于量子力学。
一个量子位是一个可以存储一位信息的物体,但它非常小以至从属于量子力学对测量定义的极限。
特别地,如果不能改变一个被测量的物体,那就不能进行测量。
另外一方面,如果很多个相互作用的物体代表一位,那就可以进行测量,而且有足够多的物体可以保持不变,这样就可以再次测量相同的位。
如果不是所有的物体都用相同的方式测量,那么结果可能处于两种可能布尔值的中间状态。
1.3 标准位在当今的电子系统中许多设备可以携带信息,所有设备都采用同样的方式(或至少是一种方便查看的方式)。
这样半导体存储器用可能一千个电子的聚集或缺失来存储一位。
相似地无线电通信中使用了大量的光子。
因为涉及大量的设备,对它们的测量不能仅局限于简单的是或不是,而应该是在一段连续值之间变化。
所以一个半导体逻辑元件的电压可能就是在一个范围,比如0V到5V,之间的任何值。
电压值也允许存在小范围的误差,所以0V到1V之间的电压都表示逻辑0,4V到5V之间的电压都表示逻辑1。
电路也许不会保证对1V到4V之间的电压做出合适的说明。
如果电路中的噪声总小于1V,那么每个门电路的输出或为0V或为5V,这样电压总是表示为没有误差的位。
因为信息处理时消除了小范围误差,这种电路显示的值被称为“恢复逻辑”。
现代计算机的鲁棒性依靠恢复逻辑的应用。
标准位是一个可以无干扰地测量一个位的抽象概念。
所以可以得到标准位的副本(量子位不可以被复制)。
这个抽象概念对应用恢复逻辑的电路非常有用。
因为所有的物理系统最终将遵循量子力学理论,标准位也只是对实际情况的一个理想化近似。
然而,即使是对于最先进最小的可用设备,这也是一个应用地极好的概念。
有趣的问题是随着半导体技术减小组件的尺寸,标准位的概念是否将继续有用。
最终,当我们试图控制涉及少量原子或光子的位时,量子力学的限制作用将变得非常重要。
很难准确地确定何时会发生这些情况,但某些人相信在2015年以前它就会发生。
1.4 量子位根据量子力学,一个小的物体可能有两种可测量的两种状态。
这听上去非常适合存储位。
但是如果这两种状态有相同的能量,那么有可能预备一个物体,它组合了这两种状态。
那还能测量它么?在标准的环境中,测量可以精确地确定这样的组合是多少。
此外,为了更准确的测量需要重复测量,然后取各个结果的平均值。
但是,量子环境不同。
量子测量中,有一个问题就是一个物体是否会保持某个特定的状态,回答总是“是”或“不是”,从来不是“可能”,比如,从来不会是“27%是,73不是。
”此外,根据回答,在测量后系统会结束一个状态,这样以后的测量不会产生附加的信息。
不能预测所有特定测量的结果,但是根据概率有两种可能的答案。
量子力学这个奇特的性质带来了单个量子位能携带的信息的极限,也带来了一个设计出可以利用这些特性的系统的机会。
我们将通过一个例子来说明量子位。
假设量子为一个光子,它是电磁辐射(包括无线电,电视,和光)的初等粒子。
光子是一个很好的将信息从一个地方带向另外一个地方的备选对象。
它很小,运行很快。
光子有同时震荡着的电场和磁场。
电场的方向称为极化(在此我们不考虑圆形极化光子)。
如果一个光子朝向z轴运动,它的电场则可能在x轴运动,可能在y轴运动,或者事实上在x-y平面(水平-垂直平面)的任何一个方向上。
极化作用可以用来存储一位信息。
如果该位是0,Alice就可以准备一个水平极化的光子,如果位是1,可以准备一个垂直极化光子。
然后当Bob得到光子时,他可以测量它的垂直极化性(比如,问问极化作用是否是垂直方向的)。
如果答案是“是”,那他就会推断出该位是1。
可能会想到用单个光子的极化作用传递多于一位的信息。
为什么不让Alice用不同于水平和垂直的角度发送两位信息?为什么不用水平的,垂直的,向右侧倾斜的中间角度和向左侧倾斜的中间角度。
问题在于Bob不得不决定测量什么角度。
由于量子力学的限制,他不能问“极化的角度是多少”,但只能问“极化作用是不是在我选择测量的那个方向。