当前位置:文档之家› 矩阵与范数—扫盲

矩阵与范数—扫盲

矩阵与范数—扫盲
矩阵与范数—扫盲

矩阵论主要研究的是线性空间以及在线性空间中的一些操作,主要是线性变换。当然书中主要是针对有限维的情况来讨论的,这样的话就可以用向量和矩阵来表示线性空间和线性变换,同其他的数学形式一样,矩阵是一种表达形式(notation),而这一方面可以简洁地表达出我们平时遇到的如线性方程和协方差关系的协方差矩阵等,另一方面又给进一步的研究或者问题的简化提供了一个平台。如特征值分析、稳定性分析就对应着诸如统计分布和系统稳定性等实际问题。而一系列的分解则可以方便方程的数值计算。作为矩阵论的学习,我们需要了解具体的一些计算究竟是怎么算的,但更关键的是要知道各个概念和方法的实际意义,各个概念之间的关系。

首先介绍的是线性空间,对于线性空间中的任意一个向量的表示有基(相当于度量单位)和坐标(相当于具体的尺度),基既然作为度量标准了,当然要求对每一个向量都适用,同时这个标准本身也应该尽可能的简洁,那么就得到了基定义的两点约束:1、基的组成向量线性无关;2、线性空间中的任一个向量都可以由基的线性表示。

基作为一种“计量标准”,当然可能会存在多种形式,只要满足上面的两点条件,因而就有必要解决不同的度量标准之间的转换关系,从而得到过渡矩阵的概念,同时可以使用这种转换关系(过渡矩阵)去完成度量量(坐标)之间的转换。

在完成了线性空间这一对象的认识和表达之后,下面需要研究对象和对象之间的关系。这里主要是线性变换,线性变换针对于实际对象主要完成类似于旋转和尺度变换方面的操作,而这种操作也牵涉到表达的问题。为了保持与空间的一致性,我们也同样是在特定的基下来表示,从而线性变换就具体化为一个变换矩阵,并且,在不同的基下对应的变换矩阵当然也不相同,这里的不同的变换矩阵的关系就是相似的概念。

到此,我们完成了空间中向量的表示和线性变换的矩阵表达。这里涉及了基、坐标、过渡矩阵、变换矩阵、相似矩阵这几个重要的概念。上面算是内涵上的认识,下面我们需要知道线性空间里究竟有些什么东西,它是如何组成的,各个组

成成分之间的关系,也就是空间的结构性方面的东西。

首先认识子空间(空间的组成部分),当然既然也是空间,也就要满足空间的加法和数乘的封闭性,要满足那八条定律。后者可以由父空间保证,前面的就要子空间自身素质了。同时要看子空间之间的并、交、直和运算和相应的秩的关系。这里提到了维数,就要多说几句了,空间中的元素往往是连续过渡的,但是对于有限空间而言还有离散的性质,那就是维数,我称其为“不伸则已,一伸则增一”,从这也就说明了为什么可以用若干个子空间的直和可以等价于原线性空间。

子空间的形式很多,有生成子空间、值域空间、零空间(木木先生注:此处指核空间)和特征子空间等等,我们重点看看特征子空间。一个空间可以划分为若干个特征子空间的直和形式,而每个特征子空间的共同特征就是具有相同的特征值,范围就是对应着这个特征值的若干特征向量的生成子空间。

为什么要这样划分?因为我们在平时的研究中,整个线性空间太大了,我们需要缩小研究范围,某一个或几个特征子空间就够了。或者是模式分类时,每一个样本点就属于某个子空间,我们首先需要知道有哪些类,类的特点是什么,这就是特征子空间。当然对于协方差矩阵而言,特征值还具有能量属性,在清楚各个特征子空间的位置后,我们可以通过某些变换改变这些子空间的空间分布。在系统研究中,还可以在清楚特征子空间分布后成功地实现系统或方程的解耦。呵呵,可能其用途很多很多,但关键的一点就是,我们必须认识空间的结构,在此基础上再结合对应的物理空间或几何空间的实际意义进行进一步的处理。

人心苦不足,在知道了上面的东西之后,大家在想,可视的二维平面和三维立体空间中,为了研究向量的长度及向量和向量之间的角度,提出了内积的概念,在线性空间中,人们也对内积的概念作了延拓,于是将原先的线性空间添油加醋改装成了内积空间(分为实数的欧式空间和复内积空间),这里的油醋就是以下的四点:1、交换律;2、分配律;3、齐次性;4、非负性。向量自身的内积开二次根得到长度,两个向量内积除以两个向量的长度得到角度的余

弦。所有这些都是与可视空间中的性质是一致的(可以参阅《由相容性想到的》)。这里要注意的是,它只给出了内积的约束,但在具体的向量空间中内积的计算形式却没有硬性规定,要想量化内积,很自然地就是要知道,量化的标准是什么,这就引出了度量矩阵(结合具体的内积计算式,计算得到的基的内积构成的矩阵)的概念。考虑到内积的非负性和交换律,度量矩阵必须是对称正定矩阵。这里也和前面一样,度量矩阵是在一定基下定义的,当基变化了,度量矩阵也会发生改变,相同的内积定义式在不同的基下得到的度量矩阵是合同的,呵呵,又多了一个概念。而且,对称变换、正交性也在内积这找到了家。

老是待在线性代数的视野范围内,终归有些不爽,下面就正式进入了分析的领域,既然是矩阵分析,首先就是什么是矩阵函数,该如何定义,当然书中是先从矩阵级数出发的,既然是级数,就会牵涉到部分和的收敛问题,收敛就是极限问题,如何定义矩阵的极限?

最原始的就是按坐标收敛,不过那么多的元素要收敛,太累了!怎么办呢?其实这从本质上来说是多元衡量尺度一元化的问题,于是就找出了范数的概念,用一个范数来代替多个元素的收敛问题的讨论。不同矩阵范数的等价性保证了函数极限的一致性。在某种程度上范数成了距离的代名词,但要注意的是范数的概念要比距离强得多(主要是增加了绝对齐次性),我们会用范数去表示不同样本之间的距离,用范数去表示误差程度,用范数去衡量许许多多的表示某种程度的量。

其实总结到此本来可以宣告结束,但是随着计算技术的发展,诸如线性方程组求解、矩阵求逆等问题都需要一些补充内容:

1、矩阵分解(简化方程求解)

2、广义逆(病态矩阵和一般矩阵的求逆问题)不过其最小二乘性质还真好使。

3、特征值估计(求高阶的多项式方程可是要命的事,大概知道特征值和特征空间的位置对于一定的应用场合就可以了)

这就是我暂时对矩阵论的理解,呵呵,相对于一年前对线性代数的理解要深

刻得多了,在以后的研究实践中会进一步丰富的。

什么是范数矩阵论及矩阵计算

在介绍主题之前,先来谈一个非常重要的数学思维方法:几何方法。在大学之前,我们学习过一次函数、二次函数、三角函数、指数函数、对数函数等,方程则是求函数的零点;到了大学,我们学微积分、复变函数、实变函数、泛函等。我们一直都在学习和研究各种函数及其性质,函数是数学一条重要线索,另一条重要线索——几何,在函数的研究中发挥着不可替代的作用,几何是函数形象表达,函数是几何抽象描述,几何研究“形”,函数研究“数”,它们交织在一起推动数学向更深更抽象的方向发展。

函数图象联系了函数和几何,表达两个数之间的变化关系,映射推广了函数的概念,使得自变量不再仅仅局限于一个数,也不再局限于一维,任何事物都可以拿来作映射,维数可以是任意维,传统的函数图象已无法直观地表达高维对象之间的映射关系,这就要求我们在观念中,把三维的几何空间推广到抽象的n 维空间。

由于映射的对象可以是任何事物,为了便于研究映射的性质以及数学表达,我们首先需要对映射的对象进行“量化”,取定一组“基”,确定事物在这组基下的坐标,事物同构于我们所熟悉的抽象几何空间中的点,事物的映射可以理解为从一个空间中的点到另一个空间的点的映射,而映射本身也是事物,自然也可以抽象为映射空间中的一个点,这就是泛函中需要研究的对象——函数。

从一个线性空间到另一个线性空间的线性映射,可以用一个矩阵来表达,矩

阵被看作线性映射,线性映射的性质可以通过研究矩阵的性质来获得,比如矩阵的秩反映了线性映射值域空间的维数,可逆矩阵反映了线性映射的可逆,而矩阵的范数又反映了线性映射的哪些方面的性质呢?矩阵范数反映了线性映射把一个向量映射为另一个向量,向量的“长度”缩放的比例。

范数是把一个事物映射到非负实数,且满足非负性、齐次性、三角不等式,符合以上定义的都可以称之为范数,所以,范数的具体形式有很多种(由内积定义可以导出范数,范数还也可以有其他定义,或其他方式导出),要理解矩阵的算子范数,首先要理解向量范数的内涵。矩阵的算子范数,是由向量范数导出的,由形式可以知:

由矩阵算子范数的定义形式可知,矩阵A把向量x映射成向量Ax,取其在向量x范数为1所构成的闭集下的向量Ax范数最大值作为矩阵A的范数,即矩阵对向量缩放的比例的上界,矩阵的算子范数是相容的。由几何意义可知,矩阵的算子范数必然大于等于矩阵谱半径(最大特征值的绝对值),矩阵算子范数对应一个取到向量Ax范数最大时的向量x方向,谱半径对应最大特征值下的特征向量的方向。而矩阵的奇异值分解SVD,分解成左右各一个酉阵,和拟对角矩阵,可以理解为对向量先作旋转、再缩放、最后再旋转,奇异值,就是缩放的比例,最大奇异值就是谱半径的推广,所以,矩阵算子范数大于等于矩阵的最大奇异值,酉阵在此算子范数的意义下,范数大于等于1。此外,不同的矩阵范数是等价的。

范数理论是矩阵分析的基础,度量向量之间的距离、求极限等都会用到范数,范数还在机器学习、模式识别领域有着广泛的应用。

首先说说空间(space),这个概念是现代数学的命根子之一,从拓扑空间开始,一步步往上加定义,可以形成很多空间。线形空间其实还是比较初级的,如

果在里面定义了范数,就成了赋范线性空间。赋范线性空间满足完备性,就成了巴那赫空间;赋范线性空间中定义角度,就有了内积空间,内积空间再满足完备性,就得到希尔伯特空间。

总之,空间有很多种。你要是去看某种空间的数学定义,大致都是“存在一个集合,在这个集合上定义某某概念,然后满足某些性质”,就可以被称为空间。这未免有点奇怪,为什么要用“空间”来称呼一些这样的集合呢?大家将会看到,其实这是很有道理的。

我们一般人最熟悉的空间,毫无疑问就是我们生活在其中的(按照牛顿的绝对时空观)的三维空间,从数学上说,这是一个三维的欧几里德空间,我们先不管那么多,先看看我们熟悉的这样一个空间有些什么最基本的特点。仔细想想我们就会知道,这个三维的空间:1.由很多(实际上是无穷多个)位置点组成;

2. 这些点之间存在相对的关系;

3. 可以在空间中定义长度、角度;

4.这个空间可以容纳运动,这里我们所说的运动是从一个点到另一个点的移动(变换),而不是微积分意义上的“连续”性的运动,

上面的这些性质中,最最关键的是第4条。第1、2条只能说是空间的基础,不算是空间特有的性质,凡是讨论数学问题,都得有一个集合,大多数还得在这个集合上定义一些结构(关系),并不是说有了这些就算是空间。而第3条太特殊,其他的空间不需要具备,更不是关键的性质。只有第4条是空间的本质,也就是说,容纳运动是空间的本质特征。

认识到了这些,我们就可以把我们关于三维空间的认识扩展到其他的空间。事实上,不管是什么空间,都必须容纳和支持在其中发生的符合规则的运动(变换)。你会发现,在某种空间中往往会存在一种相对应的变换,比如拓扑空间中有拓扑变换,线性空间中有线性变换,仿射空间中有仿射变换,其实这些变换都只不过是对应空间中允许的运动形式而已。

因此只要知道,“空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动。

下面我们来看看线性空间。线性空间的定义任何一本书上都有,但是既然我

们承认线性空间是个空间,那么有两个最基本的问题必须首先得到解决,那就是:

1.空间是一个对象集合,线性空间也是空间,所以也是一个对象集合。那么线性空间是什么样的对象的集合?或者说,线性空间中的对象有什么共同点吗?

2.线性空间中的运动如何表述的?也就是,线性变换是如何表示的?

我们先来回答第一个问题,回答这个问题的时候其实是不用拐弯抹角的,可以直截了当的给出答案。线性空间中的任何一个对象,通过选取基和坐标的办法,都可以表达为向量的形式。通常的向量空间我就不说了,举两个不那么平凡的例子:

L1.最高次项不大于n次的多项式的全体构成一个线性空间,也就是说,这个线性空间中的每一个对象是一个多项式。如果我们以x0,x1, ...,xn为基,那么任何一个这样的多项式都可以表达为一组n+1维向量,其中的每一个分量ai 其实就是多项式中x(i-1)项的系数。值得说明的是,基的选取有多种办法,只要所选取的那一组基线性无关就可以。这要用到后面提到的概念了,所以这里先不说,提一下而已。

L2. 闭区间[a,b]上的n阶连续可微函数的全体,构成一个线性空间。也就是说,这个线性空间的每一个对象是一个连续函数。对于其中任何一个连续函数,根据魏尔斯特拉斯定理,一定可以找到最高次项不大于n的多项式函数,使之与该连续函数的差为0,也就是说,完全相等。这样就把问题归结为L1了。后面就不用再重复了。

所以说,向量是很厉害的,只要你找到合适的基,用向量可以表示线性空间里任何一个对象。这里头大有文章,因为向量表面上只是一列数,但是其实由于它的有序性,所以除了这些数本身携带的信息之外,还可以在每个数的对应位置上携带信息。为什么在程序设计中数组最简单,却又威力无穷呢?根本原因就在于此。这是另一个问题了,这里就不说了。

下面来回答第二个问题,这个问题的回答会涉及到线性代数的一个最根本的问题。

线性空间中的运动,被称为线性变换。也就是说,你从线性空间中的一个

点运动到任意的另外一个点,都可以通过一个线性变化来完成。那么,线性变换如何表示呢?很有意思,在线性空间中,当你选定一组基之后,不仅可以用一个向量来描述空间中的任何一个对象,而且可以用矩阵来描述该空间中的任何一个运动(变换)。而使某个对象发生对应运动的方法,就是用代表那个运动的矩阵,乘以代表那个对象的向量。

简而言之,在线性空间中选定基之后,向量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。

是的,矩阵的本质是运动的描述。如果以后有人问你矩阵是什么,那么你就可以响亮地告诉他,矩阵的本质是运动的描述。(chensh,说你呢!)可是多么有意思啊,向量本身不是也可以看成是n x1矩阵吗?这实在是很奇妙,一个空间中的对象和运动竟然可以用相类同的方式表示。能说这是巧合吗?如果是巧合的话,那可真是幸运的巧合!可以说,线性代数中大多数奇妙的性质,均与这个巧合有直接的关系。

上一篇里说“矩阵是运动的描述”,到现在为止,好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念,在数学和物理里是跟微积分联系在一起的。我们学习微积分的时候,总会有人照本宣科地告诉你,初等数学是研究常量的数学,是研究静态的数学,高等数学是变量的数学,是研究运动的数学。大家口口相传,差不多人人都知道这句话。但是真知道这句话说的是什么意思的人,好像也不多。简而言之,在我们人类的经验里,运动是一个连续过程,从A点到B点,就算走得最快的光,也是需要一个时间来逐点地经过AB之间的路径,这就带来了连续性的概念。而连续这个事情,如果不定义极限的概念,根本就解释不了。古希腊人的数学非常强,但就是缺乏极限观念,所以解释不了运动,被芝诺的那些著名悖论(飞箭不动、飞毛腿阿喀琉斯跑不过乌龟等四个悖论)搞得死去活来。因为这篇文章不是讲微积分的,所以我就不多说了。有兴趣的读者可以去看看齐民友教授写的《重温微积分》。我就是读了这本书开头的部分,才明白“高等数学是研究运动的数学”这句话的道理。

不过在我这个《理解矩阵》的文章里,“运动”的概念不是微积分中的连续性的运动,而是瞬间发生的变化。比如这个时刻在A点,经过一个“运动”,一下子就“跃迁” 到了B点,其中不需要经过A点与B点之间的任何一个点。这样的“运动”,或者说“跃迁”,是违反我们日常的经验的。不过了解一点量子物理常识的人,就会立刻指出,量子(例如电子)在不同的能量级轨道上跳跃,就是瞬间发生的,具有这样一种跃迁行为。所以说,自然界中并不是没有这种运动现象,只不过宏观上我们观察不到。但是不管怎么说,“运动”这个词用在这里,还是容易产生歧义的,说得更确切些,应该是“跃迁”。因此这句话可以改成:

“矩阵是线性空间里跃迁的描述”。

可是这样说又太物理,也就是说太具体,而不够数学,也就是说不够抽象。因此我们最后换用一个正牌的数学术语——变换,来描述这个事情。这样一说,大家就应该明白了,所谓变换,其实就是空间里从一个点(元素/对象)到另一个点(元素/对象)的跃迁。比如说,拓扑变换,就是在拓扑空间里从一个点到另一个点的跃迁。再比如说,仿射变换,就是在仿射空间里从一个点到另一个点的跃迁。附带说一下,这个仿射空间跟向量空间是亲兄弟。做计算机图形学的朋友都知道,尽管描述一个三维对象只需要三维向量,但所有的计算机图形学变换矩阵都是4x4的。说其原因,很多书上都写着“为了使用中方便”,这在我看来简直就是企图蒙混过关。真正的原因,是因为在计算机图形学里应用的图形变换,实际上是在仿射空间而不是向量空间中进行的。想想看,在向量空间里相一个向量平行移动以后仍是相同的那个向量,而现实世界等长的两个平行线段当然不能被认为同一个东西,所以计算机图形学的生存空间实际上是仿射空间。而仿射变换的矩阵表示根本就是4x 4的。又扯远了,有兴趣的读者可以去看《计算机图形学——几何工具算法详解》。

一旦我们理解了“变换”这个概念,矩阵的定义就变成:

“矩阵是线性空间里的变换的描述。”

到这里为止,我们终于得到了一个看上去比较数学的定义。不过还要多说几

句。教材上一般是这么说的,在一个线性空间V里的一个线性变换T,当选定一组基之后,就可以表示为矩阵。因此我们还要说清楚到底什么是线性变换,什么是基,什么叫选定一组基。线性变换的定义是很简单的,设有一种变换T,使得对于线性空间V中间任何两个不相同的对象x和y,以及任意实数a和b,有:T(ax + by) = aT(x) + bT(y),

那么就称T为线性变换。

定义都是这么写的,但是光看定义还得不到直觉的理解。线性变换究竟是一种什么样的变换?我们刚才说了,变换是从空间的一个点跃迁到另一个点,而线性变换,就是从一个线性空间V的某一个点跃迁到另一个线性空间W的另一个点的运动。这句话里蕴含着一层意思,就是说一个点不仅可以变换到同一个线性空间中的另一个点,而且可以变换到另一个线性空间中的另一个点去。不管你怎么变,只要变换前后都是线性空间中的对象,这个变换就一定是线性变换,也就一定可以用一个非奇异矩阵来描述。而你用一个非奇异矩阵去描述的一个变换,一定是一个线性变换。有的人可能要问,这里为什么要强调非奇异矩阵?所谓非奇异,只对方阵有意义,那么非方阵的情况怎么样?这个说起来就会比较冗长了,最后要把线性变换作为一种映射,并且讨论其映射性质,以及线性变换的核与像等概念才能彻底讲清楚。我觉得这个不算是重点,如果确实有时间的话,以后写一点。以下我们只探讨最常用、最有用的一种变换,就是在同一个线性空间之内的线性变换。也就是说,下面所说的矩阵,不作说明的话,就是方阵,而且是非奇异方阵。学习一门学问,最重要的是把握主干内容,迅速建立对于这门学问的整体概念,不必一开始就考虑所有的细枝末节和特殊情况,自乱阵脚。

接着往下说,什么是基呢?这个问题在后面还要大讲一番,这里只要把基看成是线性空间里的坐标系就可以了。注意是坐标系,不是坐标值,这两者可是一个“对立矛盾统一体”。这样一来,“选定一组基”就是说在线性空间里选定一个坐标系。就这意思。

好,最后我们把矩阵的定义完善如下:

“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能够用一个确定的矩阵来加以描述。”

理解这句话的关键,在于把“线性变换”与“线性变换的一个描述”区别开。一个是那个对象,一个是对那个对象的表述。就好像我们熟悉的面向对象编程中,一个对象可以有多个引用,每个引用可以叫不同的名字,但都是指的同一个对象。如果还不形象,那就干脆来个很俗的类比。

比如有一头猪,你打算给它拍照片,只要你给照相机选定了一个镜头位置,那么就可以给这头猪拍一张照片。这个照片可以看成是这头猪的一个描述,但只是一个片面的的描述,因为换一个镜头位置给这头猪拍照,能得到一张不同的照片,也是这头猪的另一个片面的描述。所有这样照出来的照片都是这同一头猪的描述,但是又都不是这头猪本身。

同样的,对于一个线性变换,只要你选定一组基,那么就可以找到一个矩阵来描述这个线性变换。换一组基,就得到一个不同的矩阵。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。

但是这样的话,问题就来了如果你给我两张猪的照片,我怎么知道这两张照片上的是同一头猪呢?同样的,你给我两个矩阵,我怎么知道这两个矩阵是描述的同一个线性变换呢?如果是同一个线性变换的不同的矩阵描述,那就是本家兄弟了,见面不认识,岂不成了笑话。

好在,我们可以找到同一个线性变换的矩阵兄弟们的一个性质,那就是:若矩阵A与B是同一个线性变换的两个不同的描述(之所以会不同,是因为选定了不同的基,也就是选定了不同的坐标系),则一定能找到一个非奇异矩阵P,使得A、B之间满足这样的关系:

A =P-1BP

线性代数稍微熟一点的读者一下就看出来,这就是相似矩阵的定义。没错,所谓相似矩阵,就是同一个线性变换的不同的描述矩阵。按照这个定义,同一头猪的不同角度的照片也可以成为相似照片。俗了一点,不过能让人明

白。

而在上面式子里那个矩阵P,其实就是A矩阵所基于的基与B矩阵所基于的基这两组基之间的一个变换关系。关于这个结论,可以用一种非常直觉的方法来证明(而不是一般教科书上那种形式上的证明),如果有时间的话,我以后在blog 里补充这个证明。

这个发现太重要了。原来一族相似矩阵都是同一个线性变换的描述啊!难怪这么重要!工科研究生课程中有矩阵论、矩阵分析等课程,其中讲了各种各样的相似变换,比如什么相似标准型,对角化之类的内容,都要求变换以后得到的那个矩阵与先前的那个矩阵式相似的,为什么这么要求?因为只有这样要求,才能保证变换前后的两个矩阵是描述同一个线性变换的。当然,同一个线性变换的不同矩阵描述,从实际运算性质来看并不是不分好环的。有些描述矩阵就比其他的矩阵性质好得多。这很容易理解,同一头猪的照片也有美丑之分嘛。所以矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵,而保证这两个矩阵都是描述了同一个线性变换。

这样一来,矩阵作为线性变换描述的一面,基本上说清楚了。但是,事情没有那么简单,或者说,线性代数还有比这更奇妙的性质,那就是,矩阵不仅可以作为线性变换的描述,而且可以作为一组基的描述。而作为变换的矩阵,不但可以把线性空间中的一个点给变换到另一个点去,而且也能够把线性空间中的一个坐标系(基)表换到另一个坐标系(基)去。而且,变换点与变换坐标系,具有异曲同工的效果。线性代数里最有趣的奥妙,就蕴含在其中。理解了这些内容,线性代数里很多定理和规则会变得更加清晰、直觉

首先来总结一下前面两部分的一些主要结论:

1. 首先有空间,空间可以容纳对象运动的。一种空间对应一类对象。

2. 有一种空间叫线性空间,线性空间是容纳向量对象运动的。

3. 运动是瞬时的,因此也被称为变换。

4. 矩阵是线性空间中运动(变换)的描述。

5. 矩阵与向量相乘,就是实施运动(变换)的过程。

6. 同一个变换,在不同的坐标系下表现为不同的矩阵,但是它们的本质是一样的,所以本征值相同。

言归正传。如果一组向量是彼此线性无关的话,那么它们就可以成为度量这个线性空间的一组基,从而事实上成为一个坐标系体系,其中每一个向量都躺在一根坐标轴上,并且成为那根坐标轴上的基本度量单位(长度1)。

现在到了关键的一步。看上去矩阵就是由一组向量组成的,而且如果矩阵非奇异的话(我说了,只考虑这种情况),那么组成这个矩阵的那一组向量也就是线性无关的了,也就可以成为度量线性空间的一个坐标系。结论:矩阵描述了一个坐标系。

“慢着!”,你嚷嚷起来了,“你这个骗子!你不是说过,矩阵就是运动吗?怎么这会矩阵又是坐标系了?”

嗯,所以我说到了关键的一步。我并没有骗人,之所以矩阵又是运动,又是坐标系,那是因为——

“运动等价于坐标系变换”。

对不起,这话其实不准确,我只是想让你印象深刻。准确的说法是:

“对象的变换等价于坐标系的变换”。

或者:

“固定坐标系下一个对象的变换等价于固定对象所处的坐标系变换。”

说白了就是:

“运动是相对的。”

在这里,我实际上已经回答了一般人在学习线性代数是最困惑的一个问题,那就是为什么矩阵的乘法要规定成这样。简单地说,是因为:

1. 从变换的观点看,对坐标系N施加M变换,就是把组成坐标系N的每一个向量施加M变换。

2.从坐标系的观点看,在M坐标系中表现为N的另一个坐标系,这也归结为,对N坐标系基的每一个向量,把它在I坐标系中的坐标找出来,然后汇成一个新的矩阵。

3.至于矩阵乘以向量为什么要那样规定,那是因为一个在M中度量为a的向量,如果想要恢复在I中的真像,就必须分别与M中的每一个向量进行內积运算。我把这个结论的推导留给感兴趣的朋友吧。应该说,其实到了这一步,已经很容易了。

第五专题 矩阵的数值特征(行列式、范数、条件数、迹、秩、相对特征根)

第五专题 矩阵的数值特征 (行列式、迹、秩、相对特征根、范数、条件数) 一、行列式 已知A p ×q , B q ×p , 则|I p +AB|=|I q +BA| 证明一:参照课本194页,例4.3. 证明二:利用AB 和BA 有相同的非零特征值的性质; 从而I p +AB ,I q +BA 中不等于1的特征值的数目 相同,大小相同;其余特征值都等于1。 行列式是特征值的乘积,因此|I p +AB|和|I q +BA|等于特征值(不等于1)的乘积,所以二者相等。 二、矩阵的迹 矩阵的迹相对其它数值特征简单些,然而,它在许多领域,如数值计算,逼近论,以及统计估计等都有相当多的应用,许多量的计算都会归结为矩阵的迹的运算。下面讨论有关迹的一些性质和不等式。 定义:n n ii i i 1 i 1 tr(A)a ====λ∑∑,etrA=exp(trA)

性质: 1. tr(A B)tr(A)tr(B)λ+μ=λ+μ,线性性质; 2. T tr(A )tr(A)=; 3. tr(AB)tr(BA)=; 4. 1 tr(P AP)tr(A)-=; 5. H H tr(x Ax)tr(Axx ),x =为向量; 6. n n k k i i i 1 i 1 tr(A),tr(A )===λ=λ∑∑; 从Schur 定理(或Jordan 标准形)和(4)证明; 7. A 0≥,则tr(A)0≥,且等号成立的充要条件是A=0; 8. A B(A B 0)≥-≥即,则tr(A)tr(B)≥,且等号成立的充要条件是A=B (i i A B (A)(B)≥?λ≥λ); 9. 对于n 阶方阵A ,若存在正整数k,使得A k =0,则tr(A)=0(从Schur 定理或Jordan 标准形证明)。 若干基本不等式 对于两个m ×n 复矩阵A 和B ,tr(A H B)是m ×n 维酉空间上的内积,也就是将它们按列依次排成的两个mn 维列向量的内积,利用Cauchy-schwarz 不等式 [x,y]2≤[x,x]﹒[y,y]

范数

3.3 范数 3.3.1 向量范数 在一维空间中,实轴上任意两点距离用两点差的绝对值表示。绝对值是一种度量形式的定义。 范数是对函数、向量和矩阵定义的一种度量形式。任何对象的范数值都是一个非负实数。使用范数可以测量两个函数、向量或矩阵之间的距离。向量范数是度量向量长度的一种定义形式。范数有多种定义形式,只要满足下面的三个条件即可定义为一个范数。同一向量,采用不同的范数定义,可得到不同的范数值。 定义3.1对任一向量,按照一个规则确定一个实数与它对应,记该实数记为 ,若满足下面三个性质: (1),有,当且仅当时,(非 负性) (2),,有(齐次性) (3.37)(3),,有(三角不等式) 那么称该实数为向量的范数。 几个常用向量范数 向量的范数定义为 其中,经常使用的是三种向量范数。

或写成 例3.5 计算向量的三种范数。 向量范数的等价性 有限维线性空间中任意向量范数的定义都是等价的。若是上两种不同的范数定义,则必存在,使均有 或 (证明略) 向量的极限 有了向量范数的定义,也就有了度量向量距离的标准,即可定义向量的极限和收敛概念了。

设为上向量序列,若存在向量使,则称向量列是收敛的(是某种向量范数),称为该向量序列的极限。 由向量范数的等价知,向量序列是否收敛与选取哪种范数无关。 向量序列,收敛的充分必要条件为其序列的每个分量收敛,即存在。 若,则就是向量序列 的极限。 例3.6 求向量序列极限向量。 解:算出每个向量分量的极限后得 在计算方法中,计算的向量序列都是数据序列,当小于给定精度时,取 为极限向量。 3.3.2 矩阵范数 矩阵范数定义

数值分析向量,矩阵范数,矩阵的条件数

§8 向量,矩阵范数,矩阵的条件数 一 、 向量、矩阵范数 为了讨论线性方程组近似解的误差估计与研究解方程组迭代法的收敛性,需要在)(n n n R R ?或中引进向量序列(或矩阵序列)极限概念。为此, 这就需要对量空间n R (或n n R ?矩阵空间)元素的“大小”引进某种度量即向量范数(或矩阵范数)即距离的概念。 (一)向量范数:向量范数是3R 中向量长度概念的推广。 },{1为复数i n n x x x x x C ??????????== 称为n 维复向量空间。 },)({为复数ij n n ij n n a a A A C ??==称为n n ?复矩阵空间。 (2)设n n n C A C x ?∈∈,,称T n H x x x x =≡),,(1 为x 的共轭转置 , T H A A =称为A 共轭转置矩阵。 在许多应用中,对向量的范数(对向量的“大小”的度量)都要求满足 正定条件,齐次条件和三角不等式,下面给出向量范数的抽象定义。 n R x ∈(或n C x ∈)的某个实值非负函数 x x N ≡)(,如果满足下述条件 (1)正定性 00,0=??=≥x x x (2)齐次性 x ax α=其中R ∈α(或C ∈α) (3)三角不等式 )(,,n n C R y x y x y x ∈∈?+≤+或,称x x N ≡)(是n R 上(或n C )一个向量范数(或为模)。

由三角不等式可推出不等式 (4)y x y x -≤- 下面给出矩阵计算中一些常用向量范数。 设)(),,(1n n T n C x R x x x ∈∈=或 (1)向量的“∞”范数 i n i x x x N ≤≤∞ ∞=≡1max )( (2)向量的“1”范数 ∑==≡n i i x x x N 1 1 1)( (3)向量的“2”范数 2/11 2 2 /12 2)() ,()(∑===≡n i i x x x x x N (4)向量的能量范数 设n n R A ?∈为对称正定阵 2 /1),()(x Ax x x N R x A A n =≡→∈? 称为向量的能量范数。 设n R x ∈(或n C x ∈),则)(),(),(12x N x N x N ∞是n R 上(或n C )的向量范数。 证明 只验证三角不等式:对任意n R y x ∈,,则222 y x y x +≤+ 利用哥西不等式:22 ),(y x y x ≤,则有 ),(22 y x y x y x ++=+),(),(2),(y y y x x x ++= 22 2 2 22 2y y x x ++≤222))(y x += 对任何n R y x ∈,则 (1) ∞∞ ≤≤x n x x 2 (2) 212 x n x x ≤≤ (3) ∞∞ ≤≤x n x x 1

矩阵范数详解

向量和矩阵的范数的若干难点导引 矩阵范数的定义 引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。 最容易想到的矩阵范数,是把矩阵m n A C ?∈可以视为一个mn 维的向量(采用所谓“拉 直”的变换),所以,直观上可用mn C 上的向量范数来作为m n A C ?∈的矩阵范数。比如 在1l -范数意义下,111 ||||||m n ij i j A a === ∑∑()12 tr()H A A =; (1.1) 在2l -范数意义下,1 2 211||||||m n F ij i j A a ==?? = ??? ∑∑, (1.2) 注意这里为了避免与以后的记号混淆,下标用“F ”,这样一个矩阵范数,称为Frobenius 范数,或F-范数。可以验证它们都满足向量范数的3个条件。 那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计AB 的“大小”相对于A B 与的“大小”关系。 定义1 设m n A C ?∈,对每一个A ,如果对应着一个实函数()N A ,记为||||A ,它满足以下条件: (1)非负性:||||0A ≥; (1a )正定性:||||0m n A O A ?=?= (2)齐次性:||||||||||,A A C ααα=∈; (3)三角不等式:||A ||||||||||||,m n A B A B B C ?+≤+?∈ 则称()||||N A A =为A 的广义矩阵范数。进一步,若对,,m n n l m l C C C ???上的同类广义矩阵范数||||?,有 (4)(矩阵相乘的)相容性:||A ||||||||||||AB A B ≤, n l B C ?∈, 则称()||||N A A =为A 的矩阵范数。 我们现在来验证前面(1.1)和(1.2)定义的矩阵范数是否合法?我们这里只考虑(1.2), 把较容易的(1.1)的验证留给同学们, 三角不等式的验证。按列分块,记1212(,,,),(,,,)n n A a a a B b b b == 。 2 22112||)(,),(),(||||||F n n F b a b a b a B A +++=+ 2222222211||||||||||||n n b a b a b a ++++++= ()()22 121222||||||||||||||||n n a b a b ≤++++ ()()()2222122121222122||||||||2||||||||||||||||||||||||n n n n a a a b a b b b =++++++++ 对上式中第2个括号内的诸项,应用Cauchy 不等式,则有 222||||||||2||||||||||||F F F F F A B A A B B +≤++2(||||||||)F F A B =+ (1.3) 于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。 2 2 2111 111||||||||m l n m l n F ik kj ik ki i j k i j k AB a b a b ======?? =≤ ??? ∑∑∑∑∑∑

第五专题 矩阵的数值特征(行列式、范数、条件数、迹、秩、相对特征根)

第五专题 矩阵的数值特征 (行列式、迹、秩、相对特征根、范数、条件数) 一、行列式 已知A p ×q , B q ×p , 则|I p +AB|=|I q +BA| 证明一:参照课本194页,例4.3. 证明二:利用AB 和BA 有相同的非零特征值的性质; 从而I p +AB ,I q +BA 中不等于1的特征值的数目 相同,大小相同;其余特征值都等于1。 行列式是特征值的乘积,因此|I p +AB|和|I q +BA|等于特征值(不等于1)的乘积,所以二者相等。 二、矩阵的迹 矩阵的迹相对其它数值特征简单些,然而,它在许多领域,如数值计算,逼近论,以及统计估计等都有相当多的应用,许多量的计算都会归结为矩阵的迹的运算。下面讨论有关迹的一些性质和不等式。 定义:n n ii i i 1i 1tr(A)a ====λ∑∑,etrA=exp(trA) 性质: 1. tr(A B)tr(A)tr(B)λ+μ=λ+μ,线性性质; 2. T tr(A )tr(A)=; 3. tr(AB)tr(BA)=; 4. 1tr(P AP)tr(A)-=;

5. H H tr(x Ax)tr(Axx ),x =为向量; 6. n n k k i i i 1i 1tr(A),tr(A )===λ=λ∑∑; 从Schur 定理(或Jordan 标准形)和(4)证明; 7. A 0≥,则tr(A)0≥,且等号成立的充要条件是A=0; 8. A B(A B 0)≥-≥即,则tr(A)tr(B)≥,且等号成立的充要条件是A=B (i i A B (A)(B)≥?λ≥λ); 9. 对于n 阶方阵A ,若存在正整数k,使得A k =0,则tr(A)=0(从Schur 定理或Jordan 标准形证明)。 若干基本不等式 对于两个m ×n 复矩阵A 和B ,tr(A H B)是m ×n 维酉空间上的内积,也就是将它们按列依次排成的两个mn 维列向量的内积,利用Cauchy-schwarz 不等式 [x,y]2≤[x,x]﹒[y,y] 得 定理:对任意两个m ×n 复矩阵A 和B |tr(A H B)|2≤tr(A H A)﹒tr(B H B) 这里等号成立的充要条件是A=cB,c 为一常数。特别当A 和B 为实对称阵或Hermit 矩阵时 0≤|t r(AB)|≤ 定理:设A 和B 为两个n 阶Hermite 阵,且A≥0,

内积与范数

范数:用于度量“量”大小的概念 1. 引言 实数的绝对值:a 是数轴上的点a 到原点0的距离; 复数的模:a bi +=是平面上的点()b a ,到原点()0,0的距 离; 还有其他刻画复数大小的方法(准则):如 1)b a +; 2){}max , a b 2. 向量的范数:p-范数 1 1n p p k p k x x =??= ??? ∑ (1) 示例: 1211234515,2345,5x x x x ∞ ???=+-+++= ?-? ?? ?=?==? ?? = ??? ??? 3. 矩阵(算子)的范数 01max max x x Ax A Ax x ≠=== (2) 矩阵的谱半径:设M 是n 阶矩阵,称

()()()(){}12max , ,, n M M M M ρλλλ=L (3) 为该矩阵的谱半径。 记 ()1212,,,T T n T n A ββαααβ?? ? ?== ? ? ??? L M , 那么, {}{}()1211111211112 max ,,,max max ,,,n k n p p x k T A A Ax A A A A αααβββρ∞=?=?? =?=??=??L L (3) 4. 矩阵的条件数:用于刻画矩阵“病态”程度的概念 ()1 cond A A A -=? 5.利用范数定义点之间的距离 (),,,n n x R y R d x y y x ∈∈?=- 向量的内积、范数及n 维空间距离的度量 令 P 是一数域, P n 是 P 上的向量空间,如果函数 ()?x y P P P n n ,:?→有如下性质: 1、共轭对称性:?∈x y P n ,,()()??y x x y ,,=; 2、非负性:?∈x P n ,()?x x ,≥0,()?x x x ,=?=00;

矩阵范数规范标准详解

《周国标师生交流讲席010》 向量和矩阵的范数的若干难点导引(二) 一. 矩阵范数的定义 引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。 最容易想到的矩阵范数,是把矩阵m n A C ?∈可以视为一个mn 维的向量(采用所谓“拉 直”的变换),所以,直观上可用mn C 上的向量范数来作为m n A C ?∈的矩阵范数。比如 在1l -范数意义下,111 ||||||m n ij i j A a === ∑∑( ) 12 tr()H A A =; (1.1) 在2l -范数意义下,1 2 211||||||m n F ij i j A a ==??= ??? ∑∑, (1.2) 注意这里为了避免与以后的记号混淆,下标用“F ”,这样一个矩阵范数,称为Frobenius 范数,或F-范数。可以验证它们都满足向量范数的3个条件。 那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计AB 的“大小”相对于A B 与的“大小”关系。 定义1 设m n A C ?∈,对每一个A ,如果对应着一个实函数()N A ,记为||||A ,它满足以下条件: (1)非负性:||||0A ≥; (1a )正定性:||||0m n A O A ?=?= (2)齐次性:||||||||||,A A C ααα=∈; (3)三角不等式:||A ||||||||||||,m n A B A B B C ?+≤+?∈ 则称()||||N A A =为A 的广义矩阵范数。进一步,若对,,m n n l m l C C C ???上的同类广义矩阵 范数||||?,有 (4)(矩阵相乘的)相容性:||A ||||||||||||AB A B ≤, n l B C ?∈, 则称()||||N A A =为A 的矩阵范数。 我们现在来验证前面(1.1)和(1.2)定义的矩阵范数是否合法?我们这里只考虑(1.2),把较容易的(1.1)的验证留给同学们, 三角不等式的验证。按列分块,记1212(,,,),(,,,)n n A a a a B b b b ==L L 。 2 22112||)(,),(),(||||||F n n F b a b a b a B A +++=+Λ 2 222222211||||||||||||n n b a b a b a ++++++=Λ ()()22 121222||||||||||||||||n n a b a b ≤++++L ()()()22 22122121222122||||||||2||||||||||||||||||||||||n n n n a a a b a b b b =++++++++L L L 对上式中第2个括号内的诸项,应用Cauchy 不等式,则有 222||||||||2||||||||||||F F F F F A B A A B B +≤++2(||||||||)F F A B =+ (1.3) 于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。

矩阵范数详解.docx

《周国标师生交流讲席010》 向量和矩阵的范数的若干难点导引(二) 一.矩阵范数的定义 引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。 最容易想到的矩阵范数,是把矩阵A C m n可以视为一个mn维的向量(采用所谓“拉 直”的变换),所以,直观上可用C mn上的向量范数来作为A C m n的矩阵范数。比如 m n 1 在∣1 -范数意义下,IIAl1 ;二Ia ijI= tr(A H A) 2; (1.1 ) 1 Zl mn A2 在I2-范数意义下,∣∣A∣∣F=∑∑同|2,(1.2) Iy j A J 注意这里为了避免与以后的记号混淆,下标用“F”,这样一个矩阵范数,称为Frobenius 范数,或F-范数。可以验证它们都满足向量范数的3个条件。 那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计AB的“大小”相对于A与B 的“大小”关系。 定义1设A C mn,对每一个A ,如果对应着一个实函数N(A),记为IlAll ,它满足以下条件: (1)非负性:|| A||_0 ; (1 a)正定性:A=O mn= IIAII= 0 (2)齐次性:||〉A||=| |||A||, ? C ; (3)三角不等式:||A||A B||—||A|| ||B||, -B C m n 则称N(A)=|| A||为A的广义矩阵范数。进一步,若对C m n,C n 1C m l上的同类广义矩阵 范数|| || ,有 (4)(矩阵相乘的)相容性:|| A || AB ||_|| A|||| B ||, B C n I , 则称N(A) =||A||为A的矩阵范数。 我们现在来验证前面(1.1 )和(1.2 )定义的矩阵范数是否合法?我们这里只考虑(1.2 ),把较容易的(1.1 )的验证留给同学们, 三角不等式的验证。按列分块,记A=√a1,a2,…,a n), B=√b1,b2,…,b n)。 ||A BII F=Ig bj,? b2), ,(a. b n)||F *1 UII2 IIa2 b2||2 Ha n g ||2 (IIa1II2 +IIdIb ) +…+(IIa n Ib +||b n ||2) 2 2 兰 二険||2 IIa n II;2 || q II2II d ||2 …IIa n II2II b n ||2 IIdII2IIb n II2 对上式中第2个括号内的诸项,应用CaUChy不等式,则有 IIA + BIIF≤IIAII F +2||A||F||B||F +IIBII2=(IIAI F +IIBII F)2(1.3 )于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。

泛函数与范数的定义

泛函数-正文 又称泛函,通常实(复)值函数概念的发展。通常的函数在R n或C n(n是自然数)中的集合上定义。泛函数常在函数空间甚至抽象空间中的集合上定义,对集合中每个元素取对应值(实数或复数)。通俗地说,泛函数是以函数作为变元的函数。泛函数概念的产生与变分学问题的研究发展有密切关系。设Ω为R n中的区域,Г1表示边界嬠Ω的片断, 表示一函数集合。考虑对应 ,式中F为具有2n+1个自变数的函数:为寻求J(u)的局部极值,在一定条件下取J(u)的加托变分 如果在u=u0达到局部极值,则u0适合欧拉方程δJ(u)=0。在应用中,常以数学或物理的某个微分方程为背景产生一定泛函数,使原问题化成泛函数极值问题。当代分析学中,变分方法有广泛应用。一般把问题化成Tx=0的形式,即对应于某泛函数φ的欧拉方程,其中φ定义在一巴拿赫空间X中的开集S上且加托可微:算子T称为梯度算子,φ称为T的场位。人们常遇到二阶微分系统,由此产生二次泛函数极值问题,是当代变分法常见的研究对象。 泛函数φ:S嶅X→R(X为拓扑空间)称为在x∈S处下半连续,如果对每个实数r<φx,有x的邻域U(x),使得r<φz,凬z∈U(x)∩S。称φ在x∈S处下半序列连续,如果对每个序列 。其连续性及有界性如同对算子相应的性质所做的规定。 设φ是定义在线性集合S上的实(复)值泛函数。如果φ(x+y)=φ(x)+φ(y),φ称为加性的;如果φ(λx)=λφ(x),λ∈R(C)称为齐性的;如果同时有加性及齐性称为线性的。当φ

取实值时,加性得放松为次加性,其定义为:φ(x+y)≤φ(x)+φ(y);齐性得放松为正齐性,其定义为:?(λx)=λ?(x)(λ≥0);如果同时有次加性及齐性,则称φ具有次线性;如果对于λ∈(0,1),有φ(λx+(1-λ)y)≤λφ(x)+(1-λ)φ(y),则称φ为凸的;如果当x≠y时上式中的≤必为<,则称φ为严格凸的。在一些问题中,容许凸泛函数φ取值+∞,但φ扝+∞,这时称φ为真凸的。此外,还有所谓凸集S上的拟凸泛函数φ:S嶅K→R(K为线性空间),使φ(tx+(1-t)y)≤max{φx,φy},x,y∈S, t∈(0,1)。在赋范空间K中无界集S上定义的泛函数φ称为强制的,如果有函数с:(0,+∞)→R,с(t)→+∞(t→+∞)使得φ(z)≥с(‖z‖),凬z∈S。 线性泛函数是线性算子理论研究的对象之一,也是研究空间性质及结构的工具。例如,局部凸拓扑线性空间K有对偶空间K,K的元素就是定义在K上的连续线性泛函数。对K可赋予简单收敛拓扑或有界收敛拓扑。偶K、K间的关系对认识空间的性质和研究算子的性质都有基本意义。 相应于多重线性算子有多重线性泛函数。例如,设K1、K2是同一数域上的线性空间,定义在积空间K1×K2上的映射φ:K1×K2→R(或C)称为双线性泛函数,如果K2(K1)中元素固定时φ成为K1(K2)上的线性泛函数。当K1=K2=K,K1及K2中取等同的x∈K,则得φ(x,x),称为二次泛函数。对希尔伯特空间中线性算子谱理论的研究,双线性泛函数形式作为表示工具是方便的。二次泛函数在变分法中的应用更是为人熟知的。 拟赋范空间、局部凸拓扑线性空间、赋范空间等的表征主要在于分别在各空间上定义的次加性泛函数,即拟范数、半范数族、范数等。测度空间中的测度,即对应于某种集合的值也可理解为泛函数。对于给定函数的不定积分也可类似地看待。 范数 向量范数

第五专题 矩阵的数值特征(行列式、范数、条件数、迹、秩、相对特征根)

第五专题矩阵的数值特征 (行列式、迹、秩、相对特征根、范数、条件数) 一、行列式 已知A p×q, B q×p, 则|I p+AB|=|I q+BA| 证明一:参照课本194页,例4.3. 证明二:利用AB和BA有相同的非零特征值的性质; 从而I p+AB,I q+BA中不等于1的特征值的数目相同,大小相同;其余特征值都等于1。 行列式是特征值的乘积,因此|I p+AB|和|I q+BA|等于特征值(不等于1)的乘积,所以二者相等。 二、矩阵的迹 矩阵的迹相对其它数值特征简单些,然而,它在许多领域,如数值计算,逼近论,以及统计估计等都有相当多的应用,许多量的计算都会归结为矩阵的迹的运算。下面讨论有关迹的一些性质和不等式。 定义: n n ii i i1i1 tr(A)a == ==λ ∑∑,etrA=exp(trA) 性质: 1. tr(A B)tr(A)tr(B) λ+μ=λ+μ,线性性质;

2. T tr(A )tr(A)=; 3. tr(AB)tr(BA)=; 4. 1 tr(P AP)tr(A)-=; 5. H H tr(x Ax)tr(Axx ),x =为向量; 6. n n k k i i i 1 i 1 tr(A),tr(A )===λ=λ∑∑; 从Schur 定理(或Jordan 标准形)和(4)证明; 7. A 0≥,则tr(A)0≥,且等号成立的充要条件是A=0; 8. A B(A B 0)≥-≥即,则tr(A)tr(B)≥,且等号成立的充要条件是A=B (i i A B (A)(B)≥?λ≥λ); 9. 对于n 阶方阵A ,若存在正整数k,使得A k =0,则tr(A)=0(从Schur 定理或Jordan 标准形证明)。 若干基本不等式 对于两个m ×n 复矩阵A 和B ,tr(A H B)是m ×n 维酉空间上的内积,也就是将它们按列依次排成的两个mn 维列向量的内积,利用Cauchy-schwarz 不等式 [x,y]2≤[x,x]﹒[y,y] 得 定理:对任意两个m ×n 复矩阵A 和B |tr(A H B)|2≤tr(A H A)﹒tr(B H B)

矩阵与范数—扫盲

矩阵论主要研究的是线性空间以及在线性空间中的一些操作,主要是线性变换。当然书中主要是针对有限维的情况来讨论的,这样的话就可以用向量和矩阵来表示线性空间和线性变换,同其他的数学形式一样,矩阵是一种表达形式(notation),而这一方面可以简洁地表达出我们平时遇到的如线性方程和协方差关系的协方差矩阵等,另一方面又给进一步的研究或者问题的简化提供了一个平台。如特征值分析、稳定性分析就对应着诸如统计分布和系统稳定性等实际问题。而一系列的分解则可以方便方程的数值计算。作为矩阵论的学习,我们需要了解具体的一些计算究竟是怎么算的,但更关键的是要知道各个概念和方法的实际意义,各个概念之间的关系。 首先介绍的是线性空间,对于线性空间中的任意一个向量的表示有基(相当于度量单位)和坐标(相当于具体的尺度),基既然作为度量标准了,当然要求对每一个向量都适用,同时这个标准本身也应该尽可能的简洁,那么就得到了基定义的两点约束:1、基的组成向量线性无关;2、线性空间中的任一个向量都可以由基的线性表示。 基作为一种“计量标准”,当然可能会存在多种形式,只要满足上面的两点条件,因而就有必要解决不同的度量标准之间的转换关系,从而得到过渡矩阵的概念,同时可以使用这种转换关系(过渡矩阵)去完成度量量(坐标)之间的转换。 在完成了线性空间这一对象的认识和表达之后,下面需要研究对象和对象之间的关系。这里主要是线性变换,线性变换针对于实际对象主要完成类似于旋转和尺度变换方面的操作,而这种操作也牵涉到表达的问题。为了保持与空间的一致性,我们也同样是在特定的基下来表示,从而线性变换就具体化为一个变换矩阵,并且,在不同的基下对应的变换矩阵当然也不相同,这里的不同的变换矩阵的关系就是相似的概念。 到此,我们完成了空间中向量的表示和线性变换的矩阵表达。这里涉及了基、坐标、过渡矩阵、变换矩阵、相似矩阵这几个重要的概念。上面算是内涵上的认识,下面我们需要知道线性空间里究竟有些什么东西,它是如何组成的,各个组

矩阵论范数理论

第二章 范数理论 在第一章我们曾利用内积定义了向量的长度,他是几何向量长度概念的一种推广。虽然当n>3时对定义的向量长度无法作出具体的几何解释,但这样规定的长度具有几何向量长度的基本性质,即非负性,齐次性和三角不等式。本章我们采用公理化的方法,八项量长度的概念推广到更一般的情形,主要讨论向量范数、矩阵范数及其有关的应用。 §2.1 向量范数 定义 2.1 若对任意n C x ∈都有一个实数x 与之对应,且满 足: (1) 非负性:当x 0 x 0 x 0x 0 ? ==时,;当,; (2) 齐次性:对任何C x x l l l ?,; (3) 三角不等式:对任意n x,y C ? , 都有x y ,x y +?则称x 为n C 上的向量x 的范数,简称向量范数。 定义中并未给出向量范数的计算方法,只是规定了向量范数应满足的三条公理,称之为向量范数三公理。从范数定义可得范数的下列基本性质。 定理2.1 对任意,n C y x,∈有 (1)x -=x ; (2) x .y x y -? 只证(2)。根据三角不等式,有

x x y y x y y =-+?+ y y x x y x x =-+?+ 综合二式即得 x y x y -? 证毕 例 2.1 设12n ().T n x C x x x = ,, 规定 2x = 第一章已表明 2 x 是向量x 的一种范数,并称之为向量2-范数,该范数具 有如下重要的性质,对任意n x C ? 和任意 n 阶酉矩阵U ,有 22Ux .x = 称之为向量 2-范数的 酉不变性。 例2.2 设12n x ().T n C x x x = ,,规定 11 x n k k x == ? 则1x 是向量 x 的一种范数,称为向量1-范数。 证 当 1 11 x 0x 0 x 0x 0x 0.n k k x =?>==? 时,显然;当时,的每一分量都是,故 对任意λ C , ? 有 n 111 1 x n k k k k x l l x l x l === ==邋 又对任意12y (,,).T n n C h h h = 有

关于范数的理解或定义

I 、向量的范数 向量x ∈R n 的范数f(x )是定义在R n 空间上取值为非负实数且满足下列性质的函数: 1ο 对于所有的x ≠ 0,x ∈R n 有f(x )>0; (非负性) 2ο 对于所有的α∈R 有f(αx )=αf(x ); (正齐性) 3ο 对于所有的x,y ∈R n 有f(x+y )≤f(x )+f(y ). (三角不等式) 一、 一般情况下,f(x )的具体模式如下: p x = p n i p i x 11 )( ∑=,p 1≥ 也称它为p-范数。 下证p-范数满足上述的三个性质: 1、对于所有的x ∈R n ,x ≠ 0,p n i p i x 11 )(∑ =显然是大于0的,故性质1ο成立。 2、 由p x α = p n i p i x 11 )( ∑=α = αp n i p i x 11 )(∑ = = αp x 知性质2ο成立。 3、欲验证性质3ο ,我们的借助下列不等式: 设p>1,q>1,且p 1 + q 1 = 1,则对所有的0,≥βα有 αββα≥+ q p q p 证: 考虑函数p t p t t - =1)(?,因为)1(1)(11' -= -p t p t ?,由()t '?=0 t=1,又因为01 )1(' '<- =pq ?,所以当t = 1的时候)(t ?取最大值,则有:

p p t t p 111-≤-, 令t = q p β α,代入可得: q p p q p p q p 1111 =-=-??? ? ??βαβα, 化简之后即得: αββα≥+ q p q p 证毕! 又令∑=) (1i p x x p i α,∑=) (1i q y y q i β,代入上不等式可得: ∑∑+ ) ()(i q i i p i y y x x q q p p ∑∑≥ ) ()(11y x y x i q i p q p i i ,两边同时对i 求和,并利用 关系式p 1 + q 1 = 1可知: ∑∑≥+ = ∑∑∑∑∑) ()(11) ()(1y x y x y y x x i q i p i q i i p i q p i i q q p p 从而有: ∑∑≤∑) ()(11y x y x i q i p q p i i 另一方面,又有: ∑+∑++=-y x y x y x i i p p i i i i 1 )(1 y x y x i i p i i + ≤∑+- y y x x y x i p i p i i i i ∑+∑+--+=1 1 ()()()()()() ∑ ∑ -+∑ ∑ -≤++y y x x y x i p i i q p i p i i q p p q p q 111111 () ()()() ???? ??? ?∑ ∑ -=+∑+y x y x i p i p p i i q p p q 1111

范数

向量范数 在一维空间中,实轴上任意两点距离用两点差的绝对值表示。绝对值是一种度量形式的定义。 范数是对函数、向量和矩阵定义的一种度量形式。任何对象的范数值都是一个非负实数。使用范数可以测量两个函数、向量或矩阵之间的距离。 向量范数是度量向量长度的一种定义形式。范数有多种定义形式,只要满足下面的三个条件即可定义为一个范数。同一向量,采用不同的范数定义,可得到不同的范数值。 定义3.1 对任一向量,按照一个规则确定一个实数与它对应,记该实数记为,若满足下面三个性质: 若X是数域K上的线性空间,泛函║·║: X->R 满足: 1. 正定性:║x║≥0,且║x║=0 <=> x=0; 2. 正齐次性:║cx║=│c│║x║; 3. 次可加性(三角不等式):║x+y║≤║x║+║y║ 。 那么║·║称为X上的一个范数。 常用范数 这里以C^n空间为例,R^n空间类似。 最常用的范数就是p-范数。若x=[x1,x2,...,xn]^T,那么 ║x║p=(|x1|^p+|x2|^p+...+|xn|^p)^{1/p} 可以验证p-范数确实满足范数的定义。其中三角不等式的证明不是平凡的,这个结论通常称为闵可夫斯基(Minkowski)不等式。 当p取1,2,∞的时候分别是以下几种最简单的情形: 1-范数:║x║1=│x1│+│x2│+…+│xn│ 2-范数:║x║2=(│x1│^2+│x2│^2+…+│xn│^2)^1/2 ∞-范数:║x║∞=max(│x1│,│x2│,…,│xn│) 其中2-范数就是通常意义下的距离。 定理https://www.doczj.com/doc/4314147700.html,中任意两种向量范数║x║α,║x║β是等价的,即有m,M>0使m║x║α≤║x║β≤M║x║可根据范数的连续性来证明它. 由定理1可得 定理2.设{x(k)}是Cn中向量序列,x是Cn中向量,则║x(k)-x║→0(k→∞) iff xj(k)-xj→0,j=1,2,…,n(k→∞) 其中xj(k)是x(k)的第j个分量,xj是x的第j个分量. 此时称{x(k)}收敛于x,记作x(k)→x(k→∞),或 . 矩阵范数 一般来讲矩阵范数除了正定性,齐次性和三角不等式之外,还规定其必须满足相容性:║XY║≤║X║║Y║。所以矩阵范数通常也称为相容范数。 如果║·║α是相容范数,且任何满足║·║β≤║·║α的范数║·║β都不是相容范数,那么║·║α称为极小范数。 对于n阶实方阵(或复方阵)全体上的任何一个范数║·║,总存在唯一的实数k>0,使得k║·║是极小范数。 注:如果不考虑相容性,那么矩阵范数和向量范数就没有区别,因为mxn矩阵全体和mn维向量空间同构。 引入相容性主要是为了保持矩阵作为线性算子的特征,和算子范数的相容性一致,并且可以得到Mincowski定理以外的信息。

矩阵与范数—扫盲讲解

矩阵与范数、谱半径、奇异值 矩阵论主要研究的是线性空间以及在线性空间中的一些操作,主要是线性变换。当然书中主要是针对有限维的情况来讨论的,这样的话就可以用向量和矩阵来表示线性空间和线性变换,同其他的数学形式一样,矩阵是一种表达形式(notation),而这一方面可以简洁地表达出我们平时遇到的如线性方程和协方差关系的协方差矩阵等,另一方面又给进一步的研究或者问题的简化提供了一个平台。如特征值分析、稳定性分析就对应着诸如统计分布和系统稳定性等实际问题。而一系列的分解则可以方便方程的数值计算。作为矩阵论的学习,我们需要了解具体的一些计算究竟是怎么算的,但更关键的是要知道各个概念和方法的实际意义,各个概念之间的关系。 首先介绍的是线性空间,对于线性空间中的任意一个向量的表示有基(相当于度量单位)和坐标(相当于具体的尺度),基既然作为度量标准了,当然要求对每一个向量都适用,同时这个标准本身也应该尽可能的简洁,那么就得到了基定义的两点约束:1、基的组成向量线性无关;2、线性空间中的任一个向量都可以由基的线性表示。 基作为一种“计量标准”,当然可能会存在多种形式,只要满足上面的两点条件,因而就有必要解决不同的度量标准之间的转换关系,从而得到过渡矩阵的概念,同时可以使用这种转换关系(过渡矩阵)去完成度量量(坐标)之间的转换。 在完成了线性空间这一对象的认识和表达之后,下面需要研究对象和对象之间的关系。这里主要是线性变换,线性变换针对于实际对象主要完成类似于旋转和尺度变换方面的操作,而这种操作也牵涉到表达的问题。为了保持与空间的一致性,我们也同样是在特定的基下来表示,从而线性变换就具体化为一个变换矩阵,并且,在不同的基下对应的变换矩阵当然也不相同,这里的不同的变换矩阵的关系就是相似的概念。 到此,我们完成了空间中向量的表示和线性变换的矩阵表达。这里涉及了基、坐标、过渡矩阵、变换矩阵、相似矩阵这几个重要的概念。上面算是内涵上的认识,下面我们需要知道线性空间里究竟有些什么东西,它是如何组成的,各个组成成分之间的关系,也就是空间的结构性方面的东西。 首先认识子空间(空间的组成部分),当然既然也是空间,也就要满足空间的加法和数乘的封闭性,要满足那八条定律。后者可以由父空间保证,前面的就要子空间自身素质了。同时要看子空间之间的并、交、直和运算和相应的秩的关系。这里提到了维数,就要多说几句了,空间中的元素往往是连续过渡的,但是对于有限空间而言还有离散的性质,那就是维数,我称其为“不伸则已,一伸则增一”,从这也就说明了为什么可以用若干个子空间的直和可以等价于原线性空

矩阵范数的意义

矩阵范数的意义 几何方法是一种数学思维方法。函数和几何是数学的两条主要主线。我们学习各种函数及其性质,比如微积分、复变函数、实变函数、泛函等。而几何是函数形象表达,函数是几何的抽象描述,几何研究“形”,函数研究“数”,它们交织在一起推动数学向更深更抽象的方向发展。 函数图象联系了函数和几何,表达两个数之间的变化关系,映射推广了函数的概念,使得自变量不再仅仅局限于一个数,也不再局限于一维,任何事物都可以拿来作映射,维数可以是任意维,传统的函数图象已无法直观地表达高维对象之间的映射关系,这就要求我们在观念中,把三维的几何空间推广到抽象的n维空间。 由于映射的对象可以是任何事物,为了便于研究映射的性质以及数学表达,我们首先需要对映射的对象进行“量化”,取定一组“基”,确定事物在这组基下的坐标,事物同构于我们所熟悉的抽象几何空间中的点,事物的映射可以理解为从一个空间中的点到另一个空间的点的映射,而映射本身也是事物,自然也可以抽象为映射空间中的一个点,这就是泛函中需要研究的对象——函数。 从一个线性空间到另一个线性空间的线性映射,可以用一个矩阵来表达,矩阵被看线性作映射,线性映射的性质可以通过研究矩阵的性质来获得,比如矩阵的秩反映了线性映射值域空间的维数,可逆矩阵反映了线性映射的可逆,而矩阵范数反映了线性映射把一个向量映射为另一个向量,向量的“长度”缩放的比例。 并不是只有线性空间才有范数的定义,任意空间都可以引入范数,这样的空间称为赋范空间,使得这个空间可以被度量,如希尔伯特空间。 范数是把一个事物映射到非负实数,且满足非负性、齐次性、三角不等式,符合以上定义的都可以称之为范数,所以,范数的具体形式有很多种(由内积定义可以导出范数,范数还也可以有其他定义,或其他方式导出),要理解矩阵的算子范数,首先要理解向量范数的内涵。矩阵的算子范数,是由向量范数导出的,由形式可以知: 或方阵

范数概念

一、范数的定义 若X是数域K上的线性空间,泛函║·║: X->R 满足: 1. 正定性:║x║≥0,且║x║=0 <=> x=0; 2. 正齐次性:║cx║=│c│║x║; 3. 次可加性(三角不等式):║x+y║≤║x║+║y║ 。 那么║·║称为X上的一个范数。 (注意到║x+y║≤║x║+║y║中如令y=-x,再利用║-x║=║x║可以得到 ║x║≥0,即║x║≥0在定义中不是必要的。) 如果线性空间上定义了范数,则称之为赋范线性空间。 注记:范数与内积,度量,拓扑是相互联系的。 1. 利用范数可以诱导出度量:d(x,y)=║x-y║,进而诱导出拓扑,因此赋范线性空间是度量空间。 但是反过来度量不一定可以由范数来诱导。 2. 如果赋范线性空间作为(由其范数自然诱导度量d(x,y)=║x-y║的)度量空间是完备的,即任何柯西(Cauchy)序列在其中都收敛,则称这个赋范线性空间为巴拿赫(Banach)空间。 3. 利用内积<·,·>可以诱导出范数:║x║=^{1/2}。 反过来,范数不一定可以由内积来诱导。当范数满足平行四边形公式 ║x+y║^2+║x-y║^2=2(║x║^2+║y║^2)时,这个范数一定可以由内积来诱导。 完备的内积空间称为希尔伯特(Hilbert)空间。 4. 如果去掉范数定义中的正定性,那么得到的泛函称为半范数(seminorm或者叫准范数),相应的线性空间称为赋准范线性空间。完备的赋准范线性空间称为Fréchet 空间。 对于X上的两种范数║x║α,║x║β,若存在正常数C满足 ║x║β≤C║x║α 那么称║x║β弱于║x║α。如果║x║β弱于║x║α且║x║α弱于║x║β,那么称这两种范数等价。 可以证明,有限维空间上的范数都等价,无限维空间上至少有阿列夫(实数集的基数)种不等价的范数。 二、算子范数 如果X和Y是巴拿赫空间,T是X->Y的线性算子,那么可以按下述方式定义║T║:║T║ = sup{║Tx║:║x║<=1} 根据定义容易证明║Tx║ <= ║T║║x║。 对于多个空间之间的复合算子,也有║XY║ <= ║X║║Y║。 如果一个线性算子T的范数满足║T║ < +∞,那么称T是有界线性算子,否则称T 是无界线性算子。 比如,在常用的范数下,积分算子是有界的,微分算子是无界的。 容易证明,有限维空间的所有线性算子都有界。 三、有限维空间的范数 基本性质 有限维空间上的范数具有良好的性质,主要体现在以下几个定理: 性质1:对于有限维赋范线性空间的任何一组基,范数是元素(在这组基下)的坐标

相关主题
文本预览
相关文档 最新文档