向量和矩阵的范数的若干难点导引
矩阵范数的定义
引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。
最容易想到的矩阵范数,是把矩阵m n
A C ?∈可以视为一个mn 维的向量(采用所谓“拉
直”的变换),所以,直观上可用mn
C
上的向量范数来作为m n
A C
?∈的矩阵范数。比如
在1l -范数意义下,111
||||||m n
ij
i j A a
===
∑∑()12
tr()H
A A =; (1.1)
在2l -范数意义下,1
2
211||||||m n F ij i j A a ==??
= ???
∑∑, (1.2)
注意这里为了避免与以后的记号混淆,下标用“F ”,这样一个矩阵范数,称为Frobenius
范数,或F-范数。可以验证它们都满足向量范数的3个条件。
那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计AB 的“大小”相对于A B 与的“大小”关系。
定义1 设m n
A C ?∈,对每一个A ,如果对应着一个实函数()N A ,记为||||A ,它满足以下条件:
(1)非负性:||||0A ≥;
(1a )正定性:||||0m n
A O A ?=?=
(2)齐次性:||||||||||,A A C ααα=∈;
(3)三角不等式:||A ||||||||||||,m n A B A B B C ?+≤+?∈
则称()||||N A A =为A 的广义矩阵范数。进一步,若对,,m n n l m l
C C C ???上的同类广义矩阵范数||||?,有
(4)(矩阵相乘的)相容性:||A ||||||||||||AB A B ≤, n l
B C ?∈, 则称()||||N A A =为A 的矩阵范数。
我们现在来验证前面(1.1)和(1.2)定义的矩阵范数是否合法?我们这里只考虑(1.2),
把较容易的(1.1)的验证留给同学们,
三角不等式的验证。按列分块,记1212(,,,),(,,,)n n A a a a B b b b == 。
2
22112||)(,),(),(||||||F n n F b a b a b a B A +++=+ 2222222211||||||||||||n n b a b a b a ++++++=
()()22
121222||||||||||||||||n n a b a b ≤++++
()()()2222122121222122||||||||2||||||||||||||||||||||||n n n n a a a b a b b b =++++++++
对上式中第2个括号内的诸项,应用Cauchy 不等式,则有
222||||||||2||||||||||||F F F F F A B A A B B +≤++2(||||||||)F F A B =+ (1.3)
于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。
2
2
2111
111||||||||m l n
m l
n F ik kj
ik ki i j k i j k AB a b a b ======??
=≤ ???
∑∑∑∑∑∑
2
2111
1||||m l
n
n ik
sj i j k s a b ====????
≤ ???????∑∑∑∑ (这一步用了Cauchy 不等式) 2222
1111||||||||||||m n n l ik sj F F i k s j a b A B ====????== ? ?????
∑∑∑∑ (1.4)
可见,矩阵相容性满足。
这样就完成了对矩阵F-范数的验证。是不是这样直接将向量范数运用到矩阵范数就可以了吗?No!
运用l ∞-范数于矩阵范数时便出了问题。如果11||||max ||ij i m j n
A a ∞≤≤≤≤=,那么,这样的矩阵范
数在下面一个例子上就行不通。设2
1122,21122A A A ????=== ? ?????
。因此,按上述矩阵∞
-范数的定义,||||1,||A A ∞=2||||1,||||2A A ∞∞==,于是
22||||||||||||||||1A A A A A ∞∞∞∞==?≤=
但这是矛盾的。所以简单地将l ∞-范数运用于矩阵范数,是不可行的。
虽然这仅是一个反例,但是数学的定义是不可以有例外的。 由此,我们必须认识到,不能随便套用向量范数的形式来构造矩阵范数。 为此,我们仅给出矩阵范数的定义是不够的,还需要研究如何构成具体的矩阵范数的方法。当然,你也可以不去考虑构成方法,一个函数一个函数去试,只要满足条件就行。不过这样做的工作量太大,也很盲目。
第二,在实际计算时,往往矩阵与向量出现在同一个计算问题中,所以在考虑构造矩阵范数时,应该使它与向量范数相容。比如要考虑Ax 的“大小”,Ax 是一个向量,但它由A 与x 相乘而得的,它与A 的“大小”和x 的“大小”的关系如何? 这提出了两类范数相容的概念。
定义2 对于m n
C
?上的矩阵范数||||M ?和,m n
C C 上的同类向量范数||||V ?,如果成立
||||||||||||,
,m n n V M V Ax A x A C x C ?≤??∈?∈ (1.5)
则称矩阵范数||||M ?与向量范数||||V ?是相容的。
例1.1 可以证明 12
211||||||m
n
F ij i j A a ==??= ???
∑∑()1
2tr()H
A A = 是与向量范数2||||?相容。
事实上,在(1。2)中,取1
n B x C ?=∈,那么 22||||||||||||||||||||||||F F F F Ax AB A B A x =≤=
一. 矩阵算子范数
现在给出一种构造矩阵范数的一般方法,它可以使构造出的矩阵范数与向量范数相容,当然,它也满足定义1规定的4个条件。
定义3 设,m n C C 上的同类向量范数为||||V ?,
m n
A C ?∈,定义在m n
C
?空间上的矩阵A
的由向量范数||||V ?诱导给出的矩阵范数为
||||||||max
||||V
V x V
Ax A x ≠= (2.1)
可以验证,这样定义出的矩阵范数||||V A 满足定义1规定的4个条件,同时又满足矩阵范数
与向量范数相容性要求(定义2)。由于有什么样的向量范数||||V ?,就有什么样的矩阵范数,所以,这样的矩阵范数称为由向量范数诱导出的,简称诱导范数;又因为(2.1)实际上规定了一个函数(或算子),故又称为算子范数。
(2.1)给定的范数实际是寻求一个最优化问题的最优值,求目标函数
||||||||V
V
Ax x 的最大
值,约束条件是0x ≠,也就在n
C 空间中除原点外的点中,找一个n 维向量x ,使
||||||||V V
Ax x 取得最大值。如果直接考虑这样一个优化问题, 还是有困难的. 可以证明,它可以下列等价方式定义, 使问题的处理简单。
0||||||||max ||||V V x V Ax A x ≠=||||1||||1
||||max max ||||||||V V V
V x x V
Ax Ax x ==== (2.2)
事实上, 分母上的||||V x 是一个正数(0x ≠), 那么根据向量范数的齐次性有
000||||1||||1||||1
max
max max max max ||||||||||||V V V V V x x x z x V V V V
V Ax x Ax A Az Ax x x x ≠≠≠==??==== ??? 上面第3个等号成立是因为向量 ||||V
x
z x = 为一个单位向量。
下面我们从理论上证明这样的矩阵范数||||V A 满足定义1规定的4个条件,同时又满足
矩阵范数与向量范数相容性要求。
定理2。1 由(2.1)或(2.2)给定的m n
C ?上的矩阵范数满足矩阵范数定义1的4个条件,且与相应的向量范数相容。
证明: 首先,矩阵范数与向量范数的相容性是不难证明的,事实上, 对||||V x =1,
||||1
||||||||||||max ||||||||V V V V V V z A x A Az Ax ===≥, 因此,矩阵范数与向量范数的相容性条件
(1.5)成立。
我们下面来验证(2.1)或(2.2)满足矩阵范数的4个条件。这4个条件中,前2个也容易验证,因此这里只来考察第3,4个条件。
三角不等式的验证: 对于任一m n
B C
?∈
()||||1
||||1
||||1
||||max ||()||max ||||max ||||||||x x x A B A B x Ax Bx A B ===+=+=+≤+
||||1
||||1
max ||||max ||||||||||||x x Ax Bx A B ===+=+
矩阵相乘相容性的验证: 由(1.5),不难有
||||||||||||||||||||||||V V V V V V ABx A Bx A B x ≤≤
当0x ≠时,
||||||||||||||||V
V V V
ABx A B x ≤
所以 0||||||||max ||||||||||||V
V V V x V
ABx AB A B x ≠=≤
至此,证实了用算子范数确能给出满足矩阵范数定义和矩阵范数与向量范数的相容性
的矩阵范数。
推论1 对于n n
C
?上的任一种向量诱导范数,都有 ||||1
||||max ||||1x I Ix === (2。3)
但是要注意的是,对一般的矩阵范数,对任一向量n
x C ∈,有
||||||||||||||||x Ix I x =≤ 故有 ||||1I ≥。
比如,||||F A 不是诱导矩阵范数,所以 ||||1F I ≥。
三.几个常用的诱导矩阵范数
上面的论述表明,诱导矩阵范数与向量范数密切相关,有何种向量范数,就有什么样的诱导矩阵范数。下面就来具体地构造几个常用的诱导矩阵范数。设m n
A C ?∈。
例3.1 设m n
A C
?∈,由向量1l -范数诱导而来的最大列和诱导矩阵范数
111
||||max
||m
i j
j n
i A a
≤≤==∑ (3.1)
证明:按列分块,记12(,,,)n A a a a = ,则由(3.1)和向量1l -范数的定义可知 111||||max ||||j j n
A a ≤≤=
设12(,,,)n n n x x x x C =∈ ,且有1||||1x =
1||||Ax 111111||||||||m n m n n
m ij j ij j j ij i j i j j i a x a x x a ======??
=≤= ???
∑∑∑∑∑∑
()()
1
max ||
||max ||n
ij j
ij
j
j
j a x a =≤=∑
因此, 111||||1
||||max ||||x A Ax ==1
max
||m
ij
j
i a
=≤∑ (+)
另一方面,选取k ,使得
1
1
||max ||m
m
ik
ij j
i i a
a ===∑∑
令0x 为第k 的单位向量(0,0,1,0,,0)T k e = ,那么012(,,,)T k k k mk Ax a a a a == 11101||||1
1
1
||||max ||||||||||max ||m
m
ik
ij x j
i i A Ax Ax a
a ====≥=
=∑∑ (++)
综合(+)与(++)可知, 由向量1l -范数诱导出的矩阵范数既是1||||A 的上界,又是其下界, 因此必有(3.1).
例3. 2 设m n
A C
?∈,矩阵谱范数由2l -范数诱导得出的矩阵范数,定义为
21||||max{|}H
A A A λλ==是的特征值 (3.2)
其中 1σ为A 的最大奇异值, 当n n
A R
?∈时
, 2||||A =
(3.3)
证明:首先由线性代数, H
A A 是半正定矩阵, 事实上,对任一n
x C ∈,有
22(,)()()||||0H H H H x A Ax x A Ax Ax Ax Ax ===≥
因此, H
A A 的特征值都为非负实数,记为 120n λλλ≥≥≥≥ ,而且H
A A 具有n 个相互正交的,2l -范数等于1(即标准化了的)特征向量(1)
(2)
()
,,,n x x x
,它们分别对应于特征值
120n λλλ≥≥≥≥ 。
故这组特征向量构成了一组标准正交基,用它们可表示任一个范数2||||1x =的向量x :
()1
n
i i i x x α==∑
而且,由2||||1x =, 可得到 21
1n
i i α
==∑。
这样, ()
()
()1
1
1
()n
n
n
H
H
i H
i i i i i i i i i A Ax A A x
A Ax x αααλ======∑∑∑。
由此
2
()
()2
11||||(,),n n
H
i i i i i i i Ax x A Ax x x ααλ==??== ???
∑∑
2
2
2
21122111||||||n n n i i λαλαλαλαλ=??
=+++≤= ???
∑ ,
也就是
2||||Ax ≤ 由x 的任意性和算子范数的定义
2221||||1
||||max ||||x A Ax λ==≤ (*)
另一方面,由2||||1x =,并且取1λ对应的特征向量(1)
x ,考虑
(1)2(1)(1)(1)(1)(1)(1)(1)2
211121||||(,)(,)(,)||||H Ax x A Ax x x x x x
λλλλ===== 所以
2(1)
2221||||1
||||max ||||||||x A Ax Ax
λ==≥= (**)
综合(*)和(**),由2l -范数诱导得出的矩阵范数应为
21||||max{|}H A A A λλ===是的特征值。
例3.3 设m n
A C
?∈,l ∞-范数诱导得出的矩阵范数
11
||||max
||n
ij
i m
j A a
∞≤≤==∑ (3.4)
证明:设12||||1(,,,),T
n x x x x x =∞= 且,即 max ||1i i
x =。
111
1
||||max
max ||max ||||n
n n
ij j
ij j ij j i m
i
i
j j j Ax a x
a x a x ∞≤≤====≤=∑∑∑
1
1
max
(||(max ||))max ||n n
ij
j ij i
j
i
j j a x a ==≤≤∑∑
由算子范数,
||||1
||||max ||||x A Ax ∞∞∞==≤1
max
||n
ij
i
j a
=∑ (*)
另一方面,选取k ,使得
1
1
||max ||n
n
kj
ij i
j j a
a ===∑∑
令12(,,,),T n y y y y = 其中1,0||
,0
kj kj j kj kj
if a a y if a a =??
=?≠??,
则 ||||max ||1j j
y y ∞==,从而有
1**||**n kj j a Ay =?? ?
? ? ?
?= ? ? ? ? ? ???
∑ ,
由算子范数
||||1
1
1
||||max ||||||||||max ||n n
kj ij x i
j j A Ax Ay a a ∞∞∞∞====≥≥=∑∑。 (**)
综合(*)和(**),便得 11
||||max
||n
ij
i m
j A a
∞≤≤==∑。
除了上述3种常用的矩阵范数外,Frobenius 范数虽然不是算子范数,但也经常所用,
在讨论序列收敛等问题上是等价的。
例3.4 设1234A -??
= ?-??
,求其各种矩阵范数。
解: 1||||A =最大列和 = 6; ||||A ∞=最大行和 = 7;
|||| 5.477F A ==≈;
2|||| 5.4650A =≈
四. 由矩阵范数推出的向量范数
矩阵范数可由向量范数诱导,反过来,向量范数有时也可从矩阵范数推出。 例4.1 设||||M ?是n n
C
?上的矩阵范数,任取n
C 中的非零向量y ,则函数
||||||||,
H n V M x xy x C =?∈ (4。1)
是n
C 上的向量范数,且矩阵范数||||M ?与向量范数||||V ?相容。
证明:欲证 ||||V x 是一个向量范数,只须验证它满足向量范数得个条件。 非负性:当0x ≠时,由于y 非零,故||||||||0,H
n V M x xy x C =>?∈;
当0x =时,H
n n xy
O ?=,故||||||||0H V M x xy ==。
齐次性:对任一常数c C ∈,有
||||||||||||||||||||H
H
V M M V cx cxy c xy c x ===。 三角不等式: 对任意的,n
x z C ∈,有
||||||()||||||||||||||H H H H H V M M M M x z x z y xy xz xy xz +=+=+≤+
||||||||V M x z =+。
因此由向量范数的定义知,||||V x 是一个向量范数。
下面再证两种范数的相容性。如果,n n n A C x C ?∈∈,那么
||||||()||||()||||||||||||||||||H H H V M M M M M V Ax Ax y A xy A xy A x ==≤=。 可见,矩阵范数||||M ?与向量范数||||V ?相容。
五. 范数的若干应用
范数的应用很广泛,这里只举2例。
1. 矩阵奇异性的条件
对于矩阵n n
A C ?∈,能否根据其范数的大小,来判别()I A -的奇异性?判别一个矩阵的奇异性,并不方便(比如计算A 的行列式的值是否非零,判断A 的诸列是否线性无关等,均不大容易),但矩阵的范数的计算,如1||||,||||A A ∞,还是方便的。
定理 5.1 (Banach 引理) 设矩阵n n
A C
?∈,且对矩阵n n
C
?上的某种矩阵范数||||?,有
||||1A <, 则矩阵()I A ±非奇异,且有
1
||||||()||1||||
I I A A --≤- (5.1)
证明: 假设矩阵范数||||A 与向量范数||||x 相容。欲证矩阵()I A ±非奇异,可通过det()0I A ±≠。
用反证法。假设det()0I A ±=,则齐次线性方程组 ()0I A x ±= 有非零解0x ,即
00()0,0I A x x ±=≠
于是, 00x Ax = 。
两边取范数 0000||||||||||||||||||||V V V V x Ax A x x =≤<
其中最后一个不等号是由于 ||||1A <。 但上式是矛盾的,假设det()0I A ±=不成立,从而矩阵()I A ±非奇异,故有逆。
再由 1()()I A I A I -±±= 可得 11()()I A I I A A --±=± 两边取范数,得111||()||||()||||||||()||||||I A I I A A I I A A ---±=±≤+± 再移项,有 1||()||(1||||)||||I A A I -±-≤
从而 1
||||
||()||1||||
I I A A -±≤
-
这正是我们要想证明的。在推演分析Ax b =的直接法的误差分析时起重要的作用。
请同学们自行证明下面类似的结果。 定理5.2 设矩阵n n
A C
?∈,且对矩阵n n
C
?上的某种矩阵范数||||?,有||||1A <,则
1
||||
||()||1||||
A I I A A ---≤
-
2.近似逆矩阵的误差——逆矩阵的摄动
在数值计算中,误差无处不在,考虑由于这些误差存在而带来的后果,是一项重要的课题。设矩阵n n
A C
?∈的元素ij a 带有误差,(,1,2,,)ij a i j n δ= ,则矩阵的真实的值应为
A A δ+,其中()ij A a δδ=称为误差矩阵,又叫摄动矩阵。
若A 为非奇异,其逆阵为1A -。问题是:1()A A δ-+与1
A -的近似程度如何呢?或者说,
1()A A δ-+与1A -的“距离”大小为多少?
下面是回答上述问题的摄动定理。
定理5.3 设矩阵n n
A C
?∈非奇异,n n
B C
?∈ ,且对n n
C
?上的某种矩阵范数||||?,有
1
||||1A B -<,
则(1)A B +非奇异; (2)记1
1
()F I I A B --=-+,那么 11||||
||||1||||
A B F A B --≤-; (3)11111
||()||||||||||1||||
A A
B A B A A B ------+≤-。 证明:由于1||||1A B -<,所以1||||1A B --<。由定理5。1,1()I A B -+非奇异,故1()A B A I A B -+=+非奇异。
在定理5。2中,将A 换成1
A B --,即得(2)。
又因为 11111()(())A A B I I A B A ------+=-+,
两边取范数,并利用(2)的结论,可得
11
1
1
1
||||||()||||||1||||
A B A A B A A B ------+≤-, 即可得到(3)。 □
3.矩阵谱半径及其性质
矩阵谱半径是一个重要的概念,在特征值估计,广义逆矩阵,数值计算(特别在数值线性代数)等理论中,都占有极其重要的地位。
定义4 设矩阵n n
A C ?∈的n 个特征值为12,,,n λλλ (含重根),称max ||i i
λ为矩阵A
的谱半径,记为()A ρ。
关于矩阵谱半径的最证明也是最重要的结论是,矩阵A 的谱半径不超过其任一种矩阵范数。这个结果已经在课堂上证明过了。
作为练习,请同学们对 1321i A i -??
=
?+??
验证这个结论。
关于矩阵谱半径的第2个重要结论是,如果矩阵A 为Hermite 矩阵,则2||||()A A ρ=。
证明留给大家。
虽然Hermite 矩阵的谱半径与其谱范数相等,但是,一般矩阵的谱半径与其谱范数可能相差很大。下面关于矩阵谱半径的第3个重要结论,刻画了谱半径与矩阵范数之间的另一种定量关系。
,
定理5。4 设矩阵n n
A C ?∈,对任意正数ε,存在一种矩阵范数||||M ?,使得
||A ||||()M A A ρε≤+
证明: 根据Jordan 标准型,对n n
A C
?∈,存在非奇异的n n
P C
?∈,使
1
P AP J -=
如果记 12(,,,)n diag λλλΛ= 和
123
100000n I δδδδ-?? ?
? ? ?= ? ? ?
? ???
, 01i δ=或
则 Jordan 标准型 J I =Λ+ ,其中12,,,n
λλλ 为A 的特征值。 又记 21(1,,,,)n D diag εεε-= ,则有
1111()()PD A PD D P APD D JD I ε----===Λ+ 1122
3
31n n λεδλεδλεδεδλ-??
? ? ?=
? ? ?
? ??
?
,
记 S PD =,那么S 为非奇异,且有
111
||||||||()S AS I A ερε-=Λ+≤+ 。 另一方面,容易验证,11||||||||M A S AS -= 是 n n
C
?上的矩阵范数,所以
11||||||||()M A S AS A ρε-=≤+。 □
5.向量和矩阵范数在求解Ax b =的直接法的误差分析中应用 这一内容我在课堂上讲的比较仔细,这里就略去了。
向量和矩阵的范数的若干难点导引 矩阵范数的定义 引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。 最容易想到的矩阵范数,是把矩阵m n A C ?∈可以视为一个mn 维的向量(采用所谓“拉 直”的变换),所以,直观上可用mn C 上的向量范数来作为m n A C ?∈的矩阵范数。比如 在1l -范数意义下,111 ||||||m n ij i j A a === ∑∑()12 tr()H A A =; (1.1) 在2l -范数意义下,1 2 211||||||m n F ij i j A a ==?? = ??? ∑∑, (1.2) 注意这里为了避免与以后的记号混淆,下标用“F ”,这样一个矩阵范数,称为Frobenius 范数,或F-范数。可以验证它们都满足向量范数的3个条件。 那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计AB 的“大小”相对于A B 与的“大小”关系。 定义1 设m n A C ?∈,对每一个A ,如果对应着一个实函数()N A ,记为||||A ,它满足以下条件: (1)非负性:||||0A ≥; (1a )正定性:||||0m n A O A ?=?= (2)齐次性:||||||||||,A A C ααα=∈; (3)三角不等式:||A ||||||||||||,m n A B A B B C ?+≤+?∈ 则称()||||N A A =为A 的广义矩阵范数。进一步,若对,,m n n l m l C C C ???上的同类广义矩阵范数||||?,有 (4)(矩阵相乘的)相容性:||A ||||||||||||AB A B ≤, n l B C ?∈, 则称()||||N A A =为A 的矩阵范数。 我们现在来验证前面(1.1)和(1.2)定义的矩阵范数是否合法?我们这里只考虑(1.2), 把较容易的(1.1)的验证留给同学们, 三角不等式的验证。按列分块,记1212(,,,),(,,,)n n A a a a B b b b == 。 2 22112||)(,),(),(||||||F n n F b a b a b a B A +++=+ 2222222211||||||||||||n n b a b a b a ++++++= ()()22 121222||||||||||||||||n n a b a b ≤++++ ()()()2222122121222122||||||||2||||||||||||||||||||||||n n n n a a a b a b b b =++++++++ 对上式中第2个括号内的诸项,应用Cauchy 不等式,则有 222||||||||2||||||||||||F F F F F A B A A B B +≤++2(||||||||)F F A B =+ (1.3) 于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。 2 2 2111 111||||||||m l n m l n F ik kj ik ki i j k i j k AB a b a b ======?? =≤ ??? ∑∑∑∑∑∑
《周国标师生交流讲席010》 向量和矩阵的范数的若干难点导引(二) 一. 矩阵范数的定义 引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。 最容易想到的矩阵范数,是把矩阵m n A C ?∈可以视为一个mn 维的向量(采用所谓“拉 直”的变换),所以,直观上可用mn C 上的向量范数来作为m n A C ?∈的矩阵范数。比如 在1l -范数意义下,111 ||||||m n ij i j A a === ∑∑( ) 12 tr()H A A =; (1.1) 在2l -范数意义下,1 2 211||||||m n F ij i j A a ==??= ??? ∑∑, (1.2) 注意这里为了避免与以后的记号混淆,下标用“F ”,这样一个矩阵范数,称为Frobenius 范数,或F-范数。可以验证它们都满足向量范数的3个条件。 那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计AB 的“大小”相对于A B 与的“大小”关系。 定义1 设m n A C ?∈,对每一个A ,如果对应着一个实函数()N A ,记为||||A ,它满足以下条件: (1)非负性:||||0A ≥; (1a )正定性:||||0m n A O A ?=?= (2)齐次性:||||||||||,A A C ααα=∈; (3)三角不等式:||A ||||||||||||,m n A B A B B C ?+≤+?∈ 则称()||||N A A =为A 的广义矩阵范数。进一步,若对,,m n n l m l C C C ???上的同类广义矩阵 范数||||?,有 (4)(矩阵相乘的)相容性:||A ||||||||||||AB A B ≤, n l B C ?∈, 则称()||||N A A =为A 的矩阵范数。 我们现在来验证前面(1.1)和(1.2)定义的矩阵范数是否合法?我们这里只考虑(1.2),把较容易的(1.1)的验证留给同学们, 三角不等式的验证。按列分块,记1212(,,,),(,,,)n n A a a a B b b b ==L L 。 2 22112||)(,),(),(||||||F n n F b a b a b a B A +++=+Λ 2 222222211||||||||||||n n b a b a b a ++++++=Λ ()()22 121222||||||||||||||||n n a b a b ≤++++L ()()()22 22122121222122||||||||2||||||||||||||||||||||||n n n n a a a b a b b b =++++++++L L L 对上式中第2个括号内的诸项,应用Cauchy 不等式,则有 222||||||||2||||||||||||F F F F F A B A A B B +≤++2(||||||||)F F A B =+ (1.3) 于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。
《周国标师生交流讲席010》 向量和矩阵的范数的若干难点导引(二) 一.矩阵范数的定义 引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。 最容易想到的矩阵范数,是把矩阵A C m n可以视为一个mn维的向量(采用所谓“拉 直”的变换),所以,直观上可用C mn上的向量范数来作为A C m n的矩阵范数。比如 m n 1 在∣1 -范数意义下,IIAl1 ;二Ia ijI= tr(A H A) 2; (1.1 ) 1 Zl mn A2 在I2-范数意义下,∣∣A∣∣F=∑∑同|2,(1.2) Iy j A J 注意这里为了避免与以后的记号混淆,下标用“F”,这样一个矩阵范数,称为Frobenius 范数,或F-范数。可以验证它们都满足向量范数的3个条件。 那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计AB的“大小”相对于A与B 的“大小”关系。 定义1设A C mn,对每一个A ,如果对应着一个实函数N(A),记为IlAll ,它满足以下条件: (1)非负性:|| A||_0 ; (1 a)正定性:A=O mn= IIAII= 0 (2)齐次性:||〉A||=| |||A||, ? C ; (3)三角不等式:||A||A B||—||A|| ||B||, -B C m n 则称N(A)=|| A||为A的广义矩阵范数。进一步,若对C m n,C n 1C m l上的同类广义矩阵 范数|| || ,有 (4)(矩阵相乘的)相容性:|| A || AB ||_|| A|||| B ||, B C n I , 则称N(A) =||A||为A的矩阵范数。 我们现在来验证前面(1.1 )和(1.2 )定义的矩阵范数是否合法?我们这里只考虑(1.2 ),把较容易的(1.1 )的验证留给同学们, 三角不等式的验证。按列分块,记A=√a1,a2,…,a n), B=√b1,b2,…,b n)。 ||A BII F=Ig bj,? b2), ,(a. b n)||F *1 UII2 IIa2 b2||2 Ha n g ||2 (IIa1II2 +IIdIb ) +…+(IIa n Ib +||b n ||2) 2 2 兰 二険||2 IIa n II;2 || q II2II d ||2 …IIa n II2II b n ||2 IIdII2IIb n II2 对上式中第2个括号内的诸项,应用CaUChy不等式,则有 IIA + BIIF≤IIAII F +2||A||F||B||F +IIBII2=(IIAI F +IIBII F)2(1.3 )于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。
矩阵论主要研究的是线性空间以及在线性空间中的一些操作,主要是线性变换。当然书中主要是针对有限维的情况来讨论的,这样的话就可以用向量和矩阵来表示线性空间和线性变换,同其他的数学形式一样,矩阵是一种表达形式(notation),而这一方面可以简洁地表达出我们平时遇到的如线性方程和协方差关系的协方差矩阵等,另一方面又给进一步的研究或者问题的简化提供了一个平台。如特征值分析、稳定性分析就对应着诸如统计分布和系统稳定性等实际问题。而一系列的分解则可以方便方程的数值计算。作为矩阵论的学习,我们需要了解具体的一些计算究竟是怎么算的,但更关键的是要知道各个概念和方法的实际意义,各个概念之间的关系。 首先介绍的是线性空间,对于线性空间中的任意一个向量的表示有基(相当于度量单位)和坐标(相当于具体的尺度),基既然作为度量标准了,当然要求对每一个向量都适用,同时这个标准本身也应该尽可能的简洁,那么就得到了基定义的两点约束:1、基的组成向量线性无关;2、线性空间中的任一个向量都可以由基的线性表示。 基作为一种“计量标准”,当然可能会存在多种形式,只要满足上面的两点条件,因而就有必要解决不同的度量标准之间的转换关系,从而得到过渡矩阵的概念,同时可以使用这种转换关系(过渡矩阵)去完成度量量(坐标)之间的转换。 在完成了线性空间这一对象的认识和表达之后,下面需要研究对象和对象之间的关系。这里主要是线性变换,线性变换针对于实际对象主要完成类似于旋转和尺度变换方面的操作,而这种操作也牵涉到表达的问题。为了保持与空间的一致性,我们也同样是在特定的基下来表示,从而线性变换就具体化为一个变换矩阵,并且,在不同的基下对应的变换矩阵当然也不相同,这里的不同的变换矩阵的关系就是相似的概念。 到此,我们完成了空间中向量的表示和线性变换的矩阵表达。这里涉及了基、坐标、过渡矩阵、变换矩阵、相似矩阵这几个重要的概念。上面算是内涵上的认识,下面我们需要知道线性空间里究竟有些什么东西,它是如何组成的,各个组
第二章 范数理论 在第一章我们曾利用内积定义了向量的长度,他是几何向量长度概念的一种推广。虽然当n>3时对定义的向量长度无法作出具体的几何解释,但这样规定的长度具有几何向量长度的基本性质,即非负性,齐次性和三角不等式。本章我们采用公理化的方法,八项量长度的概念推广到更一般的情形,主要讨论向量范数、矩阵范数及其有关的应用。 §2.1 向量范数 定义 2.1 若对任意n C x ∈都有一个实数x 与之对应,且满 足: (1) 非负性:当x 0 x 0 x 0x 0 ? ==时,;当,; (2) 齐次性:对任何C x x l l l ?,; (3) 三角不等式:对任意n x,y C ? , 都有x y ,x y +?则称x 为n C 上的向量x 的范数,简称向量范数。 定义中并未给出向量范数的计算方法,只是规定了向量范数应满足的三条公理,称之为向量范数三公理。从范数定义可得范数的下列基本性质。 定理2.1 对任意,n C y x,∈有 (1)x -=x ; (2) x .y x y -? 只证(2)。根据三角不等式,有
x x y y x y y =-+?+ y y x x y x x =-+?+ 综合二式即得 x y x y -? 证毕 例 2.1 设12n ().T n x C x x x = ,, 规定 2x = 第一章已表明 2 x 是向量x 的一种范数,并称之为向量2-范数,该范数具 有如下重要的性质,对任意n x C ? 和任意 n 阶酉矩阵U ,有 22Ux .x = 称之为向量 2-范数的 酉不变性。 例2.2 设12n x ().T n C x x x = ,,规定 11 x n k k x == ? 则1x 是向量 x 的一种范数,称为向量1-范数。 证 当 1 11 x 0x 0 x 0x 0x 0.n k k x =?>==? 时,显然;当时,的每一分量都是,故 对任意λ C , ? 有 n 111 1 x n k k k k x l l x l x l === ==邋 又对任意12y (,,).T n n C h h h = 有
矩阵范数的意义 几何方法是一种数学思维方法。函数和几何是数学的两条主要主线。我们学习各种函数及其性质,比如微积分、复变函数、实变函数、泛函等。而几何是函数形象表达,函数是几何的抽象描述,几何研究“形”,函数研究“数”,它们交织在一起推动数学向更深更抽象的方向发展。 函数图象联系了函数和几何,表达两个数之间的变化关系,映射推广了函数的概念,使得自变量不再仅仅局限于一个数,也不再局限于一维,任何事物都可以拿来作映射,维数可以是任意维,传统的函数图象已无法直观地表达高维对象之间的映射关系,这就要求我们在观念中,把三维的几何空间推广到抽象的n维空间。 由于映射的对象可以是任何事物,为了便于研究映射的性质以及数学表达,我们首先需要对映射的对象进行“量化”,取定一组“基”,确定事物在这组基下的坐标,事物同构于我们所熟悉的抽象几何空间中的点,事物的映射可以理解为从一个空间中的点到另一个空间的点的映射,而映射本身也是事物,自然也可以抽象为映射空间中的一个点,这就是泛函中需要研究的对象——函数。 从一个线性空间到另一个线性空间的线性映射,可以用一个矩阵来表达,矩阵被看线性作映射,线性映射的性质可以通过研究矩阵的性质来获得,比如矩阵的秩反映了线性映射值域空间的维数,可逆矩阵反映了线性映射的可逆,而矩阵范数反映了线性映射把一个向量映射为另一个向量,向量的“长度”缩放的比例。 并不是只有线性空间才有范数的定义,任意空间都可以引入范数,这样的空间称为赋范空间,使得这个空间可以被度量,如希尔伯特空间。 范数是把一个事物映射到非负实数,且满足非负性、齐次性、三角不等式,符合以上定义的都可以称之为范数,所以,范数的具体形式有很多种(由内积定义可以导出范数,范数还也可以有其他定义,或其他方式导出),要理解矩阵的算子范数,首先要理解向量范数的内涵。矩阵的算子范数,是由向量范数导出的,由形式可以知: 或方阵
向量范数 在一维空间中,实轴上任意两点距离用两点差的绝对值表示。绝对值是一种度量形式的定义。 范数是对函数、向量和矩阵定义的一种度量形式。任何对象的范数值都是一个非负实数。使用范数可以测量两个函数、向量或矩阵之间的距离。 向量范数是度量向量长度的一种定义形式。范数有多种定义形式,只要满足下面的三个条件即可定义为一个范数。同一向量,采用不同的范数定义,可得到不同的范数值。 定义3.1 对任一向量,按照一个规则确定一个实数与它对应,记该实数记为,若满足下面三个性质: 若X是数域K上的线性空间,泛函║·║: X->R 满足: 1. 正定性:║x║≥0,且║x║=0 <=> x=0; 2. 正齐次性:║cx║=│c│║x║; 3. 次可加性(三角不等式):║x+y║≤║x║+║y║ 。 那么║·║称为X上的一个范数。 常用范数 这里以C^n空间为例,R^n空间类似。 最常用的范数就是p-范数。若x=[x1,x2,...,xn]^T,那么 ║x║p=(|x1|^p+|x2|^p+...+|xn|^p)^{1/p} 可以验证p-范数确实满足范数的定义。其中三角不等式的证明不是平凡的,这个结论通常称为闵可夫斯基(Minkowski)不等式。 当p取1,2,∞的时候分别是以下几种最简单的情形: 1-范数:║x║1=│x1│+│x2│+…+│xn│ 2-范数:║x║2=(│x1│^2+│x2│^2+…+│xn│^2)^1/2 ∞-范数:║x║∞=max(│x1│,│x2│,…,│xn│) 其中2-范数就是通常意义下的距离。 定理https://www.doczj.com/doc/1511661397.html,中任意两种向量范数║x║α,║x║β是等价的,即有m,M>0使m║x║α≤║x║β≤M║x║可根据范数的连续性来证明它. 由定理1可得 定理2.设{x(k)}是Cn中向量序列,x是Cn中向量,则║x(k)-x║→0(k→∞) iff xj(k)-xj→0,j=1,2,…,n(k→∞) 其中xj(k)是x(k)的第j个分量,xj是x的第j个分量. 此时称{x(k)}收敛于x,记作x(k)→x(k→∞),或 . 矩阵范数 一般来讲矩阵范数除了正定性,齐次性和三角不等式之外,还规定其必须满足相容性:║XY║≤║X║║Y║。所以矩阵范数通常也称为相容范数。 如果║·║α是相容范数,且任何满足║·║β≤║·║α的范数║·║β都不是相容范数,那么║·║α称为极小范数。 对于n阶实方阵(或复方阵)全体上的任何一个范数║·║,总存在唯一的实数k>0,使得k║·║是极小范数。 注:如果不考虑相容性,那么矩阵范数和向量范数就没有区别,因为mxn矩阵全体和mn维向量空间同构。 引入相容性主要是为了保持矩阵作为线性算子的特征,和算子范数的相容性一致,并且可以得到Mincowski定理以外的信息。
矩阵与范数、谱半径、奇异值 矩阵论主要研究的是线性空间以及在线性空间中的一些操作,主要是线性变换。当然书中主要是针对有限维的情况来讨论的,这样的话就可以用向量和矩阵来表示线性空间和线性变换,同其他的数学形式一样,矩阵是一种表达形式(notation),而这一方面可以简洁地表达出我们平时遇到的如线性方程和协方差关系的协方差矩阵等,另一方面又给进一步的研究或者问题的简化提供了一个平台。如特征值分析、稳定性分析就对应着诸如统计分布和系统稳定性等实际问题。而一系列的分解则可以方便方程的数值计算。作为矩阵论的学习,我们需要了解具体的一些计算究竟是怎么算的,但更关键的是要知道各个概念和方法的实际意义,各个概念之间的关系。 首先介绍的是线性空间,对于线性空间中的任意一个向量的表示有基(相当于度量单位)和坐标(相当于具体的尺度),基既然作为度量标准了,当然要求对每一个向量都适用,同时这个标准本身也应该尽可能的简洁,那么就得到了基定义的两点约束:1、基的组成向量线性无关;2、线性空间中的任一个向量都可以由基的线性表示。 基作为一种“计量标准”,当然可能会存在多种形式,只要满足上面的两点条件,因而就有必要解决不同的度量标准之间的转换关系,从而得到过渡矩阵的概念,同时可以使用这种转换关系(过渡矩阵)去完成度量量(坐标)之间的转换。 在完成了线性空间这一对象的认识和表达之后,下面需要研究对象和对象之间的关系。这里主要是线性变换,线性变换针对于实际对象主要完成类似于旋转和尺度变换方面的操作,而这种操作也牵涉到表达的问题。为了保持与空间的一致性,我们也同样是在特定的基下来表示,从而线性变换就具体化为一个变换矩阵,并且,在不同的基下对应的变换矩阵当然也不相同,这里的不同的变换矩阵的关系就是相似的概念。 到此,我们完成了空间中向量的表示和线性变换的矩阵表达。这里涉及了基、坐标、过渡矩阵、变换矩阵、相似矩阵这几个重要的概念。上面算是内涵上的认识,下面我们需要知道线性空间里究竟有些什么东西,它是如何组成的,各个组成成分之间的关系,也就是空间的结构性方面的东西。 首先认识子空间(空间的组成部分),当然既然也是空间,也就要满足空间的加法和数乘的封闭性,要满足那八条定律。后者可以由父空间保证,前面的就要子空间自身素质了。同时要看子空间之间的并、交、直和运算和相应的秩的关系。这里提到了维数,就要多说几句了,空间中的元素往往是连续过渡的,但是对于有限空间而言还有离散的性质,那就是维数,我称其为“不伸则已,一伸则增一”,从这也就说明了为什么可以用若干个子空间的直和可以等价于原线性空
m n 1 2 2 2 F 1 2 n F 1 2 1 2 n 2 1 2 2 1 2 1 2 2 2 1 2 2 《周国标师生交流讲席 010》 向量和矩阵的范数的若干难点导引(二) 一. 矩阵范数的定义 引入矩阵范数的原因与向量范数的理由是相似的,在许多场合需要“测量”矩阵的“大小”,比如矩阵序列的收敛,解线性方程组时的误差分析等,具体的情况在这里不再复述。最容易想到的矩阵范数,是把矩阵 A ∈ C m ?n 可以视为一个 mn 维的向量(采用所谓“拉直” 的变换),所以,直观上可用C mn 上的向量范数来作为 A ∈ C m ?n 的矩阵范数。比如 在l - 范数意义下, || A || = ∑∑| a | = (tr( A H A )) 2 ; (1.1) 1 1 i =1 ij j =1 1 ? m n 2 ? 2 在l 2 -范数意义下, || A ||F = ∑∑| a ij | ? , (1.2) ? i =1 j =1 ? 注意这里为了避免与以后的记号混淆,下标用“F”,这样一个矩阵范数,称为 Frobenius 范数,或 F-范数。可以验证它们都满足向量范数的 3 个条件。 那么是否矩阵范数就这样解决了?因为数学上的任一定义都要与其对象的运算联系起来,矩阵之间有乘法运算,它在定义范数时应予以体现,也即估计 AB 的“大小”相对于 A 与B 的“大小”关系。 定义 1 设 A ∈ C m ?n ,对每一个 A ,如果对应着一个实函数 N ( A ) ,记为|| A || ,它满足以下条件: (1)非负性: || A ||≥ 0 ; (1a )正定性: A = O m ?n ? || A ||= 0 (2)齐次性: || A ||=|||| A ||, ∈ C ; (3)三角不等式: || A || A + B ||≤|| A || + || B ||, ?B ∈ C m ?n 则称 N ( A ) =|| A || 为 A 的广义矩阵范数。进一步,若对C m ?n , C n ?l , C m ?l 上的同类广义矩阵范数|| ? || ,有 (4)(矩阵相乘的)相容性: || A || AB ||≤|| A |||| B ||,则称 N ( A ) =|| A || 为 A 的矩阵范数。 B ∈ C n ?l , 我们现在来验证前面(1.1)和(1.2)定义的矩阵范数是否合法?我们这里只考虑(1.2), 把较容易的(1.1)的验证留给同学们, 三角不等式的验证。按列分块,记 A = (a 1 , a 2 , , a n ), B = (b 1 , b 2 , , b n ) 。 || A + B ||2 =|| (a + b ), (a + b ), ,(a + b ) ||2 =|| a 1 + b 1 ||2 + || a + b 2 ||2 + + || a + b n ||2 ≤ (|| a || + || b || ) 2 + + (|| a || + || b || )2 = (|| a ||2 + + || a ||2 ) + 2 (|| a || || b || + + || a || || b || ) + (|| b ||2 + + || b ||2 ) 对上式中第 2 个括号内的诸项,应用 Cauchy 不等式,则有 || A + B ||2 ≤|| A ||2 +2 || A || || B || + || B ||2 = (|| A || + || B || )2 (1.3) F F F F F F F 于是,两边开方,即得三角不等式。 再验证矩阵乘法相容性。 1 2 n 2 n n n n n 2 n
一、范数的定义 若X是数域K上的线性空间,泛函║·║: X->R 满足: 1. 正定性:║x║≥0,且║x║=0 <=> x=0; 2. 正齐次性:║cx║=│c│║x║; 3. 次可加性(三角不等式):║x+y║≤║x║+║y║ 。 那么║·║称为X上的一个范数。 (注意到║x+y║≤║x║+║y║中如令y=-x,再利用║-x║=║x║可以得到 ║x║≥0,即║x║≥0在定义中不是必要的。) 如果线性空间上定义了范数,则称之为赋范线性空间。 注记:范数与内积,度量,拓扑是相互联系的。 1. 利用范数可以诱导出度量:d(x,y)=║x-y║,进而诱导出拓扑,因此赋范线性空间是度量空间。 但是反过来度量不一定可以由范数来诱导。 2. 如果赋范线性空间作为(由其范数自然诱导度量d(x,y)=║x-y║的)度量空间是完备的,即任何柯西(Cauchy)序列在其中都收敛,则称这个赋范线性空间为巴拿赫(Banach)空间。 3. 利用内积<·,·>可以诱导出范数:║x║=
§8 向量,矩阵范数,矩阵的条件数 一 、 向量、矩阵范数 为了讨论线性方程组近似解的误差估计与研究解方程组迭代法的收敛性,需要在)(n n n R R ?或中引进向量序列(或矩阵序列)极限概念。为此,这就需要对量空间n R (或n n R ?矩阵空间)元素的“大小”引进某种度量即 向量范数(或矩阵范数)即距离的概念。 (一)向量范数:向量范数是3R 中向量长度概念的推广。 },{1为复数i n n x x x x x C ??????????== 称为n 维复向量空间。 },)({为复数ij n n ij n n a a A A C ??==称为n n ?复矩阵空间。 (2)设n n n C A C x ?∈∈,,称T n H x x x x =≡),,(1 为x 的共轭转置, T H A A =称为A 共轭转置矩阵。 在许多应用中,对向量的范数(对向量的“大小”的度量)都要求满足正定条件,齐次条件和三角不等式,下面给出向量范数的抽象定义。 n R x ∈(或n C x ∈)的某个实值非负函数 x x N ≡)(,如果满足下述条件 (1)正定性 00,0=??=≥x x x (2)齐次性 x ax α=其中R ∈α(或C ∈α)
(3)三角不等式 )(,,n n C R y x y x y x ∈∈?+≤+或,称x x N ≡)(是n R 上(或n C )一个向量范数(或为模)。 由三角不等式可推出不等式 (4)y x y x -≤- 下面给出矩阵计算中一些常用向量范数。 设)(),,(1n n T n C x R x x x ∈∈=或 (1)向量的“∞”范数 i n i x x x N ≤≤∞ ∞=≡1max )( (2)向量的“1”范数 ∑==≡n i i x x x N 1 1 1)( (3)向量的“2”范数 2/11 2 2 /12 2)() ,()(∑===≡n i i x x x x x N (4)向量的能量范数 设n n R A ?∈为对称正定阵 2/1),()(x Ax x x N R x A A n =≡→∈? 称为向量的能量范数。 设n R x ∈(或n C x ∈),则)(),(),(12x N x N x N ∞是n R 上(或n C )的向量范数。 证明 只验证三角不等式:对任意n R y x ∈,,则222 y x y x +≤+ 利用哥西不等式:22 ),(y x y x ≤,则有 ),(22 y x y x y x ++=+),(),(2),(y y y x x x ++= 22 2 2 22 2y y x x ++≤222))(y x += 对任何n R y x ∈,则 (1) ∞∞ ≤≤x n x x 2