特征值范围估计
- 格式:docx
- 大小:11.32 KB
- 文档页数:2
盖尔圆估计特征值所在范围
盖尔圆估计特征值所处的范围也称为对数估计范围(logarithmic estimation range)。
这意味着一个特征值可能位于0到1之间、最
小值到最大值之间或其他范围之内。
通常,许多解释性统计变量是有
限的。
因此,每个特征值应该被限制在一定范围内,而不是任意值。
没有明确的范围,特征值可能会被无意义地推断出过大或过小的值。
盖尔圆估计用于确定一个有意义的特征值范围,以便更好地解释实际
数据集中的变量值。
盖尔圆估计采用由George E. P. Box和Dwight W. Lyman在1962
年研究中提出的有效方法,用于检查实际的数学变量值是否太小或太大,以使它们适合当前范围和阈值。
在此过程中,样本数据被分为两
部分,一部分为最小值,另一部分为最大值。
相关变量的统计值被报告,如均值、中位数、平均值、标准差等,以评估样本的整体特征值。
盖尔圆估计的范围可以通过检查实际的数学变量值来计算,这种
变量值可以在最小值和最大值之间变化。
相关的样本数据被分为两部分,一部分用于检查对数变量的有效值,而另一部分用于检查其他变
量的有效值。
这种有效范围可以从特定shell中推断出来,这就是盖
尔圆估计隐含的特征值范围。
盖尔圆估计特征值所处的范围是一个有限的范围,介于0-1之间,针对每个特征值,有两套统计参数(最小值和最大值)可以指导在该
范围内的精确估计。
盖尔圆估计通过检查实际的数学变量值,以确保
特征值落在一定的范围内,而不是任意值。
这有助于更准确地识别实
际数据集中的变量值,从而更好地解释数据。
特征值和特征向量计算的数值方法在数学和计算机科学领域中,特征值和特征向量是非常重要的概念。
特征值和特征向量的计算有许多不同的数值方法,本文将介绍其中一些常见的数值方法,并分析它们的优劣和适用范围。
一、特征值和特征向量的定义在矩阵理论中,给定一个n×n的矩阵A,如果存在一个非零向量v和一个标量λ,使得Av=λv,那么称v为矩阵A的特征向量,λ为矩阵A的特征值。
特征值和特征向量的计算可以帮助我们理解矩阵的性质以及解决一些实际问题。
二、幂法幂法是计算特征值和特征向量的常用数值方法之一。
幂法的基本思想是通过多次迭代,逐渐逼近矩阵的特征值和特征向量。
具体操作如下:1. 初始化一个非零向量b0;2. 进行迭代计算:bi+1 = A * bi / ||A * bi||;3. 取出近似特征向量的最后一列:v = bn;4. 进行迭代计算特征值:λ = (Av)T * v / (vT * v)。
幂法的主要优点是简单易懂,且只需要进行矩阵向量乘法和内积计算。
然而,幂法仅能求取具有最大特征值的特征向量,而且对于存在多个特征值相等的情况并不适用。
三、反幂法反幂法是幂法的一种改进方法,用于求取矩阵A的最小特征值和对应的特征向量。
反幂法的基本步骤如下:1. 初始化一个非零向量b0;2. 进行迭代计算:bi+1 = (A - μI)^-1 * bi / ||(A - μI)^-1 * bi||;3. 取出近似特征向量的最后一列:v = bn;4. 进行迭代计算特征值:λ = (Av)T * v / (vT * v)。
反幂法的改进之处在于引入了矩阵的逆运算,通过使用矩阵A减去一个合适的常数μ乘以单位矩阵来实现。
反幂法适用于矩阵A的特征值接近于μ的情况。
四、QR方法QR方法也是一种常用的特征值计算方法,它适用于求解所有特征值以及对应的特征向量。
QR方法的基本思想是将一个矩阵分解为正交矩阵Q和上三角矩阵R的乘积,然后迭代地将矩阵A转化为更接近上三角形的形式。
估计矩阵特征值的范围例题估计矩阵特征值的范围是一个重要的数学问题,它在实际应用中具有广泛的意义。
在估计矩阵特征值的范围时,可以采用多种方法。
其中一种常见的方法是使用Gershgorin圆盘定理。
该定理指出,对于一个n阶矩阵A,其特征值位于以矩阵A的每行对角线元素为圆心、以该行对角线元素绝对值之和为半径的圆盘内。
因此,通过计算每行对角线元素的绝对值之和,可以得到特征值的范围估计。
另外,还可以利用Rayleigh商来估计矩阵特征值的范围。
Rayleigh商是一种特征值的估计方法,通过对矩阵A和一个非零向量x计算Rayleigh商的方式来估计特征值。
具体而言,对于非零向量x,其Rayleigh商定义为x^T A x / (x^T x),其中^T表示向量的转置。
通过对不同的非零向量x计算Rayleigh商,可以得到特征值的范围估计。
此外,还可以利用幂法等数值方法来估计矩阵特征值的范围。
幂法是一种迭代算法,通过不断迭代矩阵A的幂次方和向量的乘积来逼近矩阵A的主特征值和对应的特征向量。
通过幂法得到的特征值的估计值,可以帮助我们对矩阵特征值的范围进行估计。
除了上述方法外,还有一些其他的方法可以用来估计矩阵特征值的范围,比如使用Hilbert-Schmidt范数、谱半径等。
这些方法在不同的情况下都有其适用的场景,可以根据具体的问题和矩阵的性质来选择合适的方法进行估计。
总的来说,估计矩阵特征值的范围是一个复杂而重要的数学问题,需要结合矩阵的特点和具体的应用背景来选择合适的方法进行估计。
不同的方法有不同的优缺点,可以相互印证,以得到更加准确和全面的特征值范围估计。
Gerschgorin 圆盘定理是用来预估矩阵特征值的范围的。
对于一个n ×n 的方阵来说,Gerschgorin 圆盘定理可以判断矩阵的全部特征值落入的圆盘中。
该定理表述为:对于一个复数方阵A,存在一组集中于复平面上以矩阵A的每个元素a[i][j]为中心,以r[i] = ∑|a[i][j]| (i ≠j)为半径的闭圆,称为Gerschgorin 圆盘。
那么A的全部特征值必然落在所有这些圆盘的并集中。
这个定理用起来相当简单。
对于一个n ×n 的方阵来说,有n 个行圆盘和列圆盘,它的特征值就位于这些圆盘中。
所谓的圆盘就是复平面上的一个圆,那么中心就是矩阵的对角线元素,半径则分两种,行圆盘的半径就是某一行除了对角线元素外,所有元素的模长的和,列圆盘则是某一列除了对角线元素外,所有元素的模长的和。
以上信息仅供参考,如需了解更多信息,建议查阅数学书籍或咨询专业人士。
求特征值的化简技巧特征值是线性代数中一个重要的概念,对于矩阵的性质有着重要的影响。
化简特征值的技巧可以帮助我们更好地理解矩阵的特征值的性质,简化计算过程,从而更加高效地解决相关的问题。
1. 矩阵相似性:对于一个n阶方阵A,如果存在一个可逆矩阵P,使得P^{-1}AP 为对角矩阵,那么A与对角矩阵有相同的特征值。
利用这个性质,我们可以通过相似变换将原矩阵化为对角矩阵,然后直接读出对角线上的元素作为特征值。
2. 特征多项式:n阶方阵A的特征多项式定义为p(\lambda) = det(A -\lambda I),其中I为单位矩阵。
特征多项式的根即为矩阵A的特征值。
通过计算特征多项式,我们可以得到矩阵的所有特征值。
3. 特征子空间:针对矩阵A的特定特征值\lambda_i,我们可以找到对应的特征向量v_i。
将所有特征向量按列组成矩阵P,即P = [v_1, v_2, ..., v_n]。
如果所有的特征向量都是线性无关的,那么P^{-1}AP为对角矩阵,且对角线上的元素就是矩阵A的特征值。
通过求解矩阵A的特征子空间,我们可以得到所有特征值。
4. 特征值的性质:特征值具有一些重要的性质。
其中,一个矩阵的特征值之和等于其主对角线上元素的和,即Tr(A) = \lambda_1 + \lambda_2 + ... +\lambda_n。
特征值之积等于矩阵的行列式,即A = \lambda_1 * \lambda_2* ... * \lambda_n。
这些性质可以帮助我们通过已知的信息间接推导出特征值的值。
5. 特征值的范围估计:对于一个实对称矩阵,特征值的最大值和最小值可以通过矩阵的二范数和其行列式的平方根进行估计,即最小特征值满足min( A ) <= \lambda_{min} <= A _2 ,最大特征值满足\lambda_{max} <= A _2。
这个性质可以帮助我们快速估计一个矩阵的特征值的范围。
第五章矩阵特征值计算与线性方程组的求解问题一样,矩阵特征值与特征向量的计算也是数值线性代数的重要内容. 在理论上,矩阵的特征值是特征多项式方程的根,因此特征值的计算可转化为单个多项式方程的求解. 然而对于高阶矩阵,这种转化并不能使问题得到简化,而且在实际应用中还会引入严重的数值误差. 因此,正如第二章指出的,我们一般将多项式方程求解转化为矩阵特征值计算问题,而不是反过来.本章介绍有关矩阵特征值计算问题的基本理论和算法. 与非线性方程求根问题类似,计算矩阵特征值的算法也是迭代方法①.5.1基本概念与特征值分布本节先介绍矩阵特征值、特征向量的基本概念和性质,然后讨论对特征值分布范围的简单估计方法.5.1.1基本概念与性质定义5.1:矩阵A=(a kj)∈ℂn×n,(1) 称φ(λ)=det(λI−A)=λn+c1λn−1+⋯+c n−1λ+c n为A的特征多项式(characteristic polynomial);n次代数方程φ(λ)=0为A的特征方程(characteristic equation),它的n个根:λ1,⋯,λn,被称为A的特征值(eigenvalue). 此外,常用λ(A)表示A的全体特征值的集合,也称为特征值谱(spectrum of eigenvalue).(2) 对于矩阵A的一个给定特征值λ,相应的齐次线性方程组(λI−A)x=0 , (5.1)有非零解(因为系数矩阵奇异),其解向量x称为矩阵A对应于λ的特征向量(eigenvector).根据方程(5.1),我们得出矩阵特征值与特征向量的关系,即Ax=λx .(5.2)第三章的定义3.5就利用公式(5.2)对矩阵特征值和特征向量进行了定义,它与定义5.1是等价的. 另外,同一个特征值对应的特征向量一定不唯一,它们构成线性子空间,称为特征子空间(eigenspace).我们一般讨论实矩阵的特征值问题. 应注意,实矩阵的特征值和特征向量不一定是实数和实向量,但实特征值一定对应于实特征向量(方程(5.1)的解),而一般的复特征值对应的特征向量一定不是实向量. 此外,若特征值不是实数, 则其复共轭也一定是特征值(由于特征方程为实系数方程). 定理3.3表明,实对称矩阵A∈ℝn×n的特征值均为实数,存在n个线性无关、且正交的实特征向量,即存在由特征值组成的对角阵Λ和特征向量组成的正交阵Q,使得:A=QΛQ T.(5.3)例5.1(弹簧-质点系统):考虑图5-1的弹簧-质点系统,其中包括三个质量分别为m1、m2、m3的物体,由三个弹性系数分别为k1,k2,k3的弹簧相连,三个物体的位置均为时间的函数,①如果用有限次运算能求得一般矩阵的特征值,则多项式方程求根问题也可用有限次运算解决,这与阿贝尔证明的“高于4次的多项式并不都有用初等运算表示的求根公式”的理论矛盾.这里考查三个物体偏离平衡位置的位移,分别记为y 1(t), y 2(t), y 3(t). 因为物体在平衡状态所受的重力已经和弹簧伸长的弹力平衡,所以物体的加速度只和偏离平衡位置引起的弹簧伸长相关. 根据牛顿第二定律以及胡克定律(即弹簧的弹力与拉伸长度成正比)可列出如下微分方程组②: My ′′(t)+Ky(t)=0 ,其中y (t )=[y 1(t)y 2(t)y 3(t)]T ,M =[m 1000m 2000m 3],K =[k 1+k 2−k 20−k 2k 2+k 3−k 30−k 3k 3] . 在一般情况下,这个系统会以自然频率ω做谐波振动,而y 的通解包含如下的分量: y j (t )=x j e iωt ,(j =1,2,3)其中i =√−1,根据它可求解出振动的频率ω及振幅x j . 由这个式子可得出:y j ′′(t )=−ω2x j e iωt ,(j =1,2,3)代入微分方程,可得代数方程:−ω2Mx +Kx =0,或Ax =λx ,其中A =M −1K ,λ=ω2. 通过求解矩阵A 的特征值便可求出这个弹簧-质点系统的自然频率(有多个). 再结合初始条件可确定这三个位移函数,它们可能按某个自然频率振动(简正振动),也可能是若干个简正振动的线性叠加.例5.2(根据定义计算特征值、特征向量):求矩阵A =[5−1−131−14−21]的特征值和特征向量.[解]: 矩阵A 的特征方程为:det (λI −A )=|λ−511−3λ−11−42λ−1|=(λ−3)(λ−2)2=0故A 的特征值为λ1=3,λ2=2(二重特征值).当λ=λ1=3时,由(λI −A)x =0,得到方程[−211−321−422][x 1x 2x 3]=[000]它有无穷多个解,若假设x 1=1, 则求出解为x =[1,1,1]T ,记为x 1,则x 1是λ1对应的一个特征向量.当λ=λ2=2时,由(λI −A)x =0,得到方程[−311−311−421][x 1x 2x 3]=[000]它有无穷多个解,若假设x 1=1, 则求出解为x =[1,1,2]T ,记为x 2,则x 2是λ2对应的一个特② 本书第八章将介绍这种常微分方程组的数值求解方法.图5-1 弹簧-质点系统.征向量.下面概括地介绍有关矩阵特征值、特征向量的一些性质,它们可根据定义5.1,以及公式(5.2)加以证明.定理5.1:设λj (j =1,2,…,n)为n 阶矩阵A 的特征值,则(1) ∑λj n j=1=∑a jj n j=1=tr(A) ;(2) ∏λj n j=1=det(A) .这里tr(A)表示矩阵对角线上元素之和,称为矩阵的迹(trace ).从上述结论(2)也可以看出,非奇异矩阵特征值均不为0, 而0一定是奇异矩阵的特征值. 定理5.2:矩阵转置不改变特征值,即λ(A )=λ(A T ).定理5.3:若矩阵A 为对角阵或上(下)三角阵,则其对角线元素即为矩阵的特征值.定理5.4:若矩阵A 为分块对角阵,或分块上(下)三角阵,例如A =[A 11A 12⋯A 1m A 22⋯A 2m ⋱⋮A mm] , 其中每个对角块A jj 均为方阵,则矩阵A 的特征值为各对角块矩阵特征值的合并,即λ(A )=⋃λ(A jj )m j=1.定理5.5:矩阵的相似变换(similarity transformation)不改变特征值. 设矩阵A 和B 为相似矩阵,即存在非奇异矩阵X 使得B =X −1AX ,则(1) 矩阵A 和B 的特征值相等,即 λ(A )=λ(B ) ;(2) 若y 为B 的特征向量,则相应地,Xy 为A 的特征向量.通过相似变换并不总能把矩阵转化为对角阵,或者说矩阵A 并不总是可对角化的(diagonalizable). 下面给出特征值的代数重数、几何重数,和亏损矩阵的概念,以及几个定理..定义5.2: 设矩阵A ∈ℝn×n 有m 个(m n )不同的特征值λ̃1,⋯,λ̃m ,若λ̃j 是特征方程的n j 重根,则称n j 为λ̃j 的代数重数(algebraic multiplicity),并称λ̃j 的特征子空间(ℂn 的子空间)的维数为λ̃j 的几何重数(geometric multiplicity). 定理5.6:设矩阵A ∈ℝn×n 的m 个不同的特征值为λ̃1,⋯,λ̃m ,特征值λ̃j ,(j =1,⋯,m)的代数重数为n j ,几何重数为k j ,则(1) ∑n j m j=1=n ,且任一个特征值的几何重数不大于代数重数,即∀j ,n j ≥k j .(2) 不同特征值的特征向量线性无关,并且将所有特征子空间的∑k j m j=1个基(特征向量)放在一起,它们构成一组线性无关向量.(3) 若每个特征值的代数重数等于几何重数,则总共可得n 个线性无关的特征向量,它们是全空间ℂn 的基.定义5.3:若矩阵A ∈ℝn×n 的某个代数重数为k 的特征值对应的线性无关特征向量数目少于k (即几何重数小于代数重数),则称A 为亏损阵(defective matrix ),否则称其为非亏损阵(nondefective matrix ).定理5.7:设矩阵A ∈ℝn×n 可对角化,即存在非奇异矩阵X ∈ℂn×n 使得X −1AX =Λ,其中Λ∈ℂn×n 为对角阵, 的充要条件是A 为非亏损矩阵. 此时,Λ的对角线元素为矩阵A 的特征值,而矩阵X 的列向量为n 个线性无关的特征向量.定理5.7中方程的等价形式为A =XΛX −1, 它被称为特征值分解,也叫谱分解(spectrum decomposition). 特征值分解存在的充要条件是A 为非亏损矩阵. 但现实中还有很多矩阵是亏损矩阵,例如例5.2中的矩阵,它的特征值2的代数重数为2,而几何重数仅为1. 这种矩阵不能相似变换为对角阵,但存在下面的若当分解(Jordan decomposition).定理5.8:设矩阵A ∈ℝn×n , 存在非奇异矩阵X ∈ℂn×n 使得A =XJX −1,矩阵J 为形如[J 1⋱J p ]的分块对角阵(称为若当标准型),其中J k =[ λk 1λk ⋱⋱1λk ] 称为若当块,其对角线元素为矩阵A 的特征值. 设矩阵A 有m 个不同的特征值为λ̃1,⋯,λ̃m ,特征值λ̃j ,(j =1,⋯,m)的代数重数为n j ,几何重数为k j ,则p =∑k j m j=1, λ̃j 对应于k j 个若当块, 其阶数之和等于n j .在若当分解中,如果所有若当块都是1阶的,则J 为对角阵,这种分解就是特征值分解,相应的矩阵为非亏损阵. 若当分解是很有用的理论工具,利用它还可证明下面关于矩阵运算结果的特征值的定理.定理5.9:设λj (j =1,2,…,n)为n 阶矩阵A 的特征值,则(1) 矩阵cA, c 为常数, 的特征值为cλ1,cλ2,⋯,cλn .(2) 矩阵A +pI, p 为常数, 的特征值为λ1+p,λ2+p,⋯,λn +p.(3) 矩阵A k , k 为正整数, 的特征值为λ1k ,λ2k ,⋯,λn k .(4) 设p (t )为一多项式函数,则矩阵p (A )的特征值为p (λ1),p (λ2),⋯ ,p (λn ) .(5) 若A 为非奇异矩阵,则λj ≠0,(j =1,2,…,n), 且矩阵A −1的特征值为λ1−1,λ2−1,⋯,λn −1.5.1.2特征值分布范围的估计估计特征值的分布范围或它们的界,无论在理论上或实际应用上,都有重要意义. 比如,本书前面的内容曾涉及两个问题:(1). 计算矩阵的2-条件数:cond (A )2=√λmax (A T A)λmin (A T A) ;(2). 考察一阶定常迭代法x (k+1)=Bx (k)+f 的收敛性、收敛速度:收敛的判据是谱半径ρ(B)=max 1≤j≤n |λj (B)|<1 ; 收敛速度为R =−log 10ρ(B) .其中都需要对矩阵特征值分布范围的了解.上一章的定理4.4说明谱半径的大小不超过任何一种算子范数,即ρ(A )≤‖A ‖ ,这是关于特征值的上界的一个重要结论.下面先给出定义5.4,再介绍有关特征值的界的另一个重要结论.定义5.4:设A =(a kj )∈ℂn×n ,记r k =∑|a kj |n j=1j≠k ,(k =1,⋯,n),则集合D k ={z||z −a kk |≤r k ,z ∈ℂ},(k =1,⋯,n)在复平面为以a kk 为圆心、r k 为半径的圆盘,称为A 的Gerschgorin (格什戈林)圆盘.图5-2显示了一个3⨯3复矩阵的格什戈林圆盘.定理5.10 (圆盘定理):设A =(a kj )∈ℂn×n ,则:(1) A 的每一个特征值必属于A 的格什戈林圆盘之中,即对任一特征值λ必定存在k,1≤k ≤n ,使得:|λ−a kk |≤∑|a kj |nj=1j≠k .(5.4)图5-2 复坐标平面,以及3⨯3矩阵A 的格什戈林圆盘.用集合的关系来说明,这意味着λ(A)⊆⋃D k n k=1.(2) 若A 的格什戈林圆盘中有m 个组成一连通并集S ,且S 与余下的n −m 个圆盘分离,则S内恰好包含A 的m 个特征值(重特征值按重数计).对图5-2所示的例子,定理5.10的第(2)个结论的含义是:D 1中只包含一个特征值,而另外两个特征值在D 2,D 3的并集中. 下面对定理5.10的结论(1)进行证明,结论(2)的证明超出了本书的范围.[证明]: 设λ为A 的任一特征值,则有Ax =λx ,x 为非零向量. 设x 中第k 个分量最大,即|x k |=max 1≤j≤n|x j |>0 , 考虑方程(5.2)中第k 个方程:∑a kj x j nj=1=λx k , 将其中与x k 有关的项移到等号左边,其余到右边,再两边取模得:|λ−a kk ||x k |=|∑a kj x j n j=1j≠k |≤∑|a kj ||x j |n j=1j≠k ≤|x k |∑|a kj |nj=1j≠k .(5.5)最后一个不等式的推导利用了“x 中第k 个分量最大”的假设. 将不等式(5.5)除以|x k |,即得到(5.4)式,因此证明了定理 5.10的结论(1). 上述证明过程还说明,若某个特征向量的第k 个分量的模最大,则相应的特征值必定属于第k 个圆盘中.根据定理5.2,还可以按照矩阵的每一列元素定义n 个圆盘,对于它们定理5.10仍然成立. 下面的定理是圆盘定理的重要推论,其证明留给感兴趣的读者.定理5.11:设A ∈ℝn×n ,且A 的对角元均大于0,则(1) 若A 严格对角占优,则A 的特征值的实部都大于0.(2) 若A 为对角占优的对称矩阵,则A 一定是对称半正定矩阵,若同时A 非奇异,则A 为对称正定矩阵.例5.3 (圆盘定理的应用):试估计矩阵A =[41010−111−4]的特征值范围.[解]: 直接应用圆盘定理,该矩阵的三个圆盘如下:D 1: |λ−4|≤1, D 2: |λ|≤2, D 3: |λ+4|≤2.D 1与其他圆盘分离,则它仅含一个特征值,且必定为实数(若为虚数则其共轭也是特征值,这与D 1仅含一个特征值矛盾). 所以对矩阵特征值的范围的估计是:3≤λ1≤5,λ2,λ3∈D 2∪D 3 .再对矩阵A T 应用圆盘定理,则可以进一步优化上述结果. 矩阵A T 对应的三个圆盘为: D ’1: |λ−4|≤2, D ’2: |λ|≤2, D ’3: |λ+4|≤1.这说明D ’3中存在一个特征值,且为实数,它属于区间[-5, -3],经过综合分析可知三个特征值均为实数,它们的范围是:λ1∈[3,5],λ2∈[−2,2],λ3∈[−5,−3].事实上,使用Matlab 的eig 命令可求出矩阵A 的特征值为:4.2030, -0.4429, -3.7601.根据定理5.5,还可以对矩阵A 做简单的相似变换,例如取X 为对角阵,然后再应用圆盘定理估计特征值的范围.例5.4 (特征值范围的估计):选取适当的矩阵X ,应用定理5.5和5.10估计例5.3中矩阵的特征值范围.[解]: 取X−1=[100010000.9] , 则A 1=X −1AX =[41010−109⁄0.90.9−4]的特征值与A 的相同. 对A 1应用圆盘定理,得到三个分离的圆盘,它们分别包含一个实特征值,由此得到特征值的范围估计:λ1∈[3,5],λ2∈[−199,199],λ3∈[−5.8,−2.2]. 此外,还可进一步估计ρ(A)的范围,即3≤ρ(A)≤5.8 .上述例子表明,综合运用圆盘定理和矩阵特征值的性质(如定理5.2, 定理5.5),可对特征值的范围进行一定的估计. 对具体例子,可适当设置相似变换矩阵,尽可能让圆盘相互分离,从而提高估计的有效性.5.2幂法与反幂法幂法是一种计算矩阵最大的特征值及其对应特征向量的方法. 本节介绍幂法、反幂法以及加快幂法迭代收敛的技术.5.2.1幂法定义5.5:在矩阵A 的特征值中,模最大的特征值称为主特征值,也叫“第一特征值”,它对应的特征向量称为主特征向量.应注意的是,主特征值有可能不唯一,因为模相同的复数可以有很多. 例如模为5的特征值可能是5,−5,3+4i,3−4i , 等等. 另外,请注意谱半径和主特征值的区别.如果矩阵A 有唯一的主特征值,则一般通过幂法能方便地计算出主特征值及其对应的特征向量. 对于实矩阵,这个唯一的主特征值显然是实数,但不排除它是重特征值的情况. 幂法(power iteration)的计算过程是,首先任取一非零向量v 0∈ℝn ,再进行迭代计算:v k =Av k−1,(k =1,2,⋯)得到向量序列{v k },根据它即可求出主特征与特征向量. 下面用定理来说明.定理5.12: 设A ∈ℝn×n ,其主特征值唯一,记为λ1,且λ1的几何重数等于代数重数,则对于非零向量v 0∈ℝn ,v 0不与主特征值对应的特征向量正交,按迭代公式进行计算:v k =Av k−1,(k =1,2,⋯),存在如下极限等式:lim k→∞v k λ1k =x 1 , (5.6) lim k→∞(v k+1)j (v k )j =λ1 , (5.7)其中x 1为主特征向量,(v k )j 表示向量v k 的第j 个分量(k =1,2,⋯).[证明]: 为了推导简便,不妨设主特征值λ1不是重特征值,并且假设矩阵A 为非亏损矩阵. 设A 的n 个特征值按模从大到小排列为: |λ1|>|λ2|≥⋯≥|λn |,它们对应于一组线性无关的单位特征向量x ̂1,⋯,x ̂n . 向量v 0可写成这些特征向量的线性组合:v 0=α1x̂1+⋯+αn x ̂n 根据已知条件,α1≠0,则v k =Av k−1=A k v 0=α1λ1k x ̂1+α2λ2k x̂2+⋯+αn λn k x ̂n =λ1k [α1x ̂1+∑αj (λj λ1)kx ̂j n j=2] =λ1k (α1x̂1+εk ) 其中εk =∑αj (λj λ1)k x ̂j n j=2. 由于|λj λ1|<1,(j =2,…,n), 则 lim k→∞εk =0 ⟹lim k→∞v kλ1k =α1x̂1 . 由于特征向量放大、缩小任意倍数后仍是特征向量,设x 1=α1x̂1,则它是主特征对应的一个特征向量. 上式说明,随k 的增大, v k 越来越趋近于主特征值的对应的特征向量.设j 为1到n 之间的整数,且(v k )j ≠0,则(v k+1)j (v k )j =λ1(α1x ̂1+εk+1)j (α1x̂1+εk )j 由于lim k→∞εk =0,随k 的增大上式等号右边趋于一个常数: λ1. 这就证明了定理的结论.若矩阵A 为亏损矩阵,可利用矩阵的若当分解证明这个定理,这里略去. 在这种情况下,“主特征值的几何重数等于代数重数”这一条件很重要,例如,若A =[310030001] ,它的主特征值为3,但其几何重数为1,不满足条件. 对这个矩阵A 进行实验显示无法用幂法求出主特征值.关于定理5.12,再说明几点:● 当主特征值λ1为重特征值时,应要求其几何重数等于代数重数,此时特征子空间维数大于1,向量序列{v k λ1k ⁄}的收敛值是其特征子空间中的某一个基向量.● 公式(5.7)式的含义是相邻迭代向量分量的比值收敛到主特征值. 因此在实际计算时,可任意取j 的值,只需保证比值的分母不为零.● 证明中假设了α1≠0,在实际应用中往往随机选取v 0,由于存在舍入误差,它一般都能满足. 感兴趣的读者也可思考一下,若初始向量v 0恰好与主特征向量都正交,那么幂法中的迭代向量序列会有什么结果?直接使用幂法,还存在如下两方面问题:(1) 溢出:由于v k ≈λ1k x 1,则|λ1|>1时,实际计算v k 会出现上溢出(当k 很大时);|λ1|<1时,实际计算v k 会出现下溢出(当k 很大时).(2) 可能收敛速度很慢. 由于εk =∑αj (λj λ1)kx j n j=2, εk →0的速度取决于求和式中衰减最慢的因子|λ2λ1|,当|λ2λ1|≈1时,收敛很慢. 由此导致v k →λ1k α1x 1, (v k+1)j (v k )j →λ1的收敛速度都将很慢,严重影响计算的效率.下面采用规格化向量的技术防止溢出,导出实用的幂法. 关于加速收敛技术的讨论,见下一小节.定义 5.6:记max ̅̅̅̅̅̅(v )为向量v ∈ℝn 的绝对值最大的分量, max ̅̅̅̅̅̅(v )=v j ,其中j 满足|v j |=max 1≤k≤n |v k |, 若j 的值不唯一,则取最小的那个. 并且,称u =v/max ̅̅̅̅̅̅(v )为向量v 的规格化向量(normalized vector).例5.5(规格化向量):设v =[3,−5,0]T ,max ̅̅̅̅̅̅(v )=−5,对应的规格化向量为u =[−35,1,0]T .根据定义5.6,容易得出规格化向量的两条性质.定理5.13: 定义5.6中的规格化向量满足如下两条性质:(1) 若u 为规格化向量,则‖u ‖ =1,并且max ̅̅̅̅̅̅(u )=1.(2) 设向量v 1和v 2的规格化向量分别为u 1和u 2,若v 1=αv 2, 实数α≠0,则u 1= u 2.在幂法的每一步增加向量规格化的操作可解决溢出问题. 先看第一步,v 1=Av 0,此时计算v 1的规格化向量u 1=v 1max ̅̅̅̅̅̅(v 1)=Av 0max ̅̅̅̅̅̅(Av 0). 然后使用规格化向量计算v 2:v 2=Au 1=A 2v 0max ̅̅̅̅̅̅(Av 0), (5.8) 再进行向量规划化操作,u 2=v 2max ̅̅̅̅̅̅(v 2)=A 2v 0max ̅̅̅̅̅̅(A 2v 0). (5.9) 公式(5.9)的推导,利用了(5.8)式和定理5.13的结论(2). 依次类推,我们得到: { v k =Au k−1=A k v 0max ̅̅̅̅̅̅(A k−1v 0) u k =v k max ̅̅̅̅̅̅(v k )=A k v 0max ̅̅̅̅̅̅(A k v 0) , k =1,2,⋯. (5.10) 根据定理5.12的证明过程, A k v 0=λ1k [α1x ̂1+∑αj (λj λ1)k x ̂j n j=2] ⟹u k =A k v 0max ̅̅̅̅̅̅(A k v 0)=α1x ̂1+∑αj (λj λ1)k x ̂j n j=2max ̅̅̅̅̅̅(α1x ̂1+∑αj (λj λ1)k x ̂j n j=2)k→∞→ x 1max ̅̅̅̅̅̅(x 1) , 即u k 逐渐逼近规格化的主特征向量. 同理,v k =Au k−1=A k v 0max ̅̅̅̅̅̅(A k−1v 0)=λ1k [α1x ̂1+∑αj (λj λ1)k x ̂j n j=2]max ̅̅̅̅̅̅(λ1k−1[α1x ̂1+∑αj (λj λ1)k−1x̂j n j=2]) =λ1α1x ̂1+∑αj(λj λ1)kx ̂j n j=2max ̅̅̅̅̅̅(α1x ̂1+∑αj (λj λ1)k−1x ̂j n j=2) 因此,根据定理5.13的结论(1)有:lim k→∞v k=λ1x1max̅̅̅̅̅̅(x1)⟹limk→∞max̅̅̅̅̅̅(v k)=λ1.基于上述推导,我们得到如下定理,以及如算法5.1描述的实用幂法.定理5.14: 设A∈ℝn×n,其主特征值唯一(且几何重数等于代数重数),记为λ1,取任意非零初始向量v0=u0,它不与主特征值对应的特征向量正交,按迭代公式(5.10)进行计算,则lim k→∞u k=x1max̅̅̅̅̅̅(x1),(5.11)lim k→∞max̅̅̅̅̅̅(v k)=λ1 ,(5.12)其中x1为主特征向量.算法5.1:计算主特征值λ1和主特征向量x1的实用幂法输入:v,A; 输出:x1,λ1.u:=v;While不满足判停准则dov:=Au;λ1:=max̅̅̅̅̅̅(v); {主特征值近似值}u:=v/λ1; {规格化}Endx1:=u. {规格化的主特征向量}在算法5.1中,可根据相邻两步迭代得到的主特征值近似值之差来判断是否停止迭代. 每个迭代步的主要计算是算一次矩阵与向量乘法,若A为稀疏矩阵则可利用它的稀疏性提高计算效率. 实用的幂法保证了向量序列{v k},{u k}不溢出,并且向量v k的最大分量的极限就是主特征值.最后,针对幂法的适用范围再说明两点:(1). 若实矩阵A对称半正定或对称半负定,则其主特征值必唯一(而且是非亏损阵). 有时也可以估计特征值的分布范围,从而说明主特征值的唯一性. 只有满足此条件,才能保证幂法的收敛性.(2). 对一般的矩阵,幂法的迭代过程有可能不收敛,此时序列{u k}有可能包括多个收敛于不同向量的子序列,它趋向于成为多个特征向量的线性组合. 但是,一旦幂法的迭代过程收敛,向量序列的收敛值就一定是特征向量,并可求出相应的特征值.例5.6 (实用的幂法):用实用的幂法求如下矩阵的主特征值:A=[3113] ,[解]: 取初始向量为v0=u0=[01]T . 按算法5.1的迭代过程,计算结果列于表5-1中.表5-1 实用幂法的迭代计算过程从结果可以看出,在每次迭代步中做的规格化操作避免了分量的指数增大或缩小. 经过9步迭代,特征值max ̅̅̅̅̅̅(v k )已非常接近主特征值的准确值4,特征向量也非常接近[1 1]T .5.2.2加速收敛的方法 加速幂法迭代收敛过程的方法主要有两种:原点位移技术和瑞利商(Rayleigh quotient )加速. 下面做些简略的介绍.一. 原点位移技术原点位移技术,也叫原点平移技术,它利用定理5.9的结论(2),即矩阵A −pI 的特征值为A 的特征值减去p 的结果. 对矩阵B =A −pI 应用幂法有可能得到矩阵A 的某个特征值λj 和相应的特征向量. 要使原点位移达到理想的效果,首先要求λj −p 是B 的主特征值,其次还要使幂法尽快收敛,即比例|λ2(B)λj −p |要尽量小,这里的λ2(B)表示矩阵B 的(按模)第二大的特征值. 在某种情况下设置合适的p 值,矩阵A,B 可同时取到主特征值. 图5-3显示了这样一个例子,矩阵A 的特征值分布在阴影区域覆盖的实数轴上,λ1为其主特征值. 按图中所示选取的p 值,将使得λ1−p 是矩阵B =A −pI 的主特征值,并且显然有|λ2(B)λ1−p |<|λ2(A)λ1| . 此时用幂法计算B 的主特征值能更快地收敛,进而得到矩阵的A 的主特征值. 图5-3也解释了原点位移法名字的由来,即将原点(或虚数坐标轴)移到p 的位置上,原始矩阵A 的特征值分布变成了矩阵B 的特征值分布.采用原点位移技术后,执行幂法仅带来很少的额外运算,而且仍然能利用矩阵A 的稀疏性. 它的关键问题是,如何选择合适的参数p 以达到较好的效果?这依赖于具体矩阵的情况,以及对其特征值分布的了解. 在后面,我们还会看到原点位移技术的其他用途.二. 瑞利商加速首先给出瑞利商的定义,以及它与特征值的关系,然后介绍瑞利商加速技术.定义5.7:设A ∈ℝn×n ,且为对称矩阵,对任一非零向量x ≠0,称R (x )=〈Ax,x 〉〈x,x 〉为对应于向量x 的瑞利商(Rayleigh quotient ). 这里符号〈,〉代表向量内积.定理5.15:设A ∈ℝn×n ,且为对称矩阵,其n 个特征值依次为:λ1≥λ2≥⋯≥ λn ,则矩阵A 有关的瑞利商的上下确界分别为λ1和λn . 即∀x ≠0,λn ≤R (x )≤λ1,且当x 为λ1对应的特征向量时R (x )=λ1,当x 为λn 对应的特征向量时R (x )=λn .[证明]: 根据实对称矩阵的特点,即可正交对角化(定理3.3),设特征值λ1,λ2,⋯,λn 对应的单位特征向量为x 1,x 2,⋯,x n ,设x =∑αj x j n j=1,则〈x,x 〉=〈∑αj x j n j=1,∑αj x j n j=1〉=∑αj 2n j=1,而图5-3 原点位移技术示意图.。
圆盘定理估计特征值的范围
圆盘定理是一种用于估计特征值范围的重要方法。
在数学中,特征值是矩阵或线性变换的性质之一,它们可以告诉我们关于这些对象的重要信息。
而圆盘定理则提供了一种简单而有效的方式来估计特征值的范围。
圆盘定理的基本思想是将矩阵或线性变换视为一个圆盘,特征值则是这个圆盘的边界上的点。
根据定理的定义,特征值的范围应该在这个圆盘内。
为了更好地理解圆盘定理,我们可以通过一个具体的例子来说明。
假设我们有一个2x2的矩阵A,我们想要估计它的特征值范围。
根据圆盘定理,我们可以将矩阵A视为一个圆盘,而特征值则是这个圆盘上的点。
为了估计特征值的范围,我们可以找到矩阵A的特征多项式,并计算它的系数。
通过观察这些系数,我们可以得出特征值的一些性质。
例如,如果特征多项式的系数都是正数,那么特征值的范围应该在圆盘内。
如果系数有正有负,那么特征值可能会超出圆盘的范围。
除了特征多项式的系数,我们还可以通过计算矩阵A的迹和行列式来进一步估计特征值的范围。
这些运算可以提供关于特征值的一些重要信息,从而帮助我们更准确地估计特征值的范围。
总的来说,圆盘定理是一种重要的工具,可以帮助我们估计特征值
的范围。
通过将矩阵或线性变换视为一个圆盘,我们可以利用特征多项式的系数、矩阵的迹和行列式等信息来进行估计。
这种方法简单而直观,可以在实际问题中得到广泛应用。
无论是在物理、工程还是经济学领域,圆盘定理都是一种重要的工具,可以帮助我们更好地理解和分析问题。
特征值的范围特征值是一种用于衡量特定性质的数据,它可以储存观察值、结果和状态。
它们可以表达某种属性或概念,同时又与实际值有关。
特征值可以帮助我们更好地理解和描述系统所处的状态,并有助于在不清晰的环境中做出决策。
特征值的范围是指一组特征值可能出现的所有取值范围。
该范围可以用来衡量特征值的有效性、稳定性和可靠性。
这种范围的上限可能是某种属性的最大值,下限可能是某种属性的最小值,而中间的区域则可以看作是特征值有效的取值范围。
确定特征值有效取值范围的方法有多种,其中包括数据分析、统计分析和实验设计。
运用数据分析可以得到大量有用的信息,而统计分析则可以对取值范围内每一个值进行统计分析,从而找出准确的特征值范围。
实验设计则可以通过不同的变量和实验条件来评估每个数据的可信度和准确性。
特征值的范围也可以通过比较和相关分析获得,即通过比较不同的特征值的结果,来找出有效的取值范围。
可以使用特征值对比分析,从而确定特征值取值范围;也可以使用相关分析,从而确定输入数据和特征值之间的相关性,从而得出有效的特征值范围。
除了采用数据分析、统计分析和实验设计等方法确定有效的特征值范围外,还可以采用规则绑定的方式确定范围。
规则绑定是一种可以在拥有有相关值的特征值之间建立联系的方法。
这种方法可以将特征值之间关联起来,从而形成特征值有效取值范围。
特征值的范围是重要的,尤其是在决策和模型评估过程中,它们可以用于判断决策、参数和系统输出是否符合预期。
它们还可以用于预测和风险评估,对于对特定参数进行决策时也有帮助。
总之,特征值的范围是非常重要的,它可以帮助我们了解系统的状态,分析特征值的有效性以及确定模型参数估计的准确性。
有效的特征值范围可以帮助我们确定哪些参数和决策才是有意义的,从而帮助我们实现系统目标。
特征值范围估计
特征值是矩阵的一个重要属性,并具有广泛的应用。
特征值与特征向量的求解是数学
中的一个经典问题。
用于数值计算的矩阵通常是大型矩阵,因此求解其特征值和特征向量
需要使用高效的算法。
在实际应用中,需要对特征值的范围进行估计,以确定有效的计算
区间。
本文将介绍特征值范围估计的基本概念和方法。
特征值范围估计是指对一个矩阵的特征值的上下界进行估算,以便确定计算该矩阵特
征值的有效区间。
在数学中,有多种方法对矩阵的特征值进行估计。
这些方法可以大致分
为两类:直接方法和迭代方法。
下面分别介绍这两类方法。
直接方法是在不求解特征值和特征向量的情况下,在给定的一些限制条件下估算矩阵
特征值的范围。
这些限制条件可以是矩阵的谱范数、对称性、压缩后的矩阵等等。
直接
方法的优点是计算简单快速,通常用于对小型矩阵的特征值范围进行估算,但在求解大型
矩阵的特征值时不太适用。
常见的直接方法包括以下几种。
1.圆盘定理
圆盘定理是用于估算矩阵特征值上下界的一种常见方法。
该方法基于一个名为圆盘定
理的性质。
圆盘定理是指对于一个n阶矩阵A和所有的x,其所组成的球形区域B是圆盘定理的开放。
2.双曲线定理
双曲线定理是利用矩阵的谱范数估算特征值的上下界的方法。
其本质是矩阵范数不等式,根据Taussky-Todd定理的细节,可以得到这些结果。
3.对称矩阵定理
对称矩阵定理是一个比较特殊的特征值范围估计方法,因为对称矩阵具有特殊的性质,使该方法适用于此类矩阵。
此类矩阵的特殊性质表明,它们的特征向量可以正交,自然的
特征值也必须是实数。
这使得对称矩阵的特征值范围估计更加简单和可靠。
迭代方法是另一种近期广泛使用的特征值估计方法。
迭代方法通常适用于大型矩阵,
其计算量较大。
在这种方法中,需要定义一个初值,通过迭代不断逼近特征值区间的上下界。
不同的迭代算法适用于不同类型的矩阵。
最常见的迭代算法是幂法。
幂法是一种求解矩阵特征值中最大特征值和对应特征向量
的迭代方法。
其基本思想是通过不断地将向量乘以矩阵来逼近最大的特征值,并将得到的
向量作为新的初始向量,直到收敛。
幂法的一个弊端是只适用于求解矩阵的最大特征值和
对应的特征向量。
QR算法是求解矩阵所有特征值以及对应特征向量的一种经典方法。
该方法基于迭代的思想,将矩阵通过QR分解进行迭代,直到所有的特征值和特征向量都被求解出来。