尹小艳, 潘铭樱
(西安电子科技大学 数学与统计学院, 西安 710071)
矩阵的奇异值及奇异值分解(SVD)在工程问题中应用广泛,比如控制理论中的频率法,图像处理中的图像压缩与特征提取,数据分析中主成分分析法使用SVD检测数据间依赖和冗余信息等.因此奇异值分解不仅是矩阵理论、数值代数、线性代数等课程的一个重点和难点内容,也是各工科学生及相关科技工作者探讨和应用的热点问题[1-4].
奇异值分解在矩阵论的诸多教材,比如在清华大学出版社出版的经典的《矩阵论》[1]中都是做为矩阵多种分解形式的一种而直接给出分解定理的.这无疑割裂了奇异值分解与线性变换及其矩阵简化这一重要数学思想的内在联系,初学的学生往往感到非常突兀,难以接受.本文分别从引入、计算、注记三方面讨论矩阵奇异值分解定理的教学过程,侧重于揭示奇异值分解的深层含义,指出教材[1]中关于奇异值分解计算的例题中存在的问题,总结奇异值分解的计算方法,并对该定理进行几点注记,推广奇异值与奇异向量的相关性质.帮助学生全方位、多角度深刻理解奇异值分解这一重要的矩阵技巧及其所蕴涵的数学思想.
为了引导学生自然地理解奇异值分解的内涵,从大家熟知的矩阵相似对角化入手,从线性映射的角度阐释Hermite矩阵的酉对角化,从而自然地过渡和引出奇异值分解定理,水到渠成,易于接受.
众所周知,矩阵是有限维空间上线性变换的数学模型.而同一线性空间有不同的基,同一线性变换在不同基下的矩阵相似.那么对任意线性变换σ,能否以及如何找到V的一组基,使σ在该基下的矩阵形式最简单,这是线性代数、高等代数及相关课程的一个基本问题.什么样的矩阵形式最简单——对角矩阵.于是讨论了矩阵的相似对角化问题,得到了任意方阵可相似于对角矩阵的若干等价条件.
矩阵相似简化的一个核心和精华内容是实对称(Hermite)矩阵的正交(酉)相似对角化.对任意A∈n×n,A*=A,存在酉矩阵P=(p1,…,pn),使得
P*AP=P-1AP=diag(λ1,…,λn).
从映射的角度来看,将A理解为n到n上的线性映射,则上述命题表示,可找到空间n的标准正交基p1,…,pn,使得A将原像空间的基向量pi映到像空间的基向量pi所在直线上,且有一个比值为λi的伸缩,即Api=λipi,i=1,…,n.
事实上,对任意m×n复矩阵,也有类似的结论:
Avi=σiui,i=1,2,…,r;Avi=0,i=r+1,…,n.
记U=(u1,…,um),V=(v1,…,vn),写成矩阵的形式,即为如下奇异值分解定理:
(1)
其中Δ=diag(σ1,…,σr),σ1≥σ2≥…≥σr>0为A的所有正奇异值.
不难看出,若A*=A∈n×n半正定,则有σi(A)=λi(A),i=1,2,…,n.此时A的奇异值分解即为其酉对角化A=Udiag(λ1,λ2,…,λn)U*.从这个角度来讲,奇异值分解的确可以理解为Hermite矩阵特征值分解在一般m×n的复矩阵上的推广.
奇异值分解定理的证明在教材[1]中给出,在此不再赘述.
关于奇异值分解的计算,关键是如何求出符合条件的酉矩阵U和V.不难发现
结论1酉矩阵U(V)的列分别为矩阵AA*(A*A)的单位正交的特征向量.
基于上述结论,文献[1]给出了如下例子及解法:
例[1]求矩阵A的奇异值分解,其中
问题1这是怎么回事呢?
事实上,奇异值分解中酉矩阵U,V的列ui,vi不是相互孤立的,而是有着密切的联系:
知Avi=σiui,i=1,…,r.(故称ui,i=1,…,r为矩阵A的右奇异向量,vi,i=1,…,r为矩阵A的左奇异向量)写成矩阵形式,即U1=AV1Δ-1;同理,由
知A*ui=σivi,i=1,…,r.写成矩阵形式,即V1=A*U1Δ-1.即有
结论2U1=AV1Δ-1, 且V1=A*U1Δ-1.
问题3任给秩为r的m×n矩阵,该如何计算其奇异值分解呢?
第一步 确定Δ=diag(σ1,…,σr): 求AA*的特征值λ1,…,λr>0,λr+1=…=λm=0,令
第二步 确定U: 求酉矩阵U=[u1,…,ur,ur+1,…,um],使
即求AA*的属于λi的单位正交特征向量ui,i=1,2,…,m,即
由AA*ui=0⟺A*ui=0知,ui=0(i=r+1,…,m)也可由求解齐次线性方程组A*x=0的基础解系, 再正交化、单位化得到.
第四步 代入验证,可知必有
当然, 也可以先求矩阵V, 再求U.一般取AA*和A*A中阶数较小的,计算其单位正交特征向量来确定先计算U还是V.
奇异值分解除了是高年级本科生矩阵论需掌握的一种重要的矩阵分解,还是各专业研究生矩阵计算相关课程的基础知识和基本技能.对研究生课程来说,除基础理论知识外,还需强化知识的应用和创新拓展,提升学生的研究能力[5].因此补充几点注记,从多角度探讨奇异值分解中所蕴含的信息, 深入剖析奇异值、奇异向量及奇异值分解的内涵和精髓.这些性质正是奇异值分解之所以被广泛应用的理论基础.
注1 矩阵A的近似计算(低秩逼近)
奇异值分解(1)也常写成如下形式
(2)
称之为矩阵A的截尾/满秩奇异值分解.
(2)式表明可用若干秩-1矩阵的线性组合表示矩阵A,其组合系数恰为所有正奇异值.由此可见,值比较大的奇异值及对应的左右奇异向量包含了矩阵A的更多的信息,这种表达式常被用来近似计算矩阵A,即
这是利用奇异值分解进行图像处理的理论依据.
另一方面,上述近似的误差为‖A-Ak‖=σk+1, 即
这一结论的证明见文献[2],仅作如下解释,帮助学生理解.上式表明, 矩阵A的奇异值刻画了A与比其低秩的矩阵之靠近程度.特别地,若m=n=r,则A的最小奇异值σn(A)表示从A到奇异矩阵集合的距离.从这些意义上来讲,“奇异值”这个数字特征刻画了矩阵的“奇异程度”,这也可理解为是“奇异值”得名的原因.如矩阵
计算知
σ1(A)=4.7775,σ2(A)=0.4186,σ3(A)=0;
σ1(B)=5.7161,σ2(B)=1.5251,σ3(B)=0.
因此尽管A,B均为秩-2的奇异矩阵,但由σ2(A)<σ2(B)知,矩阵A更接近秩-1矩阵,因此可以说矩阵A的“奇异程度更高”.
注2 奇异向量的几何意义
结合维数关系
dimR(A)=r, dimN(A*)=m-r(A*)=m-r(A)=m-r,
可知右奇异向量u1,…,ur为R(A)的标准正交基,且ur+1,…,um为N(A*)的标准正交基;同理,左奇异向量v1,…,vr为R(A*)的标准正交基,而vr+1,…,vn为N(A)的标准正交基.也可以写成如下形式
注3 奇异值的几何意义
借助奇异值分解定理,可以更好地理解矩阵奇异值的几何含义.设
为A的奇异值分解,则由
Avi=σiui(i=1,…,r),Avi=0(i=r+1,…,n)
可得, 对∀x=k1v1+…+krvr∈L(v1,v2,…,vr)满足‖x‖2=|k1|2+…+|kr|2=1,有
Ax=k1σ1u1+…+krσrur∈L(u1,…,ur)=R(A),
记Ax=l1u1+…+lrur, 则有
可见A把r维子空间L(v1,v2,…,vr)=N(A)⊥中的单位超球面映成R(A)中的超椭球面,其中A的奇异值σ1,…,σr即为该超椭球面的r个半轴长.
特别地,若A列满秩,即r=n,N(A)={0},则A把整个空间n中的单位超球面映成R(A)中的超椭球面,且A的n个正奇异值σ1,…,σn即为该超椭球面的r个半轴长.
注4 奇异值的极性
与Hermite矩阵的特征值类似,奇异值也有如下极值性质.
∀x∈R(A*),x=k1v1+k2v2+…+knvr, ‖x‖=1,
有
|k1|2+|k2|2+…+|kn|2=1,
Ax=k1Av1+k2Av2+…+knAvr=k1σ1u1+k2σ2u2+…+krσrur,
从而
又
于是
同理
且一般地,当1≤i,j≤r,类似可证
当然,针对授课对象的不同,以上结论可以采取灵活的方式教学,比如对本科的线性代数或矩阵论,可以仅就3中的特殊情况加以展示或解释说明, 而对研究生,则需引导学生发现、猜测、理解、证明和应用.如注1,可以让学生利用自拍图或标准测试图像,选取不同的k值进行压缩和还原,提升兴趣,激发热情.奇异值及奇异值分解还有许多性质和应用,可以作为开放性题目,让学生结合自己的专业方向探究和发现.
本文从奇异值分解的引入、计算和拓展几个方面深入讨论了奇异值分解的理论及方法,指出经典的矩阵论教材[1]中关于奇异值分解计算的一个例题中存在的问题,推广了奇异值、奇异向量的相关性质,帮助学生更加深刻地理解和掌握奇异值分解这一重要的矩阵技巧,也为相关科技工作者提供有益参考.
致谢作者非常感谢相关文献对本文的启发以及审稿专家提出的宝贵意见.