特征矢量
在数学上,特别是线性代数中,对于一个给定的线性变换,它的特征矢量(本征矢量或称正规正交矢量)是这样一个非零的矢量v:当v 经过这个线性变换[1]的作用之后,得到的新矢量(长度也许改变)仍然与原来的v 保持在同一条直线上。一个特征矢量的长度在该线性变换下缩放的比例称为其特征值(本征值)。如果特征值为正,则表示v 在经过线性变换的作用后方向也不变;如果特征值为负,说明方向会反转;如果特征值为0,则是表示缩回零点。但无论怎样,仍在同一条直线上。图1给出了一个以著名油画《蒙娜丽莎》为题材的例子。在一定条件下(如矩阵形式为实对称矩阵的线性变换),一个变换可以由其特征值和特征矢量完全表述。一个特征空间是相同特征值的特征矢量的集合,可以表明该集合是一个线性子空间。
这些概念在纯数学和应用数学的众多领域中都有重要的应用。在线性代数和泛函分析之外,甚至在一些非线性的情况下,这些概念都是十分重要的。
“特征”一词来自德语的eigen,由希尔伯特在1904年首先在这个意义下使用(亥尔姆霍尔兹在更早的时候也在类似意义下使用过这一概念)。eigen一词可翻译为“自身的”,“特定于...的”,“有特征的”或者“个体的”—这强调了特征值对于定义特定的变换被认为是很重要的。
定义给定一个矢量空间Ε,从E到E自身的线性变换T是—个保持矢量加法和标量乘法的函数,例如旋转、反射、拉伸压缩,或者这些变换的组合等等。一个线性变换可以通过它们在矢量上的作用来可视化。一般来说,一个矢量在经过映射之后可以变为任何可能的矢量,而特征矢量具有更好的性质。
一个线性变换T:E→E的特征矢量v是在这个线性变换下简单地乘以一个标量λ的非零矢量。也就是说λ 满足:
T(v)=λ(v)其中的缩放因子称为这个特征矢量的特征值,或者说是线性变换T的特征值。反过来,一个实数λ是线性变换T的一个特征值,当且仅当有一个非零矢量v满足上面的式子 。
所有具有相同的特征值λ的特征矢量和零矢量一起,组成了一个矢量空间,称为线性变换的一个特征空间,一般记作Eλ(T)。这个特征空间如果是有限维的,那么它的维数叫做λ 的几何重数。
变换的主特征矢量是模最大的特征值对应的特征矢量。有限维矢量空间上的一个变换的谱是其所有特征值的集合。
特征矢量也可以看作是关于系数λ的方程:
T(x)=λ(x的非零解。显然只有在λ是变换T的特征值之时,方程才有非零解。
性质代数重次A的一个特征值λ的代数重数是λ作为A的特征多项式的根的次数;换句话说,若r是一个该多项式的根,它是一次多项式因子(λ-r)在特征多项式中在因式分解后中出现的次数。如果将代数重次计算在内的话,一个n×n矩阵有n个特征值,因为其特征多项式次数为n。
一个代数重次1的特征值为“单特征值”。
在关于矩阵理论的条目中,可能会遇到如下的表示方法:
"一个矩阵A的特征值为4,4,3,3,3,2,2,1,"
表示4的代数重次为二,3的是三,2的是二,而1的是1。这样写是因为代数重次对于矩阵理论中的很多数学证明很重要而被大量使用。
和代数重数相对的是特征值的几何重数:特征值相对应的特征空间(也就是λI −A的零空间)的维数。代数重次也可以视为一种维数:它是相应广义特征空间的维数,也就是当自然数k足够大的时候矩阵(λI −A)的零空间。也就是说,它是所有“广义特征矢量”组成的空间,其中一个广义特征矢量是任何一个如果λI −A作用连续作用足够多次就“最终”会变0的矢量。任何特征矢量都是一个广义特征矢量,以此任一个特征空间都被包含于相应的广义特征空间。这给了一个几何重次总是小于代数重次的简单证明。
广义特征矢量可以用于计算一个矩阵的若尔当标准型(参看下面的讨论)。若尔当块通常不是对角化而是幂零的这个事实与特征矢量和广义特征矢量之间的区别直接相关。一般矩阵分解定理如上所述,谱定理表明正方形矩阵可以对角化当且仅当它是正规的。对于更一般的未必正规的矩阵,我们有类似的结果。当然在一般的情况,有些要求必须放松,例如酉等价性或者最终的矩阵的对角性。 所有这些结果在一定程度上利用了特征值和特征矢量。下面列出了一些这样的结果:
舒尔三角形式表明任何矩阵酉等价于一个上三角矩阵;
奇异值分解定理,A=UΣV其中Σ为对角阵,而U,V为酉矩阵。A=UΣV的对角线上的元素非负,而正的项称为A的奇异值。这对非正方形矩阵也成立;
若尔当标准型,其中A=UΛU其中Λ不是对角阵,但是分块对角阵,而U是酉矩阵。
若尔当块的大小和个数由特征值的几何和代数重次决定。若尔当分解是一个基本的结果。从它可以立即得到一个正方形矩阵可以完全用它的特征值包括重次来表述,最多只会相差一个酉等价。这表示数学上特征值在矩阵的研究中有着极端重要的作用。
作为若尔当分解的直接结果,一个矩阵A可以“唯一”地写作A=S+N其中S可以对角化,N是幂零的(也即,对于某个q,N=0),而S和N可交换(SN=NS)。
任何可逆矩阵A可以唯一地写作A=SJ,其中S可对角化而J是么幂矩阵 (也即,使得特征多项式是(λ-1)的幂,而S和J可交换)。特征值的一些另外的属性谱在相似变换下不变:矩阵A和PAP有相同的特征值,这对任何矩阵A和任何可逆矩阵P都成立。谱在转置之下也不变:矩阵A和A有相同的特征值。
因为有限维空间上的线性变换是双射当且仅当它是单射,一个矩阵可逆当且仅当所有特征值都不是0。
若尔当分解的一些更多的结果如下:
一个矩阵是对角矩阵当且仅当代数和几何重次对于所有特征值都相等。特别的有,一个n×n矩阵如果有n不同特征值,则总是可以对角化的。矩阵作用的矢量空间可以视为其广义特征矢量所撑成的不变子空间的直和。对角线上的每个块对应于该直和的一个子空间。若一个块是对角化的,其不变子空间是一个特征空间。否则它是一个广义特征空间,如上面所定义;因为迹,也就是矩阵主对角线元素之和,在酉等价下不变,若尔当标准型说明它等于所有特征值之和;类似的有,因为三角矩阵的特征值就是主对角线上的项,其行列式等于等于特征值的乘积(按代数重次计算出现次数)。
正规矩阵的一些子类的谱的位置是:
一个埃尔米特矩阵(A=A)的所有特征值是实数。进一步的有,所有正定矩阵(vAv> 0 for all vectorsv)的所有特征值是正数;所有斜埃尔米特矩阵(A= −A)的特征值是纯虚数;所有酉矩阵(A=A)的特征值绝对值为1;
假设A是一个m×n矩阵,其中m≤n,而B是一个n×m矩阵。则BA有和AB相同的特征值加上n−m个等于0的特征值。
每个矩阵可以被赋予一个算子范数。算子范数是其特征值的模的上确界,因而也是它的谱半径。该范数直接和计算最大模的特征值的幂法直接相关。当一个矩阵是正规的,其算子范数是其特征值的最大模,并且独立于其定义域的范数。系数为环中元素在方矩阵A,其系数属于一个环的情况,λ称为一个右特征值如果存在一个列矢量x使得Ax=λx,或者称为一个左特征值如果存在非零行矢量y使得yA=yλ。
若环是可交换的,左特征值和右特征值相等,并简称为特征值。否则,例如当环是四元数集合的时候,它们可能是不同的。
应用分子轨域在量子力学中,特别是在原子物理和分子物理中,在Hartree-Fock理论下,原子轨域和分子轨域可以定义为Fock算子的特征矢量。相应的特征值通过Koopmans定理可以解释为电离势能。在这个情况下,特征矢量一词可以用于更广泛的意义,因为Fock算子显式地依赖于轨道和它们地特征值。如果需要强调这个特点,可以称它为隐特征值方程。这样地方程通常采用迭代程序求解,在这个情况下称为自洽场方法。在量子化学中,经常会把Hartree-Fock方程通过非正交基集合来表达。这个特定地表达是一个广义特征值问题称为Roothaan方程。因子分析在因素分析中,一个协方差矩阵的特征矢量对应于因素,而特征值是因素负载。因素分析是一种统计学技术,用于社会科学和市场分析、产品管理、运筹规划和其他处理大量数据的应用科学。其目标是用称为因素的少量的不可观测随机变量来解释在一些可观测随机变量中的变化。可观测随机变量用因素的线性组合来建模,再加上“残差项。振动分析在对于多自由度机械结构作振动分析时,常常会遇到特征值问题。经过仔细解析,求得的特征值会给出振动的自然频率,而特征矢量则会给出振动模态的振动行为。由于特征矢量的相互正交性质,允许对应的微分方程式能够解耦合(decouple),整个系统可以表示为特征矢量的线性总和。有限元分析是一种非常优良的方法,时常用来解析复杂结构的特征值问题。特征脸在图像处理中,脸部图像的处理可以看作分量为每个像素的灰度的矢量。该矢量空间的维数是像素的个数。一个标准化面部图形的一个大型数据集合的协方差矩阵的特征矢量称为特征脸。它们对于将任何面部图像表达为它们的线性组合非常有用。特征脸提供了一种用于识别目的的数据压缩的方式。在这个应用中,一般只取最大那些特征值所对应的特征脸 。