矩阵的相似

定义:设A,B\boldsymbol{A},\boldsymbol{B}都是nn阶方阵,若有可逆矩阵P\boldsymbol{P},使得:

\begin{align}\boldsymbol{B}=\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\end{align}

则称P\boldsymbol{P}为相似变换矩阵(Similarity transformation matrix),称B\boldsymbol{B}A\boldsymbol{A}的相似矩阵(Similar matrix),记作:

\begin{align}\boldsymbol{A}\simeq \boldsymbol{B}\end{align}

简单解释下上述定义,如果A\boldsymbol{A}B\boldsymbol{B}是相似矩阵,那么两者实际上是同一个线性映射在不同基下的代数表示:

2

再严谨点的话,应该说相似矩阵是特殊的、同一个线性映射在不同基下的代数表示。这里有两层意思:

  • 什么是“同一个线性映射在不同基下的代数表示”?
  • 为什么说“相似矩阵是特殊的”同一个线性映射在不同基下的代数表示?

下面是更详细的解释。

同一个线性映射在不同基下的代数表示

比如某线性映射如下,其作用是将向量x\boldsymbol{x}映射为向量y\boldsymbol{y}

2

在自然基下,上述向量的坐标分别是[x]E[\boldsymbol{x}]_\mathcal{E}[y]E[\boldsymbol{y}]_\mathcal{E},上述线性映射可用矩阵A\boldsymbol{A}来表示,即有A[x]E=[y]E\boldsymbol{A}[\boldsymbol{x}]_\mathcal{E}=[\boldsymbol{y}]_\mathcal{E}。或者图示如下:

2

或者在基P\mathcal{P},上述向量的坐标分别是[x]P[\boldsymbol{x}]_\mathcal{P}[y]P[\boldsymbol{y}]_\mathcal{P},上述线性映射可用矩阵B\boldsymbol{B}来表示,即有B[x]P=[y]P\boldsymbol{B}[\boldsymbol{x}]_\mathcal{P}=[\boldsymbol{y}]_\mathcal{P}。或者图示如下:

2

上面的矩阵A\boldsymbol{A}和矩阵B\boldsymbol{B}就是同一个线性映射在不同基下的代数表示。

相似矩阵

如果存在可逆矩阵P\boldsymbol{P},也就是存在过渡矩阵P\boldsymbol{P},通过坐标变换公式有:

\begin{align}[\boldsymbol{x}]_\mathcal{E}=\boldsymbol{P}[\boldsymbol{x}]_\mathcal{P},\quad [\boldsymbol{y}]_\mathcal{P}=\boldsymbol{P}^{-1}[\boldsymbol{y}]_\mathcal{E}\end{align}

那么矩阵A\boldsymbol{A}和矩阵B\boldsymbol{B}就可通过过渡矩阵P\boldsymbol{P}联系起来,此时A\boldsymbol{A}B\boldsymbol{B}就是相似矩阵:

2

对角化

如果nn阶方阵AAnn个线性无关的特征向量p1,p2,,pn\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n},那么如下矩阵:

\begin{align}P=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})\end{align}

可以使得:

\begin{align}A=P\Lambda P^{-1}\end{align}

其中Λ\Lambda为如下对角阵

\begin{align}\Lambda=\left(\begin{array}{llll}\lambda_{1} & & & \\ & \lambda_{2} & & \\ & & \ddots & \\ & & & \lambda_{n}\end{array}\right)\end{align}

其中的λ1,λ2,,λn\lambda_1,\lambda_2,\cdots,\lambda_n为特征向量p1,p2,,pn\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}对应的特征值,该过程称为对角化(Diagonalizable)。

查看详情

已知:

\begin{align}P=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})\end{align}

根据矩阵乘法列观点、矩阵乘法的定义以及特征值和特征向量的定义,可得:

\begin{align}\begin{aligned} AP &=A(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})=(A\boldsymbol{p_1},A\boldsymbol{p_2},\cdots,A\boldsymbol{p_n})\\\\ &=(\lambda_1\boldsymbol{p_1},\lambda_2\boldsymbol{p_2},\cdots,\lambda_n\boldsymbol{p_n})\\\\ &=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})\left(\begin{array}{llll}\lambda_{1} & & & \\ & \lambda_{2} & & \\ & & \ddots & \\ & & & \lambda_{n}\end{array}\right)\\ \end{aligned}\end{align}

Λ=(λ1λ2λn)\Lambda=\left(\begin{array}{llll}\lambda_{1} & & & \\ & \lambda_{2} & & \\ & & \ddots & \\ & & & \lambda_{n}\end{array}\right),上式可以改写为:

\begin{align}AP=P\Lambda\end{align}

因为特征向量p1,p2,,pn\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}线性无关,所以PP是可逆的,因此可以给上式两侧同时右乘逆矩阵P1P^{-1},得:

\begin{align}A=P\Lambda P^{-1}\end{align}

除了向量空间Rn\mathbb{R}^n的自然基E\mathcal{E}

\begin{align}\mathcal{E}=\{\boldsymbol{e_1},\boldsymbol{e_2},\cdots,\boldsymbol{e_n}\}\end{align}

因为p1,p2,,pn\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}nn个线性无关的特征向量,所以它是向量空间Rn\mathbb{R}^n的另外一个基P\mathcal{P}

\begin{align}\mathcal{P}=\{\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}\}\end{align}

那么上面提到的P=(p1,p2,,pn)P=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})就是由自然基E\mathcal{E}到基P\mathcal{P}的过渡矩阵。所以根据之前学习的相似矩阵,对角化实际上是将自然基E\mathcal{E}下的AA转为了基P\mathcal{P}下的Λ\Lambda

2

举例说明

举一个例子来进一步说明下求解的过程:

​ (1)先求出矩阵A=(0.950.030.050.97)A=\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}的特征值和对应的特征向量为:

\begin{align}\lambda_1=1,\quad\lambda_2=0.92\\\boldsymbol{p}_{1}=\begin{pmatrix}3\\5\end{pmatrix},\quad \boldsymbol{p}_{2}=\begin{pmatrix}1\\-1\end{pmatrix}\end{align}

因为λ1λ2\lambda_1\ne\lambda_2,根据不同特征值对应的特征向量线性无关,所以p1\boldsymbol{p}_{1}p2\boldsymbol{p}_{2}肯定线性无关,所以AA是可以对角化的。

​ (2)然后构造:

\begin{align}P=(\boldsymbol{p}_1,\boldsymbol{p}_{2})=\begin{pmatrix}3&1\\5&-1\end{pmatrix}\end{align}

就可以完成对角化了:

\begin{align}A=P\Lambda P^{-1}\end{align}

其中对角阵Λ\Lambda就是由特征值构成的:

\begin{align}\Lambda=\begin{pmatrix}\lambda_1&0\\0&\lambda_2\end{pmatrix}=\begin{pmatrix}1&0\\0&0.92\end{pmatrix}\end{align}

​ (3)注意,对角化的结果并不唯一。如果像下面这样构造:

\begin{align}P=(\boldsymbol{p}_2,\boldsymbol{p}_{1})=\begin{pmatrix}1&3\\-1&5\end{pmatrix}\end{align}

那么需要修改下Λ\Lambda

\begin{align}\Lambda=\begin{pmatrix}\lambda_2&0\\0&\lambda_1\end{pmatrix}=\begin{pmatrix}0.92&0\\0&1\end{pmatrix}\end{align}

也可以使得A=PΛP1A=P\Lambda P^{-1}成立。

计算AnA^n

还是上面提到的矩阵A=(0.950.030.050.97)A=\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix},可以看到AnA^n很不好计算:

\begin{align}\begin{aligned} A^n &=\underbrace{\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}\cdots\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}}_{\large n}\\ &=\underbrace{\begin{pmatrix}0.904&0.0576\\0.096&0.9424\end{pmatrix}\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}\cdots\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}}_{\large n-1}\\ &=\underbrace{\begin{pmatrix}0.86168&0.082992\\0.13832&0.917008\end{pmatrix}\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}\cdots\begin{pmatrix}0.95&0.03\\0.05&0.97\end{pmatrix}}_{\large n-2}\\ &=\color{red}{?} \end{aligned}\end{align}

不过像上面一样将的AA对角化后,即:

\begin{align}A=P\Lambda P^{-1}=P\begin{pmatrix}1&0\\0&0.92\end{pmatrix}P^{-1}\end{align}

那么:

\begin{align}\begin{aligned} A^n &=\left(P\Lambda P^{-1}\right)^n\\ &=P\Lambda P^{-1}P\Lambda P^{-1}\cdots P\Lambda P^{-1} &&P\Lambda P^{-1}=I\\ &=P\Lambda^n P^{-1} \end{aligned}\end{align}

而对角阵的nn次方是很好计算的,所以:

\begin{align}A^n=P\Lambda^n P^{-1}=P\begin{pmatrix}1^n&0\\0&0.92^n\end{pmatrix}P^{-1}\end{align}

或者从相似矩阵的角度来理解,通过将自然基E\mathcal{E}下的AnA^n转为了基P\mathcal{P}下的Λn\Lambda^n,从而将问题简化了:

2

解题方式

  1. nn阶矩阵A\boldsymbol{A}可相似对角化A\Leftrightarrow \boldsymbol{A}nn个线性无关的特征向量

  2. nn矩阵A\boldsymbol{A}可相似对角化A\Leftrightarrow \boldsymbol{A}对应于每个kik_{i}重特征值都有kik_{i}个线性无关的特征向量

    比如: 6阶矩阵A6A_{6} ,
    \begin{align}\begin{array}{|c|c|c|c|} \hline 特征值 & \mathbf{1 , 1 , 1} & \mathbf{2 , 2} & \mathbf{3} \\ \hline 特征向量 & \alpha_{1}, \alpha_{2}, \alpha_{3} & \beta_{1}, \beta_{2} & \gamma \\ \hline \end{array}\end{align}

    其中α1,α2,α3\alpha_{1}, \alpha_{2}, \alpha_{3}线性无关,β1,β2\beta_{1}, \beta_{2}线性无关,γ\gamma线性无关(γ0)(\gamma \neq 0)

  3. 对于矩阵A\boldsymbol{A}的每个kik_{i}重特征值λi\lambda_{i},都有r(λiEA)=nki\mathrm{r}\left(\lambda_{i} E-A\right)=n-k_{i}

    比如: 6阶矩阵A6A_{6},
    \begin{align}\begin{array}{|c|c|c|c|} \hline 特征值 & \mathbf{1 , 1 , 1}(这个是重根) & \mathbf{2 , 2}(这个是重根) & \mathbf{3} \\ \hline 秩 & \mathrm{r}(1 \cdot E-A)=3 & \mathrm{r}(2 E-A)=4 & \mathrm{r}(3 E-A)=5 \\ \hline \end{array}\end{align}

  4. nn阶矩阵A\boldsymbol{A}nn个不同特征值A\Rightarrow \boldsymbol{A}可相似对角化

  5. nn阶矩阵A\boldsymbol{A}为实对称矩阵A\Rightarrow \boldsymbol{A}可相似对角化。这个就是实对称矩阵(主对角线对称)A=(001010100)\boldsymbol{A}=\left(\begin{array}{lll} 0 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 0 \end{array}\right)A=(123256367)\boldsymbol{A}=\left(\begin{array}{lll} 1 & 2 & 3 \\ 2 & 5 & 6 \\ 3 & 6 & 7 \end{array}\right)

  6. 矩阵的秩为1,r(A)=1\mathrm{r}(A)=1,(tr(A)\operatorname{tr}(A)表示A的跡)

    \begin{align}\begin{array}{|c|c|} \hline \operatorname{tr}(A) \neq 0 & \operatorname{tr}(A)=0 \\ \hline \text { 可以相似对角化 } & \text { 不可相似对角化 } \\ \hline \end{array}\end{align}

以上1、2、3为A\boldsymbol{A}可相似对角化的充要条件;4、5、6为A\boldsymbol{A}可相似对角化的充分条件

例题

A=(222254245)A=\left(\begin{array}{ccc} 2 & 2 & -2 \\ 2 & 5 & -4 \\ -2 & -4 & 5 \end{array}\right),求可递PP,使P1AP=ΛP^{-1} A P=\Lambda

解题步骤

1.通过给出的A,求λ\lambdaξ\xi

2.找到nn个线性无关的特征向量

2.把这些特征向量组合成PP,令P=(ξ1,ξ2,,ξn)P=(\boldsymbol{\xi}_{1}, \boldsymbol{\xi}_{2}, \cdots, \boldsymbol{\xi}_{n}),验证P1AP=(λ1λ2λn)P^{-1}AP=\left(\begin{array}{llll} \lambda_{1} & & & \\ & \lambda_{2} & & \\ & & \ddots & \\ & & & \lambda_{n} \end{array}\right)

由特征方程

\begin{align}\begin{array}{l} |\lambda \boldsymbol{E}-\boldsymbol{A}|=\left|\begin{array}{ccc} \lambda-2 & -2 & 2 \\ -2 & \lambda-5 & 4 \\ 2 & 4 & \lambda-5 \end{array}\right|=\left|\begin{array}{ccc} \lambda-2 & -2 & 0 \\ -2 & \lambda-5 & \lambda-1 \\ 2 & 4 & \lambda-1 \end{array}\right|=\left|\begin{array}{ccc} \lambda-2 & -2 & 0 \\ -4 & \lambda-9 & 0 \\ 2 & 4 & \lambda-1 \end{array}\right| \\ =(\lambda-1)\left(\lambda^{2}-11 \lambda+10\right)=(\lambda-1)^{2}(\lambda-10)=0 \\ \end{array}\end{align}

A\boldsymbol{A}有特征值λ1=λ2=1,λ3=10\lambda_{1}=\lambda_{2}=1, \lambda_{3}=10

λ1=λ2=1\lambda_{1}=\lambda_{2}=1时,有

\begin{align}(\boldsymbol{E}-\boldsymbol{A}) \boldsymbol{x}=\left[\begin{array}{ccc} -1 & -2 & 2 \\ -2 & -4 & 4 \\ 2 & 4 & -4 \end{array}\right]\left[\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right]=\mathbf{0}\end{align}

解得基础解系为ξ1=[2,1,0]T,ξ2=[2,0,1]T\boldsymbol{\xi}_{1}=[-2,1,0]^{\mathrm{T}}, \boldsymbol{\xi}_{2}=[2,0,1]^{\mathrm{T}},所以对应的两个线性无关的特征向量

λ3=10\lambda_{3}=10时,有

\begin{align}(10 \boldsymbol{E}-\boldsymbol{A}) \boldsymbol{x}=\left[\begin{array}{ccc} 8 & -2 & 2 \\ -2 & 5 & 4 \\ 2 & 4 & 5 \end{array}\right]\left[\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right]=\mathbf{0}\end{align}

解得基础解系为ξ3=[1,2,2]T\xi_{3}=[1,2,-2]^{\mathrm{T}},所以对应的一个线性无关的特征向量

P=(ξ1ξ2ξ3)=(221102012)P=\left(\xi_{1} \xi_{2} \xi_{3}\right)=\left(\begin{array}{ccc} -2 & 2 & 1 \\ 1 & 0 & 2 \\ 0 & 1 & -2 \end{array}\right)

使P1AP=(1110) P^{-1} A P=\left(\begin{array}{lll} 1&&\\ & 1 & \\ & & 10 \end{array}\right)

或者

P=(ξ3ξ1ξ2)=(122210201)P^{\prime}=\left(\xi_{3} \xi_{1} \xi_{2}\right)=\left(\begin{array}{ccc} 1 & -2 & 2 \\ 2 & 1 & 0 \\ -2 & 0 & 1 \end{array}\right)

使P11AP=(1011)P^{1^{-1}} A P^{\prime}=\left(\begin{array}{lll} 10&&\\ & 1 & \\ & & 1 \end{array}\right)

这两个答案都可以,区别就是ξ1ξ2ξ3\xi_{1} \xi_{2} \xi_{3}的位置和特征值的位置关系


判断下面4个矩阵,那个是不可对角化的

\begin{align}D_{1}=\left[\begin{array}{lll}2 & 1 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 4\end{array}\right], D_{2}=\left[\begin{array}{lll}2 & 0 & 1 \\ 0 & 2 & 0 \\ 0 & 0 & 4\end{array}\right], D_{3}=\left[\begin{array}{lll}2 & 0 & 0 \\ 0 & 2 & 1 \\ 0 & 0 & 4\end{array}\right], D_{4}=\left[\begin{array}{lll}2 & 1 & 1 \\ 0 & 2 & 0 \\ 0 & 2 & 4\end{array}\right]\end{align}

四个矩阵的特征值均为2,2,42,2,4,其中λ=2\lambda=2为二重根

\begin{align}\begin{array}{|c|c|c|c|} \hline D_{1} & D_{2} & D_{3} & D_{4} \\ \hline \mathrm{r}\left(2 E-D_{1}\right)=2 & \mathrm{r}\left(2 E-D_{2}\right)=1 & \mathrm{r}\left(2 E-D_{3}\right)=1 & \mathrm{r}\left(2 E-D_{4}\right)=1 \\ \hline 不可对角化 & 可对角化 & 可对角化 & 可对角化 \\ \hline \end{array}\end{align}