物理とか

Index

行列の平方根の単調性


1. 行列の平方根の単調性

調べ物をしていたときに、次の定理が成り立つことを知って証明を調べたので書いておきます。一応自分の中では、正定値行列に関する知識がほぼなくてもこのページだけで完結するように書いたつもりです。
\(A,B\)を正定値行列とします。このとき\(A-B\)が半正定値行列ならば、\(\sqrt{A}-\sqrt{B}\)も半正定値です。
正定値行列とは、任意のベクトル\(\b{x}\)について、\(\b{x}^\dagger A\b{x}>0\)が成り立つエルミート行列\(A\)のことです。この条件は\(A\)の固有値が全て正であることと同値です。正定値・半正定値行列とたくさん書くのはめんどくさいので、このページでは簡単のため次の記法を採用します。
定義:
  • \(A\)が正定値 \(\iff A \gt 0\)
  • \(A\)が半正定値 \(\iff A \geq 0\)
  • \(A-B\)が正定値 \(\iff A \gt B\)
  • \(A-B\)が半正定値 \(\iff A \geq B\)
この記法を採用することで、正定値行列\(A\)がまるで正の実数のように見えてきます。こんなふうに、正の実数と正定値行列を対応させることはたまに行われるみたいです。正定値行列の固有値は正の実数だけですからね。ちなみに先の命題は
\(A\gt 0,B\geq 0\)とする。このとき\(A\gt B \Rightarrow \sqrt{A}\gt\sqrt{B}\)
と書けることになって、正の実数\(x\)に対する\(\sqrt{x}\)の単調性と見た目は全く同じになります。逆が成り立たないのは少しおもしろいですね。

2.証明の前準備

正定値行列に関して、一般的に成り立つ公式を幾つか説明しておきます。現れる行列は全て\(n\times n\)の正方行列だとします。また\(\dagger\)は共役転置を表すことにします。
定理 1 : \(S\)を正則行列とします。このとき \(A\geq 0 \iff S^\dagger A S \geq 0\)
証明:(\(\Rightarrow\))\(A\geq 0 \iff\) 任意のベクトル\(\b{x}\)について\(\b{x}^\dagger A\b{x}\geq 0\)です。任意の\(\b{x}\)について成り立つのですから、別の任意のベクトル\(\b{y}\)を持ってきて、\(S\b{y}\)と変換したものについても成り立ちます。よって\(\b{y}^\dagger S^\dagger A S\b{y}\geq 0\)が任意の\(\b{y}\)について成り立つので、\(S^\dagger A S \geq 0\)です。
逆も同様に証明できるので省略します。
定理 2 : \(\lambda_{max}\)を\(A\geq 0\)の最大固有値とします。このとき \[A \leq I \iff \lambda_{max} \leq 1\]
証明:\(I-A\)の固有値を調べます。\(A\)の\(n\)個の固有値を\(\{\lambda_i\}\)とすると、これらは\(\det(A-\lambda_i I) = 0\)を満たします。一方で\(I-A\)という行列の固有値\(\eta\)を求める方程式は \begin{align} \det(I-A-\eta I )&= 0\\ \det(A - (1-\eta) I )&= 0\\ \end{align} となります。したがって、\(\eta_i = 1-\lambda_i\)です。
\((\Rightarrow)\)\(I-A\)が半正定値であるという仮定から、\(\eta_i \geq 0\)なので、\(\lambda_{max}\leq 1\)が示せます。 \((\Leftarrow)\)\(\lambda_{max}\leq 1\)という仮定から、\(\eta_i \geq 0\)であり、つまり\(I-A\)は半正定値です。

もう一つ、正定値行列に限定した定理ではありませんが、次の2つの定理を示しておきます。
定理 3 : \(A\)を適当な行列、\(S\)を正則行列とします。このとき\(A\)と\(S^{-1}AS\)は同じ固有値を持ちます。
証明:\(S^{-1}AS\)の固有値方程式は \begin{align} \det (S^{-1}AS-\lambda I) &= 0\\ \det (S^{-1}AS-\lambda S^{-1}S) &= 0\\ \det(S^{-1})\det(A-\lambda I)\det{S} &= 0\\ \det(A-\lambda I) &= 0 \end{align} と\(A\)の固有値方程式に帰着します。したがって同じ固有値を共有します。
定理 4 : \(A\)を正則行列、\(A\)の特異値の最小・最大値を\(\sigma_{min},\sigma_{max}\)、\(A\)の固有値のうちその絶対値が最小・最大のものを\(\lambda_{min},\lambda_{max}\)とおきます。このとき \[\sigma_{min}^2\leq|\lambda_{min}|^2\leq|\lambda_{max}|^2\leq\sigma_{max}^2\] が成り立ちます。
証明:任意のベクトル\(\b{x}\neq 0\)について、関数 \[f(\b{x}) = \b{x}^\dagger A^\dagger A \b{x} = \|A\b{x}\|^2\] を考えてみましょう。式を見ればわかるようにノルムはユークリッドノルムです。\(f(\b{x})\)を評価するため、\(A\)があるユニタリー\(U,V\)、特異値の対角行列\(\Sigma\)を使って\(A = U\Sigma V\)のように特異値分解できることを利用します。ユニタリーによってノルムは変化しませんから、\(f(\b{x}) = \|\Sigma V\b{x}\|^2\)が言えます。さらにこの関数は\(\Sigma\)を\(\sigma_{max}\)で置き換えたものよりも小さいはずです。したがって、 \[f(\b{x}) = \|\Sigma V\b{x}\|^2 \leq \|\sigma_{max} V\b{x}\|^2 = \sigma_{max}^2\|V\b{x}\|^2\] となりますが、\(V\)もユニタリーですから、 \[f(\b{x}) \leq \sigma_{max}^2\|\b{x}\|^2\] を得ます。等号は\(\b{x}\)が\(A^\dagger A\)の\(\sigma_{max}\)に対応する固有ベクトルである時のみ成り立ちます。逆に\(\Sigma\)を\(\sigma_{min}\)で置き換えたものよりは大きいはずですから、 \[f(\b{x}) \geq \sigma_{min}^2\|\b{x}\|^2\] となり、結局 \[\sigma_{min}^2\|\b{x}\|^2\leq f(\b{x}) \leq \sigma_{max}^2\|\b{x}\|^2\] です。 一方で、\(A\)の任意の固有値\(\lambda\)について対応する固有ベクトルを\(\b{x}_\lambda\)とすると、\(f(\b{x}_\lambda)\)は \[f(\b{x}_\lambda) = \|A\b{x}_\lambda\|^2 = |\lambda|^2\|\b{x}_\lambda\|^2\] です。よって、 \[\sigma_{min}^2\|\b{x}\|^2\leq |\lambda|^2\|\b{x}_\lambda\|^2\leq\sigma_{max}^2\|\b{x}\|^2\] ですから、 \[\sigma_{min}^2\leq|\lambda_{min}|^2\leq|\lambda_{max}|^2\leq\sigma_{max}^2\] を得ます。1番右の等号成立は\(A^\dagger A\)の\(\sigma_{max}\)に対応する固有ベクトルと\(\b{x}_{\lambda_{max}}\)が一致するとき、1番左は\(A^\dagger A\)の\(\sigma_{min}\)に対応する固有ベクトルと\(\b{x}_{\lambda_{min}}\)が一致するときだけです。

3.証明

前準備は終わったので、もう一つだけ補題を証明します。ここからは、ある行列\(A\)の固有値・特異値のうち最大のものをそれぞれ\(\lambda_{max}(A),\sigma_{max}(A)\)と書くことにします。
定理 5 : \(A\gt 0\), \(B\geq 0\)とする。このとき、 \[A\geq B \iff 1\geq \lambda_{max}(A^{-1}B)\]
ちょうど正の実数における\(a\geq b\Rightarrow 1\geq b/a\)に対応した定理です。

証明: \begin{align} A-B \geq 0 &\iff A^{-1/2}(A-B)A^{-1/2} \geq 0 &(\text{定理 1})\\ &\iff I - A^{-1/2}BA^{-1/2} \geq 0\\ &\iff \lambda_{max}(A^{-1/2}BA^{-1/2}) \leq 1 &(\text{定理 2})\\ &\iff \lambda_{max}(A^{-1}B) \leq 1 &(\text{定理 3})\\ \end{align} で示せました。

次に本題です。\(A\geq B \Rightarrow \sqrt{A}\gt \sqrt{B}\)を示したいのですが、同値な次の定理を示します。
\(A \gt 0, B\geq 0\)とする。このとき\(A^2\geq B^2 \Rightarrow A\geq B\)
証明:先の補題の証明とほとんど同じように進みます。 \begin{align} A^2-B^2 \geq 0 &\iff A^{-1}(A^2-B^2)A^{-1} \geq 0 &(\text{定理 1})\\ &\iff I - A^{-1}B^2A^{-1} \geq 0\\ &\iff \lambda_{max}(A^{-1}B^2A^{-1}) \leq 1 &(\text{定理 2})\\ &\iff \lambda_{max}(A^{-1}B(A^{-1}B)^\dagger) \leq 1 \\ &\iff \sigma_{max}(A^{-1}B) \leq 1\\ &\Longrightarrow |\lambda_{max}(A^{-1}B)| \leq 1 &(\text{定理 4})\\ &\iff A-B \geq 0 &(\text{定理 5}) \end{align} となり、示せました。


\(A^2\geq B^2 \Rightarrow A\geq B\)は成り立つのに逆は成り立たないのはすごく不思議ですね。この原因は一般に\(|\lambda_{max}|^2\leq\sigma_{max}^2\)であることが証明の過程からわかります。これが等号ならば、逆もいえますからね。色々調べたところによると、より一般に
\(A, B\geq 0\), \(t\)を\(0\leq t\leq 1\)の任意の実数とする。このとき\(A\geq B \Rightarrow A^t\geq B^t\)が成り立つ。参考:数理解析研究所講究録 16-30,1155,(2000)
みたいです。