ガウス混合モデルでギブスサンプリング

\begin{align} \newcommand{\b}[1]{\mathbf{#1}} \newcommand{\bo}[1]{\boldsymbol{#1}} \nonumber \end{align}

ベイズ推論による機械学習入門より，ガウス混合モデルでギブスサンプリングをしてみます．

記号の表記は以下の通りです．

クラスタの数$K$
クラスタの混合比率$\bo{\pi}$
クラスタの割り当て$\b{s}_n$
クラスタ$k$のパラメータ$\bo{\theta}_k = \left\{ \bo{\mu}_k, \bo{\Lambda}_k \right\}$
$\bo{\mu} = \left\{ \bo{\mu}_1, \ldots, \bo{\mu}_K \right\}, \bo{\Lambda} = \left\{ \bo{\Lambda}_1, \ldots, \bo{\Lambda}_K \right\}$

各クラスタ$k$に対して，データ$\b{x}_n \in \mathbb{R}^D$の観測モデルをガウス分布とします．

\begin{align} p(\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k) = \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}^{-1}) \end{align}

また事前分布として，ガウス分布の共役事前分布にあたるガウス・ウィシャート分布を用います．

\begin{align} p(\bo{\mu}_k, \bo{\Lambda}_k) = \mathcal{N} (\bo{\mu}_k | \b{m}, (\beta \bo{\Lambda}_k)^{-1}) \mathcal{W} (\bo{\Lambda}_k | \nu, \b{W}) \end{align} ここで$\b{m} \in \mathbb{R}^D, \beta \in \mathbb{R}^+, \b{W} \in \mathbb{R}^{D \times D}, \nu > D - 1$はハイパーパラメータです．

さて，ギブスサンプリングについて考えていきます．データ$\b{X} = \left\{ \b{x}_1, \ldots, \b{x}_N \right\}$が与えられたときの事後分布$p(\b{S}, \bo{\mu}, \bo{\Lambda}, \bo{\pi} | \b{X})$を考え，パラメータと潜在変数に分解してサンプリングすることにします．

\begin{align} \b{S} &\sim p(\b{S} | \b{X}, \bo{\mu}, \bo{\Lambda}, \bo{\pi}) \newline \bo{\mu}, \bo{\Lambda}, \bo{\pi} &\sim p(\bo{\mu}, \bo{\Lambda}, \bo{\pi} | \b{X}, \b{S}) \end{align}

まず，$\b{S}$をサンプルするための分布を求めます．$\b{S}$を含まない分布を無視することによって

\begin{align} p(\b{S} | \b{X}, \bo{\mu}, \bo{\Lambda}, \bo{\pi}) &\propto p(\b{S}, \b{X}, \bo{\mu}, \bo{\Lambda}, \bo{\pi}) \newline &= p(\b{S} | \bo{\pi}) p(\b{X} | \b{S}, \bo{\mu}, \bo{\Lambda}) p(\bo{\mu}, \bo{\Lambda}) p(\bo{\pi}) \newline &\propto p(\b{S} | \bo{\pi}) p(\b{X} | \b{S}, \bo{\mu}, \bo{\Lambda}) \newline &= \prod_{n = 1}^N p(\b{x}_n | \b{s}_n, \bo{\mu}, \bo{\Lambda}) p (\b{s}_n | \bo{\pi}) \end{align}

となります．対数をとって各分布を変形していきます．

\begin{align} \ln p(\b{x}_n | \b{s}_n, \bo{\mu}, \bo{\Lambda}) &= \sum_{k = 1}^K s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) \newline &= \sum_{k = 1}^K s_{n, k} \left[ - \frac{1}{2} (\b{x}_n - \bo{\mu}_k)^T \bo{\Lambda}_k (\b{x}_n - \bo{\mu}_k) + \frac{1}{2} \ln |\bo{\Lambda}_k| \right] + \mathrm{const.} \newline \ln p(\b{s}_n | \bo{\pi}) &= \ln \mathrm{Cat} (\b{s}_n | \bo{\pi}) = \sum_{k = 1}^K s_{n, k} \ln \pi_k \end{align}

よって

\begin{align} \ln p(\b{x}_n | \b{s}_n, \bo{\mu}, \bo{\Lambda}) p(\b{s}_n | \bo{\pi}) &= \sum_{k = 1}^K s_{n, k} \left[ - \frac{1}{2} (\b{x}_n - \bo{\mu}_k)^T \bo{\Lambda}_k (\b{x}_n - \bo{\mu}_k) + \frac{1}{2} \ln |\bo{\Lambda}_k| + \ln \pi_k \right] + \mathrm{const.} \end{align}

\begin{align} \b{s}_n \sim \mathrm{Cat} (\b{s}_n | \bo{\eta}_n) \end{align}

\begin{align} \eta_{n, k} \propto \exp \left[ - \frac{1}{2} (\b{x}_n - \bo{\mu}_k)^T \bo{\Lambda}_k (\b{x}_n - \bo{\mu}_k) + \frac{1}{2} \ln |\bo{\Lambda}_k| + \ln \pi_k \right] \quad \left( \mathrm{s.t.} \quad \sum_{k = 1}^K \eta_{n, k} = 1 \right) \end{align}

となります．ここまでは易しいのですが，ここからが結構大変です．次はパラメータ$\bo{\mu}, \bo{\Lambda}, \bo{\pi}$をサンプルするための分布を求めます．

\begin{align} p(\bo{\mu}, \bo{\Lambda}, \bo{\pi} | \b{X}, \b{S}) &\propto p(\b{X}, \b{S}, \bo{\mu}, \bo{\Lambda}, \bo{\pi}) \newline &= p(\b{S} | \bo{\pi}) p(\b{X} | \b{S}, \bo{\mu}, \bo{\Lambda}) p(\bo{\mu}, \bo{\Lambda}) p(\bo{\pi}) \end{align}

ここから$\bo{\mu}, \bo{\Lambda}$の分布と$\bo{\pi}$の分布に分解できることが分かります．まず，$\bo{\mu}, \bo{\Lambda}$の分布について考えていきます．

\begin{align} \ln p(\b{X} | \bo{\mu}, \bo{\Lambda}, \b{S}) p(\bo{\mu}, \bo{\Lambda}) &= \sum_{n = 1}^N \sum_{k = 1}^K s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \sum_{k = 1}^K \ln \mathrm{NW} (\bo{\mu}_k, \bo{\Lambda}_k | \b{m}, \beta, \nu, \b{W}) \newline &= \sum_{k = 1}^K \left\{ \sum_{n = 1}^N s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \ln \mathrm{NW} (\bo{\mu}_k, \bo{\Lambda}_k | \b{m}, \beta, \nu, \b{W}) \right\} \end{align}

上記の式から，求めたい分布は独立な$K$個の分布に分解できることが分かります．ここで，ある$k$について$p(\bo{\mu}_k, \bo{\Lambda}_k | \b{X}, \b{S}) = p(\bo{\mu}_k | \bo{\Lambda}_k, \b{X}, \b{S}) p(\bo{\Lambda}_k | \b{X}, \b{S})$と変形できることを利用します． $k$に関する和の中身を$\bo{\mu}_k$に関して整理すると（$\bo{\mu}_k$を含まない項を定数とみなすと）

\begin{align} & \sum_{n = 1}^N s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \ln \mathrm{NW} (\bo{\mu}_k, \bo{\Lambda}_k | \b{m}, \beta, \nu, \b{W}) \newline &= \sum_{n = 1}^N s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \ln \mathcal{N} (\bo{\mu}_k | \b{m}, (\beta \bo{\Lambda}_k)^{-1}) + \ln \mathcal{W} (\bo{\Lambda}_k | \nu, \b{W}) \newline &= \sum_{n = 1}^N s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \ln \mathcal{N} (\bo{\mu}_k | \b{m}, (\beta \bo{\Lambda}_k)^{-1}) + \mathrm{const.} \newline &= \sum_{n = 1}^N s_{n, k} \left[ - \frac{1}{2} (\b{x}_n - \bo{\mu}_k)^T \bo{\Lambda}_k (\b{x}_n - \bo{\mu}_k) \right] + \left[ - \frac{1}{2} (\bo{\mu}_k - \b{m})^T \beta \bo{\Lambda}_k (\bo{\mu}_k - \b{m}) \right] + \mathrm{const.} \newline &= - \frac{1}{2} \sum_{n = 1}^N s_{n, k} \left[ - 2 \bo{\mu}_k^T \bo{\Lambda}_k \b{x}_n + \bo{\mu}_k^T \bo{\Lambda}_k \bo{\mu}_k \right] - \frac{1}{2} \left[ - 2 \bo{\mu}_k^T \beta \bo{\Lambda}_k \b{m} + \bo{\mu}_k^T \beta \bo{\Lambda}_k \b{m} \right] + \mathrm{const.} \newline &= - \frac{1}{2} \left[ \bo{\mu}_k^T \left( \sum_{n = 1}^N s_{n, k} + \beta \right) \bo{\Lambda}_k \bo{\mu}_k - 2 \bo{\mu}_k^T \left( \bo{\Lambda}_k \sum_{n = 1}^N s_{n, k} \b{x}_n + \beta \bo{\Lambda}_k \b{m} \right) \right] + \mathrm{const.} \end{align}

となります．したがって$\bo{\mu}_k$はガウス分布で

\begin{align} \bo{\mu}_k \sim \mathcal{N} (\bo{\mu}_k | \hat{\b{m}}_k, (\hat{\beta}_k \bo{\Lambda}_k)^{-1}) \end{align}

$\hat{\beta}_k, \hat{\b{m}}_k$は

\begin{align} \hat{\beta}_k &= \sum_{n = 1}^N s_{n, k} + \beta \newline \hat{\b{m}}_k &= \frac{\sum_{n = 1}^N s_{n, k} \b{x}_n + \beta \b{m}}{\hat{\beta}_k} \quad \left( \hat{\beta}_k \bo{\Lambda}_k \hat{\b{m}}_k = \bo{\Lambda}_k \sum_{n = 1}^N s_{n, k} \b{x}_n + \beta \bo{\Lambda}_k \b{m} \text{より} \right) \end{align}

となります．

$p(\bo{\mu}_k | \bo{\Lambda}_k, \b{X}, \b{S})$が求められれば，

\begin{align} \ln p(\bo{\Lambda}_k | \b{X}, \b{S}) = \ln p(\bo{\mu}_k, \bo{\Lambda}_k | \b{X}, \b{S}) - \ln p(\bo{\mu}_k | \bo{\Lambda}_k, \b{X}, \b{S}) \end{align}

から$\bo{\Lambda}_k$についての式を得ることができます．ここで$\ln p(\bo{\mu}_k, \bo{\Lambda}_k | \b{X}, \b{S})$は次のように求めます．$p(\bo{\mu}, \bo{\Lambda} | \b{X}, \b{S})$を変形すると

\begin{align} p(\bo{\mu}, \bo{\Lambda} | \b{X}, \b{S}) &\propto p(\b{X}, \b{S}, \bo{\mu}, \bo{\Lambda}) \newline &= p(\b{X} | \bo{\mu}, \bo{\Lambda}, \b{S}) p(\bo{\mu}, \bo{\Lambda} | \b{S}) p(\b{S}) \newline &= p(\b{X} | \bo{\mu}, \bo{\Lambda}, \b{S}) p(\bo{\mu}, \bo{\Lambda}) p(\b{S}) \newline &\propto p(\b{X} | \bo{\mu}, \bo{\Lambda}, \b{S}) p(\bo{\mu}, \bo{\Lambda}) \end{align}

となります．この分布の対数は既に出てきており，

\begin{align} \ln p(\b{X} | \bo{\mu}, \bo{\Lambda}, \b{S}) p(\bo{\mu}, \bo{\Lambda}) &= \sum_{k = 1}^K \left\{ \sum_{n = 1}^N s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \ln \mathrm{NW} (\bo{\mu}_k, \bo{\Lambda}_k | \b{m}, \beta, \nu, \b{W}) \right\} \end{align}

でした．これは$K$個の独立な分布に分解できるということだったので，$k$に対応する$\ln p(\bo{\mu}_k, \bo{\Lambda}_k | \b{X}, \b{S})$は

\begin{align} \ln p(\bo{\mu}_k, \bo{\Lambda}_k | \b{X}, \b{S}) = \sum_{n = 1}^N s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \ln \mathrm{NW} (\bo{\mu}_k, \bo{\Lambda}_k | \b{m}, \beta, \nu, \b{W}) + \mathrm{const.} \end{align}

ということになります．以上の結果から，$\bo{\Lambda}_k$について整理します．ここで$ \ln | \beta \bo{\Lambda}_k | = \ln \beta^D | \bo{\Lambda}_k | = \ln \beta^D + \ln | \bo{\Lambda}_k | = \ln | \bo{\Lambda}_k | + \mathrm{const.}$となることを途中で用います．

\begin{align} & \ln p(\bo{\Lambda}_k | \b{X}, \b{S}) \newline &= \ln p(\bo{\mu}_k, \bo{\Lambda}_k | \b{X}, \b{S}) - \ln p(\bo{\mu}_k | \bo{\Lambda}_k, \b{X}, \b{S}) \newline &= \sum_{n = 1}^N s_{n, k} \ln \mathcal{N} (\b{x}_n | \bo{\mu}_k, \bo{\Lambda}_k^{-1}) + \ln \mathrm{NW} (\bo{\mu}_k, \bo{\Lambda}_k | \b{m}, \beta, \nu, \b{W}) - \ln \mathcal{N} (\bo{\mu}_k | \hat{\b{m}}_k, (\hat{\beta}_k \bo{\Lambda}_k)^{-1}) + \mathrm{const.} \newline &= \sum_{n = 1}^N s_{n, k} \left\{ - \frac{1}{2} (\b{x}_n - \bo{\mu}_k)^T \bo{\Lambda}_k (\b{x}_n - \bo{\mu}_k) + \frac{1}{2} \ln |\bo{\Lambda}_k| \right\} + \left\{ - \frac{1}{2} (\bo{\mu}_k - \b{m})^T \beta \bo{\Lambda}_k (\bo{\mu}_k -\b{m}) + \frac{1}{2} \ln |\beta \bo{\Lambda}_k| \right\} \newline &+ \frac{\nu - D - 1}{2} \ln |\bo{\Lambda}_k| - \frac{1}{2} \mathrm{Tr} (\b{W}^{-1} \bo{\Lambda}_k) - \left\{ - \frac{1}{2} (\bo{\mu}_k - \hat{\b{m}}_k)^T \hat{\beta}_k \bo{\Lambda}_k (\bo{\mu}_k - \hat{\b{m}}_k) + \frac{1}{2} \ln |\bo{\Lambda}_k| \right\} + \mathrm{const.} \newline &= - \frac{1}{2} \sum_{n = 1}^N s_{n, k} \b{x}_n^T \bo{\Lambda}_k \b{x}_n + \frac{1}{2} \sum_{n = 1}^N s_{n, k} \ln |\bo{\Lambda}_k| - \frac{1}{2} \b{m}^T \beta \bo{\Lambda}_k \b{m} + \frac{1}{2} \ln |\bo{\Lambda}_k| \newline &+ \frac{\nu - D - 1}{2} \ln |\bo{\Lambda}_k| - \frac{1}{2} \mathrm{Tr} (\b{W}^{-1} \bo{\Lambda}_k) + \frac{1}{2} \hat{\b{m}}_k^T \hat{\beta}_k\bo{\Lambda}_k \hat{\b{m}}_k - \frac{1}{2} \ln |\bo{\Lambda}_k| + \mathrm{const.} \newline &= - \frac{1}{2} \sum_{n = 1}^N s_{n, k} \mathrm{Tr} (\b{x}_n \b{x}_n^T \bo{\Lambda}_k) + \frac{1}{2} \sum_{n = 1}^N s_{n, k} \ln |\bo{\Lambda}_k| - \frac{1}{2} \mathrm{Tr} (\beta \b{m} \b{m}^T \bo{\Lambda}_k) \newline &+ \frac{\nu - D - 1}{2} \ln |\bo{\Lambda}_k| - \frac{1}{2} \mathrm{Tr} (\b{W}^{-1} \bo{\Lambda}_k) + \frac{1}{2} \mathrm{Tr} (\hat{\beta}_k \hat{\b{m}}_k \hat{\b{m}}_k^T \bo{\Lambda}_k) + \mathrm{const.} \newline &= \frac{\sum_{n = 1}^N s_{n, k} + \nu - D - 1}{2} \ln |\bo{\Lambda}_k| - \frac{1}{2} \mathrm{Tr} \left[ \left( \sum_{n = 1}^N s_{n, k} \b{x}_n \b{x}_n^T + \beta \b{m} \b{m}^T - \hat{\beta}_k \hat{\b{m}}_k \hat{\b{m}}_k^T + \b{W}^{-1} \right) \bo{\Lambda}_k \right] + \mathrm{const.} \end{align}

したがってこれはウィシャート分布で

\begin{align} \bo{\Lambda}_k \sim \mathcal{W} (\bo{\Lambda}_k | \hat{\nu}_k, \hat{\b{W}}_k) \end{align}

\begin{align} \hat{\b{W}}_k^{-1} &= \sum_{n = 1}^N s_{n, k} \b{x}_n \b{x}_n^T + \beta \b{m} \b{m}^T - \hat{\beta}_k \hat{\b{m}}_k \hat{\b{m}}_k^T + \b{W}^{-1} \newline \hat{\nu}_k &= \sum_{n = 1}^N s_{n, k} + \nu \end{align}

となります．最後に$\bo{\pi}$についての分布を求めます．$p(\b{\pi} | \b{X}, \b{S}) \propto p(\b{S} | \bo{\pi}) p(\bo{\pi})$から

\begin{align} \ln p(\b{S} | \bo{\pi}) + \ln p(\bo{\pi}) &= \sum_{n = 1}^N \ln \mathrm{Cat} (\b{s}_n | \bo{\pi}) + \ln \mathrm{Dir} ( \bo{\pi} | \bo{\alpha}) \newline &= \sum_{n = 1}^N \sum_{k = 1}^K s_{n, k} \ln \pi_k + \sum_{k = 1}^K (\alpha_k - 1) \ln \pi_k + \mathrm{const.} \newline &= \sum_{k = 1}^K \left( \sum_{n = 1}^N s_{n, k} + \alpha_k - 1 \right) \ln \pi_k + \mathrm{const.} \end{align}

となるので，

\begin{align} \bo{\pi} \sim \mathrm{Dir} (\bo{\pi} | \hat{\bo{\alpha}}) \end{align}

\begin{align} \hat{\alpha}_k = \sum_{n = 1}^N s_{n, k} + \alpha_k \end{align}

です．これで必要な分布は全て求まりました．

最後に，アルゴリズムとして整理します．

Set initial values $\bo{\mu}, \bo{\Lambda}, \bo{\pi}$.
for $i = 1, 2, \ldots, T$ do
- for $n = 1, \ldots, N$ do
  - Sample $\b{s}_n \sim \mathrm{Cat} (\b{s}_n | \bo{\eta}_n) $
- end for
- for $k = 1, \ldots, K$ do
  - Sample $\bo{\Lambda}_k \sim \mathcal{W} (\bo{\Lambda}_k | \hat{\nu}_k, \hat{\b{W}}_k)$
  - Sample $\bo{\mu}_k \sim \mathcal{N} (\bo{\mu}_k | \hat{\b{m}}_k, (\hat{\beta}_k \bo{\Lambda}_k)^{-1})$
- end for
- Sample $\bo{\pi} \sim \mathrm{Dir} (\bo{\pi} | \hat{\bo{\alpha}})$
end for

実装

$K = 3$の2次元での結果を可視化するとこのような結果になりました． fig2

References

ベイズ推論による機械学習入門