※日経ソフトウエア 2018年11月号の記事を再構成

ディープラーニングに代表される機械学習が、数式が苦手な人でも“ざっくり分かる”短期集中連載講座。第9回は代表的な機械学習アルゴリズムのうち、クラスタリングに使われ「混合正規分布モデル」とも呼ばれる「混合ガウスモデル」を解説する。

混合ガウスモデル

 混合ガウスモデルとは、クラスタリングに使われるアルゴリズムの一つ。英語の名称「Gaussian Mixture Model」の略で、GMMとも呼ぶ。また、ガウス分布と正規分布は同じものを指しているので、「混合正規分布モデル」と呼ぶこともある。

 ガウス分布(正規分布)は、偏差値の説明にもよく出てくる山のような形のグラフになる。いくつかのガウス分布を用意し、それぞれの平均(中央値)と共分散(山の広がり具合)を調整し、適当な重み係数を付けて足し合わせる(線形結合する)ことで、ほぼどのような連続関数でも、任意の精度で近似できる。このガウス分布の足し合わせで近似したモデルを、混合ガウスモデルと呼ぶ。イメージは、三角関数の足し合わせで任意の関数(波形)を近似できるフーリエ級数に似ている(図1)。ガウス分布の数が、クラスタの数となるわけだ。

図1 ●混合ガウスモデル
図1 ●混合ガウスモデル
第8回
k平均法とは?|機械学習アルゴリズム10種(6)
第10回
主成分分析とは?|機械学習アルゴリズム10種(8)