※日経ソフトウエア 2018年11月号の記事を再構成

ディープラーニングに代表される機械学習が、数式が苦手な人でも“ざっくり分かる”短期集中連載講座。第8回は代表的な機械学習アルゴリズムのうち、あらかじめラベリングされていないデータの分類に使われる「k平均法」を解説する。

k 平均法

 名前や考え方はk近傍法に似ているが、k近傍法が「教師あり学習で分類問題に使われる」のに対し、k平均法は「教師なし学習でクラスタリングに使われる」という違いがある。k近傍法では、学習データのクラスがあらかじめ分かっているわけだが、k平均法の学習データにはそうしたラベル付けはされていない。では、どのように教師なしでクラスタリングできるのだろうか?

 まずは学習データをベクトル空間上にプロットしていく。次に、クラスタの数を適当に決めて(クラスタの数がk)、ランダムにk個の点をプロットする。この点が、各クラスタの初期の「中心」となる(図1の(1))。その後、各学習データを、最も近い中心に紐付ける。これで、学習データがk個のクラスタに分けられることになる(2)。