※日経ソフトウエア 2018年11月号の記事を再構成

ディープラーニングに代表される機械学習が、数式が苦手な人でも“ざっくり分かる”連載講座。第10回は代表的な機械学習アルゴリズムのうち、多くの変数をより少ない合成変数に要約する次元削減の手法である「主成分分析」を解説する。

主成分分析

 主成分分析とは、次元削減に用いられる手法で、多くの変数(次元)をより少ない「合成変数」(複数の変数を組み合わせて算出された変数)に要約する方法のことだ。この合成変数のことを主成分と呼ぶ。次元を減らすことで、全体の見通しがよくなる。

 例えば、身長と体重という2次元のデータから、BMIという肥満度を表す1次元の指標を算出するようなものだと思えばよいだろう。ビッグデータでは、次元が数百や数千になることもあるが、主成分分析で次元を減らしても、データが持つ情報をできる限り損なわずに、より理解しやすい形にできる。英語の名称「Principal Component Analysis」の略で、PCAとも呼ぶ。

第9回
混合ガウスモデルとは?|機械学習アルゴリズム10種(7)
第11回
特異値分解とは?|機械学習アルゴリズム10種(9)