機械学習エンジニアが知っておくべき10のアルゴリズム

投稿者:

機械学習エンジニアが知っておくべき10のアルゴリズム

KDnuggetsの記事ですが、知っておくべきアルゴリズムは、
1. 決定木
2. 単純ベイズ分類器
3.(通常の)最小2乗回帰
4. ロジスティック回帰
5. サポートベクターマシン
6. アンサンブル手法
7. クラスタリング
8.主成分分析(PCA)
9.特異値分解(SVD)
10.独立成分分析(ICA)
だそうです。
つまり、1から5までは教師ありで、クラス分類または予測の手法です。アンサンブル手法というのは複数の分類器を使って、分類性能を上げる手法です。残りの4つが教師なしの手法で、データを分析して、内在する構造を理解するための手法です。
このうち、1,3,4,7,8は、一般的な統計解析ソフトにも搭載されているはずです。ちなみに弊社のXLSTATでは、1,2,3,4,5,7,8が利用できます(もちろん、それ以外の機能のほうがたくさんあって、むしろ、これらは一部の機能に過ぎません。)
ただし、クラスタリングに関しては、新しい手法がさまざまあるのですが、統計解析ソフトに搭載されているのは伝統的な手法に限られます。(クラスタリングに関しては、クラスタリングの結果を得るだけではあまり意味がなくて、各クラスタの統計的特徴を分析するところまでやるべきなのですが、それを効率化できるツールというのは、Viscovery SOMine以外にはあまり見当たらないと思います。)
目下、「機械学習」ブームで、機械学習が昨日今日降って涌いてきた新しい技術であるかのように世間では捉えられていそうなのですが、実際のところ、上記のほとんどは(専門家の間では)何10年もおなじみの技術です。しかも、膨大な数の手法の中の代表的なごく一部にすぎません。
特異値分解は、行列分解の手法で主成分分析とほとんど似たような手法、というか特異値分解によっても主成分を求めることができます。つまり、特異値分解で主成分分析を実装することができます。
独立成分分析も主成分分析と似ているのですが、こちらは主成分分析とはちょっと違う方向のことをします。いわゆるカクテルバーティー問題という種類の問題を解きます。つまり、複数の人がワイワイガヤガヤしゃべっているような状況のそれぞれの音声信号を分離するというイメージです。たとえば、売上の変動をいくつかの変動要因に分解するというような分析にも応用できます。
独立成分分析は、上記の10個の中で最も新しい手法で、21世紀初頭にホットな研究テーマとして注目されました。(これですらもう10数年も経っています。)独立成分分析の第一人者として、ヘルシンキ工科大学のヒバリネン先生が挙げられます。今後、商用の分析ツールにも独立成分分析が搭載されてくるのが待たれます。

投稿者について