カテゴリーアーカイブ データサイエンス

投稿者:

2025年にデータサイエンティストは仕事を失う!?

KDnuggetsに頭の禿げた中年太りのデータサイエンティストがロボットに彼女を奪われている風刺画が掲載されています。KDnuggetsが行った投票では、51%の人々が「10年以内に現在データサイエンティストが行っているエキスパート・レベルのタスクが自動化されるだろう」と答えています。
実際、機械学習アルゴリズムのパラメータ設定をいろいろと変えて性能の良いモデルを探索したり、それらのモデルを組みわせてアンサンブル予測を行うという自動化は、すでに実現されています。これは人間がやるよりも機械がやる方がはるかに徹底的にできます。しかし、これだけでは良いモデルはできないというのもまた真実です。
人間がやらなければならないことの最も本質的な部分は、すでに与えられているデータから現象をよりよく説明できる新しい特徴量(列)を作り出すことです。これには、分析の対象となる領域に関する背景知識が欠かせません。アルゴリズムをあれこれいじるよりも、この方が良いモデルに到達できる可能性が一気に高まります。そして、世間で行われているデータサイエンス・プロジェクトのほとんどで、あまりできていないのが、この部分ではないかと思われます。
個々の機械学習アルゴリズムに関する学術的な情報や、それをより噛み砕いて、手っ取り早くそれぞれの特長や使い方を勉強できるような情報は巷に溢れているのですが、実践的なデータ分析のテクニックに関してはほとんど情報がないに等しいと思います。
このブログでも以前に触れましたが、判別分析の開発のためにFisherが使用したことで有名なアヤメ(Iris)のデータですが、アルゴリズムの性能を評価するためによく使用されるわけで、普通は4つの計測値をそのまま使用します。教科書などにそのような説明が繰り返し出てくるので、ほとんどの人がそれが当たり前だと思ってしまうわけです。しかし、実践的な観点からすると、あのデータはそれぞれの計測値(列)の間の比率を計算して、新しい列を作成すると、アヤメの品種の違いをよく説明するデータが得られます。生物学的なデータではよく使われるテクニックです。
教科書に書いているようなことと実際のデータ分析の間のギャップに気づいて違和感を感じているような人が本当の人材だと思うわけですが、日本の研究者の中にどれぐらいそういう人がいるのか、と考えるとちょっと心配になります。日ごろ、XLSTATやViscoveryのユーザー・サポートで接する大学院生などを見ていると、皆さん、よく勉強されて(教科書的な)知識は豊富なのですが、「知識に依らないで自分で考える」という力が少々心許ない気がします。
写真のなかった時代の科学者に「デッサン力」は欠かせない能力だったろうと想像します。ここでレオナルド・ダ・ ヴィンチの名前を挙げるのは、あまりに巨匠すぎるのですが、彼の時代にはデッサンと科学的探究は切っても切り離せないものだったと想像できます。デッサンというのは、幾何学そのもので、線と線の関係性をあれこれと考察することによって、正確な絵が描けるというものです。デッサンをすることによって、物事を探求する能力を磨くことができます。
現代の科学者は、大学・大学院でそれぞれの分野の専門知識を詰め込むところからスタートします。探求力を磨くような特別な訓練をする機会を逸している人も少なくないのではと想像するわけです。レオナルドが今日の科学者を見たら、彼の目にはどのように映るのでしょうか?
今日、多くの研究分野で「データを集めて統計処理を行って、その結果を論文にまとめる」という研究スタイルが定着しています。極端な話、運が良ければ、教授の指示どおりにデータを集めて、教科書どおりに統計手法を適用して、その結果をそのまま論文に書けば審査にパスしてしまうということもあり得ないとは限りません。
実際は、思ったとおりには研究が進まずに、それぞれ何とか切り抜ける方法を見つけようと苦労されるのでしょうが、その過程でつかみ取るのはいったい何なのでしょうか?必ずしも純粋な科学の探求ではないのかもしれません。
ちょっと話が脱線ぎみですが、教科書的な機械学習アルゴリズムを勉強して、その使い方を知っているというのが「データサイエンティスト」であるとするなら、そのような人材の需要はどんどん先細りするということです。というか、それぐらいのことならサイエンティスト(科学者)ではなく、ビジネスマンにでも十分できます。「Excelが使える」というだけでとくに給料が上がるわけでもないということの延長かと思います。
もっと本当の話をするなら、今注目されている機械学習アルゴリズムのほとんどは、80年代、90年代に研究されてきたもので、それがじわじわと世間に浸透してきて今ようやく花開こうとしているものです。本当の意味での「データサイエンティスト」とは、機械学習アルゴリズムの開発に携わってきた人たちで、歳の頃なら若くて50代ということになります。(その上の大御所の先生たちは、すでに引退されています。)
50代の人間が「あと10年これで喰っていけたらいいなあ」というのが、今のデータサイエンスなので、若い世代の人には、さらに「次のこと」を考えて欲しいものです。

投稿者:

機械学習エンジニアが知っておくべき10のアルゴリズム

KDnuggetsの記事ですが、知っておくべきアルゴリズムは、
1. 決定木
2. 単純ベイズ分類器
3.(通常の)最小2乗回帰
4. ロジスティック回帰
5. サポートベクターマシン
6. アンサンブル手法
7. クラスタリング
8.主成分分析(PCA)
9.特異値分解(SVD)
10.独立成分分析(ICA)
だそうです。
つまり、1から5までは教師ありで、クラス分類または予測の手法です。アンサンブル手法というのは複数の分類器を使って、分類性能を上げる手法です。残りの4つが教師なしの手法で、データを分析して、内在する構造を理解するための手法です。
このうち、1,3,4,7,8は、一般的な統計解析ソフトにも搭載されているはずです。ちなみに弊社のXLSTATでは、1,2,3,4,5,7,8が利用できます(もちろん、それ以外の機能のほうがたくさんあって、むしろ、これらは一部の機能に過ぎません。)
ただし、クラスタリングに関しては、新しい手法がさまざまあるのですが、統計解析ソフトに搭載されているのは伝統的な手法に限られます。(クラスタリングに関しては、クラスタリングの結果を得るだけではあまり意味がなくて、各クラスタの統計的特徴を分析するところまでやるべきなのですが、それを効率化できるツールというのは、Viscovery SOMine以外にはあまり見当たらないと思います。)
目下、「機械学習」ブームで、機械学習が昨日今日降って涌いてきた新しい技術であるかのように世間では捉えられていそうなのですが、実際のところ、上記のほとんどは(専門家の間では)何10年もおなじみの技術です。しかも、膨大な数の手法の中の代表的なごく一部にすぎません。
特異値分解は、行列分解の手法で主成分分析とほとんど似たような手法、というか特異値分解によっても主成分を求めることができます。つまり、特異値分解で主成分分析を実装することができます。
独立成分分析も主成分分析と似ているのですが、こちらは主成分分析とはちょっと違う方向のことをします。いわゆるカクテルバーティー問題という種類の問題を解きます。つまり、複数の人がワイワイガヤガヤしゃべっているような状況のそれぞれの音声信号を分離するというイメージです。たとえば、売上の変動をいくつかの変動要因に分解するというような分析にも応用できます。
独立成分分析は、上記の10個の中で最も新しい手法で、21世紀初頭にホットな研究テーマとして注目されました。(これですらもう10数年も経っています。)独立成分分析の第一人者として、ヘルシンキ工科大学のヒバリネン先生が挙げられます。今後、商用の分析ツールにも独立成分分析が搭載されてくるのが待たれます。