データサイエンティストの根本問題

投稿者:

データサイエンティストの根本問題

昨日の記事に続いて、データサイエンティスト問題についてもう少し触れてみたいです。
データサイエンティストにどのようなレベルを求めるかによって、本物と偽物を分ける境界は変わってきます。昨日の記事の元記事の論者は、データサイエンティストが本物の科学者であり、かつビジネスも理解してビジネス上の問題解決を図ることができるという夢のようなことを設定しているようです。そりゃ、そんなスーパーマンは、そんじょそこらにはおりません。
いつも数学のことを考えている人というのは浮世離れしているものだし、毎日忙しく働いているビジネスマンが数学のことなんて考えている暇はありません。それを両立させようというのはかなり難しいことです。実際に採用可能な人材の多くはその中間なので、どちらの能力もさほどぱっとしないということになります。企業はそういう凡人を使いこなしてこそなんぼのものです。そこに必要なのは「戦略」です。
大学院で研究したからと言って、皆が皆、天才的な科学者になれるわけではありません。ほとんどの人は凡人です。もちろん普通の人が知らない専門知識はたくさんあります。ただし、それを知っていても、実際問題にそれがうまくフィットするとは限らないものです。
現在の機械学習の状況を端的に言えば、大学院で研究していたアルゴリズムを使ってコンペに出たら、たまたまそのアルゴリズムの特性とコンペで出題された課題がうまくかみ合って優勝して、大企業から出資を受けてベンチャー企業をスタートアップさせた、というようなことが米国で起きているわけです。そういうロック・スター型のベンチャー創業者が誕生しているわけですが、それはほんの一握りの幸運な人たちです。
つまり、確固たる研究成果があって、(偶然にせよ)それに適したアプリケーションがしっかりと設定できたときにビジネスに結び付きます。そういう場合には、元の研究成果を核として技術開発の方向性(技術戦略)がはっきりと描けます。
しかし、多くのデータサイエンティストが置かれる状況は、そんな理想とはほど遠いようです。つまり、大学院で研究したことは、それはそれとして横に置いといて、機械学習全般の知識を駆使して、採用された会社のビジネスの課題にチャレンジすることになります。
大学院では遺伝的アルゴリズムを研究していたけど、会社に入ると「ディープラーニングが流行りだから、そっちをやれと言われた」というようなことはありがちなことでしょう。それで、また一から勉強しなおして対応します。運がよければ、異なる技術を組み合わせて、新しいものを作り出せるチャンスからもしれません。
しかし、現実はそう甘くありません。なぜなら、そこは大学でも研究所でもなく民間会社です。しかも、数年前までは機械学習なんても見向きもしていなかった会社が、ブームに乗ってデータサイエンティストを採用して新しい部署を設置したというようなところです。組織が新しいことにチャレンジするときには混乱が起きます。上の人間が、その新しい事業テーマについては、ずぶの素人だったりするわけです。そういうビジネスの現場で揉まれることは、ある意味、得難い経験なのかも知れませんが、さてどうなることやら、若いデータサイエンティストたちが過酷な環境で消耗されてしまわないことを願うばかりです。
今現在、日本や世界で起きていることは、ほんの数年前までは、機械学習やら人工知能やらにまったく見向きもしていなかった企業が、力に任せてデータサイエンティストを囲い込んで、ブームに便乗しようという浅はかな動きです。確固たる技術戦略も持っておらず、ただ標準化された技術に乗っかるだけです。
ところが、その技術というのが、まだ整理しきれておりません。たくさんの手法、技術、アルゴリズムがあるのですが、万能なものはありません。ディープラーニングが注目されるわけですが、それだけであらゆる問題が解決できるわけではありません。特定の技術でトップを走る先進企業は、確固たる技術戦略が持てるのですが、それ以外の会社は、たくさんの技術に翻弄されるばかりです。
だから、データサイエンティストが天才的な科学者にして敏腕のビジネスマンでなければならない、というようなあり得ない設定になってしまうのではないでしょうか。ちょうどブラック企業がアルバイト従業員に多大な責任を押し付けるのと似た構造です。そういうことのために、多くの人材が使い捨てられるようなことがあるとしたら、とても残念なことです。
人間のやることは、そんなに完璧なものではありません。だからこそ、事業には戦略が必要です。つまり、「これさえやっていたら間違いはない」という確かな拠り所です。
弊社が推しているViscoveryのSOMデータマイニング・アプローチは、90年代に開発された技術で、今となっては流行に取り残された感すらするかもしれませんが、SASやRなどを使ってあれこれと不慣れな手法・アルゴリズムを使いこなそうとするよりも、一本筋の通ったアプローチです。多くの人がブームに翻弄されている今だからこそ見直されるべきかもしれません。

投稿者について