月別アーカイブ 4月 2016

投稿者:

データサイエンティストの根本問題

昨日の記事に続いて、データサイエンティスト問題についてもう少し触れてみたいです。
データサイエンティストにどのようなレベルを求めるかによって、本物と偽物を分ける境界は変わってきます。昨日の記事の元記事の論者は、データサイエンティストが本物の科学者であり、かつビジネスも理解してビジネス上の問題解決を図ることができるという夢のようなことを設定しているようです。そりゃ、そんなスーパーマンは、そんじょそこらにはおりません。
いつも数学のことを考えている人というのは浮世離れしているものだし、毎日忙しく働いているビジネスマンが数学のことなんて考えている暇はありません。それを両立させようというのはかなり難しいことです。実際に採用可能な人材の多くはその中間なので、どちらの能力もさほどぱっとしないということになります。企業はそういう凡人を使いこなしてこそなんぼのものです。そこに必要なのは「戦略」です。
大学院で研究したからと言って、皆が皆、天才的な科学者になれるわけではありません。ほとんどの人は凡人です。もちろん普通の人が知らない専門知識はたくさんあります。ただし、それを知っていても、実際問題にそれがうまくフィットするとは限らないものです。
現在の機械学習の状況を端的に言えば、大学院で研究していたアルゴリズムを使ってコンペに出たら、たまたまそのアルゴリズムの特性とコンペで出題された課題がうまくかみ合って優勝して、大企業から出資を受けてベンチャー企業をスタートアップさせた、というようなことが米国で起きているわけです。そういうロック・スター型のベンチャー創業者が誕生しているわけですが、それはほんの一握りの幸運な人たちです。
つまり、確固たる研究成果があって、(偶然にせよ)それに適したアプリケーションがしっかりと設定できたときにビジネスに結び付きます。そういう場合には、元の研究成果を核として技術開発の方向性(技術戦略)がはっきりと描けます。
しかし、多くのデータサイエンティストが置かれる状況は、そんな理想とはほど遠いようです。つまり、大学院で研究したことは、それはそれとして横に置いといて、機械学習全般の知識を駆使して、採用された会社のビジネスの課題にチャレンジすることになります。
大学院では遺伝的アルゴリズムを研究していたけど、会社に入ると「ディープラーニングが流行りだから、そっちをやれと言われた」というようなことはありがちなことでしょう。それで、また一から勉強しなおして対応します。運がよければ、異なる技術を組み合わせて、新しいものを作り出せるチャンスからもしれません。
しかし、現実はそう甘くありません。なぜなら、そこは大学でも研究所でもなく民間会社です。しかも、数年前までは機械学習なんても見向きもしていなかった会社が、ブームに乗ってデータサイエンティストを採用して新しい部署を設置したというようなところです。組織が新しいことにチャレンジするときには混乱が起きます。上の人間が、その新しい事業テーマについては、ずぶの素人だったりするわけです。そういうビジネスの現場で揉まれることは、ある意味、得難い経験なのかも知れませんが、さてどうなることやら、若いデータサイエンティストたちが過酷な環境で消耗されてしまわないことを願うばかりです。
今現在、日本や世界で起きていることは、ほんの数年前までは、機械学習やら人工知能やらにまったく見向きもしていなかった企業が、力に任せてデータサイエンティストを囲い込んで、ブームに便乗しようという浅はかな動きです。確固たる技術戦略も持っておらず、ただ標準化された技術に乗っかるだけです。
ところが、その技術というのが、まだ整理しきれておりません。たくさんの手法、技術、アルゴリズムがあるのですが、万能なものはありません。ディープラーニングが注目されるわけですが、それだけであらゆる問題が解決できるわけではありません。特定の技術でトップを走る先進企業は、確固たる技術戦略が持てるのですが、それ以外の会社は、たくさんの技術に翻弄されるばかりです。
だから、データサイエンティストが天才的な科学者にして敏腕のビジネスマンでなければならない、というようなあり得ない設定になってしまうのではないでしょうか。ちょうどブラック企業がアルバイト従業員に多大な責任を押し付けるのと似た構造です。そういうことのために、多くの人材が使い捨てられるようなことがあるとしたら、とても残念なことです。
人間のやることは、そんなに完璧なものではありません。だからこそ、事業には戦略が必要です。つまり、「これさえやっていたら間違いはない」という確かな拠り所です。
弊社が推しているViscoveryのSOMデータマイニング・アプローチは、90年代に開発された技術で、今となっては流行に取り残された感すらするかもしれませんが、SASやRなどを使ってあれこれと不慣れな手法・アルゴリズムを使いこなそうとするよりも、一本筋の通ったアプローチです。多くの人がブームに翻弄されている今だからこそ見直されるべきかもしれません。

投稿者:

駄目データサイエンティストのあるある10カ条

データサイエンティストの需要が増大するとともに、「本物」のデータサイエンティストを見つけることが難しくなってきたということで、KDnuggetsでも話題としてあがっています。
で、だめなデータサイエンティストの特徴が10個あげられています。(以下は正確な引用ではなく、私なりの要約です。)
1. チームで動けない

データサイエンティストがチーム内で役割を果たすことができず、賞賛のすべてを一人占めしたいというタイプだと、他の人と上手く働くことができず、ベストな結果が出せません。まあ、当然のことですね。
2. 数学的な知識が乏しい
アルゴリズムやその他の重要なツールを素早く勉強するには、強力な数学の知識が不可欠です。数学に対する熱い情熱を持っていることが、より高いクォリティの仕事につながります。
3. コンピュータ・スキルが乏しい
言うまでもなくコンピュータの上で仕事をするわけですから、コンピュータのスキルは必要です。たとえば、Sparkなどの主要なプラットフォームのどれかについて知識を持っていないだけでもだめな可能性が高いそうです。
4. コミュニケーション・スキルが乏しい
これは日本でもよく議論されるところだと思いますが、最終的に組織の業績に働きかけることのできるコミュニケーション能力がないと、せっかくの分析も役に立ちません。
5. ビジネス知識がない
データサイエンティストが、世間のことやビジネスのことにはあまり興味がないというのはありがちなことです。データ分析によって離反しそうな顧客を識別して、離反させないためのメールを出したら、それがきっかけになって離反したという笑えない話もあるぐらいで、ビジネス経験の欠如は致命的な結果をもたらします。
6. ツールに関する知識が乏しい
Scala、Python、SAS、Matlabなど、ありとあらゆるツール使いこなせないとだめなんだそうです。きびしい〜。
7. SAS一辺倒
SASのコーディングができるだけでデータサイエンティストと名乗るという風潮が海外でもあるようで、特定の高度なツールが使えることと、データを読み取り、分析できるということとは同じではないということのようです。
8. 手を汚したがらない
つまり、きれいでファッショナブルな仕事という上っ面の部分だけで仕事をされたのでは、役に立たなくて困りますよね。日本だけでなく、海外でもそういう人が増えているようですね。「リスクを取る」「ハードワーク精神」ということが必要とされています。
9. 知ったかぶり
物知りな人というのは、データが(自分の知っている)理論とマッチするはずで、自分はいつでもその正しい答えを知っているのだという思い上がりを持ちやすいものです。そういうふうな人は、自分が現実をフィルタを通して見ていることに気づかないものです。
10. 好奇心の欠如
これは好奇心というよりも探求心と言うべきなのかも知れませんが、それがなければ、仕事が形骸化してしまいます。データをそれなりのツールで分析したら分析結果が出てくるというだけの簡単なお仕事になってしまいます。それではその背後にあるお宝にはたどり着けません。
——
以上、10項目なんですが、それにしても、これに当てはまらない本物のデータサイエンティストがいるとすれば、その人は、データサイエンティストという肩書でなくても、立派なお仕事ができる人材だろうと思います。
高望みすればキリがないというか、これによると、現実のデータサイエンティストは偽物ばかりということになりそうです。困ったものです。
まあ、なんというか、Matlabとか大学の研究室でやっているようなことを会社の中でやっていること自体が、何か根本的におかしい気もするのですがね。会社にもよるでしょうが、普通の大多数の会社には、そんなデータサイエンティストなんて要らないとも思います。10年後には「あんな時代もあったね」と笑い話で振り返ることになるような気がしています。

投稿者:

XLSTAT 2016.2

XLSTAT 2016.2がリリースされました。
– データ可視化にモーション・チャートの機能が追加されました。これは散布図上に時間で移動する複数のバブル(円)を表示することにより、複数のオブザベーション(系列)について、3つの変数の時間的変化を同時に表現できます。
– 遅れていたMac用のExcel 2016のサポートが完了しました。
Windowsバージョン Mac OS X 10.8-10.11