月別アーカイブ 11月 2014

投稿者:

XLSTAT 2014.6 リリース

XLSTAT 2014.6がリリースされました。主な追加機能は、下記のとおりです。
– XLSTAT-Pro: ANOVAポストホック検定の”保護”オプション。
– XLSTAT-Pro: ANOVAでの上部/下部の2/3ボックスの表示を含む新しい結果の表
– XLSTAT-MX: 官能識別検査の機能
– XLSTAT-LG: XLSTAT-Proと同等な価格の新モジュール。潜在クラス・クラスタリングおよび回帰を実行できる。
XLSTAT-LGモジュールは、この分野で基準ソフトウェアとなっているLatent Goldの開発元であるStatistical Innovationsとの提携によって開発されました。

投稿者:

戦略的意思決定をデータサイエンティストに丸投げする愚行

世間でバズワード化している「データサイエンティスト」が本当の科学者ではないという話を書きましたが、仮にそのデータサイエンティストがちゃんと勉強をして、高度な分析技術を身に着けたと仮定しても、必ずしもそれが企業の役に立つわけではありません。
もちろん、一定の条件を満たせば十分に役に立つことが期待されます。それは、データサイエンティストと経営管理者などの意思決定権限者とが、十分にコミュニケーションがとれていて、利用可能なデータ分析技術で解決が可能な課題が明確に与えられる場合です。しかも、その課題は、戦略レベルの問題ではなく、戦術レベルに限定されなければなりません。
世間では安易に「戦略的情報」などと言う言葉が使用されることが多いのですが、その多くは「とても価値のある情報」というぐらいの意味で使用されることが多く、「戦略経営」の観点からの厳密な意味での「戦略」を意味していないようです。しかし、戦略経営の観点で言えば、企業の戦略を決定するのは、社長および取締役らによらなければなりません。
もし、そんな意思決定をビジネス経験の浅いデータサイエンティストに丸投げするような会社があれば、10年後もその会社が存続しているかどうか怪しいものです。
多くのデータマイニング・システム・ベンダーが、「予測分析(Predictive analysis)に重点を置いているのは、そのような理由もあると考えられます。予測モデルの場合、課題の定義が単純ではっきりしているからです。また、それほど特別な技術を使わなくても、たいていの場合、何もしなかったときよりも確実に改善を得ることができます。そして、モデル品質を比較する基準も明確なので、より良いモデルが得られるように努力する方向も明確です。
しかし、明確な課題を与えずに、社内に蓄積されたデータや(最近流行りの)オープンデータを用いて、「何かわかることがないか?」「何かに役立てられないか?」というような取り組みをデータサイエンティストにさせようというのは、あまりお薦めできません。
100人のうち何人かは、誰に教わることもなく、優れた経営感覚を持っているデータサイエンティストがいなくはないと思います。運よくそういう人材を採用した会社は、救われるかもしれませんが、そうでない場合は、ろくな成果も上がらない部門に余計なコストがかかるだけの結果になります。
会社のシステム部門が「金食い虫」と言われ続けたことを想起するデジャビュ体験です。仮に救われたとしても、その会社の経営陣は責任放棄しているに等しいです。本来は、経営陣が考えなければならないことを科学者に丸投げして、そのご託宣を仰ぐということで良いわけがありません。
セグメンテーションには経営陣が関与するべき
とくに経営陣が丸投げしてはならないのは、製品・市場・顧客などのセグメンテーションの問題です。たとえば、顧客をどのようにセグメンテーションして、どのセグメントを自社のコアなターゲット顧客と考えるか?そして、どのセグメントを戦略的に打って出る「戦略ドメイン」と考えるか?は、経営陣が考えるべきことであって、データサイエンティストに丸投げするべきことではありません。これは、まさに戦略的な課題だからです。
つまり、これからの時代は、「データに基づいてセグメンテーションを考える」という作業に経営者自身が参加しなければならないのです。
しかし、「経営者自身が先端の分析技術を勉強するなんてナンセンス」と反論されるかもしれません。ご心配は無用です。ヨーロッパの一部の企業の経営者は、もうそのレベルをクリアしております。
Viscoveryでは、セグメンテーション・モデルを作成するところまでのテクニカルな作業は、会社のIT部門やデータ分析ツールの操作担当者(それを「データサイエンティスト」と呼ぶなら呼んでも結構です)が補佐して行うことができます。そこから先、セグメンテーションをいろいろといじってみて、ターゲット・グループを決定することは、意思決定権を持つ経営管理者が十分に行えます。どのターゲット・グループにどの施策を適用するべきかを意思決定権限者の判断のもとで決定すると、それをデータベース全体に適用したり、実行系システムでリアルタイムに適用するためのテクニカルな作業は、また社員が担当すればよいことです。
重要な点は、Viscoveryを使用すると、本来、経営陣が意思決定しなければならいことを「データ分析」の名のもとに、決定権を有しない社員にうやむやなうちに委ねてしまうという愚行を避けることができる、ということです。
まったく心配はいりません。経営陣が、先端のデータ分析技術を勉強するなんて必要は一切ありませんから。

投稿者:

総花的データマイニングの終焉

「データサイエンティスト」と呼べるような人は、本来は、統計解析や機械学習、人工知能などを研究している(いた)科学者であるべきなのですが、それが「データ分析者」のことになってしまった経緯をもう少し詳しく述べます。
それは従来のデータマイニング・システムが、科学者でなければ使いこなせないような難しいものだったからです。
伝統的な統計解析ソフトウェアのベンダーが、初期のデータマイニング・システムを売り出したことが、データマイニング・ブームに火をつけました。統計解析ソフトウェアというのは科学者のためのツールです。医学、生物学、農学、栄養学、心理学、社会科学、工学といった分野で統計解析が使用されます。これらの科学者は、とくに統計学を専門に勉強しているわけではありませんが、科学者の共通言語として統計学が位置付けられております。したがって、科学者はそれなりに勉強して、統計解析ソフトウェアを使いこなせるように努力しています。
企業でも戦後、生産部門において「科学的管理手法」が導入されて、生産管理・品質管理の分野で統計解析が導入されました。私は、その年代よりも後なので当時のことは知りませんが、初期は「科学的管理」というスローガンのとおりに科学的色彩が濃かったものと想像します。ついで、マーケティング部門でも統計解析が導入されるようになってきました。これも初期は、社会科学や心理学の研究の中で統計解析を使った経験を持つ人が、企業に持ち込んだものと思われます。
(しかし、企業内で統計解析が広まるに伴って、あまり正しく使用されていない場合も増えてきているのは、他の記事でも述べたとおりです。)
伝統的な統計解析ソフトウェアのベンダーが、従来の統計解析の枠組みを超えて、人工ニューラルネットワークや機械学習アルゴリズムを搭載したソフトウエアを「データマイニング・システム」として売り出したとき、その基本構造は従来の統計解析ソフトウェアの構造を継承しました。

総花的データマイニングの限界

つまり、統計解析ソフトウェアというのは、記述統計から検定、多変量解析に至る膨大な数の手法の集積です。個々の手法・アルゴリズムが関数として実装されており、ユーザーはさまざまな関数を呼び出して、それらを組み合わせて一連の分析手順を組み立てます。
これと同様、従来のデータマイニング・システムは、従来の統計解析に加えて、新しいアルゴリズムが実装されたものであり、やはり、ここでもユーザーは自分で分析手順を組みたてなければならないのでした。ただし、それを「アイコンをつなぎ合わせるだけでプログラミングの必要なしにビジュアルに操作できる」ということをセールスポイントにしていました。
さまざまなデータマイニング用の手法・アルゴリズムが実装されており、万能なシステムであるかのように見えるのですが、それを本当に使いこなすには、個々の手法・アルゴリズムについての<科学的知識>が必要です。もちろん、ソフトウェアなので内部の計算の詳細にまでユーザーが意識をしなくても、計算そのものは正しく行われます。しかし、個々の手法・アルゴリズムの特性を理解して、的確に使用するには、最低限の知識は必要です。
それが1つや2つのことであれば、素人でもなんとか勉強できますが、たくんさんの手法・アルゴリズムが総花的に実装されていて、それらをすべてを理解することは、素人には不可能です。データマイニングの解説書が多数出版されましたが、どれも表面的な内容で、「わかったつもりになれる」というレベルのもので実践的な内容ではありませんでした。
そりゃ無理です。データマイニングに使用されるさまざまな手法は、どれか1つでもちゃんと勉強したら博士になれるぐらいです。そういうものを素人が、あれもこれも使いこなせるはずがないのです。

データサイエンティストの実像

なので、従来のデータマイニング・システムを本当に使いこなせるのは、その中で使われているアルゴリズムについて、大学院で専門的に研究していた人(あるいは研究のアシストをしながら勉強をしていた人)に限られるのです。
そんなデータマイニング・システムを一般の企業が数千万円もかけて導入しても使いこなせる人がおりません。だから、力のある一部の企業は、本当にデータマイニングの経験のある本物の科学者を採用します。それが「(企業内)データサイエンティスト」の始まりです。
ところが、本物のデータサイエンティストはそんなに大勢おりません。高額なデータマイニング・システムを導入した企業のほとんどで、ちゃんとした成果が得られていないのが現実です。
それで、出てきた発想が「データマイニング技能者を育成する」ということです。ここで「データマイニング技能者」と言ってもあまり魅力的に聞こえないので、「データサイエンティスト」に昇格させて、「あなたもデータマイニング・システムの使い方を習ってデータサイエンティストになりませんか?」というキャンペーンを展開中というわけです。
全体の底上げという意味では効果がないわけではないでしょう。勉強すれば、少しはマシな使い方ができるようにはなるでしょう。しかし、そんなお手軽なデータサイエンティストにプロフェッショナルな仕事を期待できるものでしょうか?答えは明らかに「ノー」です。

一点突破のデータマイニング・アプローチ

そもそも話を元に戻すと、従来のデータマイニング・システムの最大の欠点は、「総花的なアプローチ」にあります。
データマイニングには、さまざまなアプローチがあるのですが、従来のベンダーは優等生的に、そのすべてをカバーしようとしているので、個々のアプローチに最適化された製品ではないのです。
Viscoveryは、従来のデータマイニング・ベンダーとは対照的に、SOMアプローチに特化しています。「SOMなら従来のデータマイニング・システムにも搭載されている」という誤解が多いのですが、その実装レベルは天と地ほど違います。
Viscoveryは、SOMアプローチのデータマイニングを提唱しておりますが、それはSOMだけしか提供されていないということではありません。データマイニングの技術体系をSOMを起点にして組み替えて、一貫性のある技術体系を提供しているのです。
難しい状況を打破するときの作戦として「一点突破」ということがあります。勉強嫌いの子供が、何か1つ得意な科目を獲得すると、そこから一転して、他の科目でも成績が上がっていくということがあります。
あらゆる物事はつながっています。バラバラではありません。企業がデータマイニングをものにするにも、一点突破の作戦は有効です。

投稿者:

ハイパー(偽)データサイエンティスト増殖中

最近の某産業新聞では「データサイエンティスト(データ分析官)という表現が目につきます。いつからデータサイエンティスト=データ分析官という定義に変わってしまったの?と首をかしげてしまいます。ほんの数年前までは、「データ分析官(データマイニング技術者)」という記事を多く目にしたものです。つまり、この新聞の用語では、データサイエンティストも、データマイニング技術者も、データ分析官も同じことのようです。無意味に言葉を言い換えるのは、言葉遊びです。
海外ではData MinerとかData Scientistという言葉はよく使われていますが、日本で使われている「データ分析官」に相当するような英語(無理やり訳したらData analyzing officerになると思いますが)を私は知りません。たぶん、この言葉を広めたのはデータマイニングの受託サービスをしている某会社の社長さんなのですが、私が思うに、これは彼の造語であり、もともとそんな言葉はなかったと思います。「データ分析技能者」で良いところをわざわざ「官」の字を入れたのは、その会社が、さも特別に公的な権限を持ってデータマイニングの仕事をしているようなイメージ(つまり、もぐりではないこと)を演出したかったからだと思います。
個別の会社が勝手に「データ分析官」を名乗るぐらいのことは、とくに何の問題もありません。ある程度の見識を持つ人から見れば「ああ、イメージアップに懸命なんだな」で済むことです。しかし、新聞記者がそのお先棒まで担ぐのはちょっと困りものです。新聞記者が取材の中で「Data Miner=データ分析官」という説明を受けて、それを鵜呑みにしてしまい、今度はまた「Data Scientist=データ分析官」と言い換えられても、それをそのまま、何の疑問も持たずに記事にしてしまっているのは、何とも情けない限りです。自分が歳をとったせいもあるのかもしれませんが、新聞記者のレベルがかなり落ちているように感じてなりません。
大事なことなのでもう一度強調しておきますが、「データ分析官」という言葉はありません。「データサイエンティスト」は「データ分析官」でもありません。
「データ分析官」という語にはとても嫌な違和感を感じるので付け加えますが、データ分析の機会は万人に開かれているべきであり、けっして官によって規制されたり利権化されたりしてはなりません。
Data Minerは、「データマイニングをする人」であり、したがって、「データマイニング技術者」とか「データマイニング技能者」と訳すのは可能だと思います。Data Scientistは、カタカナで「データ・サイエンティスト」です。ここで重要なのはScientistとは、日本語で「科学者」ということです。ですから「データ科学者」と訳すのが正しい訳し方でしょう。
ただし、英語でのData Scientistも”just a media hyped title”(単にマスコミがでっち上げた肩書き)に過ぎません。もともとのイメージではあくまでも「科学者」なので、統計学か数学か、あるいはコンピュータ・サイエンスなどの分野で、最低でも修士以上の学位に相当する学識を有するというイメージでした。それが、データ分析に関する何等かのコースを履修したらData Scientistと自称できるという風潮が英語圏でも広がっているようです。詳しくは、こちらをご参照ください。
大学院でニューラルネットワークとかその他の機械学習テクノロジーの研究をしていたような人が、大学でポストを得る代わりに、Googleのような先端企業に入って研究を続ける人もいるわけです。基礎研究のテーマだったものが応用・実用化の段階に移行して、科学者の新しい就職口として企業がクローズアップされるようになってきたわけです。それが企業でデータ分析をする人がデータサイエンティストであるかのように意味が転じてしまい、さらには「データサイエンティスト」という肩書をでっちあげて、それになるためのコースやら資格認定やらを商売にしようと画策する会社や団体が出てきたのが昨今の状況です。
日本でも「データサイエンティスト協会」などという団体が設立されてしまっています。説明するまでもなく、この協会は科学者の団体ではなく、「データ分析技能者協会」と称したほうがよさそうな中身です。どうせ「自分の(会社の)都合の良いように世間を誘導したい」という人たちが作っている団体なので、弊社はまったくノータッチです。
マスコミに頻繁に登場する自称・脳科学者の何人かは、地道な実験等は何もしていない「ノー科学者」なのに、それに対する批判がまったく報道されないぐらいなので、科学者が作ったデータ分析用ソフトウェアを使うだけで「サイエンティスト」を自称できてしまっても、そりゃ文句を言えません。ノー科学者よりかは、はるかに地道な仕事をしていることは確かです。世の中、肩書のインフレーションだらけです。
そういうことなので、昨今マスコミでもてはやされる「データサイエンティスト」は、「データ分析技能者」と脳内変換して解釈しなければならないのですが、それが流行の最先端を行く花形職種だというのもまた大うそです。
かつて、プログラマーやSEが花形職種としてもてはやされたものですが、現在の惨状を見れば、もはや説明の必要もないでしょう。独自の製品を開発できる一握りの天才的なプログラマーは巨万の富を得ましたが、何を開発すればよいかわからず、単にコンピュータの知識だけで仕事をしようとしたプログラマーやSEは、今やしがない派遣労働者でしかありません。データ分析のスキルだけで仕事ができると思っている人がいるとしたら、そういう人はたぶん派遣どころか早晩失業の憂き目に遭うことでしょう。「英語ができる」というだけでは、大して仕事には役に立たないのと同じようなことです。
本物のデータサイエンティストとハイプ(hype:誇大・インチキ・ほら吹き)なデータサイエンティストは、月とすっぽんです。ちなみに、かつてHyper Media Creatorという肩書の人がおりましたが、Hyper Mediaというバズワードが死語となった今では、「ほら吹きなメディア制作者」という意味でしか通用しなくなっております。ですから、昨今のにわかデータサイエンティストも「ハイパー・データサイエンティスト」と名乗っておけばよいと思います。
もともとのデータサイエンティストの意味からすれば、統計解析や機械学習、人工知能などを用いたシステム(たとえば、次世代のデータマイニング・システム)を開発している人こそが、本物のデータサイエンティストなわけですが、そういう人たちが現在開発しているのは、もはや偽データサイエンティストのためのシステムではありません。
本物のデータサイエンティストが目指しているのは「マインドウエア」です。すなわち、(経営者などの)人間の「判断」をモデルできるシステムです。それは、単純に「コンピュータによって判断を自動化する」ということを超えて、経営者の「マインド(戦略)」を会社の隅々にまで行き渡らせて、個々の取引または顧客対応のレベルで実行可能にします。たとえば、弊社が取り扱っているViscoveryがそれです。
Viscoveryのような本物のデータサイエンティストが開発したシステムは、そのユーザーに(本物または偽物の)データサイエンティストであることを要求しておりません。

投稿者:

Hugin 8.1 日本語GUIファイル

先日リリースされたHugin 8.1の日本語GUI用ファイルをこちらにアップしております。
使用方法は、Hugin 8.1がインストールされたフォルダに「i18n」というフォルダを作成して、上記からダウンロードしたzipファイルを解凍して、中身のjp_JP.xmlファイルを置くだけです。
Huginソフトウェアを起動して、オプション/プリファレンスから、プリファレンス・ウィンドウを開いて、言語フィールドで「jp_JP」を選択します。変更の結果は、次回Huginソフトウェアを起動したときに反映されます。
ご不明な点はマインドウエア総研にお問い合わせください。