年別アーカイブ 2016

投稿者:

XLSTATがMac用 Excel 2016 64ビットに完全互換となりました。

Excel 2016の互換性の問題に困っていた方に朗報です。マイクロソフトによって問題が解決されましたので、Excel 2016 version 16.27がインストールされているなら、Mac用Excel 2016 でXLSTATが問題なく動作します。
下記のリンクからXLSTATのアップデート版をダウンロードしてインストールしてください:
Mac OS X 10.8-10.11

投稿者:

2025年にデータサイエンティストは仕事を失う!?

KDnuggetsに頭の禿げた中年太りのデータサイエンティストがロボットに彼女を奪われている風刺画が掲載されています。KDnuggetsが行った投票では、51%の人々が「10年以内に現在データサイエンティストが行っているエキスパート・レベルのタスクが自動化されるだろう」と答えています。
実際、機械学習アルゴリズムのパラメータ設定をいろいろと変えて性能の良いモデルを探索したり、それらのモデルを組みわせてアンサンブル予測を行うという自動化は、すでに実現されています。これは人間がやるよりも機械がやる方がはるかに徹底的にできます。しかし、これだけでは良いモデルはできないというのもまた真実です。
人間がやらなければならないことの最も本質的な部分は、すでに与えられているデータから現象をよりよく説明できる新しい特徴量(列)を作り出すことです。これには、分析の対象となる領域に関する背景知識が欠かせません。アルゴリズムをあれこれいじるよりも、この方が良いモデルに到達できる可能性が一気に高まります。そして、世間で行われているデータサイエンス・プロジェクトのほとんどで、あまりできていないのが、この部分ではないかと思われます。
個々の機械学習アルゴリズムに関する学術的な情報や、それをより噛み砕いて、手っ取り早くそれぞれの特長や使い方を勉強できるような情報は巷に溢れているのですが、実践的なデータ分析のテクニックに関してはほとんど情報がないに等しいと思います。
このブログでも以前に触れましたが、判別分析の開発のためにFisherが使用したことで有名なアヤメ(Iris)のデータですが、アルゴリズムの性能を評価するためによく使用されるわけで、普通は4つの計測値をそのまま使用します。教科書などにそのような説明が繰り返し出てくるので、ほとんどの人がそれが当たり前だと思ってしまうわけです。しかし、実践的な観点からすると、あのデータはそれぞれの計測値(列)の間の比率を計算して、新しい列を作成すると、アヤメの品種の違いをよく説明するデータが得られます。生物学的なデータではよく使われるテクニックです。
教科書に書いているようなことと実際のデータ分析の間のギャップに気づいて違和感を感じているような人が本当の人材だと思うわけですが、日本の研究者の中にどれぐらいそういう人がいるのか、と考えるとちょっと心配になります。日ごろ、XLSTATやViscoveryのユーザー・サポートで接する大学院生などを見ていると、皆さん、よく勉強されて(教科書的な)知識は豊富なのですが、「知識に依らないで自分で考える」という力が少々心許ない気がします。
写真のなかった時代の科学者に「デッサン力」は欠かせない能力だったろうと想像します。ここでレオナルド・ダ・ ヴィンチの名前を挙げるのは、あまりに巨匠すぎるのですが、彼の時代にはデッサンと科学的探究は切っても切り離せないものだったと想像できます。デッサンというのは、幾何学そのもので、線と線の関係性をあれこれと考察することによって、正確な絵が描けるというものです。デッサンをすることによって、物事を探求する能力を磨くことができます。
現代の科学者は、大学・大学院でそれぞれの分野の専門知識を詰め込むところからスタートします。探求力を磨くような特別な訓練をする機会を逸している人も少なくないのではと想像するわけです。レオナルドが今日の科学者を見たら、彼の目にはどのように映るのでしょうか?
今日、多くの研究分野で「データを集めて統計処理を行って、その結果を論文にまとめる」という研究スタイルが定着しています。極端な話、運が良ければ、教授の指示どおりにデータを集めて、教科書どおりに統計手法を適用して、その結果をそのまま論文に書けば審査にパスしてしまうということもあり得ないとは限りません。
実際は、思ったとおりには研究が進まずに、それぞれ何とか切り抜ける方法を見つけようと苦労されるのでしょうが、その過程でつかみ取るのはいったい何なのでしょうか?必ずしも純粋な科学の探求ではないのかもしれません。
ちょっと話が脱線ぎみですが、教科書的な機械学習アルゴリズムを勉強して、その使い方を知っているというのが「データサイエンティスト」であるとするなら、そのような人材の需要はどんどん先細りするということです。というか、それぐらいのことならサイエンティスト(科学者)ではなく、ビジネスマンにでも十分できます。「Excelが使える」というだけでとくに給料が上がるわけでもないということの延長かと思います。
もっと本当の話をするなら、今注目されている機械学習アルゴリズムのほとんどは、80年代、90年代に研究されてきたもので、それがじわじわと世間に浸透してきて今ようやく花開こうとしているものです。本当の意味での「データサイエンティスト」とは、機械学習アルゴリズムの開発に携わってきた人たちで、歳の頃なら若くて50代ということになります。(その上の大御所の先生たちは、すでに引退されています。)
50代の人間が「あと10年これで喰っていけたらいいなあ」というのが、今のデータサイエンスなので、若い世代の人には、さらに「次のこと」を考えて欲しいものです。

投稿者:

Viscovery 7.0.2 リリース

Viscovery(R) 7.0.2がリリースされました。通常ライセンスを購入されて1年以内のユーザー様、および年間メンテナンス契約をされているユーザー様にはご利用頂けます。
Viscovery SOMine 7.0.2 での改良点
Viscovery SOMine 7.0.2では、バージョン7.0.1で発見された以下のエラーを修正しています。
プロジェクト
– プロジェクト・ファイルが異なる場所にコピーされた後、auxiliaryディレクトリにもそれがコピーされていないと、多くの場合、プロジェクトのコピーが利用できなったのが、現在、より多くの場合でプロジェクトが利用できるように制限が解除されました。
– 選択されたワークフロー・ステップの上でマウスを右クリックしても、ワークフロー・ステップの選択が変化しないように修正しました。
前処理ワークフロー
データ・インポート ステップの属性タイプの定義ダイアログで、隣接しない属性列の集合が選択された場合、属性タイプの変更は選択された最初の属性と最後の属性の間のすべての属性にではなく、選択された属性のみに反映されようになりました。
データ・インポート ステップでのテキスト属性に指定できる長さが確認されるようになりました;長さゼロと100万を超える長さは認められません。とくに、長さゼロはプログラムのクラッシュまたはメモリ不足の状態を引き起こす可能性がありました。
属性の定義ステップで数値を文字列に変換するために式が使用されたとき、欠損値が正しくカウントされませんでした。現在、それらは正しくカウントされます。
属性の定義ステップで複数の数式が定義され、それらの位置が交換されて、複合選択を使用してそれらの複数を一気に削除た場合に起きるエラー・メッセージが避けられるようになりました。
– ユーザーがヒストグラムの調整ダイアログのサブ・ページの間をナビゲートされているとき、ときどきデフォルトの勾配とオフセットが表示されない問題が解決されました。
ヒストグラムの調整ステップで定義された置換が、そのステップから呼び出せる統計ウィンドウでは無視されていた問題(データがモデルの計算に使用されるときには、その置換は正しく適用されていましたが)を解決しました。
– データ・ソース内で属性が異なる順序に並べ替えられた場合、ヒストグラムの調整ステップで定義された変換が、統計ウィンドウでは間違った属性に適用されていた問題(データがモデルの計算に使用されるときには、その変換は正しく適用されていましたが)を解決しました。
チャート
– X軸上のラベルが読みやすくなるように少し離して並べられるようになりました。
– 散布図のX軸の名義属性のラベルがプロット内のポイントと位置合わせされました。
チャートのプロパティ ダイアログの範囲タブ内の境界の編集ボックスが、たくさんの0や9を引きずる数字を避けるために、より少ない小数位に丸められるようになりました。
SOMモデルの取り扱い
編集 | ラベル | フォント で最近選べれたラベル・フォントが、そのメニュー・オプションを再び開いたときに、第1選択として使用されるようになりました。フォントがセッションやSOMをまたいで記憶されます。
– マップ・ピクチャ上で示されるラベルが、左端や右端で切り捨てられることがありましたが、それが起きなくなりました。
– プロセス・モニタ(表示 | モニタ メニューから使用可能)が最後のレコードに到達したとき、モニタリングがクリアされていたのを、現在は、モニタリングは停止するものの軌跡は表示されたままになるように修正されました。

Explore and Classify モジュール

プロファイル チャート内の中間生成物の描画が消去されました。
– 分類ワークフローのアプリケーションの確認ステップで最初に選択された属性が、モデル内でマークして表示されるだけでなく、そのワークフローで使用されたモデル内のすべての属性から選択されるようになりました。
分類ワークフローでとても長い名前を持つモデルが選択されると、分類のエクスポート・ステップのダイアログの最初のページを抜けられなくなる問題が修正されました。
分類ワークフローのモデルの選択ステップでローカル回帰モデルが選択されたとき、アプリケーションがクラッシュするのを避けられるようになりました。
分類ワークフローのモデルの選択ステップで、整列つきのモデルが選択されたとき、ユーザーが異なる整列に切り替えると(このステップで生成された)最初の2つの新しい属性のカラースケール範囲が度数と量子化誤差ピクチャーから取られ、(そして、度数量子化誤差ピクチャーのカラースケール範囲がデフォルトにリセットされる)という問題がありました。現在は、度数量子化誤差ピクチャーの範囲は保持され、新しい属性はデフォルトの範囲を受け取ります。
Predict and Score モジュール
グローバル・モデルの計算ステップのダイアログで指定された信頼水準が、保持されるようになりました。
Viscovery One(2)One Engine 7.0.2 での改良点
Viscovery One(2)One Engine 7.0.2 では、バージョン7.0.1で発見された以下のエラーが修正されました。
– モデル・ファイルのファイル形式が、より徹底的にチェックされるようになりました。
– Linuxバージョンが、属性名、名義値、クラスタ名、クラスタ説明、セグメンテーション名で非ASCIIデータを含むモデル・ファイルをより良く処理できるようになりました。
– 後処理の数式が、他の後処理の数式の結果に依存(すなわち、“call”)できるようになりました。 呼び出された数式がエラーを返すとき(たとえば、ゼロ除算)、この結果は呼び出している数式で欠損値として取り扱われるべきです。そのようなケースが正しく取り扱われませんでした:全体の計算が直ちに終了し、欠損値が返されていました。現在は正しい動作が可能です。呼び出している数式が欠損値について結果をチェックして、それに従って動作するレア・ケースでは違いが生じます。クラスタの数式がAPI関数 O2O_GetNodeFormulaNumber, O2O_GetNodeFormulaString, O2O_RecallFormulaNumber, O2O_RecallFormulaStringを用いて計算されます。
– Linuxバージョンでは、ライセンス・ファイルのロケーションを環境変数ONE2ONE_REGISTRYで選択できるオプションが追加されました。

投稿者:

機械学習エンジニアが知っておくべき10のアルゴリズム

KDnuggetsの記事ですが、知っておくべきアルゴリズムは、
1. 決定木
2. 単純ベイズ分類器
3.(通常の)最小2乗回帰
4. ロジスティック回帰
5. サポートベクターマシン
6. アンサンブル手法
7. クラスタリング
8.主成分分析(PCA)
9.特異値分解(SVD)
10.独立成分分析(ICA)
だそうです。
つまり、1から5までは教師ありで、クラス分類または予測の手法です。アンサンブル手法というのは複数の分類器を使って、分類性能を上げる手法です。残りの4つが教師なしの手法で、データを分析して、内在する構造を理解するための手法です。
このうち、1,3,4,7,8は、一般的な統計解析ソフトにも搭載されているはずです。ちなみに弊社のXLSTATでは、1,2,3,4,5,7,8が利用できます(もちろん、それ以外の機能のほうがたくさんあって、むしろ、これらは一部の機能に過ぎません。)
ただし、クラスタリングに関しては、新しい手法がさまざまあるのですが、統計解析ソフトに搭載されているのは伝統的な手法に限られます。(クラスタリングに関しては、クラスタリングの結果を得るだけではあまり意味がなくて、各クラスタの統計的特徴を分析するところまでやるべきなのですが、それを効率化できるツールというのは、Viscovery SOMine以外にはあまり見当たらないと思います。)
目下、「機械学習」ブームで、機械学習が昨日今日降って涌いてきた新しい技術であるかのように世間では捉えられていそうなのですが、実際のところ、上記のほとんどは(専門家の間では)何10年もおなじみの技術です。しかも、膨大な数の手法の中の代表的なごく一部にすぎません。
特異値分解は、行列分解の手法で主成分分析とほとんど似たような手法、というか特異値分解によっても主成分を求めることができます。つまり、特異値分解で主成分分析を実装することができます。
独立成分分析も主成分分析と似ているのですが、こちらは主成分分析とはちょっと違う方向のことをします。いわゆるカクテルバーティー問題という種類の問題を解きます。つまり、複数の人がワイワイガヤガヤしゃべっているような状況のそれぞれの音声信号を分離するというイメージです。たとえば、売上の変動をいくつかの変動要因に分解するというような分析にも応用できます。
独立成分分析は、上記の10個の中で最も新しい手法で、21世紀初頭にホットな研究テーマとして注目されました。(これですらもう10数年も経っています。)独立成分分析の第一人者として、ヘルシンキ工科大学のヒバリネン先生が挙げられます。今後、商用の分析ツールにも独立成分分析が搭載されてくるのが待たれます。

投稿者:

XLSTAT 2016.5リリース

XLSTAT 2016.5がリリースされました。主な新機能は下記のとおりです:
PLS 回帰: 全体的な性能と正確度が著しく強化されました。すべてのXLSTAT ソリューションで利用可能です。
コンジョイント分析と選択ベースコンジョイント: 出力をより素早く操作するための複数のオプションが可能になりました。コンジョイントおよびCBC分析ダイアログ・ボックスで自動記入を可能にする新しいショートカット・ボタンが実装されました。ターゲット製品の属性を変更すると、マーケット・シミュレーションが直接更新されるようになりました。XLSTAT-Marketing および XLSTAT-Premiumで利用可能です。

投稿者:

ノーフリーランチ定理と事前知識

no-free-lunch theoremについてWikipediaより、
「数学的にありうべき全ての問題の集合について、どの探索アルゴリズムも同じ平均性能を示すこと」
「探索アルゴリズムに必ず何らかの偏向があるため、そのアルゴリズムが前提としている事が問題に当てはまらないことがある」
「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能であり、ある戦略が他の戦略より性能がよいのは、現に解こうとしている特定の問題に対して特殊化(専門化)されている場合のみである」(Ho and Pepyne、2002年)
「問題領域に関する知識を使わずに遺伝的アルゴリズムや焼きなまし法などの汎用探索アルゴリズムを使うことに反対する論拠」
あるいは、朱鷺の杜Wikiより、
事例の分布などについて事前知識がなければ, あらゆる目的関数について他を常に上回るような学習アルゴリズムは存在しないという定理」
ということですが、これはモデルを作成するときに「問題領域に関する知識(事前知識)」を使わないで、アルゴリズムまかせにすることの愚を指摘していると捉えるべきかと思います。
それがどういうわけか、「たくさんの種類のモデリング手法(機械学習アルゴリズム)を網羅的に試して、その問題に最も適した手法を探さなければならない」というふうに読み違えられているような気がします。それで、SASがよいか?Rがよいか?はたまたPythonか?ということなのですが、実際使ってみると、どうもうまくモデルの精度が上がらないというのが、最近の傾向かと思います。
私は何度も口酸っぱく言っているのですが、それぞれの手法はどれか1つでも深く勉強すれば、それだけで研究者になれるぐらい奥が深いものです。たくさんの手法を上っ面だけ勉強して、あれもこれも使おうとしたら、どれもこれも初心者レベルを脱することができず、実践的な結果は何も得られないということになります。
そこで悪知恵の働く人々は、「機械学習は幅広く深い専門知識が必要ですから、専門家の指導を仰ぎなさい」と言って、企業からたんまりとコンサルティング料をせしめています。大きな会社がそういうビジネスをやっていると、つい信用してしまいそうなのですが、SASやR、Pythonのような基礎的ツールで実践的な結果の出せるデータサイエンティストというのは、世界中探してもそうたくさんはいないと思います。
データサイエンティストを数10人とかそれ以上も擁しているデータサイエンティストの派遣会社というのもあるのですが、実際そこに在籍している人材のほとんどは、ほぼ経験のない人ばかりです。これは、(海外ではありえないことですが)コンピュータの知識を持たない文系SEというのが跋扈する我が国のシステム開発の伝統をそのまま引き継いでいます。
どんどんと本質から外れて、金食い虫になってしまうのがオチです。
あれもこれも、たくさんのツール・手法を使いないこなせることよりも、問題領域に対する洞察力が重要です。といっても、これも「どうすればそのような洞察力が得られるか?」という問題は残るのですが。
たとえば、数千点とか数万点の商品があって、特定の商品の販促を行う際に、ほかの商品の購入履歴から、目的の商品を購入しそうな顧客を見つけよう、という問題に取り組むとします。アソシエーションルールがよいか、線形回帰がよいか、あるいはロジスティック回帰か、あるいは単純ベイズか、というような議論になりがちです。
ここで、「どの商品とどの商品を購入しているかの組み合わせパターン」に着目するのは当然のことなのですが、たとえば「購入の合計金額」という新しい説明変数を追加することによって、リフト・チャートが劇的に改善されることがよくあります。なぜなら、消費者は個々の購買力によっても、購買行動のパターンが異なるからです。
問題領域の知識(事前知識)を活用するとは、こういうことです。モデリングの手法にどれを選ぶかよりも、こういうことの方が大きく結果に影響することがあります。
このような知識を使わないでアルゴリズムまかせにするアプローチとして、「潜在クラス回帰」があります。ユーザーが「購入の合計金額」という新しい変数を計算しなくても、購買履歴データから自動的に「購買力」をクラス分けして、層別のモデルを作成するはずです。今のところの私の感触としては、潜在クラス回帰を使用するよりも、「購入の合計金額」というような特徴を抽出できるなら、その方が効率的です。
このような特徴を抽出するのは、ちょうど幾何学の問題を解くときに「補助線」を発見するのが重要な糸口になるのと同じようなことかと思います。
弊社がSOMアプローチのデータマイニングを提唱する理由は、こういうところにあるのです。ViscoveryのSOMローカル回帰が他のどの手法よりも優れているということはありません。SOMローカル回帰が意図しているような非線形性がデータに内在する場合は、ドンピシャですぐれた結果をたたき出します。しかし、当然、データによっては、通常の線形回帰とそれほど変わらないということもよく起こります。つまり、それがノーフリーランチ定理で示されているのと同じ状態です。
しかしながら、SOMアプローチの他と異なるところは、「腹の底からデータを理解できる」というところです。解決の糸口、注目するべき特徴を見つけるためのツールです。

投稿者:

ビッグデータ・プロジェクトはなぜトラブルのか?

それは、応用統計学を忘れているから。
Johns Hopkins大学のJeff Leekという人が警鐘を鳴らしています。
ビッグデータに関する主要なワークショップのいずれでも、統計の専門家がほとんど参加していないということが指摘されております。ビッグデータ・プロジェクトで統計学が軽んじられているのには、2つの側面があると私は考えます。
– 1つは、とにかく大規模なデータの取り回しや計算の高速化(並列化)などに技術的関心が置かれた情報が拡散されていて、ユーザーは分析技術にはあまり重大な関心を置いていない傾向があること。
– もう1つは、ビッグデータ・プロジェクトで使用される機械学習でも、もともと統計学から距離を置いたところで研究されてきた経緯があって、両者の間での理解が進んでいないこと。
私は1999年から2005年ぐらいまでの間、自己組織化マップ(SOM)の学術コミュニティとも親交を持っていたのですが、まさにそこで見たのは2番目の状況でした。実際のところ、学生でも知っているべき統計の基礎を無視したような研究をやって、高い学位が授与されている現実を見て呆れたものでした。
あるとき海外から著名な著者を招いて、大学で講演会を開いたことがありました。英語での講演なので、教授が講演内容を逐次通訳していました。しかし、教授がその通訳の中でcentral limit theorem(中心極限定理)を何かわけのわからない日本語(中心制限理論とか何とか)で言った瞬間、聴衆の中の何人かは首を傾げたり、ずっこけたりしていました。
自己組織化マップに関しては、Viscovery SOMineが自己組織化マップの理論と従来の統計学の双方を深く理解したうえで、矛盾のない統合的な実装を実現している市場で唯一の製品です。

投稿者:

XLSTAT 2016 日本語マニュアル

XLSTATの2016年版の日本語マニュアルは、こちらからダウンロードできます。オフィシャルサイト(www.xlstat.com)の方でも近日中にはダウンロードできるようになる予定です。

投稿者:

XLSTAT 2016.4 リリース

XLSTATの最新バージョン2016.4がダウンロード可能になっております。このバージョンでは、結果のシートからワンクリックで分析を再実行するボタンが加えられました。これはすべてのソリューションで利用可能です。
またパネル分析では、独自の線形モデリング・アルゴリズムによって、高速な実行を実現しました。これは、XLSTAT-Sensory、XLSTAT-Marketing、XLSTAT-Premiumで利用可能です。

投稿者:

CATA分析のチュートリアル

CATA分析のチュートリアルを修正しました。
この分析は、一般消費者の選好データから製品が持つべき特性(機能)を細かく割り出すための手法です。