投稿者アーカイブ Kunihiro TADA

投稿者:Kunihiro TADA

見直されるViscovery SOMine

ここ数年吹き荒れたディープラーニング&AIブームで、弊社が推しているViscoveryは影の薄い存在になっておりましたが、ここにきて再評価されつつあります。

結局のところディープラーニングもそう簡単なものではありません。たくさんのパラメータ設定を試行錯誤しなければならず、それでいて、ディープラーニングで生成されるモデルを人間が理解できないという致命的な欠点があることに、多くの人が気づきはじめたようです。

もちろんGoogleのようなシステム開発力のある企業にかかれば、ディープラーニングを使って、これまでに存在しなかったようなアプリケーションやサービスを産み出すことも夢ではないでしょう。しかし、多くの企業が必要としているのは、そんなことばかりではありません。ほとんどの企業が解決するべき課題は、伝統的な機械学習や統計手法でとっくに実現されていたことばかりなのです。

すでに2000年頃には、そうした技術が出そろっていたのですが、そのユーザーとなるべき企業の人々の頭の中がそれに追いついていなかったので、せっかくの技術が有効に産業利用されるには至らなかったわけです。そこにディープラーニング&AIブームが起きて、人々の意識がこちらに向いてきたことは、結果的に良いことでした。

ディープラーニングを使えば、いわゆる「特徴エンジニアリング」と呼ばれるデータ加工を経ずにモデルを構築できるとされるのですが、一方、SOMに代表されるような従来的な手法では、その工程が欠かせないばかりか、それこそが成功のカギになります。

SOMを使ったデータ・モデリングの過程は、ユーザーにとっては「データ理解」そのものです。人間が人間である限り、多次元データを把握することは不可能です。SOMによる多次元データの可視化も一種の方便のようなものではありますが、他のどの手法よりも、多次元空間の様子を人間が理解するのに強力な方法です。

ディープラーニングの限界から、最近では説明可能AI(XAI: explainable AI)という議論もされているようです。ユーザーの「なぜ?」という問いに、自然言語で回答してくれるような(まさにドラえもんのような)AIが理想形でしょう。

しかしながら、そこで「待った!」がかかります。そもそも知識(knowledge)というものが言葉で表現できるものばかりではないからです。それは60年代のパターン認識の研究(今日の機械学習アルゴリズムの先駆け)の段階からわかっていたことなんです。AIでなくても、人間でも、たとえば、人の顔を見て誰の顔か判断できたとしても、その方法を言葉で説明することなんてできないのです。

そのような言語以前の判断力を、マイケル・ポランニーはtacit knowledge(暗黙知)と呼んだのですが、残念ながら日本のマネジメント界では90年代にこれを大きく曲解して、似非科学的ナレッジ・マネジメントを流行させてしまった罪深き過去があります。

SOMは、人工ニューラルネットワークの観点から見ると、あるいはディープラーニングと比較すると、それほど高度なものではないのですが、この非言語的なナレッジを可視化して、人間が理解するにはとても理に適った手法です。

ほとんど企業の実践的な問題解決には、ViscoveryのSOMテクノロジーが役に立ちます。

 

 

 

投稿者:Kunihiro TADA

Viscovery SOMine 7.2 Data Mining Suiteの新機能

Viscovery SOMine 7.2では、下記の機能が追加されました。さらに、バージョン 7.1.1. から発見されたエラーが修正されました。

全般

– テキスト・ファイルからのデータ・インポートがかなり速くなりました。
– 属性の定義ステップで名義変数が定義されるとき、大文字小文字を区別しないオプションがデフォルトでオフになりました。これは大文字小文字に鈍感なことが望まれない場合に性能が勝ります。
– 正規表現に関する名義変数の処理がかなり速くなりました。
– 属性の重みづけの設定が異なるデータを使用するワークフロー・ブランチで再利用されるとき、設定のない属性の重みは、1ではなく0で初期されるようになりました。これは、追加の属性を持つデータで同じマップを計算したい場合に便利です。
– 属性の割り当てダイアログの使い勝手が改善されました: 一覧がほぼ比例的にサイズ変更されて、未使用の属性名の一覧は >> ボタンをクリックした後、元の順序のままになります。
– クラスタの特徴ウィンドウは、いくつかの場合、表示の最上部にスクロールします。
– クラスタの特徴ウィンドウ(水平バー)の左側のリストで属性の順序が、マップ・ウィンドウやその他でも使用されている一般的な属性の順序に従うよになりました。
– ワークフロー・ステップの処理の進捗が、Windowsタスクバーにミラーされるようになりました。
– データレコード・ウィンドウでレコードのソーティングをキャンセルできるようになりました。
– 新しい関数 join(delim, str1, …), join_sorted(delim, str1, …), trimleft(str, char), trimright(str, char) が数式で利用できるようになりました。
– 関数 min, max, mean, count, sum, join, join_sortedで、パターンを書いて引数を指定できるようになりました。従って、パターンにマッチする変数が引数として渡されます。
– マップ・ウィンドウで属性のタイトルが長くなりすぎるとき、名前の末尾からではなく、名前の中間から文字が消されて、短縮されるようになりました。

SOMモデルの編集

– マップ・ピクチャ内のラベルがグループで構成できるようになりました。ラベルの表示をグループごとにコントロールできます。この機能は、編集| ラベル | ラベル・グループを管理 で呼び出せます。文書(画像)のサムネイルがマップ上に表示できます。それをするには、パス名がラベルとしてインポートされるか貼り付けられていなければならず、対応するラベル・グループがパス名としてマークされていなけばなりません。

互換性

– Viscovery SOMineのファイルは、バージョン 7.1.1 と 7.2 の合いアdで双方向に交換可能です。
– ラベル・グループが定義されると、以前のバージョンのソフトウェアでは、表示ラベルのみが示されます。SOM が現行バージョン以降に読み込まれるとき、表示ラベルが保持されます。

投稿者:Kunihiro TADA

XLSTAT 2018.5がリリースされました

XLSTAT バージョン 2018.5 がダウンロード可能です! 新機能は、混合データの因子分析、ELECTRE 3、Excel へのデータ・インポートなど

新機能は?

  • 混合データの因子分析: PCAmix法を用いた量的変数と質的変数からなるデータ表の探索。
  • ELECTRE 3: 意思決定によく使用されるこの多基準分析法は、解決策の集合を最良から最悪まで分類します。
  • Excelへのデータ・インポート: SPSS、Minitab、SAS およびその他のデータ形式のファイルが数クリックでExcelにインポートできるようになりました。
  • 比較プロット: 2つの標本間の差を検定するために、箱ひげ図とp値のパワーを単一のチャートで組み合わせ。
  • サーチ・ボックス: XLSTATメニュー内の手法や関数を素早く見つけることができる手軽なツール。
  • 多重コレスポンデンス分析: Burt表を入力として使用できるようになり、要因マップ上で変数のカテゴリをリンクできるようになりました。
投稿者:Kunihiro TADA

Viscovery SOMineでテキスト・マイニング

弊社が取り扱うXLSTATでテキスト・マイニングの特徴抽出機能が追加されたので、それで得られる文書-用語行列を使って、久しぶりにViscovery SOMineでテキスト・マイニングのマップを作成してみました。

データはXLSTATのチュートリアルでも使用されているInternet Movie Database (IMBD)のデータで、4000本の映画評論のテキスト文書です。ワードは268個抽出されていますので、268列×4000行のデータです。各セルには、各評論でのワードの出現頻度が入っています。

まずはViscoveryでデフォルトの設定を用いてマップを作成します。1000個のノードを使用してマップを作成すると、1ノードあたり平均4個のオブザベーション(評論記事)が対応することになります。SOM-Wardクラスタリングのデフォルト設定で(このデータからは)4個のクラスタが検出されましたが、クラスタ数を増やすとより細分類されて、より類似度の高いオブザベーションで構成されるクラスタリングが得られ、マップをより詳細に探索することができます。(Viscoveryではデンドログラムを表示しませんが、マップ上でクラスタ数を調整することで、階層クラスタリングを確認できます。デンドログラムよりも強力なクラスタリングの可視化を提供しています。)

Viscoveryは単なるSOMプログラムではなく、SOMのマップ上でデータ解析を行えます。その最も代表的な機能がプロファイル分析です。マップ上でノードの選択を変えると、それに対応するプロファイル・チャート(棒グラフ)が次々と変化します。(「クラスタの特徴」コマンドで、その結果の要約を一括して出力することも可能です。プロファイル・チャートの元となるデータは、単一のノード、クラスタ、最近接ノードなど、対応するノードの範囲を変えることもできます。)

プロファイル・チャートは、現在分析しているノードまたはノードの集合に対応するデータが持つ特徴を示します。すなわち、データの任意の部分集合と全体集合(またはユーザーが指定する部分集合)と比較して、平均の差が有意な属性(この事例ではワード)を棒グラフで示します。バーの長さは、(全体集合の)標準偏差を単位とした平均の差の大きさです。

したがって、プロファイル・チャートに表示されるワードを見ると、そのノード(またはクラスタまたはノードの周辺など)に対応する文書の特徴がわかります。

分析者がデータの全体像をまだ把握できていない段階では、これはデータの全体像を把握するのにとても役立ちます。しかし、注意しなければならないのは、ひょっとしたら、この結果は、単に既知の知識(当たり前なこと)を表現しているだけかもしれません。

じつは、ここから先がViscoveryの真骨頂であります。分析者は、分析者の関心に応じて、より重要と考える属性(この事例ではワード)により大きな重みをかけて、マップを作成し直すことができます。たとえば、映画評論の場合、映画製作に関するテクニックに関連しそうなワードに重みをかけるなどが考えられます。あるいは役者の演技に関心があるなら、それに関連しそうなワードに重みをかけることができるでしょう。

SOMによるテキスト・マイニングの本当の魅力

自己組織化マップ(SOM)でテキスト・マイニングを可視化するアイデアは、まったく新しいものではなく、かなり昔から知られています。少なくとも私がSOMを始めた約20年前には、すでにそうした研究がありました。しかしながら、率直なところ、あまり一般的な手法にはなっていないと思います。それは、SOMの実践的な活用法がほとんど知られていないからです。

SOMのマップ上では、ワードの出現頻度のパターンの類似性により、類似した文書同士がマップ上の近くのノードに対応する(配置される)ような結果が得られます。しかし、それだけなら、SOMで可視化しなければならない必然性があまり感じられないということかと思います。

特定の話題について関連する文書を検索したい場合は、従来の検索技術で十分に事足りるわけですし、テキスト・マイニングの結果を可視化する方法はSOM以外にもいろいろとあります。類似する文書がSOMのマップに並べられたとしても、多くの人々にとっては、ごく当たり前な結果が得られているに過ぎず、これをどう使えばよいのか、あまり良いアイデアが浮かばないということかと推測します。

これをより実践的に生まれ変わらせるための重要な方法が、ワードへの重みづけなのです。ほとんどの人がここまでやろうとしないので、SOMの本当のベネフィットが得られていないのです。

それは情報の価値ということと関係があります。ワードへの重みづけをやらないテキスト・マイニングは、「どの情報が他の情報よりも重要なのか」という視点・問題意識をまったく持たないのっぺりとした情報整理術でしかありません。

そもそもテキスト・マイニングが役立つ場面というのは、商品企画やマーケティング調査の仮説を構築する場面です。従来はプランナーやリサーチャーが大量の文献を読み込んだり、フィールド調査を行って仮説を構築するのですが、近年ではこれにテキスト・マイニングという方法が追加されました。

プランナーやリサーチャが文献を読み込んだりフィールド調査を行う際に、もし何も独自の視点を持たず漫然とやっているとしたら、それはプロとして失格でしょう。何かの意識を持って能動的に行うべきです。しかし、「どんな情報に着目するべきか?」ということは暗黙のうちに、個人的な判断に委ねられてきました。それを外部化・共有化するのはとても難しいことだったのです。

ところが、SOMによるテキスト・マイニングでは、同じデータを用いても、分析者の関心に応じて異なるマップを作成することができます。それは分析者固有の着眼点を客観化して他者と共有できることを意味しているのです。テキスト・マイニングで得られたワードに対して、分析者の興味・関心に従って重要度を設定することにより、その分析者の目線から文書を分類する「世界でたったひとつの」マップが出来上がります。

SOMで各属性(テキスト・マイニングでは用語)への重みづけを変えて、クラスタリングをやり直す過程は、ちょうどKJ法のグルーピングのステップと対応させて捉えることもできるのです。データから新しい発見があるかどうかは、これを徹底的にするかどうかにかかっているのです。

投稿者:Kunihiro TADA

XLSTAT 2018ユーザーマニュアル日本語版

XLSTAT 2018 のユーザー・マニュアル日本語版ができました。

すぐにXLSTATのオフィシャル・ウェブサイトからダウンロードできるようになると思いますが、とりあえず下記からダウンロードできるようにしております:

http://www.mindware-jp.com/xlstat/files/xlstat_2018_help_JP.pdf

 

 

投稿者:Kunihiro TADA

XLSTAT version 2018.2

XLSTAT version 2018.2が利用可能です。

ワード・クラウド

文書内の重要ワードを素早く識別するためのパワフルなテキスト可視化ツール。よりカスタマイズされた出力のためにユーザーが色を定義できます。すべての XLSTATソリューションのデータ可視化メニューで利用可能です。

ELECTRE I

意思決定でよく使用されるこの手法は、多基準問題の解を見つけて、比較し、順位づけすることを目的とします。すべてのXLSTAT ソリューションの意思決定支援メニューで利用可能です。

コンジョイント調査計画

完全プロファイルまたは選択型コンジョイント計画を作成するときに、禁止された対を考慮することができるようになりました。XLSTAT-Marketing およびXLSTAT-Premium のコンジョイント分析メニューで利用可能です。

ランダム・フォレスト

Random Input (ランダム入力)法および変数の重要度を定量化するためのMean Decrease Accuracy (平均減少正確度)を含む複数の新しいオプション。すべてのXLSTAT ソリューションの機械学習メニューで利用可能。

投稿者:Kunihiro TADA

Hugin 8.6 リリース

Hugin 8.6がリリースされます。

 

HUGIN Graphical User Interface v. 8.6

 

HUGIN Graphical User Interface がさまざまな新機能で改良されました。新機能は下記のとおり:

– HUGIN Graphical User Interface がデータフレームにデータをロードするために Derby SQL データベース・インタフェースを持ちました。

– HUGIN Graphical User Interface がダイナミック・ベイジアンネットワーク(DBNs)での連続ガウシアン (CG) ノードのテンポラル・クローンの作成をサポートしました。これは、たとえば、カルマンフィルタ・モデル(不確実な情報の組み合わせにより直接観察できないシステムの状態を推定)や離散ノードと連続ノードの混合によるその他のモデルを作成するのに使用できます。正確推論とpartial Boyen-Koller 近似の両方がCGノードのクローンを持つモデルで利用可能です.

– その他のマイナーな改良。

また、HUGIN Graphical User Interfaceのパフォーマンス改善のための作業が行われました。

 

HUGIN Decision Engine v. 8.6

 

HUGIN Decision Engineは、下記の機能で拡張されました:

– Apple iOSを含むSwiftプログラミング言語用の新しいHUGIN Decision Engine アプリケーション・プログラミング・インタフェース。

– Google Android 用の新しいHUGIN Decision Engine アプリケーション・プログラミング・インタフェース。

– DBNでのCGノードのテンポラル・クローンの作成、および、CGノードのテンポラル・クローンを持つモデルでの正確推論とBoyen-Koller 近似推論のサポート。

 

投稿者:Kunihiro TADA

ご注意!XLSTATライセンスの自動更新について(その2)

My CommerceでのXLSTATライセンスの自動更新についてのAddinsoftの見解をお伝えします。

確かにお客様ご自身でMy Commerce(またはShare-it、会社名Digital River)の自動更新をキャンセルされないかぎり、毎年、自動更新が適用されて代金が課金されるのですが、その場合も、いきなり何の断わりもなしに代金を請求しているわけではございません。

My Commerceは代金を再請求する前に必ずEメールでお客様に通知を行っているそうです。お客様はそれに返信してキャンセルを行うことができます。

ただし、ここでMy Commerceからのメールは、お客様が決済方法についてMy Commerceのサービスを利用されるにあたって、My Commerceに登録されているメール・アドレスに送られます。もし(職場が変わるなどして)メール・アドレスが変わった場合は、お客様ご自身でMy Commerceの登録情報(個人情報なので本人しか変更できません)を変更される必要がございます。

My Commerceは多数の商品の発売元とその購買者の間を取り持つグローバルなサービスで、商品の発売元も購買者も、同様に、そのサービスの一利用者に過ぎません。XLSTATのような商品の発売元がMy Commerceと契約しているわけですが、同様に、購買者もご自身の決済方法をMy Commerceと契約される形となっております。

商品の発売元とMy Commerceの会社(Digital River)はまったく異なる会社ですので、発売元が持つ顧客データベースとMy Commerceが持つ顧客データベースがまったく別のものです。

たとえば、メール・アドレスが変わったときに、XLSTATのウェブサイト、またはマインドウエア総研にご連絡を頂くと、XLSTATのユーザー登録情報は書き換えられます。しかし、それとMy Commerceの顧客データベースとはリンクしておりませんので、必ずMy Commerceの登録情報もご自分で変更してください。

 

マインドウエア総研に電話をしてこられて、「知らないうちに自動更新になっている。お宅から買ったのだからお宅で責任取れ」とおっしゃるのですが、それは明らかに間違いです。マインドウエア総研からは購入されていません。確かにXLSTATのウェブサイトをご覧になってXLSTATのライセンスを注文されたのですから、XLSTATのウェブサイト(Addinsoftが所有。マインドウエア総研はそのパートナーで日本語ページの翻訳を担当。)から直接購入されたと解釈することはできます。しかし、決済方法については、お客様ご自身がMy Commerceと契約をされていることをお忘れなきようお願い致します。

もちろんご購入時にマインドウエア総研にご連絡を頂ければ、My Commerceを利用せずに、マインドウエア総研への銀行振込でご購入頂くことも可能です。マインドウエア総研に直接ご注文頂いた分に関しては、自動更新は一切適用されません。(その代わりに、更新を希望される場合は、更新の都度、ご注文を頂かなければなりません。)

 

 

 

 

 

 

投稿者:Kunihiro TADA

ご注意!XLSTATライセンスの自動更新について

XLSTATの年間ライセンスを更新した覚えがないのに更新されているようだが」というお問い合わせを数件頂きました。

XLSTATのウェブサイトのフォームからご注文を頂くと、漏れなく外部の決済代行業者を通してご注文が処理される仕組みとなっております。入口はXLSTATのウェブサイトですが、決済の段階ではDigital Riverという会社が運営するMy Commerce(share-it)というサイトに切り替わっております。

そして、そこから注文されたライセンスは、そのサービスの約款に従って自動更新されます。ご注文の画面にはそれが明記されており、またお客様ご自身でその自動更新をいつでもキャンセルできる仕組みになっております。

Microsoft Office 365などでも同様に自動更新がデフォルトの設定になっていて、この取引の方法は、現在、世界標準となっており完全に合法です。お客様ご自身が自動更新のキャンセルをされない限り、毎年代金が請求されます。これはお客様の自己責任であることをご承知おきくださいますようお願い致します。

マインドウエア総研は、XLSTATの日本語サポートをしておりますが、Digital Riverと契約をしているのはAddinsoftなので、申し訳ございませんが、マインドウエア総研からDigital Riverに直接何かの指示や連絡をして働きかけることができません。

XLSTATのライセンスの自動更新を止めたいお客様は、XLSTATの購入時に作成されたはずのMy Commerceアカウント内でキャンセルの設定をされるか、Digital Riverから受け取られているメールに記載されている窓口にご連絡をされますようお願い致します。

My Commerceのウェブサイトは下記となります:

https://jp.mycommerce.com/私たちに関しては/

My Commerceでも日本語での対応をして貰えますのでご安心ください。

もちろん、XLSTATの購入時にウェブサイトのフォームからご注文される以外に、メール等でお問い合わせ頂いて、マインドウエア総研からご購入頂くこともできます。法人様の場合は、マインドウエア総研から国内の書式で見積書をお出ししており、請求書(銀行振込)による後払いのお取引が可能です。

個人様の場合は、事務を簡素化するために、できればウェブサイトのフォームをご利用頂きたいのですが、(クレジットカードが使用できないなど)特別な事情がある場合は、ごく一部ですが、マインドウェア総研でご注文をお請けします。

マインドウエア総研にご注文頂いた分については自動更新は一切適用しておりません。

よろしくお願い致します。

 

 

 

 

 

 

投稿者:Kunihiro TADA

Viscovery SOMineのビッグデータ分析には4Kモニターが便利

もはやさほど新鮮な話題でもないのですが、4KモニターとViscovery SOMineを使ってビッグデータを分析するというお話です。

Viscovery SOMineは、多次元(多変量)データを可視化する最強のツールです。属性ピクチャ―(各変数値のトポロジカル・ヒートマップ)により、多数の属性間の関係性を可視化することができるだけでなく、さらにクラスタリングや、各クラスタや各領域のプロファイル分析、各種統計解析、選択した領域に対応するデータレコードの表示、クラス分類モデルやローカル回帰モデル(非線形対応の回帰モデル)の作成、そして、それらモデルの適用・検証などができます。そのため作業中のViscovery SOMineの画面には、かなりたくさんのサブ・ウィンドウが表示されます。比較的小規模なデータを分析しているときでも、サブ・ウィンドウがたくさんあるので、通常のフルHDの画面ではちょっと狭く感じることがしばしばあります。

そこで4Kモニターを使ってみると、これがなかなか快適です。さらに8Kモニターというのも市場に出始めている段階ですが、まだまだ価格が高いです。4Kモニターはお手頃価格になってきましたので、これからは4K以上のモニターがViscovery SOMineの推奨動作要件と言えそうです。