投稿者アーカイブ Kunihiro TADA

投稿者:Kunihiro TADA

XLSTATが通常ライセンスの提供を再開

XLSTATは終了していた通常ライセンスの提供を再開しました。

このライセンス・タイプは、perpetual licenseで日本語では「永久ライセンス」と訳されるものです。ただし、最新バージョンにアップデートするには、2年目から「アップデート・ライセンス」を購入する必要があります。アップデート・ライセンスの価格は、年間ライセンスより少し安価に設定されています。

年間ライセンスが1年ごとの契約であり、有効期限に到達するとライセンスが消滅してしまうのに対して、通常(永久)ライセンスはライセンス自体は消滅せず、XLSTATの製品版の使用を継続できます。ただし、サポート対象はあくまでも最新バージョンのみですので、旧バージョンを使用されている場合、動作に関する保証がありません。

パソコンのハードウェアやOSは日々進化していますので、アプリケーション・ソフトはそれに対応するようにプログラムをメンテナンスし続けなければなりません。XLSTATの場合、さらにMicrosoft Excelの仕様変更にも対応しなければなりません。したがって、過去のXLSTATのバージョンを最新のパソコンで使用することはお薦めできません。

パソコンの知識をお持ちのユーザー様にとっては、これらのことはほぼ常識かと思われますが、実際には驚くほど昔(たとえば5年前とか)のバージョンを使い続けるユーザー様もおられます。「永久ライセンス」と呼んでいると、「それを買うとそのソフトウェアを永久に使用できる」と誤解されることがあるので、マインドウェア総研では「通常ライセンス」と呼ぶようにしている次第です。ソフトウェアは生ものですので、永久に使用できるということはあり得ないのです。

XLSTATに限らず、ソフトウェア・ベンダーはこうしたユーザー様の誤解とどうやって折り合いをつけていくかに頭を悩ませてきたと言っても過言ではないでしょう。永久ライセンスの提供をやめて、年間ライセンスや期限付きライセンスに移行し、さらにはクラウド化によって、使った分だけ支払う従量制へと移行していくというのが、現在のソフトウェア業界の趨勢になっております。

しかし、ユーザー様の多くは、企業内の予算とか、または学術ユーザー様の場合、研究助成金等でソフトウェアを購入されるので、年間ライセンスや従量制になると、それはそれでいろいろと不都合が出てきてしまいます。単に「毎年予算を申請するのが面倒」ということもありますし、研究助成金等では「今年予算が下りても来年もそうとは限らない」という心配があります。予算は年度で切られてしまいますが、研究は何年も継続してやってこそ成果が出てくるということもありますので、研究のためのソフトウェアも継続して使用できないと困ります。

今回、XLSTATは通常ライセンスの提供を一旦は終了したのですが、世界中のユーザー様からのご要望(苦情?お叱り?)が多かったので、通常ライセンスの提供を再開することと致しました。

上記のように、最新の状態を保ちながらソフトウェアを使用して頂くには、毎年のメンテナンス契約(アップデート・ライセンスのご購入)が必要ですが、何とかユーザー様のご要望と折り合いがつくような値ごろ感で統計解析ソフトウェアを提供できるように、今後も努力して参る所存です。

 

 

 

投稿者:Kunihiro TADA

XLSTATの教育機関用ライセンスでブラックフライデー&サイバーマンデー2018セールやっています

最近日本でもブラックフライデー・セールというのがお馴染みになってきました。ブラックフライデーとは、アメリカ合衆国の感謝祭(11月の第4木曜日)の翌日の金曜日のことで、その翌週の月曜日をサイバーマンデーというそうです。ようするに、この時期に年末セールを行うわけです。「年末セール」と言えばよさそうもので、どうやらこれもグローバリズム(その本質は世界のアメリカナイズ)の一環かという気もしなくもないのですが、まあ、あまり気に病んでもしかたないです。

で、XLSTATもアカデミック用に限り、それをやっています。「ご注文」のページからクレジット・カード決済を選択して、次のページ(そこはもはやShare-itという決済代行サービスのサイトです)で、「クーポンコードを入力してください」と書かれた下の入力フィールドで、「BLACKFRIDAY2018」と入れると代金が10%オフになります。対象となるライセンス種別は、教育機関用、クラスルーム、キャンパス・ライセンスで、期間は米国太平洋標準時(西海岸)の2018年11月26日の午後11時59分までです(日本時間では27日の午後1時59分になると思います)。

ご注意:アカデミック用ライセンスは、ac.jpドメインのメール・アドレスをご使用の方のみに提供されます。それ以外の方にはご購入頂けません。

ご注意:Share-itで決済されたご注文は、コンピュータにより厳重なセキュリティのもとで自動処理されます。ライセンスは年間契約ですが、デフォルトでは自動更新が適用されており、翌年、再び1年分の代金が請求されます。自動更新の設定は、Share-itのサイトで取り消しができるか、または、自動更新が適用される際、事前にShare-itから確認のメールが届きますので、そこでキャンセルすることもできます。自動更新のキャンセルは、必ずユーザー様ご自身で行ってください。

 

投稿者:Kunihiro TADA

XLSTAT version 2018.7 がダウンロード可能です!

  • 階層分析法(AHP:Analytic Hierarchy Process複雑な多基準問題を分析するには、この意思決定支援手法が使用できます。この手法のアプローチは、問題を階層システムにブレークダウンして単純化することです。Thomas Saaty がこの手法の創始者で1970年代に考案されました。すべての XLSTAT ソリューション 意思決定支援 メニューで利用できます。
  • 価格感度メーター: マーケット・リサーチャに理想的なこのツールは、製品やサービスの理想的な価格を判断することを支援します。VanWestendorpが提案したこの手法は、消費者パネルのグループでの調査を実施して、特定の製品の価格を彼らがどのように認識するかを訊ねることからなります。XLSTAT-Marketingマーケティング・ツールメニューで利用できます。
  • 大規模CSV/テキスト・ファイルの読み込み: 標準のExcelワークシートのサイズ(Excel 2016では1,048,576行×16,384)を超える大規模データ・ファイルの読み込みが可能になりました。この新しいデータ・インポート・ツールは現在、データ・マネジメント機能の中にあります。すべてのXLSTATソリューションデータ準備メニューで利用できます。
  • 分類木: ノードの分岐に使用される品質測度情報ゲイン(エントロピー)が、CART分類木の複雑度パラメータCP)停止基準として追加されました。すべてのXLSTAT ソリューション 機械学習メニューで利用できます。

 

 

投稿者:Kunihiro TADA

XLSTATにAHP(階層的意思決定法)がついに登場

今年は、大学の医学部の入学試験の合否基準があいまいだという問題がニュースでクローズアップされましたが、入学試験に限らず、日本の組織での意思決定の不合理さは、とてもお寒い状況です。たとえば、企業での新入社員の採用でも同じことですし、あるいは研究開発テーマや新製品・新事業の開発テーマの選定においても、いい加減な方法が長年にわたって採用され続けています。

このような選定問題で、日本人はたくさんの判定基準を設定するのが大好きです。基準がたくさんあればあるほど厳正な審査をしている気分に浸ることができます。しかし、日本で行われているほとんどの意思決定は、これらのたくさんの基準での評価を統合する段階で大きなミスを犯しています。

つまり、ほとんどの場合で、これらの基準での評点を候補(者)ごとに合計して、その合計得点で候補を順位づけすることを基本ルールとしています。ところが、それではいろいろと不都合が出てきてしまうので、特定の基準(たとえば性別や出身大学のランクなど)だけに再注目して、その条件によって点数に下駄を履かせるという「行き当たりばったり」なことをやってしまうわけです。どのケースにおいて、いくらの点数を足すのが妥当なのか?そこにはまったく合理的な根拠がないのです。

このような問題を解決するのが数理的意思決定法です。AHP(Analytic Hierarchy Process)は、かなり昔から日本でも本が出版されていたりするのですが、まだそれほど一般的に普及しているわけではないかと思います。

XLSTATは一両日中にversion 2018.7をリリースします。その中の新機能の1つとしてAHPが追加されました。XLSTATで提供されるAHPは、かなり汎用的に利用できる手法が採用されております。XLSTATで手軽にAHPを導入できるようになりましたので、ぜひとも、これで日本の組織で行われている非合理な意思決定が改善されることを願ってやみません。

https://help.xlstat.com/customer/ja/portal/articles/2961443-Excelでの階層分析法(AHP: Analytic Hierarchy Process)チュートリアル?b_id=9283

 

投稿者:Kunihiro TADA

XLSTAT version 2018.6 がダウンロード可能です!

新しい統計解析機能とオプション

  • ファジィ K-means 大規模データをグループ分けするための教師なしクラスタリング・アルゴリスム。これは文書分類やその他のアプリケーションに使用できます。すべての XLSTAT ソリューション の機械学習メニューで利用可能。
  • コンジョイント調査の計画 :コンジョイント調査で異なる回答者のグループに異なる質問の集合を生成できるようになりました。 XLSTAT-Marketing のコンジョイント分析メニューで利用可能。
  • Johnson 変換: Johnson法を用いてデータを正規分布に変換。 これはゼロや負値を含むデータにも使用できます。すべての XLSTAT ソリューション のデータ準備メニューで利用可能。
  • Temporal Dominance of Sensations(TDS): TDS曲線の滑らかさを自動で決定するか手動で決定するかの新しいオプションが加わりました。 XLSTAT-Sensory のテキストマイニング・メニューで利用可能。

投稿者:Kunihiro TADA

XLSTATがMicrosoftソリューション・プロバイダとしてトップ20に


CIO Reviewの20 Most Promising Microsoft Solution Providers – 2018にXLSTATが選ばれました。

 

投稿者:Kunihiro TADA

見直されるViscovery SOMine

ここ数年吹き荒れたディープラーニング&AIブームで、弊社が推しているViscoveryは影の薄い存在になっておりましたが、ここにきて再評価されつつあります。

結局のところディープラーニングもそう簡単なものではありません。たくさんのパラメータ設定を試行錯誤しなければならず、それでいて、ディープラーニングで生成されるモデルを人間が理解できないという致命的な欠点があることに、多くの人が気づきはじめたようです。

もちろんGoogleのようなシステム開発力のある企業にかかれば、ディープラーニングを使って、これまでに存在しなかったようなアプリケーションやサービスを産み出すことも夢ではないでしょう。しかし、多くの企業が必要としているのは、そんなことばかりではありません。ほとんどの企業が解決するべき課題は、伝統的な機械学習や統計手法でとっくに実現されていたことばかりなのです。

すでに2000年頃には、そうした技術が出そろっていたのですが、そのユーザーとなるべき企業の人々の頭の中がそれに追いついていなかったので、せっかくの技術が有効に産業利用されるには至らなかったわけです。そこにディープラーニング&AIブームが起きて、人々の意識がこちらに向いてきたことは、結果的に良いことでした。

ディープラーニングを使えば、いわゆる「特徴エンジニアリング」と呼ばれるデータ加工を経ずにモデルを構築できるとされるのですが、一方、SOMに代表されるような従来的な手法では、その工程が欠かせないばかりか、それこそが成功のカギになります。

SOMを使ったデータ・モデリングの過程は、ユーザーにとっては「データ理解」そのものです。人間が人間である限り、多次元データを把握することは不可能です。SOMによる多次元データの可視化も一種の方便のようなものではありますが、他のどの手法よりも、多次元空間の様子を人間が理解するのに強力な方法です。

ディープラーニングの限界から、最近では説明可能AI(XAI: explainable AI)という議論もされているようです。ユーザーの「なぜ?」という問いに、自然言語で回答してくれるような(まさにドラえもんのような)AIが理想形でしょう。

しかしながら、そこで「待った!」がかかります。そもそも知識(knowledge)というものが言葉で表現できるものばかりではないからです。それは60年代のパターン認識の研究(今日の機械学習アルゴリズムの先駆け)の段階からわかっていたことなんです。AIでなくても、人間でも、たとえば、人の顔を見て誰の顔か判断できたとしても、その方法を言葉で説明することなんてできないのです。

そのような言語以前の判断力を、マイケル・ポランニーはtacit knowledge(暗黙知)と呼んだのですが、残念ながら日本のマネジメント界では90年代にこれを大きく曲解して、似非科学的ナレッジ・マネジメントを流行させてしまった罪深き過去があります。

SOMは、人工ニューラルネットワークの観点から見ると、あるいはディープラーニングと比較すると、それほど高度なものではないのですが、この非言語的なナレッジを可視化して、人間が理解するにはとても理に適った手法です。

ほとんど企業の実践的な問題解決には、ViscoveryのSOMテクノロジーが役に立ちます。

 

 

 

投稿者:Kunihiro TADA

Viscovery SOMine 7.2 Data Mining Suiteの新機能

Viscovery SOMine 7.2では、下記の機能が追加されました。さらに、バージョン 7.1.1. から発見されたエラーが修正されました。

全般

– テキスト・ファイルからのデータ・インポートがかなり速くなりました。
– 属性の定義ステップで名義変数が定義されるとき、大文字小文字を区別しないオプションがデフォルトでオフになりました。これは大文字小文字に鈍感なことが望まれない場合に性能が勝ります。
– 正規表現に関する名義変数の処理がかなり速くなりました。
– 属性の重みづけの設定が異なるデータを使用するワークフロー・ブランチで再利用されるとき、設定のない属性の重みは、1ではなく0で初期されるようになりました。これは、追加の属性を持つデータで同じマップを計算したい場合に便利です。
– 属性の割り当てダイアログの使い勝手が改善されました: 一覧がほぼ比例的にサイズ変更されて、未使用の属性名の一覧は >> ボタンをクリックした後、元の順序のままになります。
– クラスタの特徴ウィンドウは、いくつかの場合、表示の最上部にスクロールします。
– クラスタの特徴ウィンドウ(水平バー)の左側のリストで属性の順序が、マップ・ウィンドウやその他でも使用されている一般的な属性の順序に従うよになりました。
– ワークフロー・ステップの処理の進捗が、Windowsタスクバーにミラーされるようになりました。
– データレコード・ウィンドウでレコードのソーティングをキャンセルできるようになりました。
– 新しい関数 join(delim, str1, …), join_sorted(delim, str1, …), trimleft(str, char), trimright(str, char) が数式で利用できるようになりました。
– 関数 min, max, mean, count, sum, join, join_sortedで、パターンを書いて引数を指定できるようになりました。従って、パターンにマッチする変数が引数として渡されます。
– マップ・ウィンドウで属性のタイトルが長くなりすぎるとき、名前の末尾からではなく、名前の中間から文字が消されて、短縮されるようになりました。

SOMモデルの編集

– マップ・ピクチャ内のラベルがグループで構成できるようになりました。ラベルの表示をグループごとにコントロールできます。この機能は、編集| ラベル | ラベル・グループを管理 で呼び出せます。文書(画像)のサムネイルがマップ上に表示できます。それをするには、パス名がラベルとしてインポートされるか貼り付けられていなければならず、対応するラベル・グループがパス名としてマークされていなけばなりません。

互換性

– Viscovery SOMineのファイルは、バージョン 7.1.1 と 7.2 の合いアdで双方向に交換可能です。
– ラベル・グループが定義されると、以前のバージョンのソフトウェアでは、表示ラベルのみが示されます。SOM が現行バージョン以降に読み込まれるとき、表示ラベルが保持されます。

投稿者:Kunihiro TADA

XLSTAT 2018.5がリリースされました

XLSTAT バージョン 2018.5 がダウンロード可能です! 新機能は、混合データの因子分析、ELECTRE 3、Excel へのデータ・インポートなど

新機能は?

  • 混合データの因子分析: PCAmix法を用いた量的変数と質的変数からなるデータ表の探索。
  • ELECTRE 3: 意思決定によく使用されるこの多基準分析法は、解決策の集合を最良から最悪まで分類します。
  • Excelへのデータ・インポート: SPSS、Minitab、SAS およびその他のデータ形式のファイルが数クリックでExcelにインポートできるようになりました。
  • 比較プロット: 2つの標本間の差を検定するために、箱ひげ図とp値のパワーを単一のチャートで組み合わせ。
  • サーチ・ボックス: XLSTATメニュー内の手法や関数を素早く見つけることができる手軽なツール。
  • 多重コレスポンデンス分析: Burt表を入力として使用できるようになり、要因マップ上で変数のカテゴリをリンクできるようになりました。
投稿者:Kunihiro TADA

Viscovery SOMineでテキスト・マイニング

弊社が取り扱うXLSTATでテキスト・マイニングの特徴抽出機能が追加されたので、それで得られる文書-用語行列を使って、久しぶりにViscovery SOMineでテキスト・マイニングのマップを作成してみました。

データはXLSTATのチュートリアルでも使用されているInternet Movie Database (IMBD)のデータで、4000本の映画評論のテキスト文書です。ワードは268個抽出されていますので、268列×4000行のデータです。各セルには、各評論でのワードの出現頻度が入っています。

まずはViscoveryでデフォルトの設定を用いてマップを作成します。1000個のノードを使用してマップを作成すると、1ノードあたり平均4個のオブザベーション(評論記事)が対応することになります。SOM-Wardクラスタリングのデフォルト設定で(このデータからは)4個のクラスタが検出されましたが、クラスタ数を増やすとより細分類されて、より類似度の高いオブザベーションで構成されるクラスタリングが得られ、マップをより詳細に探索することができます。(Viscoveryではデンドログラムを表示しませんが、マップ上でクラスタ数を調整することで、階層クラスタリングを確認できます。デンドログラムよりも強力なクラスタリングの可視化を提供しています。)

Viscoveryは単なるSOMプログラムではなく、SOMのマップ上でデータ解析を行えます。その最も代表的な機能がプロファイル分析です。マップ上でノードの選択を変えると、それに対応するプロファイル・チャート(棒グラフ)が次々と変化します。(「クラスタの特徴」コマンドで、その結果の要約を一括して出力することも可能です。プロファイル・チャートの元となるデータは、単一のノード、クラスタ、最近接ノードなど、対応するノードの範囲を変えることもできます。)

プロファイル・チャートは、現在分析しているノードまたはノードの集合に対応するデータが持つ特徴を示します。すなわち、データの任意の部分集合と全体集合(またはユーザーが指定する部分集合)と比較して、平均の差が有意な属性(この事例ではワード)を棒グラフで示します。バーの長さは、(全体集合の)標準偏差を単位とした平均の差の大きさです。

したがって、プロファイル・チャートに表示されるワードを見ると、そのノード(またはクラスタまたはノードの周辺など)に対応する文書の特徴がわかります。

分析者がデータの全体像をまだ把握できていない段階では、これはデータの全体像を把握するのにとても役立ちます。しかし、注意しなければならないのは、ひょっとしたら、この結果は、単に既知の知識(当たり前なこと)を表現しているだけかもしれません。

じつは、ここから先がViscoveryの真骨頂であります。分析者は、分析者の関心に応じて、より重要と考える属性(この事例ではワード)により大きな重みをかけて、マップを作成し直すことができます。たとえば、映画評論の場合、映画製作に関するテクニックに関連しそうなワードに重みをかけるなどが考えられます。あるいは役者の演技に関心があるなら、それに関連しそうなワードに重みをかけることができるでしょう。

SOMによるテキスト・マイニングの本当の魅力

自己組織化マップ(SOM)でテキスト・マイニングを可視化するアイデアは、まったく新しいものではなく、かなり昔から知られています。少なくとも私がSOMを始めた約20年前には、すでにそうした研究がありました。しかしながら、率直なところ、あまり一般的な手法にはなっていないと思います。それは、SOMの実践的な活用法がほとんど知られていないからです。

SOMのマップ上では、ワードの出現頻度のパターンの類似性により、類似した文書同士がマップ上の近くのノードに対応する(配置される)ような結果が得られます。しかし、それだけなら、SOMで可視化しなければならない必然性があまり感じられないということかと思います。

特定の話題について関連する文書を検索したい場合は、従来の検索技術で十分に事足りるわけですし、テキスト・マイニングの結果を可視化する方法はSOM以外にもいろいろとあります。類似する文書がSOMのマップに並べられたとしても、多くの人々にとっては、ごく当たり前な結果が得られているに過ぎず、これをどう使えばよいのか、あまり良いアイデアが浮かばないということかと推測します。

これをより実践的に生まれ変わらせるための重要な方法が、ワードへの重みづけなのです。ほとんどの人がここまでやろうとしないので、SOMの本当のベネフィットが得られていないのです。

それは情報の価値ということと関係があります。ワードへの重みづけをやらないテキスト・マイニングは、「どの情報が他の情報よりも重要なのか」という視点・問題意識をまったく持たないのっぺりとした情報整理術でしかありません。

そもそもテキスト・マイニングが役立つ場面というのは、商品企画やマーケティング調査の仮説を構築する場面です。従来はプランナーやリサーチャーが大量の文献を読み込んだり、フィールド調査を行って仮説を構築するのですが、近年ではこれにテキスト・マイニングという方法が追加されました。

プランナーやリサーチャが文献を読み込んだりフィールド調査を行う際に、もし何も独自の視点を持たず漫然とやっているとしたら、それはプロとして失格でしょう。何かの意識を持って能動的に行うべきです。しかし、「どんな情報に着目するべきか?」ということは暗黙のうちに、個人的な判断に委ねられてきました。それを外部化・共有化するのはとても難しいことだったのです。

ところが、SOMによるテキスト・マイニングでは、同じデータを用いても、分析者の関心に応じて異なるマップを作成することができます。それは分析者固有の着眼点を客観化して他者と共有できることを意味しているのです。テキスト・マイニングで得られたワードに対して、分析者の興味・関心に従って重要度を設定することにより、その分析者の目線から文書を分類する「世界でたったひとつの」マップが出来上がります。

SOMで各属性(テキスト・マイニングでは用語)への重みづけを変えて、クラスタリングをやり直す過程は、ちょうどKJ法のグルーピングのステップと対応させて捉えることもできるのです。データから新しい発見があるかどうかは、これを徹底的にするかどうかにかかっているのです。