カテゴリーアーカイブ 未分類

投稿者:Kunihiro TADA

XLSTAT 2020.3リリース

XLSTAT 2020.3 が利用可能になりました! 新機能は?

この一般的な意思決定ツールは、非循環有向グラフによって変数間の因果関係を明らかにできる確率的グラフィカル・モデルです。

ベイジアン・ネットワークは、次のような広い範囲のアプリケーションを提供します; 金融不正分析、医療診断、市場調査および消費行動の研究。

ベイジアン・ネットワーク・メニューの下からこの新しい機能にアクセスできます。

異なるグループでの数値変数の時間的推移をプロットするには、この動的な可視化ツールを使用します。再生および逆再生ボタンでアニメーションを前に進めたり戻したり、一時停止ボタンで 停止させたり、アニメーションのスピードを調整することもできます。

データ可視化 メニュー.の下からこの機能にアクセスできます。

単一モデルの適合に加えて、次のことが可能になりました:

単一の実行で複数モデルを適合して表示、または複数モデルを適合して(AICに基づく)

最良モデルの結果のみを表示。非線形回帰機能の関数タブの下でお好みのオプションを選んでください。

データ・モデリング・メニューの下からこの機能にアクセスできます。 

量的変数で3つの新しいグラフィカル・オプションが利用可能になりました: エラーバーつきの平均チャート、ユーザー定義グループ化箱ひげ図、および降順で箱ひげ図を平均による並べ替え 。

データ記述 ニューの下からこの機能にアクセスできます。

3個の質的変数の分割表(3元クロス表)を作成し、各グループでカイ2乗検定を実行するには、グループ変数(レイヤ)を使用します。

ペアワイズ削除 オプションが、欠損値の取り扱いに追加されました。

グループ化 および 積み上げ棒グラフが2個の新しいグラフです。

データ準備メニューの下からこの機能にアクセスできます。

 

 

 

XLSTAT メニューの下のXLSTAT-オプション・ダイアログ・ボックスでMac 互換または共有可能チャート・オプションを有効にすると、XLSTAT がインストールされていないMacや他のコンピュータでチャートを簡単に表示できるようになりました。

一部の XLSTAT手順は分析の起動後に非表示シートを生成します。XLSTATは、これらのシートがもう使用されなくなると、自動でそれらを削除できるようになりました。このオプションにアクセスするには、XLSTAT-オプション・ダイアログ・ボックスで非表示シートが使用されなくなると削除オプションを有効にするだけです。

 

XLSTAT 2020.3の取得方法は?

バージョン2020.3 は、上記の改良、高度なオプションおよびソフトウェアの性能向上のすべてへのアクセスを提供します。すべてのユーザーに新バージョンのインストールが推奨されます。

現在トライアル・バージョンを使用しているか、有効なライセンスをお持ちであれば、バージョン2020.3 を無償でダウンロードできます:

無償アップグレードおよびメンテナンスへのアクセス権のない永続ライセンスをお持ちの場合は、MyXLSTAT ポータルからアップグレードをご注文頂くか、より詳細について弊社にお問い合わせください。

投稿者:Kunihiro TADA

Hugin 8.9リリース

本日、HUGIN ソフトウェアの新バージョン (v8.9)がリリースされました。

バージョン8.9でのHUGIN ソフトウェアの主要な改良点は、OpenJDKへの HUGIN グラフィカル・ユーザー・インタフェースの移行と関連する後進です。

HUGIN Graphical User Interface v. 8.9

HUGIN Graphical User Interface が新機能で改良されました。下記が含まれます:

  • 新しいインストーラーを含むOpenJDKへの移行
  • データ・フレーム機能への改良
  • データ矛盾分析のサポート – 対数尤度比による離散値ノードの矛盾への個体寄与度のモニタリング
  • ソーティング機能が数値での並べ替えに改良された
  • ケースを処理する際に関数ノードに “エビデンス” を含めることが可能になった
  • CG ノードの表の内容をリセットする機能
  • 効用ノードのモニタ・ウィンドウが分散を含む(オプション)
  • 数値決定ノードのモニタ・ウィンドウが平均と分散を含む(オプション)
  • モデルのベクトル型グラフィックスを生成するために新しいライブラリを使用
  • その他のモニタの改良。

さらに、HUGIN Graphical User Interfaceの性能向上のための作業が行われました。

HUGIN Decision Engine v. 8.9

HUGIN Decision Engine は、下記の機能で強化されました:

文字列の形式でのNET仕様が、ドメイン、クラスおよびクラス・コレクションで生成できるようになりました。これらの文字列は、たとえば、ネットワーク上の 伝播に適しており、それらはNET仕様を解析するための通常の関数によって解析できます。
HUGIN Swift APIのドキュメントが、HTML ページで利用可能になりました。

投稿者:Kunihiro TADA

Max-Diff分析 -コンジョイント分析の簡易バージョン

前の投稿で、世間で広く流布されている「数量化I類でコンジョイント分析というのは、あまり信頼性の高い結果が得られない」ということを述べました。コンジョイント分析の難しさは、調査の実施の部分であって、分析手法のレベルを落として、それに調査の内容を合わせるのは本末転倒です。MONANOVAなどの手法は高度ではありますが、その計算はソフトウェアが実行するのですから、より高度な手法を使わないのは損でしかありません。

もし、コスト的な理由などから「コンジョイント分析的な調査分析をより簡単に行いたい」ということでしたら、Max-Diff分析をお勧めします。

Max-Diff分析は、基本のコンジョイント分析や選択型コンジョイント分析と似ているのですが、コンジョイント分析および選択型コンジョイント分析では、複数の特性(因子)で記述された製品を順位づけしたり、最も好ましい製品を選ぶのに対して、Max-Diff分析は、多数の特性の中から、実験計画法に基づいて、3つとか4つの特性の組み合わせを提示して、最も重要な特性最も重要でない特性を回答者に選んで貰います。

Max-Diff分析により、企業は製品のどの特性に力を入れるべきかがわかります。

EXCELでのMAX-DIFF分析チュートリアル

投稿者:Kunihiro TADA

ホンネを引き出す選択型コンジョイント分析とは?

昨日、コンジョイント分析について投稿しましたので、今日もそれに続いて、より高度なコンジョイント分析についてご紹介したいと思います。

世間では「数量化I類=コンジョイント分析」という解説がじつにたくさん氾濫しています。それらは完全な間違いというわけではないのですが、あまり正確な分析ができません。お金をかけて調査を実施するのなら、ちゃんとした手法を用いるべきです。本来のコンジョイント分析は、いくつかの特性(因子)の組み合わせで複数の製品を提示して、それらの製品の好ましい順位を回答して貰う調査を行います。したがって、目的変数が順序変数になるので、通常の回帰モデル(分散分析、数量化I類)は、そのままでは適用できません。順序値を適切な連続値に変換して回帰を行うために、MONANOVA(単調回帰)という手法が使用されます。

今日の話は、選択型コンジョイント分析という手法です。通常のコンジョイント分析では、複数の製品を提示して、その順序を回答して貰うのですが、どうでしょう?実際、それって回答するのが難しいですよね。たとえば、10個も製品があると、回答する方もこんがらがってきますね。よくよく考えると、「5位と6位は入れ替わるかな?」とか、いや「7位もちょっと違う気がする」などという考えが湧いてきて収拾がつかなくなるものです。

よく誰か(たとえば恋人?)のホンネを引き出すために、こんな問いかけをすることはすることってありますよね?「お寿司か焼肉か鉄板焼きなら、どれがいい?」「うーん、お寿司かな」「じゃあ、フランス料理かイタリアンか和食なら?」

これです!これが選択型コンジョイント分析です。つまり、回答者が格段に回答しやすい方法で情報収集を行うのです。選択型コンジョイント分析でも、調査票を設計するのに、やはり実験計画法を使用します。

ただし、こうやって収集された情報を分析するのは、ちょっと複雑になってきます。こういう場合に、確率を用いると複雑な状況を上手く表現することができます。選択型コンジョイント分析で使用できるモデリング手法は、条件付きロジットおよび階層ベイズです。

条件付きロジットを使用した場合、各因子のカテゴリの効用値および各因子の重要度が得られます。条件付きロジットの結果は、回答者全体での結果となりますが、階層ベイズを使用すると回答者個人ごとに、カテゴリの効用値および因子の重要度が得られます。

EXCELでの選択型コンジョイント (CBC) チュートリアル

階層ベイズによる選択型コンジョイント分析(CBC/HB)

 

Viscovery SOMineを用いた選択型コンジョイント分析の結果の分析

選択型コンジョイント分析で、モデリング手法に階層ベイズを使用した場合、回答者個人ごとに、各カテゴリの効用値や各因子の重要度が得られますが、実際、その表を見ても、回答者が多くなればなるほど、全体を掴むのが難しくなります。そこで考えれるのは、得られた結果の表から階層クラスタ分析をすることです。すると、どのような傾向の消費者のグループが存在するかを発見することができます。

しかしながら、従来的なクラスタ分析では、あまりに情報がざっくりしすぎで、本当にデータを理解しているという実感が今ひとつ得られていないのではないでしょうか?

そこで弊社がお勧めするのは、自己組織化マップ(SOM)と統計解析を融合したアプローチです。これができるのは、Viscovery SOMineという製品だけです。SOMは今やありふれたツールで、わりと簡単に入手できるのですが、残念ながらマップが視覚的に色表示されたり、ラベルづけができるという程度の実装では、ほとんど実用的価値が見出せません。

Viscovoery SOMineでは、階層クラスタリングとプロファイル分析を2次元のマップ上で視覚的に行えるので、消費者の各グループの傾向と、グループ間のトポロジカルな配置関係を同時に把握することができます。本当の意味で、腹の底から「データを理解できた」という実感が得られます。

SOMデータマイニング

 

 

 

投稿者:Kunihiro TADA

数量化I類はコンジョイント分析と同じなのか?

昨日、ある方からお電話を頂き、「調査会社に調査を依頼して1300件ぐらいのデータがあるので、それでコンジョイント分析をやろうと思うのだけど、XLSTAT-Basicでいいですか?」というご質問を頂きました。

こちらの回答としては「コンジョイント分析はXLSTAT-Markeringに含まれます。ただし、コンジョイント分析を行うには調査票の設計の段階から同じ統計ソフトを使用するべきです。XLSTAT-Basicではコンジョイント分析ではなく分散分析(ANOVA)ならできますよ」とお答えするしかありませんでした。しかし、それでもその方は「いやいや数量化I類はコンジョイント分析であって、XLSTAT-Basicに回帰分析が含まれるなら、それでできるんじゃないですか?誰かわかる人はいないのですか?」とのことでした。

いやまあ、そう言われるのでしたら、それでもいいのですが、ちょっと勘違いがあるかと思いますので、ここで補足させて頂きます。

数量化I類というのは、日本の統計数理研究所の所長を務められた林知己夫氏が考案したとされる数量化理論の1つです。数量化理論とは、つまり、質的データ(カテゴリ値)を使用した統計手法の拡張です。当時、海外でも同様な研究が行われていて、林氏は海外の研究とは独立に(当時、第二次世界大戦で日本は世界から孤立していました)、この研究を成し遂げたとされています。

—-この話に触れるたびに、私は関孝和を思い出してしまいます。関孝和は、和算と呼ばれた日本版数学の研究者で、代数の発明や円周率の計算を行ったとされています。かつては、関孝和がニュートンらよりも先んじて、微分・積分まで発明していたということがまことしやかに語られたものですが、どうやらその事実はなかったようです。関孝和が天才であったことには間違いがなく、もし彼が日本ではなく西洋に生まれていたら、もっと素晴らしい業績を残したことでしょう。残念ながら、和算は西洋式の数式の記述法と比べて、とても使いづらいものだったようです。昭和の日本人は、西洋へのコンプレックスの裏返しで、「日本が世界初で○○を成し遂げた」とか、「○○は日本が起源」などという話を作るのが大好きでした。そういうコンプレックスの塊のような国が他にもありますね。—-

数量化理論で提案されたことは、海外でもすでに開発され普及しており、数量化理論でなければできないということは1つもありません。海外では数量化〇類という呼び方はまったく通用しませんので、我々日本人はそのことをしっかりと理解しておくことが必要です。

数量化I類というのは、世界標準の統計学では、分散分析(ANOVA)に対応します。これは回帰分析の説明変数が質的変数(カテゴリ)で、目的変数が量的変数(数値)の場合を指しています。したがって、これを既存の(すでに調査が実施されてしまった)アンケート調査データに使用するなら、各設問への回答を説明変数として、何かの量的変数を目的変数とする場合に適用できます。たとえば、購入金額とか来店回数、あるいはウェブサイトの滞在時間などです。これは分散分析であり、コンジョイント分析ではありません。

コンジョイント分析というのは、消費者の好みを調べるための調査とその結果の分析です。消費者に、いくつかの製品(またはサービス)を例示して、その好ましい順位(順序測定値)を回答して貰う調査です。各製品は、いくつかの特性の(カテゴリ値の)組み合わせとして提示されます。分散分析では、このときの特性を「因子(factors)」と呼び、カテゴリのことを「水準(levels)」と呼びます。数量化I類では、それぞれ「アイテム」、「カテゴリ」となります。

ここで、因子と水準の数によって、その組み合わせの数が多くなってしまい、そのすべてを消費者に提示するには無理が出てくるという問題に直面します。そこで実験計画法という手法を使って、できるだけ偏りが生じないように、提示する数を減らす努力を行います。そして、目的変数が順序測定値なので、数量化I類や分散分析の代わりにMONANOVA(単調回帰)という特別な回帰手法を用います。これが本当のコンジョイント分析というものです。

MONANOVAは、まず、①通常の回帰分析(OLS)を行って、回帰係数βを得る。②目的変数Yの予測値(Y)を計算。③予測値(Y)と実測値Yが近くなるように単調変換(Kruskal, 1965)を用いてYの値を変換。④変換値Ytransを新しい目的変数にして新しいβを得る。⑤決定係数の変化が収束するまで①から④を繰り返す。ということを行います。つまり、回帰分析と目的変数の値を最適な連続値に変換する操作を交互に繰り返す方法です。

つまり、仮に順位が1位から10位まであったとして、それらを連続値の得点に変換したときの間隔が単純な9等分とは限らないので、得点を適切な値に修正することを意味します。

残念ながらこうした手法は高額な統計ソフト(XLSTATならXLSTAT-Marketing)にしか含まれません。順序値を連続値に変換する方法としては、このほか、指数関数的減衰曲線などを用いて強制的に連続値に変換する方法があります。これは、どのような曲線を当てはめるかによって変換後の値が異なります。

世間でよく解説されているコンジョイント分析では、回答者に順位を回答して貰う代わりに、直接、評価点を回答して貰うという方法が採られています。これは本当のコンジョイント分析ではなく、簡便法というべきかと思います。この場合、尺度効果という問題が生じます。たとえば、0から9点までの評点を与えるとしても、人によってその尺度の使い方が異なってきます。0から7あたりを中心に使用する人もいたり、3から9あたりを使用する人もいたりします。同じ5という得点でも、その意味するところは、人によって異なるかも知れないのです。これではいくら数理的モデルを使用していても、まったく正確な分析にはなっていないことを容易にご想像頂けるかと思います。

「安物買いの銭失い」という言葉どおり、道具(ツール)を購入するときはお金をケチるべきではありません。機械の性能は、誰が使ってもその性能を発揮します。自動車で言えば、限りなく自動運転に近いような運転支援機能や安全装備のついた自動車は高額です。そこで「初心者だから使いこなせるだろうか?」という心配をする必要はないでしょう。初心者ならなおさら必要な機能もあります。中古の軽自動車にはそんな機能はついていません。性能の良い製品は価格も高くなります。安い製品を買って、高いパフォーマンスを得ようとしても、それは絶対的に無理なのです。ソフトウェア製品の場合も、それはまったく同じことです。

わざわざ調査会社に大金を支払ってデータを収集するのなら、最初から適切な統計ソフトを使用して、しっかり調査票を設計し、調査データをしっかりした手法で分析されることをお勧めします。分析のところは、ほとんどお金をかけずに簡便な方法でお茶を濁すというのはバランスが悪く、とてももったいないです。

 

投稿者:Kunihiro TADA

XLSTATがCOVID-19データ分析の無償提供を開始

XLSTATチームはCOVID-19の最新の症例(感染者)数と死亡者数に関するデータを追跡して分析する機能を無償で提供します。

Excel用アドオン型統計解析ソフトウェアXLSTATの一部として公開するもので、有償のライセンス購入者はもちろん、トライアル・ユーザーおよびトライアル期間が終了した無償版のユーザーに対しても無償で提供しますので、世界中のすべての人々にこの機能を無償でご利用頂けます。

使用するデータは、ECDC(欧州疫病予防管理センター)およびニューヨーク・タイムズのデータで、さらにユーザーの独自データを取り扱うこともできます。最新データを毎日自動でダウンロードして、各国の感染数と死亡者数の推移を追跡し、予測モデルによって、今後の感染者数および死亡者数を予測することができます。予測モデルには二重指数Holt Winters平滑化モデルが採用されております。

この機能を使用するために必要なExcelバージョン

  • MacはExcel 2016以降
  • WindowsはExcel 2007以降

XLSTATの無償ダウンロード・リンク

 

投稿者:Kunihiro TADA

次元削減とクラスタ分析

XLSTAT 2020.1.3では、主成分分析(PCA)、因子分析(FA)、多因子分析(MFA)、多重コレスポンデンス分析(MCA)などの次元削減手法を実行した後に、XLSTATが出力した結果シートの因子得点の表から自動でクラスタ分析を実行できるようになりました。

https://help.xlstat.com/s/article/Excelでの主成分分析-PCA-チュートリアル?language=ja

これらの多変量解析手法は、データ内に潜んでいる<構造>を発見するために使用されるもので、古い用語で言うと「探索的データ分析」であり、近年の比較的新しい用語に言い直すと「データマイニング」であります。次元削減とクラスタ分析を組み合わせる技は、データマイニングではお馴染みの技と言えます。

また、これに付け加えるなら、ビッグデータのクラスタ分析には、K-meansで情報圧縮を行うというのも大変有効な方法です。ただし、注意しておきたいのは、K-meansで最終のクラスタを得ようとするのではなく、K-meansと階層クラスタリングの2段階アプローチを採用するのが重要な点です。つまり、数100万件、数1000万件のデータをK-meansによって、1000個程度の類似したオブザベーションのグループに分けておいて、その1000個程度のオブジェクトに対して階層クラスタリング手法を適用することで、ビッグデータに潜む構造を発見することに役立ちます。XLSTATでは、これも可能です。

https://help.xlstat.com/s/article/k-meansクラスタリングの後にAHCを使用するビッグデータのクラスタリング?language=ja

そして、さらにクラスタリングの後には、必ず<プロファイル分析>を実行することをお勧めします。すなわち、これは各クラスタの統計的特徴を計量的に分析することを意味します。具体的には、クラスタ間での各変数の平均値の差を検定して、有意度の高い順に、各クラスタを特徴づける変数を並べ替えるということを行います。XLSTATでは「変数の評価」機能で行えます。

https://help.xlstat.com/s/article/Excelでの変数評価チュートリアル?language=ja

もう一度おさらいすると、データマイニングには以下のステップが必要となります:

  1. 次元削減(PCAなど)
  2. 情報圧縮(K-meansなど)
  3. 階層クラスタリング
  4. プロファイル分析

XLSTATは一応、これらの機能を提供しておりますので、データマイニング・ツールとしても使用可能です。しかしながら、もう一つ、データマニングの手順に付け加えなければならないことがあります。それは、

  • 変数選択と重みづけ

です。データマイニングが探索的なプロセスであるという理由がここにあります。PCAにしても、クラスタリングにしても、「どの変数を分析に入れて、どの変数を除外するか」で、内在する構造は変化してしまいます。実際には、それらの多様な構造を<探索>して行って、その中から分析の目的に合った「意味のある構造」を発見することこそが、実践的なデータマイニング・プロセスであります。

残念ながら、正式に出版される文献では、こうした泥臭いプロセスは、ほとんど説明されることがありません。最終的に採択されたデータと、各手法でのオプション設定と、その結果だけが文献に出て来ます。それを見てデータマイニングを学ぶ人々が、「正しいデータに正しい手順で、正しい分析手法を適用すると、一発で正しい結果が出てくるはずだ」と思い込んでしまっていることが、とても多いと思われます。

実際のところ、こうしたプロセスを統計解析ソフトウェアで行うのは、かなり煩雑な作業となってしまいます。それを効率化してくれるのが、Viscovery SOMineという別の製品です。Viscovery SOMineでは、1.次元削減と2.情報圧縮の部分を自己組織化マップ(SOM)が担当し、SOMのマップ上で3.階層クラスタリング、4.プロファイル分析まで、わずかなマウス・クリックでできるようになっています。そして、さらに変数選択と重みづけを変えることによって、多数のマップを簡単に作成できるので、そこから芳醇な知識を得ることができます。

PCAと比較して、次元削減にSOMを使用することのメリットは、PCAは単純に新しい因子空間にデータ・オブジェクトを<投影>している(つまり、単純な座標変換)だけなのに対して、SOMは多次元空間内でのデータ・オブジェクトの位相的(トポロジカルな)順序を保持しているというところにあります。詳細な説明は割愛しますが(できれば過去の記事をご参照ください)、SOMの方がPCA等よりも一段高度な手法ということになります。データ空間のトポロジーを考慮するということが、クラスタ分析において「非線形データの自然なクラスタリング」の獲得というところに効いてきます。

 

 

 

 

投稿者:Kunihiro TADA

COVID-19 – 特別なお知らせ

現在のコロナウイルスの大流行(COVID-19)のため、弊社のスタッフを含む(ヨーロッパ)の我々の多くは仕事の習慣を変えなければならなくなりました。

まだ通勤している人もいますが、すでに自宅からリモート・ワークしている人もいます。

この困難な時期にユーザーの皆様を支援して、すぐに効果を出すために、既存のXLSTATユーザー様には、別のコンピューターで追加ライセンスを無料でアクティベートできるように致します。 この措置は3か月間実施され、必要に応じて延長される方針です。

追加のライセンスをリクエストするには、COVID-19 – Special informationと題されたメールのRequest an extra licenseボタンをクリックするだけです。(メールをご確認ください)


これらは私たち全員にとって困難な時期であり、状況の変化に合わせてお客様のニーズに適応できるよう最善を尽くします。安全にご利用ください。

XLSTATチーム

投稿者:Kunihiro TADA

XLSTAT VERSION 2020.1

XLSTAT 2020.1 が利用可能になりました! 新機能は?

スマートな予測ツール:

  • データのタイプに応じて適切なモデルを判断
  • 適合されたモデルの比較を実行
  • 新しいオブザベーションの予測を行う

XLSTAT.ai メニューの下にこの機能があります。

  • ANOVA(すべてのXLSTATソリューションで利用可能)

アルゴリスムが最適化されて、計算時間がかなり短縮されました。事後検定を含む大規模データでのANOVAの実行が、たった数秒でできます。さらに、制限付きANOVARestricted ANOVAが実装されました。このモデルは、固定因子と変量因子の間に交互作用があるときに有用で、固定因子の水準での交互作用の合計がゼロであることを仮定します。

この機能は、データ・モデリング・メニューの下にあります。

適合されたモデルを確認するために、データセットを訓練サンプルと検証サンプルに分割できるようになりました。機械学習 メニューの下にあります。

独立性のFisher の正確検定のp が、分割表(クロス表)のセルごとに表示されるようになりました。相関/属性相関の検定メニューの下にあります。

フリー・ソーティング・テストは、製品の官能評価でよく使用されます。そのような調査から得られるデータが、STATIS、MCA、CAなどの手法とともに我々の新機能を用いて分析できるでしょう。官能データ分析 メニューの下にあります。

動的計画が追加されて、信号因子と出力応答の間の関係性を改善するために、制御因子の最良の水準を決定することができるようになりました。モデルに交互作用を追加する新しいオプションも利用可能です。この機能は、実験計画法 メニューの下にあります。

  • 書庫ファイル管理ツール(すべてのXLSTATソリューション)

あなたのXLSTAT分析を自動でバックアップして、以前に保存したファイルを読み込みます。 この新しいツールは、今のところベータ・テストです。ツール XLSTAT メニューの下にあります。

XLSTAT 2020.1の取得方法は?

バージョン 2020.1 は、ソフトウェアの改良、高度なオプション、パフォーマンスの向上へのアクセスを提供します。このバージョンのインストールは、すべてのユーザー様に推奨されます。

現在トライアル・バージョンをお使いか、有効なライセンスをお持ちであれば、下のリンクから無償でこのバージョンをダウンロードできます:

無償アップグレードおよびメンテナンスへのアクセス権のない永続ライセンスをお持ちの場合は、My XLSTAT ポータルからアップグレードをご注文されるか、より詳細な情報をお問い合わせ ください。