投稿者アーカイブ Kunihiro TADA

投稿者:Kunihiro TADA

Viscovery SOMineでテキスト・マイニング

弊社が取り扱うXLSTATでテキスト・マイニングの特徴抽出機能が追加されたので、それで得られる文書-用語行列を使って、久しぶりにViscovery SOMineでテキスト・マイニングのマップを作成してみました。

データはXLSTATのチュートリアルでも使用されているInternet Movie Database (IMBD)のデータで、4000本の映画評論のテキスト文書です。ワードは268個抽出されていますので、268列×4000行のデータです。各セルには、各評論でのワードの出現頻度が入っています。

まずはViscoveryでデフォルトの設定を用いてマップを作成します。1000個のノードを使用してマップを作成すると、1ノードあたり平均4個のオブザベーション(評論記事)が対応することになります。SOM-Wardクラスタリングのデフォルト設定で(このデータからは)4個のクラスタが検出されましたが、クラスタ数を増やすとより細分類されて、より類似度の高いオブザベーションで構成されるクラスタリングが得られ、マップをより詳細に探索することができます。(Viscoveryではデンドログラムを表示しませんが、マップ上でクラスタ数を調整することで、階層クラスタリングを確認できます。デンドログラムよりも強力なクラスタリングの可視化を提供しています。)

Viscoveryは単なるSOMプログラムではなく、SOMのマップ上でデータ解析を行えます。その最も代表的な機能がプロファイル分析です。マップ上でノードの選択を変えると、それに対応するプロファイル・チャート(棒グラフ)が次々と変化します。(「クラスタの特徴」コマンドで、その結果の要約を一括して出力することも可能です。プロファイル・チャートの元となるデータは、単一のノード、クラスタ、最近接ノードなど、対応するノードの範囲を変えることもできます。)

プロファイル・チャートは、現在分析しているノードまたはノードの集合に対応するデータが持つ特徴を示します。すなわち、データの任意の部分集合と全体集合(またはユーザーが指定する部分集合)と比較して、平均の差が有意な属性(この事例ではワード)を棒グラフで示します。バーの長さは、(全体集合の)標準偏差を単位とした平均の差の大きさです。

したがって、プロファイル・チャートに表示されるワードを見ると、そのノード(またはクラスタまたはノードの周辺など)に対応する文書の特徴がわかります。

分析者がデータの全体像をまだ把握できていない段階では、これはデータの全体像を把握するのにとても役立ちます。しかし、注意しなければならないのは、ひょっとしたら、この結果は、単に既知の知識(当たり前なこと)を表現しているだけかもしれません。

じつは、ここから先がViscoveryの真骨頂であります。分析者は、分析者の関心に応じて、より重要と考える属性(この事例ではワード)により大きな重みをかけて、マップを作成し直すことができます。たとえば、映画評論の場合、映画製作に関するテクニックに関連しそうなワードに重みをかけるなどが考えられます。あるいは役者の演技に関心があるなら、それに関連しそうなワードに重みをかけることができるでしょう。

SOMによるテキスト・マイニングの本当の魅力

自己組織化マップ(SOM)でテキスト・マイニングを可視化するアイデアは、まったく新しいものではなく、かなり昔から知られています。少なくとも私がSOMを始めた約20年前には、すでにそうした研究がありました。しかしながら、率直なところ、あまり一般的な手法にはなっていないと思います。それは、SOMの実践的な活用法がほとんど知られていないからです。

SOMのマップ上では、ワードの出現頻度のパターンの類似性により、類似した文書同士がマップ上の近くのノードに対応する(配置される)ような結果が得られます。しかし、それだけなら、SOMで可視化しなければならない必然性があまり感じられないということかと思います。

特定の話題について関連する文書を検索したい場合は、従来の検索技術で十分に事足りるわけですし、テキスト・マイニングの結果を可視化する方法はSOM以外にもいろいろとあります。類似する文書がSOMのマップに並べられたとしても、多くの人々にとっては、ごく当たり前な結果が得られているに過ぎず、これをどう使えばよいのか、あまり良いアイデアが浮かばないということかと推測します。

これをより実践的に生まれ変わらせるための重要な方法が、ワードへの重みづけなのです。ほとんどの人がここまでやろうとしないので、SOMの本当のベネフィットが得られていないのです。

それは情報の価値ということと関係があります。ワードへの重みづけをやらないテキスト・マイニングは、「どの情報が他の情報よりも重要なのか」という視点・問題意識をまったく持たないのっぺりとした情報整理術でしかありません。

そもそもテキスト・マイニングが役立つ場面というのは、商品企画やマーケティング調査の仮説を構築する場面です。従来はプランナーやリサーチャーが大量の文献を読み込んだり、フィールド調査を行って仮説を構築するのですが、近年ではこれにテキスト・マイニングという方法が追加されました。

プランナーやリサーチャが文献を読み込んだりフィールド調査を行う際に、もし何も独自の視点を持たず漫然とやっているとしたら、それはプロとして失格でしょう。何かの意識を持って能動的に行うべきです。しかし、「どんな情報に着目するべきか?」ということは暗黙のうちに、個人的な判断に委ねられてきました。それを外部化・共有化するのはとても難しいことだったのです。

ところが、SOMによるテキスト・マイニングでは、同じデータを用いても、分析者の関心に応じて異なるマップを作成することができます。それは分析者固有の着眼点を客観化して他者と共有できることを意味しているのです。テキスト・マイニングで得られたワードに対して、分析者の興味・関心に従って重要度を設定することにより、その分析者の目線から文書を分類する「世界でたったひとつの」マップが出来上がります。

SOMで各属性(テキスト・マイニングでは用語)への重みづけを変えて、クラスタリングをやり直す過程は、ちょうどKJ法のグルーピングのステップと対応させて捉えることもできるのです。データから新しい発見があるかどうかは、これを徹底的にするかどうかにかかっているのです。

投稿者:Kunihiro TADA

XLSTAT 2018ユーザーマニュアル日本語版

XLSTAT 2018 のユーザー・マニュアル日本語版ができました。

すぐにXLSTATのオフィシャル・ウェブサイトからダウンロードできるようになると思いますが、とりあえず下記からダウンロードできるようにしております:

http://www.mindware-jp.com/xlstat/files/xlstat_2018_help_JP.pdf

 

 

投稿者:Kunihiro TADA

XLSTAT version 2018.2

XLSTAT version 2018.2が利用可能です。

ワード・クラウド

文書内の重要ワードを素早く識別するためのパワフルなテキスト可視化ツール。よりカスタマイズされた出力のためにユーザーが色を定義できます。すべての XLSTATソリューションのデータ可視化メニューで利用可能です。

ELECTRE I

意思決定でよく使用されるこの手法は、多基準問題の解を見つけて、比較し、順位づけすることを目的とします。すべてのXLSTAT ソリューションの意思決定支援メニューで利用可能です。

コンジョイント調査計画

完全プロファイルまたは選択型コンジョイント計画を作成するときに、禁止された対を考慮することができるようになりました。XLSTAT-Marketing およびXLSTAT-Premium のコンジョイント分析メニューで利用可能です。

ランダム・フォレスト

Random Input (ランダム入力)法および変数の重要度を定量化するためのMean Decrease Accuracy (平均減少正確度)を含む複数の新しいオプション。すべてのXLSTAT ソリューションの機械学習メニューで利用可能。

投稿者:Kunihiro TADA

Hugin 8.6 リリース

Hugin 8.6がリリースされます。

 

HUGIN Graphical User Interface v. 8.6

 

HUGIN Graphical User Interface がさまざまな新機能で改良されました。新機能は下記のとおり:

– HUGIN Graphical User Interface がデータフレームにデータをロードするために Derby SQL データベース・インタフェースを持ちました。

– HUGIN Graphical User Interface がダイナミック・ベイジアンネットワーク(DBNs)での連続ガウシアン (CG) ノードのテンポラル・クローンの作成をサポートしました。これは、たとえば、カルマンフィルタ・モデル(不確実な情報の組み合わせにより直接観察できないシステムの状態を推定)や離散ノードと連続ノードの混合によるその他のモデルを作成するのに使用できます。正確推論とpartial Boyen-Koller 近似の両方がCGノードのクローンを持つモデルで利用可能です.

– その他のマイナーな改良。

また、HUGIN Graphical User Interfaceのパフォーマンス改善のための作業が行われました。

 

HUGIN Decision Engine v. 8.6

 

HUGIN Decision Engineは、下記の機能で拡張されました:

– Apple iOSを含むSwiftプログラミング言語用の新しいHUGIN Decision Engine アプリケーション・プログラミング・インタフェース。

– Google Android 用の新しいHUGIN Decision Engine アプリケーション・プログラミング・インタフェース。

– DBNでのCGノードのテンポラル・クローンの作成、および、CGノードのテンポラル・クローンを持つモデルでの正確推論とBoyen-Koller 近似推論のサポート。

 

投稿者:Kunihiro TADA

ご注意!XLSTATライセンスの自動更新について(その2)

My CommerceでのXLSTATライセンスの自動更新についてのAddinsoftの見解をお伝えします。

確かにお客様ご自身でMy Commerce(またはShare-it、会社名Digital River)の自動更新をキャンセルされないかぎり、毎年、自動更新が適用されて代金が課金されるのですが、その場合も、いきなり何の断わりもなしに代金を請求しているわけではございません。

My Commerceは代金を再請求する前に必ずEメールでお客様に通知を行っているそうです。お客様はそれに返信してキャンセルを行うことができます。

ただし、ここでMy Commerceからのメールは、お客様が決済方法についてMy Commerceのサービスを利用されるにあたって、My Commerceに登録されているメール・アドレスに送られます。もし(職場が変わるなどして)メール・アドレスが変わった場合は、お客様ご自身でMy Commerceの登録情報(個人情報なので本人しか変更できません)を変更される必要がございます。

My Commerceは多数の商品の発売元とその購買者の間を取り持つグローバルなサービスで、商品の発売元も購買者も、同様に、そのサービスの一利用者に過ぎません。XLSTATのような商品の発売元がMy Commerceと契約しているわけですが、同様に、購買者もご自身の決済方法をMy Commerceと契約される形となっております。

商品の発売元とMy Commerceの会社(Digital River)はまったく異なる会社ですので、発売元が持つ顧客データベースとMy Commerceが持つ顧客データベースがまったく別のものです。

たとえば、メール・アドレスが変わったときに、XLSTATのウェブサイト、またはマインドウエア総研にご連絡を頂くと、XLSTATのユーザー登録情報は書き換えられます。しかし、それとMy Commerceの顧客データベースとはリンクしておりませんので、必ずMy Commerceの登録情報もご自分で変更してください。

 

マインドウエア総研に電話をしてこられて、「知らないうちに自動更新になっている。お宅から買ったのだからお宅で責任取れ」とおっしゃるのですが、それは明らかに間違いです。マインドウエア総研からは購入されていません。確かにXLSTATのウェブサイトをご覧になってXLSTATのライセンスを注文されたのですから、XLSTATのウェブサイト(Addinsoftが所有。マインドウエア総研はそのパートナーで日本語ページの翻訳を担当。)から直接購入されたと解釈することはできます。しかし、決済方法については、お客様ご自身がMy Commerceと契約をされていることをお忘れなきようお願い致します。

もちろんご購入時にマインドウエア総研にご連絡を頂ければ、My Commerceを利用せずに、マインドウエア総研への銀行振込でご購入頂くことも可能です。マインドウエア総研に直接ご注文頂いた分に関しては、自動更新は一切適用されません。(その代わりに、更新を希望される場合は、更新の都度、ご注文を頂かなければなりません。)

 

 

 

 

 

 

投稿者:Kunihiro TADA

ご注意!XLSTATライセンスの自動更新について

XLSTATの年間ライセンスを更新した覚えがないのに更新されているようだが」というお問い合わせを数件頂きました。

XLSTATのウェブサイトのフォームからご注文を頂くと、漏れなく外部の決済代行業者を通してご注文が処理される仕組みとなっております。入口はXLSTATのウェブサイトですが、決済の段階ではDigital Riverという会社が運営するMy Commerce(share-it)というサイトに切り替わっております。

そして、そこから注文されたライセンスは、そのサービスの約款に従って自動更新されます。ご注文の画面にはそれが明記されており、またお客様ご自身でその自動更新をいつでもキャンセルできる仕組みになっております。

Microsoft Office 365などでも同様に自動更新がデフォルトの設定になっていて、この取引の方法は、現在、世界標準となっており完全に合法です。お客様ご自身が自動更新のキャンセルをされない限り、毎年代金が請求されます。これはお客様の自己責任であることをご承知おきくださいますようお願い致します。

マインドウエア総研は、XLSTATの日本語サポートをしておりますが、Digital Riverと契約をしているのはAddinsoftなので、申し訳ございませんが、マインドウエア総研からDigital Riverに直接何かの指示や連絡をして働きかけることができません。

XLSTATのライセンスの自動更新を止めたいお客様は、XLSTATの購入時に作成されたはずのMy Commerceアカウント内でキャンセルの設定をされるか、Digital Riverから受け取られているメールに記載されている窓口にご連絡をされますようお願い致します。

My Commerceのウェブサイトは下記となります:

https://jp.mycommerce.com/私たちに関しては/

My Commerceでも日本語での対応をして貰えますのでご安心ください。

もちろん、XLSTATの購入時にウェブサイトのフォームからご注文される以外に、メール等でお問い合わせ頂いて、マインドウエア総研からご購入頂くこともできます。法人様の場合は、マインドウエア総研から国内の書式で見積書をお出ししており、請求書(銀行振込)による後払いのお取引が可能です。

個人様の場合は、事務を簡素化するために、できればウェブサイトのフォームをご利用頂きたいのですが、(クレジットカードが使用できないなど)特別な事情がある場合は、ごく一部ですが、マインドウェア総研でご注文をお請けします。

マインドウエア総研にご注文頂いた分については自動更新は一切適用しておりません。

よろしくお願い致します。

 

 

 

 

 

 

投稿者:Kunihiro TADA

Viscovery SOMineのビッグデータ分析には4Kモニターが便利

もはやさほど新鮮な話題でもないのですが、4KモニターとViscovery SOMineを使ってビッグデータを分析するというお話です。

Viscovery SOMineは、多次元(多変量)データを可視化する最強のツールです。属性ピクチャ―(各変数値のトポロジカル・ヒートマップ)により、多数の属性間の関係性を可視化することができるだけでなく、さらにクラスタリングや、各クラスタや各領域のプロファイル分析、各種統計解析、選択した領域に対応するデータレコードの表示、クラス分類モデルやローカル回帰モデル(非線形対応の回帰モデル)の作成、そして、それらモデルの適用・検証などができます。そのため作業中のViscovery SOMineの画面には、かなりたくさんのサブ・ウィンドウが表示されます。比較的小規模なデータを分析しているときでも、サブ・ウィンドウがたくさんあるので、通常のフルHDの画面ではちょっと狭く感じることがしばしばあります。

そこで4Kモニターを使ってみると、これがなかなか快適です。さらに8Kモニターというのも市場に出始めている段階ですが、まだまだ価格が高いです。4Kモニターはお手頃価格になってきましたので、これからは4K以上のモニターがViscovery SOMineの推奨動作要件と言えそうです。

 

 

 

 

投稿者:Kunihiro TADA

ご連絡遅延のお詫びとお願い

弊社が利用するクラウド・サーバー業者のシステム・トラブルにより、昨日、平成30年2月23日15時13分頃から20時21分頃までの間の全Eメールが消失してしまいました。消失したメッセージの総本数は数100通を上回るものと推定されます。

この時間帯に弊社およびXLSTATにお問い合わせ、ご連絡頂いたお客様には、たいへん申し訳ございませんが、お送り頂いたメッセージを受信できておりませんので、ご返事ができない状態となっております。誠に申し訳ございません。

もしお心当たりのあるお客様がおられましたら、誠に恐れ入りますが、sales@mindware-jp.comまたはinfo@xlstat.co.jpまで再度メッセージをお送り頂ければ幸いです。

よろしくお願い致します。

 

 

 

投稿者:Kunihiro TADA

ご連絡遅延のお知らせとお詫び

平成30年2月23日15:13頃、弊社が利用しているサーバー業者のメール・サーバーに障害が発生し、18:40現在もまだメールでのご連絡ができない状況です。メールでのお問い合わせはもちろん、ウェブサイト(www.mindware-jp.comおよびwww.xlstat.com/ja)のフォームからのお問い合わせもメールで弊社に転送される仕組みとなっておりますので、それらがすべて受信できておりません。

お客様各位にはたいへんご不便をおかけして誠に申し訳ございません。

サーバーが復旧次第、順次、返信を行って参りますので、今しばらくお待ち頂けますようお願い申し上げる次第です。

 

 

 

 

 

投稿者:Kunihiro TADA

XLSTAT-Rの新機能

XLSTAT-Rに新しい関数が追加されました。

Partitioning Around Medoids (Medoidによる分割)
この教師なし機械学習アルゴリズムは、K-meansクラスタリングのロバストな代替法を提供します。各クラスタの中心が、medoindと呼ぶクラスタ内のオブジェクトの1つによって代表されます(clusterライブラリのpam 関数)。

Dissimilarity matrix for mixed data (混合データの非類似度行列)
量的変数と質的変数で説明されるオブジェクト間のGower 係数を用いた非類似度行列(clusterライブラリのdaisy 関数)。

GARCH modeling(GARCHモデリング)
金融予測でよく使用されるこのモデルは、変動性クラスタリング特性を持つ 時系列に適応します( tseries ライブラリのgarch 関数)。

Kriging
地質学や気象学などのさまざまな分野で使用される時空間補間法の地球統計学的アプローチ (gstat ライブラリの gstat 関数)。