Viscovery SOMineでテキスト・マイニング

投稿者:Kunihiro TADA

Viscovery SOMineでテキスト・マイニング

弊社が取り扱うXLSTATでテキスト・マイニングの特徴抽出機能が追加されたので、それで得られる文書-用語行列を使って、久しぶりにViscovery SOMineでテキスト・マイニングのマップを作成してみました。

データはXLSTATのチュートリアルでも使用されているInternet Movie Database (IMBD)のデータで、4000本の映画評論のテキスト文書です。ワードは268個抽出されていますので、268列×4000行のデータです。各セルには、各評論でのワードの出現頻度が入っています。

まずはViscoveryでデフォルトの設定を用いてマップを作成します。1000個のノードを使用してマップを作成すると、1ノードあたり平均4個のオブザベーション(評論記事)が対応することになります。SOM-Wardクラスタリングのデフォルト設定で(このデータからは)4個のクラスタが検出されましたが、クラスタ数を増やすとより細分類されて、より類似度の高いオブザベーションで構成されるクラスタリングが得られ、マップをより詳細に探索することができます。(Viscoveryではデンドログラムを表示しませんが、マップ上でクラスタ数を調整することで、階層クラスタリングを確認できます。デンドログラムよりも強力なクラスタリングの可視化を提供しています。)

Viscoveryは単なるSOMプログラムではなく、SOMのマップ上でデータ解析を行えます。その最も代表的な機能がプロファイル分析です。マップ上でノードの選択を変えると、それに対応するプロファイル・チャート(棒グラフ)が次々と変化します。(「クラスタの特徴」コマンドで、その結果の要約を一括して出力することも可能です。プロファイル・チャートの元となるデータは、単一のノード、クラスタ、最近接ノードなど、対応するノードの範囲を変えることもできます。)

プロファイル・チャートは、現在分析しているノードまたはノードの集合に対応するデータが持つ特徴を示します。すなわち、データの任意の部分集合と全体集合(またはユーザーが指定する部分集合)と比較して、平均の差が有意な属性(この事例ではワード)を棒グラフで示します。バーの長さは、(全体集合の)標準偏差を単位とした平均の差の大きさです。

したがって、プロファイル・チャートに表示されるワードを見ると、そのノード(またはクラスタまたはノードの周辺など)に対応する文書の特徴がわかります。

分析者がデータの全体像をまだ把握できていない段階では、これはデータの全体像を把握するのにとても役立ちます。しかし、注意しなければならないのは、ひょっとしたら、この結果は、単に既知の知識(当たり前なこと)を表現しているだけかもしれません。

じつは、ここから先がViscoveryの真骨頂であります。分析者は、分析者の関心に応じて、より重要と考える属性(この事例ではワード)により大きな重みをかけて、マップを作成し直すことができます。たとえば、映画評論の場合、映画製作に関するテクニックに関連しそうなワードに重みをかけるなどが考えられます。あるいは役者の演技に関心があるなら、それに関連しそうなワードに重みをかけることができるでしょう。

SOMによるテキスト・マイニングの本当の魅力

自己組織化マップ(SOM)でテキスト・マイニングを可視化するアイデアは、まったく新しいものではなく、かなり昔から知られています。少なくとも私がSOMを始めた約20年前には、すでにそうした研究がありました。しかしながら、率直なところ、あまり一般的な手法にはなっていないと思います。それは、SOMの実践的な活用法がほとんど知られていないからです。

SOMのマップ上では、ワードの出現頻度のパターンの類似性により、類似した文書同士がマップ上の近くのノードに対応する(配置される)ような結果が得られます。しかし、それだけなら、SOMで可視化しなければならない必然性があまり感じられないということかと思います。

特定の話題について関連する文書を検索したい場合は、従来の検索技術で十分に事足りるわけですし、テキスト・マイニングの結果を可視化する方法はSOM以外にもいろいろとあります。類似する文書がSOMのマップに並べられたとしても、多くの人々にとっては、ごく当たり前な結果が得られているに過ぎず、これをどう使えばよいのか、あまり良いアイデアが浮かばないということかと推測します。

これをより実践的に生まれ変わらせるための重要な方法が、ワードへの重みづけなのです。ほとんどの人がここまでやろうとしないので、SOMの本当のベネフィットが得られていないのです。

それは情報の価値ということと関係があります。ワードへの重みづけをやらないテキスト・マイニングは、「どの情報が他の情報よりも重要なのか」という視点・問題意識をまったく持たないのっぺりとした情報整理術でしかありません。

そもそもテキスト・マイニングが役立つ場面というのは、商品企画やマーケティング調査の仮説を構築する場面です。従来はプランナーやリサーチャーが大量の文献を読み込んだり、フィールド調査を行って仮説を構築するのですが、近年ではこれにテキスト・マイニングという方法が追加されました。

プランナーやリサーチャが文献を読み込んだりフィールド調査を行う際に、もし何も独自の視点を持たず漫然とやっているとしたら、それはプロとして失格でしょう。何かの意識を持って能動的に行うべきです。しかし、「どんな情報に着目するべきか?」ということは暗黙のうちに、個人的な判断に委ねられてきました。それを外部化・共有化するのはとても難しいことだったのです。

ところが、SOMによるテキスト・マイニングでは、同じデータを用いても、分析者の関心に応じて異なるマップを作成することができます。それは分析者固有の着眼点を客観化して他者と共有できることを意味しているのです。テキスト・マイニングで得られたワードに対して、分析者の興味・関心に従って重要度を設定することにより、その分析者の目線から文書を分類する「世界でたったひとつの」マップが出来上がります。

SOMで各属性(テキスト・マイニングでは用語)への重みづけを変えて、クラスタリングをやり直す過程は、ちょうどKJ法のグルーピングのステップと対応させて捉えることもできるのです。データから新しい発見があるかどうかは、これを徹底的にするかどうかにかかっているのです。

投稿者について

Kunihiro TADA administrator

マインドウエア総研株式会社・代表取締役。テクニカル・ライター、技術翻訳家。1982年より情報通信/ニューメディア等の技術者向け先端技術セミナーの企画・運営に従事。LAN間接続(インターネットの始まり)や電子メールなど、今日のITの基礎となる技術テーマを取り扱った。1985年より大手コンサルティング会社で新製品・新事業開発のコンサルティングに従事。とくに1986年に開催したAIチップ・セミナーは、ファジィ推論チップ等の当時の最先端のAI技術を国内に紹介して、AI/ファジィ・ブームの契機となった。1990年からフリーランスのテクニカル・ライターとして、マルチメディアおよびCG関連の解説記事を執筆。1994年からは活動基盤を出版からインターネットに移して、1997年には「脱東京」を果たす。2000年にViscovery SOMineを翻訳し日本代理店となる。2003年よりXLSTAT、およびHuginの日本代理店。