ビッグデータ・プロジェクトはなぜトラブルのか?

投稿者:

ビッグデータ・プロジェクトはなぜトラブルのか?

それは、応用統計学を忘れているから。
Johns Hopkins大学のJeff Leekという人が警鐘を鳴らしています。
ビッグデータに関する主要なワークショップのいずれでも、統計の専門家がほとんど参加していないということが指摘されております。ビッグデータ・プロジェクトで統計学が軽んじられているのには、2つの側面があると私は考えます。
– 1つは、とにかく大規模なデータの取り回しや計算の高速化(並列化)などに技術的関心が置かれた情報が拡散されていて、ユーザーは分析技術にはあまり重大な関心を置いていない傾向があること。
– もう1つは、ビッグデータ・プロジェクトで使用される機械学習でも、もともと統計学から距離を置いたところで研究されてきた経緯があって、両者の間での理解が進んでいないこと。
私は1999年から2005年ぐらいまでの間、自己組織化マップ(SOM)の学術コミュニティとも親交を持っていたのですが、まさにそこで見たのは2番目の状況でした。実際のところ、学生でも知っているべき統計の基礎を無視したような研究をやって、高い学位が授与されている現実を見て呆れたものでした。
あるとき海外から著名な著者を招いて、大学で講演会を開いたことがありました。英語での講演なので、教授が講演内容を逐次通訳していました。しかし、教授がその通訳の中でcentral limit theorem(中心極限定理)を何かわけのわからない日本語(中心制限理論とか何とか)で言った瞬間、聴衆の中の何人かは首を傾げたり、ずっこけたりしていました。
自己組織化マップに関しては、Viscovery SOMineが自己組織化マップの理論と従来の統計学の双方を深く理解したうえで、矛盾のない統合的な実装を実現している市場で唯一の製品です。

投稿者について