ビッグデータという、99%の事業者には効果の無い話(山本 一郎) – 個人 – Yahoo!ニュース
http://bylines.news.yahoo.co.jp/yamamotoichiro/20130328-00024117/
ビッグデータは、そうやって使うもんじゃないんじゃない?そもそも・・・ – ウィリアムのいたずらの開発日記
http://blog.goo.ne.jp/xmldtp/e/cd13de092ea5ab00023e18539234078f
ローソンのビッグデータは、なぜ山本一郎氏に叩かれるほどの成果しか出なかったのか? – ウィリアムのいたずらの開発日記
http://blog.goo.ne.jp/xmldtp/e/f6aa4b0ee88352c8bf5b91e2816ce296
久々に「ウィリアムのいたずら」さんの日記を見つけたので、続けて考察してみる。もちろん、Yahoo ニュースのほうは的はずれ。
■ビックデータの定義とは?
定義っていうほどではないのだろうけど、ローソンのPONTAの例で言えば、かつてPOSシステムがなかった時代から、POSの導入で商品の出入りの管理をして、それを個人に紐づけることができたという時代/技術の流れがあって、それを一次元的に集約できるようになったのが「ビックデータ」ってことで ok ですかね? このときのデータはジャーナル的なデータでしかなくて死蔵されているデータ。単なるロギングとも言えますね。これを「ビックデータ」として活用できるためには、
- なんらかの形で、データを加工できるマシンパワーがある。
ことが必須。統計的にサンプリングするのもありなんですが、サンプリングすると、
- 誤差なりノイズなりが消えてしまう
- 局所データが消えてしまう
という不都合があるわけで、ビックデータからの抽出作業(特異なノイズや特徴量など)ができるマシンパワーが必要なわけで、宇宙人探しのアレと同じパターンです。
■ビックデータから何を導き出してはいけないのか?
いけない訳じゃないけど、意味がないよ、ってのは
- なんらかの平均値を出す
- なんらかの中央値を出す
- なんらかのヒストグラムを出す
というようなことは統計学上、サンプリング理論で十分なので、やっていはいけない…というかデータのサンプリングで十分。ウィリアムのいたずらさんの書いてある「紅白歌合戦」の傾向みたいなのですね。詳しいことはサンプリング理論を読んで貰うとして、サンプリングの分布が本来の分布を表すためのサンプリング率というのが算出できます。それに沿ってデータをランダムに抜き出せば、ビックデータを扱うほどのマシンパワーがなくても簡単に統計がとれます。大きなデータを解析するという意味では、7百万件のデータから1秒以内に波形表示をする – Moonmile Solutions Blog の手法を取れば良い訳です。
なので、単に相関図を出したり、年代別の傾向を出したり、県別のデータを出したりしてレポートを造るのは「ビックデータ」を活用している、といはは言えません。いや、10年前ぐらいだと、そのぐらいのデータを処理するために十分アップアップだったわけで、月次なり日次なりの帳票を出すだけでも一苦労だったんですけどね。最近だと、適当なクエリを書くだけで十分です。あと各DBには統計関数が揃っているし。全体を眺めてマクロ的な統計はあまりいらないのです。
■ビックデータから局所の傾向を導き出す
具体的に何が活用できるかというと、PONTA の例をとると、
- 全国の購入データが本社に集まってくる
- 県別に平均を取ると、A市の売り上げが悪いことが分かる
- A市の顧客数、顧客の来る時間帯、商品の品揃えを全国平均、あるいは優秀店舗と比較する。
- A市の商品の品揃えを変更した場合、売上が変わるかシミュレーションする
- 実際に商品入れ替えを行い、シミュレートとの誤差を比較して、4へフィードバックする。
ということが本社のビックデータで可能になるということです。1と2の平均計算は、通常のマクロの統計学の範囲で計算ができます。計算スピード自体は、先のサンプリングだけで十分です。全国の平均がでれば、平均以下の店舗の一覧は簡単に抽出できます。これもいままでのデータ解析の範疇でできます。
3のところから、ビックデータの活用範囲になります。全国区のサンプリング数ではA市のサンプリング数とは異なります。優秀店舗(売上がよい店舗)と全国平均、とA市の店舗の売り上げ、顧客の来店時間などを比較します。仮説として、A市が全国平均と同じパターンの人が住んでいれば、全国平均と同じ売上が上がるはずです。さらにA市が優秀店舗と同じ生活パターンの人が住んでいれば、A市の店舗は優秀店舗になったはずです。ですが、A市の売り上げが悪いとうことが、人の分布、生活パターン、嗜好などが、全国平均や優秀店舗のものと異なっているから、というのが原因です。
A市の店舗が優秀店舗になるためには2つの方法があります。
- A市に住んでいる人を、優秀店舗に住んでいる人と同じように変える。
- A市に住んでいる人の生活パターンに、A市の店舗を変える。
ということです。時には「人」を変えることも可能なのですが(ええ、会社とか)、コンビニの場合には無理な相談なので、店舗の方を変えます。当たり前ですね。
なので、A市の店舗の商品別売り上げと全国平均、優秀店舗のそれと比較して、違いを割り出します。特に優秀店舗では売れているけれども、A市では売れていないものを導き出します。いままのPOSシステムとデータ解析では、ここまで細かくチェックはできずに、全国区の売れ筋商品をA市の店舗にも入れるというスタイル(大衆スタイル)を取っていたわけですが、ネットの普及、細かい対応が可能になってきたので、A市の生活スタイルにあった販売方法(分衆スタイル)が取れます。
そこで、いままではA市の店舗の自己努力(勘とか営業マンが行ってのリサーチとか)になっていたわけですが、商品入れ替えによってA市の店舗の売り上げをシミュレートします。シミュレーションに関しては、地方販売、棚の設定、顧客の時間帯(通勤客、地元の生活客など)を加味したパターンを用意して一気にシミュレートします。商品入れ替えによる売上の確率は、他市の過去の商品入れ替えによる売上の上下による確率を加味させます。
こうすることで、A市で売り上げが上がるであろう商品の品ぞろえ、棚、戦術が生まれます。ここまでシミュレートでしかないので、実際に棚を変えたときに売り上げが変わるのかどうかを、日々のPONTAと、POSで抽出します。PONTA を出さない人もいますからね。そうやって、シミュレーションの結果と現実を比較して、A市の店舗の売り上げが上がるように調節しています。
ってのがビックデータの活用例です。これが、いままでのサンプリング方式やアンケート方式ではできないのが、
- ボトムアップ方式による、A市と全国区との違いを抽出
- A市の生活スタイルに合わせて、商品レイアウトを決定する
- 多数のシミュレーションを行う
- 商品レイアウト変更後の効果をシミュレーションに反映させる
ということが、いままではできません。かつ、単なるPOSシステムの場合には、商品レイアウトの変更案は作業量的にそれぞれの店長任せになるか、全国区の統一レイアウトにならざるを得ないのですが、本社に蓄積されているビックデータを活用することによって、本社から各店舗への個別提案が出せます。以前(と言っても5年以上前ですが)、テレビでみた店舗のレイアウト変更は、3ぐらいまでは店長単位でできていたので、3のあたりを本社が代行したり、シミュレートしたりすることが可能になります。いや既になっているかな?
■数学理論的ビックデータを扱うのは簡単だが
そんな訳で、数学的にビックデータを扱って局所に適用させるのは簡単なのですが、実際のところで難しいのは優秀店舗と平均以下店舗の「違い」をどの物理パラメータ(商品売り上げ、顧客年齢、顧客の来店数など)に割り当てるかですね。時々、これらを論理パラメータ(商品の色、季節商品など)に集約させてしまって見間違えることも多いのですが、まあ、全体売り上げからみると誤差の範囲になってしまうし、そのあたりは「ビックデータから大した情報は引き出せない」という間違った結論に達してしまうのかなと。