「使えるデータ」にするために考えておくべきこと

コラムカテゴリー:

これまで蓄積したさまざまなデータを活用し、新たな価値を見出そうという動きは、もはやあたりまえの時代になりました。データ分析用のツール(BIツール)も、低コストで、使いやすく、視覚化にすぐれた製品がいろいろ出てきています。「よし、さあ、我が社も」というとき、考えなくてはならないのは、今あるデータが分析作業で「使えるデータ」なのかどうかということです。

・自社の顧客の男女比
・年齢構成
・主に利用している店舗・・・など

見てみたい切り口はいろいろあると思いますが、実際のデータを見てみたら、

  • 性別区分に男女以外の謎のコードが入っていた
  • 生年月日に月日のみで年が入っていなかった、あるいは、入っていても生まれ年としてはありえない年号が入っていた
  • ひとりでいくつもの顧客番号を持っているお客様がいた

ということはありませんか。
お客様ひとりひとりの顔がちゃんと見えていなければ、いくら購買動向を分析しても正確なところは何もわかりません。

今あるデータをきれいにし、名寄せして、使えるデータベースにするのがデータクレンジング(データ磨き)というステップです。
まず、あるはずのないコードをそぎ落とし、都道府県名や郵便番号のようにさまざまに省略される可能性のあるものについては、できるだけ補って標準化します。それから注意を払って、名前や電話番号、郵便番号などを使い名寄せしていきます。
しかしこれは、案外難しい作業です。手間と時間がかかります。また、多種多様な入力ミスへの対応には限界があります。ツールなどもいろいろ出ていますが、100パーセントの正解はなかなか得られません。その上、一度きれいにしたらおしまいではなく、新しいデータが入ってくるたび、常に磨いていかないと、あっという間に錆びついてしまいます。

このデータ磨きの精度を上げ、手間を少しでも軽減するために考えておくべきなのは、入ってくる段階で極力きれいなデータにしておくことです。たとえば、

  • 性別コードは男女のどちらかを選択するようにする
  • 生年月日は年月日をそれぞれ入力してもらう
  • 電話番号は携帯、固定電話と入力欄を分けて、ハイフン抜きで入力してもらう
  • 住所は都道府県、市区郡、それ以外と別々に入力してもらう(郵便番号から推測して表示してあげる仕組みを組み込むことも入力ミスの低減につながります)
  • 氏名は漢字氏名とカナ氏名をそれぞれ姓と名に分けて入力してもらう

などの一般的な注意点のほかに、以下の3点も検討しておく必要があります。

1.適切な項目選択
分析に使いたいという気持ちが先行して、むやみに入力項目をふやしすぎると、お客様やオペレータの入力の手間をふやしてしまい、適当に入れてしまったりする危険性もありますので注意が必要です。購買のシナリオの中で自然な流れで得られるデータをしっかり吟味して選びましょう。

2.将来の変更への対応
会社の組織や体制、担当者などは毎年変わっていくものです。同様に重点商品なども変わっていきます。コード体系にはある程度余白を含ませておくことが大切です。
たとえば、必要な情報を商品コードに組み込んでおいて、商品コードを見ればチャネルや商品分類などがわかるようにしておくのは、効率よく必要なデータを取得する手法のひとつです。が、あとから種別が追加になったり、商品分類方法を変えたりしたときにどうするかをあらかじめよく考えておかないと、分析するときになって、結局この項目は使えない、なんてことになりかねません。

3.定期的なモニタリング/フィードバック
システムを運用していく中で困ったことが起きたときフィードバックする仕組みを作っておかないと、各現場で独自に、特定のコード番号に別の意味をもたせるなどのマイルールを作って運用し、やはり分析時に困ってしまうということもありえます。

いずれにしても、注文をいただいたらそれで終わりではなく、お客様とのつながりという財産だととらえ、データに手をかけ標準化して大事に保管しておく先見性が、将来の宝の山を呼び込むのです。

2015年02月10日 (火)

青山システムコンサルティング株式会社

その他