そういえば最近クロス集計って言葉をよく使うけど*1、よく考えたらあんまり説明していませんでした。最初は自分も何のことかよく分かってなかったんだけど、よく使うようになってから当たり前のように喋り出してしまう。これはいかん傾向だ。ということで、リンクでの紹介になってしまうのですが。。。
二つ目の表がいわゆるクロス集計表です。クロス集計ではよく縦軸に「性年代、職業、どの商品を買ったか」などを、横軸に「商品Aにどういう印象を持ったか、利用場面はどういうところか」などを取ってやります。で、全体平均と比べて10%以上高いor低いようなところを探していったり…ということをよくやります。いくつかのクロス集計をやって例えば「20代女性にはこういう場面でよく利用されているのに、打ち出しているイメージが伝わっていない」というような矛盾(?)を探していきます*2。ミスマッチなところって言えばいいのでしょうか。
因子分析、クラスター分析との関連
そういうところを軸に「もっとこういう風な戦略を立てていったらいいんじゃないですか?」というような提案をさせてもらいます。もっともこの縦軸と横軸の取りかたなんて膨大な組合せの方法があるので、愚直にやっていくと結構死にますw。そして、やってみたところで当たり前過ぎる結果とか何にも差異が出てこないとか(本当に)よく起こります。というわけで因子分析で効いてきそうな因子を探り出すとか、クラスター分析でどういう人たちがいるのかなど辺りを付けていく、ということをやったりするわけです。ぶっちゃげ、「クロス集計だけでうまくいってれば世話ないわ!!」とか思ったりしたことありませんよw。
個人的に言わせてもらえば、個人の感覚とかではなく客観的なデータに基づいて提言できるこういう手法は結構好きです。何でって、僕にそういう感覚的なところで勝負させられたら負けるのが目に見えているから。。。
正確さと分かり易さの間のトレードオフ
ところで、この表では全体より、10%低いor高いところには色が変えて表示してあります。統計とかを習った人にとっては(って、僕が初めて見たときに思っただけですが)、「%とかじゃなくってt検定とかやって統計的に優位に違うかどうか見てみればいいのに」とちょっと不思議に思うところがあるかもしれません。%で違いを表すのは(僕の予想ですが)納品させてもらう会社の人が統計に精通していらっしゃらない人もいるから*3、というのが理由かなと思います。複雑なことをやれば、正確なことを言えるかもしれないけど、複雑なことをやって理解されないよりは全体的に見失っちゃいけない方向をしっかり伝える、というのが結構大事です。データ解析でも似たようなことを金澤先生が話されていたような…?要するに正確さと分かりやすさはトレードオフな関係にある、ということです。はい。
実務家と研究者の狭間で
インターンをやりはじめてからの一番の収穫は、もしかしたらデータマイニングに関する知識うんぬんより、「この手法は一言で言えばこういうことで、こんな風に役に立ちます!!」と言えるのが結構重要だ、ということを再確認できたというところな気がします(もちろん、アルゴリズムとかきちんと知った上で解析しないとあれですが、それだけでは足りないんだよってこと)。あとは出てきた数字をつらつらと解説するだけではなく、お客様の側に立って結果をどういう風に実際のプロモーションとかに役立てていくかを真剣に考えることの必要性、とかですかね。
大学で勉強しているとこういうところをないがしろにしてしまうときもあるので、こういうところに気がついて2学期以降勉強できるのは、インターンに行ってよかったなと思います。もっとも「そんなこと気にしないで興味の赴くまま勉強しなさい」というお言葉もあるのですが、自分としてはそっちのほうは体が勝手に動いていくたちなのでw、前者のほうに気がつけたのは大きいかなという感じで。
ああ、いつものごとく何ともまとまりがないぜ。。。
*1:Rで因子分析→クラスター分析→クロス分析の流れをやってみる - Seeking for my unique color.とか。
*2:ごめん、あんまりいい例じゃないですね。
*3:もちろん、こっちより全然詳しい方がいる、というような場合もある。