すうがくぶんか統計検定1級対策講座第八回

前回はこちら。

今回で最終回。尤度比検定の練習問題や線形回帰のパラメータの推定量について。尤度比検定から派生して興味が湧いたNPSの信頼区間推定についてがっつり書いてしまった。

多項分布のパラメータの尤度比検定
線形回帰

多項分布のパラメータの尤度比検定

前回めちゃくちゃやった尤度比検定の練習問題として、多項分布のパラメータについての尤度比検定の問題を解いた。3つパラメータ $p_1, p_2, p_3$ を持つケースについて考える。帰無仮説が $p_1 = p_2$ 、対立仮説が $p_1 \neq p_2$ とした場合に、尤度比検定量と有意水準5%の棄却域を求めよ、という問題。

割と素直な問題で、帰無仮説が正しい場合( $p = p_1 = p_2$ )の最大対数尤度をラグランジュの未定乗数法で求めてあげればよい。

NPSと尤度比検定

ここからは実務に関係する話。先ほどの問題は仕事にも使える問題になっていて、多項分布はNPS(Net Promoter Score)で使える問題設定になっている。

そもそもNPSは「XXを友人や同僚にお薦めしますか? 0~10の11段階でお答えください」というアンケートをお客さまに送るというもので、9~10点を付けた顧客を「推奨者」、7~8点を「中立者」、0~6点を「批判者」と分類する。NPSのスコアは、回答者全体に占める「推奨者」の割合から「批判者」の割合を引いた値で定義される。サブスクリプション時代において、リテンションの高さなどはますます重要になってきているが、NPSのスコアと売上成長率への相関があることや「推奨者」は「批判者」に比べてLTVが高いことなどから、NPSは最近カスタマーサクセスの分野を中心に注目を上げているKPIの一つになっている。

仕事でNPSの定期調査をやっていると、「推奨者の割合は批判者の割合よりも高いのか?」といったことが気になってくるが、それは今回の統計検定講座の練習問題と似ている(片側と両側の違いがある)。

NPSの信頼区間推定

NPSは「推奨者」の割合から「批判者」の割合を引いた値で定義されるが、回答時期によって回答数が多い場合や少ない場合がある。NPSのスコアは例えば-10.0のように出てくるわけだが、実現値はある程度揺らぎがある(例: 0 ~ -20の範囲に大体いるはずだ)。C向けのサービスはある程度サンプル数を集めやすいと思うが、B向けのサービスだとそうもいかない場合も多い。ある時期と今を比較してNPSが改善 / 悪化したかを判断したい場合、NPSの信頼区間を求める必要がある。今回興味のある統計量は「割合の差」。これがどういう分布に従うか、段階を追って見ていこう。

標本比率の分布

母分布が二項分布 $\text{Bin}(1, p)$ である母集団を二項母集団、 $p$ を母比率と呼ぶ。二項母集団から $n$ 個の無作為標本を取っていた場合、標本比率 $\bar{p}$ の平均は $p$ 、分散は $\frac{p (1-p)}{n}$ となる(スッキリわかる確率統計より)。

ここで、中心極限定理(あるいはその特殊ケースであるド・モアブル–ラプラスの定理)より、nが十分大きい場合、標本比率 $\bar{p}$ は $N(p, \frac{p (1-p)}{n})$ の正規分布に(近似的に)従う。

割合の差

標本比率の分布が正規分布で近似できることが分かった。よって、標本比率の差は正規分布に従う変数の差を考えればよい。正規分布の再生性より、標本比率の差もまた正規分布と考えることができる。

...が、このまま進めるとよくない。「京都でセブンイレブンが好きな人の割合」と「東京でセブンイレブンが好きな人の割合」の差を考えたい場合はこれでよいが、今回は考えたいのはNPSの「推奨者の割合」と「批判者の割合」の差。NPSでのそれぞれの割合は足して1になる制約上、どちらかを増やせばどちらかが減る(中立者の割合が変わらないならば)。独立ではなく負の相関があるため、それを考慮に入れる必要がある。

ここで、「推奨者の割合」を $p_1$ 、「批判者の割合」を $p_2$ とする。今回考えたい標本比率の差の分散は

$V(\bar{p_1} - \bar{p_2}) = V(\frac{1}{n} (X_1 - X_2)) = \frac{1}{n^2} V(X_1 - X_2) = \frac{1}{n^2} (V(X_1) + V(X_2) - 2 \text{Cov}(X_1, X_2))$

となるが、二項分布の分散を思い出せば $V(X_1) = n p_1 (1 - p_1)$ 、 $V(X_2) = n p_2 (1 - p_2)$ と分かる。 $\text{Cov}(X_1, X_2))$ は一瞬悩むが、冷静に考えると多項分布の共分散であるから、 $\text{Cov}(X_1, X_2)) = - n p_1 p_2$ 。符号が負であることから、「推奨者の割合」と「批判者の割合」は負の相関があることが確認できた。

よって、元々考えたかった「割合の差」に対する分散は

$V(\bar{p_1} - \bar{p_2}) = \frac{1}{n^2} (n p_1 (1 - p_1) + n p_2 (1 - p_2) + 2 n p_1 p_2) = \frac{1}{n} (p_1 (1 - p_1) + p_2 (1 - p_2) + 2 p_1 p_2)$

と分かる。NPSを前提( $\text{NPS} = p_1 - p_2$ )に分子をもう少し整理してみると

$p_1 (1 - p_1) + p_2 (1 - p_2) + 2 p_1 p_2 = - p_1^2 + 2 p_1 p_2 + - p_2^2 + p_1 + p_2 = - (p_1 - p_2)^2 + p_1 + p_2$

とできるが、NPSの定義は「推奨者の割合 $p_1$ - 批判者の割合 $p_2$ 」だったので、 $V(\bar{p_1} - \bar{p_2}) = \frac{- \text{NPS}^2 + p_1 + p_2}{n}$ となる。

NPSの信頼区間

以上の議論から、NPSは平均がNPSの値、分散が $\frac{- \text{NPS}^2 + p_1 + p_2}{n}$ の正規分布に従うことが分かったので、例えばNPSの95%信頼区間は $\text{NPS} \pm 1.96 \times 100 \sqrt{\frac{- \text{NPS}^2 + p_1 + p_2}{n}}$ と計算できることが分かる。100は%をパーセントに変換するための登場。Zendeskでも同様の計算式が使われており、「NPSの調査の誤差をXX以内に抑えたければ、標本サイズはYY以上取るようにしましょう」といったアドバイスもされている。