俺の言うことを聞いてくれ。

論文を年間1000本以上読む男。エビデンスを求めて3000里。科学に基づいた最新の情報を日々更新しています。

- 科学的に証明された知識を手に入れ、日々の生活をUPDATEする-

ジャンガおじさん統計学を学ぶ。その5(ビジネス応用編)

 

こんにちは、ジャンガおじさんです。

 

前回はかなりザクっと確率分布についてまとめていきましたので、

今回記事の中で出てきた分布について具体的に掘り下げていきます。

 

下記のケースを読んでみてください。

 

あなたWEBサービスの責任者です。

・あなたが働いている企業では3か月前に検索サービスをリリースしました。

・検索サービスは広告モデルで広告収入を得て成り立っています。

 

バックオフィスのエンジニアが駆け寄ってきてこんなことを言ってきました。

「新しいUIはサーバーへの負荷が高いので1分間に同時に980人検索サイトに訪れるとかなり読み込みが遅くなり重たくなってしまいます。1000人を超えるとアウトです。。。。」

 

下のデータは12月5日の1分間ごとの来訪者数です。

この時の検索サービスの1分間の平均来訪者数を940人だとします。

時間 来訪者
0 0 776
0 1 886
0 2 989
0 3 835
0 4 760
0 5 875
0 6 769
0 7 865
0 8 962
0 9 827
0 10 813
0 11 916
0 12 944
0 13 967
0 14 878
0 15 885

さて、1001人以上の人が同時に検索サービスに来訪する確率はどの程度でしょうか???

 

ある程度イメージはできているでしょうか。

統計学を用いると将来をある程度予測することができるので、

不確実性が高いビジネス世界においてとても重宝される学問であり、

ビジネスとはとても相性が良いのです。

では、具体的に考えていきましょう。 

 

まずやることは

1、まずサンプルデータの形を確認する

ヒストグラムを作ると、1001人以上の同時にサイトに訪れてはいないことがわかります。

では、1001人以上の同時来訪はない=確率0%なのでしょうか??

 いいえ、違うのです。

サンプルデータから直接確率を算出するのは問題があるのです。
・観測していないものは確率が0になってしまう。
・もし観測したデータがあってもサンプル数が少なければ、極端な確率が出てしまう。
統計学」を使うことで
観測していなくても(近似的に)確率を
出すことができます。
あなたが知りたいのは未来永劫の確率です。

 

サンプルから母集団を推測するには?
・サンプルの世界≠母集団の世界
・サンプルから母集団を推測するにはどうしたらよいか?
 
~母集団を推測するからくり~
統計学には母集団の「分布の型」が用意されており、母集団はその分布に従っていると仮定するとします。
 
 
~母集団はXX分布に従うと仮定しよう!~
・分布の型は「パラメータ」で分布の形が変わります。
・サンプルから母集団に仮定した「分布の型」のパラメータを推定=形を推測する。
 
「パラメーターを推定すると分布の形が決まる。」
これはめちゃくちゃ大切ですので覚えておいてください。
 
復習をしていきましょう!
 
★サンプルから推定するのはパラメーター
・「分布の型」は理論分布と呼ばれる
・理論分布の形はパラメーターと呼ばれる
いくつかの数値できめられる
ここでのゴール
・母集団に理論分布を仮定し、
・サンプルから理論分布のパラメーター全てを推測すること
・これができれば、母集団の分布が推測できる
 
 
先ほどのケースに当てはめてみましょう!
一分間の同時来訪者数を表現する理論分布はポアソン分布で推測することができるのです。
 
ポアソン分布について思い出してみましょう。 
ポアソン分布とは
・一定期間/空間内で
・あるイベントが起こる回数
を表現するための理論分布=ポアソン分布
▼過去記事
 
ポアソン分布が当てはまる具体例は下記の通りです。
・ある交差点で1時間に起こる事故の件数
・1ページの文章で誤字がある個数
・1時間に来店する客の数
 
ポアソン分布は
・一定期間(もしくは一定空間)で
・ある事象が平均??回発生する
と表現できる分布です。
 
平均??回=これがポアソン分布のパラメーターになります。
 
パラメーターを変化させると分布の形が変わるというの
下記のグラフをみると一目瞭然です。
 Plot of the Poisson PMF

上記ポアソン分布(理論分布)です。

下記がポアソン分布の確率質量変数です。(再訂)
{\frac  {\lambda ^{k}}{k!}}\cdot e^{{-\lambda }}

λ(ラムダ)というのは平均を表しています。

ポアソン分布で言うパラメーターとは平均のことであり、

つまり平均が分かれば分布の形を特定することができるのです。

では平均はどこから持ってくればよいのでしょうか?

 

それは、、、

サンプルからパラメーターを推定できるのです!
 
母集団がポアソン分布だと仮定すると、
サンプルの平均=母集団の平均の推定値
として、おかしくないことが理論的にわかっています!
 
今回の例で言えば、
サンプルの平均は940人だった!
母集団の平均もだいたい940人になる
ということになります。
 
よって、観測していないデータの確率を計算できるのです。
 
下記がポアソン分布の確率質量変数です。(再訂)
{\frac  {\lambda ^{k}}{k!}}\cdot e^{{-\lambda }}
そして具体的に値を入れていきます。
イベント数(=k)  0人から1000人までが起動するので 1000
平均(=λ) 検索サイトを1分間に訪れる平均人数 940

 

エクセルで解き方を考えてみましょう。

 

今回の場合は、

1分間で1001回以上の来訪が発生する確率ですので、

1- (1分間で1000回以下来訪する確率)

になります。

 

ポアソン分布のエクセル関数は、

POISSON.DIST(イベント数,平均,関数形式)

 

ですので、エクセルの式はこうなります。

=1-POISSON.DIST(1000,940,TRUE)

=2.51%

 

よって、1001人以上の人が同時に検索サービスに来訪する確率は2.51%

 

この2.51%を許容するのか、しないのかはビジネスジャッジになります。

ただ、サーバーおちるのかなーおちないのかなーでも危なそうだようなー

みたいな感覚的に仕事を行うよりも、2.51%という数字を用いて議論するのとでは

全然違います。より経営判断がしやすくなり、データドリブンで仕事ができるようになるのです。