機械学習の基礎として確立・統計を学ぶ中で、ベイズの定理を扱いました。
マセマの参考書は非常に分かりやすかったのですが、図があるとさらに理解が深まると思ったので、自作しました。
注意: 筆者は講義などで大学数学を学んだわけではないので、誤っている可能性があります。(その場合はぜひご一報ください)
ベイズの定理を面積と計算グラフで表す
ベイズの定理で、事象A・事象Aに依存する事象Bの発生確率がそれぞれ分かっているとき、逆に事象Bを前提として事象Aが起きていた確率を求めます。
次の例題を考えます。
- 赤玉と白玉が入った袋Aと袋Bがあります。 - 倉庫から運び出した袋が袋Aである確率は2/3、袋Bである確率は1/3です。 - 袋Aには赤玉が1つと白玉が4つ、袋Bには赤玉が1つと白玉が1つ入っています。 - いま目をつぶって袋を運び出し、そこから1つ選んだ玉が赤玉だった場合、赤玉が袋A由来である可能性はいくらでしょうか?
面積で表す
あとはセルの数を数えれば良いようになっています。赤玉を引く可能性のセルが9つあるうち、袋A由来のセルは4つなので、赤玉が袋A由来である可能性は4/9となります。
計算グラフ
直感的な理解の後は、言語化をします。その補助として計算グラフで表しました。
次の前提があります(時間があったらTeX記法にします)
- 事象X: 袋Aが運び出される(余事象ハットX: 袋Bが運び出される)
- 事象Y: 選んだ玉が赤玉である
求めたい事後確率「赤玉が袋A由来である可能性」について、次のことが言えます。
袋Aを運び出し、かつ赤玉を引く確率は、「袋Aを選ぶ確率×袋Aから赤玉を引く確率」でも、「赤玉を引く確率×赤玉が袋A由来の可能性」としても求められる。
だから、袋Aを運び出し、かつ赤玉を引く確率を求め、それを赤玉を引く確率で割ってあげれば、赤玉が袋A由来の可能性が求められるんですね。
まとめ
面積と計算グラフで、ベイズの定理を直感的に理解し、かつ言語化する補助ができました。