統計学の基礎より学んでいること #1
こんにちは。
今日は統計学の基礎について学び直していたので、それを少しまとめて行きます。
1.平均と中央値
はじめに統計学でなくても中学、高校で出てくる中央値と平均について。
データを見て分析する際に平均か分散のどちらを扱うかは、ヒストグラムを見て
判別するそうだ。その理由として、平均は外れ値などの極端に大きな値による
影響が大きく、それにより、正しく平均値が測定できないときもあるためだ。
2つの関係としては、
サンプル数が多く、またヒストグラムが左右対称の場合は平均を使うことが多く、
サンプル数が少なく、ヒストグラムが左右対称でなく、外れ値がある場合に中央値を
使うということである。
2.分散と標準偏差
分散と標準偏差として今回学んだことは、分散はもとの単位から2乗をしているため、平均から足したり引いたりできないということだ。なるほど。この足したり、引くという行為ができる標準偏差というものがあり、これができることが標準偏差の必要性であるということがわかった。
3.確率分布について
確率分布について学んだことはまず言葉として離散的確率と、連続的確率の2つの単語だ。いわゆるデジタルかアナログかということだ。また、言葉として、累積分布関数というものもあった。累積という文字通り、それまでの確率の合計値である。
ところで、教わったものの中に確立質量関数(PMF)や確率密度関数(PDF)という略語が記されており、PDFってPortable Document Formatのことかな?ってすごい思いました。
また、一言に確率分布と言ってもいろいろ種類があり、それぞれの分布の名前で大体どのケースの時に使うかが決まっているそうだ。
・二項分布:コイン投げなど起こるか起こらないかの二択を何回も繰り返すこと
・ポアソン分布:一定時間内で決めたイベントが起こる確率。滅多に起こらないことを
表現するときも。
・正規分布:ランダムに起こる誤差を表す分布のとき。
統計的の基礎的な知識であるが、
内容としてしっかりと理解できたのは、すごくありがたいなと思いました。
ちなみに、僕がわかりやすいと感じた内容ですが、
もとはUdemyというオンラインコースより学んだものとなっています。
おもろそうだなって思ったら下からリンクに飛んでコース買ってみても
いいかもしれませんね。