心理学系大学院へ行こう

“心理学系大学院へ行こう”では、主に大学院入試対策向けの参考書や受験のための知識を紹介しています。卒論対策にも一読ください。 さらに, 研究者になるにあたって役立ちそうな記事も掲載しています。psychology_ganbaru

t分布とF分布

2017/12/20 読みやすく改訂

t検定に使うt分布,F検定(分散分析で使用)に使うF分布,なにこれ?

t分布(または、スチューデントのt分布)とは
 「連続確率分布であり,サンプル数が少ない場合に正規分布をとる母集団の平均を推定する問題に使用される」

F分布とは
 「統計学および確率論で用いられる連続確率分布」

と定義されます。両者とも鉤括弧内はWikipediaより引用です。そして後は数式が並びます。

こんなんでわかるか!と思った方がきっとこちらをご覧になっているのでしょう。心理学に従事する文系人間にとってはなんと実用的でない説明でしょうか。

もっと易しく,そしてざっくり解説しましょう。

■ まず,t分布とは大雑把に言うと,正規分布の”サンプル少ないバージョン”と捉えることができます。

つまり正規分布はサンプル数が多いときにしか保証されないので,正確な検定をおこなうためには,サンプル数が少ない場合の分布がほしかった。それで開発されたのがt分布なのです。

だから,t分布はサンプル数に従い変化します。サンプル数がとても多くなると,正規分布と一致します。


正規分布は常に一定の形(尖度・歪度=0)です。いっぽう,t分布の尖度は「6/自由度-4 (df>4の場合)」で計算されます。

自由度の変化≒サンプル数の変化なので,サンプル数が変わると,分布の形が変わるのです。

ちなみにt分布の分散は,「df/df-2 (df>2の場合)」と定義されますので,こちらも自由度に伴い変化します。標準正規分布の分散は常に1です。

さてここでt分布のサンプル数を増やしていくと…尖度は分母が大きくなるので0に近づきます。同様に,分散もサンプル数が∞になると1になります。つまり,t分布のサンプル数が増えると正規分布に近づいていくのです。

まとめると,t分布は「母集団に正規分布を仮定しているんだけど,手元にあるサンプルが少ないから,母集団推定の精度を上げるために,検定に使う分布をサンプル数でちょこっと調整してみたやつ」と捉えることができます。


■ さて,次はF分布ですが,F分布も考え方はまったく同じです。

サンプル数によって形が変わる分布です。使い方もt分布と同様で,その分布から予測される値と,得られたデータから算出された値を比較して有意とか有意じゃないとかってウダウダします。

ただし,2つにはもちろん異なる部分があります。それは,t分布は1つの自由度に影響を受けるのに対し,F分布は2つの自由度に影響を受けます。つまり,F分布の形を決定するには,2つ自由度を決定しなければいけません。

なぜ2つ?というところは今回は飛ばします。知りたい方は本を買って読んでください。

ちなみにt値を二乗した値がF値になります。だからt分布(t値)とF分布(F値)は実質的には,何も変わりません。当たり前です。データの背後にはどちらも同じ正規分布を仮定しているのですから。

t分布表とF分布表の対応が取れる個所を見ると,これがわかります。

t値は自由度が1つしかないので,F値の片方の自由度が1の場合を見てみましょう。

http://aoki2.si.gunma-u.ac.jp/CGI-BIN/ttxp.html
http://aoki2.si.gunma-u.ac.jp/CGI-BIN/tfxp050.html

両方とも危険率α=5%の箇所を見てみると,t分布(df)の値の二乗が,F分布(1,df)の値になります(以下抜粋)。

df  F分布  t分布
1  161.4 12.706
2  18.51  4.303
3  10.13  3.182
4  7.71   2.776
5  6.61   2.571

同じだったら何故ふたつ別々の検定を使うのか!というのは歴史的なこととか,便利さとかその辺に依存していて,F分布(分散分析)のみを使ったっていいわけです。


■ ちなみにそもそも分布ってなに?という方のために。

分布とは,くじ引きの確率が書いてある表だと思ってください。

 一等:1本
 二等:3本
 三等:20本
みたいな。

ただしくじ引きと異なるのは,中くらいの賞が多くて,端っこが少ないことです。100等はきっと罰ゲームで,1等と同じくらいあんまり出さないのだと考えてください。

 一等:1本
 二等:3本
 三等:20本
  :
 98等:20本
 99等:3本
 100等:1本

こんな感じ。


■ おまけ

t分布はスチューデント(本名はゴセット)が開発したもので,F分布はフィッシャーが作りました。t分布は,もともと事後分布としては1875年〜報告されていたらしい(Helmert, 1875; Lüroth 1876)ですが,t検定用に定式化,表にしたのがスチューデントということらしい感じです。

ちなみにt値の”t”は,もともとの論文では”z”とされていましたが,ゴセットがフィッシャーのアドバイスを受けて後に修正されたそうです。