認知・学習心理情報学合同ゼミ 1996年6月10日

統計的検定は本当に実験心理学にとって有効か?

認知心理情報学講座 石田 翼

心理学で統計的検定が利用される理由

 心理学において統計的検定が用いられている理由は,大きく分けて以下の3つである.

 しかし本当に統計的検定はこれらの目的を達し得るものなのであろうか?ということをこの文章では検討したい.以下でこの3つのそれぞれを検証する.

帰納的推論を本当に行えるか?

 実際の所,統計的検定は帰納的推論をしているようでいて,実はそれを巧妙に避けているのである.具体的に統計的検定がどのような論理展開を行っているか,そのステップは以下のようになる.

  1. 帰無仮説を設定する.
  2. 帰無仮説を仮定した上で,得られたデータがそれから得られる確率(いわゆるp値)を計算する.
  3. それがあまりにも小さい場合は,それは帰無仮説で仮定しているような母集団から得られたものではないと背理法的に判断する.
  4. したがって帰無仮説は棄却されると研究者が判断する.
 以上のように帰納的推論を行うのはあくまで研究者であり,統計的手法ではないのである.

そもそもp値とは何か

 これまでの説明からわかるとおり,いわゆるp値はP(D|H0)であり,通常考えられているようにP(H0|D)ではない.つまり,平たく言ってしまえば,p値は「データから鑑みた仮説がありうる確率」ではなく,「帰無仮説を前提とした際のデータの出現確率」なのである.このような値を用いて帰納的推論が行えるだろうか? ちなみに前者のP(H0|D)の確率は,いわゆるベイズ推計学による逆確率の算出によって得られる.

 以上から,統計的検定は「帰納的推論を客観的に行うこと」には使えないと見ていい.

モデルの適合性を見られるのか?

 まず,心理学研究におけるモデルは,基本的に幾つかの要因についての効果がある・なしの集合体であるとする.
 一方統計的検定が行えるのは,「効果がある」という仮説についての判断であり,「効果がない」ということについては判断できない.したがって上記のようなモデルについては,一部分しか検証し得ない.
 また検定を複数回行うと危険率がそれだけ増える.
 以上から,統計的検定を用いてモデルの適合性を見るのは問題がある.

他の研究の結果と比較できるのか?

 pの値は,要因の効果の大きさとデータ数を乗じたものである(南風原,1995).したがって被験者数や要因の構成が異なる実験同士はp値で比較することは出来ない.そして実際の場面において被験者数や要因の構成が同じ実験というのはほとんどない.したがって,統計的検定の指標であるp値を用いて研究間の結果との比較はできない.

対応は?

帰納的推論について

 ベイズ式のいわゆる逆確率を算出する手法を用いる.

モデルの適合性について

 上記のようなモデルの適合性を比較する手法として,情報量基準統計学というものがある(鈴木,1991).例えば分散分析的なモデルをこの手法で見る場合は,それぞれの要因についてどの水準がどれより大きい・同じであると言うモデルを複数たて,そのモデルとデータとの当てはまりを情報量基準で算出し,どのモデルを採択するか決定する,という手順を踏む.
 これを用いれば,統計的検定に頼らずにモデルの適合性を数量化することができる.

他の研究との比較について

 これはいわゆるmeta-analysisに必要な情報を提供することによって可能になる.具体的には,少なくともそれぞれの条件のそれぞれの水準のそれぞれの組み合わせについて,平均と標準偏差を提供することで可能になる.
 しかしmeta-analysisについても,橘(1986, p.92)が主張するように,公表された実験そのものに偏りがある(有意差が出たものしか発表されないなど)などといった問題はある.

現実的な対応

 心理学とはそういうものだと割り切る.
 結局その手法が正しいかどうかを決定するのは,理論的正当性ではなく査読者である.科学者として,理論的正当性と査読者の意向のどちらを優先するべきかと言えば,後者であろう.科学者の仕事は「論文を発表すること」であり,「理論的により良い方向に進むこと」ではない.

参考文献

Bakan, D., 1966, The test of significance in psychological research. Psychological Bulletin, 66, 423-437.
Cohen, J., 1994, The earth is round (p<.05). American Psychologist, 49, 997-1003.
南風原 朝和,1995,教育心理学と統計的検定.教育心理学年報,34,122-131.
蓑谷 千鳳彦,1988,『推定と検定のはなし』.東京図書.
鈴木 義一郎,1991,『先を読む統計学 「情報量基準とはなにか」』.講談社ブルーバックス.
橘 敏明,1986,『医学.教育学・心理学に見られる 統計的検定の誤用と弊害』.医療図書出版.
吉田 忠(編),1995,『現代統計学を学ぶ人のために』.世界思想社.

私のゼミの発表資料のページに戻る
心理学者としての石田 翼のホームページに戻る
石田 翼のホームページに戻る

ISHIDA, Tsubasa <tbs-i@cpsy.is.tohoku.ac.jp>
Last modified: Sun Apr 16 20:31:48 JST 2000