反復測定デザインの F-比等の歪みの可能性

Eric's color bar icon

このページは、平成11年3月30日に一部更新しました。
このページは、平成24年10月5日に一部更新しました。
このページは、平成24年10月12日に一部更新しました。
under construction icon

 このページでは、反復測定デザインの検定時の F-比等の歪みについて以下の項に 分けて概要を説明する:

1. F-比等の歪みの可能性の概略
2. 危険率のインフレの SAS によるシミュレーション
3. SAS によるシミュレーション結果
4. 引用文献
5. SAS プログラムや文献のダウンロードコーナー

Eric's color bar icon

1. F-比等の歪みの可能性の概略

 反復測定デザインでは、因子の各水準に異なる被験者を割り付ける通常の分散分析 デザインと異なり各水準に同一の被験者が割り付けられるので、そのような因子は 周知のように被験者間要因に対比させて被験者内要因とも呼ばれる。

 教育や心理の分野では、分散分析デザインとしてこの被験者内要因を1つ以上含める 実験を行うことが多い。このような要因を含む分散分析デザインは、いわゆる乱塊法 、乱塊要因デザイン、もしくは分割区画デザインモデルで、ブロック因子にあたる要因 の各水準を各被験者と見た場合がモデルとなる。

 いずれにせよ、被験者内要因では同一被験者が異なる水準に反応させられるので、 多くの場合水準間に相関が生じる。その結果、上記デザインでの反復測定要因がらみ の主効果や全体的交互作用の検定時の F-比や、さらにはそれらの帰無仮説が棄却さ れた時の各種対比検定時の t-値が歪む可能性が出てくる。例えば、主効果や全体的 交互作用については、この歪みの有無を検討するための仮説は球形仮説もし くは、球状性仮説(英語では、sphericity hypothesis と呼ばれる)と呼ばれ、いわ ゆる球形(球状性)検定 (sphericity test) により検定できる。もっとも、球形検定 も、2要因以上の反復測定デザインでは大局的球形仮説や局所的球形仮説を、被験者 間要因と被験者内要因のミックスしたデザインでは、多標本球形仮説を検定する必要 がある。

 不幸なことに、本邦においても欧米においても一部の研究者や学術雑誌を除き、 最近までこれらの歪みに対する楽観的見解が支配的であった。つまり、球形仮説 からの乖離に対する全体的 F-検定の頑健性について内外の論文の幾つかでは、テスト サイズ(第1種の過誤)のインフレは、例えば名目サイズ5パーセントの場合、高々 10パーセントぐらいであるので、危険率を少し小さめに取っておけばよい、という 見解を述べている。しかし、この見解は以下の簡単な SAS によるシミュレー ションを行えば、楽観的すぎることは明らかである(詳細は、例えば Chino, 1995 を参照)。

Eric's back icon

2. 危険率のインフレの SAS によるシミュレーション

 シミュレーションでは、以下の SAS プログラムを用いて、反復 測定 RB-p ANOVA (1要因反復測定デザイン)で、球形仮説からの乖離が理論的に 最大の場合、すなわち Box/Greenhouse-Geisser のイプシロンの下限値である場合 に、反復測定要因の主効果の F-検定を通常の方式で自由度を全く修正しない時、 テストサイズの名義水準を5パーセントにした時のインフレの大きさを計算し、 グラフにプロットした。
 一般的には、球形仮説からの乖離に対して F-分布はつぎの図の中の赤印の分布の ように、(球形仮説が成り立つ時の青印の分布に比べて)青の全体的には左側に倒 れるように、また分布の右側の尾はより右の方にずれることにより、名義水準の値 からのインフレをまねく。
 なお、最近まで掲載していたこの部分の手書きの図は、一部間違いがあり、以下 の最新の図は、MATLAB で書き直したものである。ここに記してお詫びしたい:

 上の図で、例えば標本の F=2.2 であるとする。また、この値から y 軸に垂直に 伸びる線分より右側の部分の面積、すなわち p値は、赤色の F分布、すなわち球形仮説が 成り立っていない場合の F分布の場合の方が、青色の F分布、すなわち球形仮説が 成り立つ時の F分布の場合よりも明らかに大きい。この現象が、p 値のインフレ を指す。ここで、もちろん図の赤色の F分布の p値は、図の赤で塗りつぶされた 部分の面積と青で塗りつぶされた部分の面積の和である。

 つぎのシミュレーションは、歪みが 最大の場合(すなわち、Box/Greenhouse-Geisser のイプシロンの下限値である場合) に、上の斜線部と網掛け部の合計がどれぐらいになるかを水準数やサンプル数をいろ いろ変えて計算させた結果である。

危険率のインフレの計算のための SAS プログラム

options pagesize=60 ls=80;
data work;
 array ns(5) (3 5 10 20 30);
 alpha=0.05;
 prob=1-alpha;
 ndfr=1;
 do size=1 to 5;
  ns1=ns(size)-1;
  ddfr=ns1;
   do level=3 to 27 by 3;
    ndf=level-1;
    ddf=ndf*ns1;
    f1=finv(prob,ndf,ddf);      /* most liberal F-test */
      p1=1-probf(f1,ndf,ddf);
      f2=finv(prob,ndfr,ddfr);  /* conservative F-test */
      p2=1-probf(f2,ndfr,ddfr);
    pvalue=1-probf(f1,ndfr,ddfr); /* overestimated p-value */
    output;
   end;
 end;
run;

  title 'probability that F is greater than an actual value';
proc print data=work;
run;

/* options pagesize=50 ls=80;  */
proc plot data=work;
 plot pvalue*level=size;
run;


 うえのプログラムを実行すると、つぎのようなグラフが出力される。興味のある ユーザは、自分のサイトで試してみると良い。

Eric's back icon

3. SAS によるシミュレーション結果

pvalue |                                                              1    1
       |                                                    1    1
       |                                               1
  0.30 +                                          1
       |                                     1
       |                                1
       |                           1                                  2    2
       |                      1                             2    2
       |                                          2    2
  0.25 +                 1                   2                             3
       |                                2                   3    3    3
       |                           2                   3         4    4    4
       |            1         2              3    3    4    4    5    5
       |                                3         4    5
       |                 2         3    4    4
  0.20 +                      3    4    5
       |       1    2              5
       |                 3    4
       |                 4
       |            3    5
       |       2    4
  0.15 +            5
       |       3
       |       4
       |       5
       |  1
       |     C
  0.10 +  2
       |  3
       |  5
       |       B              B
       |
       |  B
  0.05 +-----C----------------------------------------------------------------
       |
       |
       |
       |
       |
  0.00 +
       |
       ---+----+----+----+----+----+----+----+----+----+----+----+----+----+--
          3    5    7    9   11   13   15   17   19   21   23   25   27   29
                                                                        level

  Figure 1.  Theoretical maxima of the inflation of the test size in repeated
    measures RB-I ANOVA design when the nominal test size is 0.05.  Numbers,
    1, 2, 3, 4, 5, indicate sample sizes, 3, 5, 10, 20, 30, respectively.
    Positions labelled B and C indicate results by Box (1954b) and Collier
    et al. (1967), respectively.

 上の図で、横軸は反復測定 RB-p デザインにおける反復測度の水 準数を表す。また、 縦軸は危険率が名目5パーセントの時、球形仮説からの乖離が理論的に最大の場合、 危険率はどれぐらいインフレを起こしているかの p-値である。また、図のタイトルの 説明にあるように、図中の数字で1、2、・・・、5は、サンプルサイズがそれぞれ、 3、5、10、20、30であることを指す。また、図中 B 及び C の文字は、やはり 図のタイトルにあるように、Box (1954) や Collier (1967) のシミュレーションで の、名義5パーセントの場合のインフレのシミュレーション結果である。彼らの結果 が一部の研究者の、F-比の歪みに対する楽観的見解を形成させたわけである。

 しかし、上の図から、彼らのシミュレーションが如何に偏ったものであったかは 明白である。この図からは、当該デザインの場合、反復測度の水準数が大で、サンプル 数が小さい場合には、場合によっては p-値が 0.3 を越えること、すなわちインフレ 率は(0.05 の)6倍を超すこともあることがわかる。この結果は、一部の研究者の 言う楽観的見解は場合によっては大変危険であることを示唆している。

 反復測定 デザインに関する詳細な議論については、以下に掲げた Chino (1993, 1994, 1995) を参照されたい。これらについては、ワープロソフト Latex を使っているユーザは、 このページの最後のダウンロードコーナーで直接ダウンロードしていただきたい。

Eric's back icon

4. 引用文献

  1. Box, G. E. P. (1954). Some theorems on quadratic forms applied in the study of analysis of variance problems - II. Effects of inequality of variance and of correlation between errors in the two-way classification. The Annals of Mathematical Statistics, 25, 484-498.

  2. 千野直仁 (1993). 反復測度デザイン概説 - その1. 愛知学院大学文学部紀 要. 第23号. 223-236.

  3. 千野直仁 (1994). 反復測度デザイン概説 - その2. 愛知学院大学文学部紀 要. 第24号. 103-119.

  4. 千野直仁 (1995). 教育や心理の分野における ANOVA, MANOVA, GMANOVA 適用 上の問題点. 愛知学院大学文学部紀要. 第25号. 71-96.

  5. Collier, R. O., Baker, F. B., Mandeville, G. K., & Hayes, T. F. (1967). Estimates of test size for several test procedures based on conventional variance ratios in the repeated measures design. Psychometrika, 32, 339-353.

Eric's back icon

5. SAS プログラムや文献のダウンロードコーナー

a) インフレシミュレーションの SAS プログラム
b) Chino (1993) 論文の本文のみ
c) Chino (1993) 論文の図表
d) Chino (1993) 論文の引用文献
e) Chino (1994) 論文(図表、引用文献含む)
f) Chino (1995) 論文(本文及び図表のみ)
g) Chino (1995) 論文の引用文献

Eric's back icon

Eric's color bar icon