セミナー室

改訂増補版:統計検定を理解せずに使っている人のためにIII

Ikuo Ikeda

池田 郁男

東北大学未来科学技術共同研究センター

Published: 2019-10-01

改訂増補にあたって

この総説は,「統計検定を理解せずに使っている人のためにIII」の改訂増補版であり,「改訂増補版:統計検定を理解せずに使っている人のためにII」の続きである.改訂増補に当たっての詳細は,「改訂増補版:I」の冒頭をお読みいただきたい.この改訂増補版では,理解しにくい部分について,わかりやすい説明に努めた.また,研究者が比較的行う頻度が高いと考えられる多重比較や二元配置分散分析の対応のある関連多群の検定の考え方を主に書き足した.

「改訂増補版:I」では,母集団標本母分散母標準偏差標本分散標本標準偏差不偏分散不偏標準偏差正規性の検定について主に記述した.「改訂増補版:II」では,標準誤差パラメトリック検定の基本t検定の原理有意水準両側検定片側検定pairedとunpaired t検定の違い等分散性の検定ノンパラメトリック検定の原理や利点欠点について述べた.この「改訂増補版:III」では,3群以上の場合の検定である,多重比較,一元配置分散分析,二元配置分散分析,および,多重性の問題,外れ値の取り扱いを中心に記述する.内容はさらに複雑になることをお許しいただきたい.なお,図番号は前回からの通し番号である.

3群以上の統計検定

2群の場合は,最も単純な群構成であったが,3群以上になると複雑にならざるを得ない.3群以上の検定では,大きく分けて,要因が一つで横並びの試験で,その要因によりなんらかの変化が起こったかを知りたい場合と,要因が2つあり,それぞれの要因が独立して作用しているのか,互いに影響し合っているのかが知りたい試験の2種類がある.パラメトリック検定では,前者は,一元配置分散分析および多重比較,後者は二元配置分散分析および多重比較(場合によっては2群の検定)が係わる.ここでは主に,パラメトリック検定を中心に論じる.

3群以上の統計検定の前に:正規性の検定,等分散性の検定

正規性の検定:3群以上の場合でも,2群の場合と基本的な流れは同じである.検定にはパラメトリック検定とノンパラメトリック検定があるが(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順),どちらを利用するかの考え方は2群の場合と同様である.

図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順

パラメトリック検定は,母集団が正規分布する前提があるので,正規性の検定で正規分布かどうかを調べることができる(改訂増補版:Iの図7).正規分布でなければノンパラメトリック検定となる.しかし,「改訂増補版:I」で述べたように,正規性の検定は標本の大きさnが小さいとあてにならないnが30前後以上であれば,正規性の検定で判断できるが,nが小さいと判断はあいまいとなる.したがって,nが小さい場合はパラメトリックでもノンパラメトリックでもどちらでも利用可能である.nが小さいと正規分布と判定される場合が多いので,基本的にパラメトリック検定を利用することになるがノンパラメトリックも考慮してよい.

等分散性の検定:2群の場合の等分散性の検定に関しては前回説明した(改訂増補版:II,図34).3群以上でも基本的な考え方はそれに準じる.等分散性の検定もnが小さいとあてにならないので参考程度と考えたほうがよい.nが小さいと等分散と判定される場合が多い.等分散の場合とそうでない場合の検定法については,後述する.

3群以上の等分散性の検定はいくつか知られる.ハートレイの検定(各群のnが同じ場合)やバートレットの検定nが異なってもよい場合)およびルビーンの検定などがある(1)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008..筆者はこれらの検定法の原理をすべて把握しておらず,使い分け方にも詳しくない.ここでは,もっともわかりやすいハートレイの検定を簡単に紹介するにとどめる.

この検定の基本的考え方は,前回の2群の等分散性の検定とほぼ同じである.2群の場合,それぞれの群の不偏分散u2の比をとってこれをF値として,F値がF分布することを利用して,F分布に当てはめて検定した(改訂増補版:II,図34).

3群以上の場合,正規分布する同じ母集団から必要な群数の標本をとり(ここでは3群とする),不偏分散u12,u22,u32を計算する.ここで,u12u22u32と仮定すると,不偏分散の最大u12を分子に,最小のu32を分母にして,その比をとる.これをFmaxとすると,Fmax=u12/u32である.不偏分散は3つあるが,それぞれで比を計算すると,ほかの比はFmaxよりも小さくなる.

そこで,母集団から3群の標本を取って,Fmaxを計算することをなんども繰り返して分布を調べるのである.そうすると,F分布と同様の分布になることが知られている.

あとの手順は,2群の場合の等分散性の検定と同様である.ある実験を行って,Fmaxを計算しFmaxがこの分布のどこに位置するかを考える.ここでは,図48図48■一元配置分散分析の考え方(2)のF分布の右下図をFmaxの図と仮定して説明するが,図の右端方向の5%内に入れば,かなり外れたFmax値となるので,等分散というには外れすぎており,等分散とはいえないと判定する.このように,ハートレイの検定では最もばらついている群とばらついていない群の比を基準とすることで,等分散かどうかを判断している.そのほかのF値はFmaxよりも小さい値となるので,Fmaxで等分散と判定されれば,ほかのF値も等分散との判定となる.2群の場合の等分散性の検定を理解していれば,容易に理解できるはずである.詳しくは文献1を参照してほしい.同じ母集団からの標本で計算したFmaxであるから,等分散ではないと断定できるものではないことは,F検定やそのほかの検定の基本的考え方と同じである.

3群以上の統計検定:一元配置分散分析,多重比較(図44, 45)

対応のないパラメトリック検定として一元配置分散分析が知られるが,それに相当する対応のある場合,および,ノンパラメトリック検定の対応のない場合対応のある場合の検定法が存在する(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順).このセミナーでは,主に,パラメトリック検定の対応のない場合(母集団は正規分布,各群は等分散),すなわち一元配置分散分析で説明していく.対応のある場合やノンパラメトリック検定は後述する.検定法は多様であり,それらすべてを理解すれば理想的であるが,統計検定を利用する研究者にとって,そこまでは必要ないと筆者は考える.研究者は代表的な検定法の基本的な原理を知ることで,それをいかに利用できるかを学ぶべきである.そのほかの多様な検定法は,どのような違いがあるのかを簡単に理解しておけばよい.

図45■3群以上の検定で何が知りたいのか?

まずは,要因が一つで横並びの試験で説明する(図45図45■3群以上の検定で何が知りたいのか?).これまでは2群間の比較について述べてきたが,実験研究では群数が3群以上になることはよくある.たとえば,対照群,試験物質1群,試験物質2群…と群数が増え,試験物質の影響を知りたい場合である(なお,二元配置分散分析に相当する試験の場合は後述する).

まず,図45図45■3群以上の検定で何が知りたいのか?の①のように,4群全体で何らかの変化が起こったかを知りたい場合は,一元配置分散分析を用いる.一元配置分散分析は英語のone way analysis of varianceを略してone way ANOVAと呼ばれる.一方,②のように,どの群とどの群で有意差があるかを知りたい場合は多重比較を用いる.②では4群あるが,すべての群間比較を行うと,比較回数は6回となる.これらの比較を,2群の検定法であるt検定などで繰り返して行なってはならない(理由は後述する).これが,まずは基本である.2群間の検定の繰り返しはいまだに研究論文で見かけることがあるが,真似するべきではない.

図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順にあるように,多重比較を行う場合,多くの統計書には,まずone way ANOVAを行って有意差があれば多重比較を行うと記述されている.統計ソフトで多重比較を行うと,one way ANOVAの検定結果も同時に出力される場合が多いが,その結果を無視し多重比較の結果だけを見ている方も多いのではないだろうか? しかし,重要な研究結果を見逃すことになるかもしれないので,どのような考え方で一元配置分散分析が行われているかは,理解しておく必要がある.

一元配置分散分析の考え方(1)(図46)

分散とはバラツキ方であることはすでに述べた.分散分析とは,3群以上ある場合,たとえば,対照群に対して2種類の試験物質を試験したとき(合計3群),試験物質が何らかの影響を与えたかどうかをバラツキ方を用いて調べようとする検定法である.あくまでも,何らかの影響があったかどうかの検定であって,群間比較ではない

図46■一元配置分散分析の考え方(1-1)

概念をつかんで欲しいが,それでも込み入った話になるので注意して読んで欲しい.一元配置分散分析はパラメトリック検定であるから,母集団は正規分布することが前提である.図46図46■一元配置分散分析の考え方(1-1)の左グラフを見て欲しい.

2群の検定の場合と同様に,統計検定では差がないことから考えるので,同じ母集団から3群を取り出すという考え方をする.今,一つの母集団から6個の標本データを取り出す.これを3回繰り返して3つの群を作り,それぞれの群の標本平均をX̄1, X̄2, X̄3とする.

これらの標本平均をどのように比較するかを考える.2群の比較の場合は,2つの標本平均の差を取ったが,3群以上ある場合は,全データ(ここでは3群の18個)の平均である総平均を基準にし,各標本平均が総平均からどれ位離れているかを考える.ここでは,総平均をX̄と定義する.左図では3つの群のデータと標本平均をわかりやすいように上下にずらして示している(赤丸,緑三角,青四角の3群).今第1群(赤丸)の6つのデータをx11, x12, … x16と番号をつけ,右から2番目のデータx12を代表の標本データとして考える.

ここで,標本データx12だけを取り出した図46図46■一元配置分散分析の考え方(1-1)右グラフをみて欲しい.ここで,標本データx12が基準となる総平均X̄からどれだけ離れた(変動した)ところにあるかを考える.総平均X̄からの離れ方を「総変動」と名づけると,総変動は(x12X̄)を計算すればよい.

次に,第1群の標本平均X̄1からx12がどれくらい離れているかを考えると(x12X̄1)を計算すればよい.これは第1群内での変動であるから「群内変動」と名づける.

さらに,x12が所属する第1群の標本平均X̄1が総平均X̄からどれくらい離れているかは(X̄1X̄)で求めることができる.これを「群間変動」と名づける.そうすると,「総変動」は「群間変動」と「群内変動」を足したものであることがわかる(図46図46■一元配置分散分析の考え方(1-1)右下式).そこで,この計算を全18個のデータで行う(図47図47■一元配置分散分析の考え方(1-2)の左側).

「改訂増補版:I」の分散の計算方法の項で述べたが,これら変動はプラスになる場合とマイナスになる場合があるので,平方することに決まっている.

そこで,総変動,群内変動,群間変動をそれぞれ平方し,18個すべてを合計する(図47図47■一元配置分散分析の考え方(1-2)では,縦に合計する).これはいわゆる平方和である.そうすると面白いことに,(総変動)2の総和=(群間変動)2の総和+(群内変動)2の総和の式が成り立つのである(図47図47■一元配置分散分析の考え方(1-2)下の式).そんなバカな!と思われるかもしれないが,実際のデータで計算すると必ず成り立つのである(1)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008..何が言いたいかというと,つまり,すべての標本データのバラツキ方の合計である「(総変動)2の総和」は「(群間変動)2の総和」と「(群内変動)2の総和」だけで考えればよく,そのほかの因子を考慮する必要はないということである.別の言い方をすると,「(総変動)2の総和」は「(群間変動)2の総和」と「(群内変動)2の総和」に分解できるのである(1)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008..これはたいへん重要なポイントである.

図47■一元配置分散分析の考え方(1-2)

一元配置分散分析の考え方(2)(図48)

それでは,群間変動と群内変動を用いて,どのようにして検定するのであろうか? 図48図48■一元配置分散分析の考え方(2)の左のグラフは図46図46■一元配置分散分析の考え方(1-1)の左と同じである.では,図48図48■一元配置分散分析の考え方(2)の右上グラフを見て欲しい.3群の標本平均と総平均は左グラフと全く同じとする(すなわち群間変動は同じ).しかし,群内のデータのバラツキが左グラフよりも小さいため,群内変動が小さい.したがって,左グラフに比べ右上グラフでは,3つの群の間に明確な差があるように見える.この原理を利用したのが一元配置分散分析である.つまり,群内変動に対して群間変動が大きくなると群間に差があることにしようと考えるのである.具体的には,まず,(群間変動)2の総和と(群内変動)2の総和は群数やnが大きいほど大きな値となる平方和であるから,自由度で割って,平均の変動を計算する(これは不偏分散の計算と同様であるが,平均平方という名称が用いられる).そして,以下の式のようにF値を計算する(図48図48■一元配置分散分析の考え方(2)左下式).

ここで,同一母集団から3群のデータを取り出しF値を計算することを,何度も繰り返して,F値がどのような分布をするか求めると,図48図48■一元配置分散分析の考え方(2)右下グラフにあるような分布になることがわかっている.これはF分布と呼ばれる.そうすると,同一母集団から取り出した3群のデータであっても,群内変動に対して群間変動がかなり大きくなる場合が稀に起こりうる(すなわち,F値が大きくなる).F分布グラフでは右端あたりになる.

図48■一元配置分散分析の考え方(2)

有意差の考え方は,計算されたF値がF分布の右端5%内にあると,同一母集団からのデータと考えるにはあまりにもかけ離れており,滅多に起こらないことが起こったと考えて,何らかの影響があったことにしようと判定するのである(これはF検定と呼ばれる).

ここで自由度であるが,群間変動では群数が3であり,それぞれの標本平均から総平均X̄を引いており,計算式に総平均X̄が入っているので,自由度は1減って,3−1=2となる.一般化すると,群数をaとするとa−1である.

一方,群内変動では,それぞれの群で6個のデータがあり,計算式にそれぞれの群(3群)の標本平均X̄1, X̄2, X̄3が入っている(図47図47■一元配置分散分析の考え方(1-2)左側の式).したがって,それぞれの群での計算で自由度が1ずつ減ることになる.そこで,各群の標本の大きさをnとすれば,総標本データ数a×n(ここでは18)からa(ここでは3)減って,自由度15となる.一般化すると,an−aとなる*1自由度の考え方は,前回の脚注7に記載したとおりである.

F分布は自由度の違いで形が異なるので,ここでは自由度(3−1, 18−3)のF分布を用いて検定することとなる.一般化すると,自由度(a−1, an−a)のF分布となる.

その他の分散分析法(図49)

ここまでは,図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順左端のパラメトリック検定,対応のない場合の一元配置分散分析について説明した.パラメトリック検定では,対応のある場合の検定法は,反復測定による一元配置分散分析(one way repeated measures ANOVA)がある(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順).図49図49■反復測定による一元配置分散分析の例に例を示した.同じラットから経時的に採血しているので,「対応のある」実験となる.たとえば,0分と5分後の2点の比較であれば,paired t testを行うことができる.しかし,ここでは4点あるので,paired t testは使えない.分散分析は何らかの変化が起こったことがわかるので,この例では有意差が得られれば,統計的に有意に増加が起こったと判断される.

図49■反復測定による一元配置分散分析の例

母集団が正規分布しない,あるいは等分散でない場合にはノンパラメトリック法を用い,対応がない場合はKruskal–Wallis法,対応がある場合はFriedman法がある(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順右側).2群のノンパラメトリック法は前回説明したが,3群以上でも基本的な原理は同様であり,データを順位に置き換えて検定する.これらの検定法については,拙著にその原理を簡単に説明している(2)2) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017..また,詳しく学びたい場合は,文献1を参照されたい.

多重比較の基本的考え方(図50)

多くの生命科学系研究では,図45図45■3群以上の検定で何が知りたいのか?の②にあるように,どの群とどの群の間で有意差があるかを知りたい場合が多いのではないだろうか? この場合は多重比較を用いる.基本的に,t検定を繰り返し用いてはならない.

図50■3群の場合の合算の不偏標準偏差の計算方法

多重比較はたくさんの方法が考案されており,それらすべての考え方を理解することは困難で,生命科学系研究者がもっとも知りたい,それらの使い分けを知ることも容易ではない(筆者も同様である).研究者は基本的ないくつかの検定法についての考え方と使い方を理解すれば,大半の実験で利用できると筆者は考える.

すでに,2群の場合のt検定の原理は前回説明した.多重比較だからといって全く異なる計算を行うわけではなく,原理は2群の場合とそれほど違いはないので安心してほしい.t検定の場合のt値を計算する式は以下であった.この式の誘導がわからない場合は,前回の図24~26を参照して欲しい.

この式の分母は,同一母集団から2群の標本をとって得られた2つの標本平均の差(X̄1X̄2)の標準誤差であり,これを基準(分母)として,標本平均の差(X̄1X̄2)(分子)がどれくらい大きいか(あるいは小さいか)を計算している.ここで,uは2群の合算の不偏標準偏差である(改訂増補版:IIの図26).簡単に言えば,標本平均の差(X̄1X̄2)のバラツキ((X̄1X̄2)のありそうな範囲)を基準にして(分母),分子の(X̄1X̄2)がt分布のゼロからどれくらい離れているかを計算している.かなり離れていれば有意差ありと判定する.

3群以上ある場合でも,ほぼ同様の考え方であるが,分母の不偏標準偏差が異なる.3群以上ある多群の場合は,合算の不偏標準偏差は実験したすべての群で合算して計算する.つまり,3群であれば,3群分の平方和を足し,3群分の自由度の合計で割って平均平方(不偏分散の計算と同じ)を計算し,それをルートして不偏標準偏差を求める(図50図50■3群の場合の合算の不偏標準偏差の計算方法).この値をvとする.すなわち,3群分のバラツキを基準にして,ある2群の標本平均の差,たとえば(X̄1X̄2)を計算して,t値を求める.このt値は2群の場合と同様t分布するので,t分布に当てはめれば,有意差があるかどうかわかる.このあたりはt検定の手順と同様である.すなわち,計算式は以下となる.(X̄1X̄3)および(X̄2X̄3)についても同様に計算してt値を計算し,t分布で検定する.この方法は,最小有意差法(LSD法,あるいは,FisherのPLSD法)と呼ばれる.

このように,多重比較は基本的にはt検定を拡張した検定法であることがわかる.この検定法は,最も有意差のでやすい検定法であるが,後述する多重性の問題があり,3群の場合でのみ利用することができる.後述するが,この多重性の問題をクリアするために多くの多重比較法が開発された.

多重比較を行う前の一元配置分散分析は必要か?(図51)

もともと,一元配置分散分析は「何らかの影響があるかどうか」を調べることに役割をもった検定法であり,研究分野によっては利用価値がある.一方で,どの群とどの群同士で違いがあるのかを知りたい研究者は,多重比較で検定する必要がある.統計ソフトで多重比較を用いると,一元配置分散分析の結果も同時に表示される.すでに述べたが,多くの統計書には一元配置分散分析で有意差が得られ「何らかの変動が起こった」と判断されると,多重比較に進むと記されている.確かに,一元配置分散分析で変動が検出されないのに,多重比較では,ある2群間に有意差があるというのはおかしな話である.しかし,現実ではこの現象はよく起こるのである.これは一元配置分散分析と多重比較の考え方の違いが原因である.

一元配置分散分析では,(群内変動)2の総和/自由度)に対する((群間変動)2の総和/自由度)の比を求めることから,標本データのばらつき全体に対する標本平均のばらつき全体で考えている.したがって,たとえば,群数が多い場合,そのなかで1群の標本平均のみが変動しても,全体としては埋没してしまう可能性がある(図51図51■一元配置分散分析では有意差はないが,群間比較では有意差がある可能性のある1例*2逆も起こりうる.つまり,一元配置分散分析で有意差があるのに,多重比較では全く差がないという現象である.これも困ったことであるが,群間比較が目的であれば,多重比較の結果を尊重せざるを得ない.(3)3) 足立堅一:“らくらく生物統計学”,中山書店,1998..一元配置分散分析はまさしく「全体で何らかの変動が起こった」ことを調べる方法であり,ある成分の有効性試験,機能性試験や栄養試験などで関心のある特定の2群間の比較に注目しているわけではない.そこで,『統計的多重比較法の基礎』(4)4) 永田 靖,吉田道弘:“統計的多重比較法の基礎”,サイエンティスト社,1997.では,「多重比較と通常の一元配置分散分析は別物であり,多重比較を適用するときは,その手順のなかに示されていない限りはF検定による一元配置分散分析を併用するべきではない」と述べている.

図51■一元配置分散分析では有意差はないが,群間比較では有意差がある可能性のある1例

すなわち,多重比較の結果のみが知りたい場合は,一元配置分散分析の結果はあまり考慮する必要はないようである.

一元配置分散分析を行う必要のない多重比較

以上のことから,一元配置分散分析を行わずに多重比較を実行してよいとされる多重比較がある(4)4) 永田 靖,吉田道弘:“統計的多重比較法の基礎”,サイエンティスト社,1997..それらは,Dunnet法,Tukey–Kramer法*3なお,Tukey法と呼ばれるのは,各群のnが同じ場合,Tukey-Kramer法は各群のnがそろっていなくてもよい検定法である.後者はnが同じ場合でも利用できるので,一般的には後者が利用される.およびBonferroni法とその関連法などである.一方,Scheffe法,Games–Howell法,Fisher PLSD法は一元配置分散分析のF検定で有意差がでなければ,多重比較でも差が得られない検定法とされる.

3群以上あるとなぜ多重比較か?(図52)

改訂増補版:IIの図25~27で示したように,t検定では,ある母集団から取り出した標本平均同士の差(X̄1X̄2)をとり,これを何度も繰り返すと正規分布し,不偏標準偏差に置き換えるとt分布する.(X̄1X̄2)の値がt分布のかなり外れたところ(両側検定では両側の2.5%)にあると,滅多に起こらないことが起こったと考えて,有意水準(危険率)5%で有意差ありと判定した.さらに,有意水準5%は20回に1回は起こりうる確率であることも述べた(図28).

ここで,もう1群増えて合計3群の試験を行った場合どうなるかを考える(図52図52■3群以上あるとなぜ多重比較か?).3群以上でも実際に比較するのは2群同士であるから,t検定を繰り返していけばよいのではないかと考えるかもしれないが,それはよくないとされる.

図52■3群以上あるとなぜ多重比較か?

まず,ある母集団から3群取り出して,それぞれの平均値をX̄1, X̄2, X̄3とする.これら3群でそれぞれ差を比較すると,差の検定は,(X̄1X̄2),(X̄1X̄3),(X̄2X̄3)の3回行うことになる(図52図52■3群以上あるとなぜ多重比較か?).もし,それぞれの差の検定をt検定で行うと,もともと有意水準5%での2群の検定では20回同じ実験を行うと1回は,本当は差がなくても有意となりうる確率である.たとえば,(X̄1X̄2)の比較では,赤丸では有意差がないが,黒丸◯で有意差が得られたとする).(X̄1X̄3)や(X̄2X̄3)でも同様に検定するので,それぞれの検定で,20回に1回はどこかに有意差が出ることになる(▲や■).つまり,同じ試験を20回行うと,どこかの試験で有意差が出る確率は,3回に増加する(図52図52■3群以上あるとなぜ多重比較か?下側).具体的に確率を計算すると,3群で3回検定を行うと,有意とならない確率は(1−0.05)×(1−0.05)×(1−0.05)=0.86となり,有意水準が14%となり,通常の5%のほぼ3倍に増加する.4群になると群間比較は6回繰り返しとなり有意水準26%,5群では10回繰り返しとなり有意水準40%に上昇する.このように,群数が増えれば増えるほど,本当は差がないのに偶然どこかに有意差がでてくる確率が高くなる.すなわち,t検定を繰り返すと有意差が検出される確率が増加する.これが問題視され,多重性の問題と呼ばれる.このような多重性の問題を解決するために,有意水準の増加を極力小さくしたのが多重比較である.簡単に言えば,有意水準を狭めることで,全体の有意水準を5%に調整するのである.

多重比較法の検定原理:多重比較は2群間の比較よりも厳しくなる!(図53, 54)

多重比較では有意水準を狭めているから,当然のことながら, 2群のみの比較よりも検定は厳しくなり,群数が増えれば増えるほど厳しくなる図53図53■多重比較はt検定よりも厳しい!).したがって,研究を行う際に,あれもこれもと考えて多群で一度に実験してしまうのは考えものである.目的をはっきりもち,極力群数を減らす努力をしたほうがよい.

図53■多重比較はt検定よりも厳しい!

図54■Tukey–Kramer法の原理

多重比較はいろいろな方法が考案されているが,上記の有意水準の狭め方がそれぞれで異なり,厳しかったり,緩かったりする.したがって,同じデータを用いて種々の多重比較を実施すると,有意差があったりなかったりすることになる.

最も単純でわかりやすいBonferroni法では,たとえば3群の場合,2群の差の検定は3回行う必要があるので,単純に有意水準0.05を3で割って,0.017を有意水準とする(図53図53■多重比較はt検定よりも厳しい!).このようにすれば,3回検定しても全体の有意水準は0.05に保つことができる.4群の場合は6回検定を行うので,0.05/6=0.0083を有意水準とする.5群の場合は10回の検定となるので,有意水準は0.005となる.このように,Bonferroni法の場合は群数が増えると有意水準が飛躍的に小さくなり厳しい検定となるので,5群以上では用いるべきではないとされる.厳しすぎるのである.そこで,Bonferroni法の関連法であるHolmやShaffer法ではこの点が改良され,この厳しさが緩和されている.Holm法の簡単な原理は,拙著で説明している(2)2) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017.

また,よく用いられる多重比較としてTukey–Kramer法がある.この検定法は,Bonferroni法とは異なる原理で有意水準を狭めている.

Tukey–Kramer法は最もよく用いられる検定法の一つである.この方法では,計算式は以下の最小有意差法の場合と基本的には同じである.

たとえば,3群あるとして,標本平均の差は,(X̄1X̄2),(X̄1X̄3)および(X̄2X̄3)が得られるが,そのうち,最大の差で考える検定法である.比較する2つの標本平均をX̄iおよびX̄jで表すとして,最大の差を,max|X̄iX̄j|で表すこととする.差の最大を示すためにマイナスがでないように絶対値を用いている.この点で,最小有意差法の式とは異なってくる.Tukey-Kramer法では,このmax|X̄iX̄j|の場合にt値がどのように分布するかを考える(最大のt値なので,ここではmax.tで表す).すなわち,正規分布する母集団から3群とって,以下のmax.t値を計算することを,無限に繰り返してt値の分布を調べると,図54図54■Tukey–Kramer法の原理の実線で書いた分布になる.これはt検定ではt分布になったが,式の分子を絶対値としたのでマイナスにならず,このような分布になる.この分布はF分布に似ており,「スチューデント化された範囲の分布」と呼ばれる.

あとは,F検定と同様で,ある実験を行って得られたt値がこの分布の外れたあたり(右方向の有意水準5%)にくれば,かなり外れているので,有意差ありと判定する.max|X̄iX̄j|以外の標本平均の差|X̄iX̄j|は,max|X̄iX̄j|よりも小さな値になるので,t値も小さくなり,その分布をとると図54図54■Tukey–Kramer法の原理の点線で書いた図となる.この点線の分布で有意水準5%で検定すると,図の青の部分となり,かなり小さなt値でも有意差が得られるが,それをせず,max|X̄iX̄j|での分布で検定を行うと(図の赤の部分),そのほかの差の検定も有意水準5%を超えずに検定できるという考え方である.

この検定法は,5群以上ではBonferroni法よりも厳しくないので,よく用いられる(2群の検定よりも厳しいことに変わりはないが).

このように,多重比較では多重性の問題をいろいろ工夫して解決しようとしていることがわかる.

多重比較の欠点(図55)

ここでは多重比較での,注意しなければならない点を挙げる.

多重比較は「対応のない場合」で開発され,ほとんどの場合「等分散」が仮定されている.「対応のある場合」は検定法がないので,対応のない場合の検定法で代用される(後述する).したがって,paired t testのような厳密な検定は無理であることを知っておくべきである.等分散でない場合は,パラメトリック法があるにはあるが,ノンパラメトリック法も検討した方がよい.

多重比較は判定が厳しく,群数が増えれば増えるほど厳しくなる.しかも,いろいろな検定法で厳しさが異なるので,検定結果に違いが出る.したがって,ある検定法で有意差がないからといって有効性がないとはかぎらない.たとえば,多群で行った試験を,2群の試験でやり直すと有意差が得られることはありうる.有意差がないからといってあきらめないことである(図55図55■多重比較の欠点上).

図55■多重比較の欠点

多重比較では群数が増え,比較回数が増加するほど厳しい検定となるので,比較回数を減らす工夫が必要である.たとえば,機能性物質が5種類あって,それらをある細胞に添加したとき,特定の細胞内物質を増加させるかを知りたいとき,無添加群を対照として変化を見たい.この場合,5種の機能性物質は無添加群とのみ比較すればよく,機能性物質間の差を調べる必要がないという研究はよくある.対照群とのみ比較すれば,全群間で比較するよりもかなり比較回数が減る.このような検定法が存在し,パラメトリック検定では,Dunnett法である.

最小有意差法のt値の計算式は前項で示したが,分母は標準誤差である.この分母のvは全群の合算の不偏標準偏差である.つまり,t値は全群のばらつき方を基準として,2つの標本平均の差がどれくらいあるかを示す値である.分母が大きな値になると相対的にt値は小さくなるため,有意差は得られにくくなる.

そこで,たとえば図55図55■多重比較の欠点右グラフのように,大きな標本平均と大きな標準偏差をもつ群(C群)が存在すると,合算の不偏標準偏差がかなり大きくなると考えられる.そうすると,A群とB群を比較する場合,標本平均の差が相対的に小さいので,t値は小さくなり,この群間の有意差はでにくくなる.そこで,A群とB群だけ取り出して,t検定を行うと有意差が得られるが,3群で検定するとA群とB群間には有意差がないということがありうる.実験目的がB群であったら大問題である.だからといって,C群を外し,あたかもA群とB群の2群の試験であったように見せかけて公表するのは,データ改ざんとなり許されない*4ただし,たとえば,実験計画段階で,A群は対照群,B群が目的の試験物質群としてA群とB群だけで比較すると計画したとする.しかし,実験自体が妥当なものかどうかを判断する目的で,C群をポジティブコントロールとして,B群の試験物質と同様の効果があることがすでに知られている物質を与えた群を設けたと仮定する.この場合,C群を測定項目が妥当な応答をするかどうかを確認するためだけに用いるのであれば,多重比較を適用せず,A群とB群だけで2群間の比較をすることは可能と考えられる.あくまでも,実験計画段階でそれを宣言する必要がある.もちろん,決してA群とC群あるいはB群とC群を比較してはならない.さらに述べるならば,当初は多重比較の3群として計画したが,図55図55■多重比較の欠点のグラフのように,C群があまりにも大きな値となってしまったために,実験終了後にC群を後づけで排除し,A群とB群だけで2群間比較を行うことは許されない..このように,多群の試験では,各標本平均が大きく違うと(変動していると),t値計算の基準となる分母が大きくなるため,差の小さい群同士の有意差は得られにくくなることを覚悟したほうがよい.差の小さい群同士の違いを調べたいのであれば,それらの群のみを別に試験すべきである.

なお,このようなデータの場合,ノンパラメトリック検定が有効かも知れない.ノンパラメトリック検定では,データを順位に置き換えるので,数値上の大きな差がなくなる*5筆者は図55図55■多重比較の欠点のようなデータで,A群とB群間にTukey–Kramer法では有意差が得られなかったが,ノンパラメトリック検定の多重比較(Steel–Dwass法)を適用し,有意差をえた経験がある..

多重性の問題はほかにもある!(図56)

ここで多重性の問題についてもう少し述べる.図56図56■そのほかの重要な多重性の問題の上側を読んでほしい.ある実験を行って思うようなデータがでず,再度同じ試験を行うことは,われわれにもある.再実験でよい結果が得られたことから,そのデータを論文にしたとする.よく考えてみると,1回目と2回目の試験でどちらがより真実に近いかは,実はわからない.これも多重性の問題に相当する.何度も同じ実験を繰り返すと,そのうちに本当は差がないのに有意となる可能性が高まる.2回同じ試験を行うと,有意差がでない確率が(1−0.05)×(1−0.05)= 0.90となり,有意水準が10%へ上昇する.簡単なin vitro試験であれば,思うようなデータがでるまで,何度でもやり直せるが,実は多重性の問題をはらんでいることを認識すべきである*6「改訂増補版:I」で言及したが,データには測定誤差が含まれる.測定誤差が大きいと判断されるデータの場合に全く同じ試験を繰り返し行うのは仕方がない.しかし,その場合,1回目と2回目に測定したデータのどちらが真実に近いかはわからない.測定誤差の大きい測定者はまず訓練すべきである.なお,測定誤差もまた正規分布することが知られる.

図56■そのほかの重要な多重性の問題

図56図56■そのほかの重要な多重性の問題の下側を読んで欲しい.このような恐ろしい結果になると,笑っては済まされない.実は,われわれの身の回りでは結構起こっている.筆者の印象では,たまたま有効性の得られた論文がかなり多く出回っている.研究論文とは必ずしも正しい内容のものばかりではない.publishされた論文を鵜呑みにしてはいけないし,1回の実験結果だけを論文にするのは危険である.研究者にとって再現性を調べることは必須である

さらに多重性の問題!(図57)

さらに,身近なところに多重性の問題は潜んでいる.動物や細胞試験では一度の試験で多くのパラメータを測定する場合がある.多重性の問題という観点から考えてみると,一つひとつの測定パラメータは,本当は差がなくても有意水準5%の確率で有意となる可能性がある.そうすると,20項目測定すると,1項目は偶然に有意となる可能性がある.マイクロアレイでは多数のデータが得られるが,そのうちの5%は偶然の有意差かもしれないことを認識すべきである.パラメトリック検定の基本的な考え方からすれば,そうなることが宿命であることは,このセミナーの読者であればご理解いただけるはずである.

図57■まだまだ多重性の問題!

このようなことを避けるためには,測定項目は極力減らすのがよいが,実際問題として,それはできないのが普通である.われわれにできることは,別の角度からの実験を行って,同様の結果が得られるかを調べ,データの再現性をみることである.偶然の有意差には再現性はないはずであり,真実を見極める必要がある.上述のマイクロアレイであれば,重要な遺伝子は,必ず,PCRなどで確認すべきである.あるいは,別の角度から実験条件を変えて試験を行えばよい.間違いのない真実であれば,実験条件を変えても類似の結果が得られるはずである.一回の実験だけを論文化する危険性がここでも見えてくる.良識ある研究者であれば,このような多重性の問題を頭の片隅に置いて,研究を行うべきである*7残念ながら,再現性のない論文が世の中には氾濫していることは,「改訂増補版:I」で指摘したとおりである.

一般に用いられる多重比較

比較的よく用いられる多重比較を示す.

パラメトリック検定–対応のない場合

全群の比較では,等分散の場合は,Tukey–Kramer法,Bonferroni法とその関連法(Holm法,Shaffer法),最小有意差法(3群のみ利用可能)がある.

等分散ではない場合は,Games–Howell法があるが,筆者は利用経験がない.この方法は標本の大きさnが同じ場合に用いることができる.また,ノンパラメトリック法も用いられる(Steel–Dwass法)(1, 2)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008.2) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017.

対照群とのみ比較する場合は,等分散の場合はDunnett法がある.等分散でない場合は,ノンパラメトリック法(Steel法)を用いる.また,たとえば,試験物質の投与量依存的にあるパラメータが次第に上昇するあるいは降下するような場合は,Williams法が有意差はでやすいとされる.

ノンパラメトリック検定—対応のない場合

全群の比較では,Steel–Dwass法があり,対照群とのみ比較する場合は,Steel法がある.Williams法のノンパラメトリック版として,Shirley–Williams法がある.上述のように,母集団が正規分布しているが等分散でない場合はノンパラメトリック法を用いることができる.

Steel–Dwass法やSteel法は馴染みがないかもしれないが,パラメトリック法と遜色ない検定法である.ノンパラメトリックの多重比較の原理はここでは述べないが,興味があれば拙著(2)2) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017.および文献1を参照されたい.

パラメトリックおよびノンパラメトリック検定—対応のある場合

多重比較の欠点の項で述べたが,対応のある場合の多重比較は開発されていないので,対応のある場合は多重比較は使えないと書かれた統計書がある.どうしても検定したい場合は,対応のない場合の検定法で代用するしかない.したがって,パラメトリック法もノンパラメトリック法も全群での比較はBonferroni法とその関連法が,対照群とのみの比較はDunnett法が用いられる.

2群の場合はpaired t testが使え,そのメリットはすでに述べた.しかし,3群以上では,対応のない場合で代用するので,有意差は得られにくくなる.したがって,検定に適しているとはいえず,このような実験系は避けたほうがよい.また,Tukey–Kramer法は,対応のある場合には適用できないとされる(5)5) 林 智幸,新見直子:厳格化の観点からの多重比較法の整理,広島大学大学院教育研究科紀要,54, 189, (2005).

なお,パラメトリック検定の対応のない場合で,いまだに一部の研究分野ではDuncanの検定法(Duncanの多重比較法,Duncanʼs multiple range test)が用いられている.われわれも多重性の問題が明らかになる前は利用したことがある.しかし,この方法は多重性の問題を考慮していないため,使用すべきではない(4)4) 永田 靖,吉田道弘:“統計的多重比較法の基礎”,サイエンティスト社,1997.

二元配置分散分析(図58)

二元配置分散分析はtwo way analysis of varianceを略して,two way ANOVAと呼ばれる.一元配置分散分析同様,群間比較を行う検定ではなく「何らかの影響がある」ことがわかる検定法である.一元配置分散分析では,対照群,試験物質1,試験物質2,…という群構成となり,群は横並びであった.しかし,二元配置分散分析では,試験したい因子が2つあり,それら2つの因子がそれぞれ独立して影響を与えるのか,相互に影響しあっているかどうかを知りたいという検定である(1)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008.

図58■二元配置分散分析

具体的には,2つの因子の影響があるかないか,および,2つの因子の作用は相加作用か,相乗作用あるいは相殺作用を知ることができる点が特徴である.図58図58■二元配置分散分析の架空の例では,2つの因子としてA因子(発酵茶)とB因子(コレステロール,Chol)とした.横並びで示す群構成は,

の4群である.二元配置分散分析用に群を書き直したのが右側である.

これを図示すると,図58図58■二元配置分散分析の左表となり,二次元の群構成となる.

このような群構成であるにもかかわらず,単に横ならびに4群と捉えて多重比較で統計検定している例が多く見られるが,二元配置分散分析で処理し結果を考えたほうが,明解になる場合が多い.

ここでA因子は2つの水準に分かれ,発酵茶無添加(A1)と添加(A2)である.B因子も同様に2つの水準に分かれ,Chol無添加(B1)と添加(B2)である.対照群はA1B1群,発酵茶群はA2B1群,Chol群はA1B2群,発酵茶+Chol群はA2B2群と表記する.このような場合,縦がA因子の影響,横がB因子の影響となり,2× 2の二元配置分散分析となる.A因子あるいはB因子は増やすことも可能である.たとえば,別の発酵茶(A3因子)を加えれば,縦が3,横が2の6群構成となり,2×3の二元配置分散分析となる.ここでは,最も簡単な2×2の二元配置分散分析で話を進める.

図58図58■二元配置分散分析の例では,1. 因子A:発酵茶の影響があるかないか,2. 因子B: Cholの影響があるかないか,それに加えて,3. 因子AとB:発酵茶とCholは影響し合っているかどうかを知りたいことになる(図58図58■二元配置分散分析右側).この項目3は日本語では「交互作用」というわかりにくい単語が割り当てられているが,英語では「interaction」であり,「相互作用」のほうがイメージしやすい.この項目3を知ることができる点が,二元配置分散分析の最大の特徴である.もし,2つの因子が互いに影響していなければ,それぞれの因子ごとの影響を考えればよく,互いに影響を与えていれば,2つの因子を切り離しては考えられない.この場合,因子AとBの間には交互作用があると表現する.

二元配置分散分析で何がわかるのか?(図59)

二元配置分散分析にはいくつかの特徴があるが,まず,それを理解するために端的な例を示す.図59図59■二元配置分散分析でわかること(1)には架空のデータの標本平均の棒グラフがある.グラフ上のabcは多重比較を行った場合の検定結果を示している.abcは異なる文字間で有意差があることを意味し,対照群(a)に対して,発酵茶群とChol群は(b)なので有意に低値を示し,発酵茶+Chol群は(c)であるから,対照群,発酵茶群,Chol群に対して有意差があり,発酵茶群,Chol群に対してさらに有意に低下したことを示す.右側の棒グラフでは,対照群,発酵茶群,Chol群のデータは左グラフと同じであるが,発酵茶+Chol群がかなりの低値を示している.しかし,多重比較での検定結果は左グラフと同じにしかならず,結論は同じになる.つまり,発酵茶とCholを同時に摂取すると有効性が高まるという結論である.

図59■二元配置分散分析でわかること(1)

しかしよくみると,左グラフの結果は,発酵茶とCholで低下作用があり,発酵茶+Chol群では,相加的にさらに低下したと読み取れる.一方,右グラフの結果は,発酵茶+Chol群では劇的に(相乗的に)低値を示しているように見える.このような結果は,多重比較では表現することができないのである.ところが,二元配置分散分析では,図59図59■二元配置分散分析でわかること(1)下側に書いているように,右側では交互作用が有意となっている.これは,発酵茶とCholが相互作用して,相乗的に効果を発揮し低下させたことを意味する.

一方,左のデータでは,交互作用が有意ではない.これは,発酵茶とCholが独立して効果を発揮し,発酵茶+Chol群では相加的に低下したに過ぎないことを示している.

さらに,もし,右グラフの発酵茶+Chol群が,対照群と同じレベルであったとすると(図63図63■交互作用に有意差がない場合,有意差がある場合の考え方(1)のグラフ5を参照),この場合も交互作用は有意となり,発酵茶とCholは単独では低下作用を示すのに,両者を一緒に摂取すると,相殺作用により低下作用が消失することを意味する.

このように,2つの物質が互いに影響し合っているかどうかが,交互作用が有意か否かでわかり,相加作用か,相乗あるいは相殺作用かを判断できる.これが,二元配置分散分析の最大の特徴である*8もちろん,データのばらつき具合が検定結果に影響するので,このようにうまく検定できるかどうかはわからない.あくまでも,端的な例として示した.

もう一つの例を示す.図60図60■二元配置分散分析でわかること(2)の2つの棒グラフデータは,標本平均は全く同じである.しかし,標本データのばらつきが異なるため,多重比較の結果が違う例である.下のグラフでは,発酵茶+Chol群で低下傾向があるにもかかわらず,発酵茶群とChol群に対して有意差がない.このような結果はよく起こる.多重比較では,群数が多いと検定が厳しくなり有意差が出づらくなることも関係する.

図60■二元配置分散分析でわかること(2)

多重比較の検定結果から考察すると,上グラフでは,発酵茶とCholを一緒に摂取すると低下効果が増すといえるが,下グラフでは,発酵茶群,Chol群と発酵茶+Chol群間は有意差がないので,発酵茶とCholを同時に摂取しても有意には低下効果は強まらないという結果になる.そうすると,発酵茶+Chol群では数値的には低下傾向にあるので,「有意差はないが低下傾向がある」と苦しい言いわけをせざるを得なくなる.

このような場合,二元配置分散分析で解析すると,上および下グラフのデータは,どちらも同じ検定結果になる可能性があり,発酵茶+Chol群では相加的な低下作用が認められるという結果になりやすい(図60図60■二元配置分散分析でわかること(2)右上)*8もちろん,データのばらつき具合が検定結果に影響するので,このようにうまく検定できるかどうかはわからない.あくまでも,端的な例として示した..このように,二元配置分散分析と多重比較で,検定結果によっては,結果の解釈が異なる場合がありうる.どちらの検定結果が真実に近いかは,この1回の試験ではわからないが,基本的には二元配置分散分析の検定結果で解釈したほうが妥当と考えられる.

二元配置分散分析の基本的考え方(1)(図61, 62)

二元配置分散分析は難解であり,その原理を理解するには時間がかかる.難しい場合はこの項は読み飛ばしても結構であるが,原理を理解するとどのように利用するかも理解しやすいはずである.

図61■二元配置分散分析の基本的考え方

図62■二元配置分散分析の有意差の決め方

図63■交互作用に有意差がない場合,有意差がある場合の考え方(1)

図58図58■二元配置分散分析の左表に個々のデータや平均値を記入したのが図61図61■二元配置分散分析の基本的考え方左上表である.簡単にするために,各群の標本データ数をそれぞれ2としている.

理解のためには,一つひとつ図と見比べて進んで欲しい.

1. データは以下の合計8個である.

A1B1群:a1,a2

A2B1群:b1,b2

A1B2群:c1,c2

A2B2群:d1,d2

2. 平均値は,まず,各群の標本平均ā, b̄, c̄, d̄の4つがある.

3. 各水準毎に考えると,水準A1の発酵茶無添加の2群は,A1B1とA1B2群であり,この2群の平均値が得られる.

同様に,水準A2の発酵茶添加の2群は,A2B1とA2B2群であり,平均値
同様に,水準B1のChol無添加の2群は,A1B1とA2B1群であり,平均値
同様に,水準B2のChol添加の2群は,A1B2とA2B2群であり,平均値
の合計4つの平均値が得られる.

4. 最後に全体の基準となる総平均をX̄とする.このように,全部で9個の平均値が得られる.

5. そこで,今,A1B1群の標本データa2を例にとって考える.考え方は一元配置分散分析の場合と基本的には同様である.しかし,一元配置とは異なり,因子が2つあるために複雑となる.

図61図61■二元配置分散分析の基本的考え方の右上図でa2の位置を確認してほしい.まず,標本データa2が総平均X̄からどれくらい離れているかを考える.これは総変動と名付けるが,(a2X̄)で表すことができる.基準となる値,ここではX̄,を引き算する.(X̄a2とはしない)以下同様.

6. 次に,a2が所属する水準A1の平均値が総平均X̄からどれくらい離れているかを計算すると,となる.これは水準A間変動と名付ける.

7. 次に,a2が所属する水準B1の平均値が総平均X̄からどれくらい離れているかを計算すると,となる.これを水準B間変動と名付ける.

8. 次に,a2が,所属するA1B1群の標本平均āからどれくらい離れているかを計算すると,(a2)で計算できる.これは,一元配置分散分析では群内変動と名付けたが,ここでは,水準内変動と名付ける.

9. そこで,総変動水準A間変動水準B間変動水準内変動に分けて考えることとする.一元配置分散分析では,総変動は群間変動と群内変動の合計となり,総変動は群間変動と群内変動に分けることができた.

そこで,総変動と水準A間変動+水準B間変動+水準内変動を式で書いてみる.

総変動は,(a2X̄)であり,水準A間変動+水準B間変動+水準内変動は,である.

これら両者は=では結べない.そこで,補正項Yを導入して,以下の式を作る.

ここで,式を変形して,補正項Yを求めると,

となる.

そこで元の式に補正項Yの式を代入すると以下となる.(図61図61■二元配置分散分析の基本的考え方右下式)

この補正項Yこそが,交互作用の変動を表す*9交互作用の変動を頭のなかでイメージすることは難しい.実例を用い,A, B 2つの因子が全く交互作用をしていない例を作成すると,交互作用の変動はゼロとなる.大きく交互作用している例を作成すると,交互作用の変動は大きな値を示す.実例は文献1を参照されたい..すなわち,

このようにすることで,総変動は,水準A間変動,水準B間変動,水準内変動,交互作用の変動の4つに分解される.

10. これと同様の計算を,全標本データで行う.(ここでは8個の標本データ)

11. 一元配置分散分析での計算を思い出して欲しいが,次に,全標本データの総変動,水準A間変動,水準B間変動,水準内変動,交互作用の変動を平方して合計するのである(平方和).そうすると,

が成り立つ.したがって,一元配置分散分析の場合と同様に,総変動は,水準A間変動,水準B間変動,水準内変動および交互作用の変動だけで考えればよいことになる.

12. この後の検定は一元配置分散分析と同様である(図62図62■二元配置分散分析の有意差の決め方).一元配置分散分析では,自由度を加味して,(群内変動)2の総和を基準(分母)として,(群間変動)2の総和を計算すると,F分布することから,F分布に当てはめて有意差を求めた.二元配置分散分析では,因子が2つあり,しかも,交互作用もあるので,それら3つについての検定ができる.基準(分母)は,(水準内変動)2の総和であり,(水準A間変動)2の総和,(水準B間変動)2の総和および(交互作用の変動)2の総和を分子として,F値を計算する(図62図62■二元配置分散分析の有意差の決め方右下の3つの式).それぞれは自由度で割るが,これは一元配置分散分析の場合と同様である.このF値はF分布する.

13. F分布での有意差の求め方は一元配置分散分析と同様で,F値がかなり大きくなり,右端5%に入ると有意と判定する(図62図62■二元配置分散分析の有意差の決め方左下図)*10自由度の計算はかなり面倒である.水準A間変動では,水準数をaとすると,計算式にが入っているので,一つ減って,(a−1)である.水準B間変動も同様で,水準数をbとすると,(b−1)となる.ここの例では,水準数はAもBも2なので,自由度はそれぞれ2−1=1である.水準内変動は,各群で標本データから標本平均を引いている.したがって,それぞれの群で自由度が1減るので,4群では自由度は4減ることになる.各群のデータ数はここでは2であるが,これをnとすると,総データ数は,a×b×nとなり,そこから群数a×bを引くと水準内変動の自由度となる(abn−ab).ここの例では,2×2×2−2×2=4となる.問題は交互作用の自由度である.ここで,総変動の自由度を考える.総変動はすべての標本データからを引いているので,自由度は総データ数−1である.つまり,(abn−1)であり,ここの例では7である.総変動は,水準A間変動,水準B間変動,水準内変動,交互作用の変動に分解されたが,自由度も同様に分解できることが知られている.つまり,以下の式のように,総変動の自由度は水準A間変動,水準B間変動,水準内変動,交互作用の変動のそれぞれの自由度の合計となる.(abn−1)=(a−1)+(b−1)+(abn−ab)+交互作用の自由度ここでは,7=1+1+4+交互作用の自由度ここから,交互作用の自由度=ab−a−b+1=(a−1)×(b−1)となり,ここの例では1が得られる.

二元配置分散分析の検定結果の解釈(図63, 64)

1. 交互作用に有意差がない場合

交互作用に有意差がなく,A因子かB因子あるいはその両方に有意差が得られた場合,AおよびB因子は互いに影響し合っていないことを示すので,A因子およびB因子のみの影響だけを考えればよい.

例として,図63図63■交互作用に有意差がない場合,有意差がある場合の考え方(1)のグラフ1では,水準A(発酵茶)のみが有意の場合,グラフ2では,水準B(Chol)のみが有意の場合,グラフ3では,水準AおよびBともに有意の場合の端的な例である.この場合,たとえばグラフ1では,「発酵茶摂取で統計的に有意な変動が認められた」と表現する.グラフ3では「発酵茶摂取およびChol摂取で統計的に有意な変動が認められたが,交互作用が有意ではないので,発酵茶とCholは相互に影響し合っていない」と表現することができる.

2×2の二元配置分散分析では,交互作用に有意差がない場合は,これ以上の検定を行う必要はない.発酵茶摂取で有意に影響があるということは,水準A1の2群(A1B1とA1B2)と,水準A2の2群(A2B1とA2B2)の間に有意差があることを意味する.水準B1とB2の場合も同様である.なお,決して各群間(ここでは4群)の多重比較を行ってはならない図64図64■交互作用に有意差がない場合,有意差がある場合の考え方(2)).二元配置分散分析では発酵茶の有意な影響が認められたにもかかわらず,多重比較を行うと,たとえば,A1B2群とA2B2群に有意差がないといった検定結果になることが往々にして起こる.つまり,これら2群間では影響がないことになる.どちらの検定結果を採用して論ずればよいのか研究者は迷う.このような場合,多重比較の結果を中心に論じている論文が多いが,そうすると,二元配置分散分析では発酵茶の効果は認められるにもかかわらず,多重比較の結果からCholを一緒に摂取すると発酵茶の効果は消失するという,わけのわからない結論を述べる羽目に陥る.このようなケースでは,「二元配置分散分析の結果から,発酵茶の有効性が認められた」と論ずればよい.

図64■交互作用に有意差がない場合,有意差がある場合の考え方(2)

ただし,2×3や3×3の二元配置分散分析の場合,たとえば,A因子の発酵茶の水準が3つある場合(図64図64■交互作用に有意差がない場合,有意差がある場合の考え方(2)右下表),二元配置分散分析で発酵茶の効果が有意となった場合,A1, A2, A3のどの水準同士が有意かを多重比較で検定することはできる.A1水準とA2水準は差がないが,A1水準とA3水準は差があるといった検定である.この検定では,A1水準(A1B1とA1B2),A2水準(A2B1とA2B2),A3水準(A3B1とA3B2)の3群として多重比較を行う.この場合も,2×2の場合と同様,各群間の多重比較を行ってはならない.

2. 交互作用に有意差がある場合

図63図63■交互作用に有意差がない場合,有意差がある場合の考え方(1)のグラフ4は相乗作用,グラフ5は相殺作用の端的な例である.交互作用に有意差が得られたとき,AとB因子は互いに影響し合っていることになるので,両者を切り離しては考えられない.したがって,この場合はA因子の影響やB因子の影響は参考程度となる.そこで,4群それぞれを独立した群と捉え,横並びの4群として4群の多重比較を行うのである(図64図64■交互作用に有意差がない場合,有意差がある場合の考え方(2)左下).つまり,交互作用がある場合は多重比較による群間比較が可能となる.筆者の研究分野では,このような二元配置分散分析時の独特の検定方法を理解していない研究者はかなり多く,正しい検定を行った研究発表や論文のほうが少ないように思われる.論文において記述する場合は,「交互作用が有意であったため,全群の多重比較を行ったところ,……」という表現が適切である.

交互作用が有意であるにもかかわらず,全群の多重比較を行うとどの群間にも有意差がないということもありうる.これは群数が多いために多重比較での検定が厳しくなるためである.この場合,少なくとも交互作用は有意であるから,「2つの因子は影響しあっている」と結論することは可能である.

また,交互作用が有意の場合に,全群の多重比較を行うとすると,比較する必要のない群間比較がありうる.たとえば,図64図64■交互作用に有意差がない場合,有意差がある場合の考え方(2)の右下の2×3の群構成で,A2B1群とA3B2群間は実験上比較する必要がないという場合である.このような場合は,その検定結果は表示しなければよい.

このように,二元配置分散分析を行った場合,その分析結果を優先して論じ,次に多重比較で論ずるべきである.しかし,多重比較優先で論じた論文が多いのが現状で,二元配置分散分析を行った意味がない.

二元配置分散分析で水準が増えると,検定結果の判断は難しい!(図65)

2×2の二元配置分散分析は,それぞれ水準は2つしかないので,値が高いか低いか比較的明確である.しかし,図64図64■交互作用に有意差がない場合,有意差がある場合の考え方(2)右下表のように,水準が3つ以上になると,結果がわかりにくくなる可能性がある.図65図65■水準が増えた場合の問題のグラフを見て欲しい.2×3では6群となる.いずれのグラフも,Chol無添加3群を左に,Chol添加3群を右に棒グラフで表示してある.Aでは,赤矢印で示すように,標本平均は並行して変動しているので,交互作用はない例である.Cholを添加しても,発酵茶の影響は同じである.Bでは,Cholを添加すると発酵茶の影響が増加しているので,交互作用有意となりうる.問題はCである.Cholを添加しても,発酵茶1では変化がなく,発酵茶2で影響が強まっている.この場合,研究者は交互作用を期待するが,交互作用が有意となるかどうかは,計算してみなければわからない.一元配置分散分析でも触れたが,分散分析では全群のばらつきを考慮するので,1群だけの変動は埋没する場合がある.もし,交互作用なしと判定されると,発酵茶2の影響は見逃されてしまう可能性がある.たとえば,発酵茶1の2群を行わず,2×2で実験すると交互作用ありが明確に示されると考えられる.このように,二元配置分散分析で水準を増やすと,判定が難しくなることがあるので,むやみに水準数を増やさないほうがよい.あいまいな結果の場合は,水準を減らしてやり直すことも視野に入れるべきである.

図65■水準が増えた場合の問題

対応のある二元配置分散分析(図66)

これまで述べてきた二元配置分散分析は,対応のない場合である.対応のある実験では,一方の因子は対応があり,他方は対応がない場合,あるいは,両方の因子ともに対応がある場合がありうる.ここでは,研究者が頻繁に行うと考えられる実験である一方の因子は対応があり,他方は対応がない場合について簡単に説明する.この解析法が書かれている一般向け統計書は少ないが,文献6に実例とともに手順が示されている.しかし,理論的説明が少ないためかなり難解である.

図66図66■対応のある二元配置分散分析での解析法のように,たとえば,マウスを3群とし経時的に採血して,あるパラメータを測定する場合である.3群間は対応がないが,経過時間には対応がある場合となる.

図66■対応のある二元配置分散分析での解析法

このような場合の二元配置分散分析法として,重複測定—二元配置分散分析がある.詳細は説明しないが,検定の考え方は通常の二元配置分散分析と同じである.しかし,二元配置分散分析の場合と同様に検定を行うと,研究者の意図しない検定結果になる可能性がある.

二元配置分散分析の検定では,交互作用がない場合は,多重比較を2つの因子(3群間の水準と4点の時間経過の水準)に対して行うことになる(水準毎の比較であり,各群間比較ではない).対照群,A添加群,B添加群の3つの水準についての検定は,各水準の4点の時間点のデータを合計して,3水準で検定することになる.しかし,この検定は必ずしも研究者が意図する検定ではない場合が多い.研究者は各時間点の3群の比較ができればよいのであって,各時間点を合計する意味はないのである.しかし,交互作用がないと,正式には各時間点の3群の比較はできない.

時間経過の影響を知りたい場合では,「対応がある」ので多重比較は行えない.無理に行うとすると代用法を用いることはすでに述べた.この場合も,各時間点の3群の合計で検定するので,研究者の意図する検定ではないかもしれない.そもそも時間経過の影響を知りたいとは考えていない場合も多々ある.

一方,図66図66■対応のある二元配置分散分析での解析法のグラフのようなデータでは,多くの場合,交互作用が有意となると考えられる.交互作用がある場合は,二元配置分散分析では全群の多重比較を行うことになる.しかし,図66図66■対応のある二元配置分散分析での解析法の例では全群数は12群である.12群全群を比較すると比較回数は66回にもなる! Bonferroni法で検定すると有意水準0.05/66=0.00076となり,有意差をえるのは絶望的である.時間点がさらに増えると天文学的な比較回数となり,全群の多重比較はあまりにも検定が厳しくなりすぎる.

このように,通常の検定法の手順では,研究者の意図とかけ離れた検定となる場合があり,適切な検定とはいいがたい.しかし,残念ながらちょうどよい検定法は存在しない

このような実験の場合,各時間毎に3群間の多重比較を繰り返し行う研究者が多いのではないだろうか?図66図66■対応のある二元配置分散分析での解析法の赤の楕円内の比較の繰り返しである.その場合,多重性の問題を考慮すると,検定が甘くなることはこのセミナーの読者であればわかるはずである.筆者は,比較したいのが群間のみで,時間経過は参考程度で重要でなければ,群間(ここでは3群間)の多重比較(あるいは,2群であればt検定)の繰り返しでよいと割り切ることにしている.このように,複雑な実験系になると,適切な検定法が見当たらない場合はある.どうしても全群の比較が必要な実験では,群数や時間点数を減らすことを考えた方がよい*11本来なら,予備試験で最も大きな差が認められる時間を決定し,0時間とその時間の2点(たとえば3時間後)で実験を行う方が明確な検定ができる.しかし,時間経過でのパラメータの変動を追跡する実験の場合,2点だけとるわけにいかない場合もある.

残念ながら,この種の実験の検定法に関して詳しく解説した統計書はないようであり,これ以上解説することができない.この種の実験は比較的多く行われており,適当に時間点を振って実験を行うが,統計学的にはこのような問題をはらんでいることを認識しておくべきである.

なお,二元配置分散分析に相当するノンパラメトリック検定は存在しない.したがって,パラメトリック検定の二元配置分散分析で代用するしかない.正規分布しないことがすでにわかっている母集団からの標本を用いて,二元配置分散分析を必要とする試験は実施しないほうがよい.

外れ値の取り扱い(図67)

外れ値は図示するとわかりやすい(図67図67■外れ値の取り扱い).研究データには外れ値はつきものであり,取り扱いには苦労する.動物試験では比較的よく起こる.外れ値のあるなしで,統計検定結果が異なる場合が問題となる.人間はミスの多い動物である.筆者は,外れ値があるとまず測定ミス,記入ミス,パソコンへの打ち込みミス,Excelでの計算ミスなどを疑う.測定ミスが疑われれば,再測定する.これで解決すれば問題はない.

図67■外れ値の取り扱い

次に,動物試験であれば,飼育中に摂食量や成長に異常がなかったか,絶水になったりしなかったかなどを調べる.また,同じ個体のそのほかの測定パラメータに異常がないかを考える.このように実験遂行上や個体独自の問題で,何らかの異常が認められれば,それを理由にデータを外す.場合によっては,その個体のすべての測定データを外す場合もある.

これに平行して実験結果を吟味する.外れ値があるために,有意差がでる場合と有意差がでない場合の2つが考えられるので,どちらが妥当な判断かを考える.そのための材料として,パラメトリック検定およびノンパラメトリック検定両方を行ってみて,検定結果から考えることもある.パラメトリックとノンパラメトリック法で検定結果が同じであれば,それを採用する.検定結果が異なる場合は,どちらが妥当かは簡単には判断できない.

また,棄却検定を行って,そのデータを外せるかどうかを判断し(外すことが妥当かどうかは別として,外す理由にはなる),その結果に従うこともありうるが,生物材料の場合安易に外すことには異論がある(3)3) 足立堅一:“らくらく生物統計学”,中山書店,1998..いずれにしても,できる限り主観が働かないように,客観的に判断すべきである.どうにも判断がつかない場合は,角度を変えた別の試験を行って判断したほうが妥当である.

実験計画を立てるときに考えるべきポイント(図68)

図68図68■実験計画を立てるときに考えるべきポイントに実験計画を立てるときのルールをまとめた.

ほとんどは述べてきたことばかりであり,読んでいただければわかると思う.基本的に,実験計画は統計的手法を考慮して立案すべきである.統計の原理をある程度理解すると,有意差の得やすい実験計画を立案することも可能であることは本セミナー全体を通じてご理解いただけたと思う.

図68■実験計画を立てるときに考えるべきポイント

おわりに

本セミナーでは筆者が通常用いる検定法を中心に執筆した.そのほかにも多種多様な検定法があるが,本セミナーの基本を身につけていれば,分布や計算式が違っていても,実は検定の流れは同じであり,理解はそれほど難しくないはずである.

なお,本セミナーは統計を利用する生命科学系研究者がわかりやすいように,かなり明解に切り分けた書き方をしているが,実際はそれほど簡単ではない.興味があれば,より難易度の高い統計書に挑戦してほしい.

本セミナーが,読者の統計検定に対する理解に少しでも貢献できたならば,筆者にとって喜びである.

Reference

1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008.

2) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017.

3) 足立堅一:“らくらく生物統計学”,中山書店,1998.

4) 永田 靖,吉田道弘:“統計的多重比較法の基礎”,サイエンティスト社,1997.

5) 林 智幸,新見直子:厳格化の観点からの多重比較法の整理,広島大学大学院教育研究科紀要,54, 189, (2005).

6) 石村貞夫,石村光資郎:“SPSSによる分散分析と多重比較の手順 第4版”,東京図書,2011.

冊子体は本文の文字が黒ですが,WEB版では一部カラー文字を使用しております.是非WEB版をご覧ください.

*1 自由度の考え方は,前回の脚注7に記載したとおりである.

*2 逆も起こりうる.つまり,一元配置分散分析で有意差があるのに,多重比較では全く差がないという現象である.これも困ったことであるが,群間比較が目的であれば,多重比較の結果を尊重せざるを得ない.

*3 なお,Tukey法と呼ばれるのは,各群のnが同じ場合,Tukey-Kramer法は各群のnがそろっていなくてもよい検定法である.後者はnが同じ場合でも利用できるので,一般的には後者が利用される.

*4 ただし,たとえば,実験計画段階で,A群は対照群,B群が目的の試験物質群としてA群とB群だけで比較すると計画したとする.しかし,実験自体が妥当なものかどうかを判断する目的で,C群をポジティブコントロールとして,B群の試験物質と同様の効果があることがすでに知られている物質を与えた群を設けたと仮定する.この場合,C群を測定項目が妥当な応答をするかどうかを確認するためだけに用いるのであれば,多重比較を適用せず,A群とB群だけで2群間の比較をすることは可能と考えられる.あくまでも,実験計画段階でそれを宣言する必要がある.もちろん,決してA群とC群あるいはB群とC群を比較してはならない.さらに述べるならば,当初は多重比較の3群として計画したが,図55図55■多重比較の欠点のグラフのように,C群があまりにも大きな値となってしまったために,実験終了後にC群を後づけで排除し,A群とB群だけで2群間比較を行うことは許されない.

*5 筆者は図55図55■多重比較の欠点のようなデータで,A群とB群間にTukey–Kramer法では有意差が得られなかったが,ノンパラメトリック検定の多重比較(Steel–Dwass法)を適用し,有意差をえた経験がある.

*6 「改訂増補版:I」で言及したが,データには測定誤差が含まれる.測定誤差が大きいと判断されるデータの場合に全く同じ試験を繰り返し行うのは仕方がない.しかし,その場合,1回目と2回目に測定したデータのどちらが真実に近いかはわからない.測定誤差の大きい測定者はまず訓練すべきである.なお,測定誤差もまた正規分布することが知られる.

*7 残念ながら,再現性のない論文が世の中には氾濫していることは,「改訂増補版:I」で指摘したとおりである.

*8*8 もちろん,データのばらつき具合が検定結果に影響するので,このようにうまく検定できるかどうかはわからない.あくまでも,端的な例として示した.

*9 交互作用の変動を頭のなかでイメージすることは難しい.実例を用い,A, B 2つの因子が全く交互作用をしていない例を作成すると,交互作用の変動はゼロとなる.大きく交互作用している例を作成すると,交互作用の変動は大きな値を示す.実例は文献1を参照されたい.

*10 自由度の計算はかなり面倒である.水準A間変動では,水準数をaとすると,計算式にが入っているので,一つ減って,(a−1)である.水準B間変動も同様で,水準数をbとすると,(b−1)となる.ここの例では,水準数はAもBも2なので,自由度はそれぞれ2−1=1である.水準内変動は,各群で標本データから標本平均を引いている.したがって,それぞれの群で自由度が1減るので,4群では自由度は4減ることになる.各群のデータ数はここでは2であるが,これをnとすると,総データ数は,a×b×nとなり,そこから群数a×bを引くと水準内変動の自由度となる(abn−ab).ここの例では,2×2×2−2×2=4となる.問題は交互作用の自由度である.ここで,総変動の自由度を考える.総変動はすべての標本データからを引いているので,自由度は総データ数−1である.つまり,(abn−1)であり,ここの例では7である.総変動は,水準A間変動,水準B間変動,水準内変動,交互作用の変動に分解されたが,自由度も同様に分解できることが知られている.つまり,以下の式のように,総変動の自由度は水準A間変動,水準B間変動,水準内変動,交互作用の変動のそれぞれの自由度の合計となる.(abn−1)=(a−1)+(b−1)+(abn−ab)+交互作用の自由度ここでは,7=1+1+4+交互作用の自由度ここから,交互作用の自由度=ab−a−b+1=(a−1)×(b−1)となり,ここの例では1が得られる.

*11 本来なら,予備試験で最も大きな差が認められる時間を決定し,0時間とその時間の2点(たとえば3時間後)で実験を行う方が明確な検定ができる.しかし,時間経過でのパラメータの変動を追跡する実験の場合,2点だけとるわけにいかない場合もある.