セミナー室

改訂増補版:統計検定を理解せずに使っている人のためにIII

Ikuo Ikeda

池田 郁男

東北大学未来科学技術共同研究センター

Published: 2019-10-01

改訂増補にあたって

この総説は,「統計検定を理解せずに使っている人のためにIII」の改訂増補版であり,「改訂増補版:統計検定を理解せずに使っている人のためにII」の続きである.改訂増補に当たっての詳細は,「改訂増補版:I」の冒頭をお読みいただきたい.この改訂増補版では,理解しにくい部分について,わかりやすい説明に努めた.また,研究者が比較的行う頻度が高いと考えられる多重比較や二元配置分散分析の対応のある関連多群の検定の考え方を主に書き足した.

「改訂増補版:I」では,母集団標本母分散母標準偏差標本分散標本標準偏差不偏分散不偏標準偏差正規性の検定について主に記述した.「改訂増補版:II」では,標準誤差パラメトリック検定の基本t検定の原理有意水準両側検定片側検定pairedとunpaired t検定の違い等分散性の検定ノンパラメトリック検定の原理や利点欠点について述べた.この「改訂増補版:III」では,3群以上の場合の検定である,多重比較,一元配置分散分析,二元配置分散分析,および,多重性の問題,外れ値の取り扱いを中心に記述する.内容はさらに複雑になることをお許しいただきたい.なお,図番号は前回からの通し番号である.

3群以上の統計検定

2群の場合は,最も単純な群構成であったが,3群以上になると複雑にならざるを得ない.3群以上の検定では,大きく分けて,要因が一つで横並びの試験で,その要因によりなんらかの変化が起こったかを知りたい場合と,要因が2つあり,それぞれの要因が独立して作用しているのか,互いに影響し合っているのかが知りたい試験の2種類がある.パラメトリック検定では,前者は,一元配置分散分析および多重比較,後者は二元配置分散分析および多重比較(場合によっては2群の検定)が係わる.ここでは主に,パラメトリック検定を中心に論じる.

3群以上の統計検定の前に:正規性の検定,等分散性の検定

正規性の検定:3群以上の場合でも,2群の場合と基本的な流れは同じである.検定にはパラメトリック検定とノンパラメトリック検定があるが(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順),どちらを利用するかの考え方は2群の場合と同様である.

図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順

パラメトリック検定は,母集団が正規分布する前提があるので,正規性の検定で正規分布かどうかを調べることができる(改訂増補版:Iの図7).正規分布でなければノンパラメトリック検定となる.しかし,「改訂増補版:I」で述べたように,正規性の検定は標本の大きさnが小さいとあてにならないnが30前後以上であれば,正規性の検定で判断できるが,nが小さいと判断はあいまいとなる.したがって,nが小さい場合はパラメトリックでもノンパラメトリックでもどちらでも利用可能である.nが小さいと正規分布と判定される場合が多いので,基本的にパラメトリック検定を利用することになるがノンパラメトリックも考慮してよい.

等分散性の検定:2群の場合の等分散性の検定に関しては前回説明した(改訂増補版:II,図34).3群以上でも基本的な考え方はそれに準じる.等分散性の検定もnが小さいとあてにならないので参考程度と考えたほうがよい.nが小さいと等分散と判定される場合が多い.等分散の場合とそうでない場合の検定法については,後述する.

3群以上の等分散性の検定はいくつか知られる.ハートレイの検定(各群のnが同じ場合)やバートレットの検定nが異なってもよい場合)およびルビーンの検定などがある(1)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008..筆者はこれらの検定法の原理をすべて把握しておらず,使い分け方にも詳しくない.ここでは,もっともわかりやすいハートレイの検定を簡単に紹介するにとどめる.

この検定の基本的考え方は,前回の2群の等分散性の検定とほぼ同じである.2群の場合,それぞれの群の不偏分散u2の比をとってこれをF値として,F値がF分布することを利用して,F分布に当てはめて検定した(改訂増補版:II,図34).

3群以上の場合,正規分布する同じ母集団から必要な群数の標本をとり(ここでは3群とする),不偏分散u12,u22,u32を計算する.ここで,u12u22u32と仮定すると,不偏分散の最大u12を分子に,最小のu32を分母にして,その比をとる.これをFmaxとすると,Fmax=u12/u32である.不偏分散は3つあるが,それぞれで比を計算すると,ほかの比はFmaxよりも小さくなる.

そこで,母集団から3群の標本を取って,Fmaxを計算することをなんども繰り返して分布を調べるのである.そうすると,F分布と同様の分布になることが知られている.

あとの手順は,2群の場合の等分散性の検定と同様である.ある実験を行って,Fmaxを計算しFmaxがこの分布のどこに位置するかを考える.ここでは,図48図48■一元配置分散分析の考え方(2)のF分布の右下図をFmaxの図と仮定して説明するが,図の右端方向の5%内に入れば,かなり外れたFmax値となるので,等分散というには外れすぎており,等分散とはいえないと判定する.このように,ハートレイの検定では最もばらついている群とばらついていない群の比を基準とすることで,等分散かどうかを判断している.そのほかのF値はFmaxよりも小さい値となるので,Fmaxで等分散と判定されれば,ほかのF値も等分散との判定となる.2群の場合の等分散性の検定を理解していれば,容易に理解できるはずである.詳しくは文献1を参照してほしい.同じ母集団からの標本で計算したFmaxであるから,等分散ではないと断定できるものではないことは,F検定やそのほかの検定の基本的考え方と同じである.

3群以上の統計検定:一元配置分散分析,多重比較(図44, 45)

対応のないパラメトリック検定として一元配置分散分析が知られるが,それに相当する対応のある場合,および,ノンパラメトリック検定の対応のない場合対応のある場合の検定法が存在する(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順).このセミナーでは,主に,パラメトリック検定の対応のない場合(母集団は正規分布,各群は等分散),すなわち一元配置分散分析で説明していく.対応のある場合やノンパラメトリック検定は後述する.検定法は多様であり,それらすべてを理解すれば理想的であるが,統計検定を利用する研究者にとって,そこまでは必要ないと筆者は考える.研究者は代表的な検定法の基本的な原理を知ることで,それをいかに利用できるかを学ぶべきである.そのほかの多様な検定法は,どのような違いがあるのかを簡単に理解しておけばよい.

図45■3群以上の検定で何が知りたいのか?

まずは,要因が一つで横並びの試験で説明する(図45図45■3群以上の検定で何が知りたいのか?).これまでは2群間の比較について述べてきたが,実験研究では群数が3群以上になることはよくある.たとえば,対照群,試験物質1群,試験物質2群…と群数が増え,試験物質の影響を知りたい場合である(なお,二元配置分散分析に相当する試験の場合は後述する).

まず,図45図45■3群以上の検定で何が知りたいのか?の①のように,4群全体で何らかの変化が起こったかを知りたい場合は,一元配置分散分析を用いる.一元配置分散分析は英語のone way analysis of varianceを略してone way ANOVAと呼ばれる.一方,②のように,どの群とどの群で有意差があるかを知りたい場合は多重比較を用いる.②では4群あるが,すべての群間比較を行うと,比較回数は6回となる.これらの比較を,2群の検定法であるt検定などで繰り返して行なってはならない(理由は後述する).これが,まずは基本である.2群間の検定の繰り返しはいまだに研究論文で見かけることがあるが,真似するべきではない.

図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順にあるように,多重比較を行う場合,多くの統計書には,まずone way ANOVAを行って有意差があれば多重比較を行うと記述されている.統計ソフトで多重比較を行うと,one way ANOVAの検定結果も同時に出力される場合が多いが,その結果を無視し多重比較の結果だけを見ている方も多いのではないだろうか? しかし,重要な研究結果を見逃すことになるかもしれないので,どのような考え方で一元配置分散分析が行われているかは,理解しておく必要がある.

一元配置分散分析の考え方(1)(図46)

分散とはバラツキ方であることはすでに述べた.分散分析とは,3群以上ある場合,たとえば,対照群に対して2種類の試験物質を試験したとき(合計3群),試験物質が何らかの影響を与えたかどうかをバラツキ方を用いて調べようとする検定法である.あくまでも,何らかの影響があったかどうかの検定であって,群間比較ではない

図46■一元配置分散分析の考え方(1-1)

概念をつかんで欲しいが,それでも込み入った話になるので注意して読んで欲しい.一元配置分散分析はパラメトリック検定であるから,母集団は正規分布することが前提である.図46図46■一元配置分散分析の考え方(1-1)の左グラフを見て欲しい.

2群の検定の場合と同様に,統計検定では差がないことから考えるので,同じ母集団から3群を取り出すという考え方をする.今,一つの母集団から6個の標本データを取り出す.これを3回繰り返して3つの群を作り,それぞれの群の標本平均をX̄1, X̄2, X̄3とする.

これらの標本平均をどのように比較するかを考える.2群の比較の場合は,2つの標本平均の差を取ったが,3群以上ある場合は,全データ(ここでは3群の18個)の平均である総平均を基準にし,各標本平均が総平均からどれ位離れているかを考える.ここでは,総平均をX̄と定義する.左図では3つの群のデータと標本平均をわかりやすいように上下にずらして示している(赤丸,緑三角,青四角の3群).今第1群(赤丸)の6つのデータをx11, x12, … x16と番号をつけ,右から2番目のデータx12を代表の標本データとして考える.

ここで,標本データx12だけを取り出した図46図46■一元配置分散分析の考え方(1-1)右グラフをみて欲しい.ここで,標本データx12が基準となる総平均X̄からどれだけ離れた(変動した)ところにあるかを考える.総平均X̄からの離れ方を「総変動」と名づけると,総変動は(x12X̄)を計算すればよい.

次に,第1群の標本平均X̄1からx12がどれくらい離れているかを考えると(x12X̄1)を計算すればよい.これは第1群内での変動であるから「群内変動」と名づける.

さらに,x12が所属する第1群の標本平均X̄1が総平均X̄からどれくらい離れているかは(X̄1X̄)で求めることができる.これを「群間変動」と名づける.そうすると,「総変動」は「群間変動」と「群内変動」を足したものであることがわかる(図46図46■一元配置分散分析の考え方(1-1)右下式).そこで,この計算を全18個のデータで行う(図47図47■一元配置分散分析の考え方(1-2)の左側).

「改訂増補版:I」の分散の計算方法の項で述べたが,これら変動はプラスになる場合とマイナスになる場合があるので,平方することに決まっている.

そこで,総変動,群内変動,群間変動をそれぞれ平方し,18個すべてを合計する(図47図47■一元配置分散分析の考え方(1-2)では,縦に合計する).これはいわゆる平方和である.そうすると面白いことに,(総変動)2の総和=(群間変動)2の総和+(群内変動)2の総和の式が成り立つのである(図47図47■一元配置分散分析の考え方(1-2)下の式).そんなバカな!と思われるかもしれないが,実際のデータで計算すると必ず成り立つのである(1)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008..何が言いたいかというと,つまり,すべての標本データのバラツキ方の合計である「(総変動)2の総和」は「(群間変動)2の総和」と「(群内変動)2の総和」だけで考えればよく,そのほかの因子を考慮する必要はないということである.別の言い方をすると,「(総変動)2の総和」は「(群間変動)2の総和」と「(群内変動)2の総和」に分解できるのである(1)1) 石村貞夫,石村光資郎:“入門はじめての分散分析と多重比較”,東京図書,2008..これはたいへん重要なポイントである.

図47■一元配置分散分析の考え方(1-2)

一元配置分散分析の考え方(2)(図48)

それでは,群間変動と群内変動を用いて,どのようにして検定するのであろうか? 図48図48■一元配置分散分析の考え方(2)の左のグラフは図46図46■一元配置分散分析の考え方(1-1)の左と同じである.では,図48図48■一元配置分散分析の考え方(2)の右上グラフを見て欲しい.3群の標本平均と総平均は左グラフと全く同じとする(すなわち群間変動は同じ).しかし,群内のデータのバラツキが左グラフよりも小さいため,群内変動が小さい.したがって,左グラフに比べ右上グラフでは,3つの群の間に明確な差があるように見える.この原理を利用したのが一元配置分散分析である.つまり,群内変動に対して群間変動が大きくなると群間に差があることにしようと考えるのである.具体的には,まず,(群間変動)2の総和と(群内変動)2の総和は群数やnが大きいほど大きな値となる平方和であるから,自由度で割って,平均の変動を計算する(これは不偏分散の計算と同様であるが,平均平方という名称が用いられる).そして,以下の式のようにF値を計算する(図48図48■一元配置分散分析の考え方(2)左下式).

ここで,同一母集団から3群のデータを取り出しF値を計算することを,何度も繰り返して,F値がどのような分布をするか求めると,図48図48■一元配置分散分析の考え方(2)右下グラフにあるような分布になることがわかっている.これはF分布と呼ばれる.そうすると,同一母集団から取り出した3群のデータであっても,群内変動に対して群間変動がかなり大きくなる場合が稀に起こりうる(すなわち,F値が大きくなる).F分布グラフでは右端あたりになる.

図48■一元配置分散分析の考え方(2)

有意差の考え方は,計算されたF値がF分布の右端5%内にあると,同一母集団からのデータと考えるにはあまりにもかけ離れており,滅多に起こらないことが起こったと考えて,何らかの影響があったことにしようと判定するのである(これはF検定と呼ばれる).

ここで自由度であるが,群間変動では群数が3であり,それぞれの標本平均から総平均X̄を引いており,計算式に総平均X̄が入っているので,自由度は1減って,3−1=2となる.一般化すると,群数をaとするとa−1である.

一方,群内変動では,それぞれの群で6個のデータがあり,計算式にそれぞれの群(3群)の標本平均X̄1, X̄2, X̄3が入っている(図47図47■一元配置分散分析の考え方(1-2)左側の式).したがって,それぞれの群での計算で自由度が1ずつ減ることになる.そこで,各群の標本の大きさをnとすれば,総標本データ数a×n(ここでは18)からa(ここでは3)減って,自由度15となる.一般化すると,an−aとなる*1自由度の考え方は,前回の脚注7に記載したとおりである.

F分布は自由度の違いで形が異なるので,ここでは自由度(3−1, 18−3)のF分布を用いて検定することとなる.一般化すると,自由度(a−1, an−a)のF分布となる.

その他の分散分析法(図49)

ここまでは,図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順左端のパラメトリック検定,対応のない場合の一元配置分散分析について説明した.パラメトリック検定では,対応のある場合の検定法は,反復測定による一元配置分散分析(one way repeated measures ANOVA)がある(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順).図49図49■反復測定による一元配置分散分析の例に例を示した.同じラットから経時的に採血しているので,「対応のある」実験となる.たとえば,0分と5分後の2点の比較であれば,paired t testを行うことができる.しかし,ここでは4点あるので,paired t testは使えない.分散分析は何らかの変化が起こったことがわかるので,この例では有意差が得られれば,統計的に有意に増加が起こったと判断される.

図49■反復測定による一元配置分散分析の例

母集団が正規分布しない,あるいは等分散でない場合にはノンパラメトリック法を用い,対応がない場合はKruskal–Wallis法,対応がある場合はFriedman法がある(図44図44■3群以上の検定:一元配置分散分析,多重比較の一般的な手順右側).2群のノンパラメトリック法は前回説明したが,3群以上でも基本的な原理は同様であり,データを順位に置き換えて検定する.これらの検定法については,拙著にその原理を簡単に説明している(2)2) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017..また,詳しく学びたい場合は,文献1を参照されたい.

多重比較の基本的考え方(図50)

多くの生命科学系研究では,図45図45■3群以上の検定で何が知りたいのか?の②にあるように,どの群とどの群の間で有意差があるかを知りたい場合が多いのではないだろうか? この場合は多重比較を用いる.基本的に,t検定を繰り返し用いてはならない.

図50■3群の場合の合算の不偏標準偏差の計算方法

多重比較はたくさんの方法が考案されており,それらすべての考え方を理解することは困難で,生命科学系研究者がもっとも知りたい,それらの使い分けを知ることも容易ではない(筆者も同様である).研究者は基本的ないくつかの検定法についての考え方と使い方を理解すれば,大半の実験で利用できると筆者は考える.

すでに,2群の場合のt検定の原理は前回説明した.多重比較だからといって全く異なる計算を行うわけではなく,原理は2群の場合とそれほど違いはないので安心してほしい.t検定の場合のt値を計算する式は以下であった.この式の誘導がわからない場合は,前回の図24~26を参照して欲しい.

この式の分母は,同一母集団から2群の標本をとって得られた2つの標本平均の差(X̄1X̄2)の標準誤差であり,これを基準(分母)として,標本平均の差(X̄1X̄2)(分子)がどれくらい大きいか(あるいは小さいか)を計算している.ここで,uは2群の合算の不偏標準偏差である(改訂増補版:IIの図26).簡単に言えば,標本平均の差(X̄1X̄2)のバラツキ((X̄1X̄2)のありそうな範囲)を基準にして(分母),分子の(X̄1X̄2)がt分布のゼロからどれくらい離れているかを計算している.かなり離れていれば有意差ありと判定する.

3群以上ある場合でも,ほぼ同様の考え方であるが,分母の不偏標準偏差が異なる.3群以上ある多群の場合は,合算の不偏標準偏差は実験したすべての群で合算して計算する.つまり,3群であれば,3群分の平方和を足し,3群分の自由度の合計で割って平均平方(不偏分散の計算と同じ)を計算し,それをルートして不偏標準偏差を求める(図50図50■3群の場合の合算の不偏標準偏差の計算方法).この値をvとする.すなわち,3群分のバラツキを基準にして,ある2群の標本平均の差,たとえば(X̄1X̄2)を計算して,t値を求める.このt値は2群の場合と同様t分布するので,t分布に当てはめれば,有意差があるかどうかわかる.このあたりはt検定の手順と同様である.すなわち,計算式は以下となる.(X̄1X̄3)および(X̄2X̄3)についても同様に計算してt値を計算し,t分布で検定する.この方法は,最小有意差法(LSD法,あるいは,FisherのPLSD法)と呼ばれる.

このように,多重比較は基本的にはt検定を拡張した検定法であることがわかる.この検定法は,最も有意差のでやすい検定法であるが,後述する多重性の問題があり,3群の場合でのみ利用することができる.後述するが,この多重性の問題をクリアするために多くの多重比較法が開発された.

多重比較を行う前の一元配置分散分析は必要か?(図51)

もともと,一元配置分散分析は「何らかの影響があるかどうか」を調べることに役割をもった検定法であり,研究分野によっては利用価値がある.一方で,どの群とどの群同士で違いがあるのかを知りたい研究者は,多重比較で検定する必要がある.統計ソフトで多重比較を用いると,一元配置分散分析の結果も同時に表示される.すでに述べたが,多くの統計書には一元配置分散分析で有意差が得られ「何らかの変動が起こった」と判断されると,多重比較に進むと記されている.確かに,一元配置分散分析で変動が検出されないのに,多重比較では,ある2群間に有意差があるというのはおかしな話である.しかし,現実ではこの現象はよく起こるのである.これは一元配置分散分析と多重比較の考え方の違いが原因である.

一元配置分散分析では,(群内変動)2の総和/自由度)に対する((群間変動)2の総和/自由度)の比を求めることから,標本データのばらつき全体に対する標本平均のばらつき全体で考えている.したがって,たとえば,群数が多い場合,そのなかで1群の標本平均のみが変動しても,全体としては埋没してしまう可能性がある(図51図51■一元配置分散分析では有意差はないが,群間比較では有意差がある可能性のある1例*2逆も起こりうる.つまり,一元配置分散分析で有意差があるのに,多重比較では全く差がないという現象である.これも困ったことであるが,群間比較が目的であれば,多重比較の結果を尊重せざるを得ない.(3)3) 足立堅一:“らくらく生物統計学”,中山書店,1998..一元配置分散分析はまさしく「全体で何らかの変動が起こった」ことを調べる方法であり,ある成分の有効性試験,機能性試験や栄養試験などで関心のある特定の2群間の比較に注目しているわけではない.そこで,『統計的多重比較法の基礎』(4)4) 永田 靖,吉田道弘:“統計的多重比較法の基礎”,サイエンティスト社,1997.では,「多重比較と通常の一元配置分散分析は別物であり,多重比較を適用するときは,その手順のなかに示されていない限りはF検定による一元配置分散分析を併用するべきではない」と述べている.