セミナー室

改訂増補版:統計検定を理解せずに使っている人のためにII

Ikuo Ikeda

池田 郁男

東北大学未来科学技術共同研究センター

Published: 2019-09-01

改訂増補にあたって

この総説は,「統計検定を理解せずに使っている人のためにII」の改訂増補版であり,「改訂増補版:統計検定を理解せずに使っている人のためにI」の続きである.改訂増補に当たっての詳細は,「改訂増補版:I」の冒頭をお読みいただきたい.この改訂増補版では,「II」にあった誤りを修正した.また,理解しにくい部分について,さらにわかりやすい説明に努めた.

「改訂増補版:I」では,母集団標本母分散母標準偏差標本分散標本標準偏差不偏分散不偏標準偏差パラメトリック検定とノンパラメトリック検定の違い正規性の検定について主に記述した.これらの理解が曖昧な場合は,再度「改訂増補版:I」をお読みいただきたい.今回は,標準誤差2群のパラメトリック検定の基本有意差の意味2群のノンパラメトリック検定の基本をおもに,記述した.なお,図番号は,前回「改訂増補版:I」からの通し番号である.まず,図の内容をざっと眺めてから文章をお読みいただきたい.

パラメトリック検定(図16)

図16■パラメトリック検定

パラメトリック検定は母集団が正規分布していると仮定する(図16図16■パラメトリック検定).平均値や分散などのパラメータを使うことからこの名称がある.パラメトリック検定の例としては,Studentのt検定や分散分析などがある.前回と同様,母集団の大きさはN,母平均はμ,母分散はσ2と定義する.母平均μ,母分散σ2の正規分布をN(μ, σ2)と記述することとする.

パラメトリック検定の基本:母集団から取り出したn個の標本の平均値(標本平均)の分布を考える(図17)

図17■パラメトリック検定の基本

かなり込み入った話になるので,注意して読んでほしい.じっくり読まないと難しいが,ここを理解できないと標準誤差SEとt検定は理解できない.ここでは,母集団から取り出したn個の標本の平均値(標本平均)X̄iの分布を考える.個々の標本データの分布ではないので注意してほしい.

図17図17■パラメトリック検定の基本上のように,正規分布している母集団N(μ, σ2)からn個の標本を取り出し標本平均X̄1を計算する.これを何度も繰り返すとそれぞれ標本平均X̄1, X̄2, X̄3, …が得られる.このたくさん得られた標本平均を一つの別の母集団と考えて分布を調べると,正規分布し,その平均値は母平均μに近づくことが知られている*1これはたいへん重要なポイントで,中心極限定理と呼ばれる.標本の大きさnが大きいほど,標本平均X̄iの平均値は母平均μに近づき,その分散は母分散σ2の1/nに近づく.nが大きいほどは小さくなるので,母平均の範囲が絞られてくることを意味する(図17図17■パラメトリック検定の基本下グラフ).なお,nが大きい場合,母集団が正規分布に限らず,正規分布から外れていても,その母集団からとった標本平均の分布は正規分布するというおもしろい性質がある..しかし,最初の母集団の正規分布N(μ, σ2)とはバラツキ方(母分散)σ2が異なり,1/nだけ小さいバラツキ方σ2/nになることがすでにわかっている.つまり,N(μ, σ2/n)の正規分布となる(図17図17■パラメトリック検定の基本下グラフ)*1.すなわち,標本平均の母標準偏差n となり,σよりも だけ小さくなる*2実験動物の母集団を例にとれば,たとえばその中から6匹を標本として取り出して,測定したパラメータの標本平均を計算する.この操作を何度も繰り返して得られる多くの標本平均のバラツキは,個々に外れたデータがあっても平均化されるため,母集団のデータのバラツキよりも小さくなることは,予想できるであろう.図17図17■パラメトリック検定の基本では例として,ある一つの標本平均X̄1の位置を正規分布グラフに赤字で示している.

正規分布を標準正規分布に変換する(図18)

図18■標準正規分布へのデータ変換

正規分布はμとσ2が違えば分布が異なるので(図18図18■標準正規分布へのデータ変換左上と左下のグラフのように),いろいろな母集団でいちいち異なる正規分布を用いて考えるのは面倒である.そこで,母平均μが0(ゼロ)で,σ2が12の正規分布を標準正規分布と定義し,それぞれの異なる正規分布を標準正規分布に変換して考えることに決められている.そうすれば,どのようなμとσ2の母集団でも標準正規分布で考えることができる.図18図18■標準正規分布へのデータ変換の右のグラフが標準正規分布である*3前回でも述べたが,本セミナーのすべての図は筆者が模式的に作成したものであり正確なものではない..そこで,先ほどの標本平均X̄1図17図17■パラメトリック検定の基本下グラフと図18図18■標準正規分布へのデータ変換左上と左下グラフ)を標準正規分布の値に変換することとする(これを標準化と呼ぶ).まず,標準正規分布では母平均はゼロであるから,母平均μをゼロに移動するためには,μで引いてやればよい.すなわち,(X̄1-μ)である.一方,標準正規分布では母標準偏差は1であるから,を1に変換するためにはで割ってやればよい.すなわち,標本平均X̄1を標準化し,変換した値をZ1とすると,以下の式で表すことができる(図18図18■標準正規分布へのデータ変換中央の式).

そうすると,X̄1図18図18■標準正規分布へのデータ変換右の標準正規分布グラフ中のZ1に変換される*4この式でなぜ標準正規分布の値に変換されるのか不思議に思うかもしれないが,数学的な証明はなされている..このような標準化を行えば,異なる母集団の正規分布(図18図18■標準正規分布へのデータ変換の左上および下グラフ)の標本平均でも,同様に標準正規分布にデータ変換することができる.

このデータ変換はたいへん重要であるが少しわかりにくい.そこで,数式ではわかりにくいので,簡単な例を示す.図19図19■標準正規分布への標準化の実例を見て欲しい.今第1の母集団として,μ=10, =2の正規分布があり,X̄1=12の標本平均が得られたとする(図19図19■標準正規分布への標準化の実例左上グラフ).次に,第2の母集団としてμ=20, =4の正規分布があり,X̄1=24が得られたとする(図19図19■標準正規分布への標準化の実例左下グラフ).これらの数字を上式に代入すると,どちらもZ1=1が得られる(図19図19■標準正規分布への標準化の実例中央式と右グラフ).これらの2つの異なる正規分布では,母平均μ,母標準偏差 標本平均X̄1の数値はそれぞれ異なるが,標準正規分布にデータ変換すると同じ値となり,標準正規分布でのZ1の位置は,両母集団で同じであることがわかる.標本平均X̄1が標準正規分布中のZ1に標準化されたことを理解して欲しい.

図19■標準正規分布への標準化の実例

母標準偏差σはわからないので,不偏標準偏差uに置き換える(図20)

図20■母標準偏差σの不偏標準偏差uへの置き換え

ここまで,正規分布している母集団から取り出した標本データの平均値すなわち標本平均の分布は正規分布することを述べてきたが(図20図20■母標準偏差σの不偏標準偏差uへの置き換え左上グラフ,これをN(μ, σ2/n)とした),バラツキ(母標準偏差)は である.ここで,もともとの母集団の母標準偏差σは,生命科学系の研究では通常知ることができない値であり,このままでは, を計算することができない.では,どうすればよいのか?

ここで,前回「改訂増補版:I」で登場した不偏標準偏差uを思い出して欲しい(前回の図12および13)*5本総説では,不偏分散u2をルートした値uを不偏標準偏差と名付け,母標準偏差を推定する値として論じている.しかし,uは真の不偏標準偏差ではない(「改訂増補版:I」の*13参照).正確な不偏標準偏差とはズレがあり,特に,nが10以下で,小さいほどズレが大きい..標本データから母標準偏差σを推定する値として計算できるのが不偏標準偏差uである.そこで,母標準偏差σを不偏標準偏差uに置き換えることとする.この計算値をt1とする.

そこで,何度も標本を取って標本平均X̄1, X̄2, X̄3…およびu1, u2, u3…を計算し,さらにt1, t2, t3…を計算してt値の分布を調べる.σを用いた場合,分布は正規分布するので標準正規分布に変換されたが(図20図20■母標準偏差σの不偏標準偏差uへの置き換え左上グラフから右上グラフへ),uに置き換えると,正規分布とは少し異なる分布になる(図20図20■母標準偏差σの不偏標準偏差uへの置き換え左上グラフから右下グラフへ)*6この点が,uは“不偏”でないことを示している.“不偏”とは偏らないことで,偏りなく母集団を推定できることを意味する.もし,uが“不偏”であれば,母標準偏差σを推定する値となるので,σをuに置き換えても正規分布となるはずである.ところが,uはσとはズレがあるために正規分布とはすこしずれたt分布となる.nが小さいほどズレが大きくなるため,t分布は正規分布と大きくずれ,nが大きいほど正規分布に近い分布となる(図21図21■標準正規分布とt分布の違いのグラフ参照)..この分布はt分布と名付けられた(図20図20■母標準偏差σの不偏標準偏差uへの置き換え右下グラフおよび図21図21■標準正規分布とt分布の違いのグラフ).t分布のグラフは,正規分布よりも両裾が広がっていることに注意して欲しい.

図21■標準正規分布とt分布の違い

不偏標準偏差uは母標準偏差σを推定している.しかし,uは真の不偏標準偏差ではないため,標本の大きさnの影響を受ける*6この点が,uは“不偏”でないことを示している.“不偏”とは偏らないことで,偏りなく母集団を推定できることを意味する.もし,uが“不偏”であれば,母標準偏差σを推定する値となるので,σをuに置き換えても正規分布となるはずである.ところが,uはσとはズレがあるために正規分布とはすこしずれたt分布となる.nが小さいほどズレが大きくなるため,t分布は正規分布と大きくずれ,nが大きいほど正規分布に近い分布となる(図21図21■標準正規分布とt分布の違いのグラフ参照)..nが小さいと大きな影響を受けuはσからのズレが大きく,値としては小さくなる(改訂増補版:Iの*13参照).一方,nを大きくとると,uはあまり影響を受けずσに近い値となる*5本総説では,不偏分散u2をルートした値uを不偏標準偏差と名付け,母標準偏差を推定する値として論じている.しかし,uは真の不偏標準偏差ではない(「改訂増補版:I」の*13参照).正確な不偏標準偏差とはズレがあり,特に,nが10以下で,小さいほどズレが大きい.t1の式と図21図21■標準正規分布とt分布の違いt分布グラフを見て欲しいが,nが小さいとuはσより小さな値となるため,計算されるt値はt分布の中心のゼロから離れた値となる場合が相対的に多くなる.そうすると,正規分布に比べてt分布の裾野が相対的に広がることとなる.一方,nが大きくなると,uはσに近づくので,t値の分布は正規分布に近づいていく(図21図21■標準正規分布とt分布の違いのグラフ).つまり,t分布はnが違うとグラフの形が異なることを理解して欲しい*7t分布は,実際はnではなく自由度n−1に依存して形が変化する.自由度は何度か登場した.不偏分散の計算では,平方和をnで割るのではなく,自由度n−1で割ると母分散を推定できる値となることを述べた.今後はn−1以外の自由度も登場するが,どのような場合でも,自由度を用いることで母集団の情報を推定できると考えればよい.“バイオサイエンスの統計学”では,自由度とは,データのバラツキや偏りを予測する際に(つまり,分散や標準偏差を計算する際に),他と独立して扱えるデータ数のことと述べている1)1) 市原清志:“バイオサイエンスの統計学”,南江堂,1990..たいへんわかりづらいが,たとえば,ある母集団から,標本を6個採取した場合,それぞれが関連のない独立した標本であれば,自由度は6である.しかし,すでに述べてきたように不偏分散を計算する際に,計算式に標本平均が入っている.式に標本平均があると,nが6の場合,5個のデータがあれば,6個目のデータは標本平均×6から(5個の標本データの合計)を引き算すれば求まる.つまり,独立して扱えるデータ数は5であり,6個目は自動的に決まってしまい自由に動けない.したがって,自由度は1減ってしまい,5となる.つまり,標本の大きさをnとすると自由度はn−1となるのである.

ここでは標本平均の分布やバラツキを考えてきたことから,上のt1式の分母である は標本平均がどのようなバラツキ方をしているかを示しており,これが多くの研究者が用いる標準誤差standard error; SE)である.は標本平均の母標準偏差であったので(図17図17■パラメトリック検定の基本),標準誤差は標本平均の母標準偏差を推定する値となる.つまり,SEは母平均μがどのあたりにあるのか,すなわち,母平均μのありそうな範囲を表している.

SEを標本データのバラツキの一種と考えている読者がいるかもしれないが,それは間違いであり,SEには標本データのバラツキの意味はない.t1の式の分母がSEであるから,上の式は以下のようにも書ける.

つまり,この式は,母平均μのありそうな範囲である標準誤差SEを基準(分母)にして,標本平均X̄1が母平均μからどれ位離れているか(分子)を計算しているのである.たとえば,X̄1–μ>0と仮定して,分母のSEが小さければ,分子の(X̄1–μ)は相対的に大きくなるのでt1値はゼロから離れる.逆に,SEが大きければ,(X̄1–μ)は相対的に小さくなるのでt1値はゼロに近づく.この感覚を理解して欲しい.

標本平均±SEは何を意味しているのか?(図22)

図22■標本平均±SEの意味

標本データの平均値(標本平均)は母平均μを推定する値と位置づけられる.そして,SEは母平均μのありそうな範囲を示している(図22図22■標本平均±SEの意味).SEの式を見ると,SEは標本の大きさnが大きくなればなるほど,小さくなることがわかる.これは,nが増えれば増えるほど,母平均μの存在する範囲が絞り込まれることを意味する.nが増えて,母集団の大きさNに近くなればなるほど,μが絞り込まれていくことは感覚的に理解できるのではないだろうか*8なお,学会発表において,スライドに標本の大きさnや標本平均±SEなのか±SDなのか表記していない発表が数多く見受けられる.これらは重要な情報であり,その表記は研究者としての基本である.書き忘れたで済むものではない.

標本平均±SDと標本平均±SEは何が違うのか?(図23)

図23■標本平均±SDと標本平均±SEの違い

標本平均±SDについては,前回の図15でも記述したように,研究者は母平均μと母標準偏差σの両方に関心があるはずである(図23図23■標本平均±SDと標本平均±SEの違い).それでは,標本平均±SEではどうであろうか? SEは母平均μのありそうな範囲を示していることから,母平均μに関心が集中しているのであり,母標準偏差σには原則的には関心がないことになる.母平均μをSEによりどこまで絞り込んだかが焦点である(この点は『らくらく生物統計学』(2)2) 足立堅一:“らくらく生物統計学”,中山書店,1998.に詳しく述べられている).

実例を図23図23■標本平均±SDと標本平均±SEの違い中段に示している.ある機能性成分が母平均μを変化させるかどうかにのみ関心があるのであれば,SEを使えばよい.図23図23■標本平均±SDと標本平均±SEの違い下段に示すような例では,SDが適している.しかし,学会発表や論文を見るかぎり,SEとSDを上記の観点から使い分けている研究者は少ないように思われる.SDを使うか,SEを使うかは研究室毎に決まっているのではなく,あくまでも何が知りたいのかで決まるのである.このセミナーの読者は,SDとするのかSEとするのか,よく考えて使い分けて欲しい.

2群の差の検定(Studentのt検定)(図24, 25)

図24■統計検定の重要なポイント

図25■2群の標本平均の差も正規分布する!

ここからいよいよ群間比較,群間の有意差検定に入り,「有意差」について説明していく.生命科学系の研究では,2群あるいは3群以上を設定して,群間比較を行う実験が多いのではないだろうか? その基本となるのが,Studentのt検定である.t検定は2群のパラメトリック検定であり,t分布を用いることからその名がある.しかし,統計書を読んでも,計算方法はわかるが,その原理は簡単には理解できない場合が多い.かなり複雑であるが,t検定の原理をマスターすれば,そのほかの多様な検定も,実は基本的な手順は同じであることから,理解しやすいはずである.

詳しくは後述するが,t検定には主に対応のない独立2群の検定(unpaired t test)と対応のある関連2群の検定(paired t test)がある.ここでは,unpaired t testを例として詳述する.

図24図24■統計検定の重要なポイントの右上図に,2群の標本平均X̄1X̄2が示されている.この2群の間に「差がある」かどうかは,基準がないと決められない.たとえば,X̄1X̄2間に10%以上差があれば差があることにしようという基準である.しかし,「改訂増補版:I」の図4で説明したように,差があるかどうかは標本平均の差だけでなくデータのバラツキ方によっても判断が変わるので,基準を決めることは困難である.そこで統計学では,「差がない」という仮説から考えていくことに決まっている.この「差がない」という仮説を帰無仮説と呼ぶ.これに対して「差がある」という仮説を対立仮説と呼ぶ.「差がない」ことから考えていく考え方は,群間比較を行う検定においては基本的考え方であり,共通しているので,記憶して欲しい.

そこで,考え方として,同一母集団から標本をとると考える(図24図24■統計検定の重要なポイント下図).たとえば,今一つの母集団から,それぞれn1およびn2個の標本を取り2群とする.この場合,2群のそれぞれ個々の標本には対応(関連)はなく独立しているので,対応のない独立2群の検定(unpaired t test)となる.2群それぞれの標本平均をX̄1X̄2とする(図24図24■統計検定の重要なポイント).このように標本を取れば,もともと同じ母集団であるから,本来は差はないはずであるが,標本なので標本平均X̄1X̄2は必ずしも一致はしないという状況となる.

ここで,便宜的に,2つの標本X̄1X̄2の母集団の母平均をそれぞれμ1とμ2とし,母分散をσ12とσ22とする.(同じ母集団からの標本であるから,実際はμ1=μ2およびσ12=σ22であるが).ここで,帰無仮説は「差がない」とするのでμ1=μ2となる.これに対して対立仮説は,「差がある」とするので,μ1≠μ2となる.

母集団からn個の標本を取って標本平均X̄iを得たとして,これを無限に繰り返したとき標本平均は正規分布し,母分散はσ2/n,母標準偏差はとなることはすでに述べた(図17図17■パラメトリック検定の基本下グラフ).それでは,ある正規分布する母集団から標本データをn1およびn2個取り出し,標本平均X̄1X̄2を求める.そして,標本平均の差(X̄1X̄2)を求めることとして,この操作を何度も繰り返して(X̄1X̄2)の分布を求めると,どうなるであろうか? 実はこの場合も正規分布するのである(図25図25■2群の標本平均の差も正規分布する!左上グラフ).(X̄1X̄2)は同じ母集団からの標本平均の差なので,ゼロを中心にばらつくと予想される.すなわち,正規分布の中心はμ1–μ2=0である.(X̄1X̄2)を一つの母集団としたときの母分散は,それぞれの群の母分散σ12/n1およびσ22/n2を足した値となる.すなわち,

これをルートすることで,母標準偏差が計算できる.

すなわち,母標準偏差は,

となるが,もともと同一母集団なのでσ1=σ2であるから,これらをσとすると,以下の式となる(図25図25■2群の標本平均の差も正規分布する!左グラフ).

そこで,標本平均の差(X̄1X̄2)がこの正規分布のどこにあるかを考えるが,ここで,図18図18■標準正規分布へのデータ変換で説明した,標準正規分布へのデータ変換(標準化を思い出して欲しい.

X̄1X̄2)を標準正規分布上のZ1に変換すると以下の式が出現する(図25図25■2群の標本平均の差も正規分布する!中央上の式).

この式が出現することがピンとこないようであれば,「正規分布を標準正規分布に変換する(図18図18■標準正規分布へのデータ変換」の項を読み返して欲しい.

ここで,μ1-μ2=0であるから,結局,次の式が得られ,標準正規分布の値に変換される(図25図25■2群の標本平均の差も正規分布する!右上グラフ).

ここで,σはもともとの母集団の母標準偏差であり,研究者は知ることができない.そこで,図20図20■母標準偏差σの不偏標準偏差uへの置き換えで説明したことと同様の理由で,母標準偏差を推定する値である不偏標準偏差uを用いることとする.このときの計算値をt1とすると,次式となる(図25図25■2群の標本平均の差も正規分布する!中央下式).

さて,ここで不偏標準偏差uはどのように計算するのであろうか? 不偏標準偏差uの計算方法は前回の図12でも説明したが,ここでは図26図26■(X̄1X̄2)の不偏標準偏差uの計算上の式を見て欲しい.簡単には,平方和を自由度n−1で割り算し不偏分散を求めルートした.しかし,ここでは2群あるので,2群両方のバラツキを考慮すべきである.そこで,2群の平方和を合算し,合算した自由度で割り算して,ルートすればよい(図26図26■(X̄1X̄2)の不偏標準偏差uの計算最下の式).

図26■(X̄1X̄2)の不偏標準偏差uの計算

母集団からn個の標本を取って標本平均X̄iを得たとして,これを無限に繰り返したときの標本平均の分布は,不偏標準偏差uを用いるとt分布することはすでに述べた(図20図20■母標準偏差σの不偏標準偏差uへの置き換え右下グラフ).このことと同様に,上式で計算したt1は,この計算を無限に繰り返すとt分布するので,t分布中の値に変換される(図25図25■2群の標本平均の差も正規分布する!右下グラフ).t分布については,図21図21■標準正規分布とt分布の違いの説明で詳しく説明した.

このt1値がt分布のどこに位置するかで,有意差を決めていくことになるのである.ここまでの内容をしっかり理解したうえで,先に進んで欲しい.

ここまで,2つの標本平均の差(X̄1X̄2)の分布は不偏標準偏差uを用いるとt分布することを述べてきた.そして,ある2群の実験を行って得られたデータから,t1を計算した.このt1t分布のどの位置にあるのかを調べる(図25図25■2群の標本平均の差も正規分布する!右下グラフのt1の位置を調べる).t分布はゼロを中心に左右にばらついている.X̄1X̄2に大きな差がなければ,(X̄1X̄2)はゼロあたりにあるが,たまたま大きな差があれば,ゼロから離れる.しかし,t分布のグラフからわかるように,ゼロから大きく離れる確率は低く,滅多には起こらない.そこで,t1t分布のかなり外れたあたりにくると,それは滅多に起こらないまれなことが起こったのであるから,差があることにしてしまおうというのが,「有意差がある」という決め方になっている.つまり,同じ母集団からの2つの標本平均の差(X̄1X̄2)を,「差がない」という帰無仮説μ1=μ2で考えてきたが,「差がない」と考えるには,あまりにも外れたあたりにあるので,帰無仮説μ1=μ2を棄て(棄却し),差があるμ1≠μ2と考えることにしてしまおうという考え方である(対立仮説を採用することにする).この「差がない」ことから考えてきたが,あまりにも差が大きいので「差がある」ことにしてしまおうというのが,群間比較の検定の基本的な考え方であるので,記憶して欲しい.

ここで重要なポイントが見える.つまり,2群間に「有意差がある」は,「真に差がある」ことを意味している訳ではないことである.多くの研究者は標本で研究している.標本で研究しているかぎり,たとえ有意差があっても,差があるとは断定できないのである.したがって,標本を用いた1回の試験だけでは真実かどうかはわからない.研究者はいろいろな角度から研究し真実を追究すべきである.

なお,t分布は自由度n−1によって分布の形が変化することはすでに述べた(図21図21■標準正規分布とt分布の違いと*7).ここでは2群あるので,自由度は図26図26■(X̄1X̄2)の不偏標準偏差uの計算で述べたように合算して(n1−1)+(n2−1)となり,n1n2−2である.したがって,自由度n1n2−2のt分布で考えることとなる.

滅多に起こらないまれな確率の決め方(図27)

図27■有意水準(危険率)とは?

それでは,滅多に起こらないまれな確率をどの程度にとればよいのであろうか? 図27図27■有意水準(危険率)とは?の上に書いているように,t分布全体の面積の両端それぞれ2.5%または0.5%の合計(あるいは片端,これについては後述する)の5%または1%とすることに決められている(母集団全体を1とすれば,0.05あるいは0.01)*9この5%(0.05)を決めたのは,統計学では有名なRonald Fisherと言われている.実は,0.05に科学的根拠はないのである.Fisherが0.07と決めれば,そう決まったかもしれない..この判定基準を有意水準と呼ぶ.標本平均X̄1X̄2はどちらが大きな値になるのかわからない場合は,(X̄1X̄2)はプラスになるかマイナスになるかわからないので,t分布の左右両端が設定され,それぞれ2.5%ずつあるいは0.5%ずつにt値が入ってくると,まれなことが起こったと判定するのである.しかし,滅多に起こらないまれなことといっても,もともと「差がない」ことから考えてきたのであり,「差がある」と断言するのは危険である.そこで,有意水準は危険率とも呼ばれる.なお,帰無仮説は正しい,つまり差がないのに,帰無仮説を棄却する,つまり差があるとしてしまう誤りを犯すことはありうる.この誤りを第一種の過誤と呼ぶ*10第一種の過誤に対して,差があるのに対立仮説を棄却して,差がないとしてしまう誤りを,第二種の過誤と呼ぶ.これらは統計書によく登場し,わかりにくい単語である.

最近は,t値がわかればパソコンでt値よりも両端の面積を計算してくれる.t分布の面積を1としたときのこの両端の面積をp値と呼ぶ(図28図28■p値とは?).したがって,有意水準(危険率)はp値が0.05(5%)あるいは0.01(1%)である.pはprobabilityの頭文字であり,p値とは観察された差が偶然生じる可能性を示す尺度ということになる.たとえば,p=0.005とは,観察された差が偶然起こるのは0.5%,つまり200回に1回であることを示す.偶然に起こるのが200回に1回であれば,偶然に起こったのではなく,ある意味をもって(有意に)起こった可能性が高いと判断する.これを「有意差がある」と表現する.

図28■p値とは?

有意水準5%で考えると(図28図28■p値とは?左下枠内),有意水準5%は同じ実験を20回行うと,1回程度は有意差がないのに有意となる可能性のある確率となる.それは1回目に起こるかもしれない! 20回目に起こるかもしれない! 実験は通常1回しか行わない.もし,1回目に起これば,本当は有意差がないのに有意差ありと判定されることになる(第一種の過誤).研究者はこのことを念頭に置いておかねばならない.1回の実験だけで結果を論文化する危うさはここにある.このことは先程述べたように,真実を明らかにするためには角度を変えた研究を行い確認を取ることが重要である.

t1の計算式の分母の式をみると,

nが大きくなればなるほど,この値が小さくなり,X̄1X̄2と仮定すると,t1値は大きくなることがわかる.t値が大きくなると,t分布の端のほうに寄るので,有意となる可能性が高まる.したがって,t検定では,標本データの大きさnを増やせば有意差は出やすい.微妙な差しかない,あるいは,バラツキが大きいことが最初からわかっているパラメータの場合に,nを増やすことは有益な手段である.

p<0.05をどのように表現するのか?

有意差をどのように表現するのかは図29図29■p<0.05の表現は?に記載したとおりである.有意差があると,「差があった!」と表現することが多いが,これまで述べてきたように,「差がある」という表現は適切ではない.正確には,「有意水準5%未満で統計的に有意差がある」が正しい.せめて,「(統計的に)有意差がある」という表現を使うようにしたい.また,p>0.05の場合では,「(統計的に)有意差はない」が妥当な表現である.

図29■p<0.05の表現は?

母集団の情報がわかっている場合の検定で統計的有意差の意味を再度理解する!

読者は統計的有意差の意味が理解できたであろうか? かなり複雑な内容であったため,いま一つピンと来ていないかもしれない.そこで,ここでは,生命科学研究者が用いることはほとんどない母集団の情報(母平均µと母分散σ2)がわかっている場合の検定について説明し,有意差検定の理解を深めたい.すでに有意差の意味を理解できた読者は,おそらく簡単に理解できるはずである.

筆者が作った架空の母集団であるが,日本人男性の身長の分布を正規分布する母集団と考え,身長の平均(母平均)がµ=170 cmで,母標準偏差σ=10であることがわかっていると仮定して考える(図30図30■母集団の情報がわかっている場合の統計検定の考え方(1)上)(通常の生命科学系研究ではこの部分が不明であり,それを知りたいがために研究している).日本人男性は6,000万人いるとする.分布は正規分布であるから,170 cm前後の人が多く,身長がかなり高いおよび低い人の人数は減っていくというベル型である(図30図30■母集団の情報がわかっている場合の統計検定の考え方(1)左上グラフ).ここで,170 cm前後のヒトはたくさんいるので,「日本人男性と同等と判断する」.一方で,身長が正規分布の両側のかなり外れたあたりにあると,170 cmからかなり外れており,そのような身長の日本人は滅多にいないので,「日本人と同等とは言えない」と判断する.これが有意差がない,あるいは,あることを意味する統計検定の原理である.

図30■母集団の情報がわかっている場合の統計検定の考え方(1)

これまで,統計検定とはもともと差がないところから考えていく.しかし,差がないというにはあまりにも差が大きいので,差があることにしてしまおうと考えると説明してきた.ここでもこの考え方は同様である.もともと日本人である.しかし,日本人と考えるにはあまりにも背が高い(低い)ので,日本人とは言えないことにしてしまおうという考え方である.

ここで,日本人と同等か,同等とはいえないかを判断するための境界線として考えられたのが,有意水準の5%あるいは1%である.6,000万人の5%は300万人である.両端それぞれで2.5%は150万人に相当する.かなり背が高い(低い)人で,この両端150万人に入っていれば,あまりにも背が高い(低い)ので,日本人とは同等の身長ではないことにしてしまおうと考える.これが統計検定での「有意差がある」ことを意味する.

さらに実例をあげると,今ここに,身長x1=194 cmのA君がいる.A君が日本人と同等の身長かどうかを調べたい(A君は日本人かどうか不明とする).そのために,194 cmがこの正規分布のどのあたりにあるのかを調べることとする.図30図30■母集団の情報がわかっている場合の統計検定の考え方(1)左の正規分布で,194 cmがどのあたりにあるかを調べることもできるが,図18図18■標準正規分布へのデータ変換で述べたことと同様に,µ=0, σ=1の標準正規分布に当てはめ,データを標準化することに決まっている(図30図30■母集団の情報がわかっている場合の統計検定の考え方(1)右下).平均値をゼロへ座標移動するために母平均µを引き,σを1とするために,σで割り算する.すると,以下の式ができる(図30図30■母集団の情報がわかっている場合の統計検定の考え方(1)右中央式).

µ=170 cm, σ=10であるから,

となる.

標準正規分布で,両端2.5%に相当するZ値は,1.96(あるいは−1.96)と決まっている.計算値2.4は,1.96よりもさらにゼロより遠い位置にあり(図30図30■母集団の情報がわかっている場合の統計検定の考え方(1)右下グラフ),身長194 cmのA君はかなり外れた身長であることがわかる.したがって,A君は日本人の身長としてはかなり外れているので,日本人と同等の身長とは言えないと判断する(図30図30■母集団の情報がわかっている場合の統計検定の考え方(1)左下).ここで,「A君の身長は日本人と同等である」は帰無仮説となり,「A君の身長は日本人と同等とは言えない」は対立仮説となる.A君の場合は,帰無仮説を捨て,対立仮説を採用する.これが有意差検定である.

このように,A君は日本人にしてはあまりにも身長が高いので,日本人とは同等の身長ではないことにしてしまおうと考えたのであって,決して日本人と同等ではないと断定したわけではない.日本人でもこの身長の人は存在する.実はA君が日本人であることはありうる.A君が日本人ではないとは,決して断定できないのである.

A君の場合は,標本としてn=1であったが,標本が複数の場合はどうなるのであろうか? たとえば,日本全体の大学生の平均身長が,µ=170 cmで,母標準偏差σ=10であることがわかっていると仮定する(母集団)(図31図31■母集団の情報がわかっている場合の統計検定の考え方(2)).Y大学の無作為抽出した学生n=25の平均身長は,X̄2=174 cmであった.Y大学の学生の身長は,全国平均よりも大きいと言えるかという設問があったとする.ここで,帰無仮説は全国平均と同等である.対立仮説は全国平均と同等とは言えないと設定する.

図31■母集団の情報がわかっている場合の統計検定の考え方(2)

ここでは,n=25の標本平均174 cmが焦点である.これは,日本人学生の母集団から25名を標本としてとった平均値(標本平均)である.そうすると,25名の標本を取ることを繰り返して得られた標本平均の分布で考える必要がある.これは,図17図17■パラメトリック検定の基本の設定と同じなので思い出して欲しい.標本平均の分布は正規分布し,母平均μを中心にバラつく.そのバラツキ(母標準偏差)は

であった(図17図17■パラメトリック検定の基本および31図31■母集団の情報がわかっている場合の統計検定の考え方(2)中央グラフ).この正規分布で,X̄2=174 cmがどこにあるかを考えるが,何度も説明してきたように,ここでも標準正規分布に標準化する(図18図18■標準正規分布へのデータ変換および31図31■母集団の情報がわかっている場合の統計検定の考え方(2)の式).そうすると,変換式は以下となる.得られた値をZ2とすると,
となる(図31図31■母集団の情報がわかっている場合の統計検定の考え方(2)右グラフ).

そこで,Z2=2が標準正規分布のどの位置にあるかを調べる.先程記述したように,両端2.5%のときのZの値は,1.96であるから,2は1.96よりも僅かに大きいので,Y大学の学生の身長は,ぎりぎり全国平均と同等とは言えず,有意に背が高いという結論となる.統計学ではこのような考え方をすることを再度認識して欲しい.

ここでもし標本の大きさnが25名よりも小さいと,上式の分母 は大きくなるため,Z2の計算値は1.96よりも小さくなる.そうすると統計的有意差はなくなり,Y大学の学生は全国平均と同等と言えるという結果になる.つまり,標本の大きさnが小さくなると結論が変わる.nが小さくなると,情報の正確さに欠けてくるので,全国平均と同等と言わざるをえなくなってくるのである.

ここで,先程のA君n=1の例に戻るが,Zの変換式は以下であった.

一方,Y大学の学生25名の例では,

であった.このZ2の式にn=1を入れれば,Z1と同じ式であることに気づく.すなわち,図31図31■母集団の情報がわかっている場合の統計検定の考え方(2)の中央グラフは,n=1の場合は,左グラフと一致する.

ここでは,母集団の情報がわかっているので,標準正規分布で検定を行ったことを理解して欲しい.すでに述べたt検定では,母標準偏差σがわからないために,仕方なく不偏標準偏差uを用いざるをえず,そのために,t分布が登場した(図25図25■2群の標本平均の差も正規分布する!).違いはこの部分のみである.

対立仮説の立て方で検定結果は異なる!(図32)

図32■対立仮説の立て方

これまで2群の実験で,同一母集団からの標本で2群とした.2群それぞれの母平均は便宜的にμ1とμ2とした(同一母集団であるからμ1=μ2である).帰無仮説として母平均μ1とμ2は差がない,すなわち,μ1=μ2とした.μ1とμ2はどちらが大きな値になるかは,通常はわからない.そこで,対立仮説はμ1≠μ2(すなわちμ1-μ2≠0)とした.標本平均X̄1X̄2で考えると,(X̄1X̄2)はプラスかマイナスかわからない.したがって,t分布の両端の2.5%ずつの範囲に入れば,有意水準5%で有意差ありとする.このような検定を両側検定と呼ぶ(図32図32■対立仮説の立て方).未知の機能性成分の影響を調べる場合では,通常X̄1X̄2はどちらが大きくなるかわからないので,両側検定とすべきである.しかし,前もってμ1とμ2のどちらかが大きいという十分な情報がある場合は,μ1>μ2あるいはμ1<μ2と対立仮説を立てることも可能である.具体的な例を図32図32■対立仮説の立て方左下に記述している.もし,μ1<μ2と対立仮説を立てることができれば,(X̄1X̄2)はマイナスとなることが最初から期待できることから,図32図32■対立仮説の立て方t分布グラフのマイナス側だけを考えればよいので,マイナス側に5%を設定できる.このような検定を片側検定と呼ぶ.図32図32■対立仮説の立て方右下図を見るとわかるように,片側検定では両側検定よりもマイナス側のt分布の面積が2倍となるので,有意となりやすくなることがわかる.

片側検定を使えるのは十分な証明のある場合である.図32図32■対立仮説の立て方に片側検定の一例を示した.しかし,一般的な生命科学系の研究では十分な立証がないから研究を行っている場合が多いので,生命科学系の研究において片側検定を用いることはほとんどない.なお,ある試験物質で1, 2回実験を行ってみて両側検定で有意な影響が得られたからといって,それ以降の少し条件を変えた実験において,片側検定を用いて有意差を得やすくするといった判断は許されることではない.あくまでも,μ1とμ2のどちらかが大きいという十分な情報がある場合に限られる.原著論文において,一般的には両側検定か片側検定かの記述はないが,常識的には両側検定を行っているはずである.統計ソフトでは,片側か両側かをチェックして検定に進む場合が多いので,間違えないようにしなければならない.もし,チェックせずに進む統計ソフトがある場合は普通は両側検定が行われる.

2群のパラメトリック検定の流れ

図33図33■2群のパラメトリック検定の流れに2群のパラメトリック検定の流れを記載している.これまで述べてきたのは,対応のない独立2群の検定 unpaired t testであり(図33図33■2群のパラメトリック検定の流れ左端の上から下の流れ),同一母集団からの標本なので,母分散は等しい,すなわちσ12=σ22と仮定した(2群の差の検定(Studentのt検定の項参照)).しかし,標本として2群をとっているので,たまたま,分散が等しいとはいえない場合も起こりうる.分散が等しい,すなわち,等分散かどうかは,等分散性の検定を行い,等分散と判定されれば,unpaired t testを行い,等分散と判定されなければ,Welchの検定を行うというのが定番で,多くの統計書にそのように書かれている(図33図33■2群のパラメトリック検定の流れ左上から下への流れ).しかし,Welchの検定は,等分散でない場合だけでなく,等分散かどうかわからない場合でも正確な検定ができることから最近では推奨されている.一方,unpaired t testは,等分散から外れると検定が不正確となる.つまり,Welchの検定を用いるのであれば,等分散性の検定を行う必要がない.unpaired t testは2群の検定の定番のように言われてきたが,t検定を指定すると,実際はWelchの検定が実行される統計ソフトも現れている.まず,等分散性の検定について説明する.

図33■2群のパラメトリック検定の流れ

等分散性の検定(F検定)の原理(図34)

図34■等分散性の検定

すでに述べてきたが,unpaired t testは,同一母集団から2群の標本を取り,それぞれの母分散を便宜的にσ12とσ22としたとき,同一母集団であれば当然σ12=σ22であるから,2群の分散は等しい(等分散)として検定が考えられている.しかし,実際には,得られるのは標本データであり,母分散はわからないので,2群の不偏分散u12とu22で考えざるをえない.標本データであるから,u12とu22が必ずしも近い値になるわけではなく,かけ離れてしまうこともありうる.そうすると,unpaired t testではうまく検定できない.そこで,u12とu22がかけ離れているかどうかを検定する方法として等分散性の検定がある.この検定は,F検定とも呼ばれる.

図34図34■等分散性の検定上図にあるように,同じ母集団から2群を取り出し,それぞれの不偏分散u12とu22を計算する.等分散であれば,u12=u22を考えればよい,u12=u22であれば,u12/u22は1になる(この値をFとする).u12とu22がかなり離れた値なら,u12/u22は1から外れた値になる.これを利用する.そこで,母集団から2群を取って,F値を計算することを何度も繰り返してプロットすると,ある分布が出現する(図34図34■等分散性の検定右グラフ).これをF分布と呼ぶ*11.u12/u22の分布であるから,マイナスはありえない.Fは1前後になる可能性が最も高いので,1をピークにして,1から離れるほど少なくなる分布となる.そこで,Fが1あたりにあると等分散と考え(図34図34■等分散性の検定F1前後),1から大きく離れた場合(図中F2F3前後),等分散と考えるにはあまりにも離れており,無理があると判定する.その判定基準であるが,t検定の場合と同様に考える.すなわち,全体の5%を基準に考える.u12とu22はどちらが大きい値になるかはわからないので,F値は,1より大きくなるか小さくなるかわからない.そこで,両端の2.5%ずつを基準とし,そこにF値が入った場合,等分散とは言えないと判定することにしようという考え方である.これが,等分散性の検定の原理である*12t検定でも述べたように,同じ母集団から考えてきたことから,等分散ではないと断定することはできないことはおわかりいただけるはずである.

しかしながら,標本の大きさnが小さいと,不偏分散が大きくばらついてくる恐れがあるので,u12/u22も大きく変動し,等分散かどうかの判断が難しくなる.nが小さい場合,等分散性の検定では等分散と判断されることが多い.これは等分散ではないと判断するにはばらつきが大きすぎるため,等分散と判定しているにすぎない.等分散かどうかの判断は,一般的にn=30以上必要とされる.これらのことから,標本の大きさnが小さい場合は等分散性の検定はあてにならないのである.

そうすると,nが小さい場合に等分散と判定されても,unpaired t testを行うのは危険かもしれない.生命科学系の研究では,nが30よりも小さい実験が多いのではないだろうか? このような場合,Welchの検定を選択したほうが妥当と考えられる(Welchの検定は次項で説明する).もちろん,nが大きい場合でもWelchの検定は使えるので,結局,標本の大きさnにかかわらず,等分散性の検定は行わず,Welchの検定を行えばよい.なお,この検定の流れは比較的最近推奨されてきているが,まだ広く認められたわけではなく,等分散性の検定→unpaired t testという考え方で書かれた本がほとんどである.この議論に関してネット上にまとめられている(3)3) http://www2.vmas.kitasato-u.ac.jp/lecture0/statistics/stat_info03.pdf.検定を利用するだけの研究者にとって,この論争は迷惑であり,どちらかに決めてほしいところである.筆者が調べたかぎりでは,等分散性の検定は行わず,Welchの検定でよいと考えられる.この考え方で,図33図33■2群のパラメトリック検定の流れを修正したのが,図35図35■修正版:2群のパラメトリック検定の流れである.

図35■修正版:2群のパラメトリック検定の流れ

統計ソフトでは,等分散性の検定ののちにunpaired t testとWelchの検定の両方の検定結果が表示されるものがある.両者で検定結果が同じであればその結果を採用すればよいので何も問題がない.しかし,nが小さい場合,もし,unpaired t testとWelchの検定の検定結果が異なると困ったことになる.等分散性の検定があてにならないと,どちらの検定結果を採用してよいか決められない.このような場合は,Welchの検定の検定結果を採用してよいと考えられる.

Welchの検定の考え方(図36)

図36■Welchの検定の考え方

Welchの検定の考え方は,unpaired t testの考え方とよく似ているが,分散が異なるかもしれない2群で考えるので,母分散の異なる2つの母集団からそれぞれ標本をとって2群としたと考えたほうが,考えやすい(図36図36■Welchの検定の考え方左上図).つまり,母平均μは同じであるが,母分散は異なる2つの母集団からの標本と考えるのである.便宜的に2つの母平均はμ1とμ2とするが,μ1=μ2である.それぞれの標本平均をX̄1X̄2とし,(X̄1X̄2)を計算する.これを何度も繰り返して分布を調べると,unpaired t testの場合と同様に正規分布する(図36図36■Welchの検定の考え方右下グラフ)*1これはたいへん重要なポイントで,中心極限定理と呼ばれる.標本の大きさnが大きいほど,標本平均X̄iの平均値は母平均μに近づき,その分散は母分散σ2の1/nに近づく.nが大きいほどは小さくなるので,母平均の範囲が絞られてくることを意味する(図17図17■パラメトリック検定の基本下グラフ).なお,nが大きい場合,母集団が正規分布に限らず,正規分布から外れていても,その母集団からとった標本平均の分布は正規分布するというおもしろい性質がある..このとき,母分散σ12およびσ22は異なるので,以下の式のように,別々に足すことで合算の母分散を求める.

これをルートした値が母標準偏差となる(図36図36■Welchの検定の考え方右下グラフ).

そこで,unpaired t testの場合と同様に,(X̄1X̄2)を標準正規分布の値に標準化する(図36図36■Welchの検定の考え方右下グラフから中央下グラフへ).

そうすると,以下の式が出現する(標準化の方法については図18図18■標準正規分布へのデータ変換参照).これにより,(X̄1X̄2)は標準正規分布のZ1へ変換される(図36図36■Welchの検定の考え方中央下グラフ).

unpaired t testの場合は,以下の式であった(図25図25■2群の標本平均の差も正規分布する!).分母の標準偏差の違いを認識して欲しい.

ここで,μ1=μ2であるから,分子の(μ1−μ2)はゼロとなり消すことができる.また,σ12およびσ22はわからないので,それぞれの群の不偏分散u12とu22を用いることとなる.

unpaired t testでは,図26図26■(X̄1X̄2)の不偏標準偏差uの計算にあるように,合算の不偏分散を計算した.これは2群がそれぞれ等分散であると仮定したので,合算した.しかし,Welchの検定では,2群の母標準偏差が異なるので,それぞれの群の不偏分散u12とu22をそのまま代入する.そうすると,標準化の式の分母は以下のt1の式となる.

このt1値が,t分布のどこにあるかを調べる(図36図36■Welchの検定の考え方左下のグラフ).

このように,X̄1X̄2)を標準正規分布に標準化するが,母標準偏差がわからないので不偏標準偏差に置き換えることでt分布となり,t1値がt分布のどこにあるかを考えるという手順はunpaired t testの場合と同じであることがわかる.

ただし,unpaired t testでは,自由度は2群の自由度を足した(n1−1)+(n2−1)であった.つまり自由度(n1n2−2)のt分布を用いる.しかし,Welchの検定では,自由度が異なる.自由度の計算式は以下のような複雑な式となっている.

自由度については,すでに説明した*7t分布は,実際はnではなく自由度n−1に依存して形が変化する.自由度は何度か登場した.不偏分散の計算では,平方和をnで割るのではなく,自由度n−1で割ると母分散を推定できる値となることを述べた.今後はn−1以外の自由度も登場するが,どのような場合でも,自由度を用いることで母集団の情報を推定できると考えればよい.“バイオサイエンスの統計学”では,自由度とは,データのバラツキや偏りを予測する際に(つまり,分散や標準偏差を計算する際に),他と独立して扱えるデータ数のことと述べている1)1) 市原清志:“バイオサイエンスの統計学”,南江堂,1990..たいへんわかりづらいが,たとえば,ある母集団から,標本を6個採取した場合,それぞれが関連のない独立した標本であれば,自由度は6である.しかし,すでに述べてきたように不偏分散を計算する際に,計算式に標本平均が入っている.式に標本平均があると,nが6の場合,5個のデータがあれば,6個目のデータは標本平均×6から(5個の標本データの合計)を引き算すれば求まる.つまり,独立して扱えるデータ数は5であり,6個目は自動的に決まってしまい自由に動けない.したがって,自由度は1減ってしまい,5となる.つまり,標本の大きさをnとすると自由度はn−1となるのである..しかし,この計算式がどのように誘導されたのか,また,なぜこの自由度のt分布を用いれば適正に検定できるのかは原報を読んでも理解できず,筆者の能力を超える(4)4) B. L. Welch: Biometrika, 29, 350 (1938)..この自由度は整数にはならないので,四捨五入して整数にして,その自由度のt分布を用いることとなる.統計ソフトでは自動的に計算してくれ,そのt分布に当てはめてくれる.その後の手順は,unpaired t testと同様に検定する(図27図27■有意水準(危険率)とは?).

unpairedとpaired t testはどう違うのか?(図37)

図37■unpairedとpaired t testの違い

これまでは,対応のない独立2群の差の検定(unpaired t test)を述べてきたが,対応のある関連2群の差の検定(paired t test)もある.わかりやすい例を図37図37■unpairedとpaired t testの違いに記載した.2群の別々のネズミで試験すると,ネズミは対応していないので対応のない独立2群の検定である.一方,同じネズミで投与前と投与後の比較をする場合は,対応があるのでpaired t testとなる.paired t testの考え方は,これまで述べてきたunpaired t testを理解していれば容易に理解できる.

簡単に記すと,paired t testの場合には,同じネズミからのデータなので,投与後のデータx1と投与前のデータx2を個々のネズミで比較できる.そこで,仮に6匹のネズミがいるとして,それぞれのネズミで差dx1x2を計算する.投与前と投与後で大きな変化がなければdはゼロの前後に分布することになり,何らかの影響があれば,dはゼロから離れる.パラメトリック検定であるからもともとの母集団は正規分布と仮定しており,差dもまた正規分布することが知られている.そこで,6匹のdの平均値(標本平均)とその不偏標準偏差を計算する.その後は,を標準正規分布に標準化し,不偏標準偏差に置き換えて,t分布に当てはめるのは,unpaired t testと同様である.詳しくは拙著を参照されたい(5)5) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017.

対応のある関連2群の実験は,同じネズミで比較し合うので個体差が消えるため,全く異なるネズミで比較する対応のない独立2群の実験よりも,実験計画によっては,信頼性の高いデータが得られる可能性がある*13同じネズミからの前と後のデータなので,分散は同じと考え,等分散性の検定は行わない(図35図35■修正版:2群のパラメトリック検定の流れ)..特に,個体差の大きいことが予想される実験の場合は威力を発揮する.問題のない実験計画が立てられるのであれば,paired t testで検定できるような計画にするとよいが,そうもいかない実験は多い*14ヒトは個体のバラツキが大きいため,対応のない独立2群の試験では,標本の大きさをかなり大きくする必要がある.しかし,被験者を集めるのはたいへんである.そこで,対応のある関連2群の試験を用いるケースは多い.たとえば,試験前後の血圧を比較するといった試験である.一方で,長期の試験になると,夏と冬で血圧が変動するといった季節変動などの問題が生じるという欠点もあり,目的をよく考えて実施する必要がある.

なお,統計検定をpaired t testで行うべきところをunpairedで行うと,せっかくの有意差を見落とすことになりかねないので,間違えないようにしなければならない.

ノンパラメトリック検定(図38)

図38■ノンパラメトリック検定

パラメトリック検定は,母集団のデータが正規分布していることが前提で組み立てられていることはすでに述べてきた.ノンパラメトリック検定は,母集団の分布は正規分布する必要がなく,平均値や分散などのパラメータは使用しない.ノンパラメトリック検定は基本的に平均値ではなく中央値で考える(図38図38■ノンパラメトリック検定).標本の大きさnが大きい場合は,正規性の検定により,正規分布と判定されない場合に用いることができる(正規分布と判定されても用いることはできるが).また,外れ値*15ほかの値から大きく外れた値のことである.研究ではよくお目にかかり,どう処理するか悩む場合が多い.統計検定における外れ値の取り扱いについては,次回に記述する.がある場合でも利用することができる.前回図7で述べたが,nが小さい場合は,母集団が正規分布しているかどうかは判然としないため,パラメトリック検定にこだわる必要はない.ノンパラメトリック検定は応用範囲が広い.したがって,筆者は悩ましいデータが得られた場合にパラメトリック検定とノンパラメットリック検定を併用して,結果を考えることにしている.

2群間のノンパラメトリック検定(図39)

図39■2群のノンパラメトリック検定の流れ

ノンパラメトリック検定でも,2群間および3群以上の検定法が存在する.図39図39■2群のノンパラメトリック検定の流れには2群間の検定法をいくつか挙げている.パラメトリック検定同様に,対応のない場合と対応のある場合の検定法がある.なお,よく用いられるのはウイルコクソンの順位和検定やマン–ホイットニーu検定であるが,2群は等分散を仮定している(図39図39■2群のノンパラメトリック検定の流れ左下グラフ).しかし,nが少ないと等分散かどうかは判断しづらい.そこで,等分散を仮定せず,等分散でも等分散でなくても用いることができるBrunner–Munzel検定*16筆者にはこの検定法の原理等の知識がないので,紹介に止める.がある(図39図39■2群のノンパラメトリック検定の流れ左,右グラフ).なお,ウイルコクソンの順位和検定とマン–ホイットニーu検定は,同じ検定結果となる.

ウイルコクソンの順位和検定の考え方(1)(図40)

図40■ウイルコクソンの順位和検定の考え方(1)

平均値も分散も使わないで,どのように検定するのであろうか? ノンパラメトリック検定はいくつかあるが,研究者はそれらすべてを把握する必要はないと筆者は考える.研究者はノンパラメトリック検定がどのような原理で検定しているのかを最低限知っておけば,統計検定に利用したほうが有利かどうかを判断できる.本セミナーでは,よく用いられるウイルコクソンの順位和検定に基づいて説明する.この検定法はパラメトリック検定のunpaired t testに相当する(図40図40■ウイルコクソンの順位和検定の考え方(1)).

順位和検定の基本はデータの並べ替えである.図40図40■ウイルコクソンの順位和検定の考え方(1)の①を見て欲しい.A群とB群にそれぞれ6個のデータがあり,それらのデータを小さい値から大きい値(左から右)に向かって順に並べている(データの位置を白丸と青丸で示している.データとデータの間隔が大きいほど,差が大きいことを表す.両群共に,値が大きくなる(右に行く)ほどデータが大きく離れているので,図39図39■2群のノンパラメトリック検定の流れ左下にあるような,正規分布ではない分布のように見える.そこで,A群,B群両方を一緒にして,小さいほうから順番に順位をつける(大きい方から順位をつけてもよい).そうすると1から12番までの番号がつく.

順位和検定では,この順位の数字を用いて検定する.したがって,データの数値は順位となるため,平均値も分散も関係なくなることがわかる.たとえば,12番のデータがどんなに右方向へかけ離れた大きな値でも,12番は12番である.次に,図40図40■ウイルコクソンの順位和検定の考え方(1)の②を見て欲しい.①に比べて,データのバラツキがかなり小さい2群のデータである.この場合も①と同様に順位をつけると,①と②は全く同じ順位になることがわかる.①と②の12個のデータを順位どおりに並べたのが③である.このように,ノンパラメトリック検定では,データのバラツキは関係なくなり,等間隔で並ぶことおよび外れ値が見えなくなることが特徴である(図40図40■ウイルコクソンの順位和検定の考え方(1)左最下).このようなデータは,「改訂増補版:1」で述べた,順位データに相当し,(「母集団や標本のデータのタイプ」を参照)中央値でデータを扱うこととなる.A群は,1, 2, 3, 4, 5, 8のデータであるから,中央値は,3と4の間になるので,両者を足して2で割って3.5となる(データ数が偶数なので間をとるが,奇数であれば中央の値をとる).B群は,6, 7, 9, 10, 11, 12であるから,中央値は9.5となる.この,3.5と9.5がどれ位離れているかを考える.具体的な計算では,A群(白丸)の順位を合計し23が得られる.B群(青丸)の順位を合計すると55が得られる(図40図40■ウイルコクソンの順位和検定の考え方(1)③).順位を合計しているので順位和と呼ぶ.これらの数字が果たして差がある数字かを検証することになる.

ウイルコクソンの順位和検定の考え方(2)(図41, 42)

図41■ウイルコクソンの順位和検定の考え方(2)

図42■順位和検定の考え方(3)

ここまでで何となくわかることは,2群間に大きな差があれば,順位の合計の差も大きくなりそうという点である.もし差があまりないと,図41図41■ウイルコクソンの順位和検定の考え方(2)のように,白丸と青丸が比較的交互に並ぶことになる.この例では,青丸の中央値は7で,白丸の中央値は6であり,あまり差がない.順位の合計は,青40,白38と近い値である.したがって,順位の合計の差が大きいと有意差がある,差が小さいと有意差がないと判断すればよい.あとは,どのような基準で判定するかを決めればよい.

そこで,順位和の組み合わせがどれくらいあるかを考える.まず,順位和の最小値は,たとえば白が1から6であり合計21,青は自動的に決まり7から12となり,合計57で最大値となる(図42図42■順位和検定の考え方(3)上).この組み合わせは1とおりしかない.ここで,白が決まれば,青は自動的に決まるので,白だけを考えることとする.そこで次に,白の6が7に替わったとすると1, 2, 3, 4, 5, 7となり合計22であり,この組み合わせも1とおりしかない.次に,白が1, 2, 3, 4, 5, 8となると合計23であるが,合計が23になる組み合わせは,1, 2, 3, 4, 6, 7もありうる.したがって,2とおりあることになる(図42図42■順位和検定の考え方(3)上).このような考え方で,合計が24, 25…となる組み合わせが何とおりあるかを最大値の57まで計算していく.それぞれの合計値に対して組み合わせが何通りあるかを棒グラフにすると,図42図42■順位和検定の考え方(3)左下のようなグラフが得られる(このグラフは模式的な図で正確ではない).次に,すべての組み合わせが何とおりあるかを合計する(ここでは合計Xとおりとする).そこで,図40図40■ウイルコクソンの順位和検定の考え方(1)の③で示した例である順位和23がこのグラフのどこにあるかを考える.Xとおりの全体を100として順位和23の2とおりが,たとえば,両端の2.5%以内に入った場合,有意差があると判定する(有意水準5%,両側検定の場合)(図42図42■順位和検定の考え方(3)左下グラフ).この判定は,青の場合の順位和55で考えても,グラフでの位置は左右逆側になるが,同じ結果を得ることができる(図42図42■順位和検定の考え方(3)左下グラフ).パラメトリック検定で説明したので詳しくは述べないが,対立仮説としてA>Bが仮定できれば,片側検定もありうる.これが順位和検定で有意差を求める原理である*17われわれは論文などにデータを表示する場合に,標本平均±標準誤差(SE)あるいは標準偏差(SD)を書く.これらはパラメトリック検定のためのパラメータであり,ノンパラメトリック検定を行った場合は,これらを表記することは意味がない.しかし,論文や学会発表では慣習的にこれらの表記が行われている場合がほとんどである.考えてみれば奇妙である.

なお,上述の順位和検定の例は,対応のない独立2群の検定であるウイルコクソンの順位和検定であり,t検定ではunpaired t testに相当する.ノンパラメトリック検定でも,対応のある関連2群の検定(paired t testに相当)がある.代表的なものは,図39図39■2群のノンパラメトリック検定の流れ右に記載した.ウイルコクソンの順位和検定に対しては,ウイルコクソン符号付順位検定がある.ここでは詳細に述べないが,「対応のある」の基本的考え方は,パラメトリックのpaired t testと同様であり,対応するデータx1とx2の差dを順位に置き換えて考えることになる.詳しくは拙著(5)5) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017.あるいは『すぐわかる統計解析』(6)6) 石村貞夫:“すぐわかる統計解析”,東京図書,1993.を参照されたい.類似した名称であるので間違わないことである.なお,統計アプリによっては,「ウイルコクソン順位検定」という名称で,対応なしか対応ありにチェックするといった手順となっている.これは上記の2つの検定法に対応する.

ノンパラメトリック検定の利点,欠点(図43)

図43■ノンパラメトリック検定の利点,欠点

ノンパラメトリック検定の原理を知ると,多くの方は大きくばらついたデータでも,そうでなくても検定結果が同じになることに対して,それでよいのだろうかと思うのではないだろうか? 私も最初はそうであった.図43図43■ノンパラメトリック検定の利点,欠点に利点,欠点を示している.母集団が正規分布する場合は検出力が落ちるらしいが,それほど大きく落ちるわけではない(2)2) 足立堅一:“らくらく生物統計学”,中山書店,1998..また,外れ値があるとき,棄却検定で外すことが可能になる場合もあるが,安易に外すことには問題があるので,外さずにノンパラメトリック検定を行ってみる価値はある.ノンパラメトリック検定でも有意差が得られなければ,あきらめることができる.外れ値の取り扱いについては次回に述べるが,思い悩むデータがあるときは,まずは,パラメトリック検定とノンパラメトリック検定,さらには棄却検定の結果をみてから考えてはどうであろうか?

なお,ノンパラメトリック検定は標本の大きさnが小さいと,パラメトリック検定よりも検定は厳しくなる.t検定では2群ともn=3でも検定できる.しかし,有意水準5%で両側検定の場合,ウイルコクソンの順位和検定では,最低必要なnは2群共4である.この場合,図42図42■順位和検定の考え方(3)の上から2行目のように,白丸と青丸が完全に分離している場合のみ有意となるのでかなり厳しい.また,ウイルコクソンの符号付順位検定の場合,両側検定で最低必要なnは6である.したがって,これらの検定では最低必要なnでの検定は厳しいので,それよりもいくらか多いn以上にするほうが無難である.

おわりに

次回最終回は,3群以上の場合の検定である,一元配置分散分析多重比較二元配置分散分析を中心に記述する.研究論文や学会発表において,3群以上ある試験で多重比較を用いず,不適切に2群の検定法,たとえばt検定を繰り返している例は減少してきているが,まだ完全にはなくなっていない.なぜt検定ではいけないのかを理解すべきである.また,二元配置分散分析時の群間比較は間違いのない検定法で行われているほうが少ないように思われ大きく混乱しているので,正しい理解が必要である.

Reference

1) 市原清志:“バイオサイエンスの統計学”,南江堂,1990.

2) 足立堅一:“らくらく生物統計学”,中山書店,1998.

3) http://www2.vmas.kitasato-u.ac.jp/lecture0/statistics/stat_info03.pdf

4) B. L. Welch: Biometrika, 29, 350 (1938).

5) 池田郁男:“実験で使うとこだけ生物統計2 キホンのホン 改訂版”,羊土社,2017.

6) 石村貞夫:“すぐわかる統計解析”,東京図書,1993.

*1*1 これはたいへん重要なポイントで,中心極限定理と呼ばれる.標本の大きさnが大きいほど,標本平均X̄iの平均値は母平均μに近づき,その分散は母分散σ2の1/nに近づく.nが大きいほどは小さくなるので,母平均の範囲が絞られてくることを意味する(図17図17■パラメトリック検定の基本下グラフ).なお,nが大きい場合,母集団が正規分布に限らず,正規分布から外れていても,その母集団からとった標本平均の分布は正規分布するというおもしろい性質がある.

*2 実験動物の母集団を例にとれば,たとえばその中から6匹を標本として取り出して,測定したパラメータの標本平均を計算する.この操作を何度も繰り返して得られる多くの標本平均のバラツキは,個々に外れたデータがあっても平均化されるため,母集団のデータのバラツキよりも小さくなることは,予想できるであろう.

*3 前回でも述べたが,本セミナーのすべての図は筆者が模式的に作成したものであり正確なものではない.

*4 この式でなぜ標準正規分布の値に変換されるのか不思議に思うかもしれないが,数学的な証明はなされている.

*5*5 本総説では,不偏分散u2をルートした値uを不偏標準偏差と名付け,母標準偏差を推定する値として論じている.しかし,uは真の不偏標準偏差ではない(「改訂増補版:I」の*13参照).正確な不偏標準偏差とはズレがあり,特に,nが10以下で,小さいほどズレが大きい.

*6*6 この点が,uは“不偏”でないことを示している.“不偏”とは偏らないことで,偏りなく母集団を推定できることを意味する.もし,uが“不偏”であれば,母標準偏差σを推定する値となるので,σをuに置き換えても正規分布となるはずである.ところが,uはσとはズレがあるために正規分布とはすこしずれたt分布となる.nが小さいほどズレが大きくなるため,t分布は正規分布と大きくずれ,nが大きいほど正規分布に近い分布となる(図21図21■標準正規分布とt分布の違いのグラフ参照).

*7*7 t分布は,実際はnではなく自由度n−1に依存して形が変化する.自由度は何度か登場した.不偏分散の計算では,平方和をnで割るのではなく,自由度n−1で割ると母分散を推定できる値となることを述べた.今後はn−1以外の自由度も登場するが,どのような場合でも,自由度を用いることで母集団の情報を推定できると考えればよい.“バイオサイエンスの統計学”では,自由度とは,データのバラツキや偏りを予測する際に(つまり,分散や標準偏差を計算する際に),他と独立して扱えるデータ数のことと述べている1)1) 市原清志:“バイオサイエンスの統計学”,南江堂,1990..たいへんわかりづらいが,たとえば,ある母集団から,標本を6個採取した場合,それぞれが関連のない独立した標本であれば,自由度は6である.しかし,すでに述べてきたように不偏分散を計算する際に,計算式に標本平均が入っている.式に標本平均があると,nが6の場合,5個のデータがあれば,6個目のデータは標本平均×6から(5個の標本データの合計)を引き算すれば求まる.つまり,独立して扱えるデータ数は5であり,6個目は自動的に決まってしまい自由に動けない.したがって,自由度は1減ってしまい,5となる.つまり,標本の大きさをnとすると自由度はn−1となるのである.

*8 なお,学会発表において,スライドに標本の大きさnや標本平均±SEなのか±SDなのか表記していない発表が数多く見受けられる.これらは重要な情報であり,その表記は研究者としての基本である.書き忘れたで済むものではない.

*9 この5%(0.05)を決めたのは,統計学では有名なRonald Fisherと言われている.実は,0.05に科学的根拠はないのである.Fisherが0.07と決めれば,そう決まったかもしれない.

*10第一種の過誤に対して,差があるのに対立仮説を棄却して,差がないとしてしまう誤りを,第二種の過誤と呼ぶ.これらは統計書によく登場し,わかりにくい単語である.

F分布は自由度により形が変動する.ここでは2群あるので,第1群目を分子とし,2群目を分母とすると,自由度n1-1とn2-1のF分布となる.なお,図34図34■等分散性の検定のF分布の図は筆者が適当に描いたもので正しい図ではない.

*12t検定でも述べたように,同じ母集団から考えてきたことから,等分散ではないと断定することはできないことはおわかりいただけるはずである.

*13 同じネズミからの前と後のデータなので,分散は同じと考え,等分散性の検定は行わない(図35図35■修正版:2群のパラメトリック検定の流れ).

*14 ヒトは個体のバラツキが大きいため,対応のない独立2群の試験では,標本の大きさをかなり大きくする必要がある.しかし,被験者を集めるのはたいへんである.そこで,対応のある関連2群の試験を用いるケースは多い.たとえば,試験前後の血圧を比較するといった試験である.一方で,長期の試験になると,夏と冬で血圧が変動するといった季節変動などの問題が生じるという欠点もあり,目的をよく考えて実施する必要がある.

*15 ほかの値から大きく外れた値のことである.研究ではよくお目にかかり,どう処理するか悩む場合が多い.統計検定における外れ値の取り扱いについては,次回に記述する.

*16 筆者にはこの検定法の原理等の知識がないので,紹介に止める.

*17 われわれは論文などにデータを表示する場合に,標本平均±標準誤差(SE)あるいは標準偏差(SD)を書く.これらはパラメトリック検定のためのパラメータであり,ノンパラメトリック検定を行った場合は,これらを表記することは意味がない.しかし,論文や学会発表では慣習的にこれらの表記が行われている場合がほとんどである.考えてみれば奇妙である.