セミナー室

改訂増補版:統計検定を理解せずに使っている人のためにII

Ikuo Ikeda

池田 郁男

東北大学未来科学技術共同研究センター

Published: 2019-09-01

改訂増補にあたって

この総説は,「統計検定を理解せずに使っている人のためにII」の改訂増補版であり,「改訂増補版:統計検定を理解せずに使っている人のためにI」の続きである.改訂増補に当たっての詳細は,「改訂増補版:I」の冒頭をお読みいただきたい.この改訂増補版では,「II」にあった誤りを修正した.また,理解しにくい部分について,さらにわかりやすい説明に努めた.

「改訂増補版:I」では,母集団標本母分散母標準偏差標本分散標本標準偏差不偏分散不偏標準偏差パラメトリック検定とノンパラメトリック検定の違い正規性の検定について主に記述した.これらの理解が曖昧な場合は,再度「改訂増補版:I」をお読みいただきたい.今回は,標準誤差2群のパラメトリック検定の基本有意差の意味2群のノンパラメトリック検定の基本をおもに,記述した.なお,図番号は,前回「改訂増補版:I」からの通し番号である.まず,図の内容をざっと眺めてから文章をお読みいただきたい.

パラメトリック検定(図16)

図16■パラメトリック検定

パラメトリック検定は母集団が正規分布していると仮定する(図16図16■パラメトリック検定).平均値や分散などのパラメータを使うことからこの名称がある.パラメトリック検定の例としては,Studentのt検定や分散分析などがある.前回と同様,母集団の大きさはN,母平均はμ,母分散はσ2と定義する.母平均μ,母分散σ2の正規分布をN(μ, σ2)と記述することとする.

パラメトリック検定の基本:母集団から取り出したn個の標本の平均値(標本平均)の分布を考える(図17)

図17■パラメトリック検定の基本

かなり込み入った話になるので,注意して読んでほしい.じっくり読まないと難しいが,ここを理解できないと標準誤差SEとt検定は理解できない.ここでは,母集団から取り出したn個の標本の平均値(標本平均)X̄iの分布を考える.個々の標本データの分布ではないので注意してほしい.

図17図17■パラメトリック検定の基本上のように,正規分布している母集団N(μ, σ2)からn個の標本を取り出し標本平均X̄1を計算する.これを何度も繰り返すとそれぞれ標本平均X̄1, X̄2, X̄3, …が得られる.このたくさん得られた標本平均を一つの別の母集団と考えて分布を調べると,正規分布し,その平均値は母平均μに近づくことが知られている*1これはたいへん重要なポイントで,中心極限定理と呼ばれる.標本の大きさnが大きいほど,標本平均X̄iの平均値は母平均μに近づき,その分散は母分散σ2の1/nに近づく.nが大きいほどは小さくなるので,母平均の範囲が絞られてくることを意味する(図17図17■パラメトリック検定の基本下グラフ).なお,nが大きい場合,母集団が正規分布に限らず,正規分布から外れていても,その母集団からとった標本平均の分布は正規分布するというおもしろい性質がある..しかし,最初の母集団の正規分布N(μ, σ2)とはバラツキ方(母分散)σ2が異なり,1/nだけ小さいバラツキ方σ2/nになることがすでにわかっている.つまり,N(μ, σ2/n)の正規分布となる(図17図17■パラメトリック検定の基本下グラフ)*1.すなわち,標本平均の母標準偏差n となり,σよりも だけ小さくなる*2実験動物の母集団を例にとれば,たとえばその中から6匹を標本として取り出して,測定したパラメータの標本平均を計算する.この操作を何度も繰り返して得られる多くの標本平均のバラツキは,個々に外れたデータがあっても平均化されるため,母集団のデータのバラツキよりも小さくなることは,予想できるであろう.図17図17■パラメトリック検定の基本では例として,ある一つの標本平均X̄1の位置を正規分布グラフに赤字で示している.

正規分布を標準正規分布に変換する(図18)

図18■標準正規分布へのデータ変換

正規分布はμとσ2が違えば分布が異なるので(図18図18■標準正規分布へのデータ変換左上と左下のグラフのように),いろいろな母集団でいちいち異なる正規分布を用いて考えるのは面倒である.そこで,母平均μが0(ゼロ)で,σ2が12の正規分布を標準正規分布と定義し,それぞれの異なる正規分布を標準正規分布に変換して考えることに決められている.そうすれば,どのようなμとσ2の母集団でも標準正規分布で考えることができる.図18図18■標準正規分布へのデータ変換の右のグラフが標準正規分布である*3前回でも述べたが,本セミナーのすべての図は筆者が模式的に作成したものであり正確なものではない..そこで,先ほどの標本平均X̄1図17図17■パラメトリック検定の基本下グラフと図18図18■標準正規分布へのデータ変換左上と左下グラフ)を標準正規分布の値に変換することとする(これを標準化と呼ぶ).まず,標準正規分布では母平均はゼロであるから,母平均μをゼロに移動するためには,μで引いてやればよい.すなわち,(X̄1-μ)である.一方,標準正規分布では母標準偏差は1であるから,を1に変換するためにはで割ってやればよい.すなわち,標本平均X̄1を標準化し,変換した値をZ1とすると,以下の式で表すことができる(図18図18■標準正規分布へのデータ変換中央の式).

そうすると,X̄1図18図18■標準正規分布へのデータ変換右の標準正規分布グラフ中のZ1に変換される*4この式でなぜ標準正規分布の値に変換されるのか不思議に思うかもしれないが,数学的な証明はなされている..このような標準化を行えば,異なる母集団の正規分布(図18図18■標準正規分布へのデータ変換の左上および下グラフ)の標本平均でも,同様に標準正規分布にデータ変換することができる.

このデータ変換はたいへん重要であるが少しわかりにくい.そこで,数式ではわかりにくいので,簡単な例を示す.図19図19■標準正規分布への標準化の実例を見て欲しい.今第1の母集団として,μ=10, =2の正規分布があり,X̄1=12の標本平均が得られたとする(図19図19■標準正規分布への標準化の実例左上グラフ).次に,第2の母集団としてμ=20, =4の正規分布があり,X̄1=24が得られたとする(図19図19■標準正規分布への標準化の実例左下グラフ).これらの数字を上式に代入すると,どちらもZ1=1が得られる(図19図19■標準正規分布への標準化の実例中央式と右グラフ).これらの2つの異なる正規分布では,母平均μ,母標準偏差 標本平均X̄1の数値はそれぞれ異なるが,標準正規分布にデータ変換すると同じ値となり,標準正規分布でのZ1の位置は,両母集団で同じであることがわかる.標本平均X̄1が標準正規分布中のZ1に標準化されたことを理解して欲しい.

図19■標準正規分布への標準化の実例

母標準偏差σはわからないので,不偏標準偏差uに置き換える(図20)

図20■母標準偏差σの不偏標準偏差uへの置き換え

ここまで,正規分布している母集団から取り出した標本データの平均値すなわち標本平均の分布は正規分布することを述べてきたが(図20図20■母標準偏差σの不偏標準偏差uへの置き換え左上グラフ,これをN(μ, σ2/n)とした),バラツキ(母標準偏差)は である.ここで,もともとの母集団の母標準偏差σは,生命科学系の研究では通常知ることができない値であり,このままでは, を計算することができない.では,どうすればよいのか?

ここで,前回「改訂増補版:I」で登場した不偏標準偏差uを思い出して欲しい(前回の図12および13)*5本総説では,不偏分散u2をルートした値uを不偏標準偏差と名付け,母標準偏差を推定する値として論じている.しかし,uは真の不偏標準偏差ではない(「改訂増補版:I」の*13参照).正確な不偏標準偏差とはズレがあり,特に,nが10以下で,小さいほどズレが大きい..標本データから母標準偏差σを推定する値として計算できるのが不偏標準偏差uである.そこで,母標準偏差σを不偏標準偏差uに置き換えることとする.この計算値をt1とする.

そこで,何度も標本を取って標本平均X̄1, X̄2, X̄3…およびu1, u2, u3…を計算し,さらにt1, t2, t3…を計算してt値の分布を調べる.σを用いた場合,分布は正規分布するので標準正規分布に変換されたが(図20図20■母標準偏差σの不偏標準偏差uへの置き換え左上グラフから右上グラフへ),uに置き換えると,正規分布とは少し異なる分布になる(図20図20■母標準偏差σの不偏標準偏差uへの置き換え左上グラフから右下グラフへ)*6この点が,uは“不偏”でないことを示している.“不偏”とは偏らないことで,偏りなく母集団を推定できることを意味する.もし,uが“不偏”であれば,母標準偏差σを推定する値となるので,σをuに置き換えても正規分布となるはずである.ところが,uはσとはズレがあるために正規分布とはすこしずれたt分布となる.nが小さいほどズレが大きくなるため,t分布は正規分布と大きくずれ,nが大きいほど正規分布に近い分布となる(図21図21■標準正規分布とt分布の違いのグラフ参照)..この分布はt分布と名付けられた(図20図20■母標準偏差σの不偏標準偏差uへの置き換え右下グラフおよび図21図21■標準正規分布とt分布の違いのグラフ).t分布のグラフは,正規分布よりも両裾が広がっていることに注意して欲しい.

図21■標準正規分布とt分布の違い

不偏標準偏差uは母標準偏差σを推定している.しかし,uは真の不偏標準偏差ではないため,標本の大きさnの影響を受ける*6この点が,uは“不偏”でないことを示している.“不偏”とは偏らないことで,偏りなく母集団を推定できることを意味する.もし,uが“不偏”であれば,母標準偏差σを推定する値となるので,σをuに置き換えても正規分布となるはずである.ところが,uはσとはズレがあるために正規分布とはすこしずれたt分布となる.nが小さいほどズレが大きくなるため,t分布は正規分布と大きくずれ,nが大きいほど正規分布に近い分布となる(図21図21■標準正規分布とt分布の違いのグラフ参照)..nが小さいと大きな影響を受けuはσからのズレが大きく,値としては小さくなる(改訂増補版:Iの*13参照).一方,nを大きくとると,uはあまり影響を受けずσに近い値となる*5本総説では,不偏分散u2をルートした値uを不偏標準偏差と名付け,母標準偏差を推定する値として論じている.しかし,uは真の不偏標準偏差ではない(「改訂増補版:I」の*13参照).正確な不偏標準偏差とはズレがあり,特に,nが10以下で,小さいほどズレが大きい.t1の式と図21図21■標準正規分布とt分布の違いt分布グラフを見て欲しいが,nが小さいとuはσより小さな値となるため,計算されるt値はt分布の中心のゼロから離れた値となる場合が相対的に多くなる.そうすると,正規分布に比べてt分布の裾野が相対的に広がることとなる.一方,nが大きくなると,uはσに近づくので,t値の分布は正規分布に近づいていく(図21図21■標準正規分布とt分布の違いのグラフ).つまり,t分布はnが違うとグラフの形が異なることを理解して欲しい*7t分布は,実際はnではなく自由度n−1に依存して形が変化する.自由度は何度か登場した.不偏分散の計算では,平方和をnで割るのではなく,自由度n−1で割ると母分散を推定できる値となることを述べた.今後はn−1以外の自由度も登場するが,どのような場合でも,自由度を用いることで母集団の情報を推定できると考えればよい.“バイオサイエンスの統計学”では,自由度とは,データのバラツキや偏りを予測する際に(つまり,分散や標準偏差を計算する際に),他と独立して扱えるデータ数のことと述べている1)1) 市原清志:“バイオサイエンスの統計学”,南江堂,1990..たいへんわかりづらいが,たとえば,ある母集団から,標本を6個採取した場合,それぞれが関連のない独立した標本であれば,自由度は6である.しかし,すでに述べてきたように不偏分散を計算する際に,計算式に標本平均が入っている.式に標本平均があると,nが6の場合,5個のデータがあれば,6個目のデータは標本平均×6から(5個の標本データの合計)を引き算すれば求まる.つまり,独立して扱えるデータ数は5であり,6個目は自動的に決まってしまい自由に動けない.したがって,自由度は1減ってしまい,5となる.つまり,標本の大きさをnとすると自由度はn−1となるのである.

ここでは標本平均の分布やバラツキを考えてきたことから,上のt1式の分母である は標本平均がどのようなバラツキ方をしているかを示しており,これが多くの研究者が用いる標準誤差standard error; SE)である.は標本平均の母標準偏差であったので(図17図17■パラメトリック検定の基本),標準誤差は標本平均の母標準偏差を推定する値となる.つまり,SEは母平均μがどのあたりにあるのか,すなわち,母平均μのありそうな範囲を表している.

SEを標本データのバラツキの一種と考えている読者がいるかもしれないが,それは間違いであり,SEには標本データのバラツキの意味はない.t1の式の分母がSEであるから,上の式は以下のようにも書ける.

つまり,この式は,母平均μのありそうな範囲である標準誤差SEを基準(分母)にして,標本平均X̄1が母平均μからどれ位離れているか(分子)を計算しているのである.たとえば,X̄1–μ>0と仮定して,分母のSEが小さければ,分子の(X̄1–μ)は相対的に大きくなるのでt1値はゼロから離れる.逆に,SEが大きければ,(X̄1–μ)は相対的に小さくなるのでt1値はゼロに近づく.この感覚を理解して欲しい.

標本平均±SEは何を意味しているのか?(図22)

図22■標本平均±SEの意味

標本データの平均値(標本平均)は母平均μを推定する値と位置づけられる.そして,SEは母平均μのありそうな範囲を示している(図22図22■標本平均±SEの意味).SEの式を見ると,SEは標本の大きさnが大きくなればなるほど,小さくなることがわかる.これは,nが増えれば増えるほど,母平均μの存在する範囲が絞り込まれることを意味する.nが増えて,母集団の大きさNに近くなればなるほど,μが絞り込まれていくことは感覚的に理解できるのではないだろうか*8なお,学会発表において,スライドに標本の大きさnや標本平均±SEなのか±SDなのか表記していない発表が数多く見受けられる.これらは重要な情報であり,その表記は研究者としての基本である.書き忘れたで済むものではない.

標本平均±SDと標本平均±SEは何が違うのか?(図23)