論文を書くための統計解析:データの正規性とは?

計数データ(重さ、長さ、速度、個数など、数値の大きさが意味を持つデータ)の統計解析は、ほとんどの場合、「集めたデータは正規分布する母集団から無作為に抽出されたものである」という仮定にもとづいています。母集団が正規分布なら、集めたデータも正規分布していなければならないということです。

グループ間を比較するにしても相関関係を調べるにしても、まずは持っているデータが正規分布しているかどうか(データの正規性)をチェックします。

正規分布とは?

正規分布とは、下の図のように、多くのデータが平均値近くにあり、平均値から離れるほどデータの数が少なくなっていくような分布です。「釣鐘型の分布」とも言われます。

実際には、サンプル数が多いとたしかに釣鐘型に見えることもありますが、20以下のような少ないサンプル数だとなかなかそうは見えません。そこで、正規分布と仮定しても良いかどうか、統計学的に調べます。

正規性の検定

正規性の検定には、次のような方法があります。

  • シャピロ・ウィルク(Shapiro-Wilk)検定
  • コルゴモロフ・スミルノフ(Kolmogorov-Smirnov)検定
  • カイ二乗(χ2)適合度検定

基本的にはどの方法を使っても良いと思いますが、一般的にはサンプル数が少ないとき(50くらい以下)は、コルゴモロフ・スミルノフ検定よりもシャピロ・ウィルク検定が良いと言われています。自分の統計ソフトがどの方法を使っているのか確認しておきましょう。

検定した結果、データの正規性が仮定できる場合は、計数データとしてパラメトリックな解析(データをそのままの数値として扱う解析)を行うことができます。

補足として、そもそも「正規性の検定は必要ない」という意見もあります。機会があれば取り上げたいと思いますが、とりあえず今回の記事ではその点については触れません。

正規性が仮定できないときは?まずはデータ変換

最初の検定でデータの正規性が仮定できない場合は、データを変換してみます。

  • 対数変換
  • 平方根変換

まずは対数変換を行ってみましょう。例えば「10」という観測データであれば、log10(=1)またはln10(=2.30)を計算します。そうやって変換したデータを使ってもう一度正規性の検定を行い、正規性が確認できれば、対数変換したデータを使って以降の解析を進めていきます。

対数変換を行なっても正規性が確認できなければ、平方根変換も試してみます。例えば「4」という観測データであれば、4の平方根(=2)を計算します。そうやって変換したデータを使ってもう一度正規性の検定を行い、正規性が確認できれば、平方根変換したデータを使って以降の解析を進めていきます。

他にも変換方法はありますが、基本はこの二つで良いでしょう。

正規性が確認できなければ、ノンパラメトリックな解析

データを変換しても正規性が確認できない場合は、それ以降の解析ではノンパラメトリックな手法を使うことになります。ノンパラメトリックな解析では、計数データを順序データとして扱う(1番高かった値、2番目に高かった値・・・)ので、母集団のデータ分布を気にする必要がありません。

しかし、ノンパラメトリックよりもパラメトリックな手法のほうが、その後の解析で有意差が出やすいので、まずは正規性が仮定できないかどうかしっかり確認しましょう。

まとめ

以上をまとめると、次のようになります。

  • 元のデータを使って、正規性を検定する。
  • 正規性を仮定できなければ、データ変換して正規性を検定する。
  • それでも正規性が仮定できなければ、ノンパラメトリックな解析を行うことにする。

計数データを扱う場合は、まずはデータの正規性をチェックするようにしましょう。

この記事を書いた人

田中泰章 博士

Yasuaki Tanaka Ph.D.

プロフィール
環境問題や教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに30報以上の学術論文を筆頭著者として執筆し、国際的な科学雑誌の査読者として多数の論文審査も行っています。