数量データの統計解析:一つの変量から分かること

統計解析サービス:代行依頼・相談できる

どんな統計解析をするにしても、数量データを扱うときに最初に注目するのは、一つ一つの変量です。まずは各変量がどういう特徴を持っているのかを把握し、その後で複数の変量を組み合わせながら、どういう解析を行っていくのか考えます。今回の記事では、数量データを統計解析するときの最初のステップとして、一つ一つの変量について何をチェックしておいたほうが良いかということについてまとめておきます。

①基本統計量を計算

まず基本統計量を計算します。基本統計量とは、最大値や最小値、平均値などで、データの特徴点を表します。エクセルや統計ソフトを使えば、簡単に出力してくれるはずです。

例えば、エクセルの「データ分析」機能を使うと、次のような値がすぐに分かります。

  • 平均
  • 標準誤差
  • 中央値 (メジアン)
  • 最頻値 (モード)
  • 標準偏差
  • 分散
  • 尖度
  • 歪度
  • 範囲
  • 最小
  • 最大
  • 合計
  • 標本数

例えば、AグループとBグループについて測定値Xを比較したい場合、それぞれのグループの平均値と標準偏差を見るだけでも、両者が違うかどうか何となく分かるでしょう。複雑な統計解析を行わなくても、まずは基本統計量をチェックするだけで何となくデータの傾向をイメージできるはずです。

②データの分布を視覚化

基本統計量を確認した後は、度数分布表(ヒストグラム)を作成して、データの分布を視覚化します。

ここで例として、都道府県別の人口と平均睡眠時間(15歳以上の男性)の度数分布表を作成してみました。データの出所はe-Statです。

まず人口については、大部分の都道府県が左側に偏り、少数の都道府県がその右側に分布しているのが分かります。これは一部の大都市に人口が集中していることを示していて、東京や大阪などの状況を見ると容易に想像が付きますよね。また、大部分の都道府県は人口が200万人未満であることも分かります。

統計解析サービス:代行依頼・相談できる

一方で睡眠時間については、中心付近に多くの都道府県が集まっています。都道府県によらず、人間が寝ている時間というのは、大体平均的な値があるということです。

人口と睡眠時間の2つのグラフを見ると、データの分布傾向がはっきり異なることが分かります。③の正規性の検定のところで触れますが、人口は正規分布とみなせないデータ、睡眠時間は正規分布とみなせるデータです。

統計解析サービス:代行依頼・相談できる

③正規性を検定

データが正規分布しているかどうかは、その後の統計解析を行ううえで重要な分岐点になります。正規分布を仮定できる場合は、平均値や標準偏差を意識しながらパラメトリックな検定を行うことになり、正規分布を仮定できない場合は、データの順位や中央値などを意識しながらノンパラメトリックな検定を行うことになるからです。データの分布を視覚化するのと一緒に、正規性の検定も行っておくと良いでしょう。

データの正規性を検定する方法は、

  • シャピロー・ウィルク(Shapiro-Wilk)検定
  • アンダーソン・ダーリン(Anderson-Darling)検定
  • コルゴモロフ・スミルノフ(Kolmogorov-Smirnov)検定

などがあります。データの正規性についてはこちらの記事もご覧ください。

論文を書くための統計解析:データの正規性とは?

計数データ(重さ、長さ、速度、個数など)の統計解析は、基本的にデータが正規分布していることが前提条件となります。グループ間を比較するにしても相関関係を調べるに…

ここで重要な補足をしておきます。一変量の分布を確認した後に、二変量の相関を調べたり、グループ間を比較したりすることが多いと思いますが、そのときにパラメトリックな検定を行うのかノンパラメトリックな検定を行うのかは、残差の正規性に関係しています。観測されたデータの正規性ではありません。

例えば、50人分の睡眠時間のデータがあり、そのなかの男性と女性の睡眠時間を比較したいとします。この場合、50人分のデータが正規分布しているかどうかを調べても意味がありません。なぜなら、男性グループと女性グループはデータ分布の傾向(例えば平均値)が異なる可能性があり、その場合、50人全体としては一つの正規分布を形成せず、異なる二つの正規分布を合わせた形になるからです。このような場合、睡眠時間そのものではなく、それぞれのグループの中のデータのばらつき(残差)に注目し、50人全体の残差が正規分布しているかどうかをチェックします。回帰分析や分散分析のようなパラメトリックな統計解析は、この残差の正規性を前提にしています。

まとめ

以上が、一つの変量を使ってできる基本的な解析です。

  1. 基本統計量を計算
  2. データの分布を視覚化
  3. 正規性を検定

調査や実験でデータを取得したら、まずは一変量の分布に注目してみましょう。

この記事を書いた人

田中泰章 博士

Yasuaki Tanaka Ph.D.

プロフィール
環境問題や教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに30報以上の学術論文を筆頭著者として執筆し、国際的な科学雑誌の査読者として多数の論文審査も行っています。

アカデミックラウンジでは、論文添削や日本語校正、統計解析などのご依頼・ご相談を承っております。

サービス案内