論文を書くための統計解析:2つのグループを比較するには?

論文やレポートを書くときに最もよく使われる統計解析は、2つのグループの比較です。2つグループについてある程度まとまった量のデータがあり、グループ間に統計学的な有意差があるかどうか調べたいというケースです。

今回の記事では、「2つのグループを比較したい、でもどんな統計解析をすればいいのか分からない」という方のために、具体例を挙げながら統計解析の種類を紹介していきたいと思います。

名義尺度で2グループが独立しているとき

名義尺度とは地名や所属、性別など、数量で表すことができないデータで、アンケート調査の結果でよく見られます。

例えば、100人の男女(男性50・女性50)にある質問をして、「はい」と答えた人数、「いいえ」と答えた人数を調べたところ、次のような結果表(クロス集計表)が得られたとします。男性と女性の回答傾向が違うと言えるでしょうか?

はいいいえ
男性2921
女性2228

ここでは「男性」として回答した人と「女性」として回答した人は異なり、「男性」と「女性」は独立した(異なる)グループと考えられます。

このようなデータの統計解析では、カイ二乗検定またはフィッシャー(Fisher)の正確確率検定(直接法、直接確率検定)を行います。

カイ二乗検定とフィッシャーの正確確率検定(直接法、直接確率検定)は、データの観測数によって使い分けます。一般的には(実際の論文では)、5以下の集計結果(セルの数値)がある場合、フィッシャーの正確確率検定、すべてのセルの数値が5以上であればカイ二乗検定を使用することが多いです。

上記のクロス集計表では、すべてのセル(人数)が5以上なので、カイ二乗検定を使用すれば良いでしょう。ただし、フィッシャーの正確確率検定はセルの数値が5以上の場合も使えるので、こちらを使用しても間違いではありません。すべてのセルが5以上の場合はどちらでもOK、5以下のセルがあるときはフィッシャーの正確確率検定、ということです。

名義尺度で2グループが対応しているとき

名義尺度でも、2グループが対応しているときは解析方法が異なります。

100人の社員を対象にして、研修会の前後に質問しました。ある考え方について「賛成」と答えた人数、「反対」と答えた人数を調べたところ、次のようなクロス集計表が得られたとします。例えば、研修会の前は「賛成」と回答し、研修会の後も「賛成」と回答した社員が20人、研修会の前は「賛成」と回答したけど、研修会の後は「反対」と回答した社員が28人ということです。研修会は社員の考え方に影響を与えたと言えるでしょうか?

研修会の後
研修会の前賛成反対
賛成2028
反対1537

このような調査では、同じ人が二度回答しているので、独立した二つのグループを比較するのではなく、同じ人の変化を調べることになります。研修会の前後(二度の調査)に同じ人が回答する(対応する)ので、「対応のある2試料」となります。

このようなデータの統計解析では、マクネマー(McNemar)検定を行います。

同じ対象者(対象物)に注目しながら、あるイベントや期間の前後で、評価指標(今回の例では社員の考え方)がどのように変化したのか調べる方法です。

順序尺度で2グループが独立しているとき

順序尺度とは、「満足度」や「理解度」のように、大小や順位がイメージできる数値データです。例えば、ある会社でAサービスとBサービスの顧客満足度を、

  1. 非常に満足
  2. 満足
  3. 普通
  4. 不満
  5. 非常に不満

の5段階でアンケート調査し、AサービスとBサービスを比較したいとします。Aサービスを利用した100人とBサービスを利用した100人は、同じではありません。アンケートの結果、次の表のような人数分布が得られました。

AサービスBサービス
5. 非常に満足1510
4. 満足4852
3. 普通2123
2. 不満1310
1. 非常に不満35

ここではAサービスについて回答した人とBサービスについて回答した人は異なるため、独立した(異なる)2つのグループ(回答者)の比較となります。集計表のもとになっているデータは、次のような形式で表せます。

サービス名満足度
回答者1Aサービス5. 非常に満足
回答者2Aサービス4. 満足
回答者3Aサービス2. 不満
回答者4Bサービス4. 満足
回答者5Bサービス3. 普通
(続く)

このようなデータの統計解析では、マン-ホイットニー(Mann-Whitney)のU検定、またはウィルコクソン(Wilcoxon)の順位和検定を行うのが一般的で、名前は違いますが両者は同じものです。(他にも中央値検定やコルモゴロフ・スミルノフ(Kolmogorov–Smirnov)検定などがありますが、ここでは触れません。)

順序尺度は正規分布を仮定できないので、これらはノンパラメトリックな解析となります。つまり、データ(今回の例では満足度)をランキング化して、その順位から2つのグループ間に差があるかどうかを調べます。

順序尺度で2グループが対応しているとき

先ほどと同じように、ある会社でAサービスとBサービスの顧客満足度を、

  1. 非常に満足
  2. 満足
  3. 普通
  4. 不満
  5. 非常に不満

の5段階でアンケート調査し、AサービスとBサービスを比較したいとします。今回はAサービスとBサービスを両方とも利用している100人を対象にして調査を行い、その結果、次のような人数分布が得られたとします。

AサービスBサービス
5. 非常に満足1510
4. 満足4852
3. 普通2123
2. 不満1310
1. 非常に不満35

ここではAサービスに回答した人とBサービスに回答した人は同じなので、対応する2つの試料(ある人がAサービスに対して回答した結果とBサービスに対して回答した結果)の比較となります。集計表のもとになっているデータは、次のような形式です。

AサービスBサービス
回答者14. 満足5. 非常に満足
回答者23. 普通4. 満足
回答者33. 普通3. 普通
回答者42. 不満4. 満足
回答者54. 満足3. 普通
(続く)

このようなデータの統計解析では、ウィルコクソン(Wilcoxon)の符号付順位和検定を行います。

これは、同じ対象者に注目して、2つのグループの差(今回の例ではAサービスとBサービスの差)を調べる方法です。例えば、回答者1はAサービスについて「4. 満足」、Bサービスについて「5. 非常に満足」と回答していて、その差は1ポイントです。一方、回答者3はAサービスについてもBサービスについても「3. 普通」と回答していて、その差は0ポイントです。このように集計していくと、AサービスとBサービスに差があるときはゼロから離れ、差がないときはゼロに近くなるので、その計算結果をもとにして両者の間に有意差があるかどうかを判定します。

数量データで正規分布が仮定できるとき

数量データの解析方法は、データの正規性が仮定できるかどうかによって変わってきます。データの正規性について知りたい方は、こちらの記事をご覧ください。

論文を書くための統計解析:データの正規性とは?

計数データ(重さ、長さ、速度、個数など)の統計解析は、基本的にデータが正規分布していることが前提条件となります。グループ間を比較するにしても相関関係を調べるに…

データの正規性が仮定できる場合、「独立した2つのグループ」「対応のある2つのグループ」かによって解析方法が異なります。

正規性が仮定できる、独立した2つのグループ

ある地域において、20代の男性100人と40代の男性100人をランダムに選び、身長のデータを比較したいとします。この場合の結果は、次のように100人の平均値と標準偏差でまとめることができます。

身長の平均値 (cm)標準偏差 (cm)
20代167.83.8
40代168.52.5

ここでは20代の人と40代の人は異なるため、独立した2つのグループ(調査対象者)の比較となります。

このようなデータの統計解析は、大抵の場合、スチューデント(Student)のt検定を行います。

統計学の教科書では、「データが等分散と見なせない場合は、ウェルチ(Welch)のt検定を使用する」とされていますが、実際の論文ではデータの等分散性に言及せずにスチューデントのt検定を使用していることがよくあります。データの等分散性を確認しないといけないということを論文の著者が知らない場合も多いと思いますが、もう一つの理由としては、スチューデントのt検定もウェルチのt検定も、有意差の検出力はほとんど変わらないことが挙げられます。

そういう状況ですが、理論的にはデータの等分散性によってスチューデントのt検定とウェルチのt検定を使い分けるということは知っておきましょう。データの等分散性については別の記事で解説したいと思います。

正規性が仮定できる、対応した2つのグループ

40代の男性100人を対象として、2024年1月と2024年6月に体重を測定し、この間の体重変化を調べたいとします。この場合の結果は、「独立した2つのグループ」の例と同じように平均値と標準偏差でまとめることができます。

体重の平均値 (kg)標準偏差 (kg)
2024年1月65.65.3
2024年6月63.44.8

ここでは同じ人に注目して異なる時期のデータを比較するため、対応のある2試料(2つの時期の体重)の比較となります。

このようなデータの統計解析は、対応のあるt検定を行います。

名義尺度や順序尺度の場合と同じように、同じ対象者(対象物)に注目しながら、あるイベントや期間の前後で、評価指標(今回の例では体重)がどのように変化したのか調べる方法です。

数量データで正規分布が仮定できないとき

数量データでも正規分布が仮定できないときは、順序データと同じ扱いをすることになるので、上の「順序データ」の解析方法をご覧ください。

まとめ

以上をまとめると次のような系統図が描けます。

二つのグループ間の比較は、論文を書くときに最も頻繁に登場する統計解析なので、困ったときはこの系統図を参考にしてみてください。

<参考文献>
田久浩志(2019)『統計解析なんかこわくない−データ整理から学会発表まで』、医学書院
内田治(2022)『アンケート調査の計画と解析』、日科技連出版

楽天ブックス
¥3,190 (2024/09/24 03:37時点 | 楽天市場調べ)

この記事を書いた人

田中泰章 博士

Yasuaki Tanaka Ph.D.

プロフィール
環境問題や教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに30報以上の学術論文を筆頭著者として執筆し、国際的な科学雑誌の査読者として多数の論文審査も行っています。