基本から解説!アンケート調査結果の統計解析
今回の記事は、アンケート調査の結果を統計解析して、「統計学的に・・・である」と言いたい人のための入門解説です。自分が持っているデータの種類と統計解析する目的さえはっきりさせれば、「こういう場合はこういう解析方法」というパターンが分かるように書いてみました。すべてのデータタイプや解析方法を紹介することはできませんが、代表的な8つケースについて解説していきます。
参考文献は次の2冊です。
データの種類を見分ける
まずはデータの種類を見分けることが大切です。データというのは、一般的に「カテゴリーデータ」「数量データ」「テキストデータ」の3種類に分類でき、さらに小分類としていくつかの「尺度」に分けることができます。
カテゴリーデータ:名義尺度
名義尺度とは、次の例のように数値化できないデータです。
- 地名(北海道・青森県・秋田県など)
- 性別(男性・女性)
- 所属(営業部・開発部・経理部など)
- 色(赤・青・黒・白など)
- 血液型(A型・B型・AB型・O型)
カテゴリーデータ:順序尺度
順序尺度とは、「満足度」や「理解度」のように、大小や順位がイメージできる数値データです。例えば、満足度に関する調査では、
- 非常に満足
- 満足
- 普通
- 不満
- 非常に不満
のように、数値が5から1に向かうにつれて満足から不満足に変化しています。ただし、次に説明する数量データと異なり、数値の間隔に意味はありません(等間隔性が保証されていません)。例えば、「5. 非常に満足」と「4. 満足」の差は「1ポイント」で、「2. 不満」と「1. 非常に不満」の差「1ポイント」と同じですが、感情の差が同じとは限らないということです。
数量データ
「体重」「身長」「速度」「本数」「温度」など、多くの計測データが該当します。例えば1メートルの棒が2本で2メートル(1+1=2)、2メートルの棒が10本で20メートル(2×10=20)というように、加減乗除できるデータとも言えます。
厳密には、数量データは「間隔尺度」と「比例尺度」に分けられますが、統計解析を行う上での扱い方はほとんど同じなので、ここではまとめて「数量データ」と呼ぶことにします。
テキストデータ
その名の通り、テキスト(文章や語句)形式のデータです。アンケート調査では、「・・・の理由を教えてください」「・・・についてどう思いますか?」のように、自由に記述してもらう質問がよくあります。このような質問に対する回答がテキストデータになります。
ここまでをまとめると、データの種類は
- 名義尺度
- 順序尺度
- 数量データ
- テキストデータ
に分けられます。まずは自分が解析したいデータが、この中のどの種類なのかを把握しましょう。
それではここから、データの種類別に解析方法を紹介していきます。
名義尺度の統計解析
独立した2試料
100人の男女(男性50・女性50)にある質問をして、「はい」と答えた人数、「いいえ」と答えた人数を調べたところ、次のような結果表(クロス集計表)が得られたとします。男性と女性の回答傾向に違いがあると言えるでしょうか?
性別 | はい | いいえ |
---|---|---|
男性 | 29 | 21 |
女性 | 22 | 28 |
ここでは「男性」として回答した人と「女性」として回答した人は異なり、「男性」と「女性」は独立したグループと考えられます。
このようなデータの統計解析では、カイ二乗検定またはフィッシャーの正確確率検定(直接法、直接確率検定)を行います。
対応のある2試料
100人の学生を対象にして、ある考え方について講義の前後に質問しました。その考え方について「同意できる」と答えた人数、「同意できない」と答えた人数を調べたところ、次のようなクロス集計表が得られたとします。例えば、講義前は「同意できる」と回答し、講義後も「同意できる」と回答した学生が20人、講義前は「同意できる」と回答したけど、講義後は「同意できない」と回答した学生が28人ということです。講義は学生の考え方に影響を与えたと言えるでしょうか?
講義後:同意できる | 講義後:同意できない | |
---|---|---|
講義前:同意できる | 20 | 28 |
講義前:同意できない | 15 | 37 |
このような調査では、同じ人が二度回答しているので、独立した二つのグループを比較するのではなく、同じ人の変化を調べることになります。講義の前後(二度の調査)に同じ人が回答する(対応する)ので、「対応のある2試料」となります。
このようなデータの統計解析では、マクネマー(McNemar)検定を行います。
順序尺度の統計解析
順序尺度は、上述したように等間隔性が保証されないため、平均値や標準偏差は意味を持たず、代わりに中央値や順位が大切になります。データの正規性という概念もないため、理論的にはノンパラメトリックな統計解析を行います。
実際には順序尺度のデータを数量データとみなして(等間隔性を仮定して)解析している論文も多くありますが、順序尺度の性質を考えると正しくありません。
独立した2試料
順序尺度の例として、ある会社でAサービスとBサービスの顧客満足度を、
- 非常に満足
- 満足
- 普通
- 不満
- 非常に不満
の5段階でアンケート調査したとします。Aサービスを利用した100人、Bサービスを利用した100人で、AサービスとBサービスを利用した人たちは同じではありません。アンケートの結果、次の表のような人数分布が得られたとします。AサービスとBサービスは、顧客満足度が異なると言えるでしょうか?
満足度 | Aサービス | Bサービス |
---|---|---|
5. 非常に満足 | 15 | 10 |
4. 満足 | 48 | 52 |
3. 普通 | 21 | 23 |
2. 不満 | 13 | 10 |
1. 非常に不満 | 3 | 5 |
ここではAサービスに回答した人とBサービスに回答した人は異なるため、独立した2つのグループ(回答者)の比較となります。集計表のもとになっているデータは、次のような形式です。
回答者 | サービス名 | 満足度 |
---|---|---|
回答者1 | Aサービス | 5. 非常に満足 |
回答者2 | Aサービス | 4. 満足 |
回答者3 | Aサービス | 2. 不満 |
回答者4 | Bサービス | 4. 満足 |
回答者5 | Bサービス | 3. 普通 |
(続く) |
このようなデータの統計解析では、マン-ホイットニー(Mann-Whitney)のU検定、またはウィルコクソン(Wilcoxon)の順位和検定を行います。名前は違いますが、二つの検定は同じものです。
対応のある2試料
先ほどと同じように、ある会社でAサービスとBサービスの顧客満足度を、
- 非常に満足
- 満足
- 普通
- 不満
- 非常に不満
の5段階でアンケート調査しました。今回はAサービスとBサービスを両方とも利用している100人を対象にして調査を行い、その結果、次のような人数分布が得られたとします。AサービスとBサービスは、顧客満足度が異なると言えるでしょうか?
満足度 | Aサービス | Bサービス |
---|---|---|
5. 非常に満足 | 15 | 10 |
4. 満足 | 48 | 52 |
3. 普通 | 21 | 23 |
2. 不満 | 13 | 10 |
1. 非常に不満 | 3 | 5 |
ここではAサービスに回答した人とBサービスに回答した人は同じため、対応する2つの試料(Aサービスに対する回答結果とBサービスに対する回答結果)の比較となります。集計表のもとになっているデータは、次のような形式です。
回答者 | Aサービス | Bサービス |
---|---|---|
回答者1 | 5. 非常に満足 | 4. 満足 |
回答者2 | 4. 満足 | 4. 満足 |
回答者3 | 5. 非常に満足 | 3. 普通 |
回答者4 | 3. 普通 | 2. 不満 |
回答者5 | 4. 満足 | 3. 普通 |
(続く) |
このようなデータの統計解析では、ウィルコクソン(Wilcoxon)の符号付順位和検定を行います。各回答者について、AサービスとBサービスの差に注目する解析手法です。
数量データの統計解析(正規性が仮定できる場合)
数量データの解析方法は、データの正規性が仮定できるかどうかによって大きく変わってきます。データの正規性について知りたい方は、こちらの記事をご覧ください。
データの正規性が仮定できる場合、「独立した試料」か「対応のある試料」かによって解析方法が異なります。
独立した2試料
ある地域において、20代の男性100人と、40代の男性100人をランダムに選び、身長のデータを比較します。この場合の結果は、次のように平均値と標準偏差でまとめることができます。20代と40代では、身長に有意な差があると言えるでしょうか?
年代 | 身長の平均値 (cm) | 標準偏差 (cm) |
---|---|---|
20代 | 167.8 | 3.8 |
40代 | 168.5 | 2.5 |
ここでは20代の人と40代の人は異なるため、独立した2つのグループ(調査対象者)の比較となります。
このようなデータの統計解析は、t検定(対応のないt検定)を行います。
対応のある2試料
40代の男性100人を対象として、2024年1月と2024年6月に体重を測定し、この間の体重変化を調べたいとします。この場合の結果は、「独立した2試料」の例と同じように平均値と標準偏差でまとめることができます。1月から6月にかけて、体重に有意な変化があったと言えるでしょうか?
時期 | 体重の平均値 (kg) | 標準偏差 (kg) |
---|---|---|
2024年1月 | 65.6 | 5.3 |
2024年6月 | 63.4 | 4.8 |
ここでは同じ人に注目して異なる時期のデータを比較するため、対応のある2試料(2つの時期)の比較となります。
このようなデータの統計解析は、対応のあるt検定を行います。
独立した多試料
ある地域において、20代、30代、40代、50代の人を100人ずつランダムに選び、年代別の睡眠時間を比較します。この場合の結果も、次のように平均値と標準偏差でまとめることができます。年代によって、睡眠時間に有意な差があると言えるでしょうか?
年代 | 睡眠時間の平均値 (時間) | 標準偏差(時間) |
---|---|---|
20代 | 6.2 | 0.7 |
30代 | 6.5 | 0.5 |
40代 | 7.2 | 0.6 |
50代 | 7.5 | 0.5 |
ここでは20代、30代、40代、50代の人は異なるため、独立した4つのグループ(調査対象者)の比較となります。
このようなデータの統計解析では、一元配置の分散分析を行います。
数量データの統計解析(正規性が仮定できない場合)
数量データでも正規性が仮定できない場合は、ノンパラメトリックな解析を行う必要があるので、上述した「順序尺度の統計解析」と同じ手法を使います。
テキストデータの統計解析
テキストデータの解析は、書かれている文章の内容や使われている語句を読んで理解し、複数の回答を上手くまとめる必要があります。アンケート回答者の数が多くなればなるほど大きな労力を要しますし、解析する人によって異なる結論が導かれることもあるでしょう。
そのため、テキストデータの解析では「テキストマイニング」ツールを使うのが一般的です。コンピュータを使って、各単語の出現回数や同時に使われる単語の組み合わせなどを集計し、テキストデータの傾向をグラフ上に視覚化することができます。共起ネットワークはその代表例です。
まとめ
以上をまとめると、アンケート調査結果の統計解析は次のように分類することができます。
冒頭にも書きましたが、今回取り上げたのはあくまで代表的なケースだけなので、データによっては対応できないこともあると思います。そういうちょっと特殊なケースについても、今後徐々に追加していきたいと思います。
<参考文献>
田久浩志(2019)『統計解析なんかこわくない−データ整理から学会発表まで』、医学書院
内田治(2022)『アンケート調査の計画と解析』、日科技連出版
この記事を書いた人
田中泰章 博士
Yasuaki Tanaka Ph.D.
プロフィール
環境問題や教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに30報以上の学術論文を筆頭著者として執筆し、国際的な科学雑誌の査読者として多数の論文審査も行っています。
アカデミックラウンジでは、
論文の作成やデータ解析、
研究計画などに関する
ご相談を承っております。
サービス案内
お問い合わせ
お見積もりやサービス内容へのご質問など、
お気軽にお問い合わせください。
contact@academiclounge.jp