重回帰分析の基本:データの形式、前提条件、分析結果の解釈
今回は重回帰分析の基本なことをまとめます。数式や細かい理論は省き、どういうデータの何を知りたいときに重回帰分析を行うのか、前提条件は何か、分析結果をどのように解釈するのか、などについて解説していきます。
どういうデータ?何を知りたい?
重回帰分析を行うのは、3つ以上の変量(データの列)があり、そのうちの1つを残りの変量で説明したいときです。説明したい一つの変量が目的変数、それを説明するための複数の変量が説明変数です。説明変数が一つしかないときは単回帰分析と呼ばれます。
たとえば、下の表は7カ国の平均寿命と医療費、タンパク質摂取量のデータです(『改訂版 すぐわかる多変量解析』より)。平均寿命は、医療費やタンパク質摂取量と関係があるかどうか調べたいとき、平均寿命を目的変数、医療費とタンパク質摂取量を説明変数として重回帰分析を行います。
国 | 平均寿命 | 医療費 | タンパク質 |
---|---|---|---|
A | 62 | 4.5 | 62 |
B | 56 | 3.7 | 49 |
C | 69 | 5.1 | 58 |
D | 72 | 4.6 | 61 |
E | 83 | 5.8 | 78 |
F | 79 | 5.2 | 85 |
G | 57 | 3.4 | 57 |
目的変数は連続データ
重回帰分析は、目的変数が連続データのときに用いる手法です(目的変数が名義尺度や順序尺度のときはロジスティック回帰分析)。
しかし、アンケート調査の段階式評定尺度のように、目的変数が順序尺度でも重回帰分析を行っている事例は多く見られ、これは厳密に言えば(統計学的には)問題なので注意しましょう。評定段階が少なくとも5段階(できれば7段階以上)あったり、複数の評定尺度の平均値を目的変数として使ったりするなど、目的変数が「それなりに」連続データとみなされる必要があります。
重回帰分析の説明変数は、連続データでも名義尺度・順序尺度でも構いませんが、名義尺度・順序尺度の場合は数値として扱う必要があります。たとえば、男性・女性のような2種類の名義尺度の場合は、1つのダミー変数(0または1)で表せますし、血液型(A・B・O・AB)のように4種類の名義尺度の場合は、次のように3つのダミー変数を使って表すことができます。
血液型 | X1 | X2 | X3 |
---|---|---|---|
A型 | 1 | 0 | 0 |
B型 | 0 | 1 | 0 |
O型 | 0 | 0 | 1 |
AB型 | 0 | 0 | 0 |
重回帰分析の条件
重回帰分析を行ってもいい条件は、一般的に以下の4つです。
- 線形性
- 独立性
- 正規性
- 等分散性
このうち一番よく問題になるのは「3. 正規性」だと思います(実際にはそれ以外の条件も満たす必要があるのですが、論文審査で一番指摘されやすいのは、という意味です)。正規性を満たしていなければ、パラメトリックな重回帰分析ではなく、ノンパラメトリックな方法で解析する必要があります。
統計学的な厳密性を求められない分野では、上のような条件に言及しなくてもいいかもしれませんが、本来はそういう条件が必要だということは知っておきましょう。
また、多くの方がデータそのものの正規性や等分散性を気にしていますが、気にしないといけないのは残差の正規性や等分散性なので、その点も気を付けましょう。
<参考情報>
R と SPSS で重回帰分析の残差が正規分布であるのを確認する方法
回帰モデルの診断・評価(1):正規性・等分散性・外れ値・独立性
分析結果の解釈
統計ソフトで重回帰分析を実行すると、通常は分散分析の表と回帰係数の表が出力されます。本記事の最初に示した平均寿命、医療費、タンパク質摂取量のデータを重回帰分析した結果です(『改訂版 すぐわかる多変量解析』より)。
分散分析表
変動 | 平方和 | 自由度 | 平均平方 | F値 | 有意確率 |
---|---|---|---|---|---|
回帰による | 615.111 | 2 | 307.556 | 25.461 | 0.005 |
残差による | 48.317 | 4 | 12.079 | ||
全変動 | 663.429 | 6 |
回帰係数の検定表
偏回帰係数 | 標準誤差 | 標準化された偏回帰係数 | t値 | 有意確率 | |
---|---|---|---|---|---|
(定数項) | 11.127 | 8.117 | 1.371 | 0.242 | |
医療費 | 7.926 | 2.549 | 0.639 | 3.110 | 0.036 |
タンパク質 | 0.320 | 0.171 | 0.385 | 1.875 | 0.134 |
最初に見るのは分散分析表の有意確率(p値)で、この値が十分に小さいと(一般的には0.05未満)、求めた重回帰式が「目的変数を説明したり予測したりするのに役立つ」と言えます。逆にこの値が大きいと、重回帰式は役に立たないことになります。
重回帰式が十分に役立つことが分かったら、回帰係数の表を確認して、次の重回帰式を得られます。
平均寿命=7.926×医療費+0.320×タンパク質+11.127
回帰係数の有意確率に注目すると、医療費は0.036なので、「平均寿命と有意な相関がある」と言えます。また、回帰係数は正の値なので、医療費と平均寿命の間に正の相関があることになります。
ここで注意したいのは、(単回帰分析やロジスティック回帰を含めて)回帰分析で分かるのはあくまで相関(関連性)であり、因果関係ではないということです。論文やレポートで回帰分析の結果を説明するときは、あくまで「有意な相関が見られた」「有意な関連性が示された」とし、因果関係があるかもしれないということは考察のなかで言及するようにしましょう。
まとめ
今回の記事では、重回帰分析の基本的なことをまとめました。パラメトリックな多変量解析としては最もメジャーな方法なので、慣れてくれば使う頻度も多いと思います。目的変数の性質(連続データか、残差の正規性は仮定できるか、など)に気を付けながら、重回帰分析を行いましょう。次回はロジスティック回帰分析について解説します。
この記事を書いた人
田中泰章 博士
Yasuaki Tanaka Ph.D.
プロフィール
環境問題や教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに30報以上の学術論文を筆頭著者として執筆し、国際的な科学雑誌の査読者として多数の論文審査も行っています。
アカデミックラウンジでは、
論文の作成やデータ解析、
研究計画などに関する
ご相談を承っております。
サービス案内
お問い合わせ
お見積もりやサービス内容へのご質問など、
お気軽にお問い合わせください。
contact@academiclounge.jp