重回帰分析の基本:データの形式、前提条件、分析結果の解釈

今回は重回帰分析の基本なことをまとめます。数式や細かい理論は省き、どういうデータの何を知りたいときに重回帰分析を行うのか、前提条件は何か、分析結果をどのように解釈するのか、などについて解説していきます。

どういうデータ?何を知りたい?

重回帰分析を行うのは、3つ以上の変量(データの列)があり、そのうちの1つを残りの変量で説明したいときです。説明したい一つの変量が目的変数、それを説明するための複数の変量が説明変数です。説明変数が一つしかないときは単回帰分析と呼ばれます。

たとえば、下の表は7カ国の平均寿命と医療費、タンパク質摂取量のデータです(『改訂版 すぐわかる多変量解析』より)。平均寿命は、医療費やタンパク質摂取量と関係があるかどうか調べたいとき、平均寿命を目的変数、医療費とタンパク質摂取量を説明変数として重回帰分析を行います。

平均寿命医療費タンパク質
A624.562
B563.749
C695.158
D724.661
E835.878
F795.285
G573.457
『改訂版 すぐわかる多変量解析』石村光資郎・石村貞夫、東京図書、2020年

目的変数は連続データ

重回帰分析は、目的変数が連続データのときに用いる手法です(目的変数が名義尺度や順序尺度のときはロジスティック回帰分析)。

しかし、アンケート調査の段階式評定尺度のように、目的変数が順序尺度でも重回帰分析を行っている事例は多く見られ、これは厳密に言えば(統計学的には)問題なので注意しましょう。評定段階が少なくとも5段階(できれば7段階以上)あったり、複数の評定尺度の平均値を目的変数として使ったりするなど、目的変数が「それなりに」連続データとみなされる必要があります。

重回帰分析の説明変数は、連続データでも名義尺度・順序尺度でも構いませんが、名義尺度・順序尺度の場合は数値として扱う必要があります。たとえば、男性・女性のような2種類の名義尺度の場合は、1つのダミー変数(0または1)で表せますし、血液型(A・B・O・AB)のように4種類の名義尺度の場合は、次のように3つのダミー変数を使って表すことができます。

血液型X1X2X3
A型100
B型010
O型001
AB型000

重回帰分析の条件

重回帰分析を行ってもいい条件は、一般的に以下の4つです。

  1. 線形性
  2. 独立性
  3. 正規性
  4. 等分散性

このうち一番よく問題になるのは「3. 正規性」だと思います(実際にはそれ以外の条件も満たす必要があるのですが、論文審査で一番指摘されやすいのは、という意味です)。正規性を満たしていなければ、パラメトリックな重回帰分析ではなく、ノンパラメトリックな方法で解析する必要があります。

統計学的な厳密性を求められない分野では、上のような条件に言及しなくてもいいかもしれませんが、本来はそういう条件が必要だということは知っておきましょう。

また、多くの方がデータそのものの正規性や等分散性を気にしていますが、気にしないといけないのは残差の正規性や等分散性なので、その点も気を付けましょう。

<参考情報>

R と SPSS で重回帰分析の残差が正規分布であるのを確認する方法

回帰モデルの診断・評価(1):正規性・等分散性・外れ値・独立性

分析結果の解釈

統計ソフトで重回帰分析を実行すると、通常は分散分析の表と回帰係数の表が出力されます。本記事の最初に示した平均寿命、医療費、タンパク質摂取量のデータを重回帰分析した結果です(『改訂版 すぐわかる多変量解析』より)。

分散分析表

変動平方和自由度平均平方F値有意確率
回帰による615.1112307.55625.4610.005
残差による48.317412.079  
全変動663.4296   
『改訂版 すぐわかる多変量解析』石村光資郎・石村貞夫、東京図書、2020年

回帰係数の検定表

偏回帰係数標準誤差標準化された偏回帰係数t値有意確率
(定数項)11.1278.117 1.3710.242
医療費7.9262.5490.6393.1100.036
タンパク質0.3200.1710.3851.8750.134
『改訂版 すぐわかる多変量解析』石村光資郎・石村貞夫、東京図書、2020年

最初に見るのは分散分析表の有意確率(p値)で、この値が十分に小さいと(一般的には0.05未満)、求めた重回帰式が「目的変数を説明したり予測したりするのに役立つ」と言えます。逆にこの値が大きいと、重回帰式は役に立たないことになります。

重回帰式が十分に役立つことが分かったら、回帰係数の表を確認して、次の重回帰式を得られます。

平均寿命=7.926×医療費+0.320×タンパク質+11.127

回帰係数の有意確率に注目すると、医療費は0.036なので、「平均寿命と有意な相関がある」と言えます。また、回帰係数は正の値なので、医療費と平均寿命の間に正の相関があることになります。

ここで注意したいのは、(単回帰分析やロジスティック回帰を含めて)回帰分析で分かるのはあくまで相関(関連性)であり、因果関係ではないということです。論文やレポートで回帰分析の結果を説明するときは、あくまで「有意な相関が見られた」「有意な関連性が示された」とし、因果関係があるかもしれないということは考察のなかで言及するようにしましょう。

まとめ

今回の記事では、重回帰分析の基本的なことをまとめました。パラメトリックな多変量解析としては最もメジャーな方法なので、慣れてくれば使う頻度も多いと思います。目的変数の性質(連続データか、残差の正規性は仮定できるか、など)に気を付けながら、重回帰分析を行いましょう。次回はロジスティック回帰分析について解説します。

この記事を書いた人

田中泰章 博士

Yasuaki Tanaka Ph.D.

プロフィール
環境問題や教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに30報以上の学術論文を筆頭著者として執筆し、国際的な科学雑誌の査読者として多数の論文審査も行っています。