相関係数の種類:ピアソン、スピアマン、ポリコック、ポリシリアルなど7種類を整理
今回の記事では、2つの尺度の相関を調べるときに用いられる方法(相関係数)をまとめます。ピアソンの積率相関やスピアマンの順位相関はよく知られていますが、相関を調べる方法はそれ以外にも色々あります。データの種類に注目しながら、相関分析の全体像を整理していきたいと思います。
相関分析の全体像
最初に本記事で取り上げる相関分析を表に整理しておきます。
| データ1 | データ2 | 分析方法 | |
|---|---|---|---|
| パラメトリック | 連続尺度 | 連続尺度 | ピアソン積率相関係数 |
| 順序尺度(多値) | 順序尺度(多値) | ポリコリック相関係数 (多分相関係数) | |
| 順序尺度(多値) | 順序尺度(二値) | ポリコリック相関係数 (多分相関係数) | |
| 順序尺度(二値) | 順序尺度(二値) | テトラコリック相関係数 (四分相関係数) | |
| 順序尺度(多値) | 連続尺度 | ポリシリアル相関係数 (多分系列相関係数) | |
| 順序尺度(二値) | 連続尺度 | バイシリアル相関係数 (双列相関係数) | |
| ノンパラメトリック | 連続尺度 | 連続尺度 | スピアマン/ケンドールの順位相関係数 |
| 順序尺度 | 順序尺度 | スピアマン/ケンドールの順位相関係数 | |
| 順序尺度 | 連続尺度 | スピアマン/ケンドールの順位相関係数 |
まずはデータの分布(背後に想定される潜在的な変数を含む)が正規分布を仮定できるかどうかによって、パラメトリックな解析かノンパラメトリックな解析かが変わってきます。そしてデータの種類(連続尺度や順序尺度など)によって分析方法がさらに分かれます。
ここからは、データの種類に注目しながら具体的に解説していきます。
連続尺度と連続尺度の相関
連続尺度とは、身長や体重、人口など、等間隔性が保証されている数値データのことです。
連続尺度同士の相関を調べるときは、それぞれのデータ群(例えば身長と体重の相関を調べるのであれば、身長というデータ群、体重というデータ群)が正規分布していて、かつ、両者が直線関係にある場合、ピアソンの相関分析を行います。
いずれか、または、両方のデータ群が正規分布を仮定できない場合や、散布図を描いたときに直線関係が確認できない場合は、ノンパラメトリックな解析(スピアマンまたはケンドールの順位相関分析)を行います。
ただし、正規分布でないからといってすぐにノンパラメトリックな解析をするのではなく、データを変換(対数変換や平方根変換など)することを考えてみるのも良いでしょう。
順序尺度と順序尺度の相関
順序尺度とは、例えばアンケート調査の5件法(5:非常に満足、4:満足、3:どちらともいえない、2:やや不満、1:不満)のように、数値の順序に意味があるものの、一般的には等間隔性が保証されない数値データのことです。等間隔性が保証されないため、尺度の数値を使って足し算や掛け算をすることはできず、例えば「2:やや不満」という気持ちの程度を2倍したとしても、「4:満足」ということにはなりません。
このような順序尺度同士の相関を見るときは、順序尺度の背後に正規分布のデータを仮定できるかどうかによって、パラメトリックな解析をするかノンパラメトリックな解析をするかが変わってきます。
順序尺度の背後に正規分布状の連続的な変化を仮定できるのであれば、パラメトリックな解析を行います(ポリコリック相関・テトラコリック相関)。例えばアンケート調査の5件法であれば、実際に観測されているのは1~5のような5つの分類ですが、その背後に正規分布状の連続的な変化が存在すると仮定できる場合です。観測されたデータが実際に正規分布している必要はなく、あくまで正規分布を仮定できるかどうかということです。
正規分布状の連続的な変化を仮定できないのであれば、ノンパラメトリックな解析を行います(スピアマンやケンドールの順位相関)。例えばアンケート調査の5件法で、「5. 非常に満足」に回答が集中していたり、「5. 非常に満足」と「1. 不満」の両極端に回答が分かれていたりする場合です。このような場合は回答が正規分布しているとはみなせないため、ノンパラメトリックな方法で相関を調べます(ただし、データが偏っている理由を考えることも重要です。そもそも相関係数を求める意味があるのかということも含めて考えてみましょう)。
順序尺度と連続尺度の相関
順序尺度と連続尺度の相関も、ここまで説明してきた流れと同様です。つまり、連続尺度に正規分布が仮定でき、かつ、順序尺度の背後に正規分布状の連続的な変化を仮定できるのであればパラメトリックな解析(ポリシリアル相関・バイシリアル相関)を行います。順序尺度が多値であればポリシリアル相関、二値であればバイシリアル相関です。
一方、連続尺度に正規性が仮定できない、または、順序尺度の背後に正規分布状の連続的な変化を仮定できないのであれば、ノンパラメトリックな解析を行います(スピアマンやケンドールの順位相関)。
まとめ
今回の記事では、特に順序尺度の扱い方に重点を置いて、主な相関係数を整理してみました。順序尺度でも、正規分布状の連続的な変化を仮定できれば、解析方法の選択肢が増えます。アンケート調査で回答の選択肢を作るときは、回答結果とその後の解析もイメージしながら作ると良いでしょう。

この記事を書いた人
田中泰章
Yasuaki Tanaka
プロフィール
自然の仕組みや環境問題、社会・教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに40本以上の論文を出版し、国際的な科学雑誌の査読者として多数の論文審査も行っています。大学教員としては、これまでに40名以上の学生(学部・修士・博士)を研究指導し、若手研究者を育成してきました。専門は「人間と自然とのかかわり」で、人間活動が自然界に与える影響を生物学・化学・社会学などの複合的な視点から研究しています。
アカデミックラウンジ
サービス案内

