KH Coderを使った計量テキスト分析:対応分析でグループ間の関係を調べる

複数回にわたって、KH Coderを使った計量テキスト分析について紹介しています。KH Coderは樋口耕一氏によって開発されたテキスト分析(テキストマイニング)のためのツールで、テキストの中で使用されている語を素早く集計・分析することができます。

https://khcoder.net

前回の記事では、共起ネットワークを使って文脈の変化を探る方法をご紹介しました。

KH Coderを使った計量テキスト分析:共起ネットワークで文脈の変化を探る

KH Coderを使ったテキスト分析(テキストマイニング)の方法をご紹介します。研究論文を書くことを目的として、グループ間の比較に重点を置きながらいくつかの記事を書い…

今回の記事では、共起ネットワークと並んでよく使われる対応分析(コレスポンデンス分析)を取り上げ、グループ間の相違や文脈の変化を探る方法について解説していきます。

今回も前回と同様に、サンプルとして用いたテキストデータは、KH Coderにあらかじめ入っている夏目漱石の『こころ』です。データは表1のようにエクセルにまとめられていて、「上」「中」「下」という3つの部に分かれています。

表1 テキストデータの配置

テキストデータの配置

今回もグループ間を比較するような研究を想定して、「上」「中」「下」という3つの部に注目していきます。

対応分析

KH Coderを使った対応分析でグループ間を比較するには、分析を実行するときに「外部変数」を指定します。今回の場合は「部」(上・中・下)を選択しました。分析結果を図1に示します。

対応分析

図1 抽出語と外部変数を使った対応分析

結果の見方としては、それぞれの抽出語やカテゴリー(上・中・下)が、原点(成分1も成分2もゼロの点)からどの方向に、どれくらい離れているのかに注目します。例えば、「先生」という語は原点から大きく離れ、「上」と同じ左上の方向に位置していますが、これは「上」の中で「先生」が特徴的な語であることを意味します。また、「兄」「父」「母」などは「中」と同じ左下の方向に位置しており、これは「中」の中でこれらの語が特徴的であることを示します。逆に原点に近い語は特徴的ではなく、すべてのカテゴリーに普遍的に見られる語ということになります。

ここで気を付けなければならないのは、原点からの距離に関しては、語とカテゴリーを比較することはできないということです。例えば「父」よりも「母」のほうが若干「中」に近いから、「母」のほうが「中」に特徴的だと解釈することはできません。語とカテゴリーの関係を見るときは、あくまで原点からの方向だけに注目するようにしてください。

特徴語や共起ネットワークとの関係

このように対応分析を解釈していくと、前々回の記事で紹介した特徴語(表2)や、前回の記事で紹介した外部変数を用いた共起ネットワーク(図2)と類似した分析であることが分かります。ここではそれらを並べて、関係性を確認してみましょう。

表2 各部(上・中・下)を特徴づける語

各部を特徴づける語
共起ネットワーク(外部変数)

図2 外部変数(上・中・下)を用いた共起ネットワーク

まず「先生」に注目すると、特徴語リスト(表2)では「上」の中で最も係数が大きく(0.261)、共起ネットワーク(図2)でも当然ながら「上」とつながっていますが、それ以外の部とは強くつながっていません(「中」とは係数0.06でつながっています)。このような特徴から、対応分析(図1)では「先生」が原点からも他の語からも離れて付置されています。

次に「父」「母」「兄」などに注目すると、特徴語リスト(表2)では「中」の中で係数が大きく、共起ネットワーク(図2)でも当然ながら「中」とつながっていますが、それ以外の部とは強くつながっていません。このような特徴から、対応分析(図1)では「父」「母」「兄」が原点からも他の語からも離れて付置され、「中」に特徴的な語として描かれています。

それでは少し複雑なケースとして、「奥さん」に注目してみます。特徴語リスト(表2)では「上」と「下」で2番目に係数が高く、共起ネットワーク(図2)でもこれらの部(上・下)と比較的高い係数でつながっているのが分かります。これを踏まえて対応分析の結果(図1)を見ると、「奥さん」は原点から「上」へ向かう方向と「下」へ向かう方向の中間辺り(2つのベクトルを足し合わせた辺り)に位置しており、「上」と「下」に同程度に関連していると言えます。つまり、特徴語リストや共起ネットワークの結果が、対応分析にもしっかり現われているということです。

では対応分析をするメリットは何かというと、語とカテゴリーの関係を視覚的に理解しやすいということと、カテゴリー同士の関係も捉えられるということです。特徴語リストでも共起ネットワークでも、語とカテゴリーの関係性は分かりますが、カテゴリー同士の関係性は分かりません。対応分析をすることでカテゴリー同士の関係性も捉えられるため、グループ間を比較したい研究では適した方法と言えます。

今回の場合、成分1(図1の横軸)に注目すると、「上」と「中」は原点から左側へ、「下」は原点から右側に付置されていますので、「上」と「中」の内容は似ていて、「下」は少し異なっていることが分かります。一方で成分2(図1の縦軸)に注目すると、「上」は原点から上側へ、「中」は原点から下側に付置されていますので、成分2の観点では「上」と「下」は異なっていると言えます。成分1や成分2が何を意味しているのかは、図上に付置されている語や元のテキストを見ながら分析者自身が考察する必要がありますが、開発者の樋口氏によれば、必ずしも簡単に解釈できる場合ばかりではないので、難しい場合は無理に解釈する必要はないとのことです(樋口、2020年)

まとめ

今回の記事では、対応分析でグループ間の関係を分析する方法をご紹介しました。基本的には、外部変数を使った特徴語の抽出や共起ネットワークの作成と類似していますが、対応分析ならではのメリットもあります。どの手法を使うかは研究の目的や仮説によって変わってきますので、自分の研究に一番合った方法を選択すると良いでしょう。

参考文献

  • 樋口耕一『社会調査のための計量テキスト分析』2020年、ナカニシヤ出版
  • 樋口ほか『動かして学ぶ!はじめてのテキストマイニング』2022年、ナカニシヤ出版

この記事を書いた人

田中泰章

Yasuaki Tanaka

プロフィール

自然の仕組みや環境問題、社会・教育制度などについて広い視点から考える自然科学者。2008年に東京大学大学院で博士号(環境学)を取得した後、東京大学、琉球大学、米国オハイオ州立大学、ブルネイ大学など、国内外の大学で研究と教育に約15年間携わってきました。これまでに30報以上の学術論文を筆頭著者として執筆し、国際的な科学雑誌の査読者として多数の論文審査も行っています。大学教員としては、これまでに40名以上の学生(学部・修士・博士を含む)を研究指導し、若手研究者を育成してきました。専門は「人間と自然とのかかわり」で、人間活動が自然界に与える影響を生物学・化学・社会学などの複合的な視点から研究しています。

統計解析サービス

統計解析・データ分析のご依頼・ご相談に研究者が対応しています。量的分析・質的分析・テキストマイニングなど幅広く対応しておりますので、お気軽にお問い合わせくださ…

論文査読サービス

教員や研究者の論文投稿を支援するサービスです。現役の研究者が査読者目線で原稿を添削し、アドバイスを提供しています。日本語を校正・添削するプランもあります。初回…