主成分分析とは?目的や分析手順、Excelでの分析方法までわかりやすく解説

主成分分析とは?目的や分析手順、Excelでの分析方法までわかりやすく解説

複数の種類のデータ分析や、プロットされたデータの読み取りに有効な手法として、良く利用されているのが主成分分析です。

データのばらつきや概要を捉えるという点において効果的な施策ですが、詳細な内容まで把握しきれていないという方も多いはずです。

そこで今回は主成分分析について概要や用途はもちろん、利用方法まで徹底的に解説していきます。

あわせて読みたい

主成分分析の目的とは?

まずは「主成分分析にはどのような目的があるのか」について紹介していきます。簡単に結論からお伝えすると、主成分分析は「データの傾向を大まかに把握する」ことが目的です。

主成分分析に関してはよく散布図を用いて説明されることが多いため、ぜひ頭の中にある程度相関のある散布図を思い描いてみて下さい。散布図の中には上下左右に最端のデータが存在しています。

そこを基準点として最も幅が広くなるように交差線を引いたものが主成分分析の結果になります。この「最も幅が広くなるように」というのは、「分散を最も広くする」という事を意味しており、主成分分析によって引かれた線の長さがデータのばらつき具合を表現しています。

正の相関がある散布図であれば主成分分析の線は右に傾いた十字架のような結果になるという事です。このように、主成分分析を行うとそのデータについての大まかな傾向を把握することができるという特徴があります。

最終的には、寄与率・主成分得点などを用いてデータの解釈を進めていきます。



主成分分析で何がわかるか?

主成分分析を行うと、データのカテゴライズなどが正確に分かるようになります。これまでは何となく見た目や傾向でしか把握できていなかったデータであっても、主成分分析によって沢山の要素をまとめることができるため分類が容易になります。

ユーザーの性別・年齢・収入・居住地など、様々な要素をまとめあげ、数値として、そして視覚的にもわかりやすい状態へと導くのが主成分分析の役割になります。

データをまとめていくという点においては、前述した「寄与率」という物が参考になります。主成分分析は、散布図に分散が最大まで広くなる線を2本引くという事はお伝えしましたが、ではその2本の線がデータの何割を表現できているのかを示すのが寄与率です。

何度もお伝えしている通り、主成分分析は詳細なデータを読み解くことが目的ではなく、大まかな傾向を掴むことが目的です。そのため、本来のデータと主成分分析後のデータにどれだけデータの変動があるのかは注意する必要があるのです。

そこで必要なのが寄与率であり、2つの軸を利用すると100%になります。線が短ければその分垂直方向に延びたデータ分が取り切れていないことになり、寄与率は下がります。

寄与率は高ければ高いほど信頼性のある主成分分析の軸であると言い換えることができ、データの傾向を良く表現しているという事になります。

主成分分析の進め方

ここからは主成分分析の方法について紹介していきます。

Step1:まずはデータの用意と入力を行う

まずは主成分分析に利用するデータを用意します。データと言っても沢山の種類があります。そのため、利用できるデータの種類と利用方法を以下に説明します。

名義尺度

コチラは人間や物の名称を指す言葉であり、元々ついている呼称や固定の背番号なども名義尺度に該当します。一般的には分類・ジャンルなどと呼ばれることが多いです。主成分分析においてはダミー変数や0と1を用いて表現します。

間隔尺度

間隔尺度は距離や温度などの「小数点以下にも大きな意味を持つ数値」の事です。間隔尺度に関しては主成分分析では加工せずにそのまま利用します。

順位尺度

順位尺度はその名の通り順位や順番における数値の事です。こちらも主成分分析においては順番が途切れないようにそのままの数値を利用します。

格付け尺度

格付け尺度はレストランの評価などでよく見かけるような5段階(段階数は場合によって変更可能)評価のような物を指します。この数値も主成分分析においてはそのまま利用して構いません。

比率尺度

その名の通り、単位などに左右されることなく扱うことができる比率の事を比率尺度と言います。主成分分析においては比率尺度も数値のまま利用することができます。

このように、データの用意においてはほとんどすべての数値を加工することなくそのまま主成分分析に用いることができます。名義尺度においては、「特定の物が1、それ以外は0(もしくはその逆)」というような利用方法が一般的であり、これをダミー変数と呼んでいます。

また、順位尺度においては前述したように数値の並びを整える(飛び飛びなどにしない)という事や、順位間の差は考慮されていないという点については注意が必要です。

平均的な値を抽出したいときなどは、個人間の能力差を正確に把握できないこともあるので、一概に主成分分析のみを頼るのは賢明ではないケースも存在します。

Step2:入力したデータを用いて主成分分析を実行する

ここまでに用意したデータを用いて主成分分析を実行していきます。欠損データの有無や入力に関して誤りがあるとエラーが発生するので、その都度修正を行うようにしましょう。

データを入力するときには、一元表の形式で入力することが必須になります。一元表というのは全ての変数に対して列の頭に変数名が定義されている表の事を指します。その下に対応する測定値を入力していきます。

Step3:出力された結果を利用しやすい形に変換していく

最後に主成分分析を実行して得られたデータを加工していきます。主成分分析を行うことができるソフトを利用してExcel等でダウンロードすることができます。基本的にはプラスマイナス0.---か1.---の数値が出力されます。



主成分分析はどのようなツールを使えば主成分分析ができる?

Excel

主成分分析を行うには、基本的にMicrosoftのExcelでデータを用意し、専用の解析ソフトに流し込むという方法が一般的です。

エクセル統計やmam相関分析・主成分分析は広く利用されている解析ソフトであり、これらのソフトを用いるとコンピュータが難解な計算などを自動的に行ってくれます。主成分分析専用のソフトではなく、クラスター分析や重回帰分析なども併せて実行できる機能を備えたものが大半を占めます。

R・Python

PythonやRなどのプログラミング言語には、統計解析のためのライブラリが豊富に用意されています。

なんといっても、高度で難しい統計解析手法を無料で行うことができるのが魅力です。また、これらの言語やライブラリは多くの人が利用しているため、情報の検索がしやすいのも大きなメリットです。

一方で、ソースコードの修正やコマンドラインからの操作は複雑で、必ずしも初心者向けではなく、使いこなすにはそれなりの時間と労力が必要になります。

Exploratory

Exploratoryは、データを「探索」することに優れた分析ツールです。

RやPythonでは解析を行うためにコードを書く必要がありますが、Exploratoryはいわゆる「ノーコード」のツールです(裏側ではR言語が動いています)。データを用意して読み込んで、アナリティクスボタンをクリックするだけで、以下のようなさまざまな分析を行うことができます。

相関
K-Meansクラスタリング
主成分分析(PCA)
線形回帰
ロジスティック回帰
一般化線形モデル
決定木
ランダムフォレスト
生存曲線
コックス回帰
ランダム・サバイバル・フォレスト
時系列予測
異常値検知
マーケット・バスケット分析
統計的検定
A/Bテスト-ベイジアン  など

公式のコンテンツとして、Exploratoryで主成分分析を実行する方法を解説してくれているので、ぜひご覧ください。

Exploratory:主成分分析(PCA)の紹介

Excelで主成分分析する方法|やり方はかんたん3Step!

ここからはMicrosoft Excelとエクセル統計を用いた主成分分析の方法について簡単に紹介していきます。

Step1:必要なデータを用意してエクセル統計をメニューから選択する

まずはデータを用意してラベルの部分を選択します。さらに多変量解析→主成分分析と勧めることで主成分分析の実行を進めることができます。

Step2:オプションで「主成分得点を出力する」を選択して実行

ダイアログにてデータラベルと分析に用いる変数が出力されるので、確認して問題が無い場合にはOKを選択します。次のダイアログではオプションを選択することができるので、「主成分得点を出力する」「線形結合している変数を除いて分析する」「標準化したデータの分散共分散行列(相関行列)から計算する」チェックを入れてOKをクリックします。

Step3:出力結果を確認する

主成分分析が完了すると、結果がハイパーリンクのついた文字で出力されます。

「基本統計量」では「平均、不偏分散、標準偏差、最小値、最大値」が、「分析対象行列」では「相関係数」が、「線形結合している変数」では「線形結合している変数の有無」が、「固有値表」では「固有値、寄与率、累積寄与率」が、「主成分得点」では「各項目の主成分得点」が、「固有値スクリープロット」では折れ線でのグラフがそれぞれ出力されます。

このようにしてエクセル統計ではMicrosoft Excelを用いて簡単に主成分分析を行うことができるようになっています。

主成分分析はどのような場面で利用されているのか

最後に、主成分分析は現代においてどのような場面で利用されているのかについて紹介していきます。主成分分析は最初にもお話しした通り「データの概要やばらつきを把握する」ことが目的の解析手法です。そのため、沢山のデータが集まる試験や、色の判定などにも‘用いられています。

分かりやすい例としてはテストの結果などがあります。複数の教科を扱うことが多いテストにおいては、複数の情報をそのままの数値で利用できる主成分分析が役に立ちます。

例えば、「国語・数学・理科・社会・英語のうち、どの教科が一番得点が安定しており平均点への影響が少ないのか」などは主成分分析を行うことによって簡単に知ることができます。

ばらつきに影響しているデータはどこに存在しているのかなども主成分分析ですぐに求められます。

色の判定においては、RGBを用いて大まかな成分の解釈をすることができ、画像加工アプリのフィルターのような役割を果たすことができます。画像においてどの色が最も優位に働いているのかなどは主成分分析を用いて導きやすくなっていると言えるでしょう。



まとめ:データの概要や傾向を把握したいときには主成分分析を使おう

今回はばらつきのあるデータや大量に存在するデータの傾向を掴むことに優れた「主成分分析」について紹介してきました。主成分分析は現代においても経済学の分野で利用されることが多く、商品戦力や顧客の分析などに幅広く用いられています。

専用のソフトを用いることによって比較的簡単に実行することができ、完成したデータも容易に読み取れるという点から、多用される解析技術となっています。さらに、画像の解析や自然現象の研究に利用されることもあり、私たちの身の回りにある物・サービスも主成分分析の結果生み出されているケースもしばしば存在します。

中でも、エクセル統計は主成分分析が行えるExcelアドインとして非常に有名ですので、ぜひ内容を確認してみるとよいでしょう。

あわせて読みたい
  • この記事を書いた人

みなも

データ分析に強くなるためのポイントを解説します。Excelを用いた統計分析や、テキストマイニングツール、BIツールの情報を中心にお届けします。

-Excel, 統計
-,