データ分析を学習しようと思ったら、PythonやExcelなどから取り組んでみる方も多いと思います。しかし、どれだけツールを上手に活用したとしても、データからストーリーを読み取れなければ、データ分析力があるとはいえません。データからストーリーを読み解く上では、データから興味深い関係性を見出す必要があります。
その際に覚えておくと便利なことの一つに相関分析という手法があります。今回はこの相関分析について説明します。
相関分析とは
数学で二つのものが密接に関わり合い、一方が変化すれば他方も変化するような関係を相関関係といいます。例えば、雨が降れば、その地域の川の水量は増加するというものです。対象となる2つの事柄に対して、相関関係を見出しいく分析手法を相関分析と言います。
スーパーなどでは、天気と来客数を相関分析して、来客数と販売数量を予測し、仕入、在庫などの管理項目を調整するといったことにも利用されます。
この手法のメリットの一つとしては、目的に対する影響要素や項目を探し出し、その要素や項目に働きかけすることで、目的を達成しやすくなることです。
相関関係と因果関係
相関関係と合わせて、よく使われる考え方としては、因果関係があります。
因果関係とは、2つ以上のものの間に原因と結果の関係でつながっていると定義されています。
相関関係と因果関係の違いとしては、相関関係は因果関係を内包しているものであり、相関関係があるとしても、因果関係があるとは限りません。また、相関関係は2つの事柄の発生順序は問いません。しかし、因果関係では必ず原因が先にあり、その後に結果が起こるのが特徴です。
相関分析において気をつけるべきポイント
1)相関にあるが、因果があるとは限らない
前述の例の通り、相関関係があるとしても、因果関係が必ずしも成立するとは限りません。
相関関係にある2つの要素以外にも関わる要素がある場合、相関関係にあるかもしれないですが、その関係性を読み誤る可能性があります。
例えば、過去の筆者の経験として、参加者の興味を引くセミナーの場合は、出席者が増えるということがありました。そのため、さらにセミナーの出席数を増やすために、参加者の興味を引くテーマを取り上げることで、出席数が増やそうとしました。しかし、結果としては、どれだけよいテーマを出しても、これまで以上の出席数にはなりませんでした。
実際に参加者にヒヤリングすると、そもそも就活セミナーの存在を知らない学生が多かったため、これまで以上の申込みにならなかったことがわかりました。
相関関係があったとしても、因果関係を読み誤ると、取るべき手段を間違ってしまう、という例です。
2)サンプルを全体と読み誤る
一部のサンプルでは相関関係があるように見えますが、他のデータも見てみると無関係な場合があります。元にしたサンプルデータが全体傾向を示すものでない場合です。
そのため、サンプルを元に相関関係の結果を出しても、他サンプルデータを複数回選定し、検証する、もしくはサンプル特性を調整して検証するなど、分析に用いるデータの選定自体も注意して行う必要があります。
3)外れ値を考慮する
分析のサンプルデータにも関係しますが、対象とするデータの中に極端に大きな値または小さな値が含まれる場合があります。このような値を外れ値といいます。
例えば、収集したデータの中で測定や入力ミスによる値の場合は、対象となるデータの精度が悪くなることになります。そのため、それらの値を除去したほうが良いでしょう。
ただし、これら外れ値も必ず除去すべきとは限りません。上記のようなミスなどによるものでない場合、外れ値が発生した原因自体が重要なケースもあります。そのため、個別にデータを確認し、その原因を考察してから、処理対策を考える姿勢も重要です。
最後に
今回は、データ分析における手法の一つとして、相関分析について取り上げました。
実際に相関分析を進める上では、Excel等を用いて散布図を描いたり相関係数を算出したりするところまで必要になりますが、まずはツールや数字を操作する前に、これまでに述べたようなポイントに注意して、ストーリー感を意識した上で、分析を進めていくと良いでしょう。