今日は、統計学等でよく使用される「相関係数」の計算方法と意味について説明した後で、実際にある統計を使って相関係数を使った応用例を示したいと思います。
相関係数とは、2つの事柄の類似性を数値化したものです。通常、相関係数とは1.0から-1.0の値を取り、1.0に近ければ正の相関が強い(2つの事柄が非常に似ている)、0に近ければ無相関(2つの事柄に関連性が無い)、-1.0に近ければ負の相関が強い(2つの事柄がまったく逆)という事になるのですが、文章だとよくわからないので以下の例で考えて見ましょう。
ある高校で、生徒5名(A,B,C,D,E)に対して国語、英語、数学のテストを行いました。以下は、A〜Eの点数から平均点を引いたもの(平均差点)である。
A(12,-8,7)
B(-20,26,-5)
C(8,10,12)
D(-4,-22,-17)
E(4,-6,3)
この5人の平均差点の分布を見る限り、
@AとEは、総得点こそ違うものの、点数の取り方が似ている。
→つまり、Aの平均差点とEの平均差点には正の相関がある。
AAとBは、総得点こそ違うものの、平均差点の負号が逆になっている。
→つまり、Aの平均差点とEの平均差点には負の相関がある。
と言えそうです。ちなみに↑の5人の平均差点は、一種の3次元ベクトルと見ることができるのだけど、この3次元ベクトルが「似ているか」「似ていないか」をどう数値化できるのでしょうか?実は、高校数学で習った三角関数のcos(コサイン)が、類似度を数値化する一つの尺度になり得るのです。

↑がコサイン関数です。ここでは0°≦θ<360°の時を考えていますが、この図を見て「ピン」と来る人もいるかもしれませんね。そうです、コサイン関数は0°の時に最大値である1をとって、180°の時に最小値である-1を取ります。
すなわち、何か二つのベクトルのなす角度をθとすると、θが0°に近い(正の相関が非常に強い)ときにcosθが最大値1をとり、θが180°に近い(負の相関が非常に強い)ときにcosθが最小値-1をとり、θが90°や270°に近い(相関が非常に弱い)ときにcosθは0の値をとるために、この2つのベクトルの類似度をコサイン関数で数値化できるわけです。そして、冒頭に出てきた「相関係数」とは、実はまさにこのコサイン関数の事だったりします。
具体的に、上記のA〜Eの平均差点で考えてみましょう。ちなみに、2本のベクトルのなす角度のコサイン値を導出するには以下の計算式が必要になります。具体例として、Aの平均差点ベクトル(12,-8,7)とBの平均差点ベクトル(-20,26,-5)のコサイン値の計算も↓に出しておきましょう。

ここではとりあえず、Aの平均差点ベクトル(12,-8,7)を1本目ベクトルとします。そして、それぞれ5人の平均差点ベクトルを2本目のベクトルとして、これらの2本のベクトルのコサイン値を出すと以下のようになります。
AとAのコサイン値…1.00
AとBのコサイン値…-0.91
AとCのコサイン値…0.36
AとDのコサイン値…0.02
AとEのコサイン値…0.93
AとAのコサイン値が1.00なのは、同一ベクトルのなす角度が0°になる事から当然ですね。なお、コサイン値は「2本のベクトルの大きさ」に依存せず「2本のベクトルのなす角度(2本のベクトルの向いている方向)」のみに依存します。よって、仮に2本のベクトルが(1,2,3)と(2,4,6)だったとしても、この2本のベクトルは「大きさが違うだけ」で「なす角度が0°」である事から、コサイン値は1.00となるわけです。
そしてAとBのコサイン値が-0.91(負の相関が非常に強い)である事は、A(12,-8,7)、B(-20,26,-5)で二つのベクトルの向き(負号)がほぼ逆向きである事からもわかりますね。
次に、AとDのコサイン値が0.02(ほぼ無相関)なので、A(12,-8,7)、
D(-4,-22,-17)のなす角度が直交(90°か270°)である事がわかります。

という事で、「コサイン値(相関係数)」と「2本のベクトルのなす角度」を整理すると、↑のようなイメージになります。とりあえず、2本のベクトルの類似度をコサイン値(相関係数)で数値化できる事を説明しました。
それでは、次に↓のニュースについて、このコサイン値(相関係数)を応用して数字上の突っ込んだ分析をしていみます。
【諸外国の人たちがどんな組織・制度に信頼を寄せているかをグラフ化してみる(上)……日本編】
http://www.garbagenews.net/archives/1107428.html【諸外国の人たちがどんな組織・制度に信頼を寄せているかをグラフ化してみる(下)……諸外国編】
http://www.garbagenews.net/archives/1107433.html↑のニュースは、いろいろな国の人たちが「裁判所」「新聞・雑誌」等々の15の組織/制度にどの程度信頼を寄せているかというアンケートを取った結果が掲載されています。これらの結果を切り出して、↓の表にまとめてみました。

そうです、↑の表はまさに各国の結果に対する15次元ベクトルとなっているので、ここに先ほどの相関係数を当てはめてみようという事です。さすがに、7カ国15次元ベクトルともなると、表を目で見ただけではわかりにくいので、こういう時に相関係数があると直感的に似ているか似ていないかが把握できるわけです。
という事で、まずは米国を1本目のベクトルとして、それぞれ7カ国のベクトルとの相関係数を出すと、以下のようになります。
米国・日本……0.28
米国・オーストラリア……0.90
米国・米国……1.00
米国・英国……0.88
米国・イタリア……0.89
米国・フランス……0.83
米国・中国……-0.22
ふむ、米国を基準にした場合、やはり欧州系の国とは相関係数が非常に高いので、彼らの価値観の近い事がわかります。一方、日本と中国の相関係数は低いので、欧米系の国とは価値観の違うことがわかります。
ここで注意しなければいけないのは、これはあくまで「米国」との相関係数であるので、この結果だけで「日本」と「中国」の相関係数が高いとは言えません。実際に、日本・中国の相関係数を計算すると、-0.02となるので、米国・中国以上に、日本・中国は無相関というわけです。(やはり、日本と中国は価値観を共有できないという事なのでしょうか?(笑))
このように、多次元ベクトルを扱いだすと
1.AとBの相関係数が低い
2.AとCの相関係数が低い
3.よって、BとCは相関係数が高いはずだ
というような推論が成り立たない事がわかります。
ここでは全ての組み合わせで相関係数を出しませんが、今の場合で全ての組み合わせの相関係数から、価値観の近いグループ分けをすると、
@オーストラリア、米国、英国、イタリア、フランス
A日本
B中国
と3つのグループに分けるのが自然でしょう。このように、相関係数は人間の頭では手に負えなくなる多次元ベクトルを整理するとき、非常に威力を発揮します。しかも、この作業は相関係数だけでグループ分けできるので、自動化処理が可能だったりします。
俺が高校生の当時、「ベクトル」や「三角関数」はそれぞれまったく別個の数学分野として習っていたので、まさか今日の例のように、「統計」で二つがつながるとは思いませんでした。ところが、実はこの手の「まさかこの分野とあの分野がこんなところでつながるとは」みたいな話は、大学の数学においては山ほどあったりします。
また機会があったら、具体例と共にそういう話を書こうかと思います。
今日のエントリーで、「なるほど」「ふむふむ」「面白い」などと思ってくれた方で、一票を頂ける方は是非ともお願いします。↓