変量を変換したときに、共分散と相関係数がどのように変化するか考えていきます。まず具体的な問題を先に解いてみて、最後に一般的な場合を考えてみます。基本的な考え方は、期待値・分散・標準偏差の変量変換とほとんど変わりません。
(問題)
東京とN市の365日の各日の最高気温のデータについて考える。
N市では温度の単位として摂氏(℃)のほかに華氏(℉)も使われている。華氏(℉)での温度は、摂氏(℃)での温度を\(\displaystyle\frac{9}{5}\)倍し、\(32\)を加えると得られる。
(ア)したがって、N市の最高気温について摂氏での分散を\(X\),華氏での分散を\(Y\)とすると、\(\displaystyle\frac{Y}{X}=\)( )である。
(イ)東京(摂氏)とN市(摂氏)の共分散を\(Z\)、東京(摂氏)とN市(華氏)の共分散を\(W\)とすると、\(\displaystyle\frac{W}{Z}=\)( )である。
(ウ)東京(摂氏)とN市(摂氏)の相関係数を\(U\)、東京(摂氏)とN市(華氏)の相関係数を\(V\)とすると、\(\displaystyle\frac{V}{U}=\)( )である。
(イ)(ウ)は2変量において一方の変量の変換(N市での変換)で共分散と相関係数がどう変化するかという問題です。定義より式変形して求めてみます。
(ア)
N市の摂氏での最高気温を\(y\)、華氏での最高気温を\(v\)とすると、
\(v=\displaystyle\frac{9}{5}y+32\)・・・①
よって、\(Y=(\displaystyle\frac{9}{5})^2X\) だから
\(\displaystyle\frac{Y}{X}=\)\(\displaystyle\frac{81}{25}\)
東京の摂氏での最高気温\(x\)のデータを、\(x_1,x_2,\)\(・・・x_{365}\)、
N市の摂氏での最高気温のデータを、\(y_1,y_2,\)\(・・・y_{365}\)、
N市の華氏での最高気温のデータを、\(v_1,v_2,\)\(・・・v_{365}\)とする。
またそれぞれの平均値を、\(\bar{x}\),\(\bar{y}\),\(\bar{v}\)とする。
①より、\(\bar{v}=\displaystyle\frac{9}{5}\bar{y}+32\)
\(v_{i}-\bar{v}\)\(=\displaystyle\frac{9}{5}y_{i}+32-(\displaystyle\frac{9}{5}\bar{y}+32)\)\(=\displaystyle\frac{9}{5}(y_{i}-\bar{y})\) (\(i=1,2,・・・,365\)) だから、共分散の定義より
\(W=\displaystyle\frac{1}{365}\{(x_1-\bar{x})(v_1-\bar{v})\)\(+(x_2-\bar{x})(v_2-\bar{v})\)\(・・・+(x_{365}-\bar{x})(v_{365}-\bar{v})\}\)
\(=\displaystyle\frac{1}{365}・\displaystyle\frac{9}{5}\)\(\{(x_1-\bar{x})(y_1-\bar{y})\)\(+(x_2-\bar{x})(y_2-\bar{y})\)\(・・・+(x_{365}-\bar{x})(y_{365}-\bar{y})\}\)
\(=\displaystyle\frac{9}{5}Z\)
よって、\(\displaystyle\frac{W}{Z}\)\(=\displaystyle\frac{9}{5}\)
(ウ)
東京の摂氏での最高気温の分散を\(s_{x}^2\)とすると、(ア)(イ)より
\(V=\displaystyle\frac{W}{\sqrt{s_{x}^2}\sqrt{Y}}\)\(=\displaystyle\frac{\displaystyle\frac{9}{5}Z}{\sqrt{s_{x}^2}\sqrt{(\displaystyle\frac{9}{5})^2X}}\)\(=\displaystyle\frac{Z}{\sqrt{s_{x}^2}\sqrt{X}}\)\(=U\)
よって、\(\displaystyle\frac{V}{U}\)\(=1\)
・変量の変換(共分散・相関係数)の一般的な場合
2変量\(x,y\)の\(n\)個のデータを、\((x_1,y_1),(x_2,y_2)\)\(・・・,(x_{n},y_{n})\)とし、共分散と相関係数をそれぞれ、\(s_{xy},r_{xy}\)とします。そして新たな変量\(u,v\)を、 \(u=ax+b,\) \(v=cy+d\) (\(a,b,c,d\)は定数)と定義し、\(u_{i}=ax_{i}+b,\) \(v_{i}=cy_{i}+d\) (\(i=1,2,・・・,n\)) とします。\(x,y,u,v\)の平均値をそれぞれ\(\bar{x},\bar{y},\)\(\bar{u},\bar{v}\)とすれば、
\(\bar{u}=a\bar{x}+b,\) \(\bar{v}=c\bar{y}+d\) だから、
\(u_{i}-\bar{u}\)\(=ax_{i}+b-(a\bar{x}+b)\)\(=a(x_{i}-\bar{x})\)
\(v_{i}-\bar{v}\)\(=cy_{i}+d-(c\bar{y}+d)\)\(=c(y_{i}-\bar{y})\) となるので、\(u,v\)の共分散\(s_{uv}\)は
\(s_{uv}\)\(=\displaystyle\frac{1}{n}\{(u_{1}-\bar{u})(v_{1}-\bar{v})\)\(+(u_{2}-\bar{u})(v_{2}-\bar{v})\)\(+・・・+(u_{n}-\bar{u})(v_{n}-\bar{v})\}\)
\(=\displaystyle\frac{1}{n}・ac\)\(\{(x_{1}-\bar{x})(y_{1}-\bar{y})\)\(+(x_{2}-\bar{x})(y_{2}-\bar{y})\)\(+・・・+(x_{n}-\bar{x})(y_{n}-\bar{y})\}\)
\(=ac・s_{xy}\)
\(s_{uv}=ac・s_{xy}\)
問題に当てはめるなら、\(u=1×x+0\), \(v=\displaystyle\frac{9}{5}y+32\) なので、\(ac=1・\displaystyle\frac{9}{5}\)\(=\displaystyle\frac{9}{5}\) より、\(W=\displaystyle\frac{9}{5}Z\)となります。
\(r_{uv}=\displaystyle\frac{ac}{|ac|}r_{xy}\)
以上になります。お疲れさまでした。
ここまで見て頂きありがとうございました。