二変量正規分布の条件付き分布の解釈

シェアする

  • このエントリーをはてなブックマークに追加

こんばんは。久しぶりの投稿です。

私は統計検定準一級を受験するのですが、試験日まで二週間を切り、本日受験票も届き、本格的に勉強を始めています。

そこで、勉強した内容を適当にブログに書いていきたいと思います。自分の中で整理する目的がメインです。

本日は、大学の授業でも登場した、二変量正規分布の条件付き分布について書きます。

二変量正規分布とは

正規分布とは、以下の確率密度関数を持つ確率分布です。

正規分布は、パラメータμとσ^2を用いてN(μ, σ^2)と表現されます。

多変量正規分布の同時確率密度関数は、確率変数ベクトルXと期待値ベクトルμと分散共分散行列Σを用いて以下のように表現されます。

複雑な式ですが、上の式においてσ^2をΣにして、(x-μ)^2/σ^2を二次形式で表現したものと思えば覚えやすいと思います(逆行列が逆数に対応しています)。

Σの(i, j)要素は、X_iとX_jの共分散(i=jのときは分散)になっています。

このとき、X~N(μ, Σ)と書きます。

二変量正規分布は、多変量正規分布の2次元バージョンで、

と表されます。このとき、X=(X,Y)の同時確率密度関数は

となります。ただし、ρは相関係数σ_XY/(σ_X*σ_Y)です。(横長なので見づらいかもしれません)

この分布に対して、Xが与えられたときのYの条件付き分布を考えます。

条件付き分布とその解釈

同時確率密度関数をYで-∞から∞まで積分すると、

が得られます。すなわち、X~N(μ_X, σ_X^2)ということですね。

これを用いてYの条件付き確率密度関数を計算すると、

となります。したがって、Xが与えられたときのYの条件付き分布は、

となります。

では、これを解釈してみましょう。

XとYが独立のとき、Xの値が分かってもYに関する情報は全く得られないと考えられます。したがって、判明したXの値はYの分布(周辺分布)に影響を与えず、Yの条件付き分布はN(μ_Y,σ_Y^2)のままになると考えられます。

このとき、XとYが独立なのでρ=0です。

さて、ρが1に近いときは、XとYに強い正の相関があるので、Xの値が大きければYの値も大きくなると予想されます。

このとき、「Xの値が"大きければ"」の部分はどうやって判断すればよいでしょうか。

基本的には、平均からどれだけ大きいか、すなわちXの平均からのズレ(偏差)である(x-μ_X)を見れば良さそうですが、Xの分散が大きい場合はこの値は大きくなりやすいので、分散も考慮しなければいけません。

そこで、観測されたXの値がどれだけ「普通より大きいか・小さいか」を判断する指標として、z得点を利用します。

z得点とは、分布を平均0、分散1になるように線形変換したもので、

で与えられます。この値が、条件付き期待値の補正の基本値になります。

さて、観測されたXの値のz得点でYの期待値が補正されるのですが、相関係数ρが-1に近い場合、補正の向きが逆になります。XとYが負の相関を持つときは、Xの値が大きいとYの値は小さく、Xの値が小さいとYの値は大きくなりやすいです。

また、相関係数ρが0に近いと、Xの値がYの値に与える影響力(あるいはXの値を手掛かりにYの値を予想する情報としての能力)が小さいということになり、あまりYの期待値は補正されません。

従って、補正値(Xのz得点)にρを掛けた値を補正値とするのが良さそうです。

ただし、Yの分散も考慮しなくてはいけません。

Yの分散が小さいとき、Yはμ_Yから動きにくいので、補正を受けにくくなります。逆に、Yの分散が大きいときは、Yはちょっとの補正でグラグラ動きます。

したがって、補正値にはYの分散も掛けてやる必要がありそうですが、単位の次元の関係で、掛けるのはYの分散ではなくその平方根である標準偏差になります。

以上より、Yの期待値μ_Yは、Xの値が判明した後、以下のように補正されます。

[元の期待値]+[補正の向き・強さ]*[補正の受けやすさ]*[補正の基準値]

となっています。

また、Yの分散も補正を受けますが、これはXの観測値には無関係です。Xの観測値によって分散がかなり小さくなったりあまり変わらなかったり、ということはありません。

では何によって補正されるのかというと、相関係数です。

極端な話、ρ=±1のとき、Xの値が分かればそこからYの値が完全に特定できます(単回帰で、全部の点が回帰直線上に乗っているイメージ)。

したがって、そのとき、分散は0になります。

また、ρ=0のときはYは何も補正されないので、分散はσ_Y^2のままになります。

これらを踏まえて、分散の補正値は以下のようになります。

(1-ρ^2)は、ρ=0のとき最大値1、ρ=±1のとき最小値0を取る係数(分散の縮小率)です。これが0に近いほど(ρが±1に近いほど)、Xの値から高い精度でYの値を予測することができます。

2016/6/12:追記

先日、相関係数を用いない解釈を思いついたので書いておきます。

二変量正規分布の条件付き分布はこれでした。

ここで、相関係数ρの定義により、

で書き換えると、条件付き分布はこのようになります。

ここで、「(XとYの共分散)÷(Xの分散)」という部分が登場しますが、これは何でしょうか。

統計学の勉強を結構やっている人ならピンとくるかもしれません。これは「単回帰の傾きの最小二乗推定量」です。

データを取ったわけではないので回帰と言っていいものか微妙ですが。

単回帰モデル「y=a+bx」の係数aとbを最小二乗法で推定したとき、推定された直線は必ず点(Xの平均値, Yの平均値)を通ります。

従って、ある値xがXとして観測されたとき、「平均の点からX方向に(x-μ_X)だけ移動し、移動距離に傾きを掛けた距離だけY方向に移動」した点は、回帰直線上にあります。

この点のY座標が、Yの値の条件付き期待値になります。わかりやすい!

ただし、分散の解釈が難しいです。

傾きが大きい方が、(元々のY方向の分散が大きく、それが大胆に補正されるので)回帰直線から考えた時の分散が小さくなりやすいだろうというのは分かるのですが、傾きの二乗を引くだけでいいんですね。マイナスにはならないようです。

分散については回帰分析の分散分析などを深く勉強すると何か分かるようになるかもしれません。現在は保留です(分散の部分は相関係数ρを残しておいた方が良いかもしれません)。

(追記おわり)

以上のイメージを持っておけば、二変量正規分布の条件付き分布を割と簡単に暗記できるようになるのではないでしょうか。

では。

スポンサーリンク
レクタングル(大)
レクタングル(大)

シェアする

  • このエントリーをはてなブックマークに追加

フォローする