フィッシャー情報量 – Wikipedia

フィッシャー情報量(フィッシャーじょうほうりょう、英: Fisher information

IX(θ){displaystyle {mathcal {I}}_{X}(theta )}

は、統計学や情報理論で登場する量で、確率変数

X{displaystyle X}

が母数

θ{displaystyle theta }

に関して持つ「情報」の量を表す。統計学者のロナルド・フィッシャーに因んで名付けられた。

θ{displaystyle theta }

を母数とし、

X{displaystyle X}

を確率密度関数が

f(x|θ){displaystyle f(x|theta )}

で表される確率変数とする。
このとき、

θ{displaystyle theta }

尤度関数

L(θ|x){displaystyle L(theta |x)}

L(θ|x)=f(x|θ){displaystyle L(theta |x)=f(x|theta ),}

で定義され、スコア関数は対数尤度関数の微分

V(x;θ)=∂∂θln⁡L(θ|x){displaystyle V(x;theta )={frac {partial }{partial theta }}ln L(theta |x)}

により定義される。このとき、フィッシャー情報量

IX(θ){displaystyle {mathcal {I}}_{X}(theta )}

はスコア関数の2次のモーメント

IX(θ)=E[V(x;θ)2|θ]=E[(∂∂θln⁡L(θ|x))2|θ]{displaystyle {begin{aligned}{mathcal {I}}_{X}(theta )&=mathrm {E} [V(x;theta )^{2}|theta ]\&=mathrm {E} left[left.{biggl (}{frac {partial }{partial theta }}ln L(theta |x){biggr )}^{2}right|,theta right]end{aligned}}}

により定義される。紛れがなければ添え字の

X{displaystyle X}

を省略し、

I(θ){displaystyle {mathcal {I}}(theta )}

とも表記する。なお、

X{displaystyle X}

に関しては期待値が取られている為、フィッシャー情報量は

X{displaystyle X}

の従う確率密度関数

f(x|θ){displaystyle f(x|theta )}

のみに依存して決まる。よって

X{displaystyle X}

Y{displaystyle Y}

が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。

スコア関数は

E[V(x;θ)|θ]=0{displaystyle mathrm {E} [V(x;theta )|theta ]=0,}

を満たす事が知られているので、

IX(θ)=var(V(x;θ)){displaystyle {mathcal {I}}_{X}(theta )=mathrm {var} (V(x;theta ))}

が成立する。ここで

var{displaystyle mathrm {var} }

は分散を表す。

また

ln⁡f(x|θ){displaystyle ln f(x|theta )}

が二回微分可能で以下の標準化条件

∫∂2∂θ2f(X;θ)dx=0,{displaystyle int {frac {partial ^{2}}{partial theta ^{2}}}f(X;theta ),dx=0,}

を満たすなら、フィッシャー情報量は以下のように書き換えることができる。

I(θ)=−E[∂2∂θ2ln⁡f(X;θ)].{displaystyle {mathcal {I}}(theta )=-mathrm {E} left[{frac {partial ^{2}}{partial theta ^{2}}}ln f(X;theta )right].}

このとき、フィッシャー情報量は、

f{displaystyle f}

の対数の

θ{displaystyle theta }

についての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、

θ{displaystyle theta }

についての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。

フィッシャー情報行列[編集]

パラメータがN個の場合、つまり、

θ{displaystyle mathbf {theta } }

N次のベクトル

θ=(θ1,θ2,⋯,θN)T{displaystyle theta =(theta _{1},theta _{2},cdots ,theta _{N})^{T}}

であるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。

I(θ)=E[∂∂θln⁡f(X;θ)∂∂θTln⁡f(X;θ)].{displaystyle {mathcal {I}}(mathbf {theta } )=mathrm {E} left[{frac {partial }{partial mathbf {theta } }}ln f(X;theta ){frac {partial }{partial mathbf {theta } ^{T}}}ln f(X;theta )right].}

これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。

(I(θ))i,j=E[∂∂θiln⁡f(X;θ)∂∂θjln⁡f(X;θ)].{displaystyle {left({mathcal {I}}left(theta right)right)}_{i,j}=mathrm {E} left[{frac {partial }{partial theta _{i}}}ln f(X;theta ){frac {partial }{partial theta _{j}}}ln f(X;theta )right].}

フィッシャー情報行列は、NxN の正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。

p{displaystyle p}

個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、

θi{displaystyle theta _{i}}

θj{displaystyle theta _{j}}

は直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。

基本的性質[編集]

フィッシャー情報量は

0≤I(θ)<∞{displaystyle 0leq {mathcal {I}}(theta )

を満たす。

また

X{displaystyle X}

Y{displaystyle Y}

が独立な確率変数であれば、

IX,Y(θ)=IX(θ)+IY(θ){displaystyle {mathcal {I}}_{X,Y}(theta )={mathcal {I}}_{X}(theta )+{mathcal {I}}_{Y}(theta )}

 (フィッシャー情報量の加算性)

が成立する。すなわち、「

(X,Y){displaystyle (X,Y)}

θ{displaystyle theta }

に関して持つ情報の量」は

X{displaystyle X}

θ{displaystyle theta }

に関して持つ情報の量」と

Y{displaystyle Y}

θ{displaystyle theta }

に関して持つ情報の量」の和である。

よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。

Cramér–Raoの不等式[編集]

θ{displaystyle theta }

の任意の不偏推定量

θ^{displaystyle {hat {theta }}}

は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす:

var(θ^)≥1I(θ){displaystyle mathrm {var} ({hat {theta }})geq {frac {1}{{mathcal {I}}(theta )}},}

この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数

X{displaystyle X}

への依存関係を明示すると、

IX(θ)≥1var(θ^(X)){displaystyle {mathcal {I}}_{X}(theta )geq {frac {1}{mathrm {var} ({hat {theta }}(X))}},}

となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数

θ{displaystyle theta }

に近い値を出しやすいので、「よい」推定量であると言える。

θ{displaystyle theta }

を「推定する」という行為は、「よい」推定量

θ^(X){displaystyle {hat {theta }}(X)}

を使って

θ{displaystyle theta }

を可能な限り復元する行為に他ならないが、上の不等式は

X{displaystyle X}

から算出されたどんな不偏推定量であっても

X{displaystyle X}

が元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。

十分統計量との関係[編集]

一般に

T=t(X){displaystyle T=t(X)}

が統計量であるならば、

IT(θ)≤IX(θ){displaystyle {mathcal {I}}_{T}(theta )leq {mathcal {I}}_{X}(theta )}

が成立する。すなわち、「

X{displaystyle X}

から計算される値

T=t(X){displaystyle T=t(X)}

が持っている

θ{displaystyle theta }

の情報」は「

X{displaystyle X}

自身が持っている

θ{displaystyle theta }

の情報」よりも大きくない。

上式で等号成立する必要十分条件は

T{displaystyle T}

が十分統計量であること。
これは

T(X){displaystyle T(X)}

θ{displaystyle theta }

に対して十分統計量であるならば、ある関数

f{displaystyle f}

および

g{displaystyle g}

が存在して

f(X;θ)=g(T(X),θ)h(X){displaystyle f(X;theta )=g(T(X),theta )h(X)}

が成り立つ(ネイマン分解基準)事を使って証明できる。

カルバック・ライブラー情報量との関係[編集]

Xθ{displaystyle X_{theta }}

を母数

θ→=(θ1,…,θn){displaystyle {vec {theta }}=(theta _{1},ldots ,theta _{n})}

を持つ確率変数とすると、カルバック・ライブラー情報量

DKL{displaystyle D_{mathrm {KL} }}

とフィッシャー情報行列は以下の関係が成り立つ。

DKL(Xθ→+h→‖Xθ→)=th→⋅I(θ→)⋅h→2+o(|h→|2){displaystyle D_{mathrm {KL} }(X_{{vec {theta }}+{vec {h}}}|X_{vec {theta }})={frac {{}^{t}{vec {h}}cdot {mathcal {I}}({vec {theta }})cdot {vec {h}}}{2}}+o(|{vec {h}}|^{2})}

すなわちフィッシャー情報行列はカルバック・ライブラー情報量をテイラー展開したときの2次の項として登場する。(0次、1次の項は0)。

ベルヌーイ分布[編集]

ベルヌーイ分布は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である(ベルヌーイ試行)。例えば、表が出る確率がθ、裏が出る確率が1 – θであるような、コインの投げ上げを考えれば良い。

n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、

∂2∂θ2ln⁡f(A;θ)=∂2∂θ2ln⁡[θA(1−θ)B(A+B)!A!B!]=∂2∂θ2[Aln⁡(θ)+Bln⁡(1−θ)]=−Aθ2−B(1−θ)2{displaystyle {begin{aligned}{frac {partial ^{2}}{partial theta ^{2}}}ln {f(A;theta )}&={frac {partial ^{2}}{partial theta ^{2}}}ln left[theta ^{A}(1-theta )^{B}{frac {(A+B)!}{A!B!}}right]\&={frac {partial ^{2}}{partial theta ^{2}}}left[Aln(theta )+Bln(1-theta )right]\&=-{frac {A}{theta ^{2}}}-{frac {B}{(1-theta )^{2}}}end{aligned}}}

であるから、

I(θ)=−E[∂2∂θ2ln⁡(f(A;θ))]=nθθ2+n(1−θ)(1−θ)2{displaystyle {begin{aligned}{mathcal {I}}(theta )&=-mathrm {E} left[{frac {partial ^{2}}{partial theta ^{2}}}ln(f(A;theta ))right]\&={frac {ntheta }{theta ^{2}}}+{frac {n(1-theta )}{(1-theta )^{2}}}end{aligned}}}

となる。但し、Aの期待値はn θB の期待値はn (1-θ )であることを用いた 。

つまり、最終的な結果は、

I(θ)=nθ(1−θ),{displaystyle {mathcal {I}}(theta )={frac {n}{theta (1-theta )}},}

である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。

ガンマ分布[編集]

形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は

I(α,β)=(ψ′(α)1β1βαβ2){displaystyle {mathcal {I}}(alpha ,beta )={begin{pmatrix}psi ‘(alpha )&{frac {1}{beta }}\{frac {1}{beta }}&{frac {alpha }{beta ^{2}}}end{pmatrix}}}

で与えられる。但し、ψ(α)はディガンマ関数を表す。

正規分布[編集]

平均μ、分散σ2の正規分布N(μ, σ2)において、フィッシャー情報行列は

I(μ,σ2)=(1σ20012(σ2)2){displaystyle {mathcal {I}}(mu ,sigma ^{2})={begin{pmatrix}{frac {1}{sigma ^{2}}}&0\0&{frac {1}{2(sigma ^{2})^{2}}}end{pmatrix}}}

で与えられる。

多変量正規分布[編集]

N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。

μ(θ)=(μ1(θ),μ2(θ),⋯,μN(θ)),{displaystyle mu (theta )={begin{pmatrix}mu _{1}(theta ),mu _{2}(theta ),cdots ,mu _{N}(theta )end{pmatrix}},}

であるとし、

Σ(θ){displaystyle Sigma (theta )}

μ(θ){displaystyle mu (theta )}

の共分散行列であるとするなら、

X{displaystyle X}

N(μ(θ),Σ(θ)){displaystyle N(mu (theta ),Sigma (theta ))}

のフィッシャー情報行列、

Im,n(0≤;m,n<N){displaystyle {mathcal {I}}_{m,n},(0leq ;m,n

の成分は以下の式で与えられる。

Im,n=∂μ∂θmΣ−1∂μ⊤∂θn+12tr(Σ−1∂Σ∂θmΣ−1∂Σ∂θn),{displaystyle {mathcal {I}}_{m,n}={frac {partial mu }{partial theta _{m}}}Sigma ^{-1}{frac {partial mu ^{top }}{partial theta _{n}}}+{frac {1}{2}}mathrm {tr} left(Sigma ^{-1}{frac {partial Sigma }{partial theta _{m}}}Sigma ^{-1}{frac {partial Sigma }{partial theta _{n}}}right),}

ここで、

(..)⊤{displaystyle (..)^{top }}

はベクトルの転置を示す記号であり、

tr(..){displaystyle mathrm {tr} (..)}

は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。

∂μ∂θm=(∂μ1∂θm,∂μ2∂θm,⋯,∂μN∂θm){displaystyle {frac {partial mu }{partial theta _{m}}}={begin{pmatrix}{frac {partial mu _{1}}{partial theta _{m}}},&{frac {partial mu _{2}}{partial theta _{m}}},&cdots ,&{frac {partial mu _{N}}{partial theta _{m}}}end{pmatrix}}}

∂Σ∂θm=(∂Σ1,1∂θm∂Σ1,2∂θm⋯∂Σ1,N∂θm∂Σ2,1∂θm∂Σ2,2∂θm⋯∂Σ2,N∂θm⋮⋮⋱⋮∂ΣN,1∂θm∂ΣN,2∂θm⋯∂ΣN,N∂θm).{displaystyle {frac {partial Sigma }{partial theta _{m}}}={begin{pmatrix}{frac {partial Sigma _{1,1}}{partial theta _{m}}}&{frac {partial Sigma _{1,2}}{partial theta _{m}}}&cdots &{frac {partial Sigma _{1,N}}{partial theta _{m}}}\\{frac {partial Sigma _{2,1}}{partial theta _{m}}}&{frac {partial Sigma _{2,2}}{partial theta _{m}}}&cdots &{frac {partial Sigma _{2,N}}{partial theta _{m}}}\\vdots &vdots &ddots &vdots \\{frac {partial Sigma _{N,1}}{partial theta _{m}}}&{frac {partial Sigma _{N,2}}{partial theta _{m}}}&cdots &{frac {partial Sigma _{N,N}}{partial theta _{m}}}end{pmatrix}}.}

関連項目[編集]