フィッシャー情報量 – Wikipedia
|
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。2016年10月)
( |
フィッシャー情報量(フィッシャーじょうほうりょう、英: Fisher information
)
X{displaystyle X} は、統計学や情報理論で登場する量で、確率変数
θ{displaystyle theta } が母数
に関して持つ「情報」の量を表す。統計学者のロナルド・フィッシャーに因んで名付けられた。
θ{displaystyle theta }
X{displaystyle X} を母数とし、
f(x|θ){displaystyle f(x|theta )} を確率密度関数が
このとき、
L(θ|x){displaystyle L(theta |x)} の尤度関数
は
- L(θ|x)=f(x|θ){displaystyle L(theta |x)=f(x|theta ),}
で定義され、スコア関数は対数尤度関数の微分
- V(x;θ)=∂∂θlnL(θ|x){displaystyle V(x;theta )={frac {partial }{partial theta }}ln L(theta |x)}
により定義される。このとき、フィッシャー情報量
IX(θ){displaystyle {mathcal {I}}_{X}(theta )}はスコア関数の2次のモーメント
- IX(θ)=E[V(x;θ)2|θ]=E[(∂∂θlnL(θ|x))2|θ]{displaystyle {begin{aligned}{mathcal {I}}_{X}(theta )&=mathrm {E} [V(x;theta )^{2}|theta ]\&=mathrm {E} left[left.{biggl (}{frac {partial }{partial theta }}ln L(theta |x){biggr )}^{2}right|,theta right]end{aligned}}}
により定義される。紛れがなければ添え字の
X{displaystyle X}I(θ){displaystyle {mathcal {I}}(theta )} を省略し、
X{displaystyle X} とも表記する。なお、
X{displaystyle X} に関しては期待値が取られている為、フィッシャー情報量は
f(x|θ){displaystyle f(x|theta )} の従う確率密度関数
X{displaystyle X} のみに依存して決まる。よって
Y{displaystyle Y} と
が同じ確率密度関数を持てば、それらのフィッシャー情報量は同一である。
スコア関数は
- E[V(x;θ)|θ]=0{displaystyle mathrm {E} [V(x;theta )|theta ]=0,}
を満たす事が知られているので、
- IX(θ)=var(V(x;θ)){displaystyle {mathcal {I}}_{X}(theta )=mathrm {var} (V(x;theta ))}
が成立する。ここで
var{displaystyle mathrm {var} }は分散を表す。
また
lnf(x|θ){displaystyle ln f(x|theta )}が二回微分可能で以下の標準化条件
- ∫∂2∂θ2f(X;θ)dx=0,{displaystyle int {frac {partial ^{2}}{partial theta ^{2}}}f(X;theta ),dx=0,}
を満たすなら、フィッシャー情報量は以下のように書き換えることができる。
- I(θ)=−E[∂2∂θ2lnf(X;θ)].{displaystyle {mathcal {I}}(theta )=-mathrm {E} left[{frac {partial ^{2}}{partial theta ^{2}}}ln f(X;theta )right].}
このとき、フィッシャー情報量は、
f{displaystyle f}θ{displaystyle theta } の対数の
θ{displaystyle theta } についての2次の導関数にマイナスを付けたものになる。フィッシャー情報量は、
についての最尤推定量付近のサポート曲線の「鋭さ」としてもとらえることができる。例えば、「鈍い」(つまり、浅い最大値を持つ)サポート曲線は、2次の導関数として小さな値を持つため、フィッシャー情報量としても小さな値を持つことになるし、鋭いサポート曲線は、2次導関数として大きな値を持つため、フィッシャー情報量も大きな値になる。
フィッシャー情報行列[編集]
パラメータがN個の場合、つまり、
θ{displaystyle mathbf {theta } }θ=(θ1,θ2,⋯,θN)T{displaystyle theta =(theta _{1},theta _{2},cdots ,theta _{N})^{T}} がN次のベクトル
であるとき、フィッシャー情報量は、以下で定義されるNxN 行列に拡張される。
- I(θ)=E[∂∂θlnf(X;θ)∂∂θTlnf(X;θ)].{displaystyle {mathcal {I}}(mathbf {theta } )=mathrm {E} left[{frac {partial }{partial mathbf {theta } }}ln f(X;theta ){frac {partial }{partial mathbf {theta } ^{T}}}ln f(X;theta )right].}
これを、フィッシャー情報行列(FIM, Fisher information matrix)と呼ぶ。成分表示すれば、以下のようになる。
- (I(θ))i,j=E[∂∂θilnf(X;θ)∂∂θjlnf(X;θ)].{displaystyle {left({mathcal {I}}left(theta right)right)}_{i,j}=mathrm {E} left[{frac {partial }{partial theta _{i}}}ln f(X;theta ){frac {partial }{partial theta _{j}}}ln f(X;theta )right].}
フィッシャー情報行列は、NxN の正定値対称行列であり、その成分は、N次のパラメータ空間からなるフィッシャー情報距離を定義する。
p{displaystyle p}
θi{displaystyle theta _{i}} 個のパラメータによる尤度があるとき、フィッシャー情報行列のi番目の行と、j番目の列の要素がゼロであるなら、2つのパラメータ、
θj{displaystyle theta _{j}} と
は直交である。パラメータが直交であるとき、最尤推定量が独立になり、別々に計算することができるため、扱いやすくなる。このため、研究者が何らかの研究上の問題を扱うとき、その問題に関わる確率密度が直交になるようにパラメーター化する方法を探すのに一定の時間を費やすのが普通である。
基本的性質[編集]
フィッシャー情報量は
- 0≤I(θ)<∞{displaystyle 0leq {mathcal {I}}(theta )
を満たす。
また
X{displaystyle X}Y{displaystyle Y} ,
が独立な確率変数であれば、
- IX,Y(θ)=IX(θ)+IY(θ){displaystyle {mathcal {I}}_{X,Y}(theta )={mathcal {I}}_{X}(theta )+{mathcal {I}}_{Y}(theta )} (フィッシャー情報量の加算性)
が成立する。すなわち、「
(X,Y){displaystyle (X,Y)}θ{displaystyle theta } が
「
θ{displaystyle theta } が
「
θ{displaystyle theta } が
に関して持つ情報の量」の和である。
よって特に、無作為に取られたn個の標本が持つフィッシャー情報量は、1つの標本が持つフィッシャー情報量のn倍である(観察が独立である場合)。
Cramér–Raoの不等式[編集]
θ{displaystyle theta }
θ^{displaystyle {hat {theta }}} の任意の不偏推定量
は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす:
- var(θ^)≥1I(θ){displaystyle mathrm {var} ({hat {theta }})geq {frac {1}{{mathcal {I}}(theta )}},}
この不等式の直観的意味を説明する為、両辺の逆数を取った上で確率変数
X{displaystyle X}への依存関係を明示すると、
- IX(θ)≥1var(θ^(X)){displaystyle {mathcal {I}}_{X}(theta )geq {frac {1}{mathrm {var} ({hat {theta }}(X))}},}
となる。一般に推定量はその分散が小さいほど(よって分散の逆数が大きいほど)母数
θ{displaystyle theta }θ{displaystyle theta } に近い値を出しやすいので、「よい」推定量であると言える。
θ^(X){displaystyle {hat {theta }}(X)} を「推定する」という行為は、「よい」推定量
θ{displaystyle theta } を使って
X{displaystyle X} を可能な限り復元する行為に他ならないが、上の不等式は
X{displaystyle X} から算出されたどんな不偏推定量であっても
が元々持っている「情報」以上に「よい」推定量にはなりえない事を意味する。
十分統計量との関係[編集]
一般に
T=t(X){displaystyle T=t(X)}が統計量であるならば、
- IT(θ)≤IX(θ){displaystyle {mathcal {I}}_{T}(theta )leq {mathcal {I}}_{X}(theta )}
が成立する。すなわち、「
X{displaystyle X}T=t(X){displaystyle T=t(X)} から計算される値
θ{displaystyle theta } が持っている
X{displaystyle X} の情報」は「
θ{displaystyle theta } 自身が持っている
の情報」よりも大きくない。
上式で等号成立する必要十分条件は
T{displaystyle T}
これは
θ{displaystyle theta } が
f{displaystyle f} に対して十分統計量であるならば、ある関数
g{displaystyle g} および
が存在して
- f(X;θ)=g(T(X),θ)h(X){displaystyle f(X;theta )=g(T(X),theta )h(X)}
が成り立つ(ネイマン分解基準)事を使って証明できる。
カルバック・ライブラー情報量との関係[編集]
Xθ{displaystyle X_{theta }}
θ→=(θ1,…,θn){displaystyle {vec {theta }}=(theta _{1},ldots ,theta _{n})} を母数
DKL{displaystyle D_{mathrm {KL} }} を持つ確率変数とすると、カルバック・ライブラー情報量
とフィッシャー情報行列は以下の関係が成り立つ。
- DKL(Xθ→+h→‖Xθ→)=th→⋅I(θ→)⋅h→2+o(|h→|2){displaystyle D_{mathrm {KL} }(X_{{vec {theta }}+{vec {h}}}|X_{vec {theta }})={frac {{}^{t}{vec {h}}cdot {mathcal {I}}({vec {theta }})cdot {vec {h}}}{2}}+o(|{vec {h}}|^{2})}
すなわちフィッシャー情報行列はカルバック・ライブラー情報量をテイラー展開したときの2次の項として登場する。(0次、1次の項は0)。
ベルヌーイ分布[編集]
ベルヌーイ分布は、確率θ でもたらされる「成功」と、それ以外の場合に起きる「失敗」という2つの結果をもたらす確率変数が従う分布である(ベルヌーイ試行)。例えば、表が出る確率がθ、裏が出る確率が1 – θであるような、コインの投げ上げを考えれば良い。
n回の独立なベルヌーイ試行が含むフィッシャー情報量は、以下のようにして求められる。なお、以下の式中で、A は成功の回数、B は失敗の回数、n =A +B は試行の合計回数を示している。対数尤度関数の2階導関数は、
- ∂2∂θ2lnf(A;θ)=∂2∂θ2ln[θA(1−θ)B(A+B)!A!B!]=∂2∂θ2[Aln(θ)+Bln(1−θ)]=−Aθ2−B(1−θ)2{displaystyle {begin{aligned}{frac {partial ^{2}}{partial theta ^{2}}}ln {f(A;theta )}&={frac {partial ^{2}}{partial theta ^{2}}}ln left[theta ^{A}(1-theta )^{B}{frac {(A+B)!}{A!B!}}right]\&={frac {partial ^{2}}{partial theta ^{2}}}left[Aln(theta )+Bln(1-theta )right]\&=-{frac {A}{theta ^{2}}}-{frac {B}{(1-theta )^{2}}}end{aligned}}}
であるから、
- I(θ)=−E[∂2∂θ2ln(f(A;θ))]=nθθ2+n(1−θ)(1−θ)2{displaystyle {begin{aligned}{mathcal {I}}(theta )&=-mathrm {E} left[{frac {partial ^{2}}{partial theta ^{2}}}ln(f(A;theta ))right]\&={frac {ntheta }{theta ^{2}}}+{frac {n(1-theta )}{(1-theta )^{2}}}end{aligned}}}
となる。但し、Aの期待値はn θ、B の期待値はn (1-θ )であることを用いた 。
つまり、最終的な結果は、
- I(θ)=nθ(1−θ),{displaystyle {mathcal {I}}(theta )={frac {n}{theta (1-theta )}},}
である。これは、n回のベルヌーイ試行の成功数の平均の分散の逆数に等しい。
ガンマ分布[編集]
形状パラメータα、尺度パラメータβのガンマ分布において、フィッシャー情報行列は
- I(α,β)=(ψ′(α)1β1βαβ2){displaystyle {mathcal {I}}(alpha ,beta )={begin{pmatrix}psi ‘(alpha )&{frac {1}{beta }}\{frac {1}{beta }}&{frac {alpha }{beta ^{2}}}end{pmatrix}}}
で与えられる。但し、ψ(α)はディガンマ関数を表す。
正規分布[編集]
平均μ、分散σ2の正規分布N(μ, σ2)において、フィッシャー情報行列は
- I(μ,σ2)=(1σ20012(σ2)2){displaystyle {mathcal {I}}(mu ,sigma ^{2})={begin{pmatrix}{frac {1}{sigma ^{2}}}&0\0&{frac {1}{2(sigma ^{2})^{2}}}end{pmatrix}}}
で与えられる。
多変量正規分布[編集]
N個の変数の多変量正規分布についてのフィッシャー情報行列は、特別な形式を持つ。
- μ(θ)=(μ1(θ),μ2(θ),⋯,μN(θ)),{displaystyle mu (theta )={begin{pmatrix}mu _{1}(theta ),mu _{2}(theta ),cdots ,mu _{N}(theta )end{pmatrix}},}
であるとし、
Σ(θ){displaystyle Sigma (theta )}μ(θ){displaystyle mu (theta )} が
の共分散行列であるとするなら、
X{displaystyle X}
N(μ(θ),Σ(θ)){displaystyle N(mu (theta ),Sigma (theta ))} ~
Im,n(0≤;m,n<N){displaystyle {mathcal {I}}_{m,n},(0leq ;m,n のフィッシャー情報行列、
の成分は以下の式で与えられる。
- Im,n=∂μ∂θmΣ−1∂μ⊤∂θn+12tr(Σ−1∂Σ∂θmΣ−1∂Σ∂θn),{displaystyle {mathcal {I}}_{m,n}={frac {partial mu }{partial theta _{m}}}Sigma ^{-1}{frac {partial mu ^{top }}{partial theta _{n}}}+{frac {1}{2}}mathrm {tr} left(Sigma ^{-1}{frac {partial Sigma }{partial theta _{m}}}Sigma ^{-1}{frac {partial Sigma }{partial theta _{n}}}right),}
ここで、
(..)⊤{displaystyle (..)^{top }}tr(..){displaystyle mathrm {tr} (..)} はベクトルの転置を示す記号であり、
は、平方行列のトレースを表す記号である。また、微分は以下のように定義される。
- ∂μ∂θm=(∂μ1∂θm,∂μ2∂θm,⋯,∂μN∂θm){displaystyle {frac {partial mu }{partial theta _{m}}}={begin{pmatrix}{frac {partial mu _{1}}{partial theta _{m}}},&{frac {partial mu _{2}}{partial theta _{m}}},&cdots ,&{frac {partial mu _{N}}{partial theta _{m}}}end{pmatrix}}}
- ∂Σ∂θm=(∂Σ1,1∂θm∂Σ1,2∂θm⋯∂Σ1,N∂θm∂Σ2,1∂θm∂Σ2,2∂θm⋯∂Σ2,N∂θm⋮⋮⋱⋮∂ΣN,1∂θm∂ΣN,2∂θm⋯∂ΣN,N∂θm).{displaystyle {frac {partial Sigma }{partial theta _{m}}}={begin{pmatrix}{frac {partial Sigma _{1,1}}{partial theta _{m}}}&{frac {partial Sigma _{1,2}}{partial theta _{m}}}&cdots &{frac {partial Sigma _{1,N}}{partial theta _{m}}}\\{frac {partial Sigma _{2,1}}{partial theta _{m}}}&{frac {partial Sigma _{2,2}}{partial theta _{m}}}&cdots &{frac {partial Sigma _{2,N}}{partial theta _{m}}}\\vdots &vdots &ddots &vdots \\{frac {partial Sigma _{N,1}}{partial theta _{m}}}&{frac {partial Sigma _{N,2}}{partial theta _{m}}}&cdots &{frac {partial Sigma _{N,N}}{partial theta _{m}}}end{pmatrix}}.}
Recent Comments