非線形最小二乗法 – Wikipedia
非線形最小二乗法[1][2](ひせんけいさいしょうにじょうほう、英: non-linear least squares)とは、観測データに対するカーブフィッティング手法の一つであり、最小二乗法を非線形なモデル関数に拡張したものである。非線形最小二乗法は、未知パラメータ(フィッティングパラメータ)を非線形の形で持つ関数モデルを用いて、観測データを記述すること、すなわち、データに最も当てはまりの良い[注 1]フィッティングパラメータを推定することを目的とする。
最小二乗法の主張[編集]
m{displaystyle m}
(xi,yi),(x2,y2),…,(xm,ym){displaystyle (x_{i},y_{i}),(x_{2},y_{2}),dots ,(x_{m},y_{m})} 個のデータポイント
n{displaystyle n} からなるセットに対し、
β1,β2,…,βn{displaystyle beta _{1},beta _{2},dots ,beta _{n}} 個[注 2]のフィッティングパラメータ
を持つモデル関数
をあてはめる場合を考える。ここで、それぞれのデータ
(xm,ym){displaystyle (x_{m},y_{m})}xi{displaystyle x_{i}} において、
yi{displaystyle y_{i}} は説明変数とし、
β=(β1,β2,…,βn){displaystyle {boldsymbol {beta }}=(beta _{1},beta _{2},dots ,beta _{n})} は目的変数とする。
n{displaystyle n} は、前記の
βi{displaystyle beta _{i}} 個のフィッティングパラメータ
からなる実数ベクトルとする。
また、以下で定まる残差
- ri=yi−f(xi,β)(i=1,2,…,m){displaystyle r_{i}=y_{i}-f(x_{i},{boldsymbol {beta }})qquad (i=1,2,dots ,m)} (1-2)
のそれぞれは、それぞれ、期待値
0{displaystyle 0}σi{displaystyle sigma _{i}} 、標準偏差
xi{displaystyle x_{i}} の正規分布に従うとする。また、話を簡単にするため、
それぞれは、いずれも誤差を持たないとする。
このとき、考えるべき問題は、もっとも当てはまりのよい
β{displaystyle {boldsymbol {beta }}}を見つけ出すことである。
非線形最小二乗法では、以下の残差平方和(より正確に言えば、標準化された残差平方和)
- S(β)=∑i=1mri22σi2=∑i=1m(yi−f(xi,β))22σi2{displaystyle S({boldsymbol {beta }})=sum _{i=1}^{m}{frac {r_{i}^{2}}{2{sigma }_{i}^{2}}}=sum _{i=1}^{m}{frac {({y}_{i}-f({x}_{i},{boldsymbol {beta }}))^{2}}{2{sigma }_{i}^{2}}}} (1-3)
を最小とするような
β{displaystyle {boldsymbol {beta }}}f{displaystyle f} が、もっとも当てはまりの良い
を与えるフィッティングパラメータと考える[1][2]。
この考え方は、数多ある考え方の一つに過ぎない。他の考え方としては、例えば
∑i=1n|ri|{displaystyle {sum }_{i=1}^{n}|{r}_{i}|} を最小にする考え方
∑i=1m(yi−f(xi,β))2{displaystyle sum _{i=1}^{m}(y_{i}-f(x_{i},{boldsymbol {beta }}))^{2}} を最小とする考え方(単に各データのバラつきが同じと勝手に仮定しただけ)。- データ、モデル関数共に何らかの変換(例えば対数変換)を加えたうえで、最小二乗法をする考え方。
- カイ二乗値を最小にする考え方[3]。
等があり得る。これらの考え方で”最適”となったフッティングパラメータは、最小二乗法では”最適”とは限らない[注 3]。
ただし、最小二乗法の考え方は、確率論的に尤もらしさが裏付けられている[2]。このことについては、次節にて論じる。
最小二乗法の尤もらしさ[編集]
最小二乗法は、正規分布に対応したフィッティングパラメータの最尤推定法である[4]。ここでは最小二乗法の尤もらしさについて、確率論を援用して検討する[2]。すなわち、残差
ri{displaystyle {boldsymbol {r_{i}}}}0{displaystyle {boldsymbol {0}}} それぞれが、期待値
σi{displaystyle {boldsymbol {sigma _{i}}}} 、標準偏差
ri{displaystyle r_{i}} の正規分布に従う確率変数であり、かつ、
からなる確率変数の族は、独立試行と考え、確率論を援用する。
仮定より、残差
ri{displaystyle r_{i}}0{displaystyle 0} それぞれは、いずれも、期待値
σi{displaystyle sigma _{i}} 、標準偏差
(xi,yi){displaystyle (x_{i},y_{i})} の正規分布に従うため、あるデータセット
yi{displaystyle y_{i}} において、その測定値が
P(yi){displaystyle P(y_{i})} となる確率
は、
- P(yi)=1σ2πexp(−ri22σ2){displaystyle {P}({y}_{i})={frac {1}{sigma {sqrt {2pi }}}}exp left(-{frac {{r}_{i}^{2}}{2sigma ^{2}}}right)} (2-1)
となる。
今、データの測定は(数学的に言えば残差
ri{displaystyle {boldsymbol {r_{i}}}}m{displaystyle {boldsymbol {m}}} それぞれが)独立試行と考えられるため、
(x1,y1),(x2,y2),…,(xm,ym){displaystyle {boldsymbol {(x_{1},y_{1}),(x_{2},y_{2}),ldots ,(x_{m},y_{m})}}} 個のデータポイントのセット
P(y1,…,ym){displaystyle {boldsymbol {P(y_{1},ldots ,y_{m})}}} が得られる確率
は、
- P(y1,…,ym)=∏i=1mP(yi)=∏i=1m1σ2πexp(−ri22σ2)=1(σ2π)mexp(∑i=1m(−(yi−f(xi,β))22σ2)){displaystyle {begin{aligned}P(y_{1},dots ,y_{m})&=prod _{i=1}^{m}P(y_{i})&=prod _{i=1}^{m}{frac {1}{sigma {sqrt {2pi }}}}exp left(-{frac {r_{i}^{2}}{2sigma ^{2}}}right)&={frac {1}{(sigma {sqrt {2pi }})^{m}}}exp left(sum _{i=1}^{m}left(-{frac {(y_{i}-f(x_{i},{boldsymbol {beta }}))^{2}}{2sigma ^{2}}}right)right)end{aligned}}} (2-2)
となる。ここで、
Πi=1n{displaystyle {Pi }_{i=1}^{n}}は、連乗積を表す。
上式において、正規分布の単峰性より、確率
P(yi,…,ym){displaystyle P(y_{i},ldots ,y_{m})}は、
- S(β)=∑i=1m(yi−f(xi,β))22σ2{displaystyle S(beta )=sum _{i=1}^{m}{frac {(y_{i}-f(x_{i},{boldsymbol {beta }}))^{2}}{2sigma ^{2}}}} (2-3)
が最小(最も
0{displaystyle 0}に近いとき)において、最大(最尤)となる。すなわち、最尤法の教えるところによれば、このとき、もっとも当てはまりがよいと考えるのが妥当だろうということになる。
勾配方程式への帰着[編集]
我々が考えるべき問題は、標準化された残差平方和
- S(β)=∑i=1mri22σi2=∑i=1m(yi−f(xi,β))22σi2{displaystyle S({boldsymbol {beta }})=sum _{i=1}^{m}{frac {r_{i}^{2}}{2sigma _{i}^{2}}}=sum _{i=1}^{m}{frac {(y_{i}-f(x_{i},{boldsymbol {beta }}))^{2}}{2sigma _{i}^{2}}}} (3-1)
を最小とするようなパラメータ
β{displaystyle {boldsymbol {beta }}}を見つけることである。
このような
β{displaystyle {boldsymbol {beta }}}S{displaystyle S} において、
S{displaystyle S} の勾配 grad
0{displaystyle 0} は
β{displaystyle {boldsymbol {beta }}} になる(必要条件)。したがって、このような
は、以下の連立方程式の解となる。
- ∂S∂βj=2∑i=1mri∂ri∂βj=0(j=1,…,n)(1){displaystyle {frac {partial S}{partial beta _{j}}}=2sum _{i=1}^{m}r_{i}{frac {partial r_{i}}{partial beta _{j}}}=0quad (j=1,dots ,n)qquad (1)} (3-2)
数値解法[編集]
線形の最小二乗法では、式(3-2)は未知パラメータ
β{displaystyle {boldsymbol {beta }}}についての連立一次方程式になるため、行列を用いて容易に解くことができるが、非線形最小二乗法では反復解法を用いる必要がある。解法には以下のような方法が知られている[4]。
脚注・参考文献[編集]
参考文献[編集]
- ^ a b 本間 仁; 春日屋 伸昌 『次元解析・最小二乗法と実験式』 コロナ社、1989年。
- ^ a b c d
T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). Vieweg+Teubner, ISBN 978-3-8348-1022-9.
Ch6に、非線形最小二乗法の尤もらしさに関する記述が記載されている。 - ^ http://www.hulinks.co.jp/support/kaleida/curvefit.html
- ^ a b 中川徹; 小柳義夫 『最小二乗法による実験データ解析』 東京大学出版会、1982年、19, 95-124頁。ISBN 4-13-064067-4。
脚注[編集]
- ^ 実際には、重解が出る場合も多い。
- ^ 少なくとも
m>n{displaystyle m>n} ^
無論、例えば一つの特別な状況として、いずれの残差の標準偏差も、全て同じ値σである時、すなわち、 ri{displaystyle r_{i}} それぞれが、期待値 0{displaystyle 0} 、標準偏差 σ{displaystyle sigma } の正規分布に従う場合には、残差平方和 S{displaystyle S} から、共通項 1/(2σi2){displaystyle 1/(2{sigma _{i}}^{2})} がくくりだせる。したがって、この場合には、最小二乗法は、- ∑i=1m(yi−f(xi,β))2{displaystyle sum _{i=1}^{m}(y_{i}-f(x_{i},{boldsymbol {beta }}))^{2}}
を最小とするような
β{displaystyle {boldsymbol {beta }}} が、最も当てはまりが良いと考えるのと同等である。
Recent Comments