打ち切り (統計学) – Wikipedia

統計学では、打ち切り(うちきり、英: censoring)とは、測定や観測の値が部分的にしかわからない状態のことである。

たとえば、ある薬が死亡率に与える影響を測定する研究が行われたとする。そのような研究では、ある個人の死亡時の年齢が「少なくとも」75歳(それ以上の場合もある)であることがわかっているかもしれない。そうした状況は、その個人が75歳で研究から退いた場合や、現在75歳で生存している場合に起こりうる。

また、打ち切りは、測定器の範囲外の値が発生した場合にも起こる。たとえば、浴室の体重計は140kgまでしか測れないかもしれない。その体重計を用いて160kgの個人が体重を測った場合、観察者はその人の体重が少なくとも140kgであることしかわからない。

ある変数の観測された値が部分的にわかっている打ち切りデータの問題は、ある変数の観察値が不明な欠測データの問題と関連している。

打ち切りを、関連する考え方である切り捨て英語版と混同してはならない。打ち切りでは、観測結果として該当する正確な値を知るか、あるいはその値がある区間内にあることを知ることができる。これに対し、切り捨てでは、観測結果が与えられた範囲外の値になることはなく、したがって範囲外の母集団の値は決して観測されないし、観測されたとしても記録されない。なお統計学では切り捨てと丸めとは異なる考え方である。

  • 左側打ち切り(left censoring) – データポイントが特定の値より下にあるが、その量がどの程度かは不明。
  • 区間打ち切り(interval censoring) – データポイントが2つの値の間に挟まれた区間のどこかにある。
  • 右側打ち切り(right censoring) – データポイントがある値より上にあるが、その量がどの程度かは不明。
  • I型打ち切り(type I censoring)は、実験の被験者やアイテムの数が決まっていて、所定の時間で実験を中止する場合に起こる。その時点で残っている被験者は右側打ち切りされる。
  • II型打ち切り(type II censoring)は、実験の被験者やアイテムの数が決まっていて、所定の数の被験者が故障(例:罹患)したと観測された時点で実験を中止する場合に起こる。その後、被験者は右側打ち切りされる。
  • ランダム(または非情報的)打ち切り(Random (or non-informative) censoring)は、各被験者の打ち切り時間が、事象発生時間と統計的に独立していることである。その観測値は、打ち切り時間と事象発生時間との最小値であり、事象発生時間が打ち切り時間よりも長い被験者は右側打ち切りとなる。

区間打ち切りは、ある値を観測するために追跡調査や検査が必要な場合に起こる。左側打ち切りと右側打ち切りは、区間打ち切りの特別な場合で、それぞれ区間の始まりをゼロ、終わりは無限大とする。

左側打ち切りデータを用いた推定方法はさまざまであり、すべてのデータセットにすべての推定方法が適用できるとは限らず、また最も信頼できるとは限らない[1]

時間間隔データについてよくある誤解は、開始時刻が不明な区間を左側打ち切りとして分類することである。このような場合では、「時間間隔」の下限があるので、データは「右側打ち切り」になる(タイムラインとして見たとき、欠落した開始点は既知の間隔の左側にあるにもかかわらず!)。

打ち切りデータを処理するために、特別な手法が使用されることがある。特定の故障時間を持った試験は、実際の故障として符号化される。打ち切りデータは、打ち切りの種類と、既知の区間または限界値として符号化される。特別なソフトウェアプログラム(多くは信頼性指向)は、要約統計量や信頼区間などの最尤推定を行うことができる。

疫学[編集]

打ち切りデータを含む統計的問題を分析する最初の試みの1つは、1766年、ダニエル・ベルヌーイが天然痘の罹患率と死亡率のデータを分析し、ワクチン接種の有効性を実証したことである[2]。打ち切りコストの推定にカプラン=マイヤー推定量を使った初期の論文がQuesenberryら(1989)によって著されたが[3]、すべての患者が時間とともに共通の決定論的レート関数でコストを蓄積しない限りこのアプローチは無効であることがLinらによって報告された[4]。彼らは、Lin推定量として知られる代替の推定手法を提案した[5]

動作寿命試験[編集]

信頼性試験は、多くの場合、特定の条件下でアイテムに対して試験を行い、故障が発生するまでの時間を測定することから構成される。

  • オペレーターの誤り、機器の不具合、検査の異常など、故障が計画されて予期されていても発生しないことがある。その試験結果は、望ましい故障発生までの時間ではなかったが、終了までの時間として用いることができる(また、そうすべきである)。打ち切りデータの使用は意図的ではないが、必要なことである。
  • エンジニアが試験計画を作成する際に、ある一定の時間制限または故障回数を超えたら、残りのすべての試験を終了させることがある。これらの中断時間は、右打ち切りデータとして扱われる。その打ち切りデータの使用は意図的なものである。

反復試験のデータの分析には、故障したアイテムの故障までの時間と、故障しなかったアイテムの試験終了までの時間の両方が含まれる(図を参照)。

打ち切り回帰[編集]

打ち切り回帰英語版の初期のモデルであるトービン・モデル (英語版は、1958年にジェームズ・トービンによって提案された[6]

尤度[編集]

尤度(ゆうど)とは、観測された値の確率または確率密度のことであり、想定されるモデルのパラメータの関数として示される。生存時間

T1,T2,...,Tn{displaystyle T_{1},T_{2},…,T_{n}}

に興味があるが、すべての

i{displaystyle i}

について

Ti{displaystyle T_{i}}

を観測していないとしよう。その代わりに、

Ti>Ui{displaystyle T_{i}>U_{i}}

Ui{displaystyle U_{i}}

は打ち切り時間(censoring time)と呼ばれる[7]

打ち切り時間がすべて既知の定数である場合、尤度は、

となり、ここに、

f(ui){displaystyle f(u_{i})}

ui{displaystyle u_{i}}

で評価した確率密度関数、

S(ui){displaystyle S(u_{i})}

Ti{displaystyle T_{i}}

ui{displaystyle u_{i}}

より大きくなる確率で、生存関数と呼ばれる。

これは、死亡率の瞬間的な死力であるハザード関数を

と定義することで簡略化でき、

となる。このとき、

となる。

指数分布の場合は、ハザード率

λ{displaystyle lambda }

が一定なので、

S(u)=exp(λu){displaystyle S(u)=exp(-lambda u)}

となり、さらに単純になる。このとき、

となり、ここに

k=δi{displaystyle k=sum {delta _{i}}}

である。

これから、

λ^{displaystyle {hat {lambda }}}

を簡単に計算し、

λ{displaystyle lambda }

の最尤推定値(MLE)を次のように計算することができる。

このとき、

となる。

これを 0 として

λ{displaystyle lambda }

を解くと、

となる。

同様に、平均初回故障間隔英語版は、

となる。

これは、指数分布の標準MLEとは異なり、打ち切り観測値は分子でのみ考慮される。

参照項目[編集]

  1. ^ Helsel, D. (2010). “Much Ado About Next to Nothing: Incorporating Nondetects in Science”. Annals of Occupational Hygiene 54 (3): 257–262. doi:10.1093/annhyg/mep092. PMID 20032004. 
  2. ^ Bernoulli, D. (1766). “Essai d’une nouvelle analyse de la mortalité causée par la petite vérole”. Mem. Math. Phy. Acad. Roy. Sci. Paris,  reprinted in Bradley (1971) 21 and Blower (2004)
  3. ^ Quesenberry, C. P., Jr. et al. (1989). “A survival analysis of hospitalization among patients with acquired immunodeficiency syndrome”. American Journal of Public Health 79 (12): 1643–1647. doi:10.2105/AJPH.79.12.1643. PMC 1349769. PMID 2817192. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1349769/. 
  4. ^ Lin, D. Y. et al. (1997). “Estimating medical costs from incomplete follow-up data”. Biometrics 53 (2): 419–434. doi:10.2307/2533947. JSTOR 2533947. PMID 9192444. 
  5. ^ Wijeysundera, H. C. et al. (2012). “Techniques for estimating health care costs with censored data: an overview for the health services researcher”. ClinicoEconomics and Outcomes Research 4: 145–155. doi:10.2147/CEOR.S31552. PMC 3377439. PMID 22719214. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3377439/. 
  6. ^ Tobin, James (1958). “Estimation of relationships for limited dependent variables”. Econometrica 26 (1): 24–36. doi:10.2307/1907382. JSTOR 1907382. http://cowles.yale.edu/sites/default/files/files/pub/d00/d0003-r.pdf. 
  7. ^ Lu Tian, Likelihood Construction, Inference for Parametric Survival Distributions, https://web.stanford.edu/~lutian/coursepdf/unit2.pdf , Wikidata Q98961801.

推薦文献[編集]

外部リンク[編集]

  • “Engineering Statistics Handbook”, NIST/SEMATEK, [1]