打ち切り (統計学) – Wikipedia

統計学では、打ち切り（うちきり、英: censoring）とは、測定や観測の値が部分的にしかわからない状態のことである。

たとえば、ある薬が死亡率に与える影響を測定する研究が行われたとする。そのような研究では、ある個人の死亡時の年齢が「少なくとも」75歳（それ以上の場合もある）であることがわかっているかもしれない。そうした状況は、その個人が75歳で研究から退いた場合や、現在75歳で生存している場合に起こりうる。

また、打ち切りは、測定器の範囲外の値が発生した場合にも起こる。たとえば、浴室の体重計は140kgまでしか測れないかもしれない。その体重計を用いて160kgの個人が体重を測った場合、観察者はその人の体重が少なくとも140kgであることしかわからない。

ある変数の観測された値が部分的にわかっている打ち切りデータの問題は、ある変数の観察値が不明な欠測データの問題と関連している。

打ち切りを、関連する考え方である切り捨て（英語版）と混同してはならない。打ち切りでは、観測結果として該当する正確な値を知るか、あるいはその値がある区間内にあることを知ることができる。これに対し、切り捨てでは、観測結果が与えられた範囲外の値になることはなく、したがって範囲外の母集団の値は決して観測されないし、観測されたとしても記録されない。なお統計学では切り捨てと丸めとは異なる考え方である。

左側打ち切り（left censoring） – データポイントが特定の値より下にあるが、その量がどの程度かは不明。
区間打ち切り（interval censoring） – データポイントが2つの値の間に挟まれた区間のどこかにある。
右側打ち切り（right censoring） – データポイントがある値より上にあるが、その量がどの程度かは不明。
I型打ち切り（type I censoring）は、実験の被験者やアイテムの数が決まっていて、所定の時間で実験を中止する場合に起こる。その時点で残っている被験者は右側打ち切りされる。
II型打ち切り（type II censoring）は、実験の被験者やアイテムの数が決まっていて、所定の数の被験者が故障（例：罹患）したと観測された時点で実験を中止する場合に起こる。その後、被験者は右側打ち切りされる。
ランダム（または非情報的）打ち切り（Random (or non-informative) censoring）は、各被験者の打ち切り時間が、事象発生時間と統計的に独立していることである。その観測値は、打ち切り時間と事象発生時間との最小値であり、事象発生時間が打ち切り時間よりも長い被験者は右側打ち切りとなる。

区間打ち切りは、ある値を観測するために追跡調査や検査が必要な場合に起こる。左側打ち切りと右側打ち切りは、区間打ち切りの特別な場合で、それぞれ区間の始まりをゼロ、終わりは無限大とする。

左側打ち切りデータを用いた推定方法はさまざまであり、すべてのデータセットにすべての推定方法が適用できるとは限らず、また最も信頼できるとは限らない^[1]。

時間間隔データについてよくある誤解は、開始時刻が不明な区間を左側打ち切りとして分類することである。このような場合では、「時間間隔」の下限があるので、データは「右側打ち切り」になる（タイムラインとして見たとき、欠落した開始点は既知の間隔の左側にあるにもかかわらず！）。

打ち切りデータを処理するために、特別な手法が使用されることがある。特定の故障時間を持った試験は、実際の故障として符号化される。打ち切りデータは、打ち切りの種類と、既知の区間または限界値として符号化される。特別なソフトウェアプログラム（多くは信頼性指向）は、要約統計量や信頼区間などの最尤推定を行うことができる。

Table of Contents

疫学[編集]

打ち切りデータを含む統計的問題を分析する最初の試みの1つは、1766年、ダニエル・ベルヌーイが天然痘の罹患率と死亡率のデータを分析し、ワクチン接種の有効性を実証したことである^[2]。打ち切りコストの推定にカプラン＝マイヤー推定量を使った初期の論文がQuesenberryら（1989）によって著されたが^[3]、すべての患者が時間とともに共通の決定論的レート関数でコストを蓄積しない限りこのアプローチは無効であることがLinらによって報告された^[4]。彼らは、Lin推定量として知られる代替の推定手法を提案した^[5]。

動作寿命試験[編集]

信頼性試験は、多くの場合、特定の条件下でアイテムに対して試験を行い、故障が発生するまでの時間を測定することから構成される。

オペレーターの誤り、機器の不具合、検査の異常など、故障が計画されて予期されていても発生しないことがある。その試験結果は、望ましい故障発生までの時間ではなかったが、終了までの時間として用いることができる（また、そうすべきである）。打ち切りデータの使用は意図的ではないが、必要なことである。
エンジニアが試験計画を作成する際に、ある一定の時間制限または故障回数を超えたら、残りのすべての試験を終了させることがある。これらの中断時間は、右打ち切りデータとして扱われる。その打ち切りデータの使用は意図的なものである。

反復試験のデータの分析には、故障したアイテムの故障までの時間と、故障しなかったアイテムの試験終了までの時間の両方が含まれる（図を参照）。