Roc-Kurve – ウィキペディア

before-content-x4

ロック :英語 受信機の動作特性 またはドイツ語 オブザーバーの操作特性 )、 また 境界値の最適化曲線 また 等感受性曲線 分析戦略を評価および最適化する方法が言及されています。 ROC曲線は、異なるパラメーター値のエラー率と効率の依存性を視覚的に表します。これは、信号発見理論の適用です。

after-content-x4

ROC曲線は、たとえば二分(半)定量的特性または2クラスの分類問題など、パラメーターの最良の値を見つけるために使用できます。

ROC曲線の解釈:分類器の位置(左上の垂直線)に応じて、TP-の株式の株式 真のポジティブ 、tn- 真のネガ 、fp- 偽陽性 、fn- 偽のネガ 2つの基本的な分布からの分類サンプル(ターゲットクラスの赤、青い比較クラス)。角度の破線は、2つのグループがy = 0とy = 1がプロパティxで不可欠である場合、分類器のROC曲線です。

ROCカーブ(実際の例)

すべての可能なパラメーター値(透過速度、周波数など)について、結果として生じる感度(正しい正速度)と偽陽性速度の形での相対頻度分布が決定されます。図では、叙階としての感度(右陽性レート)を身に着けています( ”

{displaystyle y}

-achse”)およびアブシッサとしての偽陽性率( ”

バツ {displaystyle x}

-axse”)。パラメーター値自体は表示されませんが、ポイントのラベル付けとして使用できます。通常、湾曲した上昇曲線をもたらします。

対角線近くのROC曲線は、ランダムプロセスを示します。対角線近くの値は、ランダムプロセスの予想ヒット周波数に対応する等しいヒット率と偽陽性クォータを意味します。
理想的なROC曲線は最初に垂直に上昇します(ヒット率は100%に近く、最初は0%に近いままです)、その後、偽陽性レートの増加を行います。
対角線よりもはるかに下に残っているROC曲線は、値が誤って解釈されていることを示しています。

after-content-x4

テストされた値の理論的最適(ヒットおよびエラー率からの妥協の意味で)は、軸が均一にスケーリングされている場合、ROC曲線との45°の上昇の接点から視覚的に決定されます。それ以外の場合、接線の増加は対角線の増加と同じでなければなりません。

同じ図でテスト値(たとえば、偽陽性レートに依存する)を描画する場合、制限値は、テスト値曲線の接線の接触点のはんだとして見られます。あるいは、曲線のポイントにテスト値をラベル付けすることができます。数学的な点では、最高のYouDenインデックスでテスト値を検索します。これは計算されます

感度 + 特異性 初め {displayStyle {text {sensitivity}+{text {dipeticity} -1}

(相対値で計算)。

主に情報検索で使用される代替方法は、リコールと精度のビューです。

ROC曲線は、品質尺度としても使用できます。これは多くの場合、情報検索の分野でも当てはまります。テスト値に関係なく評価できるようにするために、すべての人またはテスト値のサンプルに対してROC曲線が計算されます。

限界値の最適化曲線の下の領域または ROC曲線の下の面積 (短い、 auroc )。この値は0〜1ですが、0.5は最悪の価値があります。前に説明したように、対角線近くのROC曲線は、0.5の面積を持つランダムプロセスの期待される結果です。以前に記述された曲線は、最適に0.5〜1の面積を持ちます。0.5未満の面積を持つ曲線は、結果が他の方法で解釈される場合(「正」、「負」)、情報理論で最終的に同じくらい良いことができます。

たとえば、制限値の最適化曲線で領域を使用するという決定的な利点は、ここではパラメーター値が不要になったのに対し、後者は単一の特定のパラメーター値についてのみ計算できます。高いAUROC値は、明らかに「結果はパラメーターの適切な選択に適している」ことを意味します。

たとえば、情報の取得では、検索結果の品質を評価できます。 「ポジティブ」は適切な検索結果であり、「ネガティブ」は不適切です。テスト値は、要求された検索結果の数です。データベース10に関連性と90の無関係なドキュメントが含まれており、最初の12の結果に手順が関連性があることがわかった場合、ROC曲線はポイントを通過します

12790,710)) {displaystyle textStyle left({frac {12-7} {90}}、{frac {7} {10}}右)}

。これは、すべての可能な数の結果(0〜100)に対して計算されます。

最適化の問題としての問題は、「私が考慮すべき結果の最適な数は何ですか?」です。

品質尺度としての問題は、「結果を得たい結果に関係なく、検索機能はどれくらい良いですか?」です。

もちろん、この例では、両方の質問が限られた範囲で理にかなっています。

ROC曲線は、分類パフォーマンスを評価するために機械学習で使用されます。誤算速度は、分類が最も安全なインスタンスから始めて、より多くのインスタンスを対象としています(たとえば、サポートベクトルマシンの分離関数から最大の距離があるため)。

例として、最初に審査官に最も安全だと感じる質問に答えることができる審査官を想像できます。審査官は、試験の過程でROC曲線を作成できます。良好なテスト被験者は、試験の終了に対してのみ誤った答えを出すだけで、ROC曲線から簡単に読み取ることができます。

  • トム・フォーセット: ROCグラフ:データマイニング研究者のためのメモと実用的な考慮事項 。の: パターン認識文字 。 31年、 いいえ。 8 、2004、 S. 1–38 hp.com [PDF])。
  • ウルリッヒ・アベル: 診断テストの評価。 Hippocrates Verlag、Stuttgart 1993、ISBN 3-7773-1079-4。
  • ウィリアム・J・ユーデン: 評価診断テストのインデックス 。の: 。 3年目 いいえ。 初め 、1950年、 S. 32–35 、doi: 10.1002/1097-0142(1950)3:1 <32 :: AID-CNCR2820030106> 3.0.co; 2-3
after-content-x4