Matthews Korrelationskoeffizient – Wikipedia

before-content-x4

Das Matthews Korrelationskoeffizient (MCC) oder Phi-Koeffizient wird beim maschinellen Lernen als Maß für die Qualität binärer (Zwei-Klassen-) Klassifikationen verwendet, die 1975 vom Biochemiker Brian W. Matthews eingeführt wurden.[1] Das MCC ist identisch mit dem von Karl Pearson eingeführten Pearson-Phi-Koeffizienten definiert.[2][3] seit seiner Einführung durch Udny Yule im Jahr 1912 auch als Yule-Phi-Koeffizient bekannt.[4] Trotz dieser Vorgeschichte, die Matthews Jahrzehnte um mehrere Jahrzehnte vorausging, ist der Begriff MCC im Bereich der Bioinformatik und des maschinellen Lernens weit verbreitet.

Der Koeffizient berücksichtigt wahre und falsche Positive und Negative und wird allgemein als ausgewogenes Maß angesehen, das verwendet werden kann, selbst wenn die Klassen sehr unterschiedliche Größen haben.[5] Das MCC ist im Wesentlichen ein Korrelationskoeffizient zwischen den beobachteten und vorhergesagten binären Klassifikationen; es gibt einen Wert zwischen -1 und +1 zurück. Ein Koeffizient von +1 stellt eine perfekte Vorhersage dar, 0 ist nicht besser als eine zufällige Vorhersage und -1 zeigt eine völlige Uneinigkeit zwischen Vorhersage und Beobachtung an. MCC ist eng mit der Chi-Quadrat-Statistik für eine 2 × 2-Kontingenztabelle verwandt

wo n ist die Gesamtzahl der Beobachtungen.

Während es keine perfekte Möglichkeit gibt, die Verwirrungsmatrix von wahren und falschen Positiven und Negativen durch eine einzige Zahl zu beschreiben, wird der Matthews-Korrelationskoeffizient allgemein als eine der besten derartigen Maßnahmen angesehen.[6] Andere Maßnahmen, wie der Anteil korrekter Vorhersagen (auch als Genauigkeit bezeichnet), sind nicht sinnvoll, wenn die beiden Klassen sehr unterschiedliche Größen haben. Wenn Sie beispielsweise jedes Objekt der größeren Menge zuweisen, wird ein hoher Anteil korrekter Vorhersagen erzielt, dies ist jedoch im Allgemeinen keine nützliche Klassifizierung.

Das Kundencenter kann direkt aus der Verwirrungsmatrix mit der folgenden Formel berechnet werden:

In dieser Gleichung TP ist die Anzahl der echten Positiven, TN die Anzahl der wahren Negative, FP die Anzahl der falsch positiven und FN die Anzahl der falsch negativen Ergebnisse. Wenn eine der vier Summen im Nenner Null ist, kann der Nenner willkürlich auf Eins gesetzt werden. Dies führt zu einem Matthews-Korrelationskoeffizienten von Null, von dem gezeigt werden kann, dass er der richtige Grenzwert ist.

Das Kundencenter kann mit folgender Formel berechnet werden:

Verwenden des positiven Vorhersagewerts, der wahren positiven Rate, der wahren negativen Rate, des negativen Vorhersagewerts, der falschen Entdeckungsrate, der falsch negativen Rate, der falsch positiven Rate und der falschen Auslassungsrate.

Die ursprüngliche Formel von Matthews lautete:[1]

Dies entspricht der oben angegebenen Formel. Als Korrelationskoeffizient ist der Matthews-Korrelationskoeffizient das geometrische Mittel der Regressionskoeffizienten des Problems und seines Dualen. Die Komponentenregressionskoeffizienten des Matthews-Korrelationskoeffizienten sind Markedness (Δp) und Youdens J-Statistik (Informedness oder Δp ‘).[6][7]Markiertheit und Informiertheit entsprechen unterschiedlichen Richtungen des Informationsflusses und verallgemeinern Youdens J-Statistik, die

δ{ displaystyle delta}

p-Statistiken und (als geometrisches Mittel) der Matthews-Korrelationskoeffizient für mehr als zwei Klassen.[6]

Einige Wissenschaftler behaupten, der Matthews-Korrelationskoeffizient sei der informativste Einzelwert, um die Qualität einer binären Klassifikatorvorhersage in einem Verwirrungsmatrixkontext zu bestimmen.[8]

Beispiel[edit]

Bei einer Stichprobe von 13 Bildern, 8 von Katzen und 5 von Hunden, wobei Katzen der Klasse 1 und Hunde der Klasse 0 angehören,

Ist = [1,1,1,1,1,1,1,1,0,0,0,0,0],

Nehmen wir an, dass ein Klassifikator, der zwischen Katzen und Hunden unterscheidet, trainiert ist. Wir machen die 13 Bilder und lassen sie durch den Klassifikator laufen. Der Klassifikator macht 8 genaue Vorhersagen und verfehlt 5: 3 Katzen, die fälschlicherweise als Hunde vorhergesagt wurden (erste 3 Vorhersagen) und 2 Hunde fälschlicherweise als Katzen vorhergesagt (letzte 2 Vorhersagen).

Vorhersage = [0,0,0,1,1,1,1,1,0,0,0,1,1]

Mit diesen beiden beschrifteten Mengen (Ist und Vorhersagen) können wir eine Verwirrungsmatrix erstellen, die die Ergebnisse des Testens des Klassifikators zusammenfasst:

Tatsächliche Klasse
Katze Hund

Vorausgesagt
Klasse

Katze 5 2
Hund 3 3

In dieser Verwirrungsmatrix beurteilte das System von den 8 Katzenbildern, dass 3 Hunde waren, und von den 5 Hundebildern, dass 2 Katzen waren. Alle korrekten Vorhersagen befinden sich in der Diagonale der Tabelle (fett hervorgehoben), sodass die Tabelle leicht visuell auf Vorhersagefehler überprüft werden kann, da sie durch Werte außerhalb der Diagonale dargestellt werden.

In abstrakten Begriffen lautet die Verwirrungsmatrix wie folgt:

Tatsächliche Klasse
P. N.

Vorausgesagt
Klasse

P. TP FP
N. FN TN

wobei: P = positiv; N = negativ; TP = True Positive; FP = falsch positiv; TN = True Negative; FN = falsch negativ.

Stecken Sie die Zahlen aus der Formel:

MCC = [(5*3) – (2*3)]/ SQRT[(5+2)*(5+3)*(3+2)*(3+3)] = 9 / SQRT[1680] = 0,219

Verwirrung Matrix[edit]

Terminologie und Ableitungen
aus einer Verwirrungsmatrix
Zustand positiv (P)
die Anzahl der wirklich positiven Fälle in den Daten
Bedingung negativ (N)
die Anzahl der echten negativen Fälle in den Daten

wahr positiv (TP)
Gl. mit Treffer
wahr negativ (TN)
Gl. mit korrekter Ablehnung
falsch positiv (FP)
Gl. bei Fehlalarm Typ I Fehler
falsch negativ (FN)
Gl. mit Fehlschlag Typ II Fehler

Empfindlichkeit, Rückruf, Trefferquote oder echte positive Quote (TPR)
Spezifität, Selektivität oder echte negative Rate (TNR)
Präzision oder positiver Vorhersagewert (PPV)
negativer Vorhersagewert (NPV)
Miss Rate oder False Negative Rate (FNR)
Fallout- oder False-Positive-Rate (FPR)
Falschentdeckungsrate (FDR)
falsche Auslassungsrate (FOR)
Prävalenzschwelle (PT)
Bedrohungswert (TS) oder kritischer Erfolgsindex (CSI)

Genauigkeit (ACC)
ausgeglichene Genauigkeit (BA)
F1-Punktzahl
ist das harmonische Mittel für Präzision und Empfindlichkeit
Matthews Korrelationskoeffizient (MCC)
Fowlkes-Mallows-Index (FM)
Informiertheit oder Buchmacherinformiertheit (BM)
Markiertheit (MK) oder DeltaP

Quellen: Fawcett (2006),[9] Powers (2011),[10] Ting (2011),[11] CAWCR,[12]D. Chicco & G. Jurman (2020),[13] Tharwat (2018).[14]

Definieren wir ein Experiment aus P. positive Instanzen und N. negative Instanzen für eine Bedingung. Die vier Ergebnisse können in 2 × 2 formuliert werden Kontingenztabelle oder Verwirrung Matrix, wie folgt:

Wahrer Zustand
Gesamtbevölkerung Zustand positiv Zustand negativ Häufigkeit = Σ Zustand positiv/.Σ Gesamtbevölkerung Genauigkeit (ACC) = Σ Richtig positiv + Σ Richtig negativ/.Σ Gesamtbevölkerung

Voraussichtlicher Zustand

Voraussichtlicher Zustand
positiv
Richtig positiv Falsch positiv,
Typ I Fehler
Positiver Vorhersagewert (PPV), Präzision = Σ Richtig positiv/.Σ Voraussichtlicher Zustand positiv Falsche Entdeckungsrate (FDR) = Σ Falsch positiv/.Σ Voraussichtlicher Zustand positiv
Voraussichtlicher Zustand
Negativ
Falsch negativ,
Typ II Fehler
Richtig negativ Falsche Auslassungsrate (FOR) = Σ Falsch negativ/.Σ Voraussichtlicher Zustand negativ Negativer Vorhersagewert (NPV) = Σ Richtig negativ/.Σ Voraussichtlicher Zustand negativ
True Positive Rate (TPR), Rückruf, Empfindlichkeit, Erkennungswahrscheinlichkeit, Leistung = Σ Richtig positiv/.Σ Zustand positiv Falsch positive Rate (FPR), Ausfallen, Wahrscheinlichkeit eines Fehlalarms = Σ Falsch positiv/.Σ Zustand negativ Positives Wahrscheinlichkeitsverhältnis (LR +) = TPR/.FPR Diagnostic Odds Ratio (DOR) = LR +/.LR− F.1 Punktzahl = 2 · Präzision · Rückruf/.Präzision + Rückruf
Falsch negative Rate (FNR), Miss Rate = Σ Falsch negativ/.Σ Zustand positiv Spezifität (SPC), Selektivität, True Negative Rate (TNR) = Σ Richtig negativ/.Σ Zustand negativ Negatives Wahrscheinlichkeitsverhältnis (LR−) = FNR/.TNR

Fall mit mehreren Klassen[edit]

Der Matthews-Korrelationskoeffizient wurde auf den Fall mehrerer Klassen verallgemeinert. Diese Verallgemeinerung wurde die genannt

R.K.{ displaystyle R_ {K}}

Statistik (für K verschiedene Klassen) des Autors und definiert als a

K.×K.{ displaystyle K times K}

Verwirrung Matrix

C.{ displaystyle C}


[15]

.[16]

Wenn mehr als zwei Beschriftungen vorhanden sind, liegt das Kundencenter nicht mehr zwischen -1 und +1. Stattdessen liegt der Mindestwert je nach wahrer Verteilung zwischen -1 und 0. Der Maximalwert ist immer +1.

Diese Formel kann leichter verstanden werden, indem Zwischenvariablen definiert werden:[17]

Verwenden der obigen Formel zur Berechnung des MCC-Maßes für die oben diskutierte Hunde- und Katzenvorhersage, wobei die Verwirrungsmatrix als 2 x Multiklassen-Beispiel behandelt wird:

numer = (8 * 13) – (7 * 8) – (6 * 5) = 18

denom = SQRT[(13^2 – 7^2 – 6^2) * (13^2 – 8^2 – 5^2)] = SQRT[6720]

MCC = 18 / 81,975 = 0,219

Vorteile von MCC gegenüber Genauigkeit und F1-Punktzahl[edit]

Wie von Davide Chicco in seiner Arbeit erklärt “Zehn schnelle Tipps für maschinelles Lernen in der Computerbiologie” (BioData Mining, 2017) und von Giuseppe Jurman in seiner Arbeit “Die Vorteile des Matthews-Korrelationskoeffizienten (MCC) gegenüber dem F1-Score und der Genauigkeit bei der Bewertung der binären Klassifizierung” (BMC Genomics, 2020) ist der Matthews-Korrelationskoeffizient informativer als der F1-Score und die Genauigkeit bei der Bewertung von binären Klassifizierungsproblemen, da er die Gleichgewichtsverhältnisse der vier Verwirrungsmatrixkategorien (wahr-positiv, wahr-negativ, falsch-positiv, falsch) berücksichtigt Negative).[8][18]

Der frühere Artikel erklärt, z Tipp 8::

Um ein umfassendes Verständnis Ihrer Vorhersage zu erhalten, entscheiden Sie sich, allgemeine statistische Bewertungen wie Genauigkeit und F1-Bewertung zu nutzen.

(Gleichung 1, Genauigkeit: schlechtester Wert = 0; bester Wert = 1)

(Gleichung 2, F1-Punktzahl: schlechtester Wert = 0; bester Wert = 1)

Selbst wenn Genauigkeit und F1-Punktzahl in der Statistik weit verbreitet sind, können beide irreführend sein, da sie die Größe der vier Klassen der Verwirrungsmatrix bei ihrer Berechnung der endgültigen Punktzahl nicht vollständig berücksichtigen.

Angenommen, Sie haben beispielsweise einen sehr unausgewogenen Validierungssatz aus 100 Elementen, von denen 95 positive und nur 5 negative Elemente sind (wie in Tipp 5 erläutert). Angenommen, Sie haben beim Entwerfen und Trainieren Ihres Klassifikators für maschinelles Lernen einige Fehler gemacht, und jetzt haben Sie einen Algorithmus, der immer positive Vorhersagen macht. Stellen Sie sich vor, Sie kennen dieses Problem nicht.

Indem Sie Ihren nur positiven Prädiktor auf Ihren unausgeglichenen Validierungssatz anwenden, erhalten Sie Werte für die Verwirrungsmatrixkategorien:

TP = 95, FP = 5; TN = 0, FN = 0.

Diese Werte führen zu den folgenden Leistungswerten: Genauigkeit = 95% und F1-Wert = 97,44%. Wenn Sie diese überoptimistischen Ergebnisse lesen, werden Sie sehr glücklich sein und denken, dass Ihr Algorithmus für maschinelles Lernen hervorragende Arbeit leistet. Offensichtlich wären Sie auf dem falschen Weg.

Um diese gefährlichen irreführenden Illusionen zu vermeiden, können Sie im Gegenteil einen weiteren Leistungsfaktor nutzen: den Matthews-Korrelationskoeffizienten [40] (MCC).

(Gleichung 3, MCC: schlechtester Wert = –1; bester Wert = +1).

Wenn Sie den Anteil jeder Klasse der Verwirrungsmatrix in ihrer Formel berücksichtigen, ist ihre Punktzahl nur dann hoch, wenn Ihr Klassifikator sowohl bei den negativen als auch bei den positiven Elementen gut abschneidet.

Im obigen Beispiel wäre die MCC-Bewertung undefiniert (da TN und FN 0 wären, wäre der Nenner von Gleichung 3 0). Wenn Sie diesen Wert anstelle von Genauigkeit und F1-Punktzahl überprüfen, können Sie feststellen, dass Ihr Klassifikator in die falsche Richtung geht, und Sie werden sich bewusst, dass es Probleme gibt, die Sie lösen sollten, bevor Sie fortfahren.

Betrachten Sie dieses andere Beispiel. Sie haben eine Klassifizierung für denselben Datensatz ausgeführt, die zu den folgenden Werten für die Verwirrungsmatrixkategorien führte:

TP = 90, FP = 4; TN = 1, FN = 5.

In diesem Beispiel hat der Klassifizierer bei der Klassifizierung positiver Instanzen gute Ergebnisse erzielt, konnte jedoch negative Datenelemente nicht korrekt erkennen. Wiederum wären die resultierenden F1-Bewertungen und Genauigkeitsbewertungen extrem hoch: Genauigkeit = 91% und F1-Bewertung = 95,24%. Ähnlich wie im vorherigen Fall würde ein Forscher, wenn er nur diese beiden Bewertungsindikatoren analysiert, ohne das Kundencenter zu berücksichtigen, fälschlicherweise glauben, dass der Algorithmus in seiner Aufgabe recht gut abschneidet, und die Illusion haben, erfolgreich zu sein.

Andererseits wäre die Überprüfung des Matthews-Korrelationskoeffizienten erneut von entscheidender Bedeutung. In diesem Beispiel wäre der Wert des MCC 0,14 (Gleichung 3), was anzeigt, dass der Algorithmus ähnlich wie zufälliges Erraten arbeitet. Als Alarm könnte das Kundencenter den Data-Mining-Praktiker darüber informieren, dass das statistische Modell eine schlechte Leistung erbringt.

Aus diesen Gründen empfehlen wir dringend, jede Testleistung anhand des Matthews-Korrelationskoeffizienten (MCC) anstelle der Genauigkeit und des F1-Scores für jedes binäre Klassifizierungsproblem zu bewerten.

– –Davide Chicco, Zehn schnelle Tipps für maschinelles Lernen in der Computerbiologie[8]

Beachten Sie, dass die F1-Punktzahl davon abhängt, welche Klasse als positive Klasse definiert ist. Im ersten Beispiel oben ist die F1-Punktzahl hoch, da die Mehrheitsklasse als positive Klasse definiert ist. Das Invertieren der positiven und negativen Klassen führt zu der folgenden Verwirrungsmatrix:

TP = 0, FP = 0; TN = 5, FN = 95

Dies ergibt eine F1-Punktzahl = 0%.

Das Kundencenter hängt nicht davon ab, welche Klasse die positive ist. Dies hat den Vorteil gegenüber der F1-Punktzahl, dass die positive Klasse nicht falsch definiert wird.

Siehe auch[edit]

Verweise[edit]

  1. ^ ein b Matthews, BW (1975). “Vergleich der vorhergesagten und beobachteten Sekundärstruktur von T4-Phagenlysozym”. Biochimica et Biophysica Acta (BBA) – Proteinstruktur. 405 (2): 442–451. doi:10.1016 / 0005-2795 (75) 90109-9. PMID 1180967.
  2. ^ Cramer, H. (1946). Mathematische Methoden der Statistik. Princeton: Princeton University Press, p. 282 (zweiter Absatz). ISBN 0-691-08004-6
  3. ^ Datum unklar, aber vor seinem Tod im Jahr 1936.
  4. ^ Yule, G. Udny (1912). “Über die Methoden zur Messung der Assoziation zwischen zwei Attributen”. Zeitschrift der Royal Statistical Society. 75 (6): 579–652. doi:10.2307 / 2340126. JSTOR 2340126.
  5. ^ Boughorbel, SB (2017). “Optimaler Klassifikator für unausgeglichene Daten unter Verwendung der Matthews-Korrelationskoeffizientenmetrik”. PLUS EINS. 12 (6): e0177678. Bibcode:2017PLoSO..1277678B. doi:10.1371 / journal.pone.0177678. PMC 5456046. PMID 28574989.
  6. ^ ein b c Powers, David MW (2011). “Bewertung: Von Präzision, Rückruf und F-Messung zu ROC, Informiertheit, Markiertheit und Korrelation” (PDF). Journal of Machine Learning Technologies. 2 (1): 37–63.
  7. ^ Perruchet, P.; Peereman, R. (2004). “Die Nutzung von Verteilungsinformationen in der Silbenverarbeitung”. J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016 / s0911-6044 (03) 00059-9. S2CID 17104364.
  8. ^ ein b c Chicco D (Dezember 2017). “Zehn schnelle Tipps für maschinelles Lernen in der Computerbiologie”. BioData Mining. 10 (35): 35. doi:10.1186 / s13040-017-0155-3. PMC 5721660. PMID 29234465.
  9. ^ Fawcett, Tom (2006). “Eine Einführung in die ROC-Analyse” (PDF). Mustererkennungsbuchstaben. 27 (8): 861–874. doi:10.1016 / j.patrec.2005.10.010.
  10. ^ Powers, David MW (2011). “Bewertung: Von Präzision, Rückruf und F-Messung zu ROC, Informiertheit, Markiertheit und Korrelation”. Journal of Machine Learning Technologies. 2 (1): 37–63.
  11. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (Hrsg.). Enzyklopädie des maschinellen Lernens. Springer. doi:10.1007 / 978-0-387-30164-8. ISBN 978-0-387-30164-8.
  12. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26.01.2015). “WWRP / WGNE Joint Working Group on Forecast Verification Research”. Zusammenarbeit für die australische Wetter- und Klimaforschung. Weltorganisation für Meteorologie. Abgerufen 2019-07-17.
  13. ^ Chicco D., Jurman G. (Januar 2020). “Die Vorteile des Matthews-Korrelationskoeffizienten (MCC) gegenüber dem F1-Score und der Genauigkeit bei der Bewertung der binären Klassifizierung”. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.CS1-Wartung: Verwendet den Autorenparameter (Link)
  14. ^ Tharwat A. (August 2018). “Klassifizierungsbewertungsmethoden”. Angewandte Datenverarbeitung und Informatik. doi:10.1016 / j.aci.2018.08.003.
  15. ^ Gorodkin, Jan (2004). “Vergleichen von zwei K-Kategorie-Zuordnungen durch einen K-Kategorie-Korrelationskoeffizienten”. Computational Biology and Chemistry. 28 (5): 367–374. doi:10.1016 / j.compbiolchem.2004.09.006. PMID 15556477.
  16. ^ Gorodkin, Jan. “Die Rk-Seite”. Die Rk-Seite. Abgerufen 28. Dezember 2016.
  17. ^ “Matthew Korrelationskoeffizient”. scikit-learn.org.
  18. ^ Chicco D, Jurman G (Januar 2020). “Die Vorteile des Matthews-Korrelationskoeffizienten (MCC) gegenüber dem F1-Score und der Genauigkeit bei der Bewertung der binären Klassifizierung”. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186 / s12864-019-6413-7. PMC 6941312. PMID 31898477.


after-content-x4