Was ist die Konfusionsmatrix?
Eine Konfusionsmatrix ist ein Verfahren zur Leistungsmessung bei der Klassifizierung durch maschinelles Lernen. Sie ist eine Art Tabelle, mit deren Hilfe du die Leistung des Klassifizierungsmodells bei einer Reihe von Testdaten ermitteln kannst, für die die wahren Werte bekannt sind. Der Begriff Konfusionsmatrix an sich ist sehr einfach, aber die damit verbundene Terminologie kann ein wenig verwirrend sein. Hier findest du eine einfache Erklärung für diese Technik.
In diesem Lernprogramm lernst du,
- Was ist eine Konfusionsmatrix?
- Vier Ergebnisse der Verwirrungsmatrix
- Beispiel für eine Konfusionsmatrix:
- So berechnest du eine Konfusionsmatrix
- Andere wichtige Begriffe zur Verwendung einer Konfusionsmatrix
- Warum brauchst du eine Konfusionsmatrix?
Vier Ergebnisse der Verwirrungsmatrix
Die Konfusionsmatrix visualisiert die Genauigkeit eines Klassifikators, indem sie die tatsächlichen und die vorhergesagten Klassen vergleicht. Die binäre Konfusionsmatrix setzt sich aus Quadraten zusammen:
- TP: True Positive: Vorausgesagte Werte, die korrekt als tatsächlich positiv vorhergesagt wurden
- FP: Vorhergesagte Werte, die fälschlicherweise als positiv vorhergesagt wurden, d.h. negative Werte, die als positiv vorhergesagt wurden
- FN: Falsches Negativ: Positive Werte, die als negativ vorhergesagt werden
- TN: Richtig Negativ: Vorausgesagte Werte, die korrekt als tatsächlich negativ vorhergesagt wurden
Du kannst die Genauigkeitstest aus der Konfusionsmatrix:
Beispiel einer Konfusionsmatrix:
Die Konfusionsmatrix ist eine nützliche Methode des maschinellen Lernens, mit der du Recall, Precision, Accuracy und die AUC-ROC-Kurve messen kannst. Im Folgenden findest du ein Beispiel, mit dem du die Begriffe Wahrer Positivwert, Wahrer Negativwert, Falscher Negativwert und Wahrer Negativwert kennenlernen kannst.
Richtig positiv:
Du hast etwas Positives vorausgesagt und es hat sich als wahr herausgestellt. Du hast zum Beispiel vorhergesagt, dass Frankreich die Weltmeisterschaft gewinnen wird, und es hat gewonnen.
Wahres Negativ:
Wenn du etwas Negatives vorhergesagt hast und es wahr ist. Du hattest vorhergesagt, dass England nicht gewinnen würde und es hat verloren.
Falsches Positiv:
Deine Vorhersage ist positiv, und sie ist falsch.
Du hattest vorhergesagt, dass England gewinnen würde, aber es hat verloren.
Falsches Negativ:
Deine Vorhersage ist negativ, und das Ergebnis ist ebenfalls falsch.
Du hattest vorhergesagt, dass Frankreich nicht gewinnen würde, aber es hat gewonnen.
Du solltest dich daran erinnern, dass wir vorhergesagte Werte entweder als Wahr oder Falsch oder als Positiv und Negativ beschreiben.
So berechnest du eine Konfusionsmatrix
Hier wird Schritt für Schritt erklärt, wie man eine Konfusionsmatrix im Data Mining berechnet
- Schritt 1) Zuerst musst du einen Datensatz mit den erwarteten Werten testen.
- Schritt 2) Sage alle Zeilen im Testdatensatz voraus.
- Schritt 3) Berechne die erwarteten Vorhersagen und Ergebnisse:
- Die Summe der richtigen Vorhersagen für jede Klasse.
- Die Summe der falschen Vorhersagen für jede Klasse.
Danach werden diese Zahlen in den unten angegebenen Methoden organisiert:
- Jede Zeile der Matrix verweist auf eine vorhergesagte Klasse.
- Jede Spalte der Matrix entspricht einer tatsächlichen Klasse.
- Die Gesamtzahl der richtigen und falschen Klassifizierungen wird in die Tabelle eingetragen.
- Die Summe der richtigen Vorhersagen für eine Klasse wird in die Spalte „Vorhersage“ und die Zeile „Erwartung“ für diesen Klassenwert eingetragen.
- Die Summe der falschen Vorhersagen für eine Klasse geht in die erwartete Zeile für diesen Klassenwert und in die vorhergesagte Spalte für diesen spezifischen Klassenwert ein.
Weitere wichtige Begriffe zur Verwendung einer Konfusionsmatrix
- Positiv prädiktiver Wert (PVV): Das kommt der Präzision sehr nahe. Ein wichtiger Unterschied zwischen den beiden Begriffen ist, dass der PVV die Prävalenz berücksichtigt. Wenn die Klassen perfekt ausgeglichen sind, ist der positive Vorhersagewert derselbe wie die Präzision.
- Null-Fehler-Rate: Dieser Begriff wird verwendet, um zu bestimmen, wie oft deine Vorhersage falsch ist, wenn du die Mehrheitsklasse vorhersagen kannst. Du kannst ihn als Basiswert betrachten, um deinen Klassifikator zu vergleichen.
- F-Score: Der F1-Score ist ein gewichteter Durchschnittswert aus dem wahren Positivwert (Recall) und der Präzision.
- Roc-Kurve: Die Roc-Kurve zeigt die wahr-positiven Raten gegen die falsch-positiven Raten bei verschiedenen Grenzwerten. Sie zeigt auch einen Kompromiss zwischen der Sensitivität (Recall) und der Spezifität (True-Negative-Rate).
- Präzision: Die Präzisionsmetrik zeigt die Genauigkeit der positiven Klasse an. Sie misst, wie wahrscheinlich es ist, dass die Vorhersage der positiven Klasse richtig ist.
Die maximale Punktzahl ist 1, wenn der Klassifikator alle positiven Werte perfekt klassifiziert. Precision allein ist nicht sehr hilfreich, weil sie die negative Klasse ignoriert. Die Metrik wird normalerweise mit der Recall-Metrik gepaart. Recall wird auch Sensitivität oder True-Positive-Rate genannt.
- Sensitivität: Die Sensitivität berechnet den Anteil der korrekt erkannten positiven Klassen. Diese Kennzahl gibt an, wie gut das Modell eine positive Klasse erkennen kann.
Warum brauchst du eine Konfusionsmatrix?
Hier sind die Vor- und Nachteile einer Konfusionsmatrix.
- Sie zeigt, wie jedes Klassifizierungsmodell verwirrt ist, wenn es Vorhersagen trifft.
- Die Konfusionsmatrix gibt dir nicht nur Aufschluss über die Fehler, die dein Klassifikator macht, sondern auch über die Art der Fehler, die gemacht werden.
- Diese Aufschlüsselung hilft dir, die Beschränkung der Klassifizierungsgenauigkeit allein zu überwinden.
- Jede Spalte der Konfusionsmatrix steht für die Instanzen der vorhergesagten Klasse.
- Jede Zeile der Konfusionsmatrix steht für die Instanzen der tatsächlichen Klasse.
- Sie gibt nicht nur Aufschluss über die Fehler, die ein Klassifikator macht, sondern auch über die Fehler, die gemacht werden.
0 Kommentare