Beim Erstellen von Computer-Vision-Systemen können Sie die Wirksamkeit eines Systems anhand verschiedener Kennzahlen bewerten.
Eine weit verbreitete Metrik ist der F1 Score. Der F1 Score kombiniert Präzision und Rückruf in einem einzigen Wert. Der F1 Score eines Modells ist besonders nützlich, wenn falsche positive und negative Ergebnisse vermieden werden müssen.
Denken Sie beispielsweise an ein medizinisches Bildgebungssystem, das zur Diagnose von Krankheiten verwendet wird. Falsche Positivwerte könnten zu unnötigen Behandlungen führen, was Stress und potenzielle Schäden für die Patienten verursacht, während falsch negative Ergebnisse dazu führen könnten, dass wichtige Behandlungen versäumt werden. Ein hoher F1 Score sagt uns, dass das Modell echte Fälle effektiv und mit wenigen Fehlern identifiziert und in medizinischen Umgebungen eingesetzt werden kann.
In diesem Artikel untersuchen wir den F1 Score, wie er berechnet wird, welche Bedeutung er für Ihr Computer-Vision-Modell hat und welche Stärken und Schwächen er in realen Anwendungen hat. Legen wir los!
Eine Einführung in Präzision und Rückruf
Bevor wir uns näher mit dem F1 Score befassen, müssen wir uns mit Präzision und Rückruf befassen . Um ihre Formeln zu verstehen, führen wir eine Konfusionsmatrix ein. Eine Konfusionsmatrix fasst die Ergebnisse der Vorhersagen des Modells für einen Datensatz zusammen und vergleicht die vorhergesagten Beschriftungen mit den tatsächlichen Beschriftungen.
Die vier Komponenten einer Konfusionsmatrix sind:
- True Positive (TP): Die Anzahl der vom Modell korrekt als positiv vorhergesagten Instanzen.
- Falsch-positiv (FP): Die Anzahl der Instanzen, die vom Modell fälschlicherweise als positiv vorhergesagt wurden.
- True Negative (TN): Die Anzahl der Instanzen, die vom Modell korrekt als negativ vorhergesagt wurden.
- Falsch-Negativ (FN): Die Anzahl der Instanzen, die vom Modell fälschlicherweise als negativ vorhergesagt wurden.
Die Präzision misst, wie genau ein Modell positive Fälle identifiziert. Sie konzentriert sich auf den Anteil korrekt identifizierter positiver Objekte (wie einen Apfel in einem Bild) und vermeidet falsche Positivwerte (die irrtümliche Identifizierung einer Orange als Apfel). Dies hilft bei der Bewertung der allgemeinen Fähigkeit des Modells, relevante von irrelevanten Objekten zu unterscheiden.
Hier ist die Formel zur Berechnung der Präzision:
Präzision = Wahre Positive (TP) / (Wahre Positive (TP) + Falsche Positive (FP))
Die Rückrufquote hingegen konzentriert sich darauf, wie gut ein Modell alle positiven Fälle erfasst. Dabei werden sowohl korrekt identifizierte positive Objekte (wie das Finden aller Äpfel in einem Bild) als auch solche berücksichtigt, die das Modell übersehen hat (wie das Nichterkennen eines Apfels). Bei der Bewertung fehlender positiver Fälle, wie dem Erkennen eines Diebes, der ein Sicherheitssystem verwendet, sollte die Rückrufquote eines Modells hoch sein.
Hier ist die Formel zur Berechnung des Recalls:
Rückruf = Wahre Positive (TP) / (Wahre Positive (TP) + Falsche Negative (FN))
Nachdem wir nun Präzision und Rückruf verstanden haben, tauchen wir in die F1 Score-Metrik ein.
Was ist ein F1 Score?
Ein F1 Score ist eine wertvolle Metrik zur Bewertung der Leistung eines Modells, da er den Kompromiss zwischen Präzision und Rückruf berücksichtigt. Das Grundkonzept des F1 Scores besteht darin, dass er das harmonische Mittel von Präzision und Rückruf misst. Der Wert des F1 Scores liegt zwischen 0 und 1, wobei 1 der beste Wert ist.
Die Formel für den F1 Score lautet:
F1 Score = 2 * (Präzision * Rückruf) / (Präzision + Rückruf)
Berechnen Sie den F1 Score für Ihr Modell
Nachdem wir nun gelernt haben, was der F1 Scores ist, wollen wir anhand eines Beispiels lernen, wie man ihn Schritt für Schritt berechnet.
Binäre Klassifizierung
Schritt 1: Sie erstellen ein Computervisionsmodell, um zu bestimmen, ob ein Bild einen Apfel oder eine Orange enthält. Sie haben ein Modell und möchten seine Leistung anhand des F1 Scores bewerten. Sie übergeben dem Modell 15 Bilder mit Äpfeln und 20 Bilder mit Orangen. Von den gegebenen 15 Apfelbildern sagt der Algorithmus 9 Bilder als orangefarbene Bilder und von den 20 orangefarbenen Bildern 6 Bilder als Apfelbilder voraus.
Schritt 2: Betrachten wir Apfelbilder als positive Klasse und Orangenbilder als negative.
- Von 15 Apfelbildern (P) wurden 9 als Orangen vorhergesagt. Daher waren nur 15 – 9 = 6 Vorhersagen richtig. True Positive (TP) = 6.
- Obwohl 9 als Orangen vorhergesagt wurden, waren Äpfel dran. Also, False Negative (FN) = 9
- Ebenso waren von 20 orangefarbenen Bildern (N) nur 20 – 6 = 14 Vorhersagen richtig. Wahres Negativ (TN) = 14.
- Obwohl 6 als Äpfel vorhergesagt wurden, waren es Orangen. Also, False Positive (FP) = 6
Schritt 3: Lassen Sie uns diese Daten zur besseren Visualisierung in eine Konfusionsmatrix einfügen.
Schritt 4: Berechnen wir nun die Präzisions- und Rückrufwerte.
Präzision = (TP) / (TP + FP) = (6) / (6 + 6) ~ 0,5
Rückruf = (TP) / (TP + FN) = (6) / (6 + 9) ~ 0,4
Schritt 5: Berechnen Sie mit den oben berechneten Werten den F1 Score.
F1 Score = 2 * (Präzision * Rückruf) / (Präzision + Rückruf) = 2 * (0,5 * 0,4) / (0,5 + 0,4) ~ 0,44
Wir haben für das Modell einen F1 Score von 0,44 erreicht . Dies gilt für die binäre Klassifizierung.
Sehen wir uns nun ein Beispiel für die Berechnung des F1 Scores für Multiklassenszenarien an. Es gibt drei Ansätze zur Berechnung des F1 Scores für einen Multiklassenfall: Makro, Mikro und Gewichtet. Wir werden jeden Ansatz durchgehen.
Mehrklassenklassifizierung
Fügen wir unserem Beispiel eine weitere Klasse hinzu: Mangos. Angenommen, Sie übergeben dem Modell 15 Bilder mit Äpfeln, 20 Bilder mit Orangen und 12 Bilder mit Mangos. Die Vorhersagen lauten wie folgt:
- 15 Apfelbilder: 9 als Orangen, 3 als Mangos und 15 – 9 – 3 = 3 als Äpfel.
- 20 Orangenbilder: 6 als Äpfel, 4 als Mangos und 20 – 6 – 4 = 10 als Orangen.
- 12 Mangobilder: 4 als Orangen, 2 als Äpfel und 12 – 4 – 2 = 6 als Mangos.
Makro F1-Ergebnis
Der Makro-F1 Score ist eine Möglichkeit, die Multiklassenklassifizierung als Ganzes zu untersuchen. Um den Makro-F1 Score zu berechnen, können Sie die Makropräzision und den Makrorückruf berechnen und dann die F1 Score-Formel verwenden. Dieser Ansatz behandelt alle Klassen gleich, da er darauf abzielt, das Gesamtbild zu sehen und die Leistung des Algorithmus über alle Klassen hinweg in einem Wert zu bewerten.
Sehen wir uns an, wie es berechnet wird:
Micro F1-Ergebnis
Im Gegensatz zum Macro F1 Score untersucht der Micro F1 Score einzelne Klassen. Um ihn zu berechnen, können Sie Micro Precision und Micro Recall berechnen und dann die F1 Score-Formel verwenden. Der Micro F1 Score kombiniert die Beiträge aller Klassen, um die durchschnittliche Metrik zu berechnen.
Sehen wir uns an, wie dieser berechnet wird:
Gewichteter F1 Score
Der gewichtete F1 Score berechnet den F1 Score für jede Klasse unabhängig, bei der Durchschnittsbildung wird jedoch eine Gewichtung verwendet, die von der Anzahl der echten Instanzen (Unterstützung) für jede Klasse abhängt.
Sehen wir uns an, wie der gewichtete F1 Score berechnet wird:
Schritt 1: Berechnen Sie Präzision und Rückruf für jede Klasse
Berechnen Sie die F1-Punktzahl für jede Klasse:
Berechnen Sie den gewichteten F1 Score mit echten Instanzen (Unterstützung) jeder Klasse:
Vorteile und Einschränkungen des F1 Scores
Da der F1 Score eine ausgewogene Metrik ist, eignet er sich perfekt für unausgewogene Datensätze, bei denen eine Klasse von Beobachtungen die andere deutlich überwiegt. In solchen Fällen kann die Genauigkeit allein irreführend sein, da ein Modell, das einfach die Mehrheitsklasse vorhersagt, einen hohen Genauigkeitswert erreichen kann. Der F1 Score, der sowohl Präzision als auch Rückruf berücksichtigt, bietet eine robustere Bewertungsmetrik.
Ein weiterer Vorteil der Verwendung des F1 Scores besteht darin, dass er zum Vergleichen und Auswählen von Modellen verwendet werden kann, die je nach den spezifischen Anforderungen der Anwendung das richtige Gleichgewicht zwischen Präzision und Trefferquote bieten. In einem Betrugserkennungssystem kann beispielsweise die Präzision wichtiger sein, da Fehlalarme kostspielig sein können. In einem System zur Klassifizierung von Spam-E-Mails kann hingegen die Trefferquote wichtiger sein, da das Übersehen positiver Instanzen schwerwiegende Folgen haben kann.
Hier sind einige Einschränkungen, die bei der Berechnung des F1 Scores für ein Modell ebenfalls berücksichtigt werden müssen:
- Ungleiche Kosten von Fehlern: Der F1 Score geht davon aus, dass Präzision und Rückruf gleich wichtig sind. Dies ist möglicherweise nicht ideal in Situationen, in denen einige Fehler weitaus schwerwiegender sind als andere.
- Begrenzte Informationen: Es wird nur ein einzelner Wert bereitgestellt, was ein Nachteil sein kann. Es werden keine Details zur Fehlerverteilung angezeigt (z. B. wie viele falsch positive bzw. negative Ergebnisse).
- Ignoriert echte Negative: Diese Metrik konzentriert sich auf die korrekte Klassifizierung positiver Instanzen und die Erfassung aller relevanten. Echte Negative werden jedoch nicht berücksichtigt, was in einigen Szenarien wichtig sein kann, in denen die Identifizierung irrelevanter Fälle von entscheidender Bedeutung ist.
Abschluss
Der F1 Score gibt Ihnen Einblicke in die Leistung eines Computer Vision-Modells, die über seine grundlegende Genauigkeit hinausgeht. Durch die Abwägung von Präzision und Rückruf liefert er ein klareres Bild der tatsächlichen Wirksamkeit eines Modells. Der F1 Score ist zwar möglicherweise nicht die einzige Metrik auf Ihrem Dashboard, aber er ist ein leistungsstarkes Tool, um tiefere Einblicke in die wahren Fähigkeiten Ihres Modells zu erhalten.
Siehe auch
- Erfahren Sie mehr über Präzision und Rückruf beim maschinellen Lernen .
- Ein Artikel zur mittleren durchschnittlichen Präzision (mAP) bei der Objekterkennung .
- Eine Anleitung zur Bewertung von Computer-Vision-Modellen mit CVevals .
Zitieren Sie diesen Beitrag
Verwenden Sie den folgenden Eintrag, um diesen Beitrag bei Ihrer Recherche zu zitieren:
Mitwirkender Autor . (27. Juni 2024). Was ist der F1 Score? Ein Computer Vision-Leitfaden. Roboflow-Blog: https://blog.roboflow.com/f1 score/
Besprechen Sie diesen Beitrag
Wenn Sie Fragen zu diesem Blogbeitrag haben, starten Sie eine Diskussion im Roboflow-Forum .