logistic regression

Was ist Logistic Regression?

Stefan
4 Min Read
logistic regression

Sie möchten sich mit der Theorie der llogistic regression vertraut machen, wissen aber nicht, wo Sie anfangen sollen? Dieses Tutorial führt Sie durch die Grundlagen.

Die logistic regression ist ein überwachter maschineller Lernalgorithmus, der häufig zur Klassifizierung1/0 verwendet wird. Wir verwenden die logistic regression, um ein binäres Ergebnis ( , Yes/No, ) für einen Satz unabhängiger Variablen vorherzusagen True/False. Zur Darstellung binärer/kategorialer Ergebnisse verwenden wir Dummyvariablen.

Die logistic regression verwendet eine Gleichung zur Darstellung, ganz ähnlich wie die lineare Regression . Tatsächlich unterscheidet sich die logistic regression nicht sehr von der linearen Regression, außer dass wir eine Sigmoidfunktion in die lineare Regressionsgleichung einpassen.                                     

Einfache lineare und multiple lineare Regressionsgleichung:

y = b0 + b1x1 + b2x2 + … + e

Sigmoid-Funktion:

p = 1 / (1 + e ^ -(y))

Gleichung der logistic regression:

p = 1 / (1 + e ^ -(b0 + b1x1 + b2x2 +… + e))

In diesem Fall:

  • pist die Wahrscheinlichkeit des Ergebnisses
  • yist die vorhergesagte Ausgabe
  • b0ist der Bias- oder Achsenabschnittsterm

Jede Spalte in Ihren Eingabedaten hat einen zugehörigen bKoeffizienten (einen konstanten Realwert), den Ihre Trainingsdaten lernen müssen.

Lineare Regression vs. logistic regression: Was ist der Unterschied?

Bei der linearen Regression ist das Ziel eine kontinuierliche (reale) Variable, während bei der logistic regression das Ziel eine diskrete (binäre oder ordinale) Variable ist.

Der vorhergesagte Wert im Fall einer linearen Regression ist der Mittelwert der Zielvariablen bei den gegebenen Werten der Eingabevariablen. Der vorhergesagte Wert bei einer logistic regression hingegen ist die Wahrscheinlichkeit eines bestimmten Zielvariablenniveaus bei den gegebenen Werten der Eingabevariablen.

Arten der logistic regression

Binäre logistic regression

Die Zielvariable hat nur zwei mögliche Ergebnisse , nämlich die Klassifizierung von E-Mails als Spam oder kein Spam .

Multinomiale logistic regressions

Die Zielvariable hat drei oder mehr Kategorien ohne Reihenfolge, beispielsweise die Vorhersage, welche Art von Essen eine Gruppe von Menschen eher bevorzugt (vegetarisch, nicht-vegetarisch oder vegan).

Ordinale logistic regressions

Die Zielvariable hat drei oder mehr Kategorien mit Sortierung , z. B. die Bewertung eines Films auf einer Skala von eins bis fünf.

Entscheidungsgrenze in der logistic regressions

Um vorherzusagen, zu welcher Klasse die Daten gehören, können Sie einen Schwellenwert festlegen, den wir Entscheidungsgrenze nennen. Basierend auf diesem Schwellenwert klassifizieren wir die erhaltene geschätzte Wahrscheinlichkeit in verschiedene Klassen. Sagen wir, wenn predicted_value ≥ 0.5, dann klassifizieren Sie die E-Mail als Spam, andernfalls als kein Spam.

Entscheidungsgrenzen können linear oder nichtlinear sein. Sie können auch die Polynomordnung erhöhen, um eine komplexe Entscheidungsgrenze zu erhalten sigmoid.

Häufig gestellte Fragen

Was ist logistic regressions in einfachen Worten?

Die logistic regressions ist ein statistisches Modell, das auf der Analyse vorheriger variabler Daten basiert und schätzt, wie wahrscheinlich es ist, dass ein binäres Ergebnis eintritt, beispielsweise in Ja/Nein- oder Wahr/Falsch-Szenarien.
Da bei der logistic regressions eine Wahrscheinlichkeit bestimmt wird, ist die abhängige Variable in diesem Modell immer ein Wert zwischen 0 und 1.

Was ist der Unterschied zwischen linearer Regression und logistischer Regression?

Mit der linearen Regression lassen sich variable Ergebnisse auf einer kontinuierlichen Skala modellieren, während mit der logistic regressions variable Ergebnisse nur auf einer diskreten oder kategorischen Skala modelliert werden können.

Wofür lässt sich die logistic regressions am besten verwenden?

Die logistic regressions eignet sich am besten für Klassifizierungs- und Vorhersageprobleme beim maschinellen Lernen. Sie kann eingesetzt werden, um Betrug zu erkennen, die Wahrscheinlichkeit von Krankheiten zu bestimmen oder das Nutzerverhalten auf Websites und Apps vorherzusagen.