linear regression

Was ist linear Regression? (Arten, Beispiele, Karrieren)

Stefan
13 Min Read
linear regression

Fachleute verwenden linear Regression in vielen Branchen, um Vorhersagen zu treffen, Geschäftsentscheidungen zu treffen, sich auf bevorstehende Ereignisse vorzubereiten und Antworten auf Forschungsfragen zu finden. In diesem Artikel können Sie tiefer in die Feinheiten der linearen Regression eintauchen, einschließlich der Definition, verschiedener Arten der linearen Regression und wie dieses statistische Tool in verschiedenen Berufen verwendet wird.

Was ist Regressionsanalyse?

Die Regressionsanalyse ist eine statistische Methode, mit der wir die Beziehung zwischen zwei oder mehr Variablen verstehen können. Bevor wir uns mit der linearen Regression befassen, ist es wichtig, einige wichtige Definitionen zu verstehen:

  • Abhängige Variable : Die abhängige Variable oder Antwortvariable ist die Variable, die Sie verstehen oder vorhersagen möchten. Dies könnte beispielsweise die Note sein, die ein Schüler bei einem Test erreicht.
  • Unabhängige Variablen : Die unabhängigen Variablen oder erklärenden Variablen sind Variablen, von denen Sie denken, dass sie Ihre abhängige Variable beeinflussen könnten. Im obigen Beispiel könnte dies die Anzahl der Stunden sein, die der Schüler gelernt hat, sein Vorwissen, die Anzahl der Stunden, die er geschlafen hat, und so weiter.
  • Regressionsgleichung : Die Regressionsgleichung ist die Formel, die auszudrücken versucht, wie Ihre unabhängigen Variablen (wie Lernen, Schlaf usw.) mit Ihrer abhängigen Variablen (dem Testergebnis) zusammenhängen. 

Wenn Sie eine Regressionsanalyse durchführen, bietet Ihre Regressionsgleichung eine Möglichkeit, zukünftige Ergebnisse auf der Grundlage der Ihnen aktuell zur Verfügung stehenden Informationen vorherzusagen. Wenn Sie beispielsweise Daten darüber hätten, wie viel frühere Schüler gelernt, geschlafen und wie gut sie bei Tests abgeschnitten haben, könnten Sie eine Regressionsanalyse durchführen, um eine Gleichung zu erstellen, die die Testergebnisse zukünftiger Schüler auf der Grundlage davon vorhersagt, wie viel sie gelernt und geschlafen haben. Wenn Sie mehr Daten erhalten, können Sie Ihre Gleichung weiter aktualisieren, um ihre Gültigkeit und Ergebnisse zu verbessern.

Was ist linear Regression? 

Die linear Regression ist ein spezieller Typ der Regressionsanalyse, den Sie verwenden, wenn Sie eine klare, geradlinige Beziehung zwischen Ihren unabhängigen und abhängigen Variablen erwarten. Daher kommt auch der Begriff „linear“ in der linearen Regression. Sie beschreiben die gerade Linie durch eine Gleichung: Y = aX + b.

  • Y ist die abhängige Variable.
  • X ist die unabhängige Variable.
  • „b“ ist der y-Achsenabschnitt oder der Punkt, an dem die Linie die y-Achse kreuzt.
  • „a“ ist die Steigung der Linie, die angibt, wie stark sich Y ändert, wenn sich X ändert.

Bei der linearen Regression versuchen Sie, die „beste Anpassungslinie“ zu finden, die die Beziehung zwischen Ihren Variablen darstellt. Der Begriff „Genauigkeit“ bezieht sich hier normalerweise auf die Linie, bei der der Gesamtabstand zwischen der Linie und allen Ihren Datenpunkten (sowohl über als auch unter der Linie) so gering wie möglich ist. Dies ist das „Kleinste-Quadrate“-Modell. Sobald Sie Ihre „beste Anpassungslinie“ haben, können Sie sie verwenden, um Vorhersagen zu treffen. 

Arten der linearen Regression

Bei der linearen Regression können Sie eine oder mehrere unabhängige Variablen haben. Wenn Sie nur eine haben, nennt man das „einfache linear Regression“. Wenn Sie mehr als eine haben, nennt man das „multiple linear Regression“. Je mehr Variablen Sie einbeziehen, desto komplexer wird Ihre Gleichung, aber die Grundidee ist dieselbe.

1. Einfache linear Regression

Die einfache linear Regression ist die einfachste Form der linearen Regression und umfasst nur eine unabhängige und eine abhängige Variable. Stellen Sie sich beispielsweise vor, Sie untersuchen die Beziehung zwischen der Anzahl der Stunden, die jemand pro Woche trainiert (unabhängige Variable) und seinem Blutdruck (abhängige Variable).

Bei einer einfachen linearen Regression würden Sie diese Beziehung mithilfe der Gleichung Y = a + bX modellieren, wobei:

  • Y ist die abhängige Variable (Blutdruck).
  • X ist die unabhängige Variable (Ausübungsstunden).
  • a ist der y-Achsenabschnitt (Blutdruck bei null Trainingsstunden).
  • b ist die Steigung (um wie viel sich der Blutdruckwert mit jeder zusätzlichen Trainingsstunde ändert).

Das Ziel einer einfachen linearen Regression besteht darin, die besten Werte für „a“ und „b“ zu finden, um die Regressionsgerade zu erstellen. Diese Gerade hilft uns, die abhängige Variable (Blutdruck) basierend auf der unabhängigen Variable (Trainingsstunden) vorherzusagen.

2. Multiple linear Regression

Die multiple linear Regression ist eine direkte Erweiterung der einfachen linearen Regression und wird verwendet, wenn mehr als eine unabhängige Variable vorhanden ist. Betrachten Sie anhand desselben Studienbeispiels sowohl die Anzahl der Stunden, die Sie trainiert haben, als auch die Anzahl der Stunden, die Sie jede Nacht geschlafen haben, bevor Sie Ihren Blutdruck messen. Jetzt haben Sie zwei unabhängige Variablen, also haben Sie es mit multipler linearer Regression zu tun.

In diesem Fall würde die Gleichung etwa so aussehen: Y = a + b1(X1) + b2(X2). In dieser Gleichung gilt:

  • Y ist immer noch die abhängige Variable (Blutdruck).
  • X1 und X2 sind die unabhängigen Variablen (Trainingsstunden und Schlafstunden).
  • a ist der y-Achsenabschnitt (der Blutdruckwert ohne körperliche Betätigung oder Schlafstunden).
  • b1 und b2 sind die Steigungen (um wie viel sich der Blutdruckwert mit jeder zusätzlichen Stunde Training bzw. jeder zusätzlichen Stunde Schlaf ändert).

Bei der multiplen linearen Regression bleibt das Ziel dasselbe: die besten Werte für „a“, „b1“ und „b2“ zu finden, die am besten zu den Daten passen. So können wir das Testergebnis sowohl auf der Grundlage der Lernstunden als auch der Schlafstunden vorhersagen.

Beim Erstellen Ihres Modells müssen Sie häufig Entscheidungen darüber treffen, welche Variablen einbezogen werden sollen. Wie Sie sich vielleicht vorstellen können, wird das resultierende Modell je nach den einbezogenen Variablen unterschiedlich ausfallen. Deshalb ist es wichtig, sorgfältig über Ihr Modell nachzudenken. 

Beispiele für linear Regression 

Linear Regression findet in fast allen Bereichen Anwendung. Einige Beispiele für linear Regression in verschiedenen Branchen:

  • Politik : Das Verhältnis zwischen Staatsausgaben und öffentlicher Unterstützung
  • Wirtschaft : Die Beziehung zwischen Umsatz und Mitarbeitergehalt
  • Umwelt : Die Beziehung zwischen Kohlendioxidemissionen und Steuern
  • Soziologie : Der Zusammenhang zwischen Berufsgehalt und Bewerberqualifikation
  • Psychologie : Die Beziehung zwischen Kultur und integrativem Verhalten
  • Gesundheit : Die Beziehung zwischen Patientendemografie und Körpergewicht
  • Bildung : Die Beziehung zwischen akademischen Noten und geografischem Standort

So führen Sie eine linear Regression durch

Sie können die linear Regression manuell oder mithilfe statistischer Software durchführen. Im Allgemeinen wird die linear Regression am effektivsten mithilfe von Computersoftware durchgeführt. Diese Software kann sowohl einfache als auch multiple linear Regressionen durchführen und verschiedene Modelle mit unterschiedlichen Variablenkombinationen erstellen. Einige Software und Programmiersprachen, die Sie für die linear Regression verwenden könnten, sind R, scikit-learn, MATLAB , Python , Stata und Excel .

Vor- und Nachteile der linearen Regression

Wenn Sie sich für die linear Regression entscheiden, kann Ihnen das Wissen über die Vor- und Nachteile dieser Methode dabei helfen, zu entscheiden, wann sie angemessen ist, und Ihre Ergebnisse genauer zu interpretieren. Die linear Regression ist ein leistungsstarkes statistisches Werkzeug, und Sie können bei der Verwendung dieser Methode mehrere Vorteile finden. 

Vorteile

Zu den Vorteilen, die Sie möglicherweise finden, gehören:

  • Benutzerfreundlichkeit : Die linear Regression wird im Allgemeinen als ein einfacher und handhabbarer Algorithmus angesehen, der auf vielen Arten von Computersystemen verwendet werden kann.
  • Einfachheit und Effizienz : Die zugrunde liegende linear Regressionstechnik ist im Vergleich zu anderen Techniken des maschinellen Lernens relativ einfach zu verstehen
  • Modellierung linearer Beziehungen : Mit der linearen Regression lassen sich Datensätze, die linear trennbar sind, effektiv modellieren, was sie bei der Bestimmung von Beziehungen zwischen Variablen nützlich macht.
  • Fundierte Erkenntnisse gewinnen : Mit der linearen Regression können Sie Ihre Daten verwenden, um die Beziehungen zwischen verschiedenen Variablen zu untersuchen und Vorhersagen auf der Grundlage verschiedener Werte zu treffen. Dies hilft bei der Entscheidungsfindung, beispielsweise bei der Optimierung einer Marketingstrategie oder der Zuweisung des richtigen Ressourcenvolumens für ein Projekt.

Einschränkungen

Obwohl die linear Regression bei richtiger Anwendung leistungsstark ist, ist sie nicht für jeden Anwendungsfall geeignet. Wenn Sie sich der Einschränkungen bewusst sind, können Sie besser entscheiden, wann dies der richtige Algorithmus für Sie ist. Einige der Einschränkungen, auf die Sie stoßen könnten, sind:

  • Kausalität vs. Korrelation : Regressionsanalysen zeigen nur Korrelationen, nicht Kausalität. Nur weil sich zwei Dinge scheinbar gemeinsam bewegen, heißt das nicht, dass das eine das andere direkt beeinflusst. Es könnten andere versteckte Faktoren im Spiel sein, oder es könnte ein Zufall sein. Es ist immer wichtig, andere Formen der Forschung und des kritischen Denkens zu nutzen, um Ihre Ergebnisse aus der Regressionsanalyse zu untermauern.
  • Risiko der Unteranpassung : Linear Regression kann zu einer Unteranpassung führen. Dies geschieht, wenn das maschinelle Lernmodell die Daten nicht genau darstellt.
  • Beschränkt auf lineare Beziehungen : Bei der Messung der Beziehung zwischen natürlich vorkommenden Variablen kann die zugrunde liegende Form nicht linear sein. Da die linear Regression eine lineare Beziehung zwischen Eingabe- und Ausgabevariablen voraussetzt, wäre diese Art der Analyse bei komplexen Datensätzen nicht genau anwendbar.
  • Empfindlichkeit gegenüber Ausreißern : Ausreißer oder Extremwerte können die linear Regression erheblich beeinflussen, indem sie die Regressionsgerade in ihre Richtung ziehen. Dies kann zu Modellen führen, die die Daten nicht gut darstellen.

In welchen Berufen kommt die linear Regression zum Einsatz? 

Die linear Regression ist eine sehr verbreitete statistische Technik und daher ein beliebtes Werkzeug in vielen Berufen, um Erkenntnisse aus Daten zu gewinnen. Einige Berufe, in denen die linear Regression zum Einsatz kommt, sind:

  • Sportanalysten : Sportanalysten können die linear Regression verwenden, um auf Grundlage früherer Saisons die Leistung bestimmter Spieler oder Teams vorherzusagen.
  • Marketinganalysten : Marketingteams können sich die Leistung früherer Produkte oder Kampagnen ansehen, um Vorhersagen für zukünftige Produkte oder Kampagnen zu treffen.
  • Finanzanalysten : Finanzanalysten können auf der Grundlage einer Vielzahl von Faktoren die Entwicklung von Aktien oder Anlagen vorhersagen.
  • Umweltschützer : Umweltschützer können Verschmutzung, Emissionen und andere Umweltdaten auf Grundlage der Umweltdaten der Vorjahre vorhersagen.

Muss lesen: Paula Dietz: Die betrogene Ehefrau des BTK-Killers

Nächste Schritte mit Coursera

Die linear Regression, einschließlich einfacher und multipler linearer Regression, ist eine gängige statistische Analysemethode, mit der Sie vorhersagen, wie eine Variable wahrscheinlich auf Änderungen Ihrer anderen Variablen reagiert. Fachleute verwenden dieses Tool in vielen verschiedenen Bereichen, beispielsweise in der Politik, im Finanzwesen, im Gesundheitswesen und im Marketing. 

Sie können sich mit linearer Regression und statistischer Analyse weiter beschäftigen, indem Sie mehrere Kurse auf Coursera nutzen. Als Anfänger können Sie mit Linear Regression and Modeling von der Duke University beginnen, bevor Sie fortgeschrittenere Kurse wie Regression Analysis: Simplify Complex Data Relationships von Google belegen.