Regressionsanalyse

Die Regressionsanalyse ist ein Instrumentarium statistischer Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen (auch erklärte Variable, Kriterium[svariable], vorhergesagte Variable, Antwortvariable oder Regressand genannt) und einer oder mehreren unabhängigen Variablen (auch erklärende Variable, Prädiktor[variable], Kontrollvariable oder Regressor) zu modellieren. Regressionen werden verwendet, um Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren.[1] Die häufigste Form der Regressionsanalyse ist die lineare Regression, bei der der Anwender eine Gerade (oder eine komplexere lineare Funktion) findet, die den Daten nach einem bestimmten mathematischen Kriterium am besten entspricht. Beispielsweise berechnet die gewöhnliche Methode der kleinsten Quadrate eine eindeutige Gerade (oder Hyperebene), die die Summe der Abweichungsquadrate zwischen den wahren Daten und dieser Linie (oder Hyperebene), d. h. die Residuenquadratsumme minimiert. Aus bestimmten mathematischen Gründen kann der Anwender den bedingten Erwartungswert der abhängigen Variablen schätzen, wenn die unabhängigen Variablen eine bestimmte Menge von Werten annehmen. Weniger gebräuchliche Formen der Regression verwenden geringfügig unterschiedliche Verfahren zum Schätzen alternativer Lageparameter (z. B. die Quantilsregression) oder zum Schätzen des bedingten Erwartungswertes für eine breitere Klasse nichtlinearer Modelle (z. B. nichtparametrische Regression).

Die Regressionsanalyse wird hauptsächlich zu zwei konzeptionell unterschiedlichen Zwecken verwendet. Erstens wird die Regressionsanalyse häufig für Schätzungen und Vorhersagen verwendet, bei denen sich ihre Verwendung erheblich mit dem Bereich des maschinellen Lernens überschneidet, siehe auch symbolische Regression. Zweitens kann in einigen Situationen eine Regressionsanalyse verwendet werden, um auf kausale Beziehungen zwischen den unabhängigen und abhängigen Variablen zu schließen. Wichtig ist, dass Regressionen für sich genommen nur Beziehungen zwischen einer abhängigen Variablen und einer oder mehrerer unabhängiger Variablen in einem gegebenen Datensatz aufzeigen. Um Regressionen für Vorhersagen zu verwenden oder Kausalzusammenhänge herzuleiten, muss der Anwender sorgfältig begründen, warum bestehende Beziehungen Vorhersagekraft für einen neuen Kontext haben oder warum eine Beziehung zwischen zwei Variablen eine Kausalzusammenhangsinterpretation hat (Korrelation und Kausalzusammenhang). Letzteres ist besonders wichtig, wenn Anwender mithilfe von Beobachtungsdaten kausale Zusammenhänge abschätzen möchten.

Durch die Ergänzung einer Entscheidungsregel wird eine Regression zu einem Klassifikationsverfahren.

  1. Klaus Backhaus: Multivariate Analysemethoden eine anwendungsorientierte Einführung. Hrsg.: SpringerLink. Springer, Berlin 2006, ISBN 3-540-29932-7.

Developed by StudentB