Linear ist nicht gleich linear ODER Der größte Irrtum in der linearen Regression
Linearität als Begriff hat verschiedene Bedeutungen, was dazu geführt hat, dass sich ein großer Irrtum in den Sozialwissenschaften verbreitet hat. Bei der linearen Regression gehen Sozialwissenschaftler davon aus, dass sich die Linearität auf den Zusammenhang bezieht. Dies ist aber schlichtweg falsch. Natürlich lassen sich auch nicht-lineare Zusammenhänge mit der linearen Regression modellieren. Linearität bezieht sich bei der linearen Regression auf die Parameter! Aber Schritt für Schritt.
Wer macht’s falsch?
Aus meiner Erfahrung so gut wie alle Psychologen, aber ungünstig ist insbesondere, dass es auch Professoren oft falsch machen und somit ihren Studierenden falsch vermitteln. In vielen Büchern zur Methodenlehre ist der Fehler ganz offensichtlich. Im Bortz und Schuster (2010, S. 192)1, einem absoluten Standardwerk der Disziplin, steht zu Voraussetzungen bei linearer Regression:
- Linearität: Die in der Population vorliegende Abhängigkeit zwischen den Erwartungswerten des Kriteriums und den Prädiktorwerten ist durch eine Gerade gegeben.
Leider falsch.
Im Dorsch Lexikon, der ersten Referenz für Psychologie schlechthin, steht:
Regression, lineare [engl. linear regression], [FSE], Regressionsanalyse, bei der ein linearer Zusammenhang zw. einer Kriteriumsvariablen Y und einer (einfache lineare Regression) oder mehreren (multiple lineare Regression) Prädiktorvariablen angenommen wird.2
Wieder ganz falsch und das sind keine Ausnahmen. Das zieht sich so durch alle Methodenlehrbücher und dieser hartnäckige Irrtum ist kaum wegzubekommen. Probier es einfach mal aus: Schlag Dein Lehrbuch auf und suche bei linearer Regression nach der Erklärung was genau linear ist. Wenn Du ein Buch findest, in dem es richtig steht, hinterlasse hier doch gerne einen Kommentar (einfach rechts die Kommentier-Leiste von hypothes.is benutzen).
Da rächt sich die schwache mathematische Ausbildung von Sozialwissenschaftlern. Dass uns Psychologen keiner wirklich ernst nimmt, ist nicht verwunderlich. Die Basics sitzen nicht.
Wie ist es denn jetzt nun richtig?
Linearität bezieht sich auf die Parameter. Diese müssen unabhängig sein, was auch Sinn ergibt, denn ansonsten könnten wir sie nicht unabhängig schätzen. Ganz konkret:
\[ \begin{align} \hat{y} &= b_0+b_1x_1^2 \qquad (1)\\ \hat{y} &= b_0+b_1b_2x_1 \quad \ (2)\\ \hat{y} &= b_0+b_1x_1x_2 \quad (3)\\ \hat{y} &= b_0+b_1e^x \qquad (4)\\ \end{align} \]
Welches von diesen Modellen ist linear? Alle bis auf das zweite! Warum ist das zweite nicht-linear? Weil die Parameter abhängig voneinander sind. Bilden wir die Ableitung nach \(b_1\), so bekommen wir \(b_2x_1\) heraus. Die Ableitung hängt also von einem anderen Parameter ab. Wir können den Koeffizienten \(b_1\) nicht ohne weiteres optimieren. Gleiches gilt auch für die Ableitung nach \(b_2\), bei der \(b_1x_1\) herauskommt. Das Modell lässt sich nicht mit einer linearen Regression fitten. Bei allen anderen Modellen ist dies durchaus möglich, denn die Ableitungen enthalten keine Koeffizieten. Probier’s einfach selbst aus, bilde die Ableitung nach \(b_1\) und prüfe es nach.
Konsequenzen
Technisch gesehen sind die Konsequenzen nicht gravierend. Meist gibt es keine ausgereiften Theorien, auf die sich Psychologen beziehen. Die Annahme von Linearität in den Parametern ist somit nebensächlich. Wenn Psychologen anfangen ernthafte Theorien aufzustellen, könnte sich dies ändern. Aber die, die solche Theorien aufstellen, wissen sowieso schon was Linearität bedeutet.
Handlungsbedarf ist trotzdem vorhanden, wenn wir Psychologen nicht mehr belächelt werden wollen.
Footnotes
Bortz, J., & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler. Springer.↩︎