Wir betrachten die grafische Darstellung von Wertepaaren zweier Größen X und Y. Die Abhängigkeit dieser Größen voneinander nennt man Korrelation. Ein Maß für die Korrelation ist der sogenannte Korrelationskoeffizient:
Ist so heißen die Zufallsgrößen unkorreliert, wird ein hoher Korrelationskoeffizient ermittelt, kann ein kausaler Zusammenhang zwischen den Zufallsgrößen angenommen werden.
Die Ermittlung eines funktionalen Zusammenhangs zwischen X und Y führt zu einer Funktion, deren Graph möglichst nahe an allen Punkten liegt. Eine solche Funktion nennt man Regressionsfunktion, das Verfahren zu ihrer Ermittlung Regression.
Ist die Regressionsfunktion eine lineare Funktion, liegt eine lineare Regression vor, der dazugehörige Graph heißt dann Regressionsgerade.
Für eine lineare Regressionsfunktion gilt:
Damit besteht die Möglichkeit, die Regressionsfunktion auch ohne vorherige Berechnung des Korrelationskoeffizienten zu bestimmen.
Beispiel: In einem Sportverein werden Körpergröße (Zufallsgröße X) und Körpergewicht (Zufallsgröße Y) von jugendlichen Sportlern (gleichen Geschlechts) gemessen. Dabei ergeben sich die folgenden Messwerte:
| 181 | 167 | 180 | 174 | 184 | 181 | 179 | 183 | 173 | 180 |
| 70,5 | 68,3 | 75,0 | 69,2 | 90,0 | 78,8 | 76,6 | 82,7 | 74,0 | 78,1 |
In der Annahme, dass zwischen Größe und Gewicht ein linearer Zusammenhang besteht, soll die Regressionsfunktion ermittelt und dargestellt werden.