Sunteți pe pagina 1din 29

Analiza computerizată a datelor

Regresia lineară

Lect. univ. dr. Cornelia Măirean


Regresia lineară
1. Explicarea influenței unor variabile asupra unei alte
variabile.

2. Prezicerea performanțelor viitoare, pe baza unuia sau


a mai multor indicatori din prezent.

Performanța școlară
Predictori, criteriu
Variabilele pe baza cărora se face
Predictori (x)
predicția

Criteriu (y) Variabila care este estimată/ prezisă

Performanța școlară, prezisă pe baza nivelului de


cunoștințe deținute, motivației și conștiinciozității.

Predictori Criteriu
nivelului de cunoștințe deținute performanța școlară
motivație
conștiinciozitate
Regresia lineară

1. Variabila criteriu măsurată pe scală de interval sau de


raport.

2. Variabile predictor normal distribuite.


Exercițiu
Preziceţi scorurile la variabila dependență de rețele de
socializare, folosind variabilele narcisism și
sentimentul de singurătate.
Criteriu? Predictor?

narcisism, dependența
sentimentul de de rețele
singurătate socializare

Variabile
Variabila dependentă
independente
Criteriu, predictori

În cadrul unei analize de regresie, avem:


Un singur rezultat anticipat (criteriu – y)
Una sau mai multe variabile predictori (x1, x2, xn)

În funcție de numărul de predictori, avem:


1.Regresie simplă (un singur predictor)
2.Regresie multiplă (cel puțin doi predictori)
Analyze – Regression – Linear

1 4

3
2

5
Statistics – R squared change
Interpretarea output-ului

1. Ecuația de regresie
2. Puterea de predicție a modelelor
3. Ierarhizarea predictorilor
4. Ierarhizarea modelelor
5. Îmbunătățirea modelelor
6. Calcularea scorului brut la variabila criteriu
1. Ecuația de regresie
Estimarea scorului la criteriu, pe baza scorurilor la
variabilele predictori se face pe baza ecuației de regresie
(ecuație matematică).
Ecuația de regresie simplă
Un singur criteriu (y) și un singur predictor (x)
1.În note brute (NB): y = a +b*x
y = scorul la criteriu (cel care trebuie aflat)
a = constanta de regresie
b = coeficient de regresie nestandardizat
x = scorul la predictor.
b = rxy * (Sy/Sx)
a = My – b*Mx
Sy/ My – abaterea standard/ media testului criteriu
Sx/ Mx - abaterea standard/ media testului predictor
Ecuația de regresie simplă

Un singur criteriu (y) și un singur predictor (x)


2. În note standard (NS): Zy = β*Zx
Zx = (x-Mx)/ Sx
Zy = (y-My)/ Sy  y = Zy*Sy + My

β = rxy
Ecuația de regresie multiplă
Un singur criteriu (y) și cel puțin doi predictori (x1, x2, …, xn)

1.În note brute: y = a +b1*x1 + b2*x2 +…+bn*xn

2. În note standard: Zy = β1*Zx1 + β2*Zx2 + …+ βn*Zxn


1. Ecuația de regresie
1. Ecuațiile de regresie, în note brute și note z, pentru
modelul format din predictorul singurătate.

2. Ecuațiile de regresie, în note brute și note z, pentru


modelul format din predictorii singurătate și
narcisism.

2
1. Ecuația de regresie

1. y = a + b*x = 46.20 + 0.39 * x


Zy = β * Zx = 0.25 * Zx

2. y = a + b1*x1 + b2*x2 = 23.35 + 0.44 * x1 + 0.29 * x2


Zy = β1 * Zx1 + β2 * Zx2 = 0.28 * Zx1 + 0.29 * Zx2

2
2. Puterea de predicție a modelelor

Puterea de predicție a modelelor este dată de coeficientul


R²ajustat, care indică procentul din varianța criteriului
explicată de varianța predictorilor (prin ridicare la pătrat).
2. Puterea de predicție a modelelor
Model 1 (singurătate): R²aj = 0.060, 6% din varianța
variabilei dependența de rețele de socializare este
explicată de varianța variabilei singurătate.

Model 2 (singurătate, narcisism): R²aj = 0.143, 14.3% din


varianța variabilei dependența de rețele de socializare este
explicată de varianța variabilelor singurătate și narcisism.
2. Puterea de predicție a modelelor

Analiza puterii de predicție a modelelor implică și


analiza semnificației varianței explicate de fiecare model.
2. Puterea de predicție a modelelor
Modelul 1: F (1, 240) = 16.33, p < .001, varianța
explicată de model este semnificativă.

Modelul 2: F (2, 239) = 21.10, p < .001, varianța


explicată de model este semnificativă.
1 3
2
3. Ierarhizarea predictorilor

Se realizează în funcție de coeficienții de regresie


standardizați, în modul. Se ierarhizează doar
predictorii semnificativi.

1 2
3. Ierarhizarea predictorilor

Singurătate: β = 0.28, p < 0.001 I. Narcisism


Narcisism: β = 0.29, p < 0.001 II. Singurătate

1 2
4. Ierarhizarea modelelor de predicție
Se realizează în funcție de proporția de varianță explicată
de fiecare model.
4. Ierarhizarea modelelor de predicție

Model 1 (singurătate): R²aj = 0.06


Model 2 (singurătate, narcisism): R²aj = 0.143

I. Model 2
II. Model 1
5. Îmbunătățirea modelelor
Se analizează în funcție de coeficienții R²change,
Fchange, p – indică varianța explicată în plus, prin
introducerea unui nou predictor în model, și semnificația
statistică a varianței explicate.

1 2 3 4 5
5. Îmbunătățirea modelelor
Model 1: R²ch = 0.064, 6.4% din varianța variabilei
dependență de rețele de socializare este explicată de
variabila singurătate.
F(1, 240) = 16.33, p < 0.001, varianța explicată este
semnificativă.

1 2 3 4 5
5. Îmbunătățirea modelelor
Model 2: R²ch = 0.086, 8.6% din varianța variabilei
dependență de rețele de socializare este explicată, în
plus, de variabila narcisism.
F(1, 239) = 24.28, p < 0.001, varianța explicată în plus
este semnificativă.

1 2 3 4 5
6. Calcularea scorului brut la criteriu
(predicție)

y = a + b*x = 46.20 + 0.39 * x

Știind x, putem calcula y.

2
Rezolvare
1. Scrieți ecuația de regresie în note brute, pentru
modelul cu un singur predictor.
y = a + b*x = 46.20 + 0.39 * x
2. Scrieți ecuația de regresie în note standard,
pentru modelul cu ambii predictori.
Zy = β1 * Zx1 + β2 * Zx2 = 0.28 * Zx1 + 0.29 * Zx2

3. Ierarhizați predictorii în funcție de puterea lor


de predicție.
Singurătate: β = 0.28, p < 0.001 II
Narcisism: β = 0.29, p < 0.001 I
4. Ierarhizați modelele de predicție în funcție de
puterea lor de predicție.
Model 1 (singurătate): R²aj = 0.06 II
Model 2 (singurătate, narcisism): R²aj = 0.143 I
5. Precizați cu cât se îmbunătățește modelul prin
introducerea predictorului narcisism.
Model 2: R²ch = 0.086, 8.6% din varianța variabilei
dependență de rețele de socializare este explicată, în
plus, de variabila narcisism.
F(1, 240) = 24.28, p < 0.001, varianța explicață în
plus este semnificativă.
6. Calculați scorul la criteriu, știind că la variabila
singurătate, o persoană obține scorul 5.
y = a + b*x = 46.20 + 0.39 * 5 = 48.15

S-ar putea să vă placă și