Sunteți pe pagina 1din 3

Exemplu de interpretare a analizei de regresie liniara simpla

Asa cum ma asteptam, rezolvarea exercitiului de regresie a suferit la capitolul ”interpretare”.


Din acest motiv, m-am gindit sa va prezint un model de interpretare pentru aceasta procedura
statistica.

Variabilele:
Variabila independenta/predictor (cantitativa): numar de prezente la curs
Variabila dependenta (cantitativa): nota la acel curs

Obiectivul analizei de regresie


Predictia notei la curs pe baza prezentelor
Daca ne interesa doar corelatia dintre ele, calculam coeficientul de corelatie. Acesta n espune
doar daca intre variabile exista o relatie de asociere (variatie concomitenta) nu si in ce masura
variatia unei anumite variabile o influenteaza p ecealalta.
Rolul de variabila independenta, respectiv, dependenta, il atribuie cercetatorul. In acest caz,
ar fi fost nefiresc sa ne propunem sa prezicem prezenta la curs pe baza notelor.

Va puteti intreba de ce mai trebuie sa ”prezicem” notelor pe baza prezentei, din moment ce
avem deja notele? In primul rind, pentru ca asa putem calcula care este contributia fiecarei
prezente la nota. Rezultatul are, in acest caz, doar o finalitate ”pedagogica”. Datele sunt reale
si au fost masurate la cursul meu de statistica. Am utilizat acest rezultat pentru a-l prezenta
studentilor si a-i incuraja sa vina la cursuri. In practica, insa, daca obtinem coeficientul de
regresie dintre, sa zicem, inteligenta si performanta intr-o anumita activitate, putem sa
estimam performanta viitorilor candidati pe baza coeficientului lor de inteligenta, si sa ii
selectam doar pe cei care ar putea obtine o performanta acceptabila.

Revenim la datele noastre…

Interpretarea rezultatelor

Practic, in citirea rezultatelor ne intereseaza citeva lucruri principale:

- Care este efectul variabilei independente asupra variabilei dependente?


Raspunsul gasim in tabelul Model Summary
Model Summary
Model R R² Adjusted R² RMSE R² Change F Change df1 df2 p
1 0.482 0.233 0.212 1.483 0.233 11.512 1 38 0.002

o R=0.48 este coeficientul de regresie (in cazul regresiei liniare simple, el este
identic cu coeficientul de corelatie).
o R2 este indicele de marime a efectului (coeficientul de determinare). Valoarea
lui se poate interpreta procentual: 23% din variatia notelor are legatura cu
variatia prezentelor (nu este corect ”23% din nota este data de prezenta!)
o Adjusted R2 este o corectie a lui R2 in functie de numarul predictorilor (nu se
interpreteaza in regresia cu un singur predictor)
o RMSE este un indicator cu acelasi rol ca R, dar care se calculeaza pe baza
erorii de predictie (R descrie cit de buna este predictia). Il puteti ingora.
o R2 Change, F Change si p, nu se interpreteaza in regresia liniara simpla (se
observa ca R2 Change este identic cu R2).

- Efectul prezentei asupra notei este statistic semnificativ?


Raspunsul il gasim in tabelul ANOVA
ANOVA
Model Sum of Squares df Mean Square F p
1 Regression 25.305 1 25.305 11.512 0.002
Residual 83.534 38 2.198
Total 108.839 39

o Din acest tabel nu ne intereseaza decit valoarea testului de semnificatie


F=11.51 (care nu se interpreteaza, dar se raporteaza) si p=0.002. Dat fiind
faptul ca p este mai mic decit 0.05 (pragul critic conventional),
concluzionam ca R este statistic semnificativ. Altfel spus, notele sunt
influentate statistic semnificativ de prezenta.

Care este contributia prezentei la curs in variatia notelor?

Raspunsul il obtinem din tabelul Coefficients:


Coefficients
Model Unstandardized Standard Error Standardized t p
1 (Intercept) 3.700 0.817 4.529 < .001
prezente_curs 0.188 0.056 0.482 3.393 0.002

Acest tabel include coeficientii ecuatiei de regresie:


- Intercepts (originea dreptei de regresie): Coeficientul nestandardizat a=3.700 (care nu
se interpreteaza)
- Prezente curs:
o Coeficientul nestandardizat, b=0.188. Valoarea lui b se exprima in unitatile de
masura ale variabilei nota si se interpreteaza astfel: La cresterea cu o unitate a
prezentei, creste estimarea notei cu 0.188 (aprox. 0.2, ceea ce inseamna cam o
cincime de punct a nota)
o Standardizat, beta=0.482 (observati ca este identic cu R – asta se intimpla doar
cind avem o singura variabila predictor). Acesta se interpreteaza ca un
coeficient de corelatie, dar exprima acelasi lucru ca si cel nestandardizat. Daca
am avea mai multi predictori, coeficientii nestandardzati nu se pot compara
direct, fiindca se exprmia fiecare in unitatile variabulei respective. In timp ce
coeficientii standardizati ar fi direct comparabili..
- t este testul de semnificatie pentru coeficientul b (nu se interpreteaza)
- p este nivelul de semnificatie pentru testul t (0.002 este mai mic decit 0.05, deci este
statistic semnificativ). Veti observa ca are aceeasi valoare ca si p aferent lui F, din
tabelul ANOVA. Este asa tot din cauza ca avem un singur predictor.

In concluzie:
Rezultatul analizei noastre ne indica faptul ca prezenta la curs reprezinta unpredictor
statistic semnificativ pentru notele la curs (R2=0.23, F=11.51, p=0.002). Indicii ecuatiei
de regresie obtinuti sunt: a= 3.700, b=0.188.
Ecuatia de regresie aferenta acestui model este Nota=3.70+0.188*numarul prezentelor
(Daca ati avea curiozitatea sa re-calculati notele la curs pe baza prezentelor, utilizind
ecuatia de mai sus, si ati face corelatia dintre prezente si notele estimate, veti vedea ca
obtineti exact r=-.48)

Sper ca aceste explicatii v-au fost de folos.

Daca nu ati intees ceva, va rog sa imi scrieti.

M. Popa