Sunteți pe pagina 1din 17

Suport Seminar 6 – Analiza de regresie liniară

Lect. univ. dr. Adrian Gorbănescu

6.1 Noțiuni introductive

Analiza de regresie și corelația liniară șunt proceduri statistice asemănătoare, dar care au
obiective diferite. În timp ce corelația liniară este utilizată cu scopul de a măsura intensitatea și
sensul relației dintre două variabile, analiza de regresie are drept obiectiv predicția scorurilor
unei variabile în funcție de valorile alteia. Atunci când am prezentat coeficientul de corelație
Pearson, am specificat faptul că aceasta analizează variabilitatea comună dintre două variabile
și că acestea nu se află într-o relație de cauzalitate. În schimb, analiza de regresie implică
existența unui efect al unei variabile asupra alteia. Variabila independentă se numește predictor
(simbolizată cu X), în timp ce variabila dependentă este cunoscută sub denumirea de criteriu
(simbolizată cu Y). În contextul analizei de regresie variabila dependentă este măsurată pe scală
de interval/raport. Variabila independentă este măsurată pe scală de interval/raport sau
nominală. Atunci când variabila independentă se măsoară pe scală nominală se recomandă
etichetarea ei începând cu valoarea 0 (Cohen, Cohen, West, & Aiken, 2003). În concluzie, în
analiza de regresie, pe baza valorilor predictorului încercăm să prezicem ce valori va lua
criteriul. Atunci când în model avem un singur predictor discutăm despre analiza de regresie
liniară simplă. Când avem cel puțin doi predictori se vorbește despre regresie liniară
multiplă.
Coeficientul de corelație poate lua valori între -1 și +1, unde -1 este corelația perfectă
negativă și +1 este corelația perfectă pozitivă. O corelație negativă se traduce prin scăderea
valorilor unei variabile în timp ce ale celeilalte cresc și invers. Atunci când coeficientul de
corelație este pozitiv valorile ambelor variabile cresc sau descresc în același timp. Coeficientul
de regresie se notează cu R și poate lua valori între 0 și 1, unde 1 indică predicția perfectă.
Să ne imaginăm că un profesor este interesat să facă o predicție asupra performanței
studenților la examen pe baza punctajelor obținute la seminar. În acest context punctajul de la
seminar este variabila independentă (predictorul), iar performanța la examen (numărul de
răspunsuri corecte) este variabila dependentă (criteriul). În tabelul 14.1 sunt prezentate valorile
pentru 15 cazuri.

Tabelul 6.1 – Punctajul la seminar și performanța la examen


Student Punctaj seminar Performanță examen
1 1,97 57
2 2,38 64
3 2,48 73
4 2,68 75
5 2,45 53
6 2,37 75
7 2,56 67
8 2,58 67
9 2,68 75
10 1,37 55
11 2,50 70
12 2,68 80
13 2,27 50
14 1,20 59
15 2,27 62
Coeficientul de corelație pentru datele din tabelul 14.1 este r = 0,59. În cazul
coeficientului de regresie liniară simplă, coeficientul de regresie R este egal cu coeficientul de
corelație dintre cele două variabile (R = 0,59). Coeficientul de determinare r2, în cazul regresiei
devine coeficient de determinare pentru regresie și se notează cu R2 (0,592 = 0,34). Valoarea
acestui coeficient ne informează că 34% din performanța studenților la examen este explicată
de punctajul obținut la seminar.
Chiar și atunci când valoarea coeficientului de corelație este negativă, R este egal cu
valoarea absolută (modul) a coeficientul de corelație. Sensul relației negative dintre variabile
nu se observă la nivelul lui R, ci la nivelul dreptei de regresie (vom explica acest aspect în
paragrafele următoare).
Relația dintre predictor și criteriu poate fi ilustrată prin intermediul dreptei de regresie
care este trasată în funcție de media valorilor lui X și ale lui Y. De asemenea, dreapta de regresie
este trasată după o metodă matematică complexă cunoscută sub numele de metoda celor mai
mici pătrate (suma pătratelor diferențelor dintre fiecare punct și dreaptă este minimă). Scopul
acestei metode este acela de a reduce cât mai mult diferența dintre valorile reale ale lui Y și
valorile prezise. Pe dreapta de regresie se află valorile prezise ale lui Y, acestea fiind simbolizate
cu Y’ (Y prim). În cazul unei predicții perfecte (R = 1) toate valorile lui Y se află pe dreapta
de regresie. Locul în care aceasta intersectează axa Oy se numește origine, iar înclinarea ei se
numește pantă. Dacă panta punctul cel mai de jos al dreptei de regresie este în stânga punctului
cel mai ridicat înseamnă că panta este pozitivă. Atunci când linia de regresie are punctul cel
mai înalt în stânga graficului și punctul cel mai jos în dreapta înseamnă că panta este negativă.
În concluzie, când valorilor mari/mici ale predictorului îi corespund valori mari/mici ale
criteriului panta este pozitivă. Atunci când pentru valori mari ale predictorului se înregistrează
valori mici ale criteriului panta este negativă. Panta ne indică modul în care variază valorile
criteriului în funcție de X. Formula pentru dreapta de regresie este:

𝑌 ′ = 𝑎 + 𝑏𝑋
(formula 6.1)
• Y’ – reprezintă valorile prezise ale lui Y.
• a – este constanta (locul unde linia de regresie intersectează axa Oy).
• b – este panta dreptei de regresie.
• X – reprezintă variabila predictor.
𝑠𝑋
𝑏=𝑟∗
𝑠𝑌
(formula 6.2)
• r – coeficientul de corelație dintre X și Y.
• sX și sY – sunt abaterile standard ale distribuției X, respectiv Y.

𝑎 = 𝑚𝑌 − 𝑏 ∗ 𝑚𝑋
(formula 6.3)
• mY – este media distribuției Y.
• b – este panta pe care o calculăm cu formula 6.2.
• mx – este media variabilei predictor.

În momentul în care avem valorile constantei și pantei în funcție de punctajul la seminar


putem realiza predicția asupra numărului de răspunsuri corecte la examen. Pentru datele de mai
sus, avem constanta a = 37,67 și panta b = 12,10. Spre exemplificare, vom calcula performanța
prezisă la examen a studentului cu 2,50 puncte la seminar. După introducerea valorilor în
formulă putem observa că pentru primul student este prezis un număr de 67,92 răspunsuri
corecte. În ecuația de regresie b (panta) ne informează cu cât se modifică Y’ atunci când X
crește cu un punct (Tabachnick & Fidell, 2013). Tabelul 14.2 cuprinde valorile prezise și erorile
de predicție pe datele din tabelul 14.1.

𝑌 ′ = 𝑎 + 𝑏𝑋 → 𝑌 ′ = 37,67 + 12,10 ∗ 2,50 → 𝑌 ′ = 37,67 + 30,25 → 𝑌 ′ = 67,92

Graficul pentru regresia dintre punctajul obținut la seminar și performanța la examen se


obține din meniul Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter → Define.
La deschiderea casetei Simple Scatter, variabila independentă (predictorul) va fi mutată în
zona X Axis, iar cea dependentă (criteriul) va fi mutată în Y Axis. La acționarea butonului OK
în Output va apărea graficul așa cum îl știm de la coeficientul de corelație Pearson. Pentru a
obține dreapta de regresie, apăsăm dublu click pe grafic pentru a se deschide fereastra Chart

Editor. După deschiderea acestei ferestre vom acționa butonul Add Fit Line at Total .
Opțiunea Linear este selectată implicit și vom apăsa butonul Close.
Figura 6.1 - Graficul pentru regresia dintre punctajul obținut la seminar și performanța la
examen

Aplicarea analizei de regresie utilizând un soft statistic permite salvarea valorilor prezise
și a erorilor de predicție, pe care noi le prezentăm în tabelul 14.2. Când am folosit ecuația dreptei
de regresie pentru a prezice performanța studentului cu 2,50 puncte la seminar am obținut un
rezultat egal cu 67,92. În realitate studentul a răspuns corect la 70 de itemi. Diferența dintre
scorul real (Y) și scorul prezis (Y’) se numește eroare de predicție (simbolizată cu ε - epsilon).
Abaterea standard a distribuției erorilor de predicție se numește eroarea standard a estimării.
Suma tuturor erorilor de predicție este egală cu 0.

Tabelul 6.2 – Valorile prezise și erorile de predicție


Student Punctaj Performanță Performanța Eroare de
seminar examen prezisă predicție ε
1 1,97 57 61,52 -4,52
2 2,38 64 66,48 -2,48
3 2,48 73 67,69 5,31
4 2,68 75 70,11 4,89
5 2,45 53 67,33 -14,33
6 2,37 75 66,36 8,64
7 2,56 67 68,66 -1,66
8 2,58 67 68,90 -1,90
9 2,68 75 70,11 4,89
10 1,37 55 54,26 0,74
11 2,50 70 67,94 2,06
12 2,68 80 70,11 9,89
13 2,27 50 65,15 -15,15
14 1,20 59 52,20 6,80
15 2,27 62 65,15 -3,15
Figura 6.2 – Eroarea de predicție

6.2 Regresia liniară simplă în SPSS

Pentru exemplificare vom dezvolta modelul de predicție a performanței la examen pe


baza punctajului de la seminar, utilizând un eșantion un set de date obținut pe un eșantion de
267 de studenți ai anului I. Vom utiliza pentru acest exemplu un nivel α = 0,05. Baza de date
necesară aplicării analizei de regresie se realizează într-o manieră identică cu cea utilizată în
cazul coeficientului de corelație. Punctajul obținut la seminar este variabila independentă, iar
performanța la examen este variabila dependentă. Ambele variabile sunt de tip numeric și
măsurate pe scală de interval/raport. Imaginea de mai jos prezintă modalitatea în care vom
realiza baza de date.
Analiza de regresie se aplică din Analyze → Regression → Linear. În caseta Linear
Regression, variabila dependentă (examen) va fi mutată în zona Dependent, în timp ce
variabila independentă (seminar) este mutată în zona Independent.

În caseta Statistics vom bifa opțiunile Estimates și Model fit (aceste opțiuni sunt
selectate implicit). În caseta Save se vor selecta opținile:
• Unstandardized (în câmpul Predicted Values) – va calcula valorile prezise pentru
variabila examen.
• Unstandardized (în câmpul Residuals) – va calcula valorile reziduale (diferența dintre
valoarea reală și cea prezisă).
• Individual (în câmpul Prediction Intervals) – va calcula intervalul de încredere pentru
fiecare valoare prezisă. Intervalul calculat are nivelul de încredere setat implicit pentru
95%. În funcție de opțiunile cercetătorului această valoarea poate fi modificată.
La afișarea rezultatelor vom obține mai multe tabele. Model Summary prezintă valoarea
coeficientului de regresie (R). Reamintim faptul că acesta are o valoare egală cu cea a
coeficientului de corelație dintre cele două variabile supuse analizei. În cazul nostru, R = 0,70.
R Square (0,49) este valoarea coeficientului de determinare al regresiei. Această valoarea ne
informează că 49% din performanța studenților la examen este explicată de punctajul obținut la
examen. Diferența de 51% este explicată de alte variabile: trăsături de personalitate, motivația
pentru învățare, personalitatea evaluatorului etc. Adjusted R Square este o corecție a lui R2 în
funcție de volumul eșantionului și numărul de predictori. Std. Error of the Estimate reprezintă
eroarea standard a estimării (abaterea standard a distribuției valorilor reziduale).

Tabelul ANOVA afișează semnificația statistică a modelului de regresie. Cei mai


importanți coeficienți din acest tabel sunt F și Sig (simbolizat cu p). Pentru exemplul nostru, F
este 259,72 și are o probabilitatea asociată p mai mică decât α = 0,05. În concluzie, decidem
respingerea ipotezei de nul și acceptăm că modelul de predicție este unul semnificativ statistic.
Deoarece modelul de predicție are un singur predictor, implicit vom înțelege că acesta este
semnificativ statistic. În concluzie, punctajul obținut de studenți la seminar este un predictor
semnificativ pentru numărul de răspunsuri corecte oferit la examen. Atunci când p este mai mic
sau egal cu α luăm decizia statistică de a respinge ipoteza de nul și de a accepta existența unei
relații semnificative între predictori și criteriu. Dacă p este mai mare sau egal cu α decizia
statistică este de a accepta ipoteza de nul și de a respinge existența unei relații semnificative
între variabile.

Tabelul Coefficients prezintă informații despre coeficienții ecuației dreptei de regresie.


Pe coloana B sunt afișați coeficienții nestandardizați, exprimați în unitatea de măsură a
predictorului. Linia Constant indică valoarea constantei (cunoscută și sub numele de termen
liber sau intercept). În cazul nostru constanta este egală cu 29.54. Linia seminar prezintă
valoarea pantei, unde b = 15,80. Linia care prezintă valoarea pantei întotdeauna are numele
variabilei independente. Acum, cu ajutorul formulei 14.1 putem prezice ce performanță ar putea
avea un student în anul universitar următor.
Pe coloana Beta sunt exprimate valorile standardizate z ale coeficienților ecuației dreptei
de regresie. Pe linia Constant nu este indicat coeficientul standardizat al constantei, acesta fiind
egal cu 0, deoarece originea dreptei pentru scoruri z este situată în 0. Pe linia seminar este
exprimată valoarea pantei în scoruri z – 0,70.
Coloana Sig. prezintă semnificația statistică a coeficienților dreptei de regresie. Atunci
când p este mai mic sau egal cu α coeficienții sunt semnificativi statistic. Dacă p este mai mare
decât α coeficienții ecuației dreptei de regresie nu sunt semnificativi statistic. Vom citi cu
interes doar semnificația statistică pentru coeficienții predictorului. Pentru acest exemplu, p.
asociat pantei este mai mic decât 0,05, ceea ce înseamnă că variabila seminar este un predictor
semnificativ pentru punctajul obținut în examen.

Tabelul Residual Statistics oferă informații despre valorile prezise și valorile reziduale
(valoarea cea mai mică, respectiv cea mai mare, media, abaterea standard etc).

Ca urmare a opțiunilor pe care le-am selectat, în baza de date vor apărea noi variabile,
precum în imaginea de mai jos.

• PRE_1 – conține valorile prezise pe baza modelului de regresie.


• RES_1 – cuprinde valorile reziduale.
• LICI_1 – conține limitele inferioare ale valorilor prezise.
• UICI_1 – conține limitele superioare ale valorilor prezise.
Imaginea de mai jos prezintă graficul scatterplot pentru relația dintre punctajul din
seminar și performanța obținută la examen.

6.3 Analiza de regresie liniară multiplă

Spre deosebire de regresia simplă, cea multiplă presupune existența a cel puțin doi
predictori. Regresia multiplă are drept obiectiv descoperirea unui set de variabile care pot
prezice cât mai bine o altă variabilă. Astfel, putem obține informații despre puterea fiecărui
predictor analizat separat (Popa, 2010). Analiza de regresie multiplă este una din cele mai
utilizate proceduri în psihologie și nu numai. De exemplu, Chamorro-Premuzic și Furnham
(Chamorro-Premuzic & Furnham, 2003) au studiat rolul de predictor al trăsăturilor de
personalitate asupra performanței academice; Gendreau și Goggin (Gendreau & Goggin, 1994)
au analizat în ce măsură durata pedepselor executate de persoanele private de libertate pot
prezice comiterea unor infracțiuni viitoare; Alessandri și Vecchione (Alessandri & Vecchione,
2012) au analizat puterea de predicție a trăsăturilor de personalitate asupra performanței în
muncă.
Ecuația regresiei multiple este asemănătoare cu cea de la regresia simplă, diferența fiind
generată de existența mai multor coeficienți b, numărul acestora fiind determinat de numărul
predictorilor.
𝑌 ′ = 𝑎 + 𝑏1 ∗ 𝑋1 + 𝑏2 ∗ 𝑋2 + ⋯ + 𝑏𝑘 ∗ 𝑋𝑘
(formula 14.4)
• Y’ – este valoarea prezisă.
• a – este constanta.
• b1, b2, … bk – reprezintă pantele pentru cei k predictori.
• X1, X2, … Xk – sunt cele k variabile independente.

Dacă în cazul regresiei liniare simple relația dintre predictor și criteriu era reprezentată
prin graficul scatterplot, pentru regresia liniară multiplă relația dintre variabile este ilustrată
printr-un scatterplot multivariat, valorile prezise plasându-se într-un spațiu.

Aplicarea regresiei liniare multiple solicită îndeplinirea unor condiții atât la nivelul
variabilei dependente, cât și a celor independente.
• Variabila dependentă trebuie să fie măsurată pe scală de interval/raport și să
îndeplinească condiția de normalitate. Atunci când criteriul este măsurat pe scală
nominală se folosește altă procedură statistică – regresia logistică.
• Variabila independentă se va măsura pe scală de interval/raport, iar atunci când este
măsurată pe sală categorială va primi coduri numerice începând cu cifra 0.
• Variabila dependentă trebuie să coreleze semnificativ cu fiecare predictor. Se
recomandă analiza indicilor de corelație dintre variabile înainte de a aplica regresia.
• Variabilele predictor trebuie să fie ortogonale (nu trebuie să coreleze între ele).
Existența corelațiilor între predictori este cunoscută sub numele de coliniaritate
(multicoliniaritate). Totuși, dacă există corelații semnificative între predictori acestea
trebuie să fie mici (< 0,30). O soluție sugerată pentru diminuarea efectului de
coliniaritate este analiza indicelui de toleranță. Acesta poate lua valori cuprinse între
0 și 1, iar pentru valori mai mici de 0,7 există o problemă de coliniaritate. O altă soluție
de analiză a coliniarității o reprezintă indicele VIF (Variation Inflation Factor). Când
acest indice are o valoare mai mare de 10 există coliniaritate (Field, 2013). Atât indicele
de toleranță, cât și VIF sunt calculați de SPSS și afișați în Output.

Aplicarea analizei de regresie multiplă atrage atenția asupra unui aspect foarte important
în cercetare și în analiza datelor – volumul eșantionului. Este important să asigurăm un volum
optim al eșantionului nu doar pentru a obține coeficienți de regresie semnificativi, ci și pentru
a avea rezultate exacte și stabile (Popa, 2010). Rezultatele obținute în urma analizei datelor
trebuie să ne permită luarea unor decizii statistice cu un nivel al erorii cât mai mic. În literatura
de specialitate există numeroase „reguli” după care se poate stabili volumul unui eșantion. Un
număr mult prea mare de participanți va determina o creștere a erorii de tip I, în timp ce un
volum mic crește probabilitatea erorii de tip II (vezi capitolul 6.5).
Marks (1966, apud Cooley & Lohnes, 1971) recomandă un volum al eșantionului de
minimum 200 de participanți pentru orice analiză de regresie, indiferent de volumul
eșantionului. Schmidt (1971) sugerează construcția eșantionului pe baza raportului dintre
numărul de participanți și predictor, astfel încât pentru fiecare variabilă independentă sunt
necesari 25 de participanți. Harris (1975, apud Green, 1991) recomandă utilizarea unui eșantion
egal cu 50 + m participanți, unde m reprezintă numărul de predictori. Această formulă a fost
dezvoltată de Green (1991) care sugerează un volum N = 50 + 8 * m. De exemplu, pentru un
model cu doi predictori se recomandă un eșantion de 50 + 8 * 2 = 66 participanți. O posibilitate
estimare a eșantionului o reprezintă programul G*Power 3 (Faul et al., 2007). Popa (2010) în
„Statistici Multivariate Aplicate În Psihologie” prezintă un exemplu de calcul a eșantionului
folosind softul menționat mai sus.

Când am prezentat analiza de regresie liniară simplă am analizat rolul de predictor al


punctajului obținut la seminar asupra numărului de răspunsuri corecte oferite la examen. Datele
din literatura de specialitate arată că nivelul conștiinciozității este un bun predictor al
performanței academice (Chamorro-Premuzic & Furnham, 2003; De Fruyt & Mervielde, 1996;
Furnham & Chamorro-Premzic, 2004). În concluzie, adăugăm în modelul de predicție o nouă
variabilă independentă – conștiinciozitatea.
Înainte de a aplica procedura statistică este necesară analiza corelațiilor dintre variabile.
În tabelul 6.3 sunt prezentați coeficienții de corelație.

Tabelul 6.3 – Coeficienții de corelație dintre variabile


seminar conștiinciozitate examen
seminar -
conștiinciozitate .14* -
**
examen .70 .28** -
Notă: p < .05; p < .001
* **

Rezultatele ne indică faptul că există corelații semnificative statistic între variabilele


predictor (seminar și conștiinciozitate) și variabila criteriu (examen). De asemenea, o corelație
semnificativă statistic există și între cei doi predictori. Totuși acesta este un coeficient de
corelație mic, sub 0,30, și nu atrage probleme legate de coliniaritate.
Pentru datele obținute pe eșantionul de 267 de studenți vom alege un model de regresie
ierarhică. Procedura se execută din meniul Analyze → Regression → Linear. În caseta Linear
Regression vom introduce variabila criteriu (examen) în câmpul Dependent. Variabilele
predictor vor fi introduse bloc cu bloc în câmpul Independent. În exemplul nostru, fiecare bloc
cuprinde câte unul din cei doi predictori. Variabila predictor seminar va intra în blocul 1 (Block
1). Apoi apăsăm butonul Next care va deschide blocul 2 (Block 2) și vom adăuga aici variabila
predictor conștiinciozitate. Dacă dorim să ne întoarcem la blocul anterior apăsăm butonul
Previous.
În zona Method este selectată implicit opțiunea Enter (specifică modelelor standard și
ierarhic). După ce am introdus predictorii în blocuri putem începe să selectăm opțiunile de
afișare a rezultatelor. În Statistics vom selecta următoarele opțiuni:
• Estimates – afișează coeficienții ecuației de regresie.
• Confidence intervals – afișează intervalul de încredere pentru coeficienții de regresie.
• Durbin-Watson – este testul pentru valorile reziduale și independența erorilor. Valori
mai mici de 1 sau mai mari 3 indică o problemă în ceea ce privește independența erorilor.
• Casewase diagnostics – analizează influența valorilor mai mari de k abateri standard.
• Model fit – afișează coeficienții R, R2, R2 ajustat și tabelul ANOVA cu rezultatele
testului de semnificație.
• R squared change – indică cu cât se modifică R2 dacă adăugăm sau eliminăm un
preictor.
• Descriptives – afișează media și abaterea standard pentru variabilele analizate și
coeficienții de corelație dintre acestea.
• Collinearity diagnostics – afișează indicele de toleranță și indicele VIF.

În meniul Save vom selecta mai multe opțiuni în urma cărora în baza de date vor apărea
noi variabile:
• Unstandardized – creează o nouă variabilă cu valorile prezise pe baza modelului de
regresie.
• Standardized - creează o nouă variabilă cu valorile exprimate prezise în scoruri
standardizate z.
• Mahalanobis – indică cât de mult diferă un caz de media tuturor cazurilor și nu ar trebui
să aibă valori mai mari de 25.
• Cook – cu cât se modifică valoarea reziduală dacă acel caz este eliminat și este de
preferat să nu aibă valori mai mari de 1.
• Standardized DfBeta(s) – indică cu cât se schimbă coeficienții beta dacă acel caz este
exclus. Este exprimat în scoruri z și este de dorit să aibă valori cât mai apropiate de 0.
• Individual – calculează intervalul de încredere pentru fiecare valoare prezisă.

La afișarea rezultatelor în Output, tabelul Descriptives afișează statisticile descriptive


(media, abaterea standard și volumul eșantionului) pentru variabilele din modelul de regresie.

Tabelul Correlations afișează matricea corelațiilor dintre variabile. Valorile


coeficienților de corelație sunt identice cu cele din tabelul 14.3.
Tabelul Variables Entered/Removed prezintă variabilele predictor pentru fiecare bloc.
În cazul nostru, există două blocuri, câte unul pentru fiecare variabilă independentă.

Tabelul Model Summary prezintă rezultatele pentru fiecare model de predicție. Pe prima
linie sunt prezentate rezultatele pentru modelul cu un singur predictor (seminar), în timp ce pe
linia a doua cele pentru modelul cu doi predictori (seminar și conștiinciozitate).

• R – este coeficientul de regresie multiplă. Pentru modelul cu un singur predictor


(seminar) avem R = 0,704. Atunci când în modelul de regresie este adăugat și al doilea
predictor R = 0,728.
• R Square – afișează valoare lui R2. Acesta indică proporția în care valorile prezise sunt
explicate de predictori. Pentru modelul cu un singur predictor R2 = 0,493. Atunci când
în modelul de regresie este adăugat și al doilea predictor R2 = 0,526. Acest rezultat poate
fi tradus prin faptul că 52,6% din performanța obținută la examen este explicată de
punctajul obținut la seminar și de nivelul conștiinciozității. Diferența de 47,4% este
explicată de alte variabile.
• Adjusted R Square – este o corecție a lui R2 în funcție de volumul eșantionului și
numărul de predictori.
• Std. Error of the Estimate reprezintă eroarea standard a estimării (abaterea standard a
distribuției valorilor reziduale). Cu cât această valoare este mai mică cu atât predicția
este mai exactă.
• R Square Change – indică cu cât se modifică R2 dacă eliminăm un predictor. Cu cât
această valoare este mai mare, cu atât mai important este acel predictor. Prin eliminarea
predictorului seminar pierdem 0,495, în timp ce eliminarea conștiinciozității determină
o pierdere de doar 0,035.
• Sig. F Change – prezintă semnificația statistică a eliminării unui bloc de predictori.
Atunci când valoarea lui este mai mare decât nivelul lui α acceptăm ipoteza de nul și
concluzionăm că eliminarea nu este semnificativă statistic. În exemplul nostru,
eliminarea oricărui predictor este semnificativă statistic. Chiar dacă conștiinciozitatea
are o contribuție slabă în predicția rezultatului de la examen, aceasta este semnificativă
statistic.
• Durbin-Watson – este rezultatul testului pentru independența erorilor. Valoarea de
1,91 nu indică nici o problemă din acest punct de vedere.

Tabelul ANOVA prezintă rezultatele testelor de semnificație F. Precum în tabelul de mai


sus, acestea sunt prezentate separat, pe linii, pentru fiecare model. Atât modelul cu un singur
predictor, cât și cel cu doi sunt semnificativi statistic.

Tabelul Coefficients se interpretează în manieră similară ca la regresia liniară simplă.


Rezultatele sunt prezentate pe două linii pe baza principiului descris mai sus. Deoarece
rezultatele de pe prima linie sunt cunoscute de la regresia simplă, vom explica rezultatele de pe
linia a doua, corespunzătoare modelului cu doi predictori. Reamintim faptul că pe coloana B
sunt coeficienții nestandardizați, iar pe coloana Beta sunt coeficienții standardizați. Astfe,
constanta a este egală cu 21,17, în timp ce panta este 15,19 pentru seminar, respectiv 0,14
pentru conștiinciozitate.
Coloana Sig indică semnificația statistică a acestor coeficienți. În funcție de aceasta vom
păstra sau nu predictorul respectiv în model. În cazul nostru, coeficienții sunt semnificativi
pentru ambii predictori deoarece sig (p) < 0,05.
Coloanele Tolerance și VIF prezintă rezultatele pentru diagnosticul coliniarității.
Deoarece ambii indici sunt încadrați în valorile recomandate înțelegem că nu sunt semnalate
probleme de coliniaritate.
Tabelul Excluded Variables afișează variabilele care nu întrunesc criteriile de includere
în modelul de predicție. Deși coeficienții de regresie pentru predictorul conștiinciozitate sunt
semnificativi statistic, SPSS consideră că acesta nu are o contribuție importantă în predicția
performanței la examen și recomandă excluderea lui.

La revenirea în baza de date putem observa apariția unor noi variabile în funcție de
opțiunile bifate în caseta Save.

Tema 3

Tema va fi trimisă pe e-mail la adresa adrian.gorbanescu@gmail.com până luni, 2 aprilie,


ora 20.00.
Pe e-mail se vor trimite următoarele documente:
1. Output-ul obținut ca urmare a rezolvării exercițiilor salvat sub denumirea
Nume_Prenume_grupa.
2. Un document word salvat sub aceeași denumire care va cuprinde răspunsurile la
cele 8 exerciții și subpunctele acestora. De asemenea documentul va cuprinde, pe
lângă rezolvarea exercițiului, explicația procedurilor utilizate pentru a obține
rezultatele prezentate.

1. Folosind baza de date Tema 3 rezolvați următoarele sarcini:

a. Aplicați regresia multiplă ierarhică pentru a testa dacă stabilitatea emoțională,


extraversia și conștiinciozitatea sunt predictori ai performanței academice.
b. Precizați valorile R, R2 și R2 pentru fiecare din cele trei modele de regresie rezultate din
introducerea celor trei predictori în blocuri separate.
c. Precizați R2 change pentru extraversie (incrementul pe care îl are față de stabilitatea
emoțională), respectiv conștiinciozitate (incrementul pe care îl are față de modelul cu
stabilitatea emoțională și conștiinciozitate).
d. Specificați semnificația statistică a celor trei modele de regresie.
e. Specificați valorile lui a și b și semnificația statistică a ecuației dreptei de regresie.

3. Folosind baza de date Tema 3 rezolvați următoarele sarcini:


a. Indicele de dificultate pentru itemii: I1, I7, I9 și I14.
b. Indicele de discriminare pentru itemii: I2, I9, I 11 și I15.
c. Calculați indicele de fidelitate Cronbach Alpha pentru cei 15 de itemi și specificați
intervalul de încredere.
d. Calculați indicele de fidelitate Cronbach Alpha și specificați intervalul de încredere
după eliminarea itemilor I7, I10 și I13.

S-ar putea să vă placă și