Tip Regresie

Regresia liniară multiplă
M. Popa
cuprins
1. 2. 3. 4. 5. 6. 7. Noțiuni de bază – regresia liniară simplă Modelul de predicție
multivariată Obiectivele analizei de regresie multiplă Condiţii şi limitări
Alegerea modelului de analiză Volumul eșantionului Regresia multiplă cu SPSS
– Operații preliminare – Procedura de calcul – Interpretarea rezultatelor
8. 9.
Validarea modelului de regresie Raportarea rezultatelor

Corelația și Regresia
• Corelaţia
– – – – arată legătura (asocierea) dintre variabile nu descrie relaţia cauzală
dintre variabile nu permite predicţia unei variabile pe baza celeilalte variabile
nu există variabilă dependentă şi dependentă
• Regresia
– metodă de predicţie a valorilor unei variabile pe baza valorilor altei variabile
– variabila independentă
• variabila “cauză” • valorile ei “prezic” valorile variabilei dependente • este
denumită “predictor”
– variabila dependentă
• variabila “efect” • valorile ei sunt “prezise” pe baza valorilor variabilei
independente • este denumită şi “criteriu”
• Situaţia tipică în psihologie - examenele de selecţie

3
Tipuri de regresie liniară
• Regresia simplă
– o singură variabilă predictor – se bazează pe corelaţia simplă dintre criteriu şi
predictor
P
C
• Regresia multiplă
– mai multe variabile predictor – se bazează pe corelaţia multiplă dintre criteriu
şi predictori – situaţia tipică în psihologie: selecţia bazată pe baterii de teste
P1
P2
P3
4
Predicţia perfectă
• r=±1
– zx=1.5 – zy’=1.5 – zy’ creşte sau scade cu aceeaşi unitate cu cât creşte sau
scade zx
3,5 3,0
z y'  zx
2,5
2,0
1,5
1,0
,5
z(y)
0,0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5
z(x)
5
Predicţia în cazul corelaţiei imperfecte
• corelaţiile sunt numai prin excepţie perfecte • în mod normal, r variază în jurul
lui 0
– exemplu: corelaţia între cunoştinţele de matematică şi rezultatele la statistică
z y'  r * zx
6
Noţiunea de regresie către medie
• Sir Francis Galton (18221911) • relaţia dintre înălţimea medie a părinţilor şi

înălţimea copiilor (r=+0.67 )
 văr cu Ch. Darwin  descoperitorul amprentelor digitale  meteorolog, psiholog,
statistician, genetician, explorator
z y '  0.67 * 2  1.34
7
Exemplu (date reale, selecționate din N=253)
Subiect Nr. prezențe la cursul de statistică (X) Răspunsuri corecte la evaluări
parțiale (P1+P2+P3) (Y)
A B C D F G H I J K
1 3 4 7 8 9 10 11 12 13
7 18 19 35 19 28 40 37 45 54
Valoare reală Ya=40
Eroare de predicție
ε=12.85
Valoare prezisă Y’a=27.15
Xa=7
Ecuaţia dreptei de regresie
Y  a yx  byx * X
'
• Y’ → valoare prezisă (criteriu) • ayx → originea dreptei; (punctul în care linia

de regresie intersectează axa Oy). • byx → panta liniei de regresie
– poate fi exprimată ca fracţiuni ale lui X determinate de r
• X → valoare predictor a variabilei Y
10
Modelul de regresie simplă
• Acuratețea predicției este dată de coeficientul de regresie R (expresia lui r)
– Exemplul nostru: R=0.528
• Semnificația statistică se testează cu testul F

– Exemplul nostru: F=96.822.10; p<0.0001
• Termenul liber (a)

– Exemplul nostru: 8.973 (p=0.002)
• Coeficientul de pondere (b)

– Exemplul nostru: 2.598 (p<0.0001)
• Y=8.973+2.598*X
Pentru exemplul prezentat:
• R=0.528; a=8.973; b=2.598
– Y=8.973+2.598*X – X=1 … Y= 11.575 – X=2 … Y= 14.171
O prezență la curs contribuie cu 2.596 răspunsuri corecte
Expresia grafică a regresiei aceeaşi origine dar pante diferite
origini diferite, dar aceeaşi pantă
13
Eroarea de predicție…
Subiect Nr. prezențe (X)
Răspunsuri corecte (Y)
Răspunsuri prezise (Y’)
Eroare de predicție (Y’)
A B C D F G H I J K
1 3 4 7 8 9 10 11 12 13
7 18 19 35 19 28 40 37 45 54
11.57 16.76 19.36 27.15 29.75 32.35 34.95 37.54 40.14 42.74
-4.57 1.24 -0.36 7.85 -10.75 -4.35 5.05 -0.54 4.86 11.26
Varianță neexplicată (diferență reziduală)
Ya-Y’m=4
Valoare reală Ya=40
Media predicției Y’m=36

Valoare prezisă Y’a=27.15
Eroare de predicție
ε=12.85
Varianță explicată
Y’a-Y’m=8.85
Xa=7
regresia nu este simetrică !
• dacă inversăm variabilele în ecuaţia de regresie se va obţine o linie de regresie

diferită • dacă se inversează ordinea variabilelor în calcularea corelaţiei, se
obţine acelaşi coeficient r
16
• Modelul de predicție bazat pe un singur predictor (prezența la curs), explică
doar o parte (27.2%) din variația răspunsurilor corecte • Variație neexplicată =
72.8% • Trebuie să existe, deci, și alți predictori…
– – – – – ? ? ? ? …
Modelul de predicție multivariată
Y  ai  b1 * X1  b2 * X 2  b3 * X 3  ....  bk * X k
'
Unde • Y’ este valoarea estimată pentru variabila criteriu (dependentă) • ai este

punctul de origine al liniei (constanta) • b1, b2, b3... bk sunt coeficienţii b
pentru cele k variabile predictor • X1, X2, X3.... Xk sunt valorile celor k
variabile predictor
Scatterplot trivariat
Y
criteriu
X1
predictor
X2
predictor
Planul de regresie multivariată
Y
criteriu
X1
predictor
X2
predictor
Indicatori ai intensității predicției
• R = coeficientul de corelație multiplă • R2 = procentul de variaţie din VD
(criteriu) determinat de variaţia simultană a VI (predictori) • R2adj=R2 corectat
pentru numărul predictorilor
NOU
– R2adj > 75% - foarte bun (peste 90% rar… probabil un artefact) – 50% - 75% - bun
– 25% - 50% - slab dar acceptabil – sub 25% - foarte slab (probabil inacceptabil)
• Semnificaţia statistică a lui R este calculată cu ajutorul unui test de varianţă

(F) • Cu cât contribuie fiecare predictor la estimarea criteriului?
– dificil de spus, fiindcă fiecare predictor acționează în prezența celorlalți – o
soluție … coeficienții beta (standardizați) – corelația semi-parțială dintre
criteriu și predictori (cursul urmator)
Utilitatea regresiei multiple
• Descrierea relațiilor dintre variabile • Predicția în scop de selecție •
Dezvoltarea teoriei testării psihologice
Condiții și limitări
• Variabila dependentă (criteriu):
– Trebuie să fie măsurată pe scală de interval raport, cu respectarea condiţiilor
de aplicare a testului de corelaţie (normalitatea distribuţiei, în special). –
Poate fi măsurată şi pe scală ordinală – … în nici un caz pe scală nominală (în
acest caz, se utilizează alte tehnici de regresie – analiza de discriminare sau
regresia logistică)
Condiții și limitări
• Variabilele independente (predictori)
– vor fi măsurate pe scale de interval – pot fi introduse în ecuație şi variabile
măsurate la nivel ordinal – pot fi utilizate direct şi variabile nominale
categoriale dihotomice, codificate numeric (ex: masc.=0; fem.=1)
NOU
• mărimea coeficientului de regresie în acest caz, indică diferența dintre cele

două categorii • ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7
unități decât al bărbaților (celelalte variabile fiind constante)
• Distribuţia variabilelor cantitative trebuie să fie normală
– Dacă se abat grav de la această condiţie, se vor utiliza proceduri adecvate de
transformare.
• Relaţiile dintre VI și VD trebuie să fie liniare

– condiţie verificabilă cu ajutorul unui grafic scatterplot
• Omogenitatea pantei de regresie

Homoscedasticitate Heterodasticitate Heterodasticitate
multicoliniaritatea
• • Variabilele predictor trebuie să fie ortogonale Corelația dintre predictori se
numește multicoliniaritate
– este mereu prezentă (… contează mărimea ei)
Efecte negative
– – – – Amplifică eroarea standard a coefic. de regresie Amplifică variabilitatea
coeficienților de regresie Reduce puterea (probabilitatea de resp. H0) Reduce
precizia predicției
Evaluare
– Corelații bivariate – Matricea de scatterplot-uri – Indicele de ”toleranță”
• ia valori între 0 şi 1 • valorile apropiate de 0 sunt un semn al coliniarităţii •
Dacă „toleranţa” este mai mică de 0.1 ridică o problemă de coliniaritate
Soluții:
– VIF (Variation Inflation Factor) >5 sau 10 !
• combinarea predictorilor sau eliminarea • mărirea volumului eșantionului

• Variabilele vor fi măsurate fără erori • Cazurile care prezintă valori extreme
vor fi analizate şi tratate corespunzător • Valorile reziduale (erorile de
predicţie) se vor supune următoarelor condiţii:
– media valorilor reziduale în studii de replicare să fie zero; – erorile din cazul
unei variabile independente nu au nici o legătură cu erorile altei sau altor
variabile independente; – erorile nu corelează cu variabilele independente; –
varianţa valorilor reziduale pe toată distribuţia variabilelor independente este
omogenă (homoscedasticitate) – erorile au o distribuţie normală;
• efectul valorilor extreme (outliers) asupra ecuaţiei de regresie,
– poate fi considerabil – uneori chiar şi una sau două valori excesive pot
influenţa analiza de regresie – aceste valori vor fi identificate şi tratate
corespunzător înaintea calculării ecuaţiei de regresie multiplă
alegerea modelului de analiză
• Fixarea modului în care variabilele predictor sunt introduse în modelul de
regresie este una dintre deciziile importante • se referă în esență la:
– stabilirea importanței predictorilor – ordinea de introducere – modul de tratare
a acestora de către programul de regresie
• se vor utiliza:
– informații despre relația bivariată dintre predictori și criteriu – rezultate ale
unor cercetări anterioare sau modele teoretice validate ori aflate în stadiul de
ipoteză.
– metode de introducere a variabilelor predictor în ecuaţie
• Regresia multipla standard. • Regresia multiplă secvenţială (regresie ierarhică).
• Regresia multiplă pas cu pas.
Regresia multiplă standard
• toate variabilele predictor sunt incluse în ecuaţie, • efectul fiecăreia este

evaluat după şi independent de efectul tuturor celorlalte variabile introduse
anterior • fiecare variabilă independentă este evaluată numai prin prisma
contribuţiei proprii la explicarea variabilei dependente
Regresia multiplă secvenţială (ierarhică)
• Predictorii (VI) sunt introduși în ecuaţie într-o anumită ordine, în funcţie de
opţiunile analistului. • Atunci când acesta are motive să creadă că un predictor
are o influenţă mai mare, o poate introduce în ecuaţie înaintea altora • Fiecare
predictor explică o anumită cantitate de variabilitate a VD, independent de
predictorii introduși anterior în ecuație
– astfel putem determina contribuția fiecărui predictor – … ”validitatea
incrementală”
Regresia multiplă pas cu pas
• utilizată în studii exploratorii, (nr. mare de predictori) • trei variante:
– Selecţia anterogradă – Selecţia pas cu pas – Selecţia retrogradă
Selecţia anterogradă
• Toate variabilele predictor sunt corelate cu variabila criteriu după care
variabila care are corelaţia cea mai mare este introdusă prima în ecuație •
Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai mare,
după ce a fost eliminat efectul variabilei anterioare • Procesul continuă până ce
nivelul contribuţiei variabilelor predictor este prea mic pentru a mai fi luat în
considerare • O variabilă odată introdusă în ecuaţie rămâne acolo.
Selecţia pas cu pas
• Este o variantă a metodei anterioare • la fiecare pas, fiecare variabilă deja
introdusă este retestată pentru a se evalua efectul ei ca şi cum ar fi fost
introdusă ultima • Dacă o variabilă nou introdusă are o contribuţie mai consistentă
asupra variabilei dependente, va determina eliminarea unei variabile anterioare
care se dovedeşte mai puţin predictivă
Selecţia retrogradă
• Pasul iniţial este calcularea a unei ecuaţii de regresie în care toate
variabilele predictor sunt incluse • Ulterior, pentru fiecare variabilă predictor
este efectuat un test de semnificaţie „F”, pentru a se evalua contribuţia fiecărui
predictor la corelaţia de ansamblu. • Valorile testului F sunt comparate cu o
valoare limită prestabilită, variabilele care nu trec acest prag fiind eliminate
din ecuaţie. • Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este
calculată şi un nou test F este efectuat pentru variabilele rămase, urmat de
eventuala eliminare a unei alte variabile. • Procesul continuă până când doar
variabilele semnificative rămân în ecuaţie
Concluzii la alegerea metodei de introducere a variabilelor
• metoda „secvenţială” şi cea „pas cu pas” sunt superioare metodei „standard”.

– în cazul metodei secvenţiale, decizia de selecţionare a variabilelor introduse în
ecuaţie aparţine cercetătorului – în cazul metodei pas cu pas, programul este cel
care face în mod automat selecţia, în funcţie de parametri fixaţi de analist
• … controversată
Analiza de putere pentru regresia multiplă
• stabilirea volumul eșantionului în funcție de:
– mărimea efectului – numărul predictorilor – puterea testului
• Recomandări:
– 15/1 (pentru 150 de subiecţi se poate miza pe cel mult 10 variabile independente
(predictori) – N≥50+8*m
• Mărimea efectului
– Mic = 0.02 – Mediu = 0.15 – Mare = 0.35
2 R f2 1  R2
• G*Power
Obiective de cercetare specifice analizei de regresie multiplă
• analiza de regresie multiplă este utilizabilă în situaţii de predicţie – dorim să
selectăm candidaţi pentru o anumită profesie pe baza performanţelor la un set de
teste psihologice – odată stabilită ecuaţia de regresie pentru eşantionul studiat,
utilizăm bateria de teste pentru a face predicţii de adaptare în cazul altor
subiecţi Întrebări tipice: – Care dintre indicatorii testelor utilizate are
capacitatea de predicţie cea mai ridicată? – Există indicatori care nu au relevanţă
pentru predicţia performanţei profesionale? – Are ecuaţia de regresie astfel
obţinută o capacitate sigură de predicţie? – Care dintre indicatorii testelor
utilizate pot fi incluse în ecuaţia de predicţie a performanţei profesionale? – Are
ecuaţia de regresie, astfel obţinută, o capacitate sigură de predicţie?
•
Efectuarea analizei de regresie cu SPSS
Validarea predicţiei...
Raportarea rezultatelor
• datele iniţiale şi eventualele eliminări sau transformări efectuate; •
indicatorii statistici descriptivi (medii, abateri standard), matricile de
corelaţie, graficele ilustrative pentru diferitele distribuţii; • coeficienţii de
regresie şi semnificaţiile lor (R2, R2adj şi gradele de libertate); • dacă a fost
utilizată metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare
pas şi nivelul lor de semnificaţie; • tabelul cu coeficienţii B (sau beta),
coeficienţii r bivariaţi şi corelaţia parţială pentru fiecare variabilă
independentă inclusă în model; • se vor trage concluzii de ansamblu...

Tip Regresie

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tip Regresie

Încărcat de

Drepturi de autor:

Formate disponibile

Regresia liniară multiplă

Validarea modelului de regresie Raportarea rezultatelor

• Situaţia tipică în psihologie - examenele de selecţie

0,0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5

• Sir Francis Galton (18221911) • relaţia dintre înălţimea medie a părinţilor şi

z y '  0.67 * 2  1.34

• Y’ → valoare prezisă (criteriu) • ayx → originea dreptei; (punctul în care linia

– poate fi exprimată ca fracţiuni ale lui X determinate de r

• X → valoare predictor a variabilei Y

• Semnificația statistică se testează cu testul F

• Termenul liber (a)

• Coeficientul de pondere (b)

Răspunsuri corecte (Y)

Răspunsuri prezise (Y’)

Eroare de predicție (Y’)

Valoare reală Ya=40

Media predicției Y’m=36

• dacă inversăm variabilele în ecuaţia de regresie se va obţine o linie de regresie

Unde • Y’ este valoarea estimată pentru variabila criteriu (dependentă) • ai este

• Semnificaţia statistică a lui R este calculată cu ajutorul unui test de varianţă

• mărimea coeficientului de regresie în acest caz, indică diferența dintre cele

• Relaţiile dintre VI și VD trebuie să fie liniare

• Omogenitatea pantei de regresie

– VIF (Variation Inflation Factor) >5 sau 10 !

• combinarea predictorilor sau eliminarea • mărirea volumului eșantionului

• toate variabilele predictor sunt incluse în ecuaţie, • efectul fiecăreia este

• metoda „secvenţială” şi cea „pas cu pas” sunt superioare metodei „standard”.

S-ar putea să vă placă și