Documente Academic
Documente Profesional
Documente Cultură
M. Popa
cuprins
1. 2. 3. 4. 5. 6. 7. Noțiuni de bază – regresia liniară simplă Modelul de predicție
multivariată Obiectivele analizei de regresie multiplă Condiţii şi limitări
Alegerea modelului de analiză Volumul eșantionului Regresia multiplă cu SPSS
– Operații preliminare – Procedura de calcul – Interpretarea rezultatelor
8. 9.
• Regresia
– metodă de predicţie a valorilor unei variabile pe baza valorilor altei variabile
– variabila independentă
• variabila “cauză” • valorile ei “prezic” valorile variabilei dependente • este
denumită “predictor”
– variabila dependentă
• variabila “efect” • valorile ei sunt “prezise” pe baza valorilor variabilei
independente • este denumită şi “criteriu”
• Regresia multiplă
– mai multe variabile predictor – se bazează pe corelaţia multiplă dintre criteriu
şi predictori – situaţia tipică în psihologie: selecţia bazată pe baterii de teste
P1
P2
P3
4
Predicţia perfectă
• r=±1
– zx=1.5 – zy’=1.5 – zy’ creşte sau scade cu aceeaşi unitate cu cât creşte sau
scade zx
3,5 3,0
z y' zx
2,5
2,0
1,5
1,0
,5
z(y)
z(x)
5
Predicţia în cazul corelaţiei imperfecte
• corelaţiile sunt numai prin excepţie perfecte • în mod normal, r variază în jurul
lui 0
– exemplu: corelaţia între cunoştinţele de matematică şi rezultatele la statistică
z y' r * zx
6
Noţiunea de regresie către medie
7
Exemplu (date reale, selecționate din N=253)
Subiect Nr. prezențe la cursul de statistică (X) Răspunsuri corecte la evaluări
parțiale (P1+P2+P3) (Y)
A B C D F G H I J K
1 3 4 7 8 9 10 11 12 13
7 18 19 35 19 28 40 37 45 54
Valoare reală Ya=40
Eroare de predicție
ε=12.85
Valoare prezisă Y’a=27.15
Xa=7
Ecuaţia dreptei de regresie
Y a yx byx * X
'
10
Modelul de regresie simplă
• Acuratețea predicției este dată de coeficientul de regresie R (expresia lui r)
– Exemplul nostru: R=0.528
• Y=8.973+2.598*X
Pentru exemplul prezentat:
• R=0.528; a=8.973; b=2.598
– Y=8.973+2.598*X – X=1 … Y= 11.575 – X=2 … Y= 14.171
O prezență la curs contribuie cu 2.596 răspunsuri corecte
Expresia grafică a regresiei aceeaşi origine dar pante diferite
origini diferite, dar aceeaşi pantă
13
Eroarea de predicție…
Subiect Nr. prezențe (X)
A B C D F G H I J K
1 3 4 7 8 9 10 11 12 13
7 18 19 35 19 28 40 37 45 54
11.57 16.76 19.36 27.15 29.75 32.35 34.95 37.54 40.14 42.74
-4.57 1.24 -0.36 7.85 -10.75 -4.35 5.05 -0.54 4.86 11.26
Varianță neexplicată (diferență reziduală)
Ya-Y’m=4
Eroare de predicție
ε=12.85
Varianță explicată
Y’a-Y’m=8.85
Xa=7
regresia nu este simetrică !
16
• Modelul de predicție bazat pe un singur predictor (prezența la curs), explică
doar o parte (27.2%) din variația răspunsurilor corecte • Variație neexplicată =
72.8% • Trebuie să existe, deci, și alți predictori…
– – – – – ? ? ? ? …
Modelul de predicție multivariată
Y ai b1 * X1 b2 * X 2 b3 * X 3 .... bk * X k
'
X1
predictor
X2
predictor
Planul de regresie multivariată
Y
criteriu
X1
predictor
X2
predictor
Indicatori ai intensității predicției
• R = coeficientul de corelație multiplă • R2 = procentul de variaţie din VD
(criteriu) determinat de variaţia simultană a VI (predictori) • R2adj=R2 corectat
pentru numărul predictorilor
NOU
– R2adj > 75% - foarte bun (peste 90% rar… probabil un artefact) – 50% - 75% - bun
– 25% - 50% - slab dar acceptabil – sub 25% - foarte slab (probabil inacceptabil)
Efecte negative
– – – – Amplifică eroarea standard a coefic. de regresie Amplifică variabilitatea
coeficienților de regresie Reduce puterea (probabilitatea de resp. H0) Reduce
precizia predicției
Evaluare
– Corelații bivariate – Matricea de scatterplot-uri – Indicele de ”toleranță”
• ia valori între 0 şi 1 • valorile apropiate de 0 sunt un semn al coliniarităţii •
Dacă „toleranţa” este mai mică de 0.1 ridică o problemă de coliniaritate
Soluții:
• se vor utiliza:
– informații despre relația bivariată dintre predictori și criteriu – rezultate ale
unor cercetări anterioare sau modele teoretice validate ori aflate în stadiul de
ipoteză.
– metode de introducere a variabilelor predictor în ecuaţie
• Regresia multipla standard. • Regresia multiplă secvenţială (regresie ierarhică).
• Regresia multiplă pas cu pas.
Regresia multiplă standard
• Recomandări:
– 15/1 (pentru 150 de subiecţi se poate miza pe cel mult 10 variabile independente
(predictori) – N≥50+8*m
• Mărimea efectului
– Mic = 0.02 – Mediu = 0.15 – Mare = 0.35
2 R f2 1 R2
• G*Power
Obiective de cercetare specifice analizei de regresie multiplă
• analiza de regresie multiplă este utilizabilă în situaţii de predicţie – dorim să
selectăm candidaţi pentru o anumită profesie pe baza performanţelor la un set de
teste psihologice – odată stabilită ecuaţia de regresie pentru eşantionul studiat,
utilizăm bateria de teste pentru a face predicţii de adaptare în cazul altor
subiecţi Întrebări tipice: – Care dintre indicatorii testelor utilizate are
capacitatea de predicţie cea mai ridicată? – Există indicatori care nu au relevanţă
pentru predicţia performanţei profesionale? – Are ecuaţia de regresie astfel
obţinută o capacitate sigură de predicţie? – Care dintre indicatorii testelor
utilizate pot fi incluse în ecuaţia de predicţie a performanţei profesionale? – Are
ecuaţia de regresie, astfel obţinută, o capacitate sigură de predicţie?
•
Efectuarea analizei de regresie cu SPSS
Validarea predicţiei...
Raportarea rezultatelor
• datele iniţiale şi eventualele eliminări sau transformări efectuate; •
indicatorii statistici descriptivi (medii, abateri standard), matricile de
corelaţie, graficele ilustrative pentru diferitele distribuţii; • coeficienţii de
regresie şi semnificaţiile lor (R2, R2adj şi gradele de libertate); • dacă a fost
utilizată metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare
pas şi nivelul lor de semnificaţie; • tabelul cu coeficienţii B (sau beta),
coeficienţii r bivariaţi şi corelaţia parţială pentru fiecare variabilă
independentă inclusă în model; • se vor trage concluzii de ansamblu...