Documente Academic
Documente Profesional
Documente Cultură
C7 - Analiza de Regresie II
C7 - Analiza de Regresie II
Ex. În ce măsură variații în nivel de școlarizare, Ex. Contribuie numărul de ani petrecuți în
inteligență sau performanță academică prezic facultate la explicarea variației în nivelul de
salarii mai mari (sau mai mici) în viitor. salarizare? Aduce includerea nivelului de
inteligență un plus în explicarea acestui
fenomen?
= Regresie cu scop predictiv
scop predictiv
Variabilă Variabilă
Regresie în
Variabila Variabilă
Regresie în
https://www.imdb.com/title/tt0314067/
A NA L IZ A D E
REG RES IE I I .
R E G R E S I A M U LT I L I N I A R Ă
A N D R E I R U S U & Z S E LY K E P A P
DESPRE CE 1. În ce constă regresia lineară multiplă
2. Pași pentru utilizare
DISCUTĂM 3. Informații suplimentare
ASTĂZI
LA CURSUL ANTERIOR AM DESCOPERIT CĂ ANII
PETRECUȚI ÎN ȘCOALĂ ÎMI PREZIC SALARIUL
Apelăm la calculul matematic al unei drepte:
y = b0 + b1x
salariul = b0 + b1 * anii de școală
b0 – 2265.5 (reprezintă valoarea lui y în cazul în care x este egal cu 0).
b1 – 0.324 (indică cu cât crește – sau scade – y atunci când x crește cu o
unitate.
Dar dacă vrem să prezicem
mai mult din salariu?
Vom căuta mai multe variabile pe care să le adăugăm în calcularea dreptei de regresie:
Identificăm potențialii
predictori / variabilele
independente ai unui
anumit criteriu (VD)
(modelul)
Pe baza literaturii
EXISTĂ DOUĂ SCENARII DE BAZĂ
ÎN CE ORDINE INTRODUC
regresiei cu scop
explicativ (ne permite să
testăm modificări /
M E TO DA S I M U LTA N Ă M E TO DA I E R A R H I C Ă
Introducem toți predictorii simultan (în Presupune cel puțin două ecuații de regresie
același pas). (pași).
- Nu permite controlul explicit al unor - A doua o include pe prima.
variabile. - Efectul predictorilor introduși în
- Util cânt nu există indicii empirice și primul pas este ținut sub control.
teoretice anterioare pentru stabilirea unei - Fiecare model va avea un F-test, și un R2
ierarhii. aferent.
PAS 2
Identificăm Evaluăm
modelul de eficiența
regresie modelului
Funcție de ordinea
în care am introdus
prdictorii
CÂT DE BINE DESCRIE MODELUL DATELE?
Model simultan vs. Model ierarhic
Testul F F schimbare
• Ne arată dacă există diferențe • Ne arată dacă schimbarea în R2
semnificative statistic între este semnificativă statistic.
estimările oferite de ecuația de
regresie și estimări pe baza (delta) ΔR2
mediei. • Ne indică diferența dintre
coeficientul de determinare asociat
Coef. de determinare - R2 primului model și cei asociați
• Ne indică procentajul din modelelor ulterioare create prin
dispersia variabilei criteriu care adăugarea de noi predictori (cât de
poate fi explicat pe baza evoluției multă varianță explicată aduc în
predictorului. plus noii predictori).
PAS 3
Identificăm Evaluăm
Interpretăm
modelul de eficiența
coeficienții
regresie modelului
Care din predictori
contribuie la model?
Care din predictori are
influența cea mai mare?
INTERPRETĂM COEFICIENȚII
C A R E D I N T R E P R E D I C TO R I C A R E D I N T R E P R E D I C TO R I A R E
C O N T R I BU I E L A M O D E L ? PONDEREA CEA MAI MARE?
• Identificăm predictorii semnificativi statistic • Putem ierarhiza predictorii pe baza
(testul t cu p < .05).* coeficienților de regresie standardizați (β).
• Este predictorul pozitiv sau negativ? Atenție! Raportul dintre valorile β nu se
interpretează (dacă un predictor are β = .40 și
altul β = .20, nu înseamnă că primul are un
*predictorii nesemnificativi vor fi ulterior excluși din model aport dublu față de celălalt).
iar acesta va fi retestat în noua configurație.
• Pentru o estimare procentuală a ponderii pe
care fiecare predictor o are în explicarea
criteriului vom avea nevoie de corelațiile
semi-parțiale.
PAȘI
Identificăm Evaluăm
Interpretăm
modelul de eficiența
coeficienții
regresie modelului
CE SALARIU ÎMI PREZIC ANII
PETRECUȚI ÎN ȘCOALĂ?
Dorim să îmbunătățim modelul pe care l-am identificat anterior și descoperim doi noi predictori cu efect semnificativ
statistic:
y = b0 + b1x1 + b2x2 + b3x3
salariul = b0 + b1 * anii de școală + b2 * conștiinciozitate + b3 * IQ
b0 – 2265.5 (reprezintă valoarea lui y în cazul în care x este egal cu 0).
b1 – 0.324 (indică cu cât crește salariul atunci când anii de școală cresc cu o unitate, iar ceilalți predictori sunt
constanți).
b2 – 10.227 (indică cu cât crește salariul atunci când conștiinciozitatea crește cu o unitate, iar ceilalți predictori sunt
constanți).
b3 – 2.101 (indică cu cât crește salariul atunci când inteligența crește cu o unitate, iar ceilalți predictori sunt constanți).
Analiza de regresie
este o procedură
parametrică, deci...
În plus! Includerea a
două sau mai multe
variabile independente
atrage condiții
suplimentare!
SCATTER PLOT (NOR DE
PUNCTE) PENTRU
REGRESIA MULTILINIARĂ
În cazul regresiei multiple nu este o practică
obișnuită vizualizarea și raportarea norului de
puncte în rapoartele de cercetare (articole).
Dar, pentru cei curioși am identificat două
modalități de creare a norului de puncte:
1.Vizualizarea simultană a relației dintre variabile
multiple prin intermediul unui scatter plot 3d.
Acest tip de grafic se încadrează pentru modele
cu 3 variabile (2 predictori + 1 criteriu) (vedeți
exemplele din dreapta).
2. Sau, o metoda care este mai degrabă un
artificiu, este calcularea scorurilor prezise (pe
baza ecuației de regresie multiplă) și vizualizarea
norului de puncte ce reprezintă relația dintre
scorurile prezise (contribuția simultană a tuturor
predictorilor) și scorurile criteriului. Pentru
exemplificare urmăriți acest video (are 5.16 min):
https://www.youtube.com/watch?v=_5kRBBqQh
A0