Sunteți pe pagina 1din 24

REGRESIA LINIARĂ NE PERMITE SĂ...

...identificăm variabile cu rol de predictor ...explicăm efectul setului de variabile


care ne ajută să estimăm valorile unei independente asupra variabilei
variabile de interes (criteriu). dependente.

Ex. În ce măsură variații în nivel de școlarizare, Ex. Contribuie numărul de ani petrecuți în
inteligență sau performanță academică prezic facultate la explicarea variației în nivelul de
salarii mai mari (sau mai mici) în viitor. salarizare? Aduce includerea nivelului de
inteligență un plus în explicarea acestui
fenomen?
= Regresie cu scop predictiv

= Regresie cu scop explicativ


TERMENI CHEIE Ce ne ajută să
prezicem /
explicăm.
Ce încercăm să
prezicem /
explicăm.

scop predictiv
Variabilă Variabilă
Regresie în

predictor (VI) criteriu (VD)


scop explicativ

Variabila Variabilă
Regresie în

independentă (VI) dependentă (VD)


PAȘI

Găsim și Prezicem viitorul


Evaluăm eficiența
interpretăm cu ajutorul
ecuației de ecuației de
parametrii
modelului regresie regresie
Dreapta de regresie F și R2 Ce salariu îmi prezic anii
petrecuți în școală?
CUM STABILIM DREAPTA DE
REGRESIE?
Apelăm la calculul matematic al unei drepte:
y = b0 + b1x
b0 – punctul de intersecție al ordonatei (interceptul – eng. constant)
b1 – panta de regresie – eng. slope (cu cât crește y atunci când x se modifică cu o unitate)
„VIAȚA E COMPLEXĂ ȘI ARE MULTE ASPECTE.”
Filantropica (2002)

https://www.imdb.com/title/tt0314067/
A NA L IZ A D E
REG RES IE I I .
R E G R E S I A M U LT I L I N I A R Ă

A N D R E I R U S U & Z S E LY K E P A P
DESPRE CE 1. În ce constă regresia lineară multiplă
2. Pași pentru utilizare
DISCUTĂM 3. Informații suplimentare
ASTĂZI
LA CURSUL ANTERIOR AM DESCOPERIT CĂ ANII
PETRECUȚI ÎN ȘCOALĂ ÎMI PREZIC SALARIUL
Apelăm la calculul matematic al unei drepte:
y = b0 + b1x
salariul = b0 + b1 * anii de școală
b0 – 2265.5 (reprezintă valoarea lui y în cazul în care x este egal cu 0).
b1 – 0.324 (indică cu cât crește – sau scade – y atunci când x crește cu o
unitate.
Dar dacă vrem să prezicem
mai mult din salariu?
Vom căuta mai multe variabile pe care să le adăugăm în calcularea dreptei de regresie:

y = b0 + b1x1 + b2x2 + b3x3 + ... + bnxn


salariul = b0 + b1 * anii de școală + b2 * conștiinciozitate + b3 * IQ
b1-n – coeficienții de regresie aferenți fiecărui predictor (VI) în parte (cu cât crește y
atunci când predictorul respectiv se modifică cu o unitate când ceilalți predictori sunt
constanți)
RĂMÂNE ACEEAȘI ECUAȚIE DOAR CĂ VA
CREȘTE PE MĂSURĂ CE ADĂUGĂM VI
Modelele de regresie multiliniară implică 2 sau mai mulți predictori (VI) și vor lua forma:

y = b0 + b1x1 + b2x2 + b3x3 + ... + bnxn

b0 – punctul de intersecție al ordonatei (interceptul – eng. constant)


b1-n – panta de regresie – eng. slope (cu cât crește y atunci când x1-n se modifică cu o unitate,
în condițiile în care ceilalți x rămân neschimbați – constanți –).
PAS 1

Identificăm potențialii
predictori / variabilele
independente ai unui
anumit criteriu (VD)
(modelul)

Pe baza literaturii
EXISTĂ DOUĂ SCENARII DE BAZĂ

1. Criteriu asupra Identificăm toți Ulterior alegem


căruia nu avem alte potențialii predictori și predictorii
date empirice îi testăm simultan semnificativi
Identificăm potențialii
predictori
Testăm dacă adăugând
II. Criteriu asupra Identificăm noi
noii predictori apar
căruia există modele variabile cu potențial
îmbunătățiri ale
anterioare predictiv
modelului
ILUSTRAREA SCHEMEI ANTERIOARE

1.Vrem să prezicem salariul și nu găsim 2. Știm deja că salariul este prezis de


modele testate empiric (doar modele numărul de ani de educație, dar teoria ne
teoretizate) spune că și conștiinciozitatea și inteligența
Ex: venitul poate fi prezis de (1) nr. de ani de pot contribui.
școală (proxi al nivelului de competență), (2) Vom testa modele succesive, adăugând
nivelul de conștiinciozitate, și (3) nivelul de fiecare predictor nou, pe rând, până
inteligență). identificăm cel mai bun model.
salariul = b0 + b1 * anii de școală
Vom testa un model cu toate variabilele:
salariul = b0 + b1 * anii de școală + b2 * conștiinciozitate
salariul = b0 + b1 * anii de școală + b2 * conștiinciozitate + b3 * IQ
salariul = b0 + b1 * anii de școală + b2 * conștiinciozitate + b3 * IQ
Aplicată mai ales în cazul

ÎN CE ORDINE INTRODUC
regresiei cu scop
explicativ (ne permite să
testăm modificări /

PREDICTORII? îmbunătățiri de modele


teoretice)

M E TO DA S I M U LTA N Ă M E TO DA I E R A R H I C Ă
Introducem toți predictorii simultan (în Presupune cel puțin două ecuații de regresie
același pas). (pași).
- Nu permite controlul explicit al unor - A doua o include pe prima.
variabile. - Efectul predictorilor introduși în
- Util cânt nu există indicii empirice și primul pas este ținut sub control.
teoretice anterioare pentru stabilirea unei - Fiecare model va avea un F-test, și un R2
ierarhii. aferent.
PAS 2

Identificăm Evaluăm
modelul de eficiența
regresie modelului
Funcție de ordinea
în care am introdus
prdictorii
CÂT DE BINE DESCRIE MODELUL DATELE?
Model simultan vs. Model ierarhic

Testul F F schimbare
• Ne arată dacă există diferențe • Ne arată dacă schimbarea în R2
semnificative statistic între este semnificativă statistic.
estimările oferite de ecuația de
regresie și estimări pe baza (delta) ΔR2
mediei. • Ne indică diferența dintre
coeficientul de determinare asociat
Coef. de determinare - R2 primului model și cei asociați
• Ne indică procentajul din modelelor ulterioare create prin
dispersia variabilei criteriu care adăugarea de noi predictori (cât de
poate fi explicat pe baza evoluției multă varianță explicată aduc în
predictorului. plus noii predictori).
PAS 3

Identificăm Evaluăm
Interpretăm
modelul de eficiența
coeficienții
regresie modelului
Care din predictori
contribuie la model?
Care din predictori are
influența cea mai mare?
INTERPRETĂM COEFICIENȚII

C A R E D I N T R E P R E D I C TO R I C A R E D I N T R E P R E D I C TO R I A R E
C O N T R I BU I E L A M O D E L ? PONDEREA CEA MAI MARE?
• Identificăm predictorii semnificativi statistic • Putem ierarhiza predictorii pe baza
(testul t cu p < .05).* coeficienților de regresie standardizați (β).
• Este predictorul pozitiv sau negativ? Atenție! Raportul dintre valorile β nu se
interpretează (dacă un predictor are β = .40 și
altul β = .20, nu înseamnă că primul are un
*predictorii nesemnificativi vor fi ulterior excluși din model aport dublu față de celălalt).
iar acesta va fi retestat în noua configurație.
• Pentru o estimare procentuală a ponderii pe
care fiecare predictor o are în explicarea
criteriului vom avea nevoie de corelațiile
semi-parțiale.
PAȘI

Identificăm Evaluăm
Interpretăm
modelul de eficiența
coeficienții
regresie modelului
CE SALARIU ÎMI PREZIC ANII
PETRECUȚI ÎN ȘCOALĂ?
Dorim să îmbunătățim modelul pe care l-am identificat anterior și descoperim doi noi predictori cu efect semnificativ
statistic:
y = b0 + b1x1 + b2x2 + b3x3
salariul = b0 + b1 * anii de școală + b2 * conștiinciozitate + b3 * IQ
b0 – 2265.5 (reprezintă valoarea lui y în cazul în care x este egal cu 0).
b1 – 0.324 (indică cu cât crește salariul atunci când anii de școală cresc cu o unitate, iar ceilalți predictori sunt
constanți).
b2 – 10.227 (indică cu cât crește salariul atunci când conștiinciozitatea crește cu o unitate, iar ceilalți predictori sunt
constanți).
b3 – 2.101 (indică cu cât crește salariul atunci când inteligența crește cu o unitate, iar ceilalți predictori sunt constanți).

salariul = 2265.5 + 0.324 * anii de școală + 10.227 * conștiinciozitate + 2.101 * IQ


2606.4 = 2265.5 + (0.324 * 15) + (10.227 * 8) + (2.101 * 121)
PUTEM AVEA ȘI PREDICTORI NOMINALI
– DAR DOAR DIHOTOMICI
Variabilele nominale cu
mai mult de două
niveluri pot fi
transformate în variabile
dihotomice (”dummy
• Analiza de regresie permite și predictori nominali de tip dummy (dihotomici). coded”)
• În mod convențional li se dau valori de 0 și 1 (ex: fete vs. băieți; urban vs. rural; șomeri vs. angajați).
• Coeficientul de regresie (b) arată cu cât se va schimba valoarea criteriului când predictorul își schimbă
categoria de răspuns (din 0 în 1).
Ex: salariul = b0 + b1 * anii de școală + b2 * gen (0 – fete, 1 – băieți)
b0 = 2265.5
b1 = 0.324
b2 = -11.22 (indică cu cât se modifică salariul <atenție la semn> atunci când genul își modifică
categoria de răspuns <adică, pentru băieți>, iar ceilalți predictori sunt constanți).
salariul = 2265.5 + 0.324 * anii de școală – 11.22 * gen (0 – fete, 1 – băieți)
SINGURA
E C UA Ț I E
DE Y = B 0 + B 1X 1 + B 2X 2 + . . . + B NX N
ȚINUT
MINTE!
ASUMPȚII!

Analiza de regresie
este o procedură
parametrică, deci...
În plus! Includerea a
două sau mai multe
variabile independente
atrage condiții
suplimentare!
SCATTER PLOT (NOR DE
PUNCTE) PENTRU
REGRESIA MULTILINIARĂ
În cazul regresiei multiple nu este o practică
obișnuită vizualizarea și raportarea norului de
puncte în rapoartele de cercetare (articole).
Dar, pentru cei curioși am identificat două
modalități de creare a norului de puncte:
1.Vizualizarea simultană a relației dintre variabile
multiple prin intermediul unui scatter plot 3d.
Acest tip de grafic se încadrează pentru modele
cu 3 variabile (2 predictori + 1 criteriu) (vedeți
exemplele din dreapta).
2. Sau, o metoda care este mai degrabă un
artificiu, este calcularea scorurilor prezise (pe
baza ecuației de regresie multiplă) și vizualizarea
norului de puncte ce reprezintă relația dintre
scorurile prezise (contribuția simultană a tuturor
predictorilor) și scorurile criteriului. Pentru
exemplificare urmăriți acest video (are 5.16 min):
https://www.youtube.com/watch?v=_5kRBBqQh
A0

S-ar putea să vă placă și