Sunteți pe pagina 1din 25

REGRESIA LINIAR MULTIPL

Adrian Dua
Universitatea din Bucureti
Facultatea de Sociologie i Asisten Social

REGRESIA LINEAR MULTIPL


A. Prezentare general.
O mulime de factori ne afecteaz viaa, deciziile de zi cu zi. Cumprm pentru c produsul este bun,
dar i pentru c este ieftin, ori are o culoare care ne place etc. Votm pentru c simpatizm un anumit
candidat, dar i pentru c programul politic al acestuia este unul care se potrivete cu ateptrile
noastre etc.
Ecuaia de regresie poate aadar s conin mai multe variabile independente; aciunea simultan i
cumulat a acestora mbuntete foarte mult acurateea prediciei. Forma general a acestei ecuaii
este:
y = a + b1x1 + b2x2 + + bkxk + e

[1]

Pentru o demonstraie a principiului pe care funcioneaz aceasta, vom analiza cazul mai simplu a
unei ecuaii de regresie linear multipl cu dou variabile independente (regresia trivariat):
y = a + b1x1 + b2x2 + e

[2]

Valorile prezise a lui y sunt calculate ntr-un mod similar cu cel din regresia simpl:
y = a + b1x1 + b2x2

[3]

S ne reamintim de primul exemplu, cel al variaiei veniturilor. Dac ncercm s explicm variaia
VENIT-urilor cu ajutorul variabilelor VRST i EDUCAIE, ne folosim de mai mult informaie pe
care o avem pentru a efectua o predicie. Att prima variabil independent ct i cea de a doua i
aduc o contribuie la explicarea cantitii totale de variaie a variabilei dependente. Avnd dou surse
de explicaie n loc de una (ca n cazul regresiei lineare simple), eroarea asociat cu aceast predicie
va fi mai mic. Cantitatea de variaie explicat se mrete pe msur ce cantitatea de eroare scade.
Ipoteza pe care se bazeaz acest model este una mai complex, cumulnd dou ipoteze paralele:
a. venitul depinde de vrst: creterea vrstei duce la o cretere a venitului
b. venitul depinde de educaie: mai muli ani de educaie duc la un venit mai mare
sau ntr-o singur fraz: venitul depinde de vrst i de educaie.
Combinarea celor dou sub-ipoteze sugereaz c ar trebui s existe cte o relaie liniar ntre
variabila dependent i fiecare dintre cele dou variabile independente. De altfel i titlul acestui capitol
arat acelai lucru: chiar dac avem mai multe variabile independente, regresia este tot linear.
Ceea ce se schimb la analizarea grafic a ecuaiei [2] este forma norului de puncte; avnd trei
variabile n acelai grafic, norul de puncte va trece de la reprezentarea n plan (specific regresiei
simple) la reprezentarea n spaiu, mai exact ntr-un cub.

50
40

30

60

20

50

10

40

40

Varsta sotiei

70

30
20

Numar ani de casatorie

60

Figura 1. Spaiul grafic n 3 dimensiuni n care va fi afiat norul de puncte

50

60

70

80

90

Varsta sotului

Adrian Dua Universitatea din Bucureti pag.2 din 25

Vom folosi pentru exemplificare aceeai relaie ntre vrsta soilor i vrsta soiilor, de aceast dat
ambele fiind variabile independente, cu urmtoarea ipotez: numrul de ani de cstorie depinde de
vrsta soului i de vrsta soiei.
Am folosit date despre vrstele a 50 de cupluri cstorite extrase n mod aleator din Barometrul de
Opinie Public mai 2003, n care vrsta soului este de peste 40 de ani, deoarece numrul de ani de
cstorie nu exist n aceast baz de date. Presupunnd c vrsta la cstorie este undeva n jurul
vrstei de 20 de ani, am creat aceast variabil prin extragerea aleatoare dintr-o distribuie normal
cu: - media calculat ca: vrsta soului minus 30 de ani i
- abaterea standard de 5 ani.
Raiunea utilizrii acestui algoritm o putem demonstra presupunnd c dorim s estimm numrul de
ani de cstorie pentru un brbat cu vrsta de 40 de ani (cea mai mic vrst n eantionul nostru
aleator). Extragerea unui numr de ani de cstorie dintr-o distribuie normal va avea media egal cu
40 - 30 = 10 ani, iar 95% dintre numerele extrase vor fi ntre +/- 2 abateri standard n jurul acestei
medii, adic n intervalul (10 - 25 , 10 + 25) adic (0 , 20). Brbaii n vrst de 40 de ani pot avea
maxim 20 de ani de cstorie, ceea ce este conform cu presupunerea noastr iniial c vrsta medie
la cstorie este undeva n jur de 20 de ani. Sigur c exist o probabilitate de 2,5% ca numrul de ani
extras s fie mai mare de 20 de ani, ns nu exist nici un pericol pentru c oamenii se cstoresc i
la vrste mai mici (de exemplu 18 ani).
Setul de date rezultat are trei conine astfel 3 variabile (pe coloane) i 50 de cazuri (pe rnduri).
Fiecare caz conine 3 valori, pentru x1, x2 i y. Mai jos este prezentat tabelul utilizat pentru analiza de
regresie iar pe pagina urmtoare i reprezentarea n 3 dimensiuni a norului de puncte. Fiecare punct
afiat pe grafic va fi rezultatul a trei coordonate: una specific variabilei dependente y (afiat pe axa
vertical) i celelalte corespondente celor dou variabile independente x1 i x2 (afiate pe cele dou
axe orizontale). La modul general, spunem c o figur n trei dimensiuni are coordonatele x, y i z.
Pentru a pstra ns relaia cu ecuaia de regresie, am nlocuit notaia din sistemul de coordonate
tradiional cu notaia x1, x2 i y, n care z tradiional i y din noua notaie se refer la axa vertical.
Tabel 1. Vrstele i numrul de ani de cstorie a 50 de cupluri, n ordinea cresctoare a vrstelor
Vrsta
soului

Vrsta
soiei

Numr ani
de cstorie

x1

x2

41

38

17

42

22

42

37

26

58

60

38

50

81

73

48

S lum spre exemplu cea de-a 26-a gospodrie, n care vrsta soului este de 58 de ani, vrsta soiei
este de 60 de ani, iar numrul de ani de cstorie este de 38 de ani. n figura de mai jos, reprezentm
n spaiu aceast gospodrie printr-un punct de culoare roie; se observ c axa 0x1 pornete de la
cifra 40, iar axa 0x2 de la cifra 20 (n tabelul nostru, nu avem nici o vrst mai mic de 40 ani la
brbai i nici una mai mic de 20 de ani la femei).

Adrian Dua Universitatea din Bucureti pag.3 din 25

Figura 2. Reprezentarea grafic a celei de a 26-a gospodrii

Proiecia punctului pe latura exterioar a


cubului; echivalentul punctului de coordonate
n 2 dimensiuni: x2 = 60; y = 38

50
40

80

30

60

20

50
40

10

Proiecia punctului pe baza cubului;


echivalentul punctului de coordonate
n 2 dimensiuni: x1 = 58; x2 = 60

Varsta sotiei

70

30
20

Numar ani de casatorie

60

Punctul de coordonate:
x1 = 58; x2 = 60; y = 38

40

50

60

70

80

90

Proiecia punctului pe latura din fa a


cubului; echivalentul punctului de coordonate
n 2 dimensiuni: x1 = 58; y = 38

Varsta sotului

Marginile vizibile ale cubului sunt prezentate cu linie continu, iar cele trei margini ascunse cu linie
ntrerupt. Proieciile ctre cele trei planuri au o linie punctat; baza cubului este planul format de
variabilele x1 i x2.
Norul de puncte pentru toate cele 50 de cazuri este prezentat n Figura 3. Se observ o variaie att
pe axa 0x1 (pe lungimea cubului), ct i pe axa 0x2 (pe limea cubului) i pe axa 0y (pe nlimea
cubului).
Figura 3. Reprezentarea grafic a norului de puncte
a. reprezentare simpl

40

50

60

70

Varsta sotului

80

90

50

60
20

40
20

40

Varsta sotiei

30

60
50

10

20
10

40
30

80
70

30
20

30

60
50

Varsta sotiei

70

Numar ani de casatorie

50
40

80

Numar ani de casatorie

60

b. reprezentare a norului de puncte i a proieciilor


cu evidenierea cuplului nr.26

40

50

60

70

80

90

Varsta sotului

Norul de puncte are aadar trei dimensiuni; forma lui este tot eliptic, ns n spaiu. La fel ca la
regresia simpl, va trebui s gsim o soluie pentru aproximarea acestui nor de puncte. Aproximarea
nu se mai poate face ns cu o simpl linie, deoarece exist erori nu doar deasupra sau dedesubtul
liniei, ci i la stnga i la dreapta. Soluia este simpl: traversarea norului de puncte se va face cu
ajutorul unui plan (s ne imaginm o foaie de hrtie transparent care trece prin nor). Planul va fi
denumit n continuare planul de regresie.

Adrian Dua Universitatea din Bucureti pag.4 din 25

B. Planul de regresie.
Orice plan este determinat de dou variabile (demonstraia a fost deja fcut la regresia simpl); este
normal deci s aproximm norul de puncte printr-un plan deoarece avem dou variabile
independente. Planul nostru are dou tipuri de nclinri (pante) pariale: una pe lungime i alta pe
limea acestuia. S mai examinm nc odat ecuaia numrul [3]:
y = a + b1x1 + b2x2
Dup cum tim de la regresia simpl, panta dreptei era dat de coeficientul de regresie b. n aceast
ecuaie avem un coeficient b1 care este panta parial pe lungime a planului de regresie i nc un
coeficient b2 care este panta parial pe lime a planului de regresie (n vom interpreta mai n detaliu
puin mai trziu).
Este destul de dificil de reprezentat o asemenea imagine ntr-un manual tiprit; am avea nevoie de un
model fizic n trei dimensiuni pe care s-l putem roti pentru a observa toate aceste aspecte (exist
programe software care pot face o astfel de rotire, ns doar pe calculator). Vom folosi ns nite mici
convenii, reprezentnd punctele de sub plan ntr-o culoare mai nchis dect cele de deasupra
planului. Urmtoarea figur va prezenta norul de puncte i planul de regresie care l aproximeaz,
precum i eroarea pentru primul cuplu de la valoarea observat i cea prezis a lui y.

50

nclinarea parial (pe


lime) a planului de
regresie

40

80

30
20

50

10

40

40

Varsta sotiei

70
60

30
20

Numar ani de casatorie

Eroarea de la punctul
corespunztor primului cuplu
la planul de regresie

60

Figura 4. Planul de regresie care secioneaz norul de puncte

50

60

70

Varsta sotului

80

90

nclinarea parial (pe


lungime) a planului de
regresie

Planul de regresie reprezint predicia noastr n ceea ce privete valoarea dependentei y. Punctele
de predicie se afl pe suprafaa planului, cu coordonatele date de a, b1x1 i b2x2. Ca i la regresia
simpl, exist mai multe planuri posibile care s aproximeze norul de puncte; valorile coeficienilor
care formeaz planul de regresie potrivit sunt calculate folosind aceeai metod a celor mai mici
ptrate: din infinitatea de planuri de regresie posibile, acela care aproximeaz cel mai bine norul de
puncte este definit de un termen liber a i de nclinrile (pantele) pariale b1 i b2 n funcie de care
suma erorilor de la puncte la plan este un numr minim.
Spre exemplu, aplicarea modelului nostru de regresie a generat urmtoarele valori ale coeficienilor de
regresie: a = -36,9; b1 = 0,9; b2 = 0,3.
n Figura 4, pentru primul cuplu, valoarea prezis a lui y1 este y1 = -36,9 + 0,941 + 0,338 = 8,47.
Valoarea observat a lui y1 este 17, n consecin eroarea este egal cu e1 = y1-y1 = 17-8,47 = +8,53.

Adrian Dua Universitatea din Bucureti pag.5 din 25

Punctul observat se afl deasupra planului de regresie. n acelai mod se pot trasa toate erorile de la
puncte la plan:
Figura 5. Erorile de la puncte la planul de regresie

Legend:
Punctul se afl deasupra
planului de regresie
Punctul se afl sub planul
de regresie
60

Eroare pozitiv

40

80

30

60

20

50
40

Varsta sotiei

70

10

Numar ani de casatorie

50

Eroare negativ

30

20
40

50

60

70

80

90

Varsta sotului

Ceea ce trebuie observat este c unele erori sunt mai mici i altele mai mari, unele pozitive i altele
negative. Acest lucru nseamn c erorile variaz, compunnd o variabil n sine. Pentru fiecare
dintre cele i valori observate (n exemplul nostru, i = 50 de cupluri): yi, x1i i x2i putem s calculm o
mrime a erorilor ei ca o combinaie linear (o rearanjare a ecuaiei de gradul I) ntre variabilele
existente:
ei = yi - (a + b1x1i + b2x2i), unde i = 150

[4]

de unde rezult c variabila e se poate calcula simplu ca:


e = y - y

[5]

Ecuaia [5] este valabil (poate fi generalizat) pentru oricte variabile independente am avea n
model, nu doar pentru dou cte avem n exemplul nostru. Toate aceste reprezentri grafice sunt
valabile doar pentru dou variabile independente. Ce se ntmpl ns cnd avem trei sau mai multe?
n cazul a trei variabile independente (plus o variabil dependent), avem n total patru dimensiuni.
Posibilitile de reprezentare grafic se opresc la trei dimensiuni, n consecin nu putem demonstra
grafic acest tip de regresie. Putem ns s ne folosim imaginaia, utiliznd modelul tranziiei de la dou
la trei dimensiuni: s ne imaginm o form geometric n patru dimensiuni; predicia n acest caz se
realizeaz cu ajutorul celor trei variabile independente, ntr-un cub. Am pornit de la o dreapt de
regresie n dou dimensiuni, am trecut la planul de regresie n trei dimensiuni, putem trece fr
probleme la predicia cu ajutorul cubului de regresie n patru dimensiuni .a.m.d.
IMPORTANT!
n orice ecuaie de regresie, putem defini un spaiu cu k + 1 dimensiuni generat de toate
variabilele care intr n ecuaie: k variabile independente i 1 variabil dependent.
Predicia se realizeaz n sub-spaiul cu k dimensiuni (numit i hiper-plan de regresie
sau suprafa de regresie) corespunztor variabilelor independente.

Adrian Dua Universitatea din Bucureti pag.6 din 25

C. Coeficientul de determinaie multipl. Coeficientul de corelaie multipl.


n regresia simpl, am folosit coeficientul de determinaie (simpl) r2 pentru a calcula intensitatea
asocierii dintre dou variabile. Ne amintim c este contraindicat folosirea coeficientului de corelaie n
acest scop; dac r = 0,5 (ceea ce ar indica o intensitate destul de mare) atunci r2 = 0,25 ceea ce
nseamn c de fapt variabila independent nu explic dect un sfert din variaia dependentei. n
acelai mod, folosim coeficientul de determinaie multipl (notat aici cu R2) pentru a calcula
intensitatea asocierii dintre trei sau mai multe variabile.
Coeficientul de corelaie multipl se poate calcula prin radical din coeficientul de determinaie;
msoar corelaia dintre valorile observate i cele prezise (de ctre model) ale variabilei dependente.
n interpretarea coeficientului de corelaie multipl, variabilele sunt standardizate pentru a elimina
efectele unitilor de msur diferite ale variabilelor.
R2 este totodat i proporia din variaia total a lui y care este explicat de modelul de regresie, de
acel sub-spaiu cu k dimensiuni determinat de variabilele independente.
n

(y y)
i

R2 =

i=1
n

(yi y )2

0 R2 1

[6]

i=1

Determinaia multipl este ntotdeauna cel puin la fel de mare ca determinaia simpl: R2 r2.
Aceasta nseamn c nu vom avea niciodat o predicie mai slab prin introducerea unei noi (sau a
mai multor) variabile n ecuaia de regresie linear simpl. Acest lucru are o importan deosebit n
evaluarea eficienei modelului de regresie i a gradului n care introducerea unei noi variabile
influeneaz acurateea prediciei.
Spre exemplu, dac o regresie linear simpl are un r2 = 0,7 iar prin introducerea unei a doua
variabile independente R2 = 0,71 atunci variabila nou introdus nu aduce aproape nimic n plus la
explicarea variaiei dependentei.
O valoare a lui R2 egal cu 1 nseamn c variabilele independente explic perfect variaia variabilei
dependente; aceasta poate fi prezis ntotdeauna cu ajutorul unei funcii lineare fr nici un fel de
eroare. La captul cellalt, dac R2 = 0 avem dou posibiliti: fie nu avem nici un fel de variaie a lui y
pentru valori diferite ale independentelor, fie exist variaie ns aceasta nu se prezint sub o form
linear (caz n care nu se mai poate aplica acest tip de regresie multipl).
Majoritatea programelor statistice nu mai afieaz r2 ci folosesc un singur R2 generic pentru toate
tipurile de regresie. Atunci cnd avem o singur variabil independent, R2 se interpreteaz ca un
coeficient de determinaie simpl; cnd avem dou sau mai multe independente, R2 este coeficientul
de determinaie multipl.
R2 tinde s supraestimeze ct anume poate s explice modelul, n special pentru eantioanele mici.
De aceea, programele statistice mai raporteaz i un alt tip de R2, numit Adjusted R2. Acesta are
valori diferite de R2 n funcie de numrul de variabile independente din model i n funcie de mrimea
eantionului. Valoarea pe care noi trebuie s o considerm corect este R2 ajustat; cu alte cuvinte, o
cantitate de variaie explicat de modelul de regresie mai apropiat de realitate este egal cu valoarea
acestui coeficient. Spre deosebire de R2, versiunea ajustat a acestuia poate s scad atunci cnd
sunt adugate n model variabile cu putere slab de explicaie.
n cazul regresiei simple, avnd o singur variabil independent n model, R2 este aproximativ egal
cu R2 ajustat.

Adrian Dua Universitatea din Bucureti pag.7 din 25

D. Corelaia parial. Controlarea variabilelor. Interpretarea coeficienilor de regresie.


Complementar cu noiunea de corelaie multipl este cea de corelaie parial, care este corelaia
dintre dou variabile atunci cnd o a treia variabil este inut sub control. S lum n considerare trei
variabile x1, x2, i x3. Calcularea coeficientului de corelaie simpl ntre x2 i x3 (r23) ignor complet
valorile primei variabile. S presupunem ns c am menine valorile lui x1 la o valoare constant; ce
s-ar ntmpla cu corelaia dintre x2 i x3 n acest caz?
Cunoatem deja fenomenul de corelaie aparent: atunci cnd x1 influeneaz n mod direct att pe x2
ct i pe x3, vom avea o corelaie ntre ultimele chiar dac n realitate acestea nu au nimic n comun.
innd pe x1 constant, coeficientul de corelaie r23 poate s dispar ori s se modifice substanial.
Un exemplu clasic este acela al corelaiei dintre greutatea corporal i coeficientul de inteligen.
Dac msurm greutatea i inteligena copiilor dintr-o coal general, vom observa fr ndoial o
corelaie pozitiv ridicat; aceast corelaie se datoreaz faptului c ambele sunt influenate de vrsta
copilului. Dac meninem vrsta constant (msurm spre exemplu greutatea i inteligena doar
pentru copii n vrst de 10 ani) corelaia dintre greutate i inteligen dispare, sau cel puin este
redus la valori foarte mici.
Metoda experimentului n tiinele sociale are o variant numit experimentul de laborator; ideea de
baz este c nu se pot face msurtori foarte precise n spaiul public datorit influenei unei mulimi
de factori care perturb rezultatele. n laborator, se msoar relaia dintre dou variabile n condiii de
izolare fat de orice factori perturbatori; acest lucru poart numele de control. Altfel spus, se msoar
influena variabilei de interes asupra dependentei n condiiile n care factorii perturbatori sunt inui
sub control. De aceea exist, de obicei, dou grupuri: unul experimental i unul de control. Prin
compararea rezultatelor celor dou grupuri, se poate calcula ct de mare este influena variabilei de
interes asupra dependentei.
Regresia multipl ne ofer un substitut foarte apropiat de experimentul de laborator, pentru c putem
ine constante (putem controla) variabilele care intr n ecuaia de regresie. Acest lucru confer
analizei de regresie o importan deosebit n tiinele sociale. Diferena dintre cele dou tipuri de
control este c regresia ofer control statistic, diferit de controlul experimental. Controlul statistic este
puin mai slab, ns este foarte valoros deoarece uneori nu putem efectua control experimental, mai
ales n eantioane de mrimi foarte mari reprezentative la nivel naional.
IMPORTANT!
Expresia a controla cu o variabil este echivalent cu expresia a ine sub control o
variabil, ambele referindu-se la meninerea respectivei variabile la o valoare constant.
Relum ecuaia [3]:
y = a + b1x1 + b2x2
Am dori s tim care este influena variabilei x2 asupra lui y n condiiile n care inem x1 la o valoare
constant. Coeficientul b1 fiind o constant nseamn c i produsul b1x1 este constant.
Putem nlocui toate constantele prin: a = a + b1x1, iar ecuaia devine:
y = (a + b1x1) + b2x2
y =

+ b2x2

[7]

Ecuaia [7] se poate generaliza pentru controlarea orictor variabile independente:


y = (a + b1x1 + b2x2 + + bk-1xk-1) + bkxk
y =

+ bkxk

[8]

Adrian Dua Universitatea din Bucureti pag.8 din 25

Interpretm coeficientul de regresie b2 din ecuaia [7] n urmtorul mod: este panta (nclinarea) ntr-o
ecuaie de regresie multipl innd sub control toate celelalte variabile. Este o pant a unei regresii
liniare simple n condiiile controlrii tuturor celorlalte variabile independente (a cror efect intr n
termenul liber a).
IMPORTANT!
Interpretarea este similar pentru oricare dintre coeficienii de regresie pariali bi:
este schimbarea n medie a lui y asociat cu o schimbare de o unitate a lui xi,
controlnd cu toate celelalte variabile independente..

n acest fel, efectul oricrei variabile xi asupra dependentei este separat de efectele celorlalte variabile
xj, oricare ar fi i j.
n regresia multipl, oricare bi se mai numete i coeficient de regresie parial, precum i nclinare
sau pant parial de regresie.
Interpretarea termenului liber este similar cu cea de la regresia simpl: a este valoarea medie a lui y
cnd toate variabilele independente sunt egale cu zero.
De reinut este faptul c valorile acestor coeficieni nu pot fi comparate ntre ele deoarece se bazeaz
pe variabile cu uniti de msur diferite. De aceea majoritatea programelor statistice prezint att
valorile coeficienilor bi ct i valorile standardizate ale acestora; de obicei, ele sunt prezentate n
fereastra de rezultate sub numele de Unstandardized coefficients (coeficieni nestandardizai) i
Standardized coefficients (coeficieni standardizai).
Mrimile coeficienilor de regresie pariali standardizai sunt comparabile ca efect asupra variabilei
dependente; ei reprezint de altfel i corelaia parial dintre fiecare independent i dependent.

Adrian Dua Universitatea din Bucureti pag.9 din 25

E. Inferena de la eantion la populaie. Intervalele de ncredere i semnificaia coeficienilor.


Aplicarea regresiei pe datele din tabel a dus la urmtorul rezultat:
(Termenul liber)
b1 (Vrsta so)
b2 (Vrsta soie)

Valoare
-36,8691
0,8652
0,2597

Eroare Standard
3,3612
0,1298
0,1220

t
-10,969
6,668
2,128

p
1,49e-14 ***
2,61e-08 ***
0,0386 *

Semnificaia coeficienilor de regresie o putem judeca fie dup numrul de stelue (a cror interpretare
o gsim la regresia simpl), fie dup valoarea lui t care este egal cu raportul dintre coeficient i
eroarea lui standard (numit uneori i raportul t). Urmnd aa-numita regul a degetului mare (n
limba englez rule of thumb) dac acest raport este mai mare ca 2 n valoare absolut (n modul),
atunci coeficientul este considerat semnificativ, la un nivel maxim de semnificaie de 5%.
Dup cum tim, testul t este fcut pentru a verifica dac un anumit coeficient este semnificativ diferit
de zero. Spre exemplu, pentru b1 vom confrunta ipoteza de nul, care spune c n populaie nu exist
nici un fel de relaie ntre y i x1, cu ipoteza alternativ conform creia n populaie exist o legtur
ntre cele dou.
Atenie ns: distribuia t pe care se face testul depinde de numrul de grade de libertate, care
depinde de numrul de variabile independente intrate n ecuaie; mai multe detalii despre calcularea
numrului de grade de libertate pot fi gsite n seciunea Eroarea standard a estimrii din finalul
acestui capitol. Rezultatele din tabel arat c toi coeficienii sunt semnificativ diferii de zero, primii doi
chiar foarte semnificativ.
Dac dorim s tim n ce interval se afl o pant parial de regresie n populaie; pentru coeficientul
b1 spunem c 1 se afl n intervalul (0,8652 - 1,960,1298 , 0,8652 + 1,960,1298) pentru un nivel de
ncredere de 95%, adic n intervalul (0,61 , 1,12). O alt dovad a faptului c acest coeficient este
semnificativ diferit de zero este faptul c intervalul calculat nu conine valoarea 0: limita minim este la
0,61. Dac acest interval l-ar fi cuprins pe zero, ar fi nsemnat c exist posibilitatea ca parametrul 1
s fie egal cu zero n populaie i n consecin variabila x1 nu ar fi influenat cu nimic variaia lui y.
Acest tip de inferen se poate generaliza pentru oricare dintre coeficienii de regresie prezeni n
ecuaie.
Ca i la regresia simpl ns, noi dorim s prezicem o valoare a lui y pentru anumite valori ale
independentelor. Spre exemplu, s prezicem numrul de ani de cstorie pentru un cuplu n care
brbatul (x1) are 45 de ani iar femeia (x2) are 43 de ani. Calculul (cu rotunjire la 2 zecimale) se face n
urmtorul mod:
y = a + b1x1 + b2x2 = -36,87 + 0,87x1 + 0,26x2 = -36,87 + 0,8745 + 0,2643 = 13,23 ani.
Aceast predicie va fi un punct pe planul de regresie avnd coordonatele x1, x2, y: (45, 43, 13,23).

Adrian Dua Universitatea din Bucureti pag.10 din 25

F. Variabile dummy
Regresia linear cere n analiz variabile cantitative, metrice. Cele mai multe dintre variabilele pe care
noi le folosim n mod curent sunt ns calitative. Prin eliminarea acestora, analiza noastr este mult
srcit, lipsit fiind de o mare parte a explicaiei. Din fericire, exist metode de a introduce acest tip
de variabile n ecuaia de regresie, prin transformarea categoriilor acestora n aa-numitele variabile
dummy.
Variabila care este n acelai timp i calitativ (are categorii) i cantitative (valorile acesteia au
semnificaie numeric, matematic) este variabila binar. Dup cum tim, o variabil binar este un
tip special de variabil dihotomic (are dou categorii) a crei valori sunt 0 i 1. Acestea sunt variabile
pentru fenomene de tipul: 1 (exist) i 0 (nu exist); 1 (este) i 0 (nu este); 1 (face) i 0 (nu face);
1 (se ntmpl) i 0 (nu se ntmpl) etc.
Avem spre exemplu variabila SEX, cu categoriile: 1 Femeie i 2 Brbat. Alegem un eantion aleator
de 50 de persoane i nregistrm valorile pentru aceast variabil.
Tabel 2. Transformarea variabilei SEX n variabile dummy
Persoana

SEX

Persoana

BRBAT

FEMEIE

1 (Femeie)

2 (Brbat)

2 (Brbat)

1 (Femeie)

50

2 (Brbat)

50

transformare

Valorile acestei variabile (1 i 2) nu au o semnificaie numeric; faptul de a fi femeie nu este dublul


faptului de a fi brbat. n schimb, putem regndi aceste categorii n urmtorul fel: construim variabila
dihotomic binar BRBAT cu valorile 1 Da i 0 Nu; o persoan este brbat (cod 1) sau nu este
brbat (cod 0), caz n care nu mai rmne dect cealalt alternativ (este femeie). Transformm
aadar variabila Sex: toate codurile de 2 (Brbat) devin cod 1 n noua variabil i tot ce nu e brbat
(cod 1, Femeie) devine cod 0. n mod similar se construiete i variabila binar FEMEIE. Se observ
c valorile celor dou variabile nou construite se exclud reciproc: valoarea 1 la variabila BRBAT
implic automat valoarea 0 la variabila FEMEIE. Nu poate exista cod de 1 la ambele variabile; una i
aceeai persoan nu este n acelai timp i femeie i brbat.
Revenim la exemplu cu variaia veniturilor; un model cu dou variabile independente este:
VENIT = a + b1SEX + b2EDUCAIE
O asemenea ecuaie este incorect, deoarece variabila SEX este calitativ i nu poate fi folosit ca
atare n modelul de regresie. n locul ei putem folosi ns variabila dummy nou creat, BRBAT:
VENIT = a + b1 BRBAT + b2EDUCAIE
Nu se folosesc n acelai timp ambele variabile dummy nou create, pentru c se ncalc asumpia de
a nu avea multicolinearitate (prezentat la sfritul acestui capitol). Datorit faptului c variabila
FEMEIE poate fi dedus din variabila BRBAT (tot ce nu e brbat e femeie), nu ctigm nimic n
explicaie. Vom avea doar o alt variabil n plus care ne ncurc analiza, astfel c este nclcat i
principiul simplitii (prezentat la seciunea Adecvarea modelului); preferm modelul cu cele mai puine
variabile la aceeai cantitate de explicaie.

Adrian Dua Universitatea din Bucureti pag.11 din 25

Ce se ntmpl cu efectul variabilei FEMEIE asupra variaiei veniturilor?


Introducnd n model doar variabila BRBAT ar putea s ne induc n eroare i s credem c ignorm
efectul variabilei FEMEIE. Rspunsul este simplu: efectul variabilei FEMEIE nu se pierde din analiz,
ci intr n constanta de regresie a. Faptul de a fi femeie rmne n ecuaie prin valoarea 0 a variabilei
BRBAT; categoria 1 a variabilei SEX (femeie) rmne o categorie ntr-un fel ascuns, pe care o
denumim categorie de referin.
Categoria de referin este deci categoria a crei variabil dummy nu este introdus n model.
Spre exemplu, dorim s prezicem venitul unui brbat cu 12 ani de educaie i a unei femei cu 12 ani
de educaie. n primul caz, ecuaia are forma:
VENIT = a + b1 BRBAT + b2EDUCAIE = a + b1 1 + b213 = a + b1 + b213
Iar n al doilea caz ecuaia devine:
VENIT = a + b1 BRBAT + b2EDUCAIE = a + b1 0 + b213 = a + b213
Constanta a reprezint aici coeficientul pentru categoria de baz a variabilelor dummy, iar diferena
dintre veniturile brbailor i cele ale femeilor este fcut doar de coeficientul parial de regresie b1.
Complicnd puin exemplul, adugm o variabil MEDIU cu trei categorii: 1 Urban mare; 2 Urban mic
i 3 Rural. Ipoteza noastr spune c veniturile persoanelor depind i de mediu; veniturile n urbanul
mare sunt mai mari dect cele din urbanul mic, care la rndul lor sunt mai mari dect cele din rural.
Tabel 3. Transformarea variabilei MEDIU n variabile dummy
Persoana

MEDIU

Persoana

UMARE

UMIC

RURAL

1 (Urban mare)

2 (Urban mic)

1 (Urban mare)

3 (Rural)

50

2 (Urban mic)

50

transformare

Un cod de 1 la oricare dintre cele trei variabile nou create implic un cod 0 la celelalte dou.
Considernd RURAL categorie de referin, ecuaia devine:
VENIT = a + b1 BRBAT + b2EDUCAIE + b3UMARE + b4UMIC
Nu introducem n ecuaie variabila dummy RURAL pentru c poate fi dedus din valorile simultane de
0 la UMARE i UMIC; introducerea ei ncalc asumpia de non-multicolinearitate i principiul simplitii.

IMPORTANT!
Pentru o variabil cu un numr de c categorii sunt create un numr de c-1 variabile
dummy. Categoria pentru care nu se creeaz variabil dummy este denumit categorie
de referin.
n unele cazuri, coeficienii uneia sau a alteia din variabilele dummy introduse n ecuaie pot fi
nesemnificativi. De obicei, dac o variabil nu are o influen semnificativ asupra dependentei,
ncercm o nou adecvare a modelului prin eliminarea acelei variabile din model. Lucrul acesta nu se
poate ntmpla i n cazul variabilelor dummy: acestea sunt introduse fie toate, fie deloc.

Adrian Dua Universitatea din Bucureti pag.12 din 25

IMPORTANT!
Coeficientul de regresie a unei variabile dummy msoar efectul de a fi ntr-o anumit
categorie relativ la categoria de referin a variabilei transformate, innd sub control
toate celelalte variabile.
Nu se elimin din ecuaie variabile dummy nesemnificative fr a se redefini categoria
de referin prin recodificarea categoriilor.
Aa cum se arat n csu, dac totui dorim s nu avem n ecuaie o variabil dummy
nesemnificativ, singura soluie este s re-definim categoria de referin pe baza creia a fost creat;
variabila dummy nesemnificativ va deveni categoria de referin, care dup cum tim nu apare n
mod explicit n ecuaia de regresie. Dac mai multe variabile dummy ale unei variabile sunt
nesemnificative, fie renunm la utilizarea acelei variabilei pentru explicaie, fie ncercm o recodificare
a categoriilor acesteia.

Adrian Dua Universitatea din Bucureti pag.13 din 25

G. Adecvarea modelului (model fit)


Problema cea mai grea n cazul regresiei nu este de a gsi spaiul cu k dimensiuni n care facem
predicia (lucrul acesta l face calculatorul), ci de a gsi cel mai bun model care s explice variaia
variabilei dependente. Aceasta nseamn c trebuie s gsim acele variabile independente care au o
putere mare de explicaie. Un lucru care trebuie menionat aici este c introducerea unei noi variabile
independente mrete automat proporia variaiei explicate. Soluia pare a fi simpl: introducem n
ecuaie foarte multe variabile independente pn cnd R2 va ajunge foarte aproape de 1 datorit unei
forri matematice generate de epuizarea gradelor de libertate (fiecare variabil independent scade
cte un grad de libertate). Aceast soluie naiv are marele dezavantaj c, dei explic totul, de fapt
nu explic nimic. ntre acele prea multe variabile independente din explicaie se strecoar cu
siguran foarte multe care nu au nici o legtur cu variabila dependent, iar cele care au ntr-adevr
o influen semnificativ sunt ascunse de celelalte. Ideal ar fi s gsim un numr mic de variabile
independente care s fie puternic corelate cu variabila dependent, iar explicaia variaiei s fie fcut
doar pe baza acestora, chiar dac mai rmne o cantitate (preferabil mic) de eroare.
IMPORTANT!
Cel mai bun model de regresie nu este acela care explic totul, ci acela care are cea
mai mare putere de explicaie (criteriul eficienei) cu cel mai mic numr de variabile
independente (criteriul simplitii).
Variabilele pe care le introducem n modelul de regresie trebuie s se bazeze pe ipotezele teoretice
pe care le formulm nainte de analiz. n tiinele sociale ne confruntm cu fenomene pe care
ncercm s le explicm. Facem acest lucru ncercnd s explicm variaia variabilei care reprezint
acel fenomen. Spre exemplu, fenomenul pe care sociologul l observ este c venitul este diferit de la
persoan la persoan. ntrebarea fireasc pe care ne-o punem este: Ce anume determin aceast
variaie? Care sunt factorii explicativi ai acestei variaii a veniturilor?
Paii cercetrii sociologice urmeaz acest algoritm general:
- se observ fenomenul
- se elaboreaz o ipotez (sau un set de ipoteze) asupra acelui fenomen
- ipotezele sunt transpuse prin operaionalizare ntr-un instrument de cercetare (pentru
cercetrile predominant cantitative, de obicei chestionarul)
- se testeaz statistic ipoteza enunat pe baza de date rezultat din aplicarea instrumentului
pe teren.
n urma multiplelor cercetri efectuate de-a lungul timpului rezult o mulime de baze de date (multe
dintre ele pot fi gsite la RODA Arhiva Romn de Date Sociale); datorit costurilor foarte mari pe
care le presupune o cercetare (n special n cazul unei cercetri reprezentative la nivel naional) exist
posibilitatea analizrii bazelor de date deja existente, prin analiz secundar. Tentaia cea mai mare n
aceast abordare este aceea de a folosi variabilele deja existente pentru a explica variaia
dependentei. Este ca o excursie de pescuit n care verificm variabil de variabil i adugm n
ipotez pe acelea care explic foarte mult. Aceasta este cea mai mare greeal pe care un analist o
poate comite; din fericire, comunitatea academic (colegii, profesorii, cercettorii) observ imediat
frauda deoarece modelul propus n acest fel nu se potrivete cu ceea ce este stabilit deja din punct de
vedere teoretic.
Lsnd datele s ne conduc analiza, ne pierdem calitatea de cercettor; abordarea corect este cea
care pleac de la o ipotez i abia n final se testeaz acea ipotez pe baza de date. Dac vreuna din
variabilele independente propuse n teorie nu se gsete n baza de date construit de altcineva,
atunci trebuie s cutm surse alternative de informaie pentru completarea celei deja existente.

Adrian Dua Universitatea din Bucureti pag.14 din 25

IMPORTANT!
Decizia de introducere a unei variabile n model trebuie fcut pe criterii teoretice (cu
alte cuvinte pe baza unei teorii), nu pe baza unei creteri spectaculoase a lui R2.
Nesusinut teoretic, creterea se poate datora i unei ntmplri, posibil legat de
metoda de eantionare.
Cu aceste lucruri n minte, nu ne rmne dect s testm modelul teoretic pe datele disponibile.
Introducem n analiz acele variabile despre care noi credem c ar avea o influen semnificativ
asupra dependentei i analizm tabelul de rezultate, cu valorile coeficienilor de regresie i nivelurile
lor de semnificaie.
Dac vreunul dintre coeficieni nu este semnificativ, cutarea modelului nu trebuie s se sfreasc;
pot exista multe combinaii de variabile independente care s duc la o valoare ct mai mare a lui R2.
Putem elimina temporar din model acea variabil a crui coeficient nu este semnificativ i analizm
din nou tabelul de rezultate.
IMPORTANT!
Introducerea sau eliminarea unei variabile din model modific ntotdeauna
valorile coeficienilor celorlalte variabile i nivelurile acestora de semnificaie.
Nivelul de semnificaie al coeficienilor de regresie este ntr-o permanent schimbare, din cauza
multiplelor interaciuni ale variabilelor independente. Acestea se influeneaz reciproc; ntre ele pot
exista corelaii mai mari sau mai mici. Este un fel de chimie statistic, n care aruncm ntr-un creuzet
(modelul de regresie) tot felul de substane (variabilele din model) i vedem ce se ntmpl.
De aceea, chiar dac uneori coeficienii sunt nesemnificativi, acest lucru se poate datora prezenei
altor variabile independente n model (care individual pot s aib o putere mai slab de explicaie).
Jocul acesta de introducereanalizmodificareanaliz a modelului duce n final la un model stabil,
cu putere rezonabil de explicaie. Acest proces este numit n limba englez model fit.

Adrian Dua Universitatea din Bucureti pag.15 din 25

H. Tabelul ANOVA
n seciunea E am verificat semnificaia fiecrui coeficient de regresie, influena individual a fiecruia
dintre acetia asupra dependentei. Uneori, din pur ntmplare, valoarea lui R2 poate s fie mare chiar
dac n realitate modelul nu are nici o legtur cu variaia dependentei y. n mod natural atunci ne
ntrebm dac variabilele independente din model explic ntr-adevr variaia dependentei: este
modelul de regresie ca ntreg semnificativ? Ca n orice test de semnificaie (vezi capitolul ANOVA),
ipoteza de nul este: Y nu depinde de nici o variabil independent, iar ipoteza alternativ: Y depinde
de cel puin una dintre variabilele independente. Altfel spus:
H0: 1 = 2 = = k = 0
HA: cel puin unul dintre cei k coeficieni 0.
ANOVA din regresia multipl ne ofer deci o informaie asupra nivelului de semnificaie a modelului de
regresie ca ntreg; uneori, coeficienii pot fi nesemnificativi ns ntreg modelul s fie semnificativ (mai
ales atunci cnd ne confruntm cu fenomenul de multicolinearitate, vezi asumpiile regresiei multiple).
Pe baza datelor din Tabelul 1, am obinut urmtorul tabel ANOVA:
G.L.
2
47

Regresie
Reziduuri

Suma Ptratelor
7931,5
930,4

Variana
3965,7
19,8

F
200,3

p
0,000 ***

unde Regresie se refer la variana (ntre grupuri) explicat de modelul de regresie iar Reziduuri se
refer la variana (n interiorul grupurilor) rmas neexplicat de model. Valoarea lui p (mai mic dect
un nivel de semnificaie de 0,001), ne indic faptul c variabilele incluse formeaz un model foarte
bun. A nu se confunda cu mrimea coeficientului de determinaie multipl R2 (care ne spune ct de
mult explic modelul); ANOVA ne arat ct de bine explic modelul, ct de semnificativ este
explicaia oferit de model. Formula utilizat pentru testul F este cunoscutul raport dintre variaia
explicat (V.E.) supra variaia neexplicat (V.N.):
n

(y - y)
i

S.P.R.
F=

V.E.
V.N.

k
S.P.E.
n-k-1

i=1

k
n

(y - y )
i

[9]
2

i=1

n-k-1
unde S.P.R. nseamn Suma Ptratelor Regresiei (ptratele distanelor de la punctele prezise de
suprafaa de regresie la media variabilei dependente), S.P.E. nseamn Suma Ptratelor Erorilor
(ptratele distanelor de la puncte la suprafaa de regresie). Att la numrtor ct i la numitor
mprim la un numr de grade de libertate: la numrtor mprim la k (numrul de variabile
independente utilizate pentru explicarea variaiei lui y), iar la numitor avem n-k-1 grade de libertate
deoarece am folosit cele n observaii pentru a estima cele k+1 constante din ecuaia de regresie
multipl (a, b1, b2, ,bk), ceea ce nseamn c: n-(k+1) = n-k-1 (gradele de libertate de la numitor).
Unele programe software prezint analize de varian pariale pentru fiecare variabil independent:
(ntre grupurile lui) X1
(ntre grupurile lui) X2
Reziduuri

G.L.
1
1
47

Suma Ptratelor
7841,8
89,6
930,4

Variana
7841,8
89,6
19,8

F
396,1
4,5

p
< 2e-16 ***
0,03862 *

iar semnificaia coeficienilor este virtual aceeai cu cei din tabelul de regresie pentru fiecare variabil
independent

Adrian Dua Universitatea din Bucureti pag.16 din 25

I. Interaciunea statistic. Efectele de interaciune.


Spuneam mai devreme c ntre variabilele independente exist o mulime de interaciuni, acestea
influenndu-se reciproc. Efectele de interaciune din ecuaia de regresie sunt relativ dificil de
interpretat, pentru c semnificaia coeficienilor de regresie trebuie judecat n raport cu teoria de baz
din care pleac ipotezele cu care lucrm; acest lucru presupune o anumit experien n lucrul cu
datele i o temeinic pregtire teoretic.
Interaciunea statistic apare atunci cnd efectul (impactul) unei variabile independente asupra
dependentei se modific odat cu (sau depinde de) valorile unei alte variabile. Este posibil ca efectul
s depind de valorile mai multor variabile independente, caz n care avem interaciune multipl.
Exemplul clasic de astfel de efect este relaia dintre EDUCAIE i SEX asupra VENIT-urilor. Luate
separat, att educaia ct i sexul au fiecare cte o influen asupra venitului; n practic se poate
constata c efectul anilor de studii asupra veniturilor este mrit de categoria Brbat a variabilei SEX.
Veniturile pentru acelai numr de ani de studii cresc mai repede pentru brbai dect pentru femei.
Este tiut faptul c n general veniturile brbailor sunt mai mari dect cele ale femeilor. S
presupunem c pornim de la momentul 8 pe axa anilor de educaie, cnd salariul unui brbat este de
700 de uniti monetare iar salariul unei femei este de 500 de uniti monetare. Relaia dintre
EDUCAIE i VENIT este una linear, monoton cresctoare astfel c la fiecare an de educaie venitul
crete cu 100 de uniti; dac nu ar exista nici un fel de interaciune ntre EDUCAIE i SEX, ne-am
atepta ca pantele veniturilor pentru brbai i femei s fie paralele astfel nct la 12 ani de educaie
diferena dintre salariul femeilor i al brbailor s fie aceeai (200 de uniti monetare).
Figura 6.a. ilustreaz modelul fr nici o interaciune, iar Figura 6.b. sugereaz un model n care se
efectul educaiei este mai puternic la brbai (panta veniturilor acestora este mai abrupt); fiecare an
de educaie n plus aduce un venit mai mare pentru brbai (200 de uniti monetare) dect pentru
femei (100 de uniti monetare); la 12 ani de educaie, venitul unui brbat este de 1500, diferena fa
de cel al unei femei fiind de 600 de uniti monetare (triplu fa de ceea ce ne ateptam).
Figura 6. Influena educaiei asupra venitului
b. cu interaciunea dintre
EDUCAIE i SEX

1100 1300 1500

VENIT

700

900

brbai

900

1100 1300 1500

brbai

700

VENIT

a. fr interaciune

femei

500

500

femei

10
EDUCATIE

11

12

10

11

12

EDUCATIE

Pentru a introduce acest efect n ecuaia de regresie, trebuie s specificm o nou variabil care s
conin interaciunea dintre educaie i sex, pe care o vom denumi SEXED. Calculul acestei variabile
se face prin simpla nmulire a celor dou variabile cu efecte principale:
SEXED = SEX EDUCAIE

Adrian Dua Universitatea din Bucureti pag.17 din 25

Ecuaia de regresie va arta astfel:


VENIT = a + b1EDUCAIE + b2SEX + b3SEXED + e
sau la modul general:
y = a + b1x1 + b2x2 + b3x1x2 + e

[10]

Acest model se numete modelul saturat: conine att efectele principale (ale lui x1 i ale lui x2)
precum i interaciunea dintre cele dou independente. Unii autori consider c modelul saturat
ncalc asumpia de multicolinearitate (efectul variabilei de interaciune poate fi dedus n mod direct
din efectele principale) astfel c trebuie s renunm la unul din efectele principale (n cazul nostru, se
propune scoaterea din ecuaie a variabilei SEX). Ali autori susin c dimpotriv, ecuaia trebuie s
conin ntotdeauna efectele principale alturi de efectul de interaciune, deoarece numai n acest fel
se pot ine sub control unul sau altul dintre efecte. Noi susinem aceast abordare i recomandm
utilizarea modelului saturat; decizia de a pstra sau nu un anume efect (o anumit variabil) n model
poate fi fcut dup efectuarea regresiei i analizarea tabelului de rezultate.
Spre exemplu, n cazul n care coeficientul b2 nu ar fi semnificativ, am putea s ncercm scoaterea
variabilei SEX din analiz (efectul acesteia regsindu-se oricum i n variabila de interaciune).
Aceast decizie este oricum destul de sensibil la critici de natur teoretic.
Dou ipoteze pot fi avansate plecnd de la teorie (Lewis-Beck, 1980):
1. Teoria discriminrii: femeile au salariu mai mic pentru c sunt deliberat discriminate n raport
cu brbaii. Aceast teorie este exprimat de modelul aditiv fr efecte de interaciune:
VENIT = a + b1EDUCAIE + b2SEX + e
2. Teoria eecului individual: femeile au salariu mai mic pentru c nu reuesc s-i pun n
valoare educaia la fel de bine ca brbaii (consum mai mult timp cu ngrijirea copiilor etc.).
Modelul corespunztor acestei teorii cuprinde alturi de modelul aditiv i variabila de
interaciune:
VENIT = a + b1EDUCAIE + b2SEX + b3SEXED + e

n aceast prezentare a efectelor de interaciune au fost utilizate o variabil metric (EDUCAIA) i o


variabil calitativ, cu categorii (SEXUL). Este bine de tiut c interaciuni pot exista i ntre dou
variabile metrice, ns complexitatea analizei crete considerabil; din acest motiv, acest tip de
interaciuni nu fac parte din obiectul acestui curs.
IMPORTANT!
Oricare ar fi tipul variabilelor din perechea de interaciune (metric-metric sau
metric-calitativ), interaciunea statistic arat cum gradul de asociere dintre dou
variabile se modific (variaz) n funcie de nivelurile unei variabile de control.

Adrian Dua Universitatea din Bucureti pag.18 din 25

J. Asumpiile regresiei multiple


Regresia multipl se bazeaz pe aceleai asumpii (puin modificate pentru a lua n calcul mai multe
variabile independente) ca i regresia simpl, ns mai are cteva n plus
ASUMPII GENERALE:
1. Variabilele au un nivel de msurare metric.
Dac dorim s folosim o variabil cu categorii n ecuaia de regresie, aceasta trebuie transformat
ntr-un set de variabile dummy. n anumite circumstane, o variabil independent cu categorii ar
putea fi interpretat ca o variabil metric. Spre exemplu, avem o variabil numit Orientarea
partidului politic cu categoriile: 1. Dreapta; 2. Centru i 3. Stnga.
Am putea recodifica partidele n funcie de poziia lor descresctoare fa de dreapta:
2. Orientat spre dreapta; 1. Mai puin orientat spre dreapta; 0. Deloc orientat spre dreapta.
n acest fel, rezult o variabil metric, ns utilizarea acestei strategii trebuie fcut cu foarte mare
precauie, pentru c se presupune c distanele dintre cele trei categorii sunt egale. Este posibil
utilizarea unei variabile cu categorii ca variabil dependent, ns alte tipuri de regresie trateaz
acest caz. n ceea ce privete regresia liniar multipl, este o bun practic s ne asigurm c toate
variabilele sunt msurate la un nivel metric.
2. S nu avem eroare de msurare.
Erori de msurare la nivel de variabil apar fie atunci cnd respondenii nu ofer rspunsurile
adevrate, fie cnd operatorii de teren nu nregistreaz datele n mod corect ori cnd operatorii de
calculator nu introduc datele aa cum au fost nregistrate. Dei este destul de dificil s eliminm
toate aceste probleme, o bun coordonare a cercetrii prin verificri la toate etapele poate s duc
la o reducere substanial a erorilor de acest tip.
3. Linearitatea.
Dup cum am vzut la regresia liniar simpl, un plot ntre variabila dependent i cea
independent este necesar pentru verificarea acestei asumpii. n cazul regresiei multiple, trebuie
verificat relaia linear fie prin ploturi separate ntre fiecare independent i variabila dependent,
fie prin aa numita matrice de scatterplot-uri.
Figura 7. Matricea de scatterplot-uri ntre cele trei variabile din ecuaie de regresie
(QQ-plot-uri pe diagonala principal)
30

40

50

60

70
80

20

70

40

50

60

70

X1

50

20

30

40

50

60

X2

10

20

30

40

40

50

60

70

80

10

20

30

40

50

Adrian Dua Universitatea din Bucureti pag.19 din 25

n Figura 7 se observ c norii de puncte au o form liniar, iar pe diagonala principal sunt
prezentate Q-Q Plot-urile pentru verificarea normalitii distribuiilor celor trei variabile.
4. S nu avem multicolinearitate.
Multicolinearitatea apare atunci cnd exist legturi puternice ntre variabilele independente
introduse n model; n acest caz, coeficienii calculai sunt instabili (variaz foarte mult de la eantion
la eantion). Coeficientul de corelaie dintre dou variabile va fi aproape ntotdeauna diferit de zero
i foarte rar egal cu 1 (o corelaie perfect ntre dou variabile este foarte rar ntlnit). Legturi ntre
variabilele independente vor exista deci ntotdeauna, ns nu multicolinearitatea nu apare dect
odat cu apariia unui coeficient de corelaie foarte mare (aproape de 0,9), caz n care spunem c
avem multicolinearitate nalt. Pot exista cazuri n care legtura s fie perfect (r =1), caz n care ne
confruntm cu multicolinearitate perfect.
Lum ca exemplu urmtoarea ecuaie general pentru un model cu doi predictori:
y = a + b1x1 + b2x2 + e
Dac ntre x1 i x2 exist o corelaie perfect, atunci vom putea s prezicem ntotdeauna valorile
uneia folosind valorile celeilalte, utiliznd modelul determinist:
x2 = c + b12x1

[10]

i spunem c x2 nu este nimic altceva dect o combinaie linear de x1, de unde:


y = a + b1x1 + b2(c + b3x1) + e = a + b1x1 + b2c + b2b12x1 + e
de unde rezult c
y = (a + b2c) + (b1+ b2b12)x1 + e

[11]

ceea ce este de fapt o ecuaie de regresie simpl cu un termen liber egal cu (a + b2c) i un efect
multiplicat al lui x1 (ceea ce nseamn c efectul lui x1 pe distribuia de eantionare este deplasat de
la efectul lui X1 din populaie - conine bias). Deoarece corelaia dintre x1 i x2 este perfect, ecuaia
nici nu are o soluie unic: toate punctele din norul de puncte bidimensional (pe planul definit de x1
i x2) se vor alinia pe o dreapt, iar n cazul tridimensional norul de puncte va fi aliniat pe un plan
paralel cu axa pe vertical 0y. Orice plan de regresie care trebuie s aproximeze un astfel de nor de
puncte este la fel de bun ca oricare altul (att panta parial, ct i punctul de intersecie cu axa 0y
sunt determinate de b2).
Dintr-o alt perspectiv, tim deja c b1 este efectul variabilei x1 atunci cnd variabila x2 este inut
constant. n msura n care exist o corelaie perfect ntre x1 i x2, modificarea cu o unitate a
variabilei x1 atrage imediat i schimbarea variabilei x2 (conform ecuaiei [10]); n aceste condiii
variabila x2 nu poate fi controlat, ceea ce nseamn c nu putem separa efectul individual al
variabilei x1 (exact ceea ce afirm ecuaia [11]).
Demonstraia de mai sus a luat s-a bazat pe o corelaie perfect ntre variabilele independente
(cazul multicolinearitii perfecte). n practic ns este destul de rar un astfel de caz; mai des
ntlnit este cazul multicolinearitii nalte unde exist o corelaie puternic (dar nu perfect) ntre
variabilele independente. Teoria msurrii n tiinele sociale arat c o corelaie puternic ntre un
grup de variabile poate s indice existena unei dimensiuni latente (factor neobservabil, care nu
poate fi msurat n mod direct) care s le influeneze pe toate n acelai mod. Atunci cnd se
constat o corelaie mare ntre un grup de variabile (prin calcularea aa-numitei matrice de
corelaie) se recomand utilizarea unei analize factoriale existena unei dimensiuni latente; dac
aceast ipotez se confirm, ntreg grupul de variabile poate fi nlocuit n ecuaia de regresie
multipl cu doar una singur: scorul factorial rezultat n urma analizei (un fel de substitut al msurrii
directe a factorului latent dac acesta ar fi direct msurabil).

Adrian Dua Universitatea din Bucureti pag.20 din 25

5. S nu existe erori de specificare.


Eroarea de specificare poate s apar n dou cazuri:
a. dac n modelul de regresie au fost omise anumite variabile care au un efect semnificativ
asupra dependentei
b. dac n modelul de regresie au fost introduse anumite variabile care nu au nici un efect sau
care au un efect foarte slab asupra variabilei dependente.
Berry (1993) aduce n discuie un aspect foarte dezbtut, al existenei unui model real, unic n
funcie de care s judecm ce variabile vor fi sau nu incluse n model. Pe de o parte, modelul
saturat, complet, care reflect perfect realitatea este unul himeric, pe care nu-l vom afla niciodat.
Cum atunci putem judeca dac modelul include toate variabilele relevante (sau reversul, dac
include variabile irelevante)?
Pe de alt parte, este discutabil existena unui model real unic. Exist opinii conform crora pot
exista mai multe modele reale care s explice la fel de bine variaia dependentei. La care dintre
acestea ne raportm? Cum nici un model real nu poate fi cunoscut, este inutil atunci s ne raportm
la acestea. Adevrata problem atunci este de a gsi un punct de reper n funcie de care s
judecm ct de complet sau corect este modelul. Acest punct de reper st n teoria care st la baza
analizei. Cu ct modelul teoretic este mai bine construit, respectnd toi paii formulai de
metodologie, cu att avem mai multe anse s judecm corectitudinea unui model. Folosirea unei
astfel de strategii aduce riscuri destul de mari, ntruct cercettorii sunt n general tentai s-i
construiasc modelul teoretic n funcie de datele pe care le au la dispoziie sau pe care le pot
culege. Doar n msura n care cercettorul este capabil de a nu comite a asemenea greeal
putem considera modelul teoretic ca referin.
Includerea unor variabile independente irelevante este relativ simplu de detectat, prin analizarea
norilor de puncte bivariai cu variabila dependent, precum i prin analizarea nivelului de
semnificaie al coeficienilor de regresie asociai. Atenie ns: unii coeficieni pot fi nesemnificativi n
prezena anumitor variabile, i semnificativi n prezena altora!
n general ns am putea s verificm aceast asumpie prin valoarea lui R2; aceast abordare are o
puternic legtur cu metodele de adecvare a modelului (model fit). Atunci cnd coeficientul de
determinaie multipl este mare putem s avem ncredere c modelul nostru nu ncalc aceast
asumpie.
n practic, cercettorul pornete de la formularea unui model teoretic complet (sau ct mai complet;
a nu se confunda cu modelul real). Un astfel de model ns este destul de greu de verificat, ntruct
va conine cu siguran un numr foarte mare de variabile independente; pentru o mare parte dintre
acestea vom gsi cu greu date sau nu vom avea suficiente resurse s le recoltm. Economia
cercetrii ne va obliga s ne rezumm la un set limitat de variabile. n acest caz, este bine s
includem n modelul care va fi testat empiric acele variabile despre care teoria spune c au o
influen mare asupra dependentei; acestea vor fi denumite variabilele tari care mpreun
formeaz aa-numitul nucleu tare al modelului de regresie.
n afar de acest nucleu, va trebui s includem n ecuaia de regresie i acele variabile cu o
influen mai slab asupra dependentei care ns au corelaii mari cu unele sau altele din variabilele
ce formeaz nucleul; n caz contrar, variabilele din nucleu vor fi corelate cu eroarea (de fapt cu o
parte a acesteia n care intr variabilele omise din model).
Putem s renunm la variabilele care au o influen slab asupra dependentei i sunt slab corelate
cu variabilele independente incluse n model; la urma urmei, nu trebuie s oferim un model perfect
ci un model care s ofere o explicaie ct mai mare cu un numr ct mai mic de variabile
independente.

Adrian Dua Universitatea din Bucureti pag.21 din 25

ASUMPII CU PRIVIRE LA EROAREA DIN ECUAIA DE REGRESIE:


6. Media erorilor pentru fiecare valoare a fiecrei variabile independente (innd sub control
valorile celorlalte) este egal cu zero.
La regresia simpl am introdus noiunea de medie condiionat: media variabilei dependente pentru
o anume valoare a independentei. Punctul de predicie de pe dreapta de regresie este chiar media
condiionat (de valoarea independentei) a variabilei dependente.
n cazul regresiei multiple, predicia se realizeaz nu pe o dreapt ci pe un sub-spaiu de n-1
dimensiuni. Pentru a verifica aceast asumpie pentru a anumit independent, trebuie s verificm
relaia dintre aceasta i dependent controlnd valorile tuturor celorlalte independente (vezi
seciunea D. Controlarea variabilelor).
n general, media erorilor este zero dac nu avem erori de specificare; n msura n care variabile
relevante au fost omise din model, variaia acestora intr n cantitatea de eroare i i modific
comportamentul (n special dac variabilele omise din model au un coeficient de corelaie puternic
cu variabilele incluse). Eroarea nu mai variaz normal, ceea ce va duce cu siguran la medii
condiionate diferite.
7. S nu avem autocorelaie.
Dup cum tim, autocorelaia se refer independena erorilor; se testeaz cu acelai DurbinWatson, care trebuie s ia o valoare ct mai apropiat de 2 (detalii la asumpiile regresiei liniare
simple).
8. Normalitatea distribuirii erorilor.
n regresia multipl, pentru fiecare valoare a unei variabile independente xi (controlnd pentru toate
celelalte variabile independente xj, cu ij), erorile n jurul punctului de predicie trebuie s fie
distribuite normal (detalii la asumpiile regresiei liniare simple).
9. S nu avem heteroscedasticitate.
n regresia simpl, abaterile standard a erorilor n jurul dreptei de regresie trebuie s fie egale pentru
fiecare valoare a lui x. Lund ca exemplu o ecuaie de regresie multipl cu dou variabile
independente, predicia se realizeaz dup cum tim cu ajutorul unui plan de regresie; n acest caz,
abaterile standard a erorilor n jurul acestui plan trebuie s fie egale. Cu alte cuvinte, norul de
puncte n trei dimensiuni trebuie s fie distribuit uniform n jurul planului de regresie (planul de
regresie reprezentnd un sub-spaiu n cadrul celor trei dimensiuni, egal cu 3-1=2 dimensiuni).
La modul general, norul de puncte trebuie s fie distribuit uniform n jurul sub-spaiului de predicie
cu k dimensiuni.
10. Variabilele independente nu sunt corelate cu eroarea.
Rezolvarea acestei cerine st n gsirea modelului care explic cel mai bine variaia dependentei
(asumpia este, deci, direct legat de asumpia numrul 5: s nu avem erori de specificare). n cazul
n care mai sunt i alte variabile care o influeneaz i acestea nu sunt incluse n model, acestea vor
intra n variabila eroare. Vom avea deci o corelaie ntre variabilele incluse n model i cele care au
intrat n variabila eroare, ceea ce ncalc prezenta asumpie.
O valoare nalt a lui R2 spune multe despre adecvarea modelului; important este s introducem n
model acele variabile care au o influen mare asupra variaiei dependentei. Putem s renunm la
variabile slab corelate cu dependenta, chiar dac acestea vor ngroa eroarea; la urma urmei, dac
modelul explic mult, eroarea va fi mic.

Adrian Dua Universitatea din Bucureti pag.22 din 25

*** urmtoarea seciune nu este obligatorie pentru materia de la curs ***


K. Eroarea standard a estimrii n regresia multipl. Intervalul de predicie.
La fel ca n cazul regresiei lineare simple, avem o msur a dispersiei norului de puncte n jurul
planului de regresie. Cu ct aceast msur este mai mic, cu att planul aproximeaz mai bine norul
de puncte. Formula general de calcul este:
n

se =

(y
i =1

y 'i ) 2

n k 1

unde: n este numrul de puncte (de observaii) iar k este numrul de variabile independente.
n cazul regresiei simple (bivariate), k = 1; n cazul nostru (al regresiei trivariate) k = 2, deci:
n

se =

(y
i =1

y 'i ) 2

n3

Pierdem trei grade de libertate corespunztoare celor trei coeficieni de regresie: a, b1 i b2. Dup cum
arat i prima formul, numrul de grade de libertate n regresia multipl este egal cu (n k 1).
Folosirea erorii standard a estimrii are o valoare deosebit n cazul operaiunilor de imputare. Spre
exemplu, avem multe non-rspunsuri n cazul unei variabile. Una din posibilitile de a folosi acea
variabil este analiza cazurilor complete (adic scoatem din baz acele chestionare unde exist nonrspunsuri). n acest caz ns renunm deliberat la foarte multe date n cazul altor variabile, ceea ce
reprezint nite resurse n care am investit mult i de pe urma crora nu folosim nimic. Este preferat
atunci nlocuirea valorilor lips (non-rspunsuri) cu nite valori care s se potriveasc cu distribuia
original a variabilei n cauz. Practic, va trebui s prezicem ce valoare ar putea s aib variabila n
celula lips, pe baza asemnrilor cu cazuri similare. Predicia se poate realiza prin analiza de
regresie; ipoteza de la care plecm este c grupuri similare de oameni sub mai multe aspecte
genereaz rezultate similare la acea variabil.
Pentru a ne asigura c nu greim, ne intereseaz s tim care este intervalul n care facem predicia,
cu limitele minime i maxime ale acestuia. Acest interval de predicie se calculeaz similar cu
exemplul distribuiei de eantionare: este un interval n jurul valorii punctuale prezise, plus sau minus
1,96 erori standard (n cazul unui nivel de ncredere de 95%).
n cazul nostru, se folosete eroarea standard a estimrii (se), iar intervalul de predicie de 95% este:
[y - 1,96se , y + 1,96se]
Ideea este simpl: se calculeaz abaterea standard a erorilor n jurul dreptei de regresie, tiind c
95% dintre valorile prezise se afl ntre +/- 1,96 astfel de abateri standard n jurul parametrului Y din
populaie.

Adrian Dua Universitatea din Bucureti pag.23 din 25

Glosar de termeni:

Coeficient de corelaie multipl (n engl. multiple correlation coefficient). Radical din coeficientul
de determinaie multipl; msoar corelaia dintre valorile observate i cele prezise de modelul
de regresie.
Coeficient de corelaie parial (n engl. partial correlation coefficient). Corelaia dintre orice
variabil xk i y, innd sub control toate celelalte k-1 variabile independente.
Coeficient de determinaie multipl (n engl. coefficient of multiple determination). O msur
care arat proporia din variaia variabilei dependente care este explicat de modelul de
regresie.
Coeficient de regresie parial bk (n engl. partial regression coefficient). Coeficientul care arat
efectul variabilei independente xk asupra variabilei dependente y, controlnd efectele tuturor
celorlalte k-1 variabile independente. Mrimea acestui coeficient depinde de unitatea de msur
a lui xk, i specific schimbarea n medie a lui y asociat cu schimbarea de o unitate a lui xk.
Coeficient de regresie parial, standardizat (n engl. standardized partial regression coefficient).
Echivalentul coeficientului de corelaie dintre o variabil xk i y; prin standardizarea variabilelor
coeficientul parial de regresie devine egal cu coeficientul de corelaie dintre xk i y deoarece
abaterile standard ale celor dou variabile devin egale. n regresia multipl, mrimile efectelor a
mai multe variabile independente sunt comparabile numai prin intermediul acestui coeficient
Controlarea variabilelor (n engl. controlling for a set of variables). Operaiunea prin care
msurm efectul unei variabile independente asupra dependente, innd sub control (meninnd
la valori constante) toate celelalte variabile din modelul de regresie.
Covariaie (n engl. covariance). Variaia comun a dou variabile; n regresia multipl avem o
matrice de covariaie, n care sunt prezentate pe fiecare celul covariaia dintre fiecare pereche
de variabile incluse n model. Diagonala principal a matricei are toate elementele egale cu 1
deoarece prezint covariaia unei variabile cu ea nsi.
Dummy (n engl. dummy). O variabil care ia doar valori de 0 sau 1 cu ajutorul creia putem include
n ecuaia de regresie multipl i variabile calitative, categoriale.
Eroare sau Reziduu (n engl. random error term sau residual). Diferena dintre valoarea observat
i cea prezis a lui y.
Hiper-plan sau suprafa de regresie (n engl. regression hyper-plane sau regression surface)
Sub-spaiul cu k dimensiuni n care se face predicia ntr-o ecuaie de regresie multipl cu k
variabile independente plus 1 variabil dependent. A fost denumit suprafa sau hiper-plan ca
o generalizare la k dimensiuni a planului de regresie (un sub-spaiu de 2 dimensiuni) ntr-un
spaiu 3-dimensional (un cub).
Metoda celor mai mici ptrate (n engl. least squares method). O tehnic de potrivire a unui subspaiu de k dimensiuni printr-un nor de puncte n k+1 dimensiuni n aa fel nct suma ptratelor
distanelor dintre puncte i sub-spaiu este minimizat.
Model determinist (n engl. deterministic model). Model care d o relaie exact ntre cele k+1
variabile. Cele k variabile independente determin cu exactitate variabila dependent.

Adrian Dua Universitatea din Bucureti pag.24 din 25

Model probabilist (n engl. probabilistic model). Model care ofer o relaie probabil ntre k+1
variabile; cele k variabile independente nu prezic cu exactitate variabila dependent, ci cu o
certitudine mai mare sau mai mic, n funcie de gradul de adecvare a modelului (mrimea
coeficientului de determinaie multipl, n direct competiie cu mrimea erorii).
Multicolinearitate (n engl. multicollinearity). O problem care apare uneori n analiza de regresie
multipl, manifestat printr-o scdere a stabilitii coeficienilor de regresie atunci cnd exist o
corelaie mare ntre variabilele independente incluse n model.
Nor de puncte diagram de mprtiere (n engl. scatterplot, scattergram sau scatter
diagram). Un grafic de puncte pe un sistem de coordonate cu k+1 dimensiuni. De obicei, nu se
pot reprezenta grafic nori de puncte n mai mult de trei dimensiuni. Comunitatea academic a
fcut ns eforturi intense n ultimii ani pentru a dezvolta programe de calculator care s ofere
vizualizri n mai mult de trei dimensiuni, folosind proiecii din mai multe unghiuri ale norului de
puncte ntr-un spaiu cu trei sau chiar dou dimensiuni. Ca exemplu intuitiv, proiecia unei sfere
(n trei dimensiuni) ntr-un plan (de dou dimensiuni) este chiar un cerc.
Termenul liber (n engl. intercept). Punctul n care dreapta de regresie intersecteaz axa 0y
(valoarea lui y cnd toate variabilele independente sunt egale cu zero).
Pant parial (n engl. partial slope). Este nclinarea sub-spaiului de k dimensiuni generat de una
din cele k variabile independente, n condiiile n care celelalte k-1 variabile independente sunt
inute sub control. Este o constant, un coeficient al unei variabile independente n ecuaia de
regresie multipl, a crui valoare reprezint ct de mult se schimb variabila dependent la o
schimbare cu o unitate a variabilei independente, controlnd pentru toate celelalte variabile
independente.
Valoare observat (n engl. observed value). Valoarea nregistrat a lui y (pentru anumite valori
nregistrate a celor k variabile independente) n urma aplicrii unui instrument de cercetare.
Valoare prezis / ateptat (n engl. predicted / expected value). Valoarea calculat a lui y (pentru
anumite valori nregistrate a celor k variabile independente), cu ajutorul modelului de regresie
multipl.
Variabil dependent (n engl. dependent variable). Variabila a crei variaie trebuie explicat, ori a
crei valoare trebuie prezis n analiza de regresie.
Variabil independent (n engl. independent variable). Variabil cunoscut, inclus n analiza de
regresie pentru a explica variaia variabilei dependente.
Variaie (n engl. variation). Suma abaterilor indivizilor de la medie. Pentru msurarea ei utilizm
variana (n engl. variance) sau abaterea standard (n engl. standard deviation).
Variaia explicat - VE (n engl. regression sum of squares). Poriunea din VT explicat de modelul
de regresie. Este suma ptratelor diferenelor dintre valorile prezise a lui y i media lui y.
Variaia neexplicat - VN (n engl. error sum of squares). Poriunea din VT rmas neexplicat de
modelul de regresie. Este suma ptratelor diferenelor dintre valorile prezise i cele observate
ale lui y.
Variaia total - VT (n engl. total sum of squares). Suma ptratelor deviaiilor valorilor observate a
lui y de la media acestuia.

Adrian Dua Universitatea din Bucureti pag.25 din 25