Adrian Dua
Universitatea din Bucureti
Facultatea de Sociologie i Asisten Social
[1]
Pentru o demonstraie a principiului pe care funcioneaz aceasta, vom analiza cazul mai simplu a
unei ecuaii de regresie linear multipl cu dou variabile independente (regresia trivariat):
y = a + b1x1 + b2x2 + e
[2]
Valorile prezise a lui y sunt calculate ntr-un mod similar cu cel din regresia simpl:
y = a + b1x1 + b2x2
[3]
S ne reamintim de primul exemplu, cel al variaiei veniturilor. Dac ncercm s explicm variaia
VENIT-urilor cu ajutorul variabilelor VRST i EDUCAIE, ne folosim de mai mult informaie pe
care o avem pentru a efectua o predicie. Att prima variabil independent ct i cea de a doua i
aduc o contribuie la explicarea cantitii totale de variaie a variabilei dependente. Avnd dou surse
de explicaie n loc de una (ca n cazul regresiei lineare simple), eroarea asociat cu aceast predicie
va fi mai mic. Cantitatea de variaie explicat se mrete pe msur ce cantitatea de eroare scade.
Ipoteza pe care se bazeaz acest model este una mai complex, cumulnd dou ipoteze paralele:
a. venitul depinde de vrst: creterea vrstei duce la o cretere a venitului
b. venitul depinde de educaie: mai muli ani de educaie duc la un venit mai mare
sau ntr-o singur fraz: venitul depinde de vrst i de educaie.
Combinarea celor dou sub-ipoteze sugereaz c ar trebui s existe cte o relaie liniar ntre
variabila dependent i fiecare dintre cele dou variabile independente. De altfel i titlul acestui capitol
arat acelai lucru: chiar dac avem mai multe variabile independente, regresia este tot linear.
Ceea ce se schimb la analizarea grafic a ecuaiei [2] este forma norului de puncte; avnd trei
variabile n acelai grafic, norul de puncte va trece de la reprezentarea n plan (specific regresiei
simple) la reprezentarea n spaiu, mai exact ntr-un cub.
50
40
30
60
20
50
10
40
40
Varsta sotiei
70
30
20
60
50
60
70
80
90
Varsta sotului
Vom folosi pentru exemplificare aceeai relaie ntre vrsta soilor i vrsta soiilor, de aceast dat
ambele fiind variabile independente, cu urmtoarea ipotez: numrul de ani de cstorie depinde de
vrsta soului i de vrsta soiei.
Am folosit date despre vrstele a 50 de cupluri cstorite extrase n mod aleator din Barometrul de
Opinie Public mai 2003, n care vrsta soului este de peste 40 de ani, deoarece numrul de ani de
cstorie nu exist n aceast baz de date. Presupunnd c vrsta la cstorie este undeva n jurul
vrstei de 20 de ani, am creat aceast variabil prin extragerea aleatoare dintr-o distribuie normal
cu: - media calculat ca: vrsta soului minus 30 de ani i
- abaterea standard de 5 ani.
Raiunea utilizrii acestui algoritm o putem demonstra presupunnd c dorim s estimm numrul de
ani de cstorie pentru un brbat cu vrsta de 40 de ani (cea mai mic vrst n eantionul nostru
aleator). Extragerea unui numr de ani de cstorie dintr-o distribuie normal va avea media egal cu
40 - 30 = 10 ani, iar 95% dintre numerele extrase vor fi ntre +/- 2 abateri standard n jurul acestei
medii, adic n intervalul (10 - 25 , 10 + 25) adic (0 , 20). Brbaii n vrst de 40 de ani pot avea
maxim 20 de ani de cstorie, ceea ce este conform cu presupunerea noastr iniial c vrsta medie
la cstorie este undeva n jur de 20 de ani. Sigur c exist o probabilitate de 2,5% ca numrul de ani
extras s fie mai mare de 20 de ani, ns nu exist nici un pericol pentru c oamenii se cstoresc i
la vrste mai mici (de exemplu 18 ani).
Setul de date rezultat are trei conine astfel 3 variabile (pe coloane) i 50 de cazuri (pe rnduri).
Fiecare caz conine 3 valori, pentru x1, x2 i y. Mai jos este prezentat tabelul utilizat pentru analiza de
regresie iar pe pagina urmtoare i reprezentarea n 3 dimensiuni a norului de puncte. Fiecare punct
afiat pe grafic va fi rezultatul a trei coordonate: una specific variabilei dependente y (afiat pe axa
vertical) i celelalte corespondente celor dou variabile independente x1 i x2 (afiate pe cele dou
axe orizontale). La modul general, spunem c o figur n trei dimensiuni are coordonatele x, y i z.
Pentru a pstra ns relaia cu ecuaia de regresie, am nlocuit notaia din sistemul de coordonate
tradiional cu notaia x1, x2 i y, n care z tradiional i y din noua notaie se refer la axa vertical.
Tabel 1. Vrstele i numrul de ani de cstorie a 50 de cupluri, n ordinea cresctoare a vrstelor
Vrsta
soului
Vrsta
soiei
Numr ani
de cstorie
x1
x2
41
38
17
42
22
42
37
26
58
60
38
50
81
73
48
S lum spre exemplu cea de-a 26-a gospodrie, n care vrsta soului este de 58 de ani, vrsta soiei
este de 60 de ani, iar numrul de ani de cstorie este de 38 de ani. n figura de mai jos, reprezentm
n spaiu aceast gospodrie printr-un punct de culoare roie; se observ c axa 0x1 pornete de la
cifra 40, iar axa 0x2 de la cifra 20 (n tabelul nostru, nu avem nici o vrst mai mic de 40 ani la
brbai i nici una mai mic de 20 de ani la femei).
50
40
80
30
60
20
50
40
10
Varsta sotiei
70
30
20
60
Punctul de coordonate:
x1 = 58; x2 = 60; y = 38
40
50
60
70
80
90
Varsta sotului
Marginile vizibile ale cubului sunt prezentate cu linie continu, iar cele trei margini ascunse cu linie
ntrerupt. Proieciile ctre cele trei planuri au o linie punctat; baza cubului este planul format de
variabilele x1 i x2.
Norul de puncte pentru toate cele 50 de cazuri este prezentat n Figura 3. Se observ o variaie att
pe axa 0x1 (pe lungimea cubului), ct i pe axa 0x2 (pe limea cubului) i pe axa 0y (pe nlimea
cubului).
Figura 3. Reprezentarea grafic a norului de puncte
a. reprezentare simpl
40
50
60
70
Varsta sotului
80
90
50
60
20
40
20
40
Varsta sotiei
30
60
50
10
20
10
40
30
80
70
30
20
30
60
50
Varsta sotiei
70
50
40
80
60
40
50
60
70
80
90
Varsta sotului
Norul de puncte are aadar trei dimensiuni; forma lui este tot eliptic, ns n spaiu. La fel ca la
regresia simpl, va trebui s gsim o soluie pentru aproximarea acestui nor de puncte. Aproximarea
nu se mai poate face ns cu o simpl linie, deoarece exist erori nu doar deasupra sau dedesubtul
liniei, ci i la stnga i la dreapta. Soluia este simpl: traversarea norului de puncte se va face cu
ajutorul unui plan (s ne imaginm o foaie de hrtie transparent care trece prin nor). Planul va fi
denumit n continuare planul de regresie.
B. Planul de regresie.
Orice plan este determinat de dou variabile (demonstraia a fost deja fcut la regresia simpl); este
normal deci s aproximm norul de puncte printr-un plan deoarece avem dou variabile
independente. Planul nostru are dou tipuri de nclinri (pante) pariale: una pe lungime i alta pe
limea acestuia. S mai examinm nc odat ecuaia numrul [3]:
y = a + b1x1 + b2x2
Dup cum tim de la regresia simpl, panta dreptei era dat de coeficientul de regresie b. n aceast
ecuaie avem un coeficient b1 care este panta parial pe lungime a planului de regresie i nc un
coeficient b2 care este panta parial pe lime a planului de regresie (n vom interpreta mai n detaliu
puin mai trziu).
Este destul de dificil de reprezentat o asemenea imagine ntr-un manual tiprit; am avea nevoie de un
model fizic n trei dimensiuni pe care s-l putem roti pentru a observa toate aceste aspecte (exist
programe software care pot face o astfel de rotire, ns doar pe calculator). Vom folosi ns nite mici
convenii, reprezentnd punctele de sub plan ntr-o culoare mai nchis dect cele de deasupra
planului. Urmtoarea figur va prezenta norul de puncte i planul de regresie care l aproximeaz,
precum i eroarea pentru primul cuplu de la valoarea observat i cea prezis a lui y.
50
40
80
30
20
50
10
40
40
Varsta sotiei
70
60
30
20
Eroarea de la punctul
corespunztor primului cuplu
la planul de regresie
60
50
60
70
Varsta sotului
80
90
Planul de regresie reprezint predicia noastr n ceea ce privete valoarea dependentei y. Punctele
de predicie se afl pe suprafaa planului, cu coordonatele date de a, b1x1 i b2x2. Ca i la regresia
simpl, exist mai multe planuri posibile care s aproximeze norul de puncte; valorile coeficienilor
care formeaz planul de regresie potrivit sunt calculate folosind aceeai metod a celor mai mici
ptrate: din infinitatea de planuri de regresie posibile, acela care aproximeaz cel mai bine norul de
puncte este definit de un termen liber a i de nclinrile (pantele) pariale b1 i b2 n funcie de care
suma erorilor de la puncte la plan este un numr minim.
Spre exemplu, aplicarea modelului nostru de regresie a generat urmtoarele valori ale coeficienilor de
regresie: a = -36,9; b1 = 0,9; b2 = 0,3.
n Figura 4, pentru primul cuplu, valoarea prezis a lui y1 este y1 = -36,9 + 0,941 + 0,338 = 8,47.
Valoarea observat a lui y1 este 17, n consecin eroarea este egal cu e1 = y1-y1 = 17-8,47 = +8,53.
Punctul observat se afl deasupra planului de regresie. n acelai mod se pot trasa toate erorile de la
puncte la plan:
Figura 5. Erorile de la puncte la planul de regresie
Legend:
Punctul se afl deasupra
planului de regresie
Punctul se afl sub planul
de regresie
60
Eroare pozitiv
40
80
30
60
20
50
40
Varsta sotiei
70
10
50
Eroare negativ
30
20
40
50
60
70
80
90
Varsta sotului
Ceea ce trebuie observat este c unele erori sunt mai mici i altele mai mari, unele pozitive i altele
negative. Acest lucru nseamn c erorile variaz, compunnd o variabil n sine. Pentru fiecare
dintre cele i valori observate (n exemplul nostru, i = 50 de cupluri): yi, x1i i x2i putem s calculm o
mrime a erorilor ei ca o combinaie linear (o rearanjare a ecuaiei de gradul I) ntre variabilele
existente:
ei = yi - (a + b1x1i + b2x2i), unde i = 150
[4]
[5]
Ecuaia [5] este valabil (poate fi generalizat) pentru oricte variabile independente am avea n
model, nu doar pentru dou cte avem n exemplul nostru. Toate aceste reprezentri grafice sunt
valabile doar pentru dou variabile independente. Ce se ntmpl ns cnd avem trei sau mai multe?
n cazul a trei variabile independente (plus o variabil dependent), avem n total patru dimensiuni.
Posibilitile de reprezentare grafic se opresc la trei dimensiuni, n consecin nu putem demonstra
grafic acest tip de regresie. Putem ns s ne folosim imaginaia, utiliznd modelul tranziiei de la dou
la trei dimensiuni: s ne imaginm o form geometric n patru dimensiuni; predicia n acest caz se
realizeaz cu ajutorul celor trei variabile independente, ntr-un cub. Am pornit de la o dreapt de
regresie n dou dimensiuni, am trecut la planul de regresie n trei dimensiuni, putem trece fr
probleme la predicia cu ajutorul cubului de regresie n patru dimensiuni .a.m.d.
IMPORTANT!
n orice ecuaie de regresie, putem defini un spaiu cu k + 1 dimensiuni generat de toate
variabilele care intr n ecuaie: k variabile independente i 1 variabil dependent.
Predicia se realizeaz n sub-spaiul cu k dimensiuni (numit i hiper-plan de regresie
sau suprafa de regresie) corespunztor variabilelor independente.
(y y)
i
R2 =
i=1
n
(yi y )2
0 R2 1
[6]
i=1
Determinaia multipl este ntotdeauna cel puin la fel de mare ca determinaia simpl: R2 r2.
Aceasta nseamn c nu vom avea niciodat o predicie mai slab prin introducerea unei noi (sau a
mai multor) variabile n ecuaia de regresie linear simpl. Acest lucru are o importan deosebit n
evaluarea eficienei modelului de regresie i a gradului n care introducerea unei noi variabile
influeneaz acurateea prediciei.
Spre exemplu, dac o regresie linear simpl are un r2 = 0,7 iar prin introducerea unei a doua
variabile independente R2 = 0,71 atunci variabila nou introdus nu aduce aproape nimic n plus la
explicarea variaiei dependentei.
O valoare a lui R2 egal cu 1 nseamn c variabilele independente explic perfect variaia variabilei
dependente; aceasta poate fi prezis ntotdeauna cu ajutorul unei funcii lineare fr nici un fel de
eroare. La captul cellalt, dac R2 = 0 avem dou posibiliti: fie nu avem nici un fel de variaie a lui y
pentru valori diferite ale independentelor, fie exist variaie ns aceasta nu se prezint sub o form
linear (caz n care nu se mai poate aplica acest tip de regresie multipl).
Majoritatea programelor statistice nu mai afieaz r2 ci folosesc un singur R2 generic pentru toate
tipurile de regresie. Atunci cnd avem o singur variabil independent, R2 se interpreteaz ca un
coeficient de determinaie simpl; cnd avem dou sau mai multe independente, R2 este coeficientul
de determinaie multipl.
R2 tinde s supraestimeze ct anume poate s explice modelul, n special pentru eantioanele mici.
De aceea, programele statistice mai raporteaz i un alt tip de R2, numit Adjusted R2. Acesta are
valori diferite de R2 n funcie de numrul de variabile independente din model i n funcie de mrimea
eantionului. Valoarea pe care noi trebuie s o considerm corect este R2 ajustat; cu alte cuvinte, o
cantitate de variaie explicat de modelul de regresie mai apropiat de realitate este egal cu valoarea
acestui coeficient. Spre deosebire de R2, versiunea ajustat a acestuia poate s scad atunci cnd
sunt adugate n model variabile cu putere slab de explicaie.
n cazul regresiei simple, avnd o singur variabil independent n model, R2 este aproximativ egal
cu R2 ajustat.
+ b2x2
[7]
+ bkxk
[8]
Interpretm coeficientul de regresie b2 din ecuaia [7] n urmtorul mod: este panta (nclinarea) ntr-o
ecuaie de regresie multipl innd sub control toate celelalte variabile. Este o pant a unei regresii
liniare simple n condiiile controlrii tuturor celorlalte variabile independente (a cror efect intr n
termenul liber a).
IMPORTANT!
Interpretarea este similar pentru oricare dintre coeficienii de regresie pariali bi:
este schimbarea n medie a lui y asociat cu o schimbare de o unitate a lui xi,
controlnd cu toate celelalte variabile independente..
n acest fel, efectul oricrei variabile xi asupra dependentei este separat de efectele celorlalte variabile
xj, oricare ar fi i j.
n regresia multipl, oricare bi se mai numete i coeficient de regresie parial, precum i nclinare
sau pant parial de regresie.
Interpretarea termenului liber este similar cu cea de la regresia simpl: a este valoarea medie a lui y
cnd toate variabilele independente sunt egale cu zero.
De reinut este faptul c valorile acestor coeficieni nu pot fi comparate ntre ele deoarece se bazeaz
pe variabile cu uniti de msur diferite. De aceea majoritatea programelor statistice prezint att
valorile coeficienilor bi ct i valorile standardizate ale acestora; de obicei, ele sunt prezentate n
fereastra de rezultate sub numele de Unstandardized coefficients (coeficieni nestandardizai) i
Standardized coefficients (coeficieni standardizai).
Mrimile coeficienilor de regresie pariali standardizai sunt comparabile ca efect asupra variabilei
dependente; ei reprezint de altfel i corelaia parial dintre fiecare independent i dependent.
Valoare
-36,8691
0,8652
0,2597
Eroare Standard
3,3612
0,1298
0,1220
t
-10,969
6,668
2,128
p
1,49e-14 ***
2,61e-08 ***
0,0386 *
Semnificaia coeficienilor de regresie o putem judeca fie dup numrul de stelue (a cror interpretare
o gsim la regresia simpl), fie dup valoarea lui t care este egal cu raportul dintre coeficient i
eroarea lui standard (numit uneori i raportul t). Urmnd aa-numita regul a degetului mare (n
limba englez rule of thumb) dac acest raport este mai mare ca 2 n valoare absolut (n modul),
atunci coeficientul este considerat semnificativ, la un nivel maxim de semnificaie de 5%.
Dup cum tim, testul t este fcut pentru a verifica dac un anumit coeficient este semnificativ diferit
de zero. Spre exemplu, pentru b1 vom confrunta ipoteza de nul, care spune c n populaie nu exist
nici un fel de relaie ntre y i x1, cu ipoteza alternativ conform creia n populaie exist o legtur
ntre cele dou.
Atenie ns: distribuia t pe care se face testul depinde de numrul de grade de libertate, care
depinde de numrul de variabile independente intrate n ecuaie; mai multe detalii despre calcularea
numrului de grade de libertate pot fi gsite n seciunea Eroarea standard a estimrii din finalul
acestui capitol. Rezultatele din tabel arat c toi coeficienii sunt semnificativ diferii de zero, primii doi
chiar foarte semnificativ.
Dac dorim s tim n ce interval se afl o pant parial de regresie n populaie; pentru coeficientul
b1 spunem c 1 se afl n intervalul (0,8652 - 1,960,1298 , 0,8652 + 1,960,1298) pentru un nivel de
ncredere de 95%, adic n intervalul (0,61 , 1,12). O alt dovad a faptului c acest coeficient este
semnificativ diferit de zero este faptul c intervalul calculat nu conine valoarea 0: limita minim este la
0,61. Dac acest interval l-ar fi cuprins pe zero, ar fi nsemnat c exist posibilitatea ca parametrul 1
s fie egal cu zero n populaie i n consecin variabila x1 nu ar fi influenat cu nimic variaia lui y.
Acest tip de inferen se poate generaliza pentru oricare dintre coeficienii de regresie prezeni n
ecuaie.
Ca i la regresia simpl ns, noi dorim s prezicem o valoare a lui y pentru anumite valori ale
independentelor. Spre exemplu, s prezicem numrul de ani de cstorie pentru un cuplu n care
brbatul (x1) are 45 de ani iar femeia (x2) are 43 de ani. Calculul (cu rotunjire la 2 zecimale) se face n
urmtorul mod:
y = a + b1x1 + b2x2 = -36,87 + 0,87x1 + 0,26x2 = -36,87 + 0,8745 + 0,2643 = 13,23 ani.
Aceast predicie va fi un punct pe planul de regresie avnd coordonatele x1, x2, y: (45, 43, 13,23).
F. Variabile dummy
Regresia linear cere n analiz variabile cantitative, metrice. Cele mai multe dintre variabilele pe care
noi le folosim n mod curent sunt ns calitative. Prin eliminarea acestora, analiza noastr este mult
srcit, lipsit fiind de o mare parte a explicaiei. Din fericire, exist metode de a introduce acest tip
de variabile n ecuaia de regresie, prin transformarea categoriilor acestora n aa-numitele variabile
dummy.
Variabila care este n acelai timp i calitativ (are categorii) i cantitative (valorile acesteia au
semnificaie numeric, matematic) este variabila binar. Dup cum tim, o variabil binar este un
tip special de variabil dihotomic (are dou categorii) a crei valori sunt 0 i 1. Acestea sunt variabile
pentru fenomene de tipul: 1 (exist) i 0 (nu exist); 1 (este) i 0 (nu este); 1 (face) i 0 (nu face);
1 (se ntmpl) i 0 (nu se ntmpl) etc.
Avem spre exemplu variabila SEX, cu categoriile: 1 Femeie i 2 Brbat. Alegem un eantion aleator
de 50 de persoane i nregistrm valorile pentru aceast variabil.
Tabel 2. Transformarea variabilei SEX n variabile dummy
Persoana
SEX
Persoana
BRBAT
FEMEIE
1 (Femeie)
2 (Brbat)
2 (Brbat)
1 (Femeie)
50
2 (Brbat)
50
transformare
MEDIU
Persoana
UMARE
UMIC
RURAL
1 (Urban mare)
2 (Urban mic)
1 (Urban mare)
3 (Rural)
50
2 (Urban mic)
50
transformare
Un cod de 1 la oricare dintre cele trei variabile nou create implic un cod 0 la celelalte dou.
Considernd RURAL categorie de referin, ecuaia devine:
VENIT = a + b1 BRBAT + b2EDUCAIE + b3UMARE + b4UMIC
Nu introducem n ecuaie variabila dummy RURAL pentru c poate fi dedus din valorile simultane de
0 la UMARE i UMIC; introducerea ei ncalc asumpia de non-multicolinearitate i principiul simplitii.
IMPORTANT!
Pentru o variabil cu un numr de c categorii sunt create un numr de c-1 variabile
dummy. Categoria pentru care nu se creeaz variabil dummy este denumit categorie
de referin.
n unele cazuri, coeficienii uneia sau a alteia din variabilele dummy introduse n ecuaie pot fi
nesemnificativi. De obicei, dac o variabil nu are o influen semnificativ asupra dependentei,
ncercm o nou adecvare a modelului prin eliminarea acelei variabile din model. Lucrul acesta nu se
poate ntmpla i n cazul variabilelor dummy: acestea sunt introduse fie toate, fie deloc.
IMPORTANT!
Coeficientul de regresie a unei variabile dummy msoar efectul de a fi ntr-o anumit
categorie relativ la categoria de referin a variabilei transformate, innd sub control
toate celelalte variabile.
Nu se elimin din ecuaie variabile dummy nesemnificative fr a se redefini categoria
de referin prin recodificarea categoriilor.
Aa cum se arat n csu, dac totui dorim s nu avem n ecuaie o variabil dummy
nesemnificativ, singura soluie este s re-definim categoria de referin pe baza creia a fost creat;
variabila dummy nesemnificativ va deveni categoria de referin, care dup cum tim nu apare n
mod explicit n ecuaia de regresie. Dac mai multe variabile dummy ale unei variabile sunt
nesemnificative, fie renunm la utilizarea acelei variabilei pentru explicaie, fie ncercm o recodificare
a categoriilor acesteia.
IMPORTANT!
Decizia de introducere a unei variabile n model trebuie fcut pe criterii teoretice (cu
alte cuvinte pe baza unei teorii), nu pe baza unei creteri spectaculoase a lui R2.
Nesusinut teoretic, creterea se poate datora i unei ntmplri, posibil legat de
metoda de eantionare.
Cu aceste lucruri n minte, nu ne rmne dect s testm modelul teoretic pe datele disponibile.
Introducem n analiz acele variabile despre care noi credem c ar avea o influen semnificativ
asupra dependentei i analizm tabelul de rezultate, cu valorile coeficienilor de regresie i nivelurile
lor de semnificaie.
Dac vreunul dintre coeficieni nu este semnificativ, cutarea modelului nu trebuie s se sfreasc;
pot exista multe combinaii de variabile independente care s duc la o valoare ct mai mare a lui R2.
Putem elimina temporar din model acea variabil a crui coeficient nu este semnificativ i analizm
din nou tabelul de rezultate.
IMPORTANT!
Introducerea sau eliminarea unei variabile din model modific ntotdeauna
valorile coeficienilor celorlalte variabile i nivelurile acestora de semnificaie.
Nivelul de semnificaie al coeficienilor de regresie este ntr-o permanent schimbare, din cauza
multiplelor interaciuni ale variabilelor independente. Acestea se influeneaz reciproc; ntre ele pot
exista corelaii mai mari sau mai mici. Este un fel de chimie statistic, n care aruncm ntr-un creuzet
(modelul de regresie) tot felul de substane (variabilele din model) i vedem ce se ntmpl.
De aceea, chiar dac uneori coeficienii sunt nesemnificativi, acest lucru se poate datora prezenei
altor variabile independente n model (care individual pot s aib o putere mai slab de explicaie).
Jocul acesta de introducereanalizmodificareanaliz a modelului duce n final la un model stabil,
cu putere rezonabil de explicaie. Acest proces este numit n limba englez model fit.
H. Tabelul ANOVA
n seciunea E am verificat semnificaia fiecrui coeficient de regresie, influena individual a fiecruia
dintre acetia asupra dependentei. Uneori, din pur ntmplare, valoarea lui R2 poate s fie mare chiar
dac n realitate modelul nu are nici o legtur cu variaia dependentei y. n mod natural atunci ne
ntrebm dac variabilele independente din model explic ntr-adevr variaia dependentei: este
modelul de regresie ca ntreg semnificativ? Ca n orice test de semnificaie (vezi capitolul ANOVA),
ipoteza de nul este: Y nu depinde de nici o variabil independent, iar ipoteza alternativ: Y depinde
de cel puin una dintre variabilele independente. Altfel spus:
H0: 1 = 2 = = k = 0
HA: cel puin unul dintre cei k coeficieni 0.
ANOVA din regresia multipl ne ofer deci o informaie asupra nivelului de semnificaie a modelului de
regresie ca ntreg; uneori, coeficienii pot fi nesemnificativi ns ntreg modelul s fie semnificativ (mai
ales atunci cnd ne confruntm cu fenomenul de multicolinearitate, vezi asumpiile regresiei multiple).
Pe baza datelor din Tabelul 1, am obinut urmtorul tabel ANOVA:
G.L.
2
47
Regresie
Reziduuri
Suma Ptratelor
7931,5
930,4
Variana
3965,7
19,8
F
200,3
p
0,000 ***
unde Regresie se refer la variana (ntre grupuri) explicat de modelul de regresie iar Reziduuri se
refer la variana (n interiorul grupurilor) rmas neexplicat de model. Valoarea lui p (mai mic dect
un nivel de semnificaie de 0,001), ne indic faptul c variabilele incluse formeaz un model foarte
bun. A nu se confunda cu mrimea coeficientului de determinaie multipl R2 (care ne spune ct de
mult explic modelul); ANOVA ne arat ct de bine explic modelul, ct de semnificativ este
explicaia oferit de model. Formula utilizat pentru testul F este cunoscutul raport dintre variaia
explicat (V.E.) supra variaia neexplicat (V.N.):
n
(y - y)
i
S.P.R.
F=
V.E.
V.N.
k
S.P.E.
n-k-1
i=1
k
n
(y - y )
i
[9]
2
i=1
n-k-1
unde S.P.R. nseamn Suma Ptratelor Regresiei (ptratele distanelor de la punctele prezise de
suprafaa de regresie la media variabilei dependente), S.P.E. nseamn Suma Ptratelor Erorilor
(ptratele distanelor de la puncte la suprafaa de regresie). Att la numrtor ct i la numitor
mprim la un numr de grade de libertate: la numrtor mprim la k (numrul de variabile
independente utilizate pentru explicarea variaiei lui y), iar la numitor avem n-k-1 grade de libertate
deoarece am folosit cele n observaii pentru a estima cele k+1 constante din ecuaia de regresie
multipl (a, b1, b2, ,bk), ceea ce nseamn c: n-(k+1) = n-k-1 (gradele de libertate de la numitor).
Unele programe software prezint analize de varian pariale pentru fiecare variabil independent:
(ntre grupurile lui) X1
(ntre grupurile lui) X2
Reziduuri
G.L.
1
1
47
Suma Ptratelor
7841,8
89,6
930,4
Variana
7841,8
89,6
19,8
F
396,1
4,5
p
< 2e-16 ***
0,03862 *
iar semnificaia coeficienilor este virtual aceeai cu cei din tabelul de regresie pentru fiecare variabil
independent
VENIT
700
900
brbai
900
brbai
700
VENIT
a. fr interaciune
femei
500
500
femei
10
EDUCATIE
11
12
10
11
12
EDUCATIE
Pentru a introduce acest efect n ecuaia de regresie, trebuie s specificm o nou variabil care s
conin interaciunea dintre educaie i sex, pe care o vom denumi SEXED. Calculul acestei variabile
se face prin simpla nmulire a celor dou variabile cu efecte principale:
SEXED = SEX EDUCAIE
[10]
Acest model se numete modelul saturat: conine att efectele principale (ale lui x1 i ale lui x2)
precum i interaciunea dintre cele dou independente. Unii autori consider c modelul saturat
ncalc asumpia de multicolinearitate (efectul variabilei de interaciune poate fi dedus n mod direct
din efectele principale) astfel c trebuie s renunm la unul din efectele principale (n cazul nostru, se
propune scoaterea din ecuaie a variabilei SEX). Ali autori susin c dimpotriv, ecuaia trebuie s
conin ntotdeauna efectele principale alturi de efectul de interaciune, deoarece numai n acest fel
se pot ine sub control unul sau altul dintre efecte. Noi susinem aceast abordare i recomandm
utilizarea modelului saturat; decizia de a pstra sau nu un anume efect (o anumit variabil) n model
poate fi fcut dup efectuarea regresiei i analizarea tabelului de rezultate.
Spre exemplu, n cazul n care coeficientul b2 nu ar fi semnificativ, am putea s ncercm scoaterea
variabilei SEX din analiz (efectul acesteia regsindu-se oricum i n variabila de interaciune).
Aceast decizie este oricum destul de sensibil la critici de natur teoretic.
Dou ipoteze pot fi avansate plecnd de la teorie (Lewis-Beck, 1980):
1. Teoria discriminrii: femeile au salariu mai mic pentru c sunt deliberat discriminate n raport
cu brbaii. Aceast teorie este exprimat de modelul aditiv fr efecte de interaciune:
VENIT = a + b1EDUCAIE + b2SEX + e
2. Teoria eecului individual: femeile au salariu mai mic pentru c nu reuesc s-i pun n
valoare educaia la fel de bine ca brbaii (consum mai mult timp cu ngrijirea copiilor etc.).
Modelul corespunztor acestei teorii cuprinde alturi de modelul aditiv i variabila de
interaciune:
VENIT = a + b1EDUCAIE + b2SEX + b3SEXED + e
40
50
60
70
80
20
70
40
50
60
70
X1
50
20
30
40
50
60
X2
10
20
30
40
40
50
60
70
80
10
20
30
40
50
n Figura 7 se observ c norii de puncte au o form liniar, iar pe diagonala principal sunt
prezentate Q-Q Plot-urile pentru verificarea normalitii distribuiilor celor trei variabile.
4. S nu avem multicolinearitate.
Multicolinearitatea apare atunci cnd exist legturi puternice ntre variabilele independente
introduse n model; n acest caz, coeficienii calculai sunt instabili (variaz foarte mult de la eantion
la eantion). Coeficientul de corelaie dintre dou variabile va fi aproape ntotdeauna diferit de zero
i foarte rar egal cu 1 (o corelaie perfect ntre dou variabile este foarte rar ntlnit). Legturi ntre
variabilele independente vor exista deci ntotdeauna, ns nu multicolinearitatea nu apare dect
odat cu apariia unui coeficient de corelaie foarte mare (aproape de 0,9), caz n care spunem c
avem multicolinearitate nalt. Pot exista cazuri n care legtura s fie perfect (r =1), caz n care ne
confruntm cu multicolinearitate perfect.
Lum ca exemplu urmtoarea ecuaie general pentru un model cu doi predictori:
y = a + b1x1 + b2x2 + e
Dac ntre x1 i x2 exist o corelaie perfect, atunci vom putea s prezicem ntotdeauna valorile
uneia folosind valorile celeilalte, utiliznd modelul determinist:
x2 = c + b12x1
[10]
[11]
ceea ce este de fapt o ecuaie de regresie simpl cu un termen liber egal cu (a + b2c) i un efect
multiplicat al lui x1 (ceea ce nseamn c efectul lui x1 pe distribuia de eantionare este deplasat de
la efectul lui X1 din populaie - conine bias). Deoarece corelaia dintre x1 i x2 este perfect, ecuaia
nici nu are o soluie unic: toate punctele din norul de puncte bidimensional (pe planul definit de x1
i x2) se vor alinia pe o dreapt, iar n cazul tridimensional norul de puncte va fi aliniat pe un plan
paralel cu axa pe vertical 0y. Orice plan de regresie care trebuie s aproximeze un astfel de nor de
puncte este la fel de bun ca oricare altul (att panta parial, ct i punctul de intersecie cu axa 0y
sunt determinate de b2).
Dintr-o alt perspectiv, tim deja c b1 este efectul variabilei x1 atunci cnd variabila x2 este inut
constant. n msura n care exist o corelaie perfect ntre x1 i x2, modificarea cu o unitate a
variabilei x1 atrage imediat i schimbarea variabilei x2 (conform ecuaiei [10]); n aceste condiii
variabila x2 nu poate fi controlat, ceea ce nseamn c nu putem separa efectul individual al
variabilei x1 (exact ceea ce afirm ecuaia [11]).
Demonstraia de mai sus a luat s-a bazat pe o corelaie perfect ntre variabilele independente
(cazul multicolinearitii perfecte). n practic ns este destul de rar un astfel de caz; mai des
ntlnit este cazul multicolinearitii nalte unde exist o corelaie puternic (dar nu perfect) ntre
variabilele independente. Teoria msurrii n tiinele sociale arat c o corelaie puternic ntre un
grup de variabile poate s indice existena unei dimensiuni latente (factor neobservabil, care nu
poate fi msurat n mod direct) care s le influeneze pe toate n acelai mod. Atunci cnd se
constat o corelaie mare ntre un grup de variabile (prin calcularea aa-numitei matrice de
corelaie) se recomand utilizarea unei analize factoriale existena unei dimensiuni latente; dac
aceast ipotez se confirm, ntreg grupul de variabile poate fi nlocuit n ecuaia de regresie
multipl cu doar una singur: scorul factorial rezultat n urma analizei (un fel de substitut al msurrii
directe a factorului latent dac acesta ar fi direct msurabil).
se =
(y
i =1
y 'i ) 2
n k 1
unde: n este numrul de puncte (de observaii) iar k este numrul de variabile independente.
n cazul regresiei simple (bivariate), k = 1; n cazul nostru (al regresiei trivariate) k = 2, deci:
n
se =
(y
i =1
y 'i ) 2
n3
Pierdem trei grade de libertate corespunztoare celor trei coeficieni de regresie: a, b1 i b2. Dup cum
arat i prima formul, numrul de grade de libertate n regresia multipl este egal cu (n k 1).
Folosirea erorii standard a estimrii are o valoare deosebit n cazul operaiunilor de imputare. Spre
exemplu, avem multe non-rspunsuri n cazul unei variabile. Una din posibilitile de a folosi acea
variabil este analiza cazurilor complete (adic scoatem din baz acele chestionare unde exist nonrspunsuri). n acest caz ns renunm deliberat la foarte multe date n cazul altor variabile, ceea ce
reprezint nite resurse n care am investit mult i de pe urma crora nu folosim nimic. Este preferat
atunci nlocuirea valorilor lips (non-rspunsuri) cu nite valori care s se potriveasc cu distribuia
original a variabilei n cauz. Practic, va trebui s prezicem ce valoare ar putea s aib variabila n
celula lips, pe baza asemnrilor cu cazuri similare. Predicia se poate realiza prin analiza de
regresie; ipoteza de la care plecm este c grupuri similare de oameni sub mai multe aspecte
genereaz rezultate similare la acea variabil.
Pentru a ne asigura c nu greim, ne intereseaz s tim care este intervalul n care facem predicia,
cu limitele minime i maxime ale acestuia. Acest interval de predicie se calculeaz similar cu
exemplul distribuiei de eantionare: este un interval n jurul valorii punctuale prezise, plus sau minus
1,96 erori standard (n cazul unui nivel de ncredere de 95%).
n cazul nostru, se folosete eroarea standard a estimrii (se), iar intervalul de predicie de 95% este:
[y - 1,96se , y + 1,96se]
Ideea este simpl: se calculeaz abaterea standard a erorilor n jurul dreptei de regresie, tiind c
95% dintre valorile prezise se afl ntre +/- 1,96 astfel de abateri standard n jurul parametrului Y din
populaie.
Glosar de termeni:
Coeficient de corelaie multipl (n engl. multiple correlation coefficient). Radical din coeficientul
de determinaie multipl; msoar corelaia dintre valorile observate i cele prezise de modelul
de regresie.
Coeficient de corelaie parial (n engl. partial correlation coefficient). Corelaia dintre orice
variabil xk i y, innd sub control toate celelalte k-1 variabile independente.
Coeficient de determinaie multipl (n engl. coefficient of multiple determination). O msur
care arat proporia din variaia variabilei dependente care este explicat de modelul de
regresie.
Coeficient de regresie parial bk (n engl. partial regression coefficient). Coeficientul care arat
efectul variabilei independente xk asupra variabilei dependente y, controlnd efectele tuturor
celorlalte k-1 variabile independente. Mrimea acestui coeficient depinde de unitatea de msur
a lui xk, i specific schimbarea n medie a lui y asociat cu schimbarea de o unitate a lui xk.
Coeficient de regresie parial, standardizat (n engl. standardized partial regression coefficient).
Echivalentul coeficientului de corelaie dintre o variabil xk i y; prin standardizarea variabilelor
coeficientul parial de regresie devine egal cu coeficientul de corelaie dintre xk i y deoarece
abaterile standard ale celor dou variabile devin egale. n regresia multipl, mrimile efectelor a
mai multe variabile independente sunt comparabile numai prin intermediul acestui coeficient
Controlarea variabilelor (n engl. controlling for a set of variables). Operaiunea prin care
msurm efectul unei variabile independente asupra dependente, innd sub control (meninnd
la valori constante) toate celelalte variabile din modelul de regresie.
Covariaie (n engl. covariance). Variaia comun a dou variabile; n regresia multipl avem o
matrice de covariaie, n care sunt prezentate pe fiecare celul covariaia dintre fiecare pereche
de variabile incluse n model. Diagonala principal a matricei are toate elementele egale cu 1
deoarece prezint covariaia unei variabile cu ea nsi.
Dummy (n engl. dummy). O variabil care ia doar valori de 0 sau 1 cu ajutorul creia putem include
n ecuaia de regresie multipl i variabile calitative, categoriale.
Eroare sau Reziduu (n engl. random error term sau residual). Diferena dintre valoarea observat
i cea prezis a lui y.
Hiper-plan sau suprafa de regresie (n engl. regression hyper-plane sau regression surface)
Sub-spaiul cu k dimensiuni n care se face predicia ntr-o ecuaie de regresie multipl cu k
variabile independente plus 1 variabil dependent. A fost denumit suprafa sau hiper-plan ca
o generalizare la k dimensiuni a planului de regresie (un sub-spaiu de 2 dimensiuni) ntr-un
spaiu 3-dimensional (un cub).
Metoda celor mai mici ptrate (n engl. least squares method). O tehnic de potrivire a unui subspaiu de k dimensiuni printr-un nor de puncte n k+1 dimensiuni n aa fel nct suma ptratelor
distanelor dintre puncte i sub-spaiu este minimizat.
Model determinist (n engl. deterministic model). Model care d o relaie exact ntre cele k+1
variabile. Cele k variabile independente determin cu exactitate variabila dependent.
Model probabilist (n engl. probabilistic model). Model care ofer o relaie probabil ntre k+1
variabile; cele k variabile independente nu prezic cu exactitate variabila dependent, ci cu o
certitudine mai mare sau mai mic, n funcie de gradul de adecvare a modelului (mrimea
coeficientului de determinaie multipl, n direct competiie cu mrimea erorii).
Multicolinearitate (n engl. multicollinearity). O problem care apare uneori n analiza de regresie
multipl, manifestat printr-o scdere a stabilitii coeficienilor de regresie atunci cnd exist o
corelaie mare ntre variabilele independente incluse n model.
Nor de puncte diagram de mprtiere (n engl. scatterplot, scattergram sau scatter
diagram). Un grafic de puncte pe un sistem de coordonate cu k+1 dimensiuni. De obicei, nu se
pot reprezenta grafic nori de puncte n mai mult de trei dimensiuni. Comunitatea academic a
fcut ns eforturi intense n ultimii ani pentru a dezvolta programe de calculator care s ofere
vizualizri n mai mult de trei dimensiuni, folosind proiecii din mai multe unghiuri ale norului de
puncte ntr-un spaiu cu trei sau chiar dou dimensiuni. Ca exemplu intuitiv, proiecia unei sfere
(n trei dimensiuni) ntr-un plan (de dou dimensiuni) este chiar un cerc.
Termenul liber (n engl. intercept). Punctul n care dreapta de regresie intersecteaz axa 0y
(valoarea lui y cnd toate variabilele independente sunt egale cu zero).
Pant parial (n engl. partial slope). Este nclinarea sub-spaiului de k dimensiuni generat de una
din cele k variabile independente, n condiiile n care celelalte k-1 variabile independente sunt
inute sub control. Este o constant, un coeficient al unei variabile independente n ecuaia de
regresie multipl, a crui valoare reprezint ct de mult se schimb variabila dependent la o
schimbare cu o unitate a variabilei independente, controlnd pentru toate celelalte variabile
independente.
Valoare observat (n engl. observed value). Valoarea nregistrat a lui y (pentru anumite valori
nregistrate a celor k variabile independente) n urma aplicrii unui instrument de cercetare.
Valoare prezis / ateptat (n engl. predicted / expected value). Valoarea calculat a lui y (pentru
anumite valori nregistrate a celor k variabile independente), cu ajutorul modelului de regresie
multipl.
Variabil dependent (n engl. dependent variable). Variabila a crei variaie trebuie explicat, ori a
crei valoare trebuie prezis n analiza de regresie.
Variabil independent (n engl. independent variable). Variabil cunoscut, inclus n analiza de
regresie pentru a explica variaia variabilei dependente.
Variaie (n engl. variation). Suma abaterilor indivizilor de la medie. Pentru msurarea ei utilizm
variana (n engl. variance) sau abaterea standard (n engl. standard deviation).
Variaia explicat - VE (n engl. regression sum of squares). Poriunea din VT explicat de modelul
de regresie. Este suma ptratelor diferenelor dintre valorile prezise a lui y i media lui y.
Variaia neexplicat - VN (n engl. error sum of squares). Poriunea din VT rmas neexplicat de
modelul de regresie. Este suma ptratelor diferenelor dintre valorile prezise i cele observate
ale lui y.
Variaia total - VT (n engl. total sum of squares). Suma ptratelor deviaiilor valorilor observate a
lui y de la media acestuia.