Documente Academic
Documente Profesional
Documente Cultură
Regresia Liniar Simpl: Adrian DU A
Regresia Liniar Simpl: Adrian DU A
Adrian DUA
Universitatea din Bucureti Facultatea de Sociologie i Asisten Social May 16, 2007
Cuprins
1 Regresia liniar simpl
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Prezentare general . . . . . . . . . . . . . . . . . . . . . . . . . . Funcii liniare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Panta (nclinarea) dreptei De la corelaie la regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Norul de puncte. Coecientul de corelaie. . . . . . . . . . . . . . Metoda celor mai mici ptrate
1
1 4 4 6 9 11 16 18 22 28 29
r2
. . . . . . . . . . . . . . . . . . . .
Inferena statistic pe baza coecienilor de regresie. Eroarea standard a coecienilor de regresie. Asumpiile regresiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Capitolul 1
Y,
X1 ...Xk
din variaia total a dependentei este inuenat de variaia independentelor. Mai mult, vom putea estima (prezice) o valoare sau un interval de valori a dependentei pentru anumite valori ale independentelor.
venitul persoanei (msurat n lei, este o variabil raport, meVENIT tric, discret dar care poate considerat continu din cauza numrului foarte mare de uniti) VRST vrsta persoanei (msurat n ani mplinii, variabil raport, metric, discret) educaia persoanei (msurat n numr de ani de coal, este o variabil raport, metric, discret) sexul persoanei (variabil calitativ, nominal cu dou categorii: femei i brbai) vechimea n munc a persoanei (acelai tip de variabil ca VRSTA)
EDUCAIE
SEX
VECHIME
VENIT depinde de VRST, de EDUCAIE, de SEX i de VECHIME. Bineneles c predictorii propui n acest model nu vor reui s explice total sau s prezic perfect variaia veniturilor; de aceea, ne ateptm ca modelul s aib i o eroare, care reprezint de fapt efectul altor variabile care au fost omise din model. Figura 1.1: Modelul grac al ipotezei cu privire la determinarea venitului.
Modelul matematic general folosit pentru regresie este o simpl ecuaie matematic de gradul I:
Y = + 1 X1 + 2 X2 + + k Xk +
y = a + b1 x1 + b2 x2 + + bk xk + e
(folosind notaiile pentru estimatorii calculai n eantion) Aceasta este ecuaia de baz a regresiei, pe care o vom discuta pe parcursul urmtoarelor dou capitole. Ea mai este denumit i model de regresie. Termenul
b1...k
Variabila dependent trebuie s e ntotdeauna o variabil metric (n consecin, msurat la nivel interval ori raport). Variabilele independente pot att metrice, ct i variabile ctive (denumite dummy, variabile binare codicate sau
1;
IMPORTANT!
O prim observaie pe care o putem face n acest moment este c termenul
parametrului coecienilor
, termenul b este un estimator al iar termenul e este un estimator al parametrului . Calcularea a, b i e se face ntotdeauna pe baza datelor dintr-un eantion.
Termenii din ecuaia de regresie au urmtoarea semnicaie (ei vor explicai mult mai larg n cele ce vor urma):
Coecientul de regresie este constanta (sau coecientul) cu care se nmulete variabila independent pentru a genera un efect asupra variabilei dependente.
Eroarea este efectul total (efectul tuturor fenomenelor care acioneaz asupra variabilei dependente) minus efectul variabilelor independente (cu alte cuvinte, partea din efectul total pe care variabilele independente nu o explic). Aceast eroare are dou componente care se nsumeaz:
a) o component n care intr efectele altor variabile care au o inuen semnicativ asupra dependentei, care nu au fost specicate n ecuaia de regresie i b) o component de efect haotic, generat de natura absolut imprevizibil a fenomenelor n general i a comportamentelor umane n particular (oamenii nu vor aciona niciodat cu toii dup acelai tipar).
O concluzie la care putem ajunge, citind componena erorii, este urmtoarea: dac modelul de regresie include variabile independente cu un efect mic asupra dependentei, eroarea va mare. Dac modelul nostru ia n calcul (n varianta fericit) toate variabilele care inueneaz variabila dependent, atunci eroarea va foarte mic, ns niciodat egal cu zero, datorit componentei haotice. Astfel, eroarea variaz de la un minim la un maxim, astfel nct putem spune fr s greim c eroarea se comport ca o veritabil variabil. n exemplul nostru, ecuaia s-ar scrie aa: VENIT =
b1 VRST
b2 EDUCAIE
b3 SEX
b4 VECHIME
Atunci cnd n
ecuaia de regresie avem o singur variabil independent, regresia se numete simpl. (Exemplu: analizm ipoteza conform creia venitul unei persoane este inuenat doar de educaia acesteia). Cnd dimpotriv, avem dou sau mai multe variabile independente, regresia se numete multipl. Cea mai important funcie a analizei de regresie este cea de predicie. prin simpla manipulare a valorilor variabilelor independente. n acest capitol ne vom ocupa de studiul relaiei dintre dou variabile. Atunci cnd analiza noastr se rezum la dou variabile (una dependent, una independent), regresia se numete simpl (sau bivariat). Dei acest capitol se refer doar la regresia liniar, aceasta nu nseamn c este singurul tip de regresie posibil. Exist i alte tipuri de regresie, care urmresc diferite tipuri de relaii ne-liniare ntre dou variabile. Cu
funcie
x,
atunci spunem c
este funcie de
x:
y = f (x)
Un exemplu de astfel de funcie este cu o unitate, valorii lui
= 1,5x
2.5
3.0
3.0
0.0
0.5
1.0
1.5 X
2.0
2.5
3.0 X
-3.0
0.0
-2.5
0.5
-2.0
1.0
-1.5
1.5
-1.0
2.0
-0.5
2.5
0.0
Gracul acestei expresii va arta ntotdeauna o linie dreapt care va trece ntotdeauna prin punctul de origine.
y = 2x,
crete cu o unitate,
va crete cu dou
uniti. Cantitatea cu care se schimb unitate este dat de acelai raport numete i
panta dreptei.
b,
coecientului
0x
i pe
0y .
funcii care au aceeai pant, ns doar una din ele trece prin punctul de origine. Funcia
intersecteaz axa
y = 0, 5x
y = 1,5 + 0,5 x
2.0
Y
1.0
1.5
y = 0,5 x
0.5 0.0
0.0
0.5
1.0
1.5 X
2.0
2.5
3.0
y = a + bx,
unde
sunt constante.
se schimb
b, am vzut mai devreme, determin panta dreptei (ne arat cu ct y atunci cnd x se schimb cu o unitate). Deoarece constanta a punctul n care dreapta intersecteaz axa 0y , va denumit termen
Figura 1.2 i Figura 1.4, toate dreptele sunt orientate n sus; aceasta
a lui
y.
Figura 1.3 arat o dreapt orientat n jos, astfel c orice cretere cu o unitate
a lui din cauza semnului negativ al coecientului
x este nsoit de o scdere cu o constant b a lui y . Acest lucru se ntmpl (y = 1x). Funciile de acest tip b
poate lua, deci, valori pozitive i valori negative. Mai exist i o
y = 1 + 0x
0.0
0.0
0.5
1.0
1.5
2.0
2.5
0.5
1.0
1.5 X
2.0
2.5
3.0
valoarea lui
x = 1 y = 1 + 01 = 1. Cnd x = 2 y = 1 + 02 = 1. Oricare ar x, ntotdeauna y va egal cu 1. Orice schimbare a lui x nu va produce nici un fel de schimbare a lui y . n acest caz, x i y nu au nici un fel
Cnd
n funcie
x.
minori este mare n familiile cu un numr mare de membri. mai mare. Unele familii au mai muli copii minori, altele mai puini. variaz n funcie de mrimea gospodriei.
total de membri n familie este mai mare, cu att numrul de copii minori este
Numrul de copii
Pentru exemplicare, vom utiliza baza de date a Barometrului de Opinie Public (mai 2003), efectund un nor de puncte (scatterplot) ntre variabilele Total membri n gospodrie i Numr copii ntre 0-14 ani (ultima variabil ind construit n funcie de vrstele membrilor gospodriei). Figura 1.6: Scatterplot (nor de puncte) ntre variabilele Total membri n
0
1
10
11
12
13
14
Norul de puncte nu este nimic altceva dect o modalitate de aare grac a tuturor perechilor de valori ale celor dou variabile; spre exemplu, perechea 5 membri n gospodrie din care 4 copii minori se reprezint printr-un punct la intersecia dintre valoarea 5 pe axa
0x
i valoarea 4 pe axa
0y .
Acelai lucru se
face pentru ecare pereche de valori existent n baza de date. Exist familii cu 5 membri care nu au nici un copil minor, altele care au 1 copil minor, de asemenea cu 2 i 3 copii minori. Exist deci o variaie pe axa vertical pentru ecare valoare de pe axa orizontal. Ecuaia care descrie o astfel de relaie se modic, de la:
y = a + bx
(1.1)
care este o funcie liniar i ceea ce numim un model determinist (ofer o relaie exact ntre
y;
y = a + bx + e
relaie probabil ntre
(1.2)
x i y ;
n funcie de intensitatea relaiei dintre cele dou). Distribuia datelor din Predicia pe axa axa
cazul funciilor liniare, ci una cu un grad mai mic sau mai mare de probabilitate.
0y
0x,
dou variabile se numete covariaie iar aceasta are o msur care se numete covarian (aa cum variana este o msur a variaiei). Covariana poate uor calculat cu urmtoarea formul:
(x x)(y y ) cov(x, y) =
i=1
n2
1.
(1.3) ntr-o
pereche de variabile, una este cauza celeilalte, iar variaia comun este generat de relaia cauz-efect; 2. exist variaie comun a celor dou variabile ns nici una nu este cauza celeilalte. Un exemplu pentru al doilea caz este
Figura 1.7,
care prezint vrstele a 150 de cupluri cstorite, eantionate aleator din baza de date a Barometrului de Opinie Public mai 2003. Norul de puncte descrie o form eliptic, alungit, care aproximeaz o funcie cresctoare (valorile lui cresc odat cu cele a lui
x).
Vrsta soiei
10
10
20
30
40
50
60
70
80
20
30
40
50
60
70
80
90
Vrsta soului
Mrimea numeric a covarianei nu are nici o semnicaie direct pentru persoana care analizeaz datele. Aceasta se ntmpl pentru c cele dou variabile au, n general, uniti de msur diferite. Pentru a elimina acest aspect neplcut, se poate calcula un alt coecient, care utilizeaz ns valori standard
ale variabilelor (dup cum tim, standardizarea se face cu ajutorul scorurilor a dou variabile standardizate se numete corelaie.
z,
(xi x)(yi y )
rxy
cov(x, y) = = sx sy
i=1
sx sy (n 2)
(1.4)
Deoarece avem dou variabile standardizate, am mprit la produsul abaterilor standard ale celor dou variabile. Un alt mod de a scrie acelai lucru este:
rxy =
n
i=1
xi x sx n2
yi y sy
(xi x)2
unde
(yi y )2
iar
sx =
i=1
n1
sy = x,
i=1
n1 y.
sx
sy
respectiv
rxy = ryx
x
i
x.
Coecientul de corelaie ne arat ct de puternic (intens) este relaia dintre dou variabile. Poate lua valori n intervalul [1, +1], unde o corelaie egal cu 0 ne spune c nu exist nici un fel de relaie ntre cele dou (Figura corelaie de
1.5), o
crete cu o unitate standard, cealalt va crete tot cu o unitate, vezi iar o corelaie de cu o unitate, cealalt scade cu o unitate, vezi
Figura 1.2),
IMPORTANT!
r (corelaia Bravais-Pearson) este un coecient de corelaie liniar. O valoare aproape de zero a lui r nu nseamn neaprat c ntre dou variabile nu exist
(aproape) nici un fel de corelaie. Este posibil ca ntre cele dou s existe o corelaie puternic, dar ne-liniar.
n practic, cele trei valori nu vor ntlnite niciodat, pentru c ele sunt specice doar funciilor liniare, unde nu exist nici o variaie a lui o anumit valoare a lui lui
pentru
y.
1, e foarte aproape de 0.
+0, 97
indic o relaie
cresctoare aproape perfect a dou variabile; la fel, o valoare de aproape o lips de relaie ntre dou variabile.
0, 08
indic
Problema corelaiei este strns legat de problema prediciei; nelegerea uneia presupune o nelegere a celeilalte. Un coecient de corelaie diferit de zero ne spune c, dac tim ceva despre o variabil
i vice-versa.
cauz i care este efect, n cazul n care exist o relaie de cauzalitate ntre cele
tip cauz-efect. Care dintre ele este considerat variabil dependent (variabila efect) i care independent (variabila cauz) este o problem de interpretare teoretic. Oamenii de tiin sunt interesai de mult vreme de problema prediciei. Predicia se poate realiza atunci cnd avem informaii despre un fenomen. Studiul corelaiei este un prim pas n acest sens. Dac ntre dou variabile nu exist nici un fel de (co)relaie, nu putem prezice absolut nimic despre valoarea uneia folosind o valoarea a celeilalte. Dac dimpotriv, ntre cele dou variabile exist o corelaie, putem prezice cu o precizie mai mic sau mai mare valoarea uneia folosind-o pe cealalt. n cazul unei corelaii aproape de maxim (+1 sau atunci putem face o predicie cu un grad nalt de precizie. Atunci cnd modelul teoretic arat care variabil este cauz i care este efect, predicia trece la un nou nivel, de la corelaie la regresie.
1)
y = a + bx + e
unde
0y ), b
S relum ipoteza cu privire la determinarea venitului; deoarece n regresia liniar simpl avem doar o singur variabil independent, ipoteza noastr se reduce la VENIT depinde de VRST. Este clar c nu toi oamenii au acelai venit. Oamenii mai n vrst au n general un venit mai mare dect al celor mai tineri; chiar n cazul oamenilor de aceeai vrst se pot constata diferene. Ecuaia de regresia n acest caz arat astfel: VENIT
= a + b1 VRST + e
unde factorul eroare este responsabil de variaia venitului pentru persoane cu aceeai vrst (dac nu ar exista acest factor, relaia dintre cele dou variabile ar perfect liniar; nc nu tim de ce oameni de aceeai vrst au venituri diferite, pot exista i alte cauze pe care noi nu le-am inclus nc n model).
10
IMPORTANT!
O alt observaie pe care o putem face n acest moment este c regresia liniar simpl se poate utiliza dac i numai dac norul de puncte aproximeaz o form liniar. Dac norul de puncte aproximeaz o form ne-liniar, se aplic alte tipuri de regresie. Aceasta este prima dintr-un ir de asumpii / condiii ale acestui tip de analiz, pe care le vom discuta n detaliu mai trziu.
Dei norul de puncte se supune ecuaiei de mai sus, n practic noi nu cunoatem niciodat mrimea numeric a erorii; putem doar s estimm ct de mare este efectul acesteia asupra variabilei dependente. ntrebarea natural care decurge este:
Cum reuim s prezicem valoarea lui y , folosind ecuaia de regresie, dac nu cunoatem mrimea erorii?
Rspunsul este simplu; vom prezice valoarea lui
y = a + bx
unde notm cu
y valoarea
prezis.
Realitatea este descris de modelul probabilist, iar predicia noastr despre realitate va utiliza modelul determinist. Sigur c, deoarece modelele nu sunt Nici nu putem echivalente, predicia noastr va n toate cazurile eronat.
avea pretenia ca predicia noastr s e perfect n ecare caz; tot ceea ce ne rmne de fcut este s ne asigurm c predicia va ct mai aproape de realitate. Dup cum am vzut,
Aceasta nseamn c, ntotdeauna, valoarea prezis va gsit de-a lungul unei linii care merge n direcia norului de puncte. S lum urmtorul exemplu ipotetic care prezint situaia veniturilor i cheltuielilor (n milioane lei) a 10 gospodrii, pentru o lun oarecare (Tabelul
1.1).
Tabelul 1.1: Situaia veniturilor i cheltuielilor a 10 gospodrii (milioane lei) Venituri 1 2 3 4 5 6 7 8 9 10 2 1,3 3,7 5 2,7 3 1 4 4,6 1,7 Cheltuieli 2,7 1,7 3 3 1,8 2 1,2 2 3,8 1,3
Unele gospodrii cheltuiesc mai puin dect au ctigat, altele mai mult (folosind economii). Toate perechile de puncte sunt prezentate n
11
(termenul liber) i
Cheltuieli
0
0
Venituri
0y )
y ).
prezise (notate cu
y ).
(ateptate n ipoteza unei relaii liniare ntre variabile). Spuneam mai devreme c nici o predicie nu este perfect. n eantionul nostru, gospodria cu un venit de 2 milioane lei are cheltuieli de 2,7 milioane. dintre valoarea prezis i valoarea observat se numete eroare. Valoarea prezis de noi nu va egal cu valoarea observat n eantion. Diferena
Figura 1.9
prezint distanele de la ecare punct (perechea de valori observate n eantion) la o dreapt care trece prin norul de puncte. Distanele sunt liniile de culoare albastr. Ceea ce se observ imediat este c unele valori observate sunt mai mari dect cele prezise iar diferenele sunt numere pozitive (liniile sunt deasupra dreptei) iar alte valori observate sunt mai mici dect valorile prezise iar diferenele sunt numere negative (liniile de sub dreapt). Cu alte cuvinte, dreapta care aproximeaz cel mai bune norul de puncte este aceea n funcie de care distanele puncte la dreapt s e cele mai mici posibile. Pentru a exprima acest lucru ntr-un singur numr, nu putem aduna pur i simplu erorile, pentru c unele au semn negativ iar altele au semn pozitiv; prin adunare ele se elimin reciproc iar suma acestora este ntotdeauna egal cu zero:
12
Cheltuieli
0
0
Venituri
Cea mai bun predicie este cea care d cele mai mici erori.
ei =
i=1 i=1
(yi y ) = 0
(1.6)
Nici adunarea diferenelor absolute (n modul) ntre valorile observate i prezise nu este cea mai bun soluie, pentru c nu accentueaz erorile mari. Este de preferat o dreapt de regresie care s aib erori mici, dect o dreapt care s aib unele erori foarte mici i altele foarte mari. Ridicarea la ptrat penalizeaz o dreapt care are erori foarte mari, chiar dac cele mai multe dintre erori sunt foarte mici. Dac ne uitm peste
a dreptei n jos ar micora suma erorilor pentru c cele mai multe din valorile observate se a sub dreapt. n modul, o coborre a dreptei ar micora suma erorilor (comparativ cu dreapta prezentat), ns erorile de deasupra dreptei ar mai mari. Acest lucru slbete predicia; de aceea este preferat ridicarea la ptrat a erorilor nainte de a le aduna. S ne reamintim ns de formula varianei, care elimina efectul semnelor negative i pozitive prin ridicarea la ptrat a distanelor de la valoare la medie. (distane) i le adunm, iar suma acestora trebuie s e un numr minim. Vom aplica acelai principiu i n cazul regresiei: ridicm la ptrat toate aceste erori
e2 = i
i=1 i=1
(yi y )2
(1.7)
Cea mai bun dreapt de regresie este aceea pentru care suma ptratelor erorilor este cel mai mic numr posibil (are o valoare minim).
Exist o rezolvare matematic pentru acest gen de problem, care nu face parte ns din obiectul acestui cri. Mai jos sunt prezentate formulele pentru calcularea coecienilor
b,
13
(xi x)(yi y ) b=
i=1 n
(1.8)
(xi x)2
i=1
a = y b x
(1.9)
Acestea nu sunt singurele formule de calcul a coecienilor. Mai exist i alte formule, derivate unele din celelalte. Spre exemplu, o formul mai simpl a lui
b,
b = rxy
sy sx
(1.10)
IMPORTANT!
Coecientul de regresie
nu este acelai lucru cu coecientul de corelaie! Coecientul de corelaie indic o msur sime-
Ambii indic o pant cresctoare sau descresctoare (au acelai semn), ns ei nu trebuie confundai. tric a intensitii relaiei dintre dou variabile; indiferent care variabil ar considerat dependent, coecientul de corelaie are exact aceeai valoare. Coecientul de regresie alt valoare dac
este dependent i o
ar variabil dependent.
rxy = b
sx sy sx
i
sy
ale acestora ar
rxy = b
coecientul de corelaie este un coecient de
regresie standardizat.
n practic, nimeni nu mai calculeaz valorile coecienilor
n acest fel.
Apariia calculatoarelor personale cu o putere de calcul extrem de mare a automatizat obinerea acestor cifre, astfel c pot obinute ntr-o fraciune de secund prin selectarea unei comenzi ntr-un program statistic cum este SPSS. Totui, dei calculele se fac automat, cunoaterea formulelor de baz este necesar pentru a nelege logica metodei i condiiile ei de aplicare. n cazul nostru,
= 0,89 i
y = 0, 89 + 0, 47 x
Pentru ecare gospodrie, valoarea real (observat) este obinut cu ecuaia 1.2:
y = a + bx + e
14
2, 7 = 0, 89 + 0, 47 2 + 0, 9
Tabelul 1.2 prezint cheltuielile prezise cu ajutorul ecuaiei de regresie, diferenele (pe coloana a 5a) dintre valorile observate (coloana a 3a) i valorile prezise (coloana a 4a) precum i ptratele acestor diferene. Toate cifrele sunt prezentate cu rotunjire la o singur zecimal; eventualele neconcordane cu privire la nsumri sunt datorate acestei rotunjiri. Coloana a 5a reprezint deci variaia erorilor n jurul dreptei de regresie; este deci o variabil n sine.
Tabelul 1.2: Obinerea sumei ptratelor erorilor (abaterilor de la dreapta de regresie) Numr gospodrie Venituri Cheltuieli observate (milioane lei) 1 2 3 4 5 6 7 8 9 10 2 1,3 3,7 5 2,7 3 1 4 4,6 1,7 2,7 1,7 3 3 1,8 2 1,2 2 3,8 1,3 1,8 1,5 2,6 3,2 2,2 2,3 1,4 2,8 3 1,7 Cheltuieli prezise
(eroarea)
col.3col4
e2
0,8 0,0 0,1 0,1 0,1 0,1 0,0 0,6 0,6 0,2
e e e e e e e e e e
1 2 3 4 5 6 7 8 9
10 10
+0,9 +0,2 = +0,4 = 0,2 = 0,4 = 0,3 = 0,2 = 0,8 = +0,8 = 0,4
= =
10 i=1
ei = 0
i=1
e2 = 2, 5 i
Figura 1.10: Diferena dintre valoarea observat i cea prezis a cheltuielilor primei gospodrii (milioane lei)
Cheltuieli
Venituri
Valoarea termenului liber pune toat teoria noastr de pn acum ntr-o situaie
15
dicil. Termenul liber este valoarea lui lei. Cum este posibil acest lucru?
atunci cnd
= 0. Cu alte cuvinte,
atunci cnd o gospodrie nu are nici un venit (0 lei), cheltuiete n medie 890.000
matematic a unei formule, pentru aproximarea ct mai exact a norului de puncte. Valoarea de 0,89 nu reprezint propriu-zis o predicie, pentru simplul motiv c nu avem date pentru gospodriile cu venit egal cu zero: se observ c venitul cel mai mic este situat la 1 milion de lei. O predicie pentru gospodriile care nu au nici un venit ar nsemna ca noi s ne hazardm n afara datelor pe care le avem i s facem predicii fr nici o baz (de date). Ar trebui s facem o cercetare special asupra acestor gospodrii pentru a aduna date. ntmpltor, valoarea lui minus!?! mult.
de bine o valoare negativ, ceea ar un non-sens: gospodriile cheltuiesc n Valoarea termenului liber, deci, nu poate privit dect ca pe un punct de pornire n funcie de care trasm dreapta de regresie, i nimic mai Nu se pot realiza predicii doar pe baza acestuia; de cealalt parte a gracului, norul de puncte se oprete la valoarea de 5 milioane. Nu putem face predicii pentru valori ale lui Dac
cele din mijloc prezentul iar cele din dreapta viitorul), am putea noi s facem predicii cu privire la viitor?
IMPORTANT!
Nici o predicie nu poate fcut pentru valori n afara norului de puncte.
Exemplul nostru prezint intenionat doar 10 cazuri, pentru simplicarea norului de puncte. De obicei ns, eantionul prezint sute sau chiar mii de cazuri. Mai mult, dac am avea date despre toate gospodriile (date despre populaia de gospodrii), pentru un venit de 2 milioane de lei ar exista foarte multe gospodri pe axa cheltuielilor, 0y . Acesta este un fapt important pentru nelegerea celei de-a patra, a asea i aptea asumpii prezentate la sfritul acestui capitol.
IMPORTANT!
Interpretarea n cuvinte a coecientului de regresie b reprezint schimbarea n medie a lui unitate a lui
este urmtoarea:
generat de schimbarea cu o
x y
se modic la fel; unele se schimb mai mult, altele Media tuturor
mai puin, unele n sens pozitiv iar altele n sens negativ. este generat de valoarea lui
b.
16
este important pentru predicie, ns cum putem ti ct de mult inueneaz variabila independent pe cea dependent? Un model este valid dac ia n considerare toate variabilele independente care inueneaz n realitate o dependent. n regresia simpl analizm relaia cu o singur variabil independent; ct de mult din variaia dependentei este explicat de variaia independentei? Ne reamintim c o msur a variaiei este variana, care calcula suma ptratelor abaterilor individuale de la medie. n absena oricrei informaii despre posibile variabile independente care cauzeaz variaia dependentei, singurul punct x, de reper al dependentei este chiar media acesteia. Toate valorile observate au o abatere fa de medie.
Figura 1.11: Variaia valorilor variabilei Cheltuieli n jurul mediei acesteia: a. n absena variabilei independente
3.8
Cheltuieli
1 2
Venituri
r2
17
total a valorii observate de la medie, explicat de predicie - o eroare de la dreapta de regresie la valoarea observat: abatere de la medie rmas neexplicat Putem lua ca exemplu cea de a 9-a gospodrie (Figura mare abatere de la medie. Figura 1.12: Abaterea total, abaterea explicat i abaterea neexplicat a cheltuielilor celei de a 9-a gospodrii poriunea de
Cheltuieli
Venituri
Dac am luat ca predicie media cheltuielilor pentru a estima valoarea observat a cheltuielilor de 3,8 milioane lei, atunci deviaia total a acestei valori fa de media ei este (y9
y ).
sie este mult mai bun (valoarea prezis se apropie mai mult de cea observat). Totui, valoarea prezis explic doar poriunea (y poriunea rmas (y9
y)
y)
rmne neexplicat.
Extrapolnd la cheltuielile tuturor gospodriilor unui eantion de mrime tratelor deviaiilor valorilor observate de la medie:
n,
(yi y )2
i=1
Poriunea explicat din aceast variaie total a dependentei este:
(i y )2 y
i=1
Iar poriunea rmas neexplicat din variaia total a dependentei este:
(yi yi )2
i=1
18
Proporia de variaie explicat, ca procent din variaia total este numit coecient de determinaie:
(i y )2 y 0 r2 1 (yi y )2
(1.11)
r2 =
i=1 n i=1
Practic, coecientul de determinaie reprezint proporia de variaie a dependentei explicat de modelul de regresie. Este ntotdeauna mai mare sau egal cu zero (toate valorile sunt pozitive prin ridicarea la ptrat), i ntotdeauna mai mic sau cel mult egal cu 1 atunci cnd variaia explicat este egal cu variaia total (modelul explic perfect, n proporie de 100%, variaia dependentei). Spre exemplu, o valoare a lui
r2
r2
mai bun; cu ct este mai aproape de zero, nseamn c modelul nu reuete s surprind ceea ce se ntmpl n realitate. ntre coecientul de determinaie i coecientul de corelaie este o legtur strns, ind posibil calcularea unuia pe baza celuilalt:
r=
Atenie ns: o valoare mare a lui
r2 r2
r2 .
n cuvinte, atunci cnd dou variabile coreleaz mpreun cu o valoare de 0,7 ecare ar putea explica doar 49% din variaia celeilalte. Atunci cnd se calculeaz ntr-o ecuaie de regresie simpl, coecientul se numete de determinaie simpl i se noteaz cu
r2 ;
n regresia multipl el se
R2 .
1.8 Inferena statistic pe baza coecienilor de regresie. Eroarea standard a coecienilor de regresie.
S ne reamintim acum c valorile din acest tabel reprezint un eantion (aleator) extras din populaia tuturor gospodriilor. De aceea, o valoare a cheltuielilor n populaie o notm cu litera mare o notm cu litera mic
Y,
y.
IMPORTANT!
Predicia nu este acelai lucru cu inferena! Predicia se refer la valoarea unei variabile cunoscnd valoarea celeilalte, iar inferena se refer la estimarea parametrului din populaie pe baza statisticii din eantion.
1.8 Inferena statistic pe baza coecienilor de regresie. Eroarea standard a coecienilor de regresie.
19
Dac am avea un tabel al veniturilor i cheltuielilor ntregii populaii de gospodrii, am putea s facem un nor de puncte al tuturor acestor perechi i n funcie de acest nor s calculm o dreapt de regresie. Exist, aadar, o
singur dreapt
de regresie adevrat, n populaie, aa cum exist cte o dreapt de regresie pentru ecare eantion aleator posibil. Deoarece exist o innitate de eantioane posibile, exist deci i o innitate de drepte de regresie posibile n eantion. De aceea, coecienii
din populaie.
Fiecare dreapt de
regresie n eantion face o inferen asupra dreptei de regresie din populaie. S ne reamintim c eroarea standard este abaterea standard a distribuiei de eantionare a estimatorului, care ne ofer un interval n care estimm c se a parametrul din populaie, la un anumit nivel de ncredere. plu, eroarea standard a coecientului parametrului Spre exem-
.
Eroarea Standard a acestor coecieni
1. Pentru a testa pe loc dac aceti coecieni pot sau nu s e considerai utili. Este vorba de un simplu test de nul. Exemplul pe care l vom lua n considerare aici este unul intenionat greit, care va demonstra ns ceva foarte important. S ne relum exemplul cu corelaia dintre vrsta soilor i cea a soiilor: am putea face ipoteza c vrsta soiei este inuenat de cea a soului. rezultate: Valoare (Termenul liber) 4,5103 0,9263 Eroare Standard 1,5780 0,0305 Introducem aceste variabile ntr-o ecuaie de regresie liniar simpl, care produce urmtoarele
t:
t
2,858 30,368
p
0,00487**
(Vrsta so)
<
2e-16***
semnicativ la pragul de 5% semnicativ la pragul de 1% semnicativ la pragul de 1% 2e-16 nseamn 0,0000000000000002
Testm dac termenul liber este semnicativ diferit de zero. Ipoteza de nul: populaia din care provine eantionul nostru are un termen liber egal cu zero. Ipoteza alternativ: populaia din care provine eantionul nostru are un termen liber diferit de zero. H0 H
=0
A: =0
20
IMPORTANT!
A nu se confunda acest n populaie a termenului liber
Valoarea lui
t=
valorii termenului liber la eroarea lui standard (deoarece valoarea cu care se compar este zero). Important nu este valoarea lui
p asociat:
de nul eroarea de tipul I). Aceast probabilitate este foarte mic, mult sub orice prag de semnicaie rezonabil, cu att mai mult sub clasicul prag de 5%. n consecin, respingem ipoteza de nul: termenul liber este semnicativ diferit de zero. La fel se ntmpl i n cazul lui
b.
Probabilitatea
de a grei respingnd ipoteza de nul n cazul acestuia este extrem de mic (mai mic dect 0 urmat de nc alte 15 zerouri dup virgul). Dup cum se vede, toi coecienii sunt semnicativi, valoarea lui
r2
este
de 86,17%; am putea s concluzionm c este un model extrem de bun. Din pcate, modelul a plecat de la o ipotez vdit eronat: vrsta soiei nu poate cauzat de vrsta soului, ci ambele sunt inuenate de trecerea timpului. Calculatorul nu a penalizat aceast greeal, ci a calculat coecienii ca i cum modelul ar unul bun.
IMPORTANT!
Ecuaia de regresie nu poate n nici un caz s stabileasc o relaie de cauzalitate. Ecuaia este doar un model matematic care ne ajut s testm un model teoretic, ns stabilirea modelului este sarcina analistului, nu a calculatorului.
Rezultatele din tabelul ANOVA al ecuaiei de regresie sunt echivalente cu cele din testul
t de mai sus.
x este interpretat ca un
grup i se testeaz dac panta dreptei de regresie este egal cu zero prin compararea mediilor acestor grupuri. Dac mediile tuturor grupurilor nu sunt semnicativ diferite ntre ele atunci dreapta de regresie are o pant egal cu zero. Dac cel puin dou grupuri au medii diferite, atunci panta va diferit de zero. Suma
gl
ntre grupuri n interiorul grupurilor Total 1 148 149
F
922,2
p <2,2e-16
1.8 Inferena statistic pe baza coecienilor de regresie. Eroarea standard a coecienilor de regresie.
21
corespunztoare coecientului
este virtual aceeai (o diferen extrem de mic se manifest dup cea Variana dintre grupuri este variana explicat de
de a 16-a zecimal).
modelul de regresie, iar cea din interiorul grupurilor este variana rmas neexplicat (ea mai este denumit i varian rezidual). Valoarea lui
este raportul dintre variana explicat de modelul de regresie (n englez Regression Mean Squares) i variana neexplicat de model (n englez Residual Mean Squares sau Error Mean Squares) 2. Pentru a face o inferen asupra parametrilor din populaie. Valorile lui
Dup cum tim ns, exist i o estimare interval bazat pe calcului erorii standard, la un anumit nivel de ncredere. jurul statisticii din eantion. n cazul nostru, valoarea termenului liber valul: tim deja c la un nivel de ncredere de 95%, parametrul din populaie se a ntre
1,96E.S.
adic
[1, 42 , 7, 60]
intervalul este:
adic
[0, 87 , 0, 99]
al dreptei de regresie din populaie poate oriunde ntre 1,42 i 7,60 iar
panta (nclinarea) dreptei de regresie din populaie este dat de o valoare a lui
din eantion, unde estimm c se a dreapta de regresie din populaie. Ca exemplu, vom utiliza n mai 2003. Figura 1.13: Dreapta de regresie din eantion i intervalul estimat n care se a dreapta de regresie din populaie, la un nivel de ncredere de 95%
85
Vrsta soiei
15
15
25
35
45
55
65
75
25
35
45
55
65
75
85
Vrsta soului
22
n cazul unui eantion de mrime relativ mic, cum este acesta, banda de estimare este destul de deprtat de dreapta de regresie. Cu ct volumul eantionului se mrete, banda va din ce n ce mai apropiat de dreapt, la eantioane mari ind aproape lipit de aceasta. Explicaia este destul de simpl ntruct mrirea eantionului determin o scdere a erorii standard, care ngusteaz intervalul de estimare. Se observ c banda este ngustat la mijloc; este normal s e aa ntruct acolo se a mediile celor dou variabile, cele mai stabile puncte de predicie i inferen. Ca o explicaie intuitiv, banda de estimare este obinut cu ajutorul unui balansoar xat la mijloc pe mediile celor dou variabile; capetele benzii sunt mai largi din cauza micrii n sus i n jos a balansoarului.
ignor vericarea acestor asumpii: greeal grav, pentru c rezultatele obinute (coecienii de
regresie, coecientul de corelaie precum i cel de determinaie) pot lua valori destul de diferite de ceea ce exist n realitate dac analiza de regresie este efectuat prin nclcarea acestor asumpii. foarte important n analiz. n general, regresia este destul de robust la nclcarea unor asumpii, ns vericarea acestora este totui o etap
IMPORTANT!
Toate asumpiile se refer la variabilele n populaie.
ASUMPII GENERALE: 1.
2.
3.
Liniaritatea.
Este o prim asumpie care a fost deja specicat n acest capitol; se refer la forma liniar a norului de puncte. examinarea vizual a norului de puncte. Liniaritatea se veric prin
23
Dac forma acestuia nu este liniar, pot exista dou situaii: (a) norul de puncte este non-monoton (scade, crete apoi scade iar) (b) norul de puncte este monoton (scade monoton ori crete monoton) Cazul ne-liniar monoton poate corectat prin transformrile variabilelor (spre exemplu prin logaritmare); aceste transformri ns nu fac obiectul acestei cri. n cazul ne-liniar non-monoton trebuie aplicat un alt tip de regresie, ne-liniar.
Relund exemplul cu cheltuielile i veniturile gospodriilor, dac am avea o baz de date cu ntreaga populaie de gospodrii, este uor de imaginat c pot exista foarte multe gospodrii cu un venit de 2 milioane de lei. Dreapta de regresie va genera o predicie a cheltuielilor (un punct x) fa de care cheltuielile gospodriilor cu un asemenea venit vor avea erori mai mari sau mai mici, unele pozitive i altele negative. Suma tuturor acestor erori trebuie s e egal cu zero, n consecin i media acestor erori va egal cu zero. Important este accentul pus pe medie deoarece punctul de predicie de pe dreapta de regresie coincide cu cheltuielilor pentru un venit de 2 milioane de lei.
Y |2
- media tuturor
Y |2 = + 2 +
Cum ns media erorilor
Y |2 = + 2
unde
+2
Y |X
dat ind
X
= Cheltuieli iar
S nu avem autocorelaie.
Autocorelaia se refer la independena erorilor; dac avem autocorelaie, erorile asociate cu diferite observaii nu sunt independente unele de altele. n exemplul nostru, oricare dou gospodrii ar luate n analiz, erorile fa de dreapta de regresie trebuie s e independente unele de altele; cheltuielile unei gospodrii nu depind (sau sunt independente) de cheltuielile oricrei alte gospodrii. Autocorelaia se veric cu
autocorelaie, valoarea testului trebuie s e egal cu 2 (sau ct mai aproape de 2). Dac valoarea testului este mai mare dect 2, avem autocorelaie negativ; dac este mai mic dect 2, avem autocorelaie pozitiv. 6.
X,
predicie trebuie s e distribuite normal. Ne reamintim c o distribuie normal este simetric, valorile din stnga mediei ind la fel de multe ca
24
tul de predicie, iar suma erorilor cu semn pozitiv este egal cu suma erorilor cu semn negativ (suma total a erorilor este astfel zero). Aceast asumpie poate testat prin efectuarea de histograme a valorilor lui
y pentru diferite sub-eantioane corespunztoare diferitelor valori ale lui x. n exemplul cu veniturile i cheltuielile, selectm spre exemplu doar
gospodriile cu venit de 2 milioane de lei i efectum o histogram a cheltuielilor acestor gospodrii. Dac histograma are o form care seamn cu o curb normal, este bine; dac histograma nu seamn cu o curb normal, nseamn c erorile nu sunt distribuite normal pentru aceste gospodrii. Un alt test pentru vericarea acestei asumpii este aa numitul grac Q-Q Plot (quantile versus quantile). Se ordoneaz erorile de la minim la maxim pentru calcularea quantilelor, apoi se calculeaz valoarea prezis a ecrei quantile. Rezultatul este un plot care va arta, dac erorile au o distribuie normal, aproximativ ca o dreapt.
-2
-1
-2
-1
celor 10 gospodrii (ecare cu venit propriu, diferit de al celorlalte). ntruct 10 cazuri erau prea puine pentru demonstraie, am creat un eantion cu cte 15 gospodrii pentru ecare categorie de venit, totaliznd 1015=150 gospodrii prezente n grac. 7.
S nu avem heteroscedasticitate.
Heteroscedasticitatea se refer la inegalitatea abaterilor standard a erorilor. n populaie, pentru ecare valoare a lui avem ceea ce se numete
standard a erorilor pentru gospodriile cu venit egal cu 2 milioane trebuie s e egal cu abaterea standard a erorilor pentru gospodriile cu oricare alt venit. Egalitatea acestor abateri standard nseamn c norul de puncte
25
este distribuit uniform, la o distan egal fa de dreapta de regresie pe toat lungimea acestuia. Oricare puncte pe dispersarea valorilor lui 8.
y = a + bx + e, coecientul de corelaie dintre x i e trebuie rxe = 0. La prima vedere aceast asumpie ar prea
imposibil de testat pentru c eroarea este n principiu necunoscut. Rezolvarea problemei ine de teoria regresiei multiple i de o anume asumpie specic acesteia:
capitolul de regresie multipl). S presupunem c exist i o alt variabil independent care explic o parte din variaia dependentei:
y = a + b1 x1 + b2 x2 + e rx1 x2 = 0. n cazul x1 , ceea ce nseamn c efectul lui x2 intr n componena erorii e. Cum x1 i x2 sunt corelate, nseamn c x1 va corelat cu eroarea e (care l conine i pe x2 ), caz n care prezenta asumpie este nclcat. Coecientul de regresie b va eronat (va conine un bias), supraestimnd efectul lui x1 asupra lui y .
i c ntre i exist un coecient de corelaie regresiei simple nu lum n calcul dect pe Aproape ntotdeauna vor exista i alte variabile independente responsabile de variaia dependentei, ceea ce nseamn c un model de regresie liniar simpl este aproape ntotdeauna mai mult sau mai puin eronat. Este normal s e aa, pentru c este greu de crezut c un fenomen este explicat n totalitate de un singur alt fenomen; realitatea social este extrem de complex, cu legturi subtile ntre multiple variabile.
x1
x2
Figura 1.15: Distribuia homoscedastic a 150 de cheltuieli n cadrul a 10 categorii de venituri (milioane lei)
Cheltuieli
0
1
Venituri
15 puncte roii corespunztoare celor 15 gospodrii din ecare categorie. Dreapta de regresie are acelai termen liber i aceeai pant ca la
26
Figura 1.10. Liniile de culoare albastr marcheaz plus sau minus dou
abateri standard de la dreapta de regresie. Norul de puncte este distribuit normal n jurul dreptei de regresie; mai mult dect att, distribuia punctelor este uniform n jurul dreptei de regresie, la cel mult dou abateri standard. Sigur, acesta este un exemplu construit; cele 150 de gospodrii pe axa
0y
au fost obinute prin extragerea aleatoare dintr-o distribuie normal n jurul ecrui punct de predicie de pe dreapta de regresie. Faptul c nici o distribuie nu seamn cu cealalt demonstreaz tocmai caracterul aleator al extragerilor. n populaie, numrul de categorii de venituri precum i numrul de gospodrii n cadrul ecrei categorii este mult mai mare, ns cu ct numrul acestora crete cu att mai puternic este aproximarea distribuiei normale pentru ecare categorie de venit, demonstrnd grac asumpiile 4, 6 i 7.
Abaterea
0x.
punctele sunt mai dispersate n jurul dreptei de regresie; n consecin, abaterile standard a erorilor cresc. Forma norului de puncte este conic (sau are o form de evantai), deci avem heteroscedasticitate; asumpia ind nclcat, regresia poate efectuata cu meniunea c erorile standard ale coecienilor de regresie vor ns mai mari.
Figura 1.16:
Cheltuieli
0
0
Venituri
Testul cel mai utilizat n vericarea heteroscedasticitii este un plot ntre valorile prezise (de pe linia de regresie) i reziduuri (erorile de la puncte la linia de regresie). n acest tip de plot, dreapta de regresie este prezentat pe orizontal la mijlocul gracului; dac nu avem heteroscedasticitate, norul de puncte rezultat ar trebui s e uniform n jurul acestei drepte. Spre exemplu, n
27
Figura 1.17:
Figura 1.18:
0.4
0.2
Valori reziduale
Valori reziduale
1.5 2.0 2.5 3.0
0.0
-0.4
-0.2
-1.5
1.5
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Valori prezise
Valori prezise
mai desfurat; acum se observ mai uor c cele 10 grupe de venit (pe vertical) sunt relativ normal distribuite n jurul liniei orizontale (dreapta de regresie). Pe axa vertical avem 0 n mijloc, valorile pozitive arat erorile pozitive iar valorile negative arat erorile negative. n cazul
o form de evantai) specic heteroscedasticitii; cele din stnga au o variaie mic n jurul dreptei iar cele din dreapta au o variaie mare n jurul aceleiai drepte. Practic, plotul ntre valorile prezise i cele reziduale nu face altceva dect s aduc dreapta de regresie ntr-o poziie orizontal pentru simplicarea analizei vizuale a norului de puncte.
Cercettorii, oamenii de tiin n general folosesc regresia ntr-un dublu scop: unul este de predicie, cellalt este de explicaie. Pn acum ne-am preocupat n special de problema prediciei. Explicaia ns este mult mai interesant, deoarece ofer o aplicaie n cercetarea fundamental. Predicia se poate folosi, spre exemplu, n prezicerea procentelor ntr-o campanie electoral. Interesul public se oprete n general doar la acest lucru, fr a ine cont neaprat de explicarea fenomenului. Partea cu adevrat interesant, cel puin din punct de vedere sociologic, se a n explicarea acestuia. n acest sens, regresia este folosit pentru a testa consistena unui model n ceea ce privete explicarea variaiei dependentei. Accentul trece de la exactitatea valorii prezise a lui
r2 .
Cele dou orientri sunt evident strns legate: un model care face o predicie bun va face i o explicaie bun. Este bine de subliniat ns c o predicie bun poate datorat (ntr-o msur mai mare sau mai mic) i ntmplrii. O bun explicaie bun ns (o valoare a lui
r2
28
(yi yi )2
i=1
Aa cum variana este o medie a ptratelor distanelor de la ecare valoare la media variabilei, la fel ne intereseaz o valoare medie a ptratelor erorilor (de la valorile observate la dreapta de regresie):
(yi yi )2
i=1
n
Deoarece pierdem dou grade de libertate prin calcularea coecienilor de re-
a lui
(yi yi )2
i=1
n2
Pentru a elimina efectul ridicrii la ptrat, extragem radical din aceast expresie i obinem:
(yi yi )2 se =
unde a lui
i=1
n2
msoar abaterea standard
se este denumit eroarea standard a estimrii; y atunci cnd valorile lui x sunt cunoscute.
IMPORTANT!
A nu se confunda eantionare).
cu
Eroarea Standard
din Teo-
rema Limit Central (care nseamn abaterea standard a distribuiei de Expresia eroarea standard a estimrii este doar o form mai simpl a expresiei abaterea standard a erorilor n jurul dreptei de regresie.
Este o msur a variaiei neexplicate; cu ct aceast msur are o valoare mai mic, cu att proporia de variaie neexplicat este mai mic (i evident, proporia de variaie explicat este mai mare). Este o formul similar cu abaterea standard a lui
y:
(yi y )2 sy =
i=1
n1
29
n - 1, deoarece pierdem
doar un singur grad de libertate prin calcularea mediei. Ambele msuri (sy i
se )
y.
Coecient de determinaie (n engl. coecient of determination). O msur care arat proporia din variaia variabilei dependente care este explicat de modelul de regresie.
Coecient de regresie
y. x, i speci-
x.
Coecient de regresie standardizat (n engl. standardized regression coecient). Echivalentul coecientului de corelaie; prin standardizarea variabilelor coecientul de regresie devine egal cu coecientul de corelaie deoarece abaterile standard ale celor dou variabile devin egale.
Eroare sau Reziduu (n engl. random error term sau residual). Diferena
dintre valoarea observat (punctul din diagrama de mprtiere) i cea prezis (punctul de pe dreapta de regresie) a lui
y.
Metoda celor mai mici ptrate (n engl. OLS - ordinary least squares method). O metod de calcul a coecienilor de regresie bazat pe potrivirea unei linii drepte printr-un nor de puncte (cu alte cuvinte calcularea unui punct de plecare i a unei pante a dreptei) n aa fel nct suma ptratelor erorilor s e un numr minim.
30
Nor de puncte sau diagram de mprtiere (n engl. scatterplot, scattergram sau scatter diagram). Un grac de puncte pe un sistem de coordonate rectangular. Coordonatele pe axele
0x
0y
corespund celor dou msurtori fcute ecrui element al eantionului. Forma norului de puncte ilustreaz relaia dintre dou variabile.
Termenul liber (n engl. intercept). Punctul n care dreapta de regresie intersecteaz axa
0y
(valoarea lui
cnd
x)
Variabil dependent (n engl. dependent variable). Variabila a crei variaie trebuie explicat, ori a crei valoare trebuie prezis n analiza de regresie.
Variabil independent (n engl. independent variable). Variabil cunoscut, inclus n analiza de regresie pentru a explica variaia variabilei dependente.
Variaie (n engl. variation). Suma abaterilor indivizilor de la medie. Pentru msurarea ei utilizm variana (n engl. variance) sau abaterea standard (n engl. standard deviation). Variaia explicat - VE (n engl. regression sum of squares). Poriunea din
VT explicat de modelul de regresie. dintre valorile prezise a lui Este suma ptratelor diferenelor
i media lui
y.
Este suma ptratelor
y.
Variaia total - VT (n engl. total sum of squares). Suma ptratelor deviaiilor valorilor observate a lui
de la media acestuia.