Modelul de Regesie Liniara Simpla (Unifactorial)

Regresia liniar simpl
Adrian DUA
Universitatea din Bucureti
Facultatea de Sociologie i Asisten Social
May 16, 2007
Cuprins
1
1.1
Prezentare general . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Funcii liniare . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Panta (nclinarea) dreptei
. . . . . . . . . . . . . . . . . . . . . .
1.4
Norul de puncte. Coecientul de corelaie. . . . . . . . . . . . . .
1.5
De la corelaie la regresie
1.6
Metoda celor mai mici ptrate
1.7
Coecientul de determinaie simpl:
1.8
Inferena statistic pe baza coecienilor de
1.9
Asumpiile regresiei
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
r2
. . . . . . . . . . . . . .
regresie. Eroarea standard a coecienilor de regresie.
9
11
16
. . . . . .
18
. . . . . . . . . . . . . . . . . . . . . . . . .
22
1.10 Eroarea standard a estimrii
. . . . . . . . . . . . . . . . . . . .
28
1.11 Glosar de termeni . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
Capitolul 1

1.1 Prezentare general
Regresia este folosit pentru analizarea unei ipoteze cu privire la relaia dintre o
singur variabil
Y,
numit variabil dependent (sau variabil rspuns) i una
sau mai multe variabile
X1 ...Xk
sau variabile explicative).
numite variabile independente (sau predictori
Cu ajutorul regresiei, vom putea determina ct de
mult se schimb (variaz) dependenta

i schimb valorile (variaz).
atunci cnd variabilele independente
Altfel spus, vom putea determina ct de mult
din variaia total a dependentei este inuenat de variaia independentelor.

Mai mult, vom putea estima (prezice) o valoare sau un interval de valori a
dependentei pentru anumite valori ale independentelor.
Spre exemplu, dorim s examinm relaia dintre
educaia, sexul i vechimea n munc a acesteia.
venitul unei persoane i vrsta,

Pornim de la ipoteza c venitul
persoanei este inuenat de toate celelalte patru variabile.

de...
Fiind inuenat
mai poate citit ca depinde de..., ceea ce calic variabila venit ca
variabil dependent.
Vom denumi variabilele noastre astfel:
venitul persoanei (msurat n lei, este o variabil raport, meVENIT
tric, discret dar care poate considerat continu din cauza

numrului foarte mare de uniti)
VRST
EDUCAIE
SEX
VECHIME
vrsta persoanei (msurat n ani mplinii, variabil raport,

metric, discret)
educaia persoanei (msurat n numr de ani de coal, este o
variabil raport, metric, discret)
sexul persoanei (variabil calitativ, nominal cu dou categorii:
femei i brbai)
vechimea n munc a persoanei (acelai tip de variabil ca
VRSTA)
Ipoteza noastr mai poate scris astfel:
VENIT depinde de VRST, de EDUCAIE, de SEX i de VECHIME.

Bineneles c predictorii propui n acest model nu vor reui s explice total
sau s prezic perfect variaia veniturilor; de aceea, ne ateptm ca modelul
s aib i o eroare, care reprezint de fapt efectul altor variabile care au fost
omise din model.
Figura 1.1: Modelul grac al ipotezei cu privire la determinarea venitului.
VRST
EDUCAIE
EROARE
VENIT
SEX
VECHIME
Modelul matematic general folosit pentru regresie este o simpl ecuaie matematic de gradul I:
Y = + 1 X1 + 2 X2 + + k Xk +
(pstrnd notaia cu litere greceti pentru parametri)

sau mai simplu:
y = a + b1 x1 + b2 x2 + + bk xk + e
(folosind notaiile pentru estimatorii calculai n eantion)

Aceasta este ecuaia de baz a regresiei, pe care o vom discuta pe parcursul
urmtoarelor dou capitole. Ea mai este denumit i model de regresie. Termenul
este numit termen liber, termenii
regresie iar termenul
b1...k
sunt numii coecieni de
este numit eroare.
Variabila dependent trebuie s e ntotdeauna o variabil metric (n consecin, msurat la nivel interval ori raport). Variabilele independente pot att
metrice, ct i variabile ctive (denumite dummy, variabile binare codicate
sau
1;
explicaii pe larg la capitolul de regresie multipl).
IMPORTANT!
O prim observaie pe care o putem face n acest moment este c termenul
, termenul b este un estimator al

iar termenul e este un estimator al parametrului . Calcularea
a, b i e se face ntotdeauna pe baza datelor dintr-un eantion.
este un estimator al parametrului
parametrului
coecienilor
1.1 Prezentare general
Termenii din ecuaia de regresie au urmtoarea semnicaie (ei vor explicai

mult mai larg n cele ce vor urma):
Termenul liber este valoarea pe care o ia variabila dependent, atunci cnd

efectul variabilelor independente este egal cu zero.
Coecientul de regresie este constanta (sau coecientul) cu care se nmulete variabila independent pentru a genera un efect asupra variabilei
dependente.
Eroarea este efectul total (efectul tuturor fenomenelor care acioneaz asupra variabilei dependente) minus efectul variabilelor independente (cu alte
cuvinte, partea din efectul total pe care variabilele independente nu o
explic). Aceast eroare are dou componente care se nsumeaz:
a) o component n care intr efectele altor variabile care au o inuen semnicativ asupra dependentei, care nu au fost specicate n
ecuaia de regresie i
b) o component de efect haotic, generat de natura absolut imprevizibil a fenomenelor n general i a comportamentelor umane n
particular (oamenii nu vor aciona niciodat cu toii dup acelai
tipar).
O concluzie la care putem ajunge, citind componena erorii, este urmtoarea:

dac modelul de regresie include variabile independente cu un efect mic asupra
dependentei, eroarea va mare. Dac modelul nostru ia n calcul (n varianta
fericit) toate variabilele care inueneaz variabila dependent, atunci eroarea
va foarte mic, ns niciodat egal cu zero, datorit componentei haotice.
Astfel, eroarea variaz de la un minim la un maxim, astfel nct putem spune
fr s greim c eroarea se comport ca o veritabil variabil.
n exemplul nostru, ecuaia s-ar scrie aa:
VENIT =
b1 VRST
b2 EDUCAIE
b3 SEX
b4 VECHIME
Putem s avem una sau mai multe variabile independente.
Atunci cnd n
ecuaia de regresie avem o singur variabil independent, regresia se numete

simpl. (Exemplu: analizm ipoteza conform creia venitul unei persoane este
inuenat doar de educaia acesteia).
Cnd dimpotriv, avem dou sau mai
multe variabile independente, regresia se numete multipl.

Cea mai important funcie a analizei de regresie este cea de predicie.
Cu
ajutorul regresiei, putem prezice valoarea pe care o ia variabila dependent,

prin simpla manipulare a valorilor variabilelor independente.
n acest capitol ne vom ocupa de studiul relaiei dintre dou variabile. Atunci
cnd analiza noastr se rezum la dou variabile (una dependent, una independent), regresia se numete simpl (sau bivariat). Dei acest capitol se refer
doar la regresia liniar, aceasta nu nseamn c este singurul tip de regresie
posibil. Exist i alte tipuri de regresie, care urmresc diferite tipuri de relaii
ne-liniare ntre dou variabile.
1.2 Funcii liniare

nelegerea corect a ecuaiei de regresie const n nelegerea relaiei dintre
conceptul de liniaritate i ecuaia de gradul I. De aceea, funciile liniare sunt un
prim pas n ecuaia de regresie.
funcie
Termenul de
trebuie interpretat astfel: dac o valoare a unei variabile
x,
depinde de valoarea unei alte variabile

lui
exist o singur valoare a lui
astfel nct pentru o anume valoare a
atunci spunem c
x:
este funcie de
y = f (x)
Un exemplu de astfel de funcie este
cu o unitate,
valorii lui
y = 1, 5x (Figura 1.2). Cnd x crete

y se obine prin nmulirea
crete de 1,5 ori. Aici, valoarea lui
cu o constant egal cu 1,5.
Figura 1.2: Gracul funciei
= 1,5x

1.0
1.5
2.0
2.5
3.0
-0.5
-2.0
-1.5
-1.0
2.5
2.0
1.5
0.0
-3.0
0.5
-2.5
1.0
0.5
0.0
3.0
0.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
y = bx, unde b este

y /x.
Cea mai simpl expresie a unei funcii liniare este expresia:
o constant. Putem calcula aceast constant, care este egal cu
Gracul acestei expresii va arta ntotdeauna o linie dreapt care va trece ntotdeauna prin punctul de origine.
1.3 Panta (nclinarea) dreptei

Dac
y = 2x,
de ecare dat cnd
crete cu o unitate,
unitate este dat de acelai raport

numete i
panta dreptei.
coecientului
b,
va crete cu dou
x cu o
y /x (n cazul acesta egal cu 2); aceasta se mai
uniti. Cantitatea cu care se schimb
pentru ecare schimbare a lui
Cu alte cuvinte, panta dreptei este dat de valoarea
pentru orice pereche de puncte pe axele
Nu toate funciile liniare trec prin punctul de origine.
0x
i pe
0y .
Figura 1.4 prezint dou
funcii care au aceeai pant, ns doar una din ele trece prin punctul de origine.
Funcia
y = 1, 5 + 0, 5x intersecteaz axa 0y n punctul 1, 5;

0y n punctul de origine (0, 0).
intersecteaz axa
funcia
y = 0, 5x
1.3 Panta (nclinarea) dreptei
2.5
3.0
Figura 1.4: Compararea a dou funcii liniare.
1.0
1.5
2.0
y = 1,5 + 0,5 x
0.0
0.5
y = 0,5 x
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Orice funcie de acest tip poate scris la modul general
y = a + bx,
unde
sunt constante.
Constanta
b, am vzut mai devreme, determin panta dreptei (ne arat cu ct

y atunci cnd x se schimb cu o unitate). Deoarece constanta a
punctul n care dreapta intersecteaz axa 0y , va denumit termen
se schimb
determin
liber.
n
Figura 1.2 i Figura 1.4, toate dreptele sunt orientate n sus; aceasta
nseamn c orice cretere cu o unitate a lui

constant
a lui
y.
este nsoit de o cretere cu o
Funciile de acest tip sunt denumite funcii liniare cresc-
toare. Panta dreptei este pozitiv.
Figura 1.3 arat o dreapt orientat n jos, astfel c orice cretere cu o unitate
a lui
x este nsoit de o scdere cu o constant b a lui y . Acest lucru se ntmpl

(y = 1x). Funciile de acest tip
din cauza semnului negativ al coecientului
se numesc i funcii liniare descresctoare. Panta dreptei este negativ.

Coecientul
poate lua, deci, valori pozitive i valori negative. Mai exist i o
a treia posibilitate, atunci cnd
= 0. S lum urmtorul exemplu:
y = 1 + 0x
1.0
0.5
0.0
1.5
2.0
2.5
3.0
0.0
0.5
1.0
1.5
X
2.0
2.5
3.0
x = 1 y = 1 + 01 = 1. Cnd x = 2 y = 1 + 02 = 1. Oricare ar
x, ntotdeauna y va egal cu 1. Orice schimbare a lui x nu va
produce nici un fel de schimbare a lui y . n acest caz, x i y nu au nici un fel
Cnd
valoarea lui
de legtur ntre ele i spunem c avem o pant zero.
1.4 Norul de puncte. Coecientul de corelaie.

Viaa social nu este aa de simpl ca o linie dreapt. Dac ar aa, am putea
s prezicem ntotdeauna i cu certitudine maxim schimbarea lui
de schimbarea lui
x.
n funcie
Avem spre exemplu urmtoarea ipotez: numrul de copii
minori este mare n familiile cu un numr mare de membri.
Cu ct numrul
total de membri n familie este mai mare, cu att numrul de copii minori este
mai mare.
Unele familii au mai muli copii minori, altele mai puini.
Numrul de copii
variaz n funcie de mrimea gospodriei.

Pentru exemplicare, vom utiliza baza de date a Barometrului de Opinie Public
(mai 2003), efectund un nor de puncte (scatterplot) ntre variabilele Total
membri n gospodrie i Numr copii ntre 0-14 ani (ultima variabil ind
construit n funcie de vrstele membrilor gospodriei).
Figura 1.6:
Scatterplot (nor de puncte) ntre variabilele Total membri n
9
8
1
Perechea x = 12 membri n gospodrie

cu y = 3 copii minori
Dintre care copii ntre 0 i 14 ani
gospodrie i Numr copii ntre 0-14 ani
10
11
12
13
14
Total membri n gospodrie
Norul de puncte nu este nimic altceva dect o modalitate de aare grac a

tuturor perechilor de valori ale celor dou variabile; spre exemplu, perechea 5
membri n gospodrie din care 4 copii minori se reprezint printr-un punct la
intersecia dintre valoarea 5 pe axa
0x
i valoarea 4 pe axa
0y .
Acelai lucru se
face pentru ecare pereche de valori existent n baza de date.

Exist familii cu 5 membri care nu au nici un copil minor, altele care au 1 copil
minor, de asemenea cu 2 i 3 copii minori. Exist deci o variaie pe axa vertical
pentru ecare valoare de pe axa orizontal.
Ecuaia care descrie o astfel de relaie se modic, de la:
y = a + bx
(1.1)
1.4 Norul de puncte. Coecientul de corelaie.
care este o funcie liniar i ceea ce numim un model determinist (ofer o relaie
exact ntre
y;
putem prezise cu certitudine maxim orice valoare a uneia
cunoscnd valoarea celeilalte), la:
y = a + bx + e
(1.2)
care este o ecuaie de regresie i ceea ce numim un model probabilist (ofer o

relaie probabil ntre
x i y ;
certitudinea prediciei este mai mare sau mai mic
n funcie de intensitatea relaiei dintre cele dou).

Distribuia datelor din
Figura 1.6 nu mai permite o predicie perfect, ca n
cazul funciilor liniare, ci una cu un grad mai mic sau mai mare de probabilitate.
Predicia pe axa
axa
0x,
0y
depinde foarte mult de gradul de variaie al valorilor de pe
i invers. Acest tip de predicie se bazeaz deci pe modul cum variaz
una din variabile concomitent cu variaia celeilalte.
Variaia comun a celor
dou variabile se numete covariaie iar aceasta are o msur care se numete
covarian (aa cum variana este o msur a variaiei).
Covariana poate uor calculat cu urmtoarea formul:
n
X
cov(x, y) =
(x x
)(y y)
i=1
(1.3)
n2
Cu privire la problema prediciei, ne confruntm cu dou situaii:
1.
ntr-o
pereche de variabile, una este cauza celeilalte, iar variaia comun este generat
de relaia cauz-efect; 2. exist variaie comun a celor dou variabile ns nici
una nu este cauza celeilalte. Un exemplu pentru al doilea caz este
Figura 1.7,
care prezint vrstele a 150 de cupluri cstorite, eantionate aleator din baza
de date a Barometrului de Opinie Public mai 2003. Norul de puncte descrie
o form eliptic, alungit, care aproximeaz o funcie cresctoare (valorile lui
cresc odat cu cele a lui
x).
70
60
50
40
10
20
30
Vrsta soiei
80
90
Figura 1.7: Scatterplot ntre Vrsta soului i Vrsta soiei
10
20
30
40
50
60
70
80
90
Vrsta soului
Mrimea numeric a covarianei nu are nici o semnicaie direct pentru persoana care analizeaz datele. Aceasta se ntmpl pentru c cele dou variabile
au, n general, uniti de msur diferite.
Pentru a elimina acest aspect ne-
plcut, se poate calcula un alt coecient, care utilizeaz ns valori standard
ale variabilelor (dup cum tim, standardizarea se face cu ajutorul scorurilor
z,
prin mprirea cu abaterea standard). O msur care descrie variaia comun

a dou variabile standardizate se numete corelaie.
n
X
cov(x, y)
=
=
sx sy
rxy
(xi x
)(yi y)
i=1
(1.4)
sx sy (n 2)
Deoarece avem dou variabile standardizate, am mprit la produsul abaterilor

standard ale celor dou variabile. Un alt mod de a scrie acelai lucru este:

n
X
xi x
yi y
rxy =
sx
sy
sy
n2
v n
uX
u
(xi x
)2
u
t
i=1
sx =
unde
sx
i=1
n1
iar
ind abaterile standard ale variabilelor
Observai mprirea la
sy =
x,
v n
uX
u
(yi y)2
u
t
i=1
n1
respectiv
y.
n 2, care se ntmpl pentru c pierdem dou grade de
libertate prin calcularea mediilor celor dou variabile. O proprietate important

a corelaiei este:
rxy = ryx
sau n cuvinte: corelaia dintre
este egal cu corelaia dintre
x.
Coecientul de corelaie ne arat ct de puternic (intens) este relaia dintre

dou variabile. Poate lua valori n intervalul [1, +1], unde o corelaie egal cu
0 ne spune c nu exist nici un fel de relaie ntre cele dou (Figura
corelaie de
+1 arat o relaie perfect n sens cresctor (cnd
crete cu o unitate standard, cealalt va crete tot cu o unitate, vezi

iar o corelaie de
1.5), o
una din variabile
Figura 1.2),
1 arat o relaie perfect n sens descresctor (cnd una crete
cu o unitate, cealalt scade cu o unitate, vezi
Figura 1.3).
IMPORTANT!
r (corelaia Bravais-Pearson) este un coecient de corelaie liniar. O valoare

aproape de zero a lui r nu nseamn neaprat c ntre dou variabile nu exist
(aproape) nici un fel de corelaie. Este posibil ca ntre cele dou s existe o
corelaie puternic, dar ne-liniar.
n practic, cele trei valori nu vor ntlnite niciodat, pentru c ele sunt
specice doar funciilor liniare, unde nu exist nici o variaie a lui
o anumit valoare a lui
lui
y.
i nici variaie a lui
Dup cum am vzut (vezi
pentru
pentru o anumit valoare a
Figura 1.6), n realitate situaiile variaz,
astfel c putem avea corelaii e foarte aproape de
1, e foarte aproape de 0.
Spre exemplu, o valoare a coecientului de corelaie de
+0, 97
indic o relaie
1.5 De la corelaie la regresie
cresctoare aproape perfect a dou variabile; la fel, o valoare de
0, 08
indic
aproape o lips de relaie ntre dou variabile.

Problema corelaiei este strns legat de problema prediciei; nelegerea uneia
presupune o nelegere a celeilalte. Un coecient de corelaie diferit de zero ne
spune c, dac tim ceva despre o variabil
x atunci tim ceva i despre variabila
i vice-versa.
Atenie ns: mrimea coecientului de corelaie
nu arat care variabil este
cauz i care este efect, n cazul n care exist o relaie de cauzalitate ntre cele
dou.
n exemplul de la
este cauza celeilalte.
Figura 1.7, nici una dintre cele dou variabile nu
Exist multiple alte perechi de variabile cu o relaie de
tip cauz-efect. Care dintre ele este considerat variabil dependent (variabila
efect) i care independent (variabila cauz) este o problem de interpretare
teoretic.
Oamenii de tiin sunt interesai de mult vreme de problema prediciei. Predicia se poate realiza atunci cnd avem informaii despre un fenomen. Studiul
corelaiei este un prim pas n acest sens. Dac ntre dou variabile nu exist
nici un fel de (co)relaie, nu putem prezice absolut nimic despre valoarea uneia
folosind o valoarea a celeilalte. Dac dimpotriv, ntre cele dou variabile exist
o corelaie, putem prezice cu o precizie mai mic sau mai mare valoarea uneia
folosind-o pe cealalt. n cazul unei corelaii aproape de maxim (+1 sau
1)
atunci putem face o predicie cu un grad nalt de precizie.

Atunci cnd modelul teoretic arat care variabil este cauz i care este efect,
predicia trece la un nou nivel, de la corelaie la regresie.
1.5 De la corelaie la regresie

Ecuaia unei regresii liniare simple este, dup cum am vzut la ecuaia (1.2):
y = a + bx + e
unde
este variabila dependent,
liber (pe axa
0y ), b
x este variabila independent, a este termenul

e este eroarea.
este panta dreptei, iar
S relum ipoteza cu privire la determinarea venitului; deoarece n regresia

liniar simpl avem doar o singur variabil independent, ipoteza noastr se
reduce la VENIT depinde de VRST.
Este clar c nu toi oamenii au acelai venit. Oamenii mai n vrst au n general
un venit mai mare dect al celor mai tineri; chiar n cazul oamenilor de aceeai
vrst se pot constata diferene.
Ecuaia de regresia n acest caz arat astfel:
VENIT
= a + b1 VRST + e
unde factorul eroare este responsabil de variaia venitului pentru persoane cu

aceeai vrst (dac nu ar exista acest factor, relaia dintre cele dou variabile
ar perfect liniar; nc nu tim de ce oameni de aceeai vrst au venituri
diferite, pot exista i alte cauze pe care noi nu le-am inclus nc n model).
10
IMPORTANT!
O alt observaie pe care o putem face n acest moment este c regresia liniar
simpl se poate utiliza dac i numai dac norul de puncte aproximeaz o
form liniar. Dac norul de puncte aproximeaz o form ne-liniar, se aplic
alte tipuri de regresie. Aceasta este prima dintr-un ir de asumpii / condiii
ale acestui tip de analiz, pe care le vom discuta n detaliu mai trziu.
Dei norul de puncte se supune ecuaiei de mai sus, n practic noi nu cunoatem
niciodat mrimea numeric a erorii; putem doar s estimm ct de mare este
efectul acesteia asupra variabilei dependente. ntrebarea natural care decurge
Cum reuim s prezicem valoarea lui y , folosind ecuaia de regresie, dac nu cunoatem mrimea erorii?
este:
Rspunsul este simplu; vom prezice valoarea lui
folosind modelul determinist:
y = a + bx
unde notm cu
y valoarea
(1.5)
prezis.
Realitatea este descris de modelul probabilist, iar predicia noastr despre

realitate va utiliza modelul determinist.
Sigur c, deoarece modelele nu sunt
echivalente, predicia noastr va n toate cazurile eronat.
Nici nu putem
avea pretenia ca predicia noastr s e perfect n ecare caz; tot ceea ce

ne rmne de fcut este s ne asigurm c predicia va ct mai aproape de
realitate.
Dup cum am vzut,
Ecuaia 1.1 (ca i Ecuaia 1.5 de altfel) descrie o linie.
Aceasta nseamn c, ntotdeauna, valoarea prezis va gsit de-a lungul unei

linii care merge n direcia norului de puncte.
S lum urmtorul exemplu ipotetic care prezint situaia veniturilor i cheltuielilor (n milioane lei) a 10 gospodrii, pentru o lun oarecare (Tabelul
1.1).
Tabelul 1.1: Situaia veniturilor i cheltuielilor a 10 gospodrii (milioane lei)

Venituri
Cheltuieli
2,7
1,3
1,7
3,7
2,7
1,8
1,2
4,6
3,8
10
1,7
1,3
Unele gospodrii cheltuiesc mai puin dect au ctigat, altele mai mult (folosind
economii). Toate perechile de puncte sunt prezentate n
Figura 1.8, unde pot
vzute mai multe drepte de regresie posibile n acelai timp
1.6 Metoda celor mai mici ptrate
11
ntrebarea reasc este:
Care dreapt aproximeaz cel mai bine norul de puncte?

Cu alte cuvinte, cum putem s tim care sunt valorile lui
(termenul liber) i
(panta) ce denesc dreapta care aproximeaz cel mai bine norul?
3
2
0
Cheltuieli
Figura 1.8: Drepte posibile care aproximeaz norul de puncte
Venituri

Valorile cheltuielilor (de pe axa
0y )
sunt valorile pe care le-am nregistrat n
decursul unei cercetri. Ele se numesc valori observate (i se noteaz simplu cu
y ).
Valorile pe care le prezicem cu ajutorul modelului (1.5) se numesc valori
prezise (notate cu
y).
Acestea se mai numesc i valori ateptate sau teoretice
(ateptate n ipoteza unei relaii liniare ntre variabile).

Spuneam mai devreme c nici o predicie nu este perfect. n eantionul nostru,
gospodria cu un venit de 2 milioane lei are cheltuieli de 2,7 milioane.
Val-
oarea prezis de noi nu va egal cu valoarea observat n eantion. Diferena

dintre valoarea prezis i valoarea observat se numete eroare.
Figura 1.9
prezint distanele de la ecare punct (perechea de valori observate n eantion)

la o dreapt care trece prin norul de puncte. Distanele sunt liniile de culoare
albastr.
Ceea ce se observ imediat este c unele valori observate sunt mai mari dect
cele prezise iar diferenele sunt numere pozitive (liniile sunt deasupra dreptei)
iar alte valori observate sunt mai mici dect valorile prezise iar diferenele sunt
numere negative (liniile de sub dreapt).
Cu alte cuvinte, dreapta care aproximeaz cel mai bune norul de puncte este
aceea n funcie de care distanele puncte la dreapt s e cele mai mici posibile.
Pentru a exprima acest lucru ntr-un singur numr, nu putem aduna pur i
simplu erorile, pentru c unele au semn negativ iar altele au semn pozitiv; prin
adunare ele se elimin reciproc iar suma acestora este ntotdeauna egal cu zero:
12
3
2
0
Cheltuieli
Figura 1.9: Distanele de la valorile observate la dreapta de regresie
Venituri
Cea mai bun predicie este cea care d cele mai mici erori.
n
X
ei =
i=1
n
X
(yi y) = 0
(1.6)
i=1
Nici adunarea diferenelor absolute (n modul) ntre valorile observate i prezise

nu este cea mai bun soluie, pentru c nu accentueaz erorile mari. Este de
preferat o dreapt de regresie care s aib erori mici, dect o dreapt care s
aib unele erori foarte mici i altele foarte mari. Ridicarea la ptrat penalizeaz
o dreapt care are erori foarte mari, chiar dac cele mai multe dintre erori sunt
foarte mici. Dac ne uitm peste
Figura 1.9, am putea s credem c o coborre
a dreptei n jos ar micora suma erorilor pentru c cele mai multe din valorile
observate se a sub dreapt. n modul, o coborre a dreptei ar micora suma
erorilor (comparativ cu dreapta prezentat), ns erorile de deasupra dreptei ar
mai mari. Acest lucru slbete predicia; de aceea este preferat ridicarea la
ptrat a erorilor nainte de a le aduna.
S ne reamintim ns de formula varianei, care elimina efectul semnelor negative
i pozitive prin ridicarea la ptrat a distanelor de la valoare la medie.
Vom
aplica acelai principiu i n cazul regresiei: ridicm la ptrat toate aceste erori
(distane) i le adunm, iar suma acestora trebuie s e un numr minim.
n
X
i=1
e2i =
n
X
(yi y)2
(1.7)
i=1
Cea mai bun dreapt de regresie este aceea pentru care

suma ptratelor erorilor este cel mai mic numr posibil
(are o valoare minim).
Exist o rezolvare matematic pentru acest gen de problem, care nu face parte
ns din obiectul acestui cri. Mai jos sunt prezentate formulele pentru calcularea coecienilor
b,
rezultate din acea rezolvare:
n
P
b=
13
(xi x
)(yi y)
i=1
n
P
(1.8)
(xi x
)2
i=1
a = y b
x
(1.9)
Acestea nu sunt singurele formule de calcul a coecienilor. Mai exist i alte

formule, derivate unele din celelalte. Spre exemplu, o formul mai simpl a lui
b,
bazat pe cunoaterea coecientului de corelaie, este:
b = rxy
sy
sx
(1.10)
IMPORTANT!
Coecientul de regresie
nu este acelai lucru cu coecientul de corelaie!
Ambii indic o pant cresctoare sau descresctoare (au acelai semn), ns

ei nu trebuie confundai.
Coecientul de corelaie indic o msur sime-
tric a intensitii relaiei dintre dou variabile; indiferent care variabil ar

considerat dependent, coecientul de corelaie are exact aceeai valoare.
Coecientul de regresie
alt valoare dac
are o anumit valoare cnd
este dependent i o
ar variabil dependent.
Din ecuaia (1.10) se poate extrage coecientul de corelaie:
rxy = b
sx
sy
Dac am standardiza variabilele, abaterile standard

deveni egale cu 1 iar:
de unde reiese concluzia:
sx
sy
ale acestora ar
rxy = b
coecientul de corelaie este un coecient de
regresie standardizat.
n practic, nimeni nu mai calculeaz valorile coecienilor
n acest fel.
Apariia calculatoarelor personale cu o putere de calcul extrem de mare a automatizat obinerea acestor cifre, astfel c pot obinute ntr-o fraciune de
secund prin selectarea unei comenzi ntr-un program statistic cum este SPSS.
Totui, dei calculele se fac automat, cunoaterea formulelor de baz este necesar pentru a nelege logica metodei i condiiile ei de aplicare.
n cazul nostru,
= 0,89 i
= 0,47 iar ecuaia de regresie devine:
y = 0, 89 + 0, 47 x
Pentru ecare gospodrie, valoarea real (observat) este obinut cu ecuaia 1.2:
y = a + bx + e
14
De exemplu, pentru prima gospodrie:
2, 7 = 0, 89 + 0, 47 2 + 0, 9
Tabelul 1.2 prezint cheltuielile prezise cu ajutorul ecuaiei de regresie, diferenele (pe coloana a 5a) dintre valorile observate (coloana a 3a) i valorile prezise
(coloana a 4a) precum i ptratele acestor diferene. Toate cifrele sunt prezentate cu rotunjire la o singur zecimal; eventualele neconcordane cu privire la
nsumri sunt datorate acestei rotunjiri. Coloana a 5a reprezint deci variaia
erorilor n jurul dreptei de regresie; este deci o variabil n sine.
Tabelul 1.2: Obinerea sumei ptratelor erorilor (abaterilor de la dreapta de

regresie)
Numr
Venituri
gospodrie
Cheltuieli
Cheltuieli
observate
prezise
(eroarea)
col.3col4
e2
e 1 = +0,9
e 2 = +0,2
e 3 = +0,4
e 4 = 0,2
e 5 = 0,4
e 6 = 0,3
e 7 = 0,2
e 8 = 0,8
e 9 = +0,8
e 10 = 0,4
10
P
ei = 0
0,8
(milioane lei)
1
2,7
1,8
1,3
1,7
1,5
3,7
2,6
3,2
2,7
1,8
2,2
2,3
1,2
1,4
2,8
4,6
3,8
10
1,7
1,3
1,7
i=1
0,0
0,1
0,1
0,1
0,1
0,0
0,6
0,6
0,2
10
P
i=1
e2i = 2, 5
Figura 1.10: Diferena dintre valoarea observat i cea prezis a cheltuielilor
primei gospodrii (milioane lei)
3
2
Eroarea e1 = y1 - ^
y1 = 2,7 - 1,8 = 0,9
Cheltuieli
Valoarea observat y1 = 2,7

pentru x1 = 2
Valoarea prezis ^
y1 = 1,8
pentru x1 = 2
0
Venituri
Valoarea termenului liber pune toat teoria noastr de pn acum ntr-o situaie
dicil. Termenul liber este valoarea lui
15
atunci cnd
= 0. Cu alte cuvinte,
atunci cnd o gospodrie nu are nici un venit (0 lei), cheltuiete n medie 890.000
lei. Cum este posibil acest lucru?
Rspunsul este simplu: valoarea coecienilor
a i b a fost obinut prin aplicarea
matematic a unei formule, pentru aproximarea ct mai exact a norului de

puncte. Valoarea de 0,89 nu reprezint propriu-zis o predicie, pentru simplul
motiv c nu avem date pentru gospodriile cu venit egal cu zero: se observ c
venitul cel mai mic este situat la 1 milion de lei. O predicie pentru gospodriile
care nu au nici un venit ar nsemna ca noi s ne hazardm n afara datelor pe
care le avem i s facem predicii fr nici o baz (de date). Ar trebui s facem o
cercetare special asupra acestor gospodrii pentru a aduna date. ntmpltor,
valoarea lui
este pozitiv, ns rezolvarea ecuaiei ar putut s indice la fel
de bine o valoare negativ, ceea ar un non-sens: gospodriile cheltuiesc n

minus!?!
Valoarea termenului liber, deci, nu poate privit dect ca pe un
punct de pornire n funcie de care trasm dreapta de regresie, i nimic mai

mult.
Nu se pot realiza predicii doar pe baza acestuia; de cealalt parte a
gracului, norul de puncte se oprete la valoarea de 5 milioane. Nu putem face

predicii pentru valori ale lui
Dac
mai mari dect aceast limit.
ar axa timpului (n care valorile din stnga axei s nsemne trecutul,
cele din mijloc prezentul iar cele din dreapta viitorul), am putea noi s facem
predicii cu privire la viitor?
IMPORTANT!
Nici o predicie nu poate fcut pentru valori n afara norului de puncte.
Exemplul nostru prezint intenionat doar 10 cazuri, pentru simplicarea norului de puncte. De obicei ns, eantionul prezint sute sau chiar mii de cazuri.
Mai mult, dac am avea date despre toate gospodriile (date despre populaia de
gospodrii), pentru un venit de 2 milioane de lei ar exista foarte multe gospodri
pe axa cheltuielilor, 0y . Acesta este un fapt important pentru nelegerea celei
de-a patra, a asea i aptea asumpii prezentate la sfritul acestui capitol.
IMPORTANT!
Interpretarea n cuvinte a coecientului de regresie
b reprezint schimbarea n medie a lui
unitate a lui
este urmtoarea:
generat de schimbarea cu o
x
Nu toate valorile lui
se modic la fel; unele se schimb mai mult, altele
mai puin, unele n sens pozitiv iar altele n sens negativ.
Media tuturor
acestor schimbri este chiar punctul de pe dreapta de regresie, a crei pant

este generat de valoarea lui
b.
16
1.7 Coecientul de determinaie simpl: r2

Atunci cnd testm un anumit model de regresie, ne ntrebm ct de bun este
acel model, n ce msur reect el realitatea. Calcularea coecienilor
este important pentru predicie, ns cum putem ti ct de mult inueneaz

variabila independent pe cea dependent? Un model este valid dac ia n considerare toate variabilele independente care inueneaz n realitate o dependent. n regresia simpl analizm relaia cu o singur variabil independent;
ct de mult din variaia dependentei este explicat de variaia independentei?
Ne reamintim c o msur a variaiei este variana, care calcula suma ptratelor
abaterilor individuale de la medie. n absena oricrei informaii despre posibile
variabile independente care cauzeaz variaia dependentei, singurul punct x,
de reper al dependentei este chiar media acesteia. Toate valorile observate au o
abatere fa de medie.
Figura 1.11 prezint valorile variabilei Cheltuieli pe axa 0y , n partea stng

toate pe o singur linie (n msura n care nu avem nici un fel de informaie
despre vreo variabil independent, pe axa 0x). Valorile variabilei sunt punctele
de culoare roie, iar media (valoarea 2,25) este punctul de culoare neagr n
dreptul cruia trece o linie de culoare roie.
Segmentele de culoare albastr
prezint abaterile valorilor de la media variabilei, un fel de erori de la unica

predicie egal cu media (n absena oricror alte informaii, cea mai bun
predicie a cheltuielilor este, aa cum am artat, chiar media lor).
Figura 1.11: Variaia valorilor variabilei Cheltuieli n jurul mediei acesteia:

b. n prezena variabilei
independente
independente
a. n absena variabilei
3.8
2
1.8
1.7
Cheltuieli
2
2.25
3
2.7
1.3
1.2
Venituri
Suma ptratelor acestor abateri este
cantitatea total de variaie pe care
trebuie s o explicm cu ajutorul unui model teoretic (a nu se confunda cu
variana, care este o medie a ptratelor abaterilor).

Predicia cu ajutorul dreptei de regresie are acum dou tipuri de erori:
- o eroare de la dreapta de regresie la media variabilei: poriunea din abatere
1.7 Coecientul de determinaie simpl:
r2
17
total a valorii observate de la medie, explicat de predicie

- o eroare de la dreapta de regresie la valoarea observat:
poriunea de
abatere de la medie rmas neexplicat

Putem lua ca exemplu cea de a 9-a gospodrie (Figura
1.12), care are cea mai
mare abatere de la medie.

Figura 1.12: Abaterea total, abaterea explicat i abaterea neexplicat a chel-
tuielilor celei de a 9-a gospodrii
Abaterea total a valorii observate

y9 de la media y: (y9 - y)
Abaterea explicat a valorii

^
observate y9 de la media y: (y
- y)
Cheltuieli
Abaterea rmas neexplicat a valorii

observate y9 de la media y: (y9 - ^
y)
Venituri
Dac am luat ca predicie media cheltuielilor pentru a estima valoarea observat a cheltuielilor de 3,8 milioane lei, atunci deviaia total a acestei valori fa
de media ei este (y9
y).
Estimarea acestei valori cu ajutorul dreptei de regre-
sie este mult mai bun (valoarea prezis se apropie mai mult de cea observat).
Totui, valoarea prezis explic doar poriunea (y
poriunea rmas (y9
y)
y)
din deviaia total, iar
rmne neexplicat.
Extrapolnd la cheltuielile tuturor gospodriilor unui eantion de mrime
n,
avem o cantitate total de variaie (sau o variaie total) egal cu suma ptratelor deviaiilor valorilor observate de la medie:
n
X
(yi y)2
i=1
Poriunea explicat din aceast variaie total a dependentei este:
n
X
(
yi y)2
i=1
Iar poriunea rmas neexplicat din variaia total a dependentei este:
n
X
i=1
(yi yi )2
18
Proporia de variaie explicat, ca procent din variaia total este numit coecient de determinaie:
n
P
r2 =
i=1
n
P
(
yi y)2
0 r2 1
(yi
(1.11)
y)2
i=1
Practic, coecientul de determinaie reprezint proporia de variaie a dependentei explicat de modelul de regresie. Este ntotdeauna mai mare sau egal cu
zero (toate valorile sunt pozitive prin ridicarea la ptrat), i ntotdeauna mai
mic sau cel mult egal cu 1 atunci cnd variaia explicat este egal cu variaia
total (modelul explic perfect, n proporie de 100%, variaia dependentei).
Spre exemplu, o valoare a lui
r2
de 0,24 nseamn c variabila independent
explic 24% din variaia dependentei.

Cu ct valoarea lui
r2
este mai aproape de 1, cu att modelul teoretic va
mai bun; cu ct este mai aproape de zero, nseamn c modelul nu reuete s

surprind ceea ce se ntmpl n realitate.
ntre coecientul de determinaie i coecientul de corelaie este o legtur
strns, ind posibil calcularea unuia pe baza celuilalt:
r=
Atenie ns: o valoare mare a lui
r2 .
Spre exemplu, atunci cnd
r2
nu nseamn o valoare la fel de mare a lui
= 0,7 (o valoare destul de mare),
r2
= 0,49.
n cuvinte, atunci cnd dou variabile coreleaz mpreun cu o valoare de 0,7

ecare ar putea explica doar 49% din variaia celeilalte.
Atunci cnd se calculeaz ntr-o ecuaie de regresie simpl, coecientul se numete de determinaie simpl i se noteaz cu
r2 ;
n regresia multipl el se
numete coecient de determinaie multipl i se noteaz cu
R2 .
1.8 Inferena statistic pe baza coecienilor de

regresie. Eroarea standard a coecienilor de
regresie.
S ne reamintim acum c valorile din acest tabel reprezint un eantion (aleator)
extras din populaia tuturor gospodriilor. De aceea, o valoare a cheltuielilor
n populaie o notm cu litera mare
o notm cu litera mic
Y,
iar o valoare a cheltuielilor n eantion
y.
IMPORTANT!
Predicia nu este acelai lucru cu inferena!
Predicia se refer la valoarea unei variabile cunoscnd valoarea celeilalte, iar
inferena se refer la estimarea parametrului din populaie pe baza statisticii
din eantion.

19
Dac am avea un tabel al veniturilor i cheltuielilor ntregii populaii de gospodrii, am putea s facem un nor de puncte al tuturor acestor perechi i n funcie
de acest nor s calculm o dreapt de regresie. Exist, aadar, o
singur dreapt
de regresie adevrat, n populaie, aa cum exist cte o dreapt de regresie

pentru ecare eantion aleator posibil. Deoarece exist o innitate de eantioane
posibile, exist deci i o innitate de drepte de regresie posibile n eantion. De
aceea, coecienii
(folosii pentru predicia pe baza datelor din eantion)
fac o inferen asupra coecienilor
din populaie.
Fiecare dreapt de
regresie n eantion face o inferen asupra dreptei de regresie din populaie.

S ne reamintim c eroarea standard este abaterea standard a distribuiei de
eantionare a estimatorului, care ne ofer un interval n care estimm c se
a parametrul din populaie, la un anumit nivel de ncredere.
plu, eroarea standard a coecientului
parametrului
Spre exem-
ne va da o estimare interval asupra
Rezultatul prezentat de calculator va cuprinde obligatoriu valoarea coecienilor
a i b, dar i eroarea standard a acestora.
Eroarea Standard a acestor coecieni
este necesar n dou direcii:
1. Pentru a testa pe loc dac aceti coecieni pot sau nu s e considerai

utili.
Este vorba de un simplu test
t:
se testeaz dac sunt sau nu diferii de
zero; n funcie de mrimea valorii
p calculat, vom respinge sau nu ipoteza
de nul.
Exemplul pe care l vom lua n considerare aici este unul intenionat greit,
care va demonstra ns ceva foarte important. S ne relum exemplul cu
corelaia dintre vrsta soilor i cea a soiilor: am putea face ipoteza c
vrsta soiei este inuenat de cea a soului.
Introducem aceste vari-
abile ntr-o ecuaie de regresie liniar simpl, care produce urmtoarele

rezultate:
Valoare
Eroare Standard
(Termenul liber)
4,5103
1,5780
2,858
0,00487**
0,9263
0,0305
30,368
(Vrsta so)
Steluele din dreptul valorilor lui
<
2e-16***
au urmtoarea semnicaie:
semnicativ la pragul de 5%
( = 0,05)
**
( = 0,01)
***
( = 0,001)
p<
p<
p<
0,05
0,01
0,001
2e-16 nseamn 0,0000000000000002

Testm dac termenul liber este semnicativ diferit de zero. Ipoteza de
nul: populaia din care provine eantionul nostru are un termen liber egal
cu zero. Ipoteza alternativ: populaia din care provine eantionul nostru
are un termen liber diferit de zero.
H0
=0
A : 6= 0
20
IMPORTANT!
A nu se confunda acest
, din ipoteza de nul (care este corespondentul

a) cu pragul de semnicaie .
n populaie a termenului liber
Dei au aceeai notaie, se refer la dou lucruri total diferite!!
Valoarea lui
este calculat simplu cu binecunoscuta formul:
t=
a 0
4, 5103 0
4, 5103
=
=
= 2, 858
E.S.
1, 5780
1, 5780
Se observ imediat c valoarea lui
t se poate calcula direct prin mprirea
valorii termenului liber la eroarea lui standard (deoarece valoarea cu care

se compar este zero). Important nu este valoarea lui
p asociat:
ci probabilitatea
0,00487 (care este probabilitatea de a grei respingnd ipoteza
de nul eroarea de tipul I). Aceast probabilitate este foarte mic, mult
sub orice prag de semnicaie rezonabil, cu att mai mult sub clasicul prag
de 5%. n consecin, respingem ipoteza de nul: termenul liber este semnicativ diferit de zero. La fel se ntmpl i n cazul lui
b.
Probabilitatea
de a grei respingnd ipoteza de nul n cazul acestuia este extrem de mic

(mai mic dect 0 urmat de nc alte 15 zerouri dup virgul).
Dup cum se vede, toi coecienii sunt semnicativi, valoarea lui
r2
este
de 86,17%; am putea s concluzionm c este un model extrem de bun.

Din pcate, modelul a plecat de la o ipotez vdit eronat: vrsta soiei
nu poate cauzat de vrsta soului, ci ambele sunt inuenate de trecerea timpului. Calculatorul nu a penalizat aceast greeal, ci a calculat
coecienii ca i cum modelul ar unul bun.
IMPORTANT!
Ecuaia de regresie nu poate n nici un caz s stabileasc o relaie de
cauzalitate.
Ecuaia este doar un model matematic care ne ajut s testm un
model teoretic, ns stabilirea modelului este sarcina analistului, nu a
calculatorului.
Rezultatele din tabelul ANOVA al ecuaiei de regresie sunt echivalente cu

cele din testul
t de mai sus.
Fiecare valoare a lui
x este interpretat ca un
grup i se testeaz dac panta dreptei de regresie este egal cu zero prin
compararea mediilor acestor grupuri. Dac mediile tuturor grupurilor nu
sunt semnicativ diferite ntre ele atunci dreapta de regresie are o pant
egal cu zero. Dac cel puin dou grupuri au medii diferite, atunci panta
va diferit de zero.
Suma
ntre grupuri
gl
Ptratelor
Variana
24987,5
24987,5
922,2
27,1
n interiorul grupurilor
148
4010,1
Total
149
28997,6
p
<2,2e-16

Dup cum se poate vedea, valoarea lui
21
corespunztoare coecientului
este virtual aceeai (o diferen extrem de mic se manifest dup cea
de a 16-a zecimal).
Variana dintre grupuri este variana explicat de
modelul de regresie, iar cea din interiorul grupurilor este variana rmas
neexplicat (ea mai este denumit i varian rezidual). Valoarea lui
este raportul dintre variana explicat de modelul de regresie (n englez

Regression Mean Squares) i variana neexplicat de model (n englez
Residual Mean Squares sau Error Mean Squares)
2. Pentru a face o inferen asupra parametrilor din populaie.
Valorile lui
sunt estimri punctuale ale parametrilor
Dup cum tim ns, exist i o estimare interval bazat pe calcului erorii
standard, la un anumit nivel de ncredere.
tim deja c la un nivel de
ncredere de 95%, parametrul din populaie se a ntre
1,96E.S.
jurul statisticii din eantion.

n cazul nostru, valoarea termenului liber
din populaie se a n inter-
valul:
[4, 5103 1, 961, 5780 , 4, 5103 1, 961, 5780]

n cazul coecientului de regresie din populaie
[0, 9263 1, 960, 0305 , 0, 9263 1, 960, 0305]
adic
[1, 42 , 7, 60]
intervalul este:
adic
[0, 87 , 0, 99]
Pe baza acestor estimri de tip interval, am aat aadar c termenul liber
al dreptei de regresie din populaie poate oriunde ntre 1,42 i 7,60 iar
panta (nclinarea) dreptei de regresie din populaie este dat de o valoare a
lui
ntre 0,87 i 0,99. Rezultatul va o band n jurul dreptei de regresie
din eantion, unde estimm c se a dreapta de regresie din populaie.

Ca exemplu, vom utiliza n
Figura 1.13 un eantion de vrste a 30 de cu-
pluri cstorite, extrase n mod aleator din Barometrul de Opinie Public

mai 2003.
Figura 1.13: Dreapta de regresie din eantion i intervalul estimat n care se a
65
55
45
35
25
15
Vrsta soiei
75
85
dreapta de regresie din populaie, la un nivel de ncredere de 95%
15
25
35
45
55
65
Vrsta soului
75
85
22
n cazul unui eantion de mrime relativ mic, cum este acesta, banda de
estimare este destul de deprtat de dreapta de regresie. Cu ct volumul
eantionului se mrete, banda va din ce n ce mai apropiat de dreapt,
la eantioane mari ind aproape lipit de aceasta. Explicaia este destul de
simpl ntruct mrirea eantionului determin o scdere a erorii standard,
care ngusteaz intervalul de estimare. Se observ c banda este ngustat
la mijloc; este normal s e aa ntruct acolo se a mediile celor dou
variabile, cele mai stabile puncte de predicie i inferen.
Ca o explicaie intuitiv, banda de estimare este obinut cu ajutorul unui
balansoar xat la mijloc pe mediile celor dou variabile; capetele benzii
sunt mai largi din cauza micrii n sus i n jos a balansoarului.
1.9 Asumpiile regresiei

Regresia liniar este o tehnic statistic care ofer rezultate corecte dac i
numai dac sunt vericate anumite asumpii (sau condiii de aplicare). Pentru
ecare asumpie exist una sau mai multe metode de vericare a ndeplinirii
ignor vericarea acestor asumpii:

greeal grav, pentru c rezultatele obinute (coecienii de
acestora. n cele mai multe cazuri, analistul

aceasta este o
regresie, coecientul de corelaie precum i cel de determinaie) pot lua valori

destul de diferite de ceea ce exist n realitate dac analiza de regresie este
efectuat prin nclcarea acestor asumpii.
n general, regresia este destul de
robust la nclcarea unor asumpii, ns vericarea acestora este totui o etap

foarte important n analiz.
IMPORTANT!
Toate asumpiile se refer la variabilele n populaie.
ASUMPII GENERALE:
1.
Variabilele au un nivel de msurare metric.

Dup cum vom vedea la regresia multipl, putem introduce n ecuaia de
regresie i variabile calitative, prin transformarea categoriilor acestora n
variabile dummy.
2.
S nu avem eroare de msurare.

Erori de msurare la nivel de variabil apar e atunci cnd respondenii nu
ofer rspunsurile adevrate, e cnd operatorii de teren nu nregistreaz
datele n mod corect ori cnd operatorii de calculator nu introduc datele
aa cum au fost nregistrate. Dei este destul de dicil s eliminm toate
aceste probleme, o bun coordonare a cercetrii prin vericri la toate
etapele poate s duc la o reducere substanial a erorilor de acest tip.
3.
Liniaritatea.
Este o prim asumpie care a fost deja specicat n acest capitol; se
refer la forma liniar a norului de puncte.
examinarea vizual a norului de puncte.
Liniaritatea se veric prin
23
Dac forma acestuia nu este liniar, pot exista dou situaii:

(a) norul de puncte este non-monoton (scade, crete apoi scade iar)
(b) norul de puncte este monoton (scade monoton ori crete monoton)
Cazul ne-liniar monoton poate corectat prin transformrile variabilelor
(spre exemplu prin logaritmare); aceste transformri ns nu fac obiectul
acestei cri. n cazul ne-liniar non-monoton trebuie aplicat un alt tip de
regresie, ne-liniar.
ASUMPII CU PRIVIRE LA EROAREA DIN ECUAIA DE REGRESIE:

4.
Media erorilor pentru ecare valoare a lui
X este egal cu zero.
Relund exemplul cu cheltuielile i veniturile gospodriilor, dac am avea

o baz de date cu ntreaga populaie de gospodrii, este uor de imaginat
c pot exista foarte multe gospodrii cu un venit de 2 milioane de lei.
Dreapta de regresie va genera o predicie a cheltuielilor (un punct x) fa
de care cheltuielile gospodriilor cu un asemenea venit vor avea erori mai
mari sau mai mici, unele pozitive i altele negative. Suma tuturor acestor
erori trebuie s e egal cu zero, n consecin i media acestor erori va
egal cu zero. Important este accentul pus pe medie deoarece punctul
de predicie de pe dreapta de regresie coincide cu
Y |2
- media tuturor
cheltuielilor pentru un venit de 2 milioane de lei.
Y |2 = + 2 +
Cum ns media erorilor
este egal cu zero, rezult c
Y |2 = + 2
unde
+2
este chiar punctul de predicie a cheltuielilor pentru un
venit de 2 milioane de lei, iar

(n cazul nostru
5.
Y |X
= Cheltuieli iar
se citete media lui
dat ind
X
= 2 milioane lei Venit).
S nu avem autocorelaie.
Autocorelaia se refer la independena erorilor; dac avem autocorelaie,
erorile asociate cu diferite observaii nu sunt independente unele de altele.
n exemplul nostru, oricare dou gospodrii ar luate n analiz, erorile
fa de dreapta de regresie trebuie s e independente unele de altele; cheltuielile unei gospodrii nu depind (sau sunt independente) de cheltuielile
oricrei alte gospodrii.
Autocorelaia se veric cu
testul Durbin-Watson. Pentru a nu avea
autocorelaie, valoarea testului trebuie s e egal cu 2 (sau ct mai

aproape de 2). Dac valoarea testului este mai mare dect 2, avem autocorelaie negativ; dac este mai mic dect 2, avem autocorelaie pozitiv.
6.
Normalitatea distribuirii erorilor.

n populaie, pentru ecare valoare a lui
X,
erorile n jurul punctului de
predicie trebuie s e distribuite normal. Ne reamintim c o distribuie

normal este simetric, valorile din stnga mediei ind la fel de multe ca
24
valorile din dreapta mediei.

numrul 4; media lui
Aceast asumpie este legat de asumpia
(pentru o anume valoare a lui
X ) este chiar punc-
tul de predicie, iar suma erorilor cu semn pozitiv este egal cu suma
erorilor cu semn negativ (suma total a erorilor este astfel zero). Aceast
asumpie poate testat prin efectuarea de histograme a valorilor lui
y pentru diferite sub-eantioane corespunztoare diferitelor valori ale lui

x. n exemplul cu veniturile i cheltuielile, selectm spre exemplu doar
gospodriile cu venit de 2 milioane de lei i efectum o histogram a cheltuielilor acestor gospodrii. Dac histograma are o form care seamn
cu o curb normal, este bine; dac histograma nu seamn cu o curb
normal, nseamn c erorile nu sunt distribuite normal pentru aceste
gospodrii.
Un alt test pentru vericarea acestei asumpii este aa numitul grac Q-Q
Plot (quantile versus quantile). Se ordoneaz erorile de la minim la maxim
pentru calcularea quantilelor, apoi se calculeaz valoarea prezis a ecrei
quantile.
Rezultatul este un plot care va arta, dac erorile au o distribuie normal,
aproximativ ca o dreapt.
2
1
0
-1
-2
Valori reziduale standardizate
Figura 1.14: Q-Q Plot pentru erorile modelului de regresie
-2
-1
Valori prezise standardizate
Figura 1.14 am reluat puin exemplul cu veniturile i cheltuielile a
celor 10 gospodrii (ecare cu venit propriu, diferit de al celorlalte). ntruct 10 cazuri erau prea puine pentru demonstraie, am creat un eantion cu cte 15 gospodrii pentru ecare categorie de venit, totaliznd
1015=150 gospodrii prezente n grac.
7.
S nu avem heteroscedasticitate.
Heteroscedasticitatea se refer la inegalitatea abaterilor standard a erorilor. n populaie, pentru ecare valoare a lui
X , erorile n jurul punctului
de predicie trebuie s aib aceeai valoare a abaterii standard (caz n care

avem ceea ce se numete
homoscedasticitate). Spre exemplu, abaterea
standard a erorilor pentru gospodriile cu venit egal cu 2 milioane trebuie

s e egal cu abaterea standard a erorilor pentru gospodriile cu oricare
alt venit. Egalitatea acestor abateri standard nseamn c norul de puncte
25
este distribuit uniform, la o distan egal fa de dreapta de regresie pe

toat lungimea acestuia. Oricare puncte pe
dispersarea valorilor lui
8.
le-am lua n considerare,
n jurul dreptei de regresie este egal.
Variabila independent nu este corelat cu eroarea.

n ecuaia
y = a + bx + e, coecientul de corelaie dintre x i e trebuie

rxe = 0. La prima vedere aceast asumpie ar prea
s e egal cu zero:
imposibil de testat pentru c eroarea este n principiu necunoscut. Rezolvarea problemei ine de teoria regresiei multiple i de o anume asumpie
S nu existe erori de specicare
specic acesteia:
(vezi asumpiile din
capitolul de regresie multipl). S presupunem c exist i o alt variabil

independent care explic o parte din variaia dependentei:
y = a + b1 x1 + b2 x2 + e
rx1 x2 6= 0. n cazul
x1 , ceea ce nseamn c efectul
lui x2 intr n componena erorii e. Cum x1 i x2 sunt corelate, nseamn
c x1 va corelat cu eroarea e (care l conine i pe x2 ), caz n care
prezenta asumpie este nclcat. Coecientul de regresie b va eronat
(va conine un bias), supraestimnd efectul lui x1 asupra lui y .
i c ntre
x1
x2
exist un coecient de corelaie
regresiei simple nu lum n calcul dect pe
Aproape ntotdeauna vor exista i alte variabile independente responsabile

de variaia dependentei, ceea ce nseamn c un model de regresie liniar
simpl este aproape ntotdeauna mai mult sau mai puin eronat.
Este
normal s e aa, pentru c este greu de crezut c un fenomen este explicat

n totalitate de un singur alt fenomen; realitatea social este extrem de
complex, cu legturi subtile ntre multiple variabile.
Figura 1.15: Distribuia homoscedastic a 150 de cheltuieli n cadrul a 10 cate-
3
2
0
Cheltuieli
gorii de venituri (milioane lei)
Venituri
Figura 1.15 prezint distribuia celor 150 de gospodrii de la Figura 1.14;

aici se observ 10 linii punctate verticale (corespunztoare celor 10 categorii de venit conform
Tabelului 1.2 i pe ecare dintre acestea cte
15 puncte roii corespunztoare celor 15 gospodrii din ecare categorie.

Dreapta de regresie are acelai termen liber i aceeai pant ca la
26
Figura 1.10. Liniile de culoare albastr marcheaz plus sau minus dou
abateri standard de la dreapta de regresie.
Norul de puncte este distribuit normal n jurul dreptei de regresie; mai
mult dect att, distribuia punctelor este uniform n jurul dreptei de
regresie, la cel mult dou abateri standard.
Sigur, acesta este un exemplu construit; cele 150 de gospodrii pe axa
0y
au fost obinute prin extragerea aleatoare dintr-o distribuie normal n

jurul ecrui punct de predicie de pe dreapta de regresie. Faptul c nici o
distribuie nu seamn cu cealalt demonstreaz tocmai caracterul aleator
al extragerilor. n populaie, numrul de categorii de venituri precum i
numrul de gospodrii n cadrul ecrei categorii este mult mai mare, ns
cu ct numrul acestora crete cu att mai puternic este aproximarea
distribuiei normale pentru ecare categorie de venit, demonstrnd grac
asumpiile 4, 6 i 7.
Figura 1.16 prezint un caz clasic de heteroscedasticitate.
Abaterea
standard a erorilor n jurul dreptei de regresie nu este egal pentru toate

valorile pe axa
0x.
Este uor de observat c, pe msur ce veniturile cresc,
punctele sunt mai dispersate n jurul dreptei de regresie; n consecin,

abaterile standard a erorilor cresc. Forma norului de puncte este conic
(sau are o form de evantai), deci avem heteroscedasticitate; asumpia
ind nclcat, regresia poate efectuata cu meniunea c erorile standard
ale coecienilor de regresie vor ns mai mari.
Figura 1.16:
Distribuia heteroscedastic a 150 de cheltuieli n cadrul a 10
3
2
0
Cheltuieli
categorii de venituri (milioane lei)
Venituri
Testul cel mai utilizat n vericarea heteroscedasticitii este un plot ntre

valorile prezise (de pe linia de regresie) i reziduuri (erorile de la puncte la
linia de regresie). n acest tip de plot, dreapta de regresie este prezentat
pe orizontal la mijlocul gracului; dac nu avem heteroscedasticitate,
norul de puncte rezultat ar trebui s e uniform n jurul acestei drepte.
Spre exemplu, n
Figura 1.15 punctele sunt foarte aproape unele de al-
tele astfel nct nu ne putem da seama dac distribuiile sunt ntr-adevr
Figura 1.17:
27
Plot ntre valorile rezi-
Figura 1.18:
Plot ntre valorile rezi-
duale i valorile prezise pentru gospo-
duale i valorile prezise pentru gospo-
driile corespunztoare Figurii 1.15
driile corespunztoare Figurii 1.16
0.5
0.0
-1.5
-0.5
Valori reziduale
0.0
-0.2
-0.4
Valori reziduale
0.2
1.0
0.4
1.5
...
1.5
2.0
2.5
3.0
1.5
Valori prezise
2.0
2.5
3.0
Valori prezise
normale n jurul dreptei de regresie.
Figura 1.17 prezint aceste puncte
mai desfurat; acum se observ mai uor c cele 10 grupe de venit (pe
vertical) sunt relativ normal distribuite n jurul liniei orizontale (dreapta
de regresie).
Pe axa vertical avem 0 n mijloc, valorile pozitive arat
erorile pozitive iar valorile negative arat erorile negative.

n cazul
Figurii 1.18 se observ clar c punctele au o form conic (sau
o form de evantai) specic heteroscedasticitii; cele din stnga au o

variaie mic n jurul dreptei iar cele din dreapta au o variaie mare n
jurul aceleiai drepte.
Practic, plotul ntre valorile prezise i cele reziduale nu face altceva dect
s aduc dreapta de regresie ntr-o poziie orizontal pentru simplicarea
analizei vizuale a norului de puncte.
Cercettorii, oamenii de tiin n general folosesc regresia ntr-un dublu scop:

unul este de predicie, cellalt este de explicaie. Pn acum ne-am preocupat
n special de problema prediciei.
Explicaia ns este mult mai interesant, deoarece ofer o aplicaie n cercetarea
fundamental. Predicia se poate folosi, spre exemplu, n prezicerea procentelor
ntr-o campanie electoral. Interesul public se oprete n general doar la acest
lucru, fr a ine cont neaprat de explicarea fenomenului.
Partea cu adevrat interesant, cel puin din punct de vedere sociologic, se a n
explicarea acestuia. n acest sens, regresia este folosit pentru a testa consistena
unui model n ceea ce privete explicarea variaiei dependentei. Accentul trece
de la exactitatea valorii prezise a lui
la mrimea valorii lui
r2 .
Cele dou orientri sunt evident strns legate: un model care face o predicie
bun va face i o explicaie bun. Este bine de subliniat ns c o predicie bun
poate datorat (ntr-o msur mai mare sau mai mic) i ntmplrii. O bun
explicaie bun ns (o valoare a lui
r2
mare bazat pe un model teoretic solid),
va genera ntotdeauna i o bun predicie.
28
1.10 Eroarea standard a estimrii

Eroarea standard a estimrii este o msur a acurateei prediciei realizate cu
ajutorul dreptei de regresie.
Urmnd acelai principiu ca n formula abaterii
standard, ridicm la ptrat erorile pentru c altfel se anuleaz reciproc, apoi le

nsumm; obinem:
n
X
(yi yi )2
i=1
Aa cum variana este o medie a ptratelor distanelor de la ecare valoare la
media variabilei, la fel ne intereseaz o valoare medie a ptratelor erorilor (de
la valorile observate la dreapta de regresie):
n
X
(yi yi )2
i=1
n
Deoarece pierdem dou grade de libertate prin calcularea coecienilor de re-
a i b (orice valoare prezis

y = a + b x), formula devine:
gresie
a lui
n
X
se calculeaz cu ajutorul formulei:
(yi yi )2
i=1
n2
Pentru a elimina efectul ridicrii la ptrat, extragem radical din aceast expresie
i obinem:
v
u n
uX
u
(yi yi )2
u
t i=1
se =
n2
unde
a lui
se este denumit eroarea standard a estimrii;

y atunci cnd valorile lui x sunt cunoscute.
IMPORTANT!
A nu se confunda
eroarea standard a estimrii
cu
msoar abaterea standard
Eroarea Standard
din Teo-
rema Limit Central (care nseamn abaterea standard a distribuiei de

eantionare).
Expresia eroarea standard a estimrii este doar o form mai simpl a expresiei abaterea standard a erorilor n jurul dreptei de regresie.
Este o msur a variaiei neexplicate; cu ct aceast msur are o valoare mai

mic, cu att proporia de variaie neexplicat este mai mic (i evident, proporia de variaie explicat este mai mare).
Este o formul similar cu abaterea standard a lui
v
u n
uX
u
(yi y)2
u
t i=1
sy =
n1
y:
1.11 Glosar de termeni
29
Observai c la formula deviaiei standard mprim la
n - 1, deoarece pierdem
doar un singur grad de libertate prin calcularea mediei. Ambele msuri (sy i
se )
se refer la variaia neexplicat a lui
y.
1.11 Glosar de termeni

Coecient de corelaie liniar sau coecient Bravais-Pearson (n engl.
linear correlation coecient).
Radical din coecientul de determinaie;
semnul acestuia arat direcia relaiei dintre dou variabile, iar valoarea
lui arat intensitatea asocierii acestora. Este o msur simetric a intensitii relaiei liniare dintre dou variabile; se mai poate calcula cu ajutorul
formulei lui Pearson.
Coecient de determinaie (n engl. coecient of determination). O msur care arat proporia din variaia variabilei dependente care este explicat de modelul de regresie.
Coecient de regresie
(n engl. regression coecient). Coecientul care
arat efectul variabilei independente
c schimbarea n medie a lui
y.
x, i speci-
asupra variabilei dependente
Mrimea acestui coecient depinde de unitatea de msur a lui
asociat cu schimbarea de o unitate a lui
x.
Coecient de regresie standardizat (n engl. standardized regression coecient).
Echivalentul coecientului de corelaie; prin standardizarea
variabilelor coecientul de regresie devine egal cu coecientul de corelaie

deoarece abaterile standard ale celor dou variabile devin egale.
Covariaie (n engl. covariance). Variaia comun a dou variabile nestandardizate.
Eroare sau Reziduu (n engl. random error term sau residual). Diferena
dintre valoarea observat (punctul din diagrama de mprtiere) i cea
prezis (punctul de pe dreapta de regresie) a lui
y.
Metoda celor mai mici ptrate (n engl. OLS - ordinary least squares method). O metod de calcul a coecienilor de regresie bazat pe potrivirea
unei linii drepte printr-un nor de puncte (cu alte cuvinte calcularea unui
punct de plecare i a unei pante a dreptei) n aa fel nct suma ptratelor
erorilor s e un numr minim.
Model determinist (n engl. deterministic model). Model care d o relaie

exact ntre dou variabile. Variabila independent determin cu exactitate variabila dependent.
Model probabilist (n engl. probabilistic model). Model care ofer o relaie

probabil ntre dou variabile; variabila independent nu prezice cu exactitate variabila dependent, ci cu o certitudine mai mare sau mai mic,
n funcie de intensitatea relaiei dintre cele dou.
30
Nor de puncte sau diagram de mprtiere (n engl. scatterplot, scattergram sau scatter diagram). Un grac de puncte pe un sistem de coordonate rectangular. Coordonatele pe axele
0x
0y
ale ecrui punct
corespund celor dou msurtori fcute ecrui element al eantionului.

Forma norului de puncte ilustreaz relaia dintre dou variabile.
Termenul liber (n engl. intercept). Punctul n care dreapta de regresie intersecteaz axa
0y
(valoarea lui
cnd
este egal cu zero).
Panta dreptei (n engl. slope). O constant n ecuaia unei drepte, a crui

valoare reprezint ct de mult se schimb variabila dependent la o schimbare cu o unitate a variabilei independente.
Valoare observat (n engl. observed value). Valoarea nregistrat a lui

(pentru o anumit valoare nregistrat a lui
x)
n urma aplicrii unui
instrument de cercetare.
Valoare prezis / ateptat (n engl. predicted / expected value). Valoarea

calculat a lui
y (pentru o anumit valoare nregistrat a lui x) cu ajutorul
modelului de regresie simpl.
Variabil dependent (n engl. dependent variable). Variabila a crei variaie trebuie explicat, ori a crei valoare trebuie prezis n analiza de
regresie.
Variabil independent (n engl. independent variable). Variabil cunoscut, inclus n analiza de regresie pentru a explica variaia variabilei
dependente.
Variaie (n engl. variation). Suma abaterilor indivizilor de la medie. Pentru

msurarea ei utilizm variana (n engl. variance) sau abaterea standard (n engl. standard deviation).
Variaia explicat - VE (n engl. regression sum of squares). Poriunea din
VT explicat de modelul de regresie.
dintre valorile prezise a lui
Este suma ptratelor diferenelor
i media lui
y.
Variaia neexplicat - VN (n engl. error sum of squares). Poriunea din

VT rmas neexplicat de modelul de regresie.
Este suma ptratelor
diferenelor dintre valorile prezise i cele observate ale lui
y.
Variaia total - VT (n engl. total sum of squares). Suma ptratelor deviaiilor valorilor observate a lui
de la media acestuia.

Modelul de Regesie Liniara Simpla (Unifactorial)

Încărcat de

Drepturi de autor:

Formate disponibile

S-ar putea să vă placă și

Modelul de Regesie Liniara Simpla (Unifactorial)

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelul de Regesie Liniara Simpla (Unifactorial)

Încărcat de

Drepturi de autor:

Formate disponibile

Regresia liniar simpl

May 16, 2007

Regresia liniar simpl

Panta (nclinarea) dreptei

Norul de puncte. Coecientul de corelaie. . . . . . . . . . . . . .

Metoda celor mai mici ptrate

Coecientul de determinaie simpl:

Inferena statistic pe baza coecienilor de

regresie. Eroarea standard a coecienilor de regresie.

1.10 Eroarea standard a estimrii

1.11 Glosar de termeni . . . . . . . . . . . . . . . . . . . . . . . . . . .

Regresia liniar simpl

numit variabil dependent (sau variabil rspuns) i una

sau mai multe variabile

sau variabile explicative).

numite variabile independente (sau predictori

Cu ajutorul regresiei, vom putea determina ct de

mult se schimb (variaz) dependenta

atunci cnd variabilele independente

Altfel spus, vom putea determina ct de mult

din variaia total a dependentei este inuenat de variaia independentelor.

educaia, sexul i vechimea n munc a acesteia.

venitul unei persoane i vrsta,

persoanei este inuenat de toate celelalte patru variabile.

mai poate  citit ca depinde de..., ceea ce calic variabila venit ca

tric, discret dar care poate  considerat continu din cauza

vrsta persoanei (msurat n ani mplinii, variabil raport,

Ipoteza noastr mai poate  scris astfel:

Regresia liniar simpl

VENIT depinde de VRST, de EDUCAIE, de SEX i de VECHIME.

(pstrnd notaia cu litere greceti pentru parametri)

(folosind notaiile pentru estimatorii calculai n eantion)

este numit  termen liber, termenii

regresie iar termenul

sunt numii  coecieni de

este numit  eroare.

explicaii pe larg la capitolul de regresie multipl).

, termenul b este un estimator al

este un estimator al parametrului

1.1 Prezentare general

Termenii din ecuaia de regresie au urmtoarea semnicaie (ei vor  explicai

Termenul liber este valoarea pe care o ia variabila dependent, atunci cnd

O concluzie la care putem ajunge, citind componena erorii, este urmtoarea:

Putem s avem una sau mai multe variabile independente.

ecuaia de regresie avem o singur variabil independent, regresia se numete

Cnd dimpotriv, avem dou sau mai

multe variabile independente, regresia se numete multipl.

ajutorul regresiei, putem prezice valoarea pe care o ia variabila dependent,

Regresia liniar simpl

1.2 Funcii liniare

trebuie interpretat astfel: dac o valoare a unei variabile

depinde de valoarea unei alte variabile

exist o singur valoare a lui

astfel nct pentru o anume valoare a

y = 1, 5x (Figura 1.2). Cnd x crete

crete de 1,5 ori. Aici, valoarea lui

cu o constant egal cu 1,5.

Figura 1.2: Gracul funciei

Figura 1.3: Gracul funciei

Norul de puncte. Coecientul de corelaie. . . . . . . . . . . . . .

Coecientul de determinaie simpl:

Inferena statistic pe baza coecienilor de

regresie. Eroarea standard a coecienilor de regresie.

din variaia total a dependentei este inuenat de variaia independentelor.

persoanei este inuenat de toate celelalte patru variabile.

mai poate citit ca depinde de..., ceea ce calic variabila venit ca

tric, discret dar care poate considerat continu din cauza

Ipoteza noastr mai poate scris astfel:

este numit termen liber, termenii

regresie iar termenul

sunt numii coecieni de

este numit eroare.

Termenii din ecuaia de regresie au urmtoarea semnicaie (ei vor explicai

Figura 1.2: Gracul funciei

Figura 1.3: Gracul funciei

de ecare dat cnd

pentru ecare schimbare a lui

Orice funcie de acest tip poate scris la modul general

din cauza semnului negativ al coecientului

Figura 1.5: Gracul funciei

1.4 Norul de puncte. Coecientul de corelaie.

Scatterplot (nor de puncte) ntre variabilele Total membri n

gospodrie i Numr copii ntre 0-14 ani

Norul de puncte nu este nimic altceva dect o modalitate de aare grac a

face pentru ecare pereche de valori existent n baza de date.

1.4 Norul de puncte. Coecientul de corelaie.

Figura 1.7: Scatterplot ntre Vrsta soului i Vrsta soiei

plcut, se poate calcula un alt coecient, care utilizeaz ns valori standard

ind abaterile standard ale variabilelor

Coecientul de corelaie ne arat ct de puternic (intens) este relaia dintre