Sunteți pe pagina 1din 6

Curs2 Analiza de regresie. Modelul unifactorial de regresie liniar.

Analiza de Regresie
Regresia este o metod de modelare a legturilor dintre variabile.
Este cel mai important instrument de lucru al econometriei.
Analiza de regresie se ocup cu descrierea i evaluarea legturii dintre o variabil
variabil dependent sau explicat i una sau mai multe alte variabile independente
sau explicative, cu scopul de a estima i de a previziona valoarea medie a variabilei
dependente, cunoscndu-se valorile fixate ale variabilelor independente (valori fixate
n urma unor eantionri repetate).
Originea termenului de regresie
Termenul de regresie provine din studiile statisticianului englez Francis Galton (1822-
1911) n domeniul ereditii. Acesta a observat c nlimea fiilor provenii din tai
foarte nali se apropie mai mult de nlimea medie a fiilor dect de nlimea tailor.
Galton a constatat c avea loc o regresie sau o revenire la nlimea medie.
Obiectivele Analizei de Regresie
1. S estimeze valoarea medie a variabilei dependente, date fiind valorile var. indep.
2. S testeze ipoteze despre natura dependenei (ipoteze sugerate de teorie economic)
3. S previzioneze valoarea medie a variabilei dependente, cunoscnd valorile viitoare
ale var. indep.
Denumiri ale variabilelor n analiza de regresie

Variabila Y Variabilele X
1
,X
2
,...,X
k

1
2
3
4
5
6
7
Variabil dependent
Variabil explicat
Regresant
Variabil estimat
Variabil efect
Variabil edogen
Variabil int
Variabile independente
Variabile explicative
Regresori
Estimatori
Variabile cauzale
Variabile exogene
Variabile de control
Aceti termeni sunt relevani pentru o anumit situaie a folosirii regresiei.
1,2,3 n discuii despre modele de regresie
4 dac intenia este de a prognoza valoarea unei variabile
5 n studii de cauzalitate
6 terminologie specific econometriei
7 terminologie specific n probleme de control optimal.
Modelul este instrumentul de baz din analiza de regresie
Modelul econometric cel mai simplu este modelul unifactorial de regresie, n care
o variabil dependent Y este explicat printr-o singur variabil independent X.
Dependena determinist vs. dependena statistic
Dependena determinist dintre var. Y i X este o legtur ce poate fi descris complet
prin intermediul unei ecuaii de tip determinist, adic printr-o ecuaie ce conine toi
termenii care intervin n procesul studiat.
Dependena statistic (stochastic, aleatoare) dintre Y i X este acea legtur care nu
genereaz valori unice pentru Y, n cazul unor valori date ale lui X, ci o mulime de
valori ale lui Y. Aceast legtur poate fi descris n termeni probabilistici.
Regresie vs. cauzalitate
Dei Analiza de regresie se ocup cu relaiile dintre o variabil dependent i una sau
mai multe variabile independente, ea nu implic, n mod necesar, cauzalitate, adic nu
nseamn neaprat c variabilele independente sunt cauza i variabila dependent este
efectul. Dac exist cauzalitate ntre o variabil independent i variabila dependent,
aceasta trebuie justificat pe baza unei anumite teorii economice.
De exemplu, legea cererii sugereaz c exist o relaie invers ntre cantitatea cerut
dintr-un anumit produs i preul su, cu condiia ca toate celelalte variabile care
influeneaz cererea, s fie meninute constante. Aici, teoria microeconomic
sugereaz c preul poate fi cauza, iar cantitatea cerut ar fi efectul.
inem minte c:
- regresia nu implic neaprat cauzalitate.
- cauzalitatea trebuie justificat de teoria economic care fundamenteaz fenomenul
care este testat empiric.
Regresie vs. corelaie
Analiza de corelaie msoar gradul de asociere dintre 2 variabile.
Analiza de regresie estimeaz valoarea medie a unei variabile, cunoscnd valorile
fixate ale altei variabile.

Analiza de corelaie Analiza de regresie
Tratarea variabilelor simetric asimetric
Tipul variabilelor Variabile aleatoare Var.dependent este var.aleatoare
Variabilele independente: fixate

Modelul unifactorial de regresie liniar
1. Specificarea modelului unifactorial de regresie
Definim modelul unifactorial de regresie printr-o relaie matematic ce presupune c
variabila Y este rezultatul a dou categorii de factori:
- un factor esenial, X
-mai muli factori neeseniali, specificai printr-o variabil aleatoare de perturbaie
Specificarea modelului const n precizarea variabilei dependente Y i a variabilei
independente X, pe baza teoriei economice a fenomenului observat i n identificarea
unei funcii matematice care descrie legtura dintre Y i X.
Exemple de relaii de dependen:
Cheltuieli de Consum Venit
nlime - Vrst
Cererea pentru un produs Preul produsului
Venituri din vnzri Cheltuieli cu publicitatea
Cheltuieli pentru aprare PIB
Rata inflaiei Rata omajului

Considerm dou variabile economice X i Y pentru care cunoatem n perechi de
observaii: ) , ( ),..., , ( ), , (
2 2 1 1 n n
y x y x y x . Ne intereseaz modificarea variabilei Y sub
aciunea variabilei X.
Reprezentarea grafic a datelor de observaie ntr-o diagram a mprtierii poate
da informaii despre existena unei relaii ntre cele dou variabile i despre tipul de
relaie, n caz c aceasta exist.
Coeficientul de corelaie de selecie poate indica, de asemenea, existena unei relaii.
O funcie de regresie, este o funcie care leag valorile lui X, de mediile condiionate
corespunztoare ) | (
1
x X Y E = ,..., ) | (
n
x X Y E = .
) ( ) | (
i i
x f x X Y E = = este funcia de regresie la nivelul populaiei (FRP).
Forma ei este dat de teoria economic. Ex: Consumul depinde liniar de Venit.
i i
x x X Y E + = = ) | ( - dac funcia de regresie f este liniar
Exemplu. Considerm modelul lui Keynes privind consumul.
Consumul=f(Venit,Ali factori) ; Consumul=+*Venit+
Legea psihologic fundamental afirm c o persoan este dispus, de regul i n
medie, s i creasc consumul pe msur ce crete venitul, dar nu n aceeai
msur, este sintetizat n relaia 1 0 < <
dVenit
dConsum
i este reprezentat prin
parametrul al modelului de regresie. este nclinaia marginal spre consum
(variaia consumului mprit la variaia venitului). Pe baza unui ansamblu de
observaii referitoare la C i V, se pot estima parametrii i . Rezultatele anticipate
sunt 0 > i 1 0 < < .
Termenul eroare. Pentru o pereche de valori observate ) , (
i i
y x , trebuie s atragem
atenia c valoarea observat
i
y nu va coincide cu media condiionat ) | (
i
x X Y E =
Definim termenul eroare aleatoare:
) | (
i i i
x X Y E y = = - abaterea valorii individuale
i
y , de la media condiionat,
i
este termenul eroare (eroarea aleatoare) (perturbaia) la observaia i.
Perturbaiile reale
i
sunt necunoscute.
De aici putem obine
i i i
x X Y E y + = = ) | ( sau
i i i
x y + + =
Ecuaia n i x y
i i i
,..., 2 , 1 , = + + = este numit ecuaia de regresie a populaiei.
Aceast ecuaie definete modelul unifactorial de regresie liniar.
Modelul include o component determinist
i
x + i o component stochastic, .
Variabilele X i Y sunt variabile observabile, adic valorile lor pot fi msurate.
Variabila este numit termen eroare sau variabil de perturbaie i reprezint
efectul tuturor factorilor, n afara factorului X, care l afecteaz pe Y i care sunt
considerai neobservabili. Variabila capteaz erorile de msurare a valorilor
variabilelor i caracterul aleator al comportamentului uman. Termenul eroare
reprezint acea parte din valoarea variabilei Y care nu poate fi msurat printr-o relaie
sistematic cu variabila X.
Parametrul se numete parametru de interceptare (intercepia)(interceptul).
Exprim valoarea variabilei dependente cnd variabila independent este egal cu
zero, deci reprezint punctul de intersecie al dreptei de regresie cu axa Oy, adic
poriunea fixat a lui Y, care nu poate fi explicat prin variabila independent.
Parametrul reprezint panta dreptei de regresie i indic cu ct se modific
variabila Y atunci cnd variabila X se modific cu o unitate. Semnul parametrului
pant arat dac dependena dintre cele 2 variabile este direct sau invers.
dX
dY
=
Funcia de regresie a populaiei (FRP) descrie procesul de generare a datelor
(PGD). Ea este distribuia de probabilitate comun presupus a caracteriza ntrega
populaie din care au fost extrase datele.
n practic nu cunoatem FRP i trebuie s o estimm din datele de selecie, obinnd
conceptul de Funcie de regresie de selecie (FRS).
Dac reprezentm grafic perechile de valori observate ) , ( ),..., , ( ), , (
2 2 1 1 n n
y x y x y x , se
va obine o diagram a mprtierii norului de puncte i se va pune problema de a
trasa o dreapt care s descrie norul de puncte. Este posibil s trasm numeroase
drepte printr-un nor de puncte, dar care este cea mai bun dreapt care descrie
comportamentul datelor?
Dac vom considera doi estimatori a i b (sau i

) ai parametrilor reali i ,
putem nlocui aceti estimatori ntr-o funcie de ajustare:
n i x b a y
i i
,..., 2 , 1 , = + = .
Aceasta este funcia de regresie a seleciei (FRS).
i
y reprezint valoarea observat, real sau adevrat.
i i
x b a y + = se numete valoarea ajustat a lui
i
y .
Definim
i i i i
y y e = = abaterea dintre valoarea observat i valoarea ajustat.
i
se numete reziduu sau eroare estimat sau variabil de perturbaie ajustat.
Pentru reziduurile
i
se folosete i notaia
i
e . n vreme ce variabilele
i
sunt
neobservabile, reziduurile
i
, sunt observabile.
Relaia dintre FRP i FRS este dat de ecuaia
i i i
y y + = .
Primul obiectiv al analizei de regresie este de a estima FRP,
i i i
x y + + = , pe
baza FRS,
i i i
x y

+ + = , deoarece analiza se bazeaz, de cele mai multe ori, pe


un singur eantion extras din populaie.

Fiecare selecie determin o FRS diferit, adic sunt determinate valori numerice
diferite pentru i . Nici una din FRS nu este identic cu FRP. Fiecare este doar o
aproximare a FRP reale.
Cum putem alege cea mai bun dreapt? Cutm dreapta care face distanele
verticale de la puncte la dreapt, ct mai mici posibil.
-Valoarea ajustat = distana vertical de la axa orizontal la dreapt, iar
-reziduul = distana vertical de la dreapt la punctul considerat.
Reziduurile arat ct de mult difer valorile observate de valorile ajustate.




Observaie. n discutarea modelelor de regresie, s-a dovedit incomod s se fac
distincie, din punct de vedere al notaiei, ntre variabile aleatoare i realizri ale
acestora, aa nct practica standard este de a folosi litere mici n ambele situaii.

Interpretarea termenului de regresie liniar
1) Liniaritatea n variabile
nseamn c valoarea medie condiionat a variabilei dependente este o funcie liniar
de variabilele independente. O funcie ) (x f y = este liniar n raport cu x dac
variabila x apare doar la puterea 1 i nu apare nmulit sau mprit prin alt
variabil, z.
2) Liniaritatea n parametri
nseamn c valoarea medie condiionat a variabilei dependente este o funcie liniar
n parametrii ce apar n ecuaie, dar poate s nu fie liniar n variabilele independente.
Vom folosi termenul de regresie liniar pentru modelele care sunt liniare n parametri.

2. Estimarea parametrilor modelului prin metoda celor mai mici ptrate

Metoda celor mai mici ptrate (MCMMP): se minimizeaz suma ptratelor
abaterilor dintre valorile reale
i
y i valorile ajustate
i
y .
Vom folosi i notaia OLS (Ordinary Least Squares)
Suma ptratelor reziduurilor sau erorilor estimate este o funcie de dou necunoscute,
a i b, n raport cu care se va face minimizarea. Avem:

= = =
= = = =
n
i
i i
n
i
i i
n
i
i
x b a y y y e b a S
1
2
1
2
1
2
min ) ( ) ( ) , (
) , ( b a S este minim cnd derivatele pariale ale funciei n raport cu a i b sunt egale
cu zero, adic:

= =

= =

=
=
n
i
i i i
n
i
i i
x bx a y
b
b a S
bx a y
a
b a S
1
1
0 ) )( ( 2
) , (
0 ) 1 )( ( 2
) , (

=
=


= = =
= =
n
i
n
i
n
i
i i i i
n
i
n
i
i i
x b x a y x
x b na y
1 1 1
2
1 1
0
0

Rezult sistemul de ecuaii normale ale lui Gauss:

= +
= +


i i i i
i i
y x x b x a
y x b an
2

Soluiile sistemului se pot obine folosind metoda determinanilor:
2 2
2
) (

=
i i
i i i i i
a
x x n
y x x x y
a (1)
2 2
) (

=
i i
i i i i
b
x x n
y x y x n
b (2)
Dac mprim prima ecuaie normal prin n, obinem:
x b y a = (3)
Dup nlocuirea lui a n a doua ecuaie normal obinem:
2 2
x n x
y x n y x
b
i
i i

(4)
Avem nevoie de cteva rezultate privind nsumrile:
2 2 2 2 2 2 2
2 ) 2 ( ) ( x n x x x x x x x x x x x
i i i i i i
= + = + =

(5)
0 ) ( = = =

y x n y n x y x y x y y x
i i
(6)
y x n y x y x x y y x y y x x
i i i i i i i i
= = =

) ( ) ( ) ( ) ( (7)
Relaia (4) devine:

=
2
) ( ) ( ) ( x x b y y x x
i i i

Cu condiia ca 0 ) (
2
>

x x
i
, panta estimat va fi dat de relaia
2 2
) (
) )( (
x
xy
xx
xy
i
i i
S
S
S
S
x x
y y x x
b = =

(8)
La numrtor este covariana de selecie dintre x i y
n
y y x x
S
i i
xy


=
) )( (

La numitor este dispersia (variana) de selecie a lui x
n
x x
S
i
x


=
2
2
) (

Notm c estimaiile pentru a i b sunt unice.
Artm c soluia obinut este un minim. Considerm derivatele de ordinul doi ale
sumei ptratelor reziduurilor:
n
a
b a S
2
) , (
2
2
=

2
2
2
2
) , (
i
x
b
b a S
,

i
x
b a
b a S
2
) , (
2
.
Matricea hessian
(

=


2
2 2
2 2
i i
i
x x
x n
H este pozitiv definit, pentru c avem:
0 2
1
> = n
= = = =

) ( 4 ) )( ( 4 4 4 4
2 2 2 2
2
x n x n x n x n x n x x x n
i i i i i

0 ) ( 4
2
> =

x x n
i
. nseamn c soluia obinut este un minim.
Valorile a i b obinute prin MCMMP, pentru un anumit eantion s.n. estimaii ale
parametrilor reali i .
Pentru eantioane diferite rezult estimaii diferite. Ansamblul lor descrie estimatorii
parametrilor i .

3. Ipoteze statistice asupra modelului care genereaz datele
n statistic se utilizeaz numai estimaii de maxim verosimilitate, care se obin doar
n contextul satisfacerii anumitor condiii. Se fac, de obicei, 6 ipoteze standard pentru
modelul clasic de regresie.
I1) Forma funcional liniar: n i x y
i i i
,..., 2 , 1 , = + + = .
I2) Erorile au media zero: . ,..., 2 , 1 , 0 ) ( n i E
i
= =
I3) Homoscedasticitatea erorilor al.: n i Var
i
,..., 2 , 1 , ) (
2 2
= = =

.
I4) Erorile nu sunt autocorelate: 0 ) , cov( =
j i
pentru j i
I5) Necorelarea ntre regresor i erori: 0 ) , cov( =
i i
x pentru orice i i j.
I6) Erorile au distribuie normal: ) , 0 ( ~
2
N
i
.

S-ar putea să vă placă și