Sunteți pe pagina 1din 132

REPROGRAFIA UNIVERSITII TRANSILVANIA DIN BRAOV

CUPRINS NOIUNI INTRODUCTIVE...........................................................................5 1. Econometria, ca tiin ................................................................................... 6 2. Etapele construirii modelelor econometrice....................................................6 3. Modele econometrice utilizate n economie ................................................... 7 CAPITOLUL 1..........MODELUL REGRESIEI LINIARE SIMPLE..........9 1. Problema estimrii .....................................................................................11 2. Metoda celor mai mici ptrate - ipoteze ....................................................11 3. Metoda celor mai mici ptrate - estimatorii...............................................13 4. Proprietile estimatorilor metodei celor mai mici ptrate ........................15 5. Liniaritatea .................................................................................................15 6. Tabela de regresie .....................................................................................16 7. Funcia de regresie a populaiei .................................................................19 8. Funcia de regresie a eantioanelor............................................................24 9. Exerciiu - Calculul estimatorilor modelului de regresie simpl ..............30 10. Consecine ale ipotezelor: construirea testelor ........................................31 10.1. Exerciiu - Rolul termenului aleator .................................................. 32 10.2. Testul de semnificaie al estimatorului.............................................. 35 10.3. Intervalul de ncredere al estimatorilor..............................................38 10.4. Tabelul de analiz a varianei testul Fisher ....................................38 11. Intervalul de ncredere al previziunii cu modelul regresiei simple..........39 11.1. Exerciiu - Previziuni ale variabilei endogene...................................40 12. Exerciiu - Compararea coeficienilor de regresie ...................................43 CAPITOLUL 2 MODELUL REGRESIEI MULTIPLE...................46 1. Modelul liniar general................................................................................47 2. Estimarea coeficienilor de regresie........................................................... 48 3. Ipotezele i proprietile estimatorilor .......................................................49 4. Analiza varianei i calitatea ajustrii ........................................................51 5. Exerciiu Modelul regresiei liniare multiple...........................................51 5.1. Analiza grafic a evoluiei n timp a variabilelor considerate.............53 5.2. Analiza grafic a influenei variabilelor explicative asupra variabilei dependente y ........................................................................................57 5.3. Construirea modelului econometric .................................................... 60 6. Teste statistice i analiza varianei............................................................. 67 6.1. Construirea testelor statistice...............................................................67 6.1.1. Compararea unui parametru ai cu o valoare fixat a ..................68 6.2. Execiiu Teste asupra coeficienilor i varianei erorilor.................. 69 6.3. Analiza varianei-testul Fisher de semnificaie global a regresiei ... ..73 6.4. Teste pornind de la analiza varianei modelului liniar ........................75 6.4.1. Introducerea uneia sau mai multor variabile explicative n model...........................................................................................75 6.4.2. Verificarea stabilitii n timp a modelului testul CHOW ....... 75 6.5. Exerciiu Teste pornind de la analiza varianei ................................76 7. Previziuni folosind modelul regresiei multiple..........................................80 7.1. Exerciiu Previziuni folosind modelul regresiei multiple.................81

CAPITOLUL 3

MULTICOLINIARITATEA I SELECIA VARIABILELOR EXPLICATIVE........................85 1. Corelaia parial, n modelele econometrice ............................................86 1.1. Calculul coeficienilor de corelaie parial .........................................88 1.2. Relaii ntre coeficienii de corelaie simpl, parial i multipl ........ 1.3. Exerciiu Calculul coeficienilor de corelaie parial ......................89 2. Multicolininiaritatea ..................................................................................97 2.1. Consecinele multicoliniaritii ...........................................................98 2.2. Detectarea multicoliniaritii ...............................................................98 2.3. Remedierea multicoliniaritii ...........................................................100 3. Selecia variabilelor explicative...............................................................101 3.1. Exerciiu Metode de selecie a variabilelor explicative..................103

CAPITOLUL 4 AUTOCORELAIA ERORILOR ......................108 1. Natura i cauzele autocorelaiei erorilor ..................................................109 2. Detectarea autocorelaiei.......................................................................... 116 2.1. Exerciiu - Testul Durbin -Watson ....................................................118 3. Estimatorii metodei celor mai mici ptrate n prezena autocorelaiei..... 123 4. Proceduri de estimare a lui ...................................................................123 4.1. Estimarea direct a lui pornind de la regresia pe modelul iniial ...124 4.1.1. Exerciiu - Estimarea parametrilor umui model n prezena autocorelaiei erorilor ................................................................124 BIBLIOGRAFIE ...........................................................................................131

NOIUNI INTRODUCTIVE

Tema Obiectivele

NOIUNI INTRODUCTIVE
1. Econometria, ca tiin 2. Etapele construirii modelelor econometrice 3. Modele econometrice utilizate n economie

Finalitatea Competene dobndite

1. Dobndirea de cunotine despre apariiei i dezvoltarea Econometriei, ca tiin 2. Cunoaterea obiectului de studiu i a metodelor de analiz 3. Definiii i comparaii ale modelului economic i econometric 4. Cunoaterea modului de construire a modelelor econometrice 5. Noiuni privind clasificarea modelor econometrice utilizate n economie

Mijloace

- citire/nvare

- ntrebri, probleme ce apar, explicaii - definiii, explicaii ce trebuie reinute

- situaii economice concrete, supuse analizei, exemple (sub lup) Evaluarea Timp de lucru necesar - parcurgerea ntrebrilor propuse 1. Pentru cunoaterea problemei: 4 ore 2. Pentru rezolvarea ntrebrilor: 1 ora

1. Econometria, ca tiin
Econometria este acea ramur a economiei, care presupune aplicarea metodelor statistice i matematice la analiza datelor economice, cu scopul de a oferi un coninut empiric teoriilor economice pentru verificarea veridicitii lor. matematica economie Bazele apariiei econometriei ca tiin = contribuiile timpurii ale unor matematicieni: Newton i Leibnitz, (secolul al XVII-lea) au elaborat calculul diferenial; operele unor oameni de tiin economiti i statisticieni, precum: Keynes, Jevons, Walras, Hayek, Pearson, Edgeworth, Pareto, Fisher, etc., care i-au nscris numele n istoria dezvoltrii omenirii. nfiinarea n 1932, n SUA a unei Societii de Econometrie i editarea revistei Econometrica n 1933, precum i dezvoltarea ulterioar a teoriilor economice, a metodelor matematice i statistice, susinute de apariia calculatoarelor i dezvoltarea rapid n domeniul informaticii, face posibil considerarea apariiei econometriei ca fiind, nceputul secolului XX. n 1954, Samuelson afirma ca econometria a fost definit ca aplicarea statisticii matematice la datele economice pentru a furniza suport empiric modelelor construite cu ajutorul economiei matematice i pentru a obine estimri numerice Econometria const n: formularea unor ipoteze statistice asupra datelor economice observate, parcurgerea etapelor n construirea modelelor, verificarea validitii ipotezelor formulate iniial i utilizarea modelelor econometrice identificate pentru realizarea de previziuni ale fenomenelor economice analizate. Econometria este parte integrant a unei alte tiine economice, recent aprut, i anume previziunea economic (n anii 80 ). Previziune economic a existat din totdeauna, ca parte integrant a tuturor tipurilor de luare a deciziilor de management, dar ca disciplin separat de sine stttoare, exist de numai cteva decade. n anii 80, previziunea a devenit un domeniu practic de studiu, ncepnd s i afirme importana n planificarea i luarea deciziei n domeniul afacerilor, la nivelul guvernului. Previziunea este mai mult dect o disciplin tehnic sau statistic, este un domeniu al psihologiei, sociologiei, politicii, managementului, matematicii, informaticii, economiei i altor discipline nrudite. n timpul anilor 60, cnd condiiile economice i politice erau relativ stabile pentru rile industrializate ale lumii, se manifesta puin interes pentru previziune. n contrast, n anii 70, i la nceputul anilor 80, cnd mediul economic i social a devenit mai turbulent, s-a manifestat necesitatea larg recunoscut a previziunii. Abordarea cantitativ a previziunii se bazeaz fie pe analiza seriilor de timp - studiul datelor istorice, presupunnd c lucrurile nu se vor schimba i istoria se repet (previziune fatalist), fie pe metode explicative, i anume metodele econometrice, care explic interdependena dintre factori. 4 statistica

Astfel econometria, aprut iniial ca tiin separat, treptat devine parte integrant din tiina previziunii, care a aprut la mbinarea interdisciplinar a altor tiine, pentru a satisface cerinele cunoaterii i stpnirii realitii economice contemporane.

2. Etapele construirii modelelor econometrice


Un model este o reprezentare simplificat a unui proces real, o formulare matematic a unei teorii economice. Un model economic este un set de presupuneri care descriu aproximativ comportametul unei economii sau al unui sector economic. Un model econometric const din: un set de ecuaii de comportament, derivate dintr-un model economic. Aceste ecuaii conin variabilele observate, considerate eseniale pentru scopul analizei i variabilele neobservate, neeseniale pentru analiz, sub forma unui termen aleator, numit disturban sau eroare; presupunerea c variabilele observate sunt fr erori; o specificare a probabilitii de distribuie a disturbanelor (i erorilor de msurare). Principalele etape ale unui demers econometric sunt: referirea la o teorie economic, pe baza unor ipoteze; formalizarea relaiilor i alegerea formei de funcie etapa de specificare a modelului; selectarea i observarea variabilelor; estimarea modelului econometric i testarea cu datele observate (constituie inferena modelului); validarea modelului i utilizarea pentru previziune sau n scopul unor analize.

Etapa de specificare a modelului trebuie s ia n considerare i faptul c unele relaii ntre variabile nu sunt ntotdeauna sincrone, ele fiind deseori decalate n timp (de exemplu influena venitului asupra consumului, realizarea investiiilor i efectul lor asupra nivelului produciei, dezvoltarea unei ramuri economice i a activitii de comer exterior a ramurii respective, etc.). Selectarea variabilelor explicative din model ine seama de: unitile de msur n are sunt exprimate variabilele; datele pot fi temporale, cnd sunt observate la anumite intervale egale de timp sau pot fi instantanee, cnd datele sunt observate n acelai timp pentru un grup de indivizi sau uniti administrativ-teritoriale diferite. Validarea modelului ridic probleme referitoare la validitatea relaiilor, precizia estimatorilor, dac modelul este valid pe ntreaga perioad analizat, dac sunt stabili coeficienii? 5

Descrierea schematic a etapelor unei analize econometrice a modelelor economice este reprezentat n Figura 1.

Schema etapelor unei analize econometrice n anii 70 1 4 Informaii economice iniiale 2 Modelul econometric sau evaluarea empiric a teoriei economice Estimarea modelului 3 Datele observate Teoria economic sau modelul economic

6 7

Testarea ipotezelor modelului economic Utilizarea modelului pentru previziuni sau decizii

Figura 1. Schema etapelor unei analize econometrice n anii 70 Aceast descriere a analizei econometrice a fost criticat n anii 70, argumentndu-se c: nu exist feedback-ul testrii econometrice a teoriilor economice la formularea teoriilor economice (de la pasul 6 la pasul 1); stabilirea datelor de colectat care vor fi folosite la estimarea i testarea modelelor econometrice, neexistnd feedback ntre paii 2 i 5 i pasul 3; la pasul 6 testarea ipotezelor se refer numai la ipotezele sugerate de modelul economic original, care depind de presupunerea c specificarea modelului de la pasul 2 este corect. Dar trebuie testat i dac modelul a fost corect specificat, faz care lipsete din Figura 1, i care constituie feedback-ul pentru pasul 2, n cazul n care testele de specificare indic necesitatea unei noi specificri a modelului econometric.

Dezvoltrile aduse econometriei n anii 70 au condus la acceptarea unei alte scheme a etapelor unei analize econometrice, prezentat n Figura 2.

Schema revizuit a etapelor unei analize econometrice Teoria economic Modelul econometric Date

Estimare Testarea specificrii i verificarea

NU

Este adecvat modelul?

DA

Testarea ipotezelor Utilizarea modelului pentru previziune i analize, control Figura 2. Schema revizuit a etapelor unei analize econometrice n schema din Figura 2 se pot distinge relaiile de feedback: de la rezultatele analizei econometrice la teoria economic, de la testarea specificrii la modificarea specificrii modelului economic, de la modelul econometric la culegerea datelor.

Schema prezentat pornete de la o singur teorie economic, dar adesea exist mai multe teorii concurente, caz n care econometria ajut la alegerea celei mai pertinente.

3. Modele econometrice utilizate n economie


Clasificarea modelelor econometrice se face dup urmtoarele criterii: Numrul variabilelor factoriale: y = f ( x) + u Modele unifactoriale y = f ( x1 , x2 ,..., xn ) + u Modele multifactoriale Forma legturii: Modele liniare Modele neliniare Sfera de cuprindere: Modele pariale Modele globale (agregate) Considerarea timpului, ca factor: Modele statice: y i = f ( x1i , x 2i ,..., x ki ) + u i Modele dinamice: yt = f ( x1t , x2t ,..., xkt ) + ut - Introducerea n mod explicit a variabilei timp: yt = f ( x1t , x2t ,..., xkt , t ) + ut - Modele autoregresive: yt = f ( xt , yt 1 , yt 2 ,..., yt k ) + ut - Modele cu lag distribuit: yt = f ( xt , xt 1 , xt 2 ..., xt k ) + ut Numrul de ecuaii: Cu o singur ecuaie, Cu ecuaii multiple. Scopul utilizrii: Modele euristice, raionale n teoria economic, Modele decizionale, operaionale n practica economic.
C = a + bbV + u C = aV u

Rezumat Aceast seciune prezint apariia Econometriei ca tiin, locul ei n rndul altor discipline la a cror intersecie a aprut, importana studierii Econometriei i apartenena sa la o alt disciplin Previziunea economic. Construirea modelelor econometrice pornind de la o teorie economic parcurge niste etape, a cror abordare s-a dezvoltat n timp, asigurnd feed-back-ul. Clasificarea modelelor econometrice ofer o imagine cuprinztoare asupra importantei construirii i utilizrii modelelor econometrice. Termeni importani Econometrie, Previziune economic, model economic, model econometric, etapele construirii unui model econometric ntrebri recapitulative 1. Definii modelul economic. 2. Definii modelul econometric. 3. Care este relaia de subordonare dintre Econometrie i Previziunea economic 4. Care sunt etapele construirii unui model econometric 5. Enumerati cteva criterii de clasificare a modelelor econometrice 8

CAPITOLUL 1

Tema Obiectivele

MODELUL REGRESIEI SIMPLE


1. Problema estimrii 2. Metoda celor mai mici ptrate ipoteze 3. Metoda celor mai mici ptrate - estimatorii 4. Proprietile estimatorilor metodei celor mai mici ptrate 5. Liniaritatea 6. Tabela de regresie 7. Funcia de regresie a populaiei 8. Funcia de regresie a eantioanelor 9. Exerciiu - Calculul estimatorilor modelului de regresie simpl 10. Consecine ale ipotezelor: construirea testelor 10.1. Exerciiu - Rolul termenului aleator 10.2. Testul de semnificaie al estimatorilor 10.3. Intervalul de ncredere al estimatorilor 10.4. Tabelul de analiz a varianei testul Fisher 11. Intervalul de ncredere al previziunii cu modelul regresiei simple 11.1. Exerciiu - Previziuni ale variabilei endogene 12. Exerciiu - Compararea coeficienilor de regresie 1. Estimarea coeficienilor modelului de regresie simpl 2. Cunoaterea unui software si a procedurii statistice care are ca rezultat tabela de regresie; coninutul tabelei de regresie 3. Diferene dintre modelul la nivelul populaiei i al eantionului 4. Realizarea de previziuni cu modelul regresiei simple - citire/nvare - ntrebri, probleme ce apar, explicaii - definiii, explicaii ce trebuie reinute - situaii economice concrete, supuse analizei, exemple (sub lup) - teme de cas, aplicaii practice pentru studeni - parcurgerea aplicaiilor propuse 1. Pentru cunoaterea problemei: 4 ore 2. Pentru rezolvarea temelor: 12 ore + timpul de documentare

Finalitatea Competene dobndite

Mijloace

Evaluarea Timp de lucru necesar

MODELUL REGRESIEI SIMPLE

n funcie de numrul de factori a cror variaie se consider n explicarea variaiei fenomenului efect, y, exist: - regresie simpl: cnd se consider variaia unui singur factor: y=f(x) i - regresie multipl: cnd se consider variaia mai multor variabile explicative: y=f(x1, x2, , xk). Metoda regresiei analizeaz relaiile existente ntre variabila explicat i variabilele explicative, pe baza datelor observate pentru aceste variabile. Se poate stabili care din factori au o influen semnificativ, gradul lor de esenialitate i cunoscnd influena variabilelor factoriale asupra variaiei fenomenului explicat, se pot face previziuni ale valorilor variabilei y pentru anumite valori date ale variabilelor x. Analiza regresiei reprezint o metod analitic de msurare a intensitii legturilor dintre fenomenele economico-sociale, fiind instrumentul cel mai utilizat n analiza economic. Analiza de regresie msoar dependena statistic a unei variabile y, variabil dependent, de una sau mai multe variabile explicative x, cu scopul de a estima i de a previziona valoarea medie a variabilei y, pe baza valorilor cunoscute sau fixate ale variabilelor explicative. Fenomenul a crui variaie se analizeaz n funcie de influena variaiei unor alte fenomenecauz, se mai numete variabil explicat, endogen, iar fenomenele a cror variaie influeneaz semnificativ variabila y, se mai numesc variabile independente, exogene, independente, regresori, factori sau variabile factoriale. De exemplu, n funcia Keynesian a consumului: C = C 0 + cYd , unde C = consumul privat C0 = consumul privat incompresibil, c = nclinaia marginal spre consum Yd = venitul disponibil, C este variabila dependent, endogen, explicat, iar Yd reprezint variabila independent, exogen, explicativ, factorul de influen, cauza, regresorul.

10

1. Problema estimrii
Metoda regresiei statistice const n stabilirea funciei de regresie care descrie cel mai bine relaia dintre variabila explicat i variabila sau variabilele independente, dup caz. Fenomenele economico-sociale sunt fenomene de mas supuse aciunii legilor statistice, care se manifest sub form de tendin (medie) ntr-un numr mare de cazuri individuale, diferite ca form de manifestare, sub aciunea combinat a influenei mai multor factori, dar care aparin aceleai esene, aceleai colectiviti. Fenomenele economico-sociale sunt fenomene stochastice, care nu pot fi experimentate n laborator. La aceleai valori ale fenomenelor cauz, se obin ntotdeauna valori diferite ale fenomenului efect analizat. Combinarea diferit a factorilor, cu grade diferite de esenialitate, confer o mare variabilitate fenomenului explicat. A observa ntreaga colectivitate pentru a stabili parametri ecuaiei de regresie a populaiei este o modalitate ineficient, care necesit un efort mare, att din punct de vedere material ct i al timpului. Avantajele oferite de sondajul statistic reprezint cea mai bun soluie pentru estimarea parametrilor pe baza datelor observate dintr-un eantion. Se obine astfel ecuaia de regresie a eantionului. Estimatorii ecuaiei de regresie a eantionului vor furniza rezultate foarte bune, despre parametrii polulaiei, n anumite condiii de probabilitate i respectnd anumite ipoteze pe care acetia trebuie s le ndeplineasc. Problema estimrii parametrilor este obiectivul prioritar al econometriei. Exist mai multe metode de determinare a estimatorilor parametrilor de regresie: metoda momentelor, metoda celor mai mici ptrate i metoda maximei verosimiliti. Dintre aceste metode, cea care ndeplinete criteriile de cost minim de aplicare, i de asigurare a calitii estimatorilor, n condiiile respectrii unor ipoteze fundamentale, este metoda celor mai mici ptrate (M.C.M.M. P.)

2. Metoda celor mai mici ptrate - ipoteze


Metoda celor mai mici ptrate, atribuit matematicianului german Carl Friederich Gauss, este una din cele mai des utilizate metode de estimare a ecuaiilor de regresie a sondajelor statistice. Principiul acestei metode const n minimizarea sumei ptratelor abaterilor valorilor empirice fa de cele teoretic estimate, adic minimizarea sumei ptratelor reziduurilor. Aplicarea acestei metode se bazeaz pe urmtoarele ipoteze presupuse adevrate: 1. Modelul este liniar n xi (sau n oricare transformare a lui xi). 11

2. Valorile lui xi sunt observate fr erori (xi este nealeator). 3. Media (operatorul E) reziduurilor este zero: E(i / xi)=0. Aceast ipotez spune de fapt c toi factorii neexplicitai de model, i dealtfel cuprini n i, nu afecteaz n mod sistematic valoarea medie a lui y, adic valorile lor pozitive se anuleaz cu cele negative astfel nct efectul lor mediu asupra lui y este zero. 4. Homoscedasticitatea sau variaia (V dispersia, varian) egal a reziduurilor 2. Variana reziduurilor pentru fiecare xi (variana condiionat a lui i) este un numr pozitiv constant i egal cu 2 sau altfel spus, populaiile lui y, corespunztoare valorilor xi, au aceeai varian. Situaia opus se numete heteroscedasticitate i se poate nota: V ( i / xi ) = i2, unde variana nu mai este constant, i=1,n.
Ajustarea liniar a profitului n funcie de numrul de angajai
230 210 190
profit (mii euro)

V ( i / xi ) = E [ i E ( i )] = E i2 = 2
2

( )

170 150 130 110 90 70 50 0 50 100 150 200 ymed 250 300 350 ymed.teoretic 400 450 500 550
numr angajai (persoane)

Figura 1.1. Reprezentarea grafic a ipotezei de heteroscedasticitate 5. Nu exist corelaia (covariana) erorilor pentru oricare i j. cov( i , j ) = E[ i E ( i )][ j E ( j )] = E ( i j ) = 0 Pentru anumite valori date xi, abaterile oricror dou valori y de la valoarea lor medie nu prezint nici o tendin. 6. Erorile sunt independente de variabila explicativ. Nu exist corelaie ntre erori i valorile x. cov( i , xi ) = E[ i E ( i )][ xi E ( xi )] = E[ i ( xi E ( xi ))] =
= E ( i xi ) E ( xi ) E ( i ) = E ( i xi ) = 0

12

pentru c E ( i ) = 0 din ipoteza 3. 7. Modelul de regresie este corect specificat. O investigaie econometric ncepe prin specificarea modelului econometric. Problemele sunt: ce variabile ar trebui incluse n model, care este forma funcional a modelului (este liniar n parametri, n variabile sau ambele?)

3. Metoda celor mai mici ptrate - estimatorii


Ecuaia de regresie a populaiei se poate scrie: y i = a 0 + a1 xi + i sau y t = a 0 + a1 xt + t . Cu ajutorul datelor dintr-un eantion de date i=1,n (pentru serii de date instantanee) sau t=1,n (pentru serii cronologice) se poate aproxima ecuaia de regresie a populaiei prin ecuaia de regresie 0 + a 1 x i + ei = y i + ei , unde y i este valoarea estimat a y i (media a eantionului astfel: y i = a i : condiional). Reziduurile ei reprezint diferenele dintre valorile observate y i i cele estimate y i = yi a 0 a 1 x i . ei = y i y Dndu-se n perechi de observri ale lui y i x, se va construi funcia de regresie a eantionului astfel nct s minimizeze suma reziduurilor, pe ct posibil. Cum
n n

i ) = 0 , ei = ( yi y
i =n
n

se

alege

criteriul

minimizrii

ptratelor

reziduurilor:

i=n

e
i =1

2 i

i ) . = ( yi y
2 i =1

Este evident c suma ptratelor reziduurilor este funcie de valorile estimatorilor coeficienilor dreptei de regresie

e
i =1

2 i

0 , a 1 ) , pentru orice set de date din eantioane diferite. = f (a

1 se vor obine valori diferite ale reziduurilor i deci i pentru 0 i a Alegnd valori diferite pentru a

i ) = ( yi a 0 a 1 xi ) se egaleaz cu 0. ei2 . Derivatele pariale ale sumei S = ( yi y


2 2
i =1 i =1 i =1

S =0 0 a

0 + a 1 x i y i ) = 0 2 (a
i =1

S =0 1 a

0 + a 1 x i y i ) x i = 0 2 (a
i =1

Simplificnd cu -2 i aplicnd operatorul , se obine sistemul de ecuaii normale, numite i simultane:

13

0 + a 1 x i = y i na
i =1 i =1

0 xi + a 1 xi2 = xi y i a
i =1 i =1 i =1

Sistemul se poate rezolva prin metoda determinanilor:

yi
i =1 n

x
i =1 n i i =1

0 = a

x y x
i =1 i

2 i

n
n i

x
i =1 n i =1

xi2 yi xi xi yi
i =1 i =1 n i =1

x x
i =1

n xi2 xi i =1 i =1
n

i =1 2

2 i

n
n i

y
i =1 n i =1 i n

1 = a

x x y
i =1

n
n i

xi
i =1 n i =1 2 i

n xi y i xi y i
i =1 i =1 i =1

x x
i =1

n x xi i =1 i =1
n 2 i n

Dac n sistemul de ecuaii normale, variabilele xi i y i se nlocuiesc cu valorile lor centrate fa de mediile lor, se obine:

0 + a 1 ( x i x ) = ( y i y ) na
i =1 i =1

0 ( xi x ) + a 1 ( xi x ) 2 = ( xi x )( y i y ) a
i =1 i =1 i =1

Cum

(x
i =1

x ) = 0 i

(y
i =1

1 = y ) = 0 , din a doua ecuaie, se obine a

(x
i =1 n

x )( y i y )
i

(x
i =1

x)

.
2

0 + a 1 x , rezult a 0 = y a 1 x . tiind c y = a 0 i a 1 sunt numii estimatori ai celor mai mici ptrate, deoarece sunt Aceti estimatori a obinui pe baza acestui principiu i sunt estimatori punctuali, pentru c furnizeaz o singur valoare (punct) relevant pentru parametrul populaiei. 14

4. Proprietile estimatorilor metodei celor mai mici ptrate


Estimatorii metodei celor mai mici ptrate au urmtoarele proprieti:
liniari, adic o funcie liniar a unei variabile aleatoare, cum ar fi variabila y n modelul de

regresie;
nedeplasai, media estimatorului din toate eantioanele posibile, de volum n sau valoarea
1 )este egal cu valoarea adevrat a parametrului, a1 ; ateptat a estimatorului E (a

eficieni, adic are variana minim.

Teorema lui Gauss-Markov se enun astfel: Date fiind ipotezele modelului liniar clasic de regresie, estimatorii celor mai mici ptrate, din clasa estimatorilor liniari nedeplasai, au varian minim; se poate spune c sunt BLUE (Best Linear Unbiased Estimators).

5. Liniaritatea

liniaritatea n variabile - cu un neles natural nseamn c media condiional (n sensul de

valoarea medie ateptat - n econometrie, apare termenul de speran matematic) a variabilei y este o funcie liniar a lui xi. Operatorul de speran matematic se noteaz cu litera E. Dreapta de regresie a populaiei reprezint tendina medie i se scrie: E(y/xi)=a0 + a1xi.
liniaritatea n parametrii este cnd distribuia condiional a variabilei y, E(y/xi) este o funcie

liniar a parametrilor, adic toi sunt la puterea 1, in timp ce variabilele x pot sau nu s fie liniare. Termenul de regresie liniar nsemn ntotdeauna, liniaritatea n parametrii necunoscui; indiferent dac exist liniaritate n variabilele explicative. Astfel, exemple de modele liniare sunt: E(y/xi)=a0 + a1xi, liniar n parametrii i n variabile i E(y/xi)=a0 + a1xi2, liniar n parametrii i neliniar n variabile. Un model neliniar n parametrii este: E ( y / xi ) = a0 + a1 xi . Pentru regresia liniar este relevant termenul de liniaritate n parametrii.

15

6. Tabela de regresie
n realitate, nu se pot observa colectiviti generale, ci numai eantioane extrase din acestea, repectnd principii probabilistice, pentru a asigura condiia de reprezentativitate. Scopul analizei de regresie este descrierea modelului prin estimarea parametrilor, pe baza datelor de sondaj. Aceast metod calculeaz valorile estimatorilor, astfel nct suma ptratelor abaterilor valorilor empirice (observate) ale variabilei dependente y de la valorile ei teoretice (calculate dup funcia liniar obinut), adic suma ptratelor reziduurilor s fie minim: min i )2 = min ei2 . ( yi y
i =1 i =1 n n

Analiza de regresie se poate obine automat prin tabela de regresie, n Microsoft Excel. Dup efectuarea declaraiilor blocurilor care conine valorile variabilei explicate y i variabila (sau variabilele, n cazul regresiei multiple) independent x, precum i a locului pe spreadsheet unde se va obine tabela i eventual a unor alte opiuni privind probabilitatea de garantare a rezultatelor, pentru intervalele de ncredere ale estimatorilor sau obinerea automat a valorilor teoretice, ale erorilor lor fa de valorile y observate, ale graficelor, etc., se confirm declaraiile prin OK i tabela apare instantaneu. Acest criteriu al minimizrii patratelor abaterilor face ca metoda ce st la baza obinerii estimatorilor, s se numeasc metoda celor mai mici ptrate (M.C.M.M.P.). Tabela de regresie cuprinde n sumarul su, SUMMARY OUTPUT, trei pri: Regression Statistics, tabelul ANOVA i informaiile despre estimatorii coeficienilor modelului liniar. Regression Statistics conine informaii cu caracter general despre variabilele implicate n analiza de regresie: coeficientul de corelaie multipl Multiple R, care la regresia simpl este coeficientul de corelaie liniar simpl, r; coeficientul de determinaie R2, numit R Square arat validitatea modelului. Valoarea sa este cuprins n intervalul [0, 1] i cu ct e mai apropiat de 1, cu att modelul este bine ales, adic explic ntr-o proporie mai mare (deseori, n %) variaia variabilei dependente y. i y )2 (y
n n

R2 =

(y y)
i =1 i

i =1 n

= 1

) (y y

(y y)
i =1 i

i =1 n

, unde

y este media valorilor empirice yi. Adjusted R Square care este R2 ajustat cu un anumit numr de grade de libertate;

16

Standard Error este eroarea medie standard a valorilor teoretice ale lui y i se calculeaz ca o abatere medie ptratic a valorilor empirice fa de cele teoretice:

i )2 ( yi y
i =1

n k 1

e
i =1

2 i

n k 1

2 , unde =

2 este estimatorul pentru dispersia reziduurilor, iar nk1 este numrul gradelor de libertate, iar k este numrul variabilelor explicative; Observations reprezint n este numrul de observri ale variabilei dependente, care este egal cu

numrul de valori ale variabilei (variabilelor) independente xi. Tabelul ANOVA este tabelul de analiz a varianelor, a crui denumire provine din iniialele
ANalysis Of Variances i are ca scop prezentarea variaiei pe factori de influen i calculul testului

Fisher pentru evaluarea semnificaiei globale a regresiei. Analiza varianei pentru o regresie simpl este prezentat n Tabelul 1.1. n coloana numit SS - Sum Squares (sum de ptrate) - se prezint descompunerea variaiei totale a variabilei explicate y, Total: n

(y
i =1

y ) pe tipuri de influen:
2

atribuit i explicat de factorii de regresie, Regression:

(y
i =1

y) ,
2

atribuit factorilor reziduali, nenregistrai n model, Residual: Sursa variaiei


x (Regression)

(y
i =1

i )2 . y Sume modificate (MS) SSE/1 SSR/(n-2)

Suma ptratelor (SS) t y) 2 SSE = ( y t ) 2 = et2 SSR = ( y t y


SST = ( y t y ) 2
t t t t

Grade libertate (df) 1 n-2 n-1

Reziduuri (Residual) Total (Total)

Tabelul 1.1. ANOVA n cazul regresiei simple Coloana numit df degrees freedom - se refer la gradele de libertate corespunztoare fiecrui tip de variaie: pentru variaia explicat de regresie, gradele de libertate sunt egale cu numrul variabilelor explicative, k; la regresia simpl este 1; pentru variaia datorat factorilor reziduali, gradele de libertate sunt egale cu n-k-1, adic n-2; pentru variaia total corespunde un numr de grade de libertate egal cu n-1.

17

Gradele de libertate se calculeaz n funcie de termenul constant Intercept astfel: dac Intercept = 0, df = n-k i numai dac Intercept 0, df = n-k-1. Coloana numit MS - Modified Sums conine dispersiile corectate cu gradele de libertate corespunztoare fiecrui tip de variaie. Valoarea calculat F se obine raportnd variaia corectat datorat modelului la cea corectat datorat factorilor reziduali, iar Significance F reprezint pragul de semnificaie de la care regresia ncepe s devin global semnificativ. Regresia este global semnificativ cu o probabilitate P=1 - . Testul empiric F de analiz a varianei este: F * = Fisher cu 1 i n-2 grade de libertate. La regresia liniar simpl: F * = (t * ) 2 , unde t * , este testul Student empiric. Acest test se poate scrie n funcie de coeficientul de determinaie, astfel:
F* = R2 . Dac variana explicat de model este superioar varianei reziduale, se (1 R 2 ) /(n 2) SSE / 1 , unde F * urmeaz o lege SSR /(n 2)

consider modelul semnificativ pentru explicarea variabilei dependente.


.05 Dac F * > F10 , n 2 , se respinge ipoteza de egalitate a varianelor (H0 ipoteza nul), variabila

x fiind semnificativ pentru variaia variabilei y. n caz contrar se accept aceast ipotez de

egalitate a varianelor. A treia parte a tabelei de regresie conine: i , i=1,k, n coloana Coefficients pentru: - valorile estimate ale coeficienilor modelului liniar, a
- Intercept - estimatorul termenului constant, 0, care poate fi zero dac s-a optat

pentru Constant is Zero i - estimatorii coeficienilor variabilelor explicative: 1, ..., n la X Variable 1, X


Variable 2, ... n ordinea declarrii variabilelor explicative;

a i ; arat cu ct variaz n medie, n plus - Standard Error, i abaterile standard ale estimatorilor a sau n minus valorile estimate ale coeficienilor fa de parametri pe care i estimeaz. Eroarea standard de estimaie are caracter de medie a abaterilor valorilor estimate ale coeficientului fa de parametrul corespondent din populaie. - valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaiei acestuia fa de 0; - P-value, corespunztoare pragului de semnificaie , ncepnd de la care valoarea estimatorului este semnificativ diferit de zero,

18

- limitele intervalului de ncredere ale estimatorilor: inferioar Lower 95% i superioar Upper
95%, cu o probabilitate de 95%, implicit, iar la cerere se pot solicita i alte valori ale probabilitii:

99%, 90%, etc. Suma valorilor observate este egal cu suma valorilor teoretice: y = y
i =1 i i =1 n n i

, pentru c prin

ajustare se realizeaz o redistribuire a influenei factorului, variabila explicativ, x.

7. Funcia de regresie a populaiei


Pentru a ilustra analiza de regresie a populaiei, se consider un caz ipotetic al unei ri a crei economie este format din 120 de societi comerciale, despre care se cunosc informaii referitoare la numrul mediu lunar de salariai i profitul mediu lunar, exprimat n mii euro (), la sfritul anului. Societile comerciale sunt grupate n zece clase dup numrul mediu de salariai i n fiecare grup este observat un numr variabil de societi. Datele observate sunt prezentate n Tabelul 1.2 (liniile sunt numerotate, iar coloanele numite cu literele alfabetului, ca n Microsoft Excel). A
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

C
50

D
100 74 78 81 89 90 94 90 95 96 100 107 110

K
450 145 150 160 170 185 190 200 205 206 500 167 169 170 180 192 195 197 200 202 204 208 208

Grupe dup numrul mediu de angajai (x) 150 200 250 300 350 400 85 88 90 95 98 104 105 110 110 115 114 117 121 104 13 1352 104 95 97 100 110 112 115 120 120 125 125 127 130 130 132 117 14 1638 117 110 112 115 120 125 128 130 135 140 141 145 147 130 132 134 136 139 141 144 145 145 146 147 152 155 142 13 1846 142 120 122 135 149 153 155 160 160 165 165 170 173 175 154 13 2002 154 140 148 151 156 160 169 170 170 174 175 177 179 180 189 167 14 2338 167

Profitul lunar (y) (mii )

60 70 75 85 80 83 87 92

pe grup: profit mediu nr=120 profit total pr.med.teor

79 8 632 79

92 12 1104 92

129 12 1548 129

179 9 1611 179

191 12 2292 191

Tabelul 1.2. Gruparea societilor comerciale dup numrul mediu lunar de salariai i dup profiturile medii lunare 19

Pentru a se analiza vaiaia profitului n funcie de numrul mediu de angajai, se va considera variabila independent ca fiind numrul mediu lunar de salariai (x), iar variabila dependent profitul lunar (y). Societile comerciale cuprinse n aceeai grup dup numrul de angajai, au un profit variabil. Corespunztor unui numr mediu de 50 de salariai (coloana B), de exemplu, sunt 8 firme (celula B20) ale cror profituri medii lunare se situeaz ntre 60 mii i 92 mii (blocul de celule B4:B11), obinndu-se o medie a profiturilor pentru aceast grup de angajai, de 79 mii (B19). Similar, pentru o alt variant a numrului de angajai, de 500 salariai (coloana K), exist 12 firme (K20), al cror profit mediu lunar este cuprins ntre 167 mii i 208 mii (blocul K4:K15), cu o medie a profiturilor lunare de 191 mii (K19). O coloan din tabel reprezint distribuia profitului lunar y, la un nivel fixat al numrului de angajai, x, adic distribuia condiional a lui y pentru o valoare dat a lui x. n celulele B19:K19 se afl profiturile medii lunare pentru fiecare grup de angajai, adic mediile blocurilor de celule corespunztoare fiecrei grupe: B4:B17, C4:C17, D4:D17, ... K4:K17. Mediile se calculeaz astfel: n celula B19, se scrie funcia statistic pentru calculul mediei, =AVERAGE(B4..B17). Se observ c numrul maxim de firme dintr-o grup este de 14, pentru
x=200, x=400. Dei n prima grup sunt 8 firme, se va specifica blocul de dimensiunea maxim,

pentru ca prin copierea formulei din celula B19 n celelalte celule, de la C19 la K19, s se translateze corespunztor coloanele celulelor, i s se ia n considerare toate situaiile grupelor (indiferent de numrul de elemente declarate, media se va calcula innd seama de numrul efectiv de elemente existente, n fiecare bloc de celule). n linia 21, se afl profiturile totale lunare ale grupelor, obinute prin nsumarea profiturilor individuale observate n fiecare grup de salariai. La B21 se scrie formula =SUM(B4..B17), care apoi se copiaz pentru restul celulelor de pe aceeai linie, adic pentru celelalte nou variante date ale numrului de salariai. Profiturile medii pe grupe de salariai se pot obine i mprind profitul total al grupei la numrul de firme considerate n grupa respectiv, de exemplu n linia 18 (care n Tabelul 1.2 este liber), cu formula =B21/B20, i apoi copiat pentru restul grupelor; valorile obinute vor fi identice cu cele din linia 19. n graficul din Figura 1.2, de tip Scatter XY, s-au reprezentat profiturile firmelor corespunztoare fiecrei grupe de salariai. S-au declarat 14 serii, corespunztor numrului maxim de variante de profit n funcie de numrul de salariai, astfel: B4..K4, B5..K5, B6..K6, ..., B17..K17 (cu acelai tip de marcatori - puncte) i a 15-a serie, pentru profiturile medii calculate ale celor 10 grupe diferite dup numrul de salariai, B19..K19. Profiturile medii sunt reprezentate cu marcatori diferii, cercuri mari.

20

Corelaia dintre profit i numr de angajai


230 210 190
profit (mii euro)

170 150 130 110 90 70 50 0 50 100 150 200 250 300 350 400 450 500 550
numr angajai (persoane)

Figura 1.2. Corelaia dintre profiturile medii lunare i numrul mediu lunar de salariai n Figura 1.2, punctele mediilor profiturilor lunare pe grupe de salariai, reprezint distribuia condiional a profiturilor, corespunztoare fiecrei grupe dup numrul de salariai. Graficul arat tendina relaiei dintre cei doi indicatori, de form liniar i sensul direct al legturii, profitul mediu crete cnd numrul mediu al salariailor crete. Se poate spune c pentru fiecare valoare xi exist o populaie a valorilor y, presupuse a fi distribuite normal, iar media acestor valori y este medie condiional. Dreapta sau curba de regresie, dup caz, trece prin mediile condiionale teoretice (ateptate) care corespund mediilor condiionale calculate. Pe graficul din Figura 1.3 se pot vedea distribuiile condiionale ale valorilor y pentru fiecare valoare dat xi, precum i distribuiile erorilor n jurul fiecrei medii condiionale a variabilei y. Dreapta de regresie trece prin toate valorile teoretice ale mediilor condiionale, ca urmare a ipotezei c mediile condiionale ale erorilor pentru o valoare dat xi sunt 0: E ( i / xi ) = 0 . Aciunea factorilor necuprini n model este asimilat erorilor i , iar ipoteza conform creia media lor este 0, semnific faptul c erorile pozitive se anuleaz cu cele negative, adic nu au o aciune sistematic asupra mediei variabilei y. Valorile observate ale profiturilor lunare se abat fa de valoarea lor medie, calculat ca medie a grupei din care fac parte, dup numrul de salariai. Aceste abateri, numite erori, se datoreaz altor factori, dect cel nregistrat numrul de salariai, numii factori reziduali, care ar putea fi: eficiena activitii de management, profilul de activitate al firmei, ramura economic n care activeaz, gradul de instruire, nivelul de sntate i experiena salariailor, 21

conjunctura pieei, nivelul naional i internaional la care activeaz firma, deschiderea spre pieele externe, etc.

Ajustarea liniar a profitului n funcie de numrul de angajai


230 210 190
profit (mii euro)

170 150 130 110 90 70 50 0 50 100 150 200 ymed 250 300 350 ymed.teoretic 400 450 500 550
numr angaja i (persoane)

Figura 1.3. Distribuiile condiionale i dreapta de regresie a populaiei Valorile teoretice corespunztoare acestor profituri medii se afl pe dreapta de regresie a
populaiei, a crei ecuaie este E ( y / xi ) = a0 + a1 xi .

Valorile parametrilor a 0 i a1 se pot determina folosind funciile statistice, n Excel:


=intercept(known_ys,known_xs) i =slope(known_ys,known_xs).

Pentru a 0 :

=INTERCEPT(B19:K19,B2:K2)

i pentru a1 : =SLOPE(B19:K19,B2:K2). Aceste funcii se pot tasta, de exemplu n celulele N23, respectiv N24. Modelul de regresie a populaiei este E ( y / xi ) = 66.86 + 0.25 xi . Coeficientul de determinaie R2=1 indic faptul c modelul liniar explic 100% variaia profiturilor lunare, y i este evident din faptul c s-a efectuat regresia pe valorile medii ale profiturilor lunare. Coeficientul de corelaie se poate obine i prin funcia statistic =correl(array1,array2), aici =CORREL(B2:K2,B19:K19). Aceleai rezultate se pot obine cu ajutorul tabelei de regresie. Regresia nu poate utiliza dect blocuri de tip coloan i de aceea trebuie s se transpun blocurile linie ale valorilor variabilelor pe vertical. Se poate proceda n felul urmtor:

22

se selecteaz blocul B2:K2, al variabilei x; se activeaz operaia de copiere prin <CTRL/C> sau din meniul Edit / Copy sau apsnd butonul dreapta al mouse-ului pe blocul selectat i se alege comanda Copy; se poziioneaz cursorul n celula blocului destinaie, de exemplu n N2; se apas butonul dreapta al mouse-ului i se alege Paste Special sau din meniul Edit, comanda
Paste Special, unde se bifeaz Values, pentru a transforma n valori rezultatul unor formule

pentru variabila x, nu este cazul, acestea fiind deja valori, rezultate prin editarea lor i
Transpose, apoi se confirm prin OK.

Blocul N2:N11 va conine valorile variabilei x, din Tabelul 1.2. Pentru transpunerea valorilor medii ale variabilei y se procedeaz la fel, selectnd blocul B19:K19, se depune blocul transpus n O2:O11, cu meniunea c la Paste Special se va bifa Values i Transpose. Prin transpunere, funciile de calcul ale mediilor din linia 19, =AVERAGE(...), i vor schimba adresele din argumentul lor, obinndu-se nite valori eronate i de aceea, formulele coninute n celulele B19:K19 trebuie transformate n valori, cu opiunea Values. Pentru c profiturile medii calculate (linia19) se afl pe o dreapt, regresia ntre valorile variabilei x i valorile medii ale variabilei y furnizeaz nite parametri, care utilizai n calculul valorilor teoretice corespunztoare, au ca rezultat valori identice cu mediile calculate din valorile observate ale variabilei y. Modelul liniar determin n totalitate, 100%, variaia acesteia, regresia exprimnd chiar aceast tendin medie de evoluie a lui y n funcie de x. Valorile medii ale profiturilor pe grupe, se afl pe dreapta de regresie a populaiei, dup cum se poate vedea i pe graficul din Figura 1.3. Valorile teoretice se obin prin modelul liniar determinat, n linia 22 din Tabelul 1.2. Dac, de exemplu, valorile parametrilor a0 i a1 se afl n celulele N23 i N24, atunci n celula B22 se scrie formula =$N$23+$N$24*B2, care se copiaz i pentru restul celulelor C22:K22. Celulele N23 i N24, sunt fixate prin folosirea simbolului $, astfel nct prin copierea formulei n restul celulelor, s nu se schimbe coloanele i linii. Cum acestea din urm nu se schimb, pentru c se face copierea pe orizontal, formula era la fel de corect dac se scria =$N23+$N24*B2. Se adaug nc o serie pe graficul din Figura 1.2, cea a valorilor teoretice din linia 22, i se obine graficul din Figura 1.3. Mediile profiturilor calculate pe grupe de salariai se pot abate de la valorile teoretice ale acestor medii condiionale, sub influena alegerii modelului. Un model bine ales va minimiza aceste abateri. Acest tip de variaie a mediilor condiionale se datoreaz factorului de grupare, numrul de salariai, variabila explicativ a variaiei profiturilor, cea nregistrat, a crei influen este

23

considerat n model. n acest caz mediile profiturilor calculate pe grupe de salariai coincid cu valorile lor teoretice, aflate pe dreapta de regresie a populaiei. Suma celor dou tipuri de variaie: din interiorul grupelor i dintre variantele de grupare, reprezint variaia total a profiturilor datorat tuturor factorilor, i se exprim prin totalitatea abaterilor valorilor observate ale profiturilor fa de nivelul lor mediu calculat (media mediilor grupelor). Aciunea factorilor reziduali apare n modelul liniar de regresie a populaiei sub termenul de
disturban sau eroare, i, iar la nivel de eantion, ca reziduu, ei.

8. Funcia de regresie a eantioanelor


La nivelul populaiei, ntre valorile teoretice ale modelului liniar E ( y / xi ) = a0 + a1 xi i valorile observate y i , exist abateri, numite la nivel de colectivitate, erori i se noteaz i . Erorile sunt rezultatul influenei factorilor nenregistrai n ecuaia de regresie, care fac s existe abateri ntre valorile empirice i cele teoretice. Valorile observate ale profiturilor, la nivel de populaie statistic, se pot scrie
y i = E ( y / xi ) + i = a0 + a1 xi + i .

Funcia de regresie a populaiei E(y / xi) = a0 + a1xi se poate estima prin funcia de regresie a i = a 0 + a 1 xi i atunci y i reprezint un estimator pentru E(y / xi). unui eantion y La nivel de eantion, n modelul liniar, erorile se estimeaz prin reziduuri i se noteaz ei . i = a 0 + a 1 xi , iar valorile observate n eantion sunt Modelul liniar la nivel de eantion este y 0 + a 1 x i + ei = y i + ei . descrise de ecuaia y i = a n Figura 1.4 se prezint grafic termenul de eroare i cel de reziduu, dispunnd de un eantion oarecare extras din populaia statistic. Se cunosc dreaptele de regresie a eantionului i a populaiei. Se poate exprima funcia de regresie a populaiei cunoscnd datele dintr-unul sau mai multe eantioane? Din populaia de societi comerciale, prezentat anterior, s-au extras dou eantioane aleatoare, prezentate n Tabelul 1.3. Din cele 120 de societi s-au extras 10 n primul eantion i 10 n al doilea. S-au nregistrat valorile numrului mediu lunar de salariai, x i profitul mediu lunar, y, pentru fiecare din cele 10 firme. Pentru fiecare eantion se va stabili ecuaia de regresie a

24

1 ai parametrilor a0 i a1 ai ecuaiei de regresie 0 i a eantionului. Aceasta va conine estimatorii a

i = a 0 + a 1 x i . a populaiei. Modelul liniar de regresie a eantionului va fi: y


210

Dreapta de regresie a populaiei i a eantionului

190

170

150

yi 130

i e i
i y
110

90

E(y/xi)

70 0 50 100 150 200 250 300 350 400 450 500 550

yes

ytes

ytpop

Figura 1.4. Valorile observate din eantion, dreapta de regresie a eantionului i a populaiei Pentru fiecare din cele dou eantioane valorile estimate ale parametrilor a0 i a1 , difer ntre ele, pentru c unitile statistice au fost extrase la ntmplare i fa de parametri, pentru c un eantion nu poate reproduce identic colectivitatea din care a fost extras. Folosind pe rnd, pentru fiecare eantion funciile intercept i slope se pot determina valorile estimate pentru a0 i respectiv, a1 .
01 i pentru a 11 , Pentru primul eantion, n celula A42: =INTERCEPT(B31:B40,A31:A40) pentru a

n celula A43: =SLOPE(B31:B40,A31:A40).


0 2 i pentru Pentru al doilea eantion, n celula D42: =INTERCEPT(E31:E40,D31:D40) pentru a

1 2 , n celula D43: =SLOPE(E31:E40,D31:D40). a Astfel pentru primul eantion se determin urmtoarele rezultate: 1 un coeficient de corelaie liniar ntre variabilele x i y, de rxy = 0.943 , care arat o legtur de

intensitate mare i se obine cu funcia =CORREL(B31:B40,A31:A40), n celula A44; 11 = 0.26 , modelul este y i 1 = 69.78 + 0.26 xi ; 01 = 69.78 i a estimatorii a un coeficient de determinaie R2=0.8893, care arat un model valid, bine ales, care explic variaia variabilei y, ntr-o proporie de 88.93%;

25

i 1 , se afl n coloana C, din Tabelul 1.3. n celula C31, formula Valorile teoretice corespunztoare y

=A$42+A$43*A31 se copiaz n blocul C32:C40. A


29 30 31 32 33 34 35 36 37 38 39 40 42 43 44 xi 50 50 100 100 200 200 300 300 350 500 69.7836 0.2573 0.9430

C
eantion 1 yi 60 83 107 110 120 125 152 155 135 204 01 a rxy1
1 1 a

D
i y 83 83 96 96 121 121 147 147 160 198
1

E
xi 50 150 200 250 300 350 400 400 450 500 72.6035 0.2305 0.9764

F
eantion 2 yi 92 105 120 125 136 153 156 170 170 202 0 2 a i 2 y 84 107 119 130 142 153 165 165 176 188

1 2 a rxy2

Tabelul 1.3. Cele dou eantioane extrase din populaie Aceste rezultate se pot obine i folosind procedura Regression din meniul Tools, opiunea
Data Analysis. Se realizeaz tabela de regresie pentru primul eantion, declarndu-se variabila

dependent (Input Y Range), blocul B31:B40, variabila independent (Input X Range), blocul A31:A40, iar la Output Range, celula care va fi din colul stnga sus al tabelei de regresie, de exemplu K27. n Tabelul 1.4 este prezentat tabela de regresie obinut n Excel pentru primul eantion. n tabela de regresie se regsesc estimatorii i indicatorii calculai mai sus.
SUMMARY OUTPUT eantionul 1 Regression Statistics Multiple R 0.943 R Square 0.8893 Adjusted R Square 0.8755 Standard Error 14.1781 Observations 10 ANOVA df SS Regression 1 12924.74 Residual 8 1608.161 Total 9 14532.9 Coeff. Standard Error Intercept 69.784 8.2275 X Variable 1 0.2573 0.0321

MS F Signif. F 12924.7 64.29573 4.29E-05 201.02 t Stat 8.4817 8.0185 P-value 2.86E-05 4.29E-05 Lower 95% 50.811 0.183 Upper 95% 88.756 0.331

Tabelul 1.4. Tabela de regresie pentru eantionul 1

26

Pentru al doilea eantion se determin cu funcii sau din tabela de regresie, urmtoarele rezultate: 2 un coeficient de corelaie liniar ntre variabilele x i y, de rxy = 0.9764 , care arat o legtur de

intensitate mare i se poate obine cu funcia =CORREL(E31:E40,D31:D40) n D44; 1 2 = 0.23 , n celula D43, iar modelul este 0 2 = 72.6 , n celula D42 i a estimatorii: a
i 2 = 72.6 + 0.23 xi ; y

un coeficient de determinaie R2=0.9534, care arat c modelul liniar este bine ales i explic variaia variabilei y, ntr-o proporie de 95.34%, mai mare dect n cazul primului eantion;

i 2 se afl n coloana F, din Tabelul 1.3 i sunt calculate prin Valorile teoretice corespunztoare y

copierea formulei =D$42+D$43*D31 din celula F31, n F32:F40. Se realizeaz tabela de regresie pentru al doilea eantion, la Input Y Range se declar E31:E40, la Input X Range, D31:D40, iar la Output Range, de exemplu, celula U27. Tabela de regresie pentru al doilea eantion este prezentat n Tabelul 1.5.
SUMMARY OUTPUT eantionul 2 Regression Statistics Multiple R 0.9764 R Square 0.9534 Adjusted R 0.9475 Square Standard Err 7.694 Observations 10 ANOVA df SS MS F Signif. F Regression 1 9681.317 9681.317 163.5416 1.32E-06 Residual 8 473.583 59.19787 Total 9 10154.9 Coeff. Standard Err t Stat P-value Lower 95% Intercept 72.6035 6.0113 12.0778 2.04E-06 58.7414 X Variable 1 0.2305 0.0180 12.7883 1.32E-06 0.1889

Upper 95% 86.4656 0.2720

Tabelul 1.5. Tabela de regresie pentru eantionul 2 Pe graficul din Figura 1.5 s-au reprezentat: dreapta de regresie a populaiei (n legend, ymed. teoretic), declarnd la X Values blocul B2:K2, iar la Y Values, blocul B22:K22, valorile variabilei y pentru primul eantion (n legend, y1), la X Values s-a declarat blocul variabilei x, adic A31:A40, iar pe axa Oy, la Y Values, B31:B40 i dreapta de regresie a primului eantion,
i 1 (n legend, yt1), la X Values declarndu-se A31:A40, iar la Y Values, valorile teoretice y

C31:C40.

27

230 210 190 170


profit (mii euro)

Ajustarea profitului n funcie de numr de angajai-e antionul 1

150 130 110 90 70 50 0 50 100 150 200 250 300 350 400 450 500 550

ymed.teoretic

y1

yt1

numr angajai (persoane)

Figura 1.5. Valorile empirice din eantionul 1 i ajustarea lor Graficul din Figura 1.6, conine: dreapta de regresie a populaiei (n legend, ymed. teoretic), valorile variabilei y pentru eantionul al doilea (y2), la X Values s-a declarat blocul variabilei x, adic D31:D40, iar la Y Values, E31:E40 i dreapta de regresie a eantionului al
i 2 (yt2), blocul F31:F40. doilea, y
Ajustarea profitului n funcie de numrul de angajai - e antionul 2
210 190 170
profit (mii euro)

150 130 110 90 70 50 0 50 100 150 200 250 y2 300 350 yt2 400 450 500 550 ymed.teoretic
numr angajai (persoane)

Figura 1.6. Valorile empirice din eantionul 2 i ajustarea lor

28

Pe graficul din Figura 1.7 s-au reprezentat: dreapta de regresie a populaiei (n legend, ymed. teoretic), valorile variabilelor y pentru cele dou eantioane (n legend, y1 i y2), cele dou
drepte de regresie ale eantioanelor (yt1 i yt2).
Ajustarea liniar a profitului n funcie de numrul de angajai
230 210 190
profit (mii euro)

170 150 130 110 90 70 50 0 50 100 150 200 y1 250 y2 300 yt1 350 yt2 400 450 500 550 ymed.teoretic
numr angaja i (persoane)

Figura 1.7. Valorile empirice din eantioane i ajustrile lor Legenda graficului arat aceeai marcatori pentru valorile empirice observate ale profiturilor medii lunare i marcatori diferii pentru fiecare din cele trei drepte de regresie. Comparnd ecuaiile de regresie ale celor dou eantioane:
i 1 = 69.78 + 0.26 xi , y i 2 = 72.6 + 0.23 xi cu ecuaia de regresie a populaiei: E ( y / xi ) = 66.86 + 0.25 xi , se observ c y 1 sunt apropiai de valoarea a1 , din regresia populaiei. estimatorii a

Dac s-ar alege un eantion de volum mai mare, n=20, de exemplu, cele dou eantioane
i 3 = 71.64 + 0.24 xi , cu un reunite ntr-unul singur, n Tabelul 1.6, atunci noul model obinut este: y

coeficient de corelaie r = 0.9566 i un coeficient de determinaie R2=0.9152.


xi 50 50 50 100 100 150 200 200 200 250 300 300 yi 60 83 92 107 110 105 120 125 120 125 152 155

i3 y
84 84 84 96 96 108 120 120 120 132 144 144

300 350 350 400 400 450 500 500 50 71.643 0.239 0.956 rxy3

136 135 153 156 170 170 204 202 60

144 156 156 168 168 180 192 192 84

03 a

1 3 a
0.915 R2

Tabelul 1.6. Eantionul 3 i ajustarea prin estimatorii si 29

Dreapta de regresie obinut pe baza datelor din eantionul 3 i prezentat n Figura 1.8, difer de celelalte dou, anterior calculate; valorile teoretice sunt diferite, pentru c i valorile estimate ale coeficienilor a 0 i a1 sunt diferite.
3

Ajustarea profitului n funcie de numrul de angajai - e antionul 3


230 210 190
profit (mii euro)

170 150 130 110 90 70 50 0 50 100 150 200 250 y 300 350 yt 400 450 500 550 ymed.teoretic
numr angaja i (persoane)

Figura 1.8. Valorile empirice din eantionul 3 i ajustarea lor Modelul calculat pe baza datelor din eantionul al doilea are un coeficient de determinaie mai mare dect celelalte dou eantioane. Acesta poate fi o variant mai bun, pentru estimarea parametrilor ecuaiei de regresie a populaiei, dect celelalte dou modele. Se poate afirma ns, c fiecare din cele trei modele prezentate, este bun, datorit valorii mari a coeficientului de determinaie, R2.

9. Exerciiu - Calculul estimatorilor modelului de regresie simpl


Referitor la funcia dintre consum i venit, Keynes spune: Legea psihologic fundamentaleste c oamenii sunt dispui de regul i n medie, s i creasc consumul pe msur ce le crete venitul, dar nu tot cu att cu ct crete venitul; aceasta este nclinaia marginal spre consum, care este mai mare ca 0 i mai mic dect 1. Dei Keynes nu specific forma funcional exact a relaiei dintre consum i venit, pentru simplitate, se poate presupune c este liniar.

Pentru exemplul numeric, va fi considerat un eantion de 10 familii, dintr-o populaia ipotetic, pentru care se cunosc cheltuielile de consum i veniturile lunare, exprimate n i prezentat n Tabelul 1.7.
1 , dispersia reziduurilor, varianele i erorile standard 0 i a Se cer estimaiile coeficienilor a

ale estimatorilor, covariana lor, coeficientul de corelaie i coeficientul de determinaie. Se recomand utilizarea formulelor prezentate mai sus i apoi pentru verificare, utilizarea tabelei de regresie din Tools / Data Analysis / Regression. Cheltuieli de Venitul xi i y consum yi 70 80 65.18 65 100 75.36 90 120 85.55 95 140 95.73 110 160 105.91 115 180 116.09 120 200 126.27 140 220 136.45 155 240 146.64 150 260 156.82 Tabelul 1.7. Analiza cheltuielilor n funcie de venituri 0 Valorile teoretice obinute, dup estimarea coeficienilor a i = 24.45 + 0.51xi sunt prezentate n Tabelul 1.7. y
1 , cu modelul: i a

10. Consecine ale ipotezelor: construirea testelor


Pe baza ipotezelor modelului liniar de regresie se pot construi: teste de verificare a semnificaiei estimatorului varianei erorilor i intervalul de ncredere al estimatorului varianei erorilor, ca fiind consecine ale ipotezei de normalitate a erorilor;
1 ai parametrilor a 0 i a1 din ecuaia de 0 i a teste de verificare a semnificaiei estimatorilor a

regresie a populaiei, precum i intervalul lor de ncredere, estimat cu o anumit probabilitate; testul Fisher de verificare a semnificaiei globale a regresiei.

31

10.1. Exerciiu - Rolul termenului aleator


Termenul t din modelul regresiei simple: y t = a0 + a1 xt + t (t=1,n - dac modelul este specificat n serie temporal) sintetizeaz ansamblul informaiilor neexplicate de model, multitudinea de ali factori, n afara lui x, care sunt susceptibili de a explica pe y. Acest termen t, msoar diferena ntre valorile reale observate ale lui y, i valorile care ar fi fost observate, dac relaia specificat ar fi fost riguros exact. Termenul aleator regrupeaz trei feluri de erori: - o eroare de specificare, care se datoreaz faptului c o singur variabil explicativ nu este suficient pentru a caracteriza fenomenul de explicat, n ansamblul su; - o eroare de msurare - datele nu reprezint exact fenomenul; - o eroare de fluctuaie a eantionrii - de la un eantion la altul, observrile i estimatorii sunt uor diferii.

Exerciiul folosete datele din Tabelul 1.8, care reprezint venitul mediu lunar/locuitor, exprimat n dolari, pentru o ar, n perioada 1993-2002.

Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

Venit 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000

Tabelul 1.8. Evoluia venitului mediu lunar/locuitor ($)

tiind c nclinaia marginal spre consum este 0.8 i consumul incompresibil (sub care nu se poate asigura un trai normal) este 1.000, se cere: a) S se calculeze consumul teoretic n perioada 1993 - 2002. b) Considernd c erorile de observare urmeaz o lege normal de medie 0 i varian 20000, s se genereze un consum aleator. 32

Consumul teoretic se calculeaz prin formula:

y t = 1000 + 0.8 xt , unde xt este

venitul/locuitor, iar yt este consumul/locuitor. Generarea variabilei aleatoare se realizeaz cu un generator de numere aleatoare, t N(0; 20000). Media i variana acestor erori generate, sunt uor diferite de valorile teoretice: 19 fa de 0, respectiv, 10056, fa de 20000. Aceste diferene reprezint o consecin a extragerii unui eantion de volum mic (zece observri). Consumul observat se calculeaz adugnd la consumul teoretic, obinut cu modelul de regresie a populaiei: yt=1000+0.8+t., erorile de observare, generate. Acesta este un demers invers, pentru a pune n eviden rolul erorilor i distincia ntre ecuaia de regresie a populaiei i cea a eantionului. n realitate valorile observate conin deja erorile. Valorile observate sunt empirice, reale, i nu se pot obine invers prin adgarea erorilor (necunoscute, dealtfel) la valorile teoretice. Generarea de numere aleatoare se poate realiza, de exemplu, cu o comand: =(RAND()*100+RAND()*100)*(-1)^(ROUND(RAND()*10,0). Aceast formul poate fi diferit, de cea prezentat (se poate nmuli, de exemplu, rezultatul generrii prin funcia RAND(..), care este un numr subunitar pozitiv, cu 200, 500 sau 1000), care conine nmulirea cu (-1) ridicat la o putere obinut ca partea ntreag a unui numr pn la 10, pentru a genera i erori negative. Formula odat scris pentru primul an 1993, se copiaz i pentru restul anilor. Se vor obine rezultate diferite ale erorilor la fiecare nou operaie pe spreadsheet. De aceea, se recomand ca atunci cnd s-au generat nite erori, care s ndeplineasc condiiile pentru medie i dispersie, aceste valori s se transforme cu Values, prin copiere n acelai bloc de celule, cu Paste Special. Rezultatele obinute de cei care lucreaz acest exerciiu nu pot fi identice cu cele din Tabelul 1.9 (cu excepia cazului cnd, se prefer s se lucreze cu erorile generate aici). Calculele pentru ntrebrile a) i b) sunt prezentate n Tabelul 1.9. Tabela de regresie y=f(x), unde valorile xt reprezint veniturile observate, iar yt, consumurile
1 = 0.804 , un coeficient de 0 = 971.56 i a observate, furnizeaz estimaiile coeficienilor: a

corelaie de 0.99893, care indic o intensitate puternic ntre consum i venit, precum i un coeficient de determinaie de 0.9979, foarte apropiat de 1, care arat ca modelul liniar al venitului este foarte bun pentru explicarea variaiei consumului/locuitor.

33

(date convenionale)
Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 media dispersia

t populaie y
7400 8200 8600 8600 8840 9800 10600 11400 13000 13800

Erori et -103 143 -145 72 65 131 -91 58 64 -2 19 10056

yt observat 7297 8343 8455 8672 8905 9931 10509 11458 13064 13798

t regresie y
7405 8210 8612 8612 8853 9818 10622 11427 13035 13839

Tabelul 1.9. Calculele n ordine invers, prin generarea erorilor Graficul din Figura 1.9 este de tip Scatter (X,Y) i prezint corelaia dintre venitul/locuitor i consumul/locuitor. Consumul observat este sub forma unor puncte aflate de o parte i de alta a t = 971.56 + 0.804 xt , dup cum erorile au fost pozitive sau negative. Se dreptei de regresie: y 0 i a 1 , au valori apropiate de parametri modelului de regresie a populaiei observ c estimatorii a a0 i a1 .

15000 14000 13000 consumul/locuitor 12000 11000 10000 9000 8000 7000 7000

Corelaia dintre venitul i consumul pe locuitor

9000 y

11000

13000 y teoretic

15000

17000

venitul/locuitor

Figura 1.9. Corelaia dintre venitul i consumul mediu lunar, pe locuitor

34

Evolutia in timp a consumului si venitului pe locuitor


18000 16000 14000 $/locuitor/an 12000 y 10000 8000 6000 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 anii x yt-regr

Figura 1.10. Evoluia consumului i venitului mediu lunar, pe locuitor n perioada 1993-2002 Graficul din Figura 1.10, de tip Line, fiind o cronogram, prezint evoluia n timp a consumului teoretic calculat cu ecuaia de regresie a eantionului, a consumului observat i a venitului care fiind cam de acelai ordin de mrime i aceeai unitate de msur se pot reprezenta mpreun pe acelai grafic. Evoluia asemntoare, n timp, a celor dou variabile: venitul i consumul, arat existena unei legturi puternice, ntre ele. n exerciiul prezentat, valorile adevrate a0 i a1 , sunt perfect cunoscute: a 0 = 1000 , i
a1 = 0.8 . n realitate, aceste valori nu se cunosc; ci numai consumurile i veniturile medii,

observate pe locuitor n perioada celor 10 ani, adic coloanele: xt i yt. 0 i a 1 , sunt variabilele aleatoare, care urmeaz aceeai lege de Estimatorii coeficienilor a probabilitate ca i t, pentru c sunt funcie de aceast variabil aleatoare. Mediile i abaterile standard ale acestor estimatori permit construirea testelor de validitate a modelului.

10.2. Testul de semnificaie al estimatorilor


Ipoteza de normalitate a erorilor t N (0; 2 ) permite definirea legii de probabilitate a 2 este egal cu: 2 = estimatorilor. Estimatorul varianei erorilor 2 , notat:
2 a varianei estimatorului lui a1 este: 1 =

e
i

2 i

n2

. Estimaia

(x
i

2
i

x)2

35

Ipoteza de normalitate a erorilor implic: (n 2) 1 a1 a i


0 a0 a

2 urmeaz o lege 2 cu n-2 grade de libertate. 2

urmeaz o lege normal centrat redus N(0,1).

(n 2)

2 2 a = n urmeaz o lege 2 cu n-2 grade de libertate. ( 2 ) 2 2 a

Rezult c:

0 a0 a urmeaz o lege Student cu n-2 grade de libertate; a 0 1 a1 a urmeaz o lege Student cu n-2 grade de libertate. a 1

Testul de semnificaie al estimatorilor i intervalele de ncredere ale acestora apar ca fiind consecine ale ipotezei de normalitate a erorilor.

Utiliznd datele din exerciiul prezentat, se cere: a) nclinaia marginal spre consum este semnificativ diferit de 0? b) Care este intervalul de ncredere, la un nivel de semnificaie de 95%, pentru nclinaia marginal spre consum? n cazul unui rspuns negativ la prima ntrebare - coeficientul a1 nu este semnificativ diferit de 0, variabila explicativ venitul anual/locuitor, nu va fi considerat ca fiind explicativ pentru consum, pentru c are un coeficient de ponderare nul. Problema se rezolv pornind de la teoria testelor, folosind urmtoarele ipoteze: - ipoteza nul - ipoteza alternativ H0: a1 = 0 H1: a1 0

Dac se respinge ipoteza nul H0, la un prag fixat, atunci nclinaia marginal spre consum este considerat, ca fiind semnificativ diferit de 0. Pragul de semnificaie cel mai des utilizat este =0.05, adic un risc de a respinge H0, n mod nentemeiat, de 5%. Sub ipoteza H0, relaia 0 a 1 a1 a a devine 1 = 1 = ta 1 , care urmeaz o lege Student cu n-2 a 1 1 1 a a

grade de libertate i t a 1 se numete raie Student.

1 este, cea din Figura 1.11: Distribuia de eantionaj a estimatorului a

36

H0 cu probabilitatea P=1-

H1 /2

t n 2 grd .lib.
/ 2 = 0.025

H1 /2 I a1
/ 2 = 0.025 + tn 2 grd .lib .

1 Figura 1.11. Distribuia de eantionare a estimatorului a


0.025 Regula de decizie pentru un prag =0.05 este urmtoarea: dac t a 1 > t n 2 se respinge H0; se

accept H1 (a1 0) . Coeficientul este semnificativ diferit de 0, variabila explicativ contribuie la explicarea variaiei lui y.
0.025 se accept H0 (a1 = 0) , se respinge H1. Coeficientul nu este semnificativ Dac t a 1 < t n 2

diferit de 0, variabila explicativ nu contribuie la explicarea variaiei lui y. 0 + a 1 xt + et se pot estima valorile teoretice y t , prin ecuaia de regresie: Cu modelul y t = a t = a 0 + a 1 xt , concret: y t = 971.56 + 0.804 xt . y 2 = t , dispersia lor: Se pot calcula reziduurile et = yt y Aplicnd 1 ) = V (a formulele, se pot obine: estimaia

e
i

2 i

n2

(y
i

i )2 y .
1 : a

n2

varianei 1 a . a 1

estimatorului

(x
i

2
i

x)2

a 1 ) i raia Student t a , abaterea sa: 1 = 1 = V ( a

Dispersia reziduurilor se poate obine i prin ridicarea la puterea a 2-a a valorii Standard Error din tabela de regresie, care reprezint abaterea medie ptratic a valorilor yt fa de valorile t . Raia Student este calculat i n tabela de regresie, care se poate vedea n Tabelul sale teoretice y 1.10, partea referitoare la coeficieni. Se compar valoarea calculat a raiei Student cu cea teoretic, din tabelele statistice ale funciei Student, pentru n-2 grade de libertate i un prag de semnificaie /2.
Coeff. Intercept X Variable 1 971.556 0.804 Standard Error 152.54 0.013 t Stat 6.37 60.95 P-value 0.000216 5.83E-12 Lower 95% 619.79 0.774 Upper 95% 1323.32 0.835

Tabelul 1.10. Estimatorii regresiei liniare simple i intervalele lor de ncredere 37

Dac se utilizeaz tabela de regresie nu mai este nevoie de compararea amintit, pentru ca Excel-ul furnizeaz la P-value, valoarea pragului de semnificaie , care aici, este foarte mic, aproape 0, deci probabilitatea P=1-, de garantare a rezultatelor este de 100%.
ta 1 =

1 a 0.8042 0.025 = = 60.95 > t 8 = 2.306 . a 0.0132 1

Se respinge ipoteza nul, estimatorul coeficientului a1 este semnificativ diferit de 0, se accept ipoteza H1: a1 0 . 0 este semnificativ diferit de 0. Valoarea raiei Student este 6.369 > 2.306, i estimatorul a fapt indicat i de P-value care este de 0.0216%.

10.3. Intervalul de ncredere al estimatorilor


/2 1 a Intervalul de ncredere al parametrului a1 este: IC a1 = a 1 t n 2 .

Fie

1 a1 1 a1 a a /2 = tn urmeaz o lege Student cu n-2 grade de libertate. Pentru un nivel 2 , unde a a 1 1

de semnificaie 0.95: IC a1 = 0.804 0.0132 2.306 . Intervalul de ncredere este [0.77; 0.83]. n acest exerciiu, se tie ca valoarea lui a1 este de 0.8, deci este cuprins n interval. Exist un risc de 5% ca adevratul coeficient s se gseasc n exteriorul acestui interval. Se constat c acest interval nu cuprinde valoarea 0, ceea ce este coerent cu rezultatul diferenei semnificative fa de 0 a coeficientului. 0 este de [619.8 , 1323.3]. n acest exerciiu, Intervalul de ncredere pentru estimatorul a valoarea parametrului a0 este 1000, i este cuprins n intervalul de ncredere.

10.4. Tabelul de analiz a varianei testul Fisher


Tabelul de analiz a varianei din tabela de regresie este prezentat n Tabelul 1.11. Testul empiric F * de analiz a varianei este: F* = 41494953.7 / 1 SCE / 1 = = 3715.068 , unde SCR /( n 2) 11169.367 / 8

F * urmeaz o lege Fisher cu 1 i 8 grade de libertate. Pentru =5%, valoarea teoretic este F10si.05 8 = 5.32 .

38

ANOVA Regression Residual Total

df 1 8 9

SS 41494954 89354.94 41584309

MS 41494953.7 11169.3673

F 3715.068

Significance F 5.83E-12

Tabelul 1.11. tabelul ANOVA pentru regresia liniar simpl Testul Fisher n funcie de coeficientul de determinaie, R2, este: F* = 0.9978 0.9978 R2 = = = 3715 . 2 (1 R ) /(n 2) (1 0.9978) /(10 2) 0.0002686

.05 Cum F * > F10 = 5.32 , se accept ipoteza H1, variana explicat difer semnificativ de cea a .8

1 , este semnificativ, regresia este global reziduurilor, deci coeficientul variabilei explicative, a

semnificativ.
2 2 La regresia simpl: F = (t a 1 ) = (60.95135) = 3715.068 , pentru c semnificaia global a

1 . regresiei se rezum la verificarea semnificaiei coeficientului a

11. Intervalul de ncredere al previziunii cu modelul regresiei simple


Dup estimarea coeficienilor modelului de regresie simpl, se poate trece la calculul unei previziuni pentru un orizont de previziune h. 0 + a 1 xt + et . Dac valoarea variabilei Pentru perioada t=1,2,,n, fie modelul estimat y t = a n +1 = a 0 + a 1 xn +1 . explicative xt este cunoscut la momentul n+1(xn+1), previziunea este dat de: y n +1 i se poate scrie: Eroarea de previziune este: en +1 = y n +1 y 0 + a 1 x n +1 ) = (a 0 a 0 ) + (a1 a 1 ) x n +1 + n +1 . en +1 = (a 0 + a1 x n +1 + n +1 ) (a Fcnd apel la ipotezele modelului E (en +1 ) = 0 i E (en + h ) = 0 . O previziune nedeplasat se obine prin aplicarea direct a modelului de regresie estimat. n practic, cunoaterea unei previziuni este puin util, dac nu se tie gradul de ncredere care s i se acorde. Se calculeaz variana erorii de previziune care permite determinarea unui interval de ncredere pentru previziune.
y n +1 = Abaterea medie ptratic a erorii de previziune este: 1 ( x n +1 x ) 2 + n +1 . n 2 ( xt x )
t =1

39

n aceast formul, variana erorii de previziune este funcie de abaterea medie ptratic ntre variabila exogen prevzut i media aceleiai variabile: cu ct acest valoare prevzut se abate mai mult de la media sa, cu att riscul erorii este mai important. Totodat se observ c variana erorii de previziune este o funcie invers a variabilitii seriei explicative. Ipoteza de normalitate a erorilor, t, permite determinarea intervalului cu o ncredere P=1-: Fie raportul t = n +1 y n +1 y 1 + n ( x n +1 x ) 2 = +1 0 + a 1 x n +1 y n +1 a 1 + n ( x n +1 x ) 2 t n 2 (care urmeaz o lege +1

(x
t =1

x)

(x
t =1

x)

Student cu n-2 grade de libertate). Rezult intervalul de ncredere IC al variabilei y la n+1:


/2 n +1 t n ICy n +1 = y 2

1 ( x n +1 x ) 2 + +1 n ( xt x ) 2
t

Caz particular: Cnd se utilizeaz modelul regresiei simple pentru o serie cronologic, se calculeaz dreapta de tendin dup modelul specificat astfel: 0 + a 1t + et pentru t=1,2,,n. Tt = a Pentru a calcula previziunea pentru orizontul h, se nlocuiete valoarea variabilei t cu n+h pentru 0 + a 1 (n + h) + et , iar intervalul de ncredere se gsete pe dou brae de hiperbol: extrapolare: Tt = a (n + h t ) 2 , ilustrate n graficul din Figura 1.12:

Figura 1.12. Intervalul de ncredere pentru previziunea prin extrapolarea tendinei

11.1. Exerciiu - Previziuni ale variabilei endogene


Tabelul 1.12 conine cheltuielile de consum medii lunare/locuitor, yt i venitul mediu lunar/locuitor, xt, exprimat n $, pentru ara A, n perioada 1993-2002.

40

(date convenionale)
Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 media Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 11280 Consumul yt 7410 8267 8664 8645 8921 9766 10645 11425 12963 13714

Tabelul 1.12. Venitul i consumul mediu lunar/locuitor Pentru aceste date, modelul consum - venit estimat este: y t = 1186.45 + 0.785 xt + et (20.97) (160.4) (.) = raia t Student; n = 10. 1) S se calculeze coeficientul de determinaie i s se efectueze testul Fisher, prin care se determin dac regresia este global semnificativ. 2) Care este consecina asupra consumului a unei creteri de 8% a venitului? 3) n 2003 i 2004 se prevd venituri de 16800$ i 17000$ venit/locuitor. S se determine previziunea consumului pentru cei doi ani, i intervalele de ncredere cu o probabilitate de 95%.
Soluie:

1) Pentru a calcula coeficientul de determinaie se utilizeaz relaiile testului Fisher empiric, prezentate n paragraful 1.7. Se utilizeaz formulele din paragraful 1.5, n Tabelul 1.13. Se calculeaz dispersia reziduurilor, apoi abaterea reziduurilor, care se regsete n prima parte a tabelei de regresie, la Standard Error. Dispersia reziduurilor se utilizeaz n formulele de calcul ale varianelor estimatorilor. Abaterile estimatorilor, calculate cu funcia =SQRT(), se

1 se calculeaz regsesc n partea a treia a tabelei de regresie; raia Student pentru estimatorul a
raportnd estimatorul la abaterea sa i se afl n coloana t-Stat.
* 2 * 2 F * = ( ta 1 ) = ( 160.4 ) = 25730.77 , unde t , este testul Student empiric al estimatorului a1 .

n
n

Tabelul

1.13
n

s-au

calculat

valorile:

SSR

(Sum

Squares
n

of

Residues)

t ) 2 = et2 ; SSE (Sum Squares Explained) SSE = ( y t y ) 2 ; SST (Sum SSR = ( y t y


t =1 t =1 n t =1

Squares Total) SST = ( y t y ) 2 .


t =1

Se verific relaia dintre aceste sume: SST = SSR + SSE . Testul Fisher se poate calcula ca raport ntre dou dispersii corectate cu gradele de libertate, ntotdeauna cea explicat raportat la cea 41

rezidual: F =

SSE / 1 . Valorile sumelor se regsesc n tabelul ANOVA, unde valoarea foarte SSR /(n 2)
globale a regresiei liniare. Acelai rezultat se obine i cu formula:

mic a pragului de semnificaie Significance F arat o probabilitate de 100% de garantare a semnificaiei

F* =

R2 .05 , R 2 = r 2 = 0.99967 . Se calculeaz i F * = 25730.77 > F10 si .8 grd .lib . = 5.35 , 2 (1 R ) /(n 2)

arat c regresia i implicit variabila explicativ (singura) este semnificativ. Se observ c valoarea Fisher calculat dup oricare din formule, este aceeai i este egal cu cea furnizat de tabela de regresie. De asemenea se mai poate verifica valoarea coeficientului de determinaie: R 2 =

SSE sau SST

R2 = 1

SSR = 1 N 2 , unde N2 este coeficientul de nedeterminaie. SST


Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 medii sume Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 16800 17000 11280 pn n 2002 10042 pn n 2002 64156000 disp. rezid SUMMARY OUTPUT Regression Statistics Multiple R R Square Adj. R Sq. Std. Err Obs. ANOVA Regression Residual Total Intercept XVariable1 0.9998 0.9997 0.9997 39.20 10 df 1 8 9 Coeff. 1186.45 0.785 SS 39541188 12293.82 39553482 Std. Error 56.581 0.00489 MS 39541188 1536.727 t Stat 20.969 160.408 abatere.rez.
0 ) var(a
0 ) abat. ( a

Consum yt 7410 8267 8664 8645 8921 9766 10645 11425 12963 13714

yteoretic
7467 8252 8645 8645 8880 9822 10607 11392 12962 13748 14376 14533

( xt x ) 2
10758400 5198400 3168400 3168400 2190400 78400 518400 2958400 13838400 22278400

t )2 ( yt y
3247.1 223.5 377.0 0.2 1672.6 3156.4 1425.2 1068.4 0.3 1123.1

t y) 2 (y
6630711.4 3203923.4 1952776.1 1952776.1 1350006.5 48320.175 319504.83 1823347 8529004 13730819

( yt y) 2
6927424 3150625 1898884 1951609 1256641 76176 363609 1912689 8532241 13483584

SSR 12293.8 1536.73 39.20 3201.41 56.58 2.39E-05 0.00489 160.408 25730.775 Signific.F 2.5522E-15

SSE 39541188 SSR+SSE

SST 39553482 39553482

1 ) var(a 1 ) abat. (a Raiat (a 1 )

Fisher F 25730.775

P-value 0.000 0.000

Lower 95% 1055.978 0.774

Upper95% 1316.931 0.796

Tabelul 1.13. Calculele i tabela de regresie 2) Creterea cu 8% a venitului duce la o cretere mai mic a consumului, i anume de 6.28%.
42

1 xt ; y t = 0.785xt = 0.785 0.08 = 0.0628 y t = a 3) Cunoscndu-se valorile veniturilor, previziunile cheltuielilor de consum n anii 2003 i 2004, se calculeaz ca previziuni punctuale, utiliznd modelul estimat: 2003 = 1186.45 + 0.787 x 2003 = 1186.45 + 0.785 16800 = 14376 y 2004 = 1186.45 + 0.787 x 2004 = 1186.45 + 0.785 17000 = 14533 y Se pot calcula intervalele de ncredere, pentru previziunile celor doi ani:
2003 t n 2 ICy 2003 = y Se cunosc informaiile: n=10; = 39.2 ,
/2

1 ( x 2003 x ) 2 1 ( x 2004 x ) 2 /2 2004 t n 2 + + 1 ; ICy 2004 = y + +1 n ( xt x ) 2 n ( xt x ) 2


t t

(x
t

/2 x ) 2 = 64156000 , x = 11280 , t n 2 = 2.306 .

Pentru anul 2003: x 2003 = 16800 ; ICy 2003 = 14376 2.306 49.2 ; IC2003 = [14262 , 14489]. Previziunea are o ans de 95%, s se afle n interiorul intervalului. Pentru 2004: x 2003 = 17000 ; ICy 2004 = 14533 2.306 49.74 ; IC2004 = [14418 , 14647], cu o probabilitate de 95%.

12. Exerciiu - Compararea coeficienilor de regresie


(Problem preluat i adaptat din Econometrie, Regis Bourbonais, Ed. Dunod, Paris, 1993)

Un economist specialist n managementul resurselor umane se intereseaz de legtura dintre salariu i durata studiilor. El dispune de un eantion de 40 de brbai i 25 de femei, avnd aceeai vrst i crora le nregistreaz salariul pe un an (yi) exprimat n milioane lei i numrul de studii (xi), exprimat n ani de studiu. Estimaiile sunt urmtoarele: Pentru brbai: y i = 112.80 + 1.8 xi + ei , i=1,2,,40 ni=40, R2=0.42 (9.3) (5.2) Pentru femei: y i = 87.20 + 0.7 xi + ei , i=1,2,,25, n2=25, R2=0.22 (12.8) (2.5)

() raia Student 1) Este semnificativ durata studiilor asupra salariului? 2) tiind c salariul mediu al brbailor este 6.9 milioane lei i cel al femeilor este 5.8 milioane lei, s se stabileasc dac exist diferen semnificativ ntre salariul brbailor i cel al femeilor?

43

Soluie:

1) Se analizeaz fie raiile Student, fie coeficientul de determinaie. Raia Student pentru variabila anii de studiu este:
* 0.05 = 0.05 , t 40 - pentru brbai: t B = 5.2 > t 38 2 =38 grd. lib. = 1.96
* 0.05 = 0.05 = 2.5 > t 23 , t 25 - pentru femei: t F 2 = 23 grd. lib. = 2.06

Cei doi coeficieni sunt semnificativi diferii de 0. Se observ c pentru femei, coeficientul de ponderare a anilor de studii este mai mic i mai puin semnificativ ca cel pentru brbai. Testul Fisher conduce la aceleai rezultate. 2) Problema se rezum la un test de diferen a mediilor variabilelor aleatoare normale

1 ai celor independente i a varianelor inegale. n acest caz se testeaz diferena dintre coeficienii a
dou regresii (valorile1.8, respectiv 0.7). Cunoscnd raiile Student, t =
estimatorul abaterea std.

estimatorii se pot obine abaterile lor tip (abaterile standard): B = 0.346 i F = 0.28 . Ipoteza nul i cea alternativ ale unui test bilateral, sunt:
H 0 : aB = aF ; H 0 : d = aB aF = 0
H1 : aB aF ; H1 : d = aB aF 0

Raportul:

B a F ) (a B a F ) (a urmeaz o lege Student cu n1 + n2 3 grade de libertate. a B a F

2 2 2 d a a Sub ipoteza nul H 0 : a B = a F i cu = F + B , raportul se scrie:

t* =

d = d

(1.8 0.7) 0.34 + 0.28


2 2

0.05 = 2.49 > t 62 = 1.96 .

Se respinge ipoteza nul. Exist o diferen semnificativ ntre coeficienii de regresie: durata studiilor la femei are un impact mai mic asupra salariului, dect n cazul brbailor.
Rezumat:

Aceast capitol prezint modelul regresiei multiple, ipoteze de lucru, estimarea coeficienilor modelului, intervalele lor de ncredere, testarea validitii lor i a regresiei, previziunea cu modelul regresiei simple. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.

44

Termeni importani:

Model de regresie simpl, estimatori, parametri, proprietrile estimatorilor, reziduuri, erori, ipotezele modelului de regresie, testul F, ANOVA, testul t, tabela de regresie

ntrebri recapitulative

1. Enumerai ipotezele modelului de regresie 2. Stabilii diferena ntre modelul de regresie al populaiei i modelul de regresie al eantioanelor 3. Ce este liniaritatea? 4. Care sunt proprietile estimatoruilor modelului de regresie? 5. Reprezentai tabelul de analiz a varianei ANOVA si testul F pentru regresia simpl. 6. La ce se refer testul t Student? 7. Cum apreciai validitatea unui model?

Teme de cas

Parcurgei exemplele din curs utiliznd calculatorul; realizai graficele i tabela de regresie.

45

CAPITOLUL 2
Tema Obiectivele

MODELUL REGRESIEI SIMPLE


1. Modelul liniar general 2. Estimarea coeficienilor de regresie 3. Ipotezele i proprietile estimatorilor 4. Analiza varianei i calitatea ajustrii 5. Exerciiu Modelul regresiei liniare multiple 5.1. Analiza grafic a evoluiei n timp a variabilelor considerate 5.2. Analiza grafic a influenei variabilelor explicative asupra variabilei dependente y 5.3. Construirea modelului econometric 6. Teste statistice i analiza varianei 6.1. Construirea testelor statistice 6.1.1. Compararea unui parametru ai cu o valoare fixat a 6.2. Execiiu Teste asupra coeficienilor 6.3. Analiza varianei testul Fisher de semnificaie global a regresiei 6.4. Teste pornind de la analiza varianei modelului liniar 6.4.1. Introducerea uneia sau mai multor variabile explicative n model 6.4.2. Verificarea stabilitii n timp a modelului testul CHOW 6.5. Exerciiu Teste pornind de la analiza varianei 7. Previziuni folosind modelul regresiei multiple 7.1. Exerciiu Previziuni folosind modelul regresiei multiple 1. Estimarea coeficienilor modelului de regresie multipl 2. Obinerea automat a tabelei de regresie multipl; coninutul tabelei de regresie multipl 3. Analiza grafic a corelaiilor ntre variabile 4. Realizarea de previziuni cu modelul regresiei multiple - citire/nvare - ntrebri, probleme ce apar, explicaii - definiii, explicaii ce trebuie reinute - situaii economice concrete, supuse analizei, exemple (sub lup) - teme de cas, aplicaii practice pentru studeni - parcurgerea aplicaiilor propuse 1. Pentru cunoaterea problemei: 6 ore 2. Pentru rezolvarea temelor: 12 ore + timpul de documentare

Finalitatea Competene dobndite Mijloace

Evaluarea Timp de lucru necesar

46

MODELUL REGRESIEI MULTIPLE


n realitate sunt rare fenomenele, care depind de o singur variabil explicativ. Regresia multipl analizeaz legtura dintre o variabil explicat y i mai multe variabile explicative x1, x2, ..., xk, unde k > 2.

1. Modelul liniar general


Modelul liniar general este o generalizare a regresiei simple, n care apar mai multe variabile explicative. Pentru serii temporale, t = 1,2, ...n, modelul este: y t = a 0 + a1 x1t + a 2 x 2t + ... + a k x kt + t , unde: yt = variabila de explicat la timpul t; x1t = variabila explicativ 1 la timpul t; x2t = variabila explicativ 2 la timpul t; ... xkt = variabila explicativ k la timpul t; a 0 , a1 ,..., a k = parametri modelului;

t = eroarea de specificare, necunoscut (diferena dintre modelul adevrat i cel specificat);


n = numrul de observri. Modelul prezentat se poate scrie sub forma unui sistem cu n ecuaii: y1 = a 0 + a1 x11 + a 2 x 21 + ... + a k x k1 + 1 y 2 = a 0 + a1 x12 + a 2 x 22 + ... + a k x k 2 + 2 ... y t = a 0 + a1 x1t + a 2 x 2t + ... + a k x kt + t ... y n = a 0 + a1 x1n + a 2 x 2 n + ... + a k x kn + n sau sub form matriceal:
Y = X a + , de dimensiunile

(n,1)=(n,k+1)(k+1,1)+(n,1) Prima coloan a matricii X, compus numai din valorile 1, corespunde parametrului a 0 , termenul constant al crui coeficient este 1. Dimensiunea matricii X este de n linii i k+1 coloane.

47

y1 y2 ... Y = ; yt ... y n

1 1 ... X = 1 ... 1

x11 x12 ... x1t ... x1n

x 21 x 22 ... x 2t ... x2n

... x k 1 ... x k 2 ... ... ; ... x kt ... ... ... x kn

a0 a1 a a = 2 ; ... ... a k

1 2 ... = . t ... n

2. Estimarea coeficienilor de regresie


Modelului scris sub form matriceal Y = X a + cu n observri i k variabile explicative, se aplic metoda celor mai mici ptrate, care cost n minimizarea sumei S:
min t2 = min = min( Y Xa )( Y Xa ) =
i =1 n

= min( Y Y Y Xa a X Y + a X Xa ) = min( Y Y 2a X Y + a X Xa ) = min( S )

Pentru minimizarea sumei S se deriveaz n raport cu vectorul a i derivata parial se egaleaz cu 0:

S = 0; = 2 X Y + 2 X Xa a = ( X X ) 1 X Y . a

= X Y ; X Xa

(1)

= X Y se numesc ecuaii normale. Sistemul de ecuaii normale scris Ecuaiile X Xa

matriceal este de forma:

n x1t x 2t ... x kt
sau altfel:
0 na

x x x x
1t 2 1t 2t

1t

x x x x
1t

2t 2t

... ... ... ... ...

2 2t

x x x x x
kt

...

... x

kt 1t

kt

x 2t

a y 0 t 1t kt a1 x1t y t a 2 t kt . 2 = x 2 t y t ... ... ... ... 2 x x kt y t kt a

2 0 x 2t + a 1 x 2t x1t + a 2 x2 a t

0 x1t + a 1 x a

1 x1t + a
2 1t

2 x 2t +a

2 x1t x 2t + ... + a k x1t x kt = x1t y t +a

k x kt + ... + a

= yt

k x 2t x kt = x 2t y t + ... + a = x kt y t

........................................................................................................................................................
2 0 x kt + a 1 x kt x1t + a 2 x kt x 2t + ... + a k x kt a

t = a 0 + a 1 x1t + a 2 x 2t + ... + a k x kt , Modelul estimat poate fi scris astfel: y 0 + a 1 x1t + a 2 x 2t + ... + a k x kt + et . iar variabila observat, n funcie de model: y t = a

48

Estimatorii parametrilor a 0 , a1 ,..., a k , modelului populaiei generale, se obin pe baza datelor unui eantion. Valorile et sunt reziduurile, abateri ntre valorile observate ale variabilei de explicat i valorile sale teoretice, estimate, ajustate. Se face distinie ntre eroarea de specificare t i reziduurile et. Dac se consider valorile centrate (fa de media lor), vectorul a al estimatorilor se poate scrie:
a 1 var( x1 ) 2 a cov( x 2 , x1 ) a 3 = cov( x 3 , x1 ) ... ... ... cov( x , x ) k 1 a k cov( x1 , x 2 ) var( x 2 ) cov( x 3 , x 2 ) ... cov( x k , x 2 ) cov( x1 , x 3 ) cov( x 2 , x 3 ) var( x 3 ) ... cov( x k , x 3 ) ... cov( x1 , x k ) cov( x1 , y ) ... cov( x 2 , x k ) cov( x 2 , y ) ... cov( x 3 , x k ) cov( x 3 , y ) ... ... ... ... var( x k ) cov( x k , y )

0 = y a 1 x1 a 2 x 2 ... a k xk 0 se obine prin relaia: a Estimatorul a Efectul variaiei unei singure variabile explicative asupra variaiei variabilei explicate y, t = a 0 + a 1 x1t + a 2 x 2t + ... + a k x kt i noua stare a variabilei explicative, x2, de cunoscnd modelul y exemplu, modificat n ( x 2t + x 2t ), iar toate celelalte k-1 variabile rmnnd neschimbate, se 2 x 2t , care reprezint modificarea n medie a variabilei explicate y. msoar prin a

3. Ipotezele i proprietile estimatorilor


Se formuleaz urmtoarele ipoteze de natur stochastic i structural, n legtur cu modelul liniar n variabilele explicative, x1 , x 2 ,...., x k : a) ipoteze stochastice 1. valorile xit, i=1,k sunt observate fr erori, 2. E ( t ) = 0 , sperana matematic a erorilor este nul, 3. E ( t2 ) = 2 ,variana erorilor este constant pentru orice t=1,n numit i ipoteza de

homoscedascticitate, 4. E ( t t ) = 0 , dac t t , erorile sunt necorelate (independena erorilor), 5. cov( xit , t ) = 0 , erorile sunt independente de variabilele explicative, pentru orice i=1,k; b) ipoteze structurale 1. absena multicoliniaritii ntre variabilele explicative, aceasta implic faptul c matricea ( X X )

este regulat i exist inversa ( X X ) 1 ,


49

2. ( X X ) / n tinde ctre o matrice finit nesingular, 3. n > k+1, numrul de observri trebuie s fie mai mare dect numrul variabilelor explicative (cnd n=k+1, atunci sistemul este cu n ecuaii i n necunoscute, perfect determinat). 0 , a 1 ,..., a k au proprietile ca i estimatorii regresiei simple: liniari, nedeplasai Estimatorii a i eficieni. Modelul regresiei multiple se poate scrie n urmtoarele moduri:
Y = Xa +
+e Y = Xa

= Y Y de unde reziduurile sunt: e = Y Xa

(2)

= Xa Y

) = a . Pentru a arta c estimatorii sunt nedeplasai este suficient s se demonstreze c E (a Folosind formula de calcul a estimatorilor (1) i ecuaiile unui model liniar multiplu prezentate se obine:
= ( X X ) 1 X Y = ( X X ) 1 X ( Xa + ) = ( X X ) 1 X ( Xa ) + ( X X ) 1 X a = a + ( X X ) 1 X

(3)

) = a + ( X X ) 1 X E ( ) = a , atunci: E (a pentru c prin ipotez E ( t ) = 0 . Estimatorii metodei celor mai mici ptrate sunt nedeplasai pentru

) = a . c E ( a
Matricea de varian-covarian a estimatorilor, notat cu a este util pentru c va conine varianele, pe baza crora se calculeaz abaterile lor standard, respectiv covarianele a)(a a)] coeficienilor de regresie: a = E[( a Din ecuaia (3): a = ( X X ) 1 X i (a a ) = X ( X X ) 1 , a (4)

pentru c ( X X ) 1 este simetric i (( X X ) 1 ) = ( X X ) 1 .

a)(a a ) = ( X X ) 1 X X ( X X ) 1 , iar matricea de varianDin relaiile (4) rezult: (a covarian a estimatorilor, devine:

a )(a a)] = ( X X ) 1 X E ( ) X ( X X ) 1 . a = E[(a Matricea E ( ) este matricea de varian-covarian a erorilor :


E ( 1 1 ) E ( 1 2 ) E ( 2 1 ) E ( 2 2 ) = E ( ) = ... ... E ( ) E ( ) n 1 n 2 ... E ( 1 n ) 2 0 ... E ( 2 n ) 0 2 = ... ... ... ... ... E ( n n ) 0 0 0 ... 0 = 2 I . Atunci matricea de ... ... ... 2 ...

2 varian-covarian a estimatorilor, este: a X ) 1 X X ( X X ) 1 = 2 ( X X ) 1 . = (X

50

e2 = Dispersia erorilor se poate estima nedeplasat prin dispersia reziduurilor:

ee . n k 1

Se nlocuiete variana erorilor prin estimatorul su i se obine o estimaie a matricii de


= 2 ( X X ) 1 . varian-covarian a estimatorilor: a

Cnd numrul observrilor tinde spre +, variana reziduurilor tinde spre 0, se spune c
este convergent, de varian minim. estimatorul a

4. Analiza varianei i calitatea ajustrii


Ecuaia fundamental a analizei varianei este cea a descompunerii varianei totale (SST) n suma varianei explicate de modelul de regresie (SSE) i variana rezidual (SSR), neexplicat, datorat factorilor ntmpltori, nenregistrai.
n n n

(y
t =1

t y ) 2 + ( yt y t )2 y) 2 = ( y
t =1 t =1

SST

SSE

SSR

Calitatea ajustrii se apreciaz cu indicatorul coeficientul de determinaie, R2, care se calculeaz ca raport ntre variana explicat de model i variana total a variabilei dependente y, artnd ponderea varianei explicate. Ponderea varianei neexplicate se msoar cu indicatorul coeficientul de nedeterminaie N2, fiind raportul (y
n t

varianei

reziduale

totalul

varianei
2 t

variabilei

dependente

y)2 = 1 N 2 = 1 y)
2

y. R 2 =

(y
t =1

t =1 n

(y
t =1 n t =1

t )2 y y)
2

(y

= 1

e
t =1 t

(y
t =1

.
2

y)

5. Exerciiu Modelul regresiei liniare multiple


Despre o filial a firmei Coca-Cola, din Romnia, se cunosc date referitoare la: - marfa livrat lunar, msurat n uniti fizice exprimate n numr de pet-uri de 2l (n cazul livrrii n alt ambalaj, se transform n echivalent-pet de 2l); - consumul mediu lunar de combustibil, exprimat n , necesar livrrii produselor; - valoarea daune/pierderi materiale lunare, msurat n ; - pondere mrfii returnate, msurat ca procent din total marf livrat lunar (maxim 2%); - capacitatea de ncrcare auto, se refer la capacitatea de utilizare eficient a parcului auto, se msoar n numr de uniti fizice (pet-uri 2l) ncrcate ntr-un camion.

51

- fondul mediu net de salarii, al personalului din departamentul Distribuie msurat n . Variaia salariilor este mai mare n perioadele n care consumul este mare, i necesitatea unei distribuii mai rapide a produselor, conduce la apelarea la colaboratori externi. n perioadele de consum redus i mediu, indicatorul reprezint retribuiile personalului de baz. - Indicele Preurilor de Consum (IPC), fa de aceeai lun din anului anterior, n %. Datele colectate sunt prezentate n Tabelul 2.1. Se cere s se construiasc un model econometric pentru analiza i previziunea distribuiei lunare de buturi rcoritoare. Variabilele semnificative explic evoluia i variaia mrfii livrate. Analiza influenei factorilor ncepe prin analiza grafic a evoluiei variabilelor i a corelaiilor dintre fiecare variabil factorial i variabila explicat, y, marfa livrat lunar. Consumul mediu lunar de combustibil - x1, valoarea daunelor lunare - x2, pondere marfa returnat - x3, capacitatea de ncrcare auto - x4, salariile nete medii ale personalului - x5, i Indicele Preurilor de Consum (IPC) x6, reprezint variabilele explicative.
Luna total distrib. (nr. pet) yt 131.750 225.245 76.316 104.875 159.366 160.124 168.745 240.814 213.702 207.965 181.546 117.786 133.079 226.416 78.116 106.994 161.203 164.045 170.614 243.398 214.011 208.844 183.939 118.968 consum comb. () x1 1.523 2.525 1.114 1.369 1.945 1.865 1.647 2.444 2.268 2.097 1.952 1.464 1.884 2.927 1.580 1.884 2.355 2.208 1.999 2.630 2.325 2.545 2.355 1.884 pierderi materiale () x2 124 236 124 147 165 167 172 258 240 225 182 123 178 245 110 117 185 206 217 260 233 206 183 165 retur mf. (%) x3 1,510 1,532 1,480 1,500 1,580 1,600 1,630 1,650 1,640 1,635 1,580 1,490 1,510 1,536 1,485 1,487 1,530 1,550 1,620 1,640 1,638 1,636 1,580 1,550 capacit. ncarc. (nr. pet) x4 530 550 400 400 420 430 480 500 490 470 450 430 560 580 450 450 470 480 520 550 550 510 490 480 fond salarii () x5 1.887 1.965 1.942 1.958 1.913 1.877 1.876 1.925 1.899 1.881 1.905 1.911 2.021 2.120 1.932 2.025 2.030 2.050 2.057 2.070 2.012 2.043 2.050 2.069 IPC (%) x6 153.7 154.8 156.8 155.7 149 148.9 144 140.9 144.5 145.4 144.9 142.9 141.3 140.7 139.9 140 140.3 137.5 137.4 135.7 131.8 132.4 131.2 130.8

Nov-99 Dec-99 Ian-00 Feb-00 Mar-00 Apr-00 Mai-00 Iun-00 Iul-00 Aug-00 Sep-00 Oct-00 Nov-01 Dec-01 Ian-01 Feb-01 Mar-01 Apr-01 Mai-01 Iun-01 Iul-01 Aug-01 Sep-01 Oct-01

Tabelul 2.1. Indicatorii observai n perioada nov.99-dec.01, la firma Coca Cola

52

5.1. Analiza grafic a evoluiei n timp a variabilelor considerate

n graficul din Figura 2.1 se prezint evoluia n timp a livrrilor lunare de marf, exprimat n uniti fizice. Se observ o sezonalitate lunar, dei datele sunt complete numai pe doi ani. Pe grafic se identific anul de afaceri al firmei Coca Cola care ncepe din noiembrie i se termin n octombrie, fiind doi ani complei i dou luni din anul urmtor. Consumul de Coca-Cola pe parcusul unui an, are dou valori maxime in lunile decembrie i iunie, fapt explicat prin nceputul srbtorilor de iarn i nceputul sezonului cald. Valori mai sczute sunt n linile ianuarie i octombrie. Din ianuarie ncepe un trend cresctor pn n iunie, apoi descrestor n iulie, august, septembrie i octombrie. Cei doi ani au evoluii asemntoare, conducnd la concluzia existenei unei sezonaliti lunare.
Evoluia livrrilor de marf n perioada noiembrie 1999-decembrie 2001

300000

250000

numar pet 2l

200000

150000

100000

50000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

luni

Figura 2.1. Evoluia buturilor rcoritoate livrate

53

3500

Evoluia cheltuielilor cu combustibilul

3000

2500

euro

2000

1500

1000 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01 12.01

luna

Figura 2.2. Evoluia cheltuielilor lunare cu combustibilul n Figura 2.2 se poate vedea evoluia consumul mediu lunar de combustibil, variabila x1. Valoarea consumului de combustibil utilizat pentru distribuia produselor are o evoluie asemntoare cu cantitatea mrfurilor livrate: n lunile ianuarie se nregistreaz valorile cele mai mici, urmat de luna octombrie, iar valorile cele mai mari, n lunile decembrie, urmate apoi de lunile iunie, pe un trend anual uor ascendent. n Figura 2.3 se prezint evoluia cronologic a a valorii daunelor lunare variabila x2.
Evoluia valorii pierderilor lunare
280 260 240 220

euro

200 180 160 140 120 100 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01

luna

Figura 2.3. Evoluia lunar a pierderilor i daunelor

54

12.01

Evoluia lunar a pierderilor este foarte asemntoare cu evoluia cantitii de marf vndut lunar, nregistrndu-se valori mai mari n lunile n care volumul desfacerilor este mai mare (decembrie i iunie) i valori mai mici n lunile n care se distribuie mai puin marf, (ianuarie i octombrie). Valoarea daunelor i pierderilor este proporional cu volumul mrfii.
1.70

Evoluia lunar a ponderii mrfii returnate

1.65

1.60 % 1.55 1.50 1.45 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01 12.01

luna

Figura 2.4. Ponderea mrfii returnate lunar, n totalul livrrilor n Figura 2.4, graficul evoluiei ponderilor lunare a mrfii returnate n total livrri lunare variabila x3, arat o evoluie asemntoare cu cea a livrrilor fizice de marf, dar se observ o pondere mai mare a returnrilor n lunile de var, pentru c n sezonul cald produsele se deterioreaz mai rapid dect n cel rece. Graficul din Figura 2.5 arat evoluia capacitii lunare de ncrcare auto -variabila x4.
Evoluia capacitii lunare de transport
600

550

numr peturi 2l

500

450

400

350 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01

luna

Figura 2.5. Evoluia lunar a capacitii de transport 55

12.01

Evoluia cheltuielilor lunare cu salariile


2150

2100

2050

euro

2000

1950

1900

1850 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01
10.01

11.01

luna

Figura 2.6. Evoluia salariilor medii lunare ale personalului angajat i colaboratori Ca i celelalte variabile i capacitatea lunar de transport are o evoluie asemntoare cu cea a volumului mrfii livrate, fiind mai mare n lunile decembrie i iunie. Se observ valori mai mari n lunile noiembrie dect n iunie, vrful din sezonul cald.

160 155

Evoluia indicilor pre urilor de consum

% fa de aceeai luna

150 145 140 135 130 125 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 11.01 12.01

luna

Figura 2.7. Evoluia IPC fa de aceeai lun a anului anterior n Figura 2.6 se prezint evoluia cheltuielilor cu salariile medii lunare ale personalului angajat i colaboratori externi. Variaiile mai mari n al doilea an de afaceri, n lunile noiembrie i

56

12.01

decembrie, situate pe un trend cresctor al salariilor, se explic prin apelarea la serviciile unor colaboratori externi. Evoluia IPC prezentat n Figura 2.7 este descresctoare i considerarea acestei variabile se explic prin faptul c rata inflaiei poate influena comportamentul de cumprare al consumatorilor de buturi rcoritoare.

5.2. Analiza grafic a influenei variabilelor explicative asupra variabilei dependente y


Analiznd graficul din Figura 2.8 se poate vedea corelaia direct, pozitiv, i de form liniar, dintre variabila dependent i cheltuielile cu combustibilil, x1. Graficul din Figura 2.9 arat ca exist legtur ntre variabila dependent i valoarea daunelor i pierderilor, x2 i anume o corelaie direct i de form liniar, evident
Volumul mrfii livrate i che ltuie lile cu combustibilul
300000

250000 marfa livrat (nr. pet.)

200000

150000

100000

50000 1000

1500

2000

2500

3000

3500

x1, valoare combustibil (euro)

Figura 2.8. Corelaia dintre volumul mrfii livrate i cheltuielile cu combustibilul

57

Corelaia dintre marfa livrat i valoarea pierderilor i daunelor


300000

250000

marfa livrat (nr. pet.)

200000

150000

100000

50000 100

120

140

160

180

200

220

240

260

280

x2, pierderi i daune (euro)

Figura 2.9. Corelaia dintre marfa livrat i valoarea daunelor i pierderilor n Figura 2.10, corelaia dintre volumul produselor livrate i ponderea returului n totalul lunar al livrrilor, x2, indic o legtur de tip liniar i direct. Norul de puncte mai dispersat din Figura 2.10 indic o corelaie mai slab dect n cazul variabilelor x1 i x2.

Corelaie ditre marfa livrat i ponderea mrfii returnate


300000

250000

marfa livrat (nr. pet.)

200000

150000

100000

50000 1.45

1.50

1.55

1.60

1.65

1.70

x3, retur marf (pondere %)

Figura 2.10. Corelaia dintre volumul mrfii livrate i ponderea livrrilor returnate lunar Graficul din Figure 2.11. indic o legtur de aceeai natur direct, ca i n cazul variabilelor x1, x2 i x3, adic pe msur ce crete volumul vnzrilor, crete i capacitatea lunar,

58

dar nu pe msura necesitilor, astfel nct norul de puncte dispersat va indica o legtur de intensitate mai slab. Forma legturii poate fi considerat liniar.

300000

Corelaie ditre marfa livrat i capacitatea de transport

250000

marfa livrat (nr. pet.)

200000

150000

100000

50000
350 400 450 500 550 600

x4, capacitate de transport (nr. pet)

Figura 2.11. Corelaia dintre marfa vndut i capacitatea lunar de ncrcare auto
300000

Corelaie ditre marfa livrat i fondul lunar de salarii

250000

marfa livrat (nr. pet.)

200000

150000

100000

50000 1850

1900

1950

2000

2050

2100

2150

x5, fondul de salarii (euro)

Figura 2.12. Corelaia dintre volumul lunar al mrfii livrate i fondul lunar de salarii n Figura 2.12, corelaia dintre marfa lunar livrat i fondul lunar de salarii pentru personalul propriu i colaboratori, este de slab intensitate. Norul de puncte este aproape paralel cu axa Ox, 59

conducnd fie la concluzia lipsei legturii dintre fondul de salarii i volumul mrfii livrate, fie la existena unei legturi de intensitate slab, mai degrab de sens invers.
Corelaia dintre marfa livrat i indicii pre urilor de consum
300000 250000
marfa livrat (nr. pet.)

200000 150000 100000 50000 130 135 140 145


x6, IPC lunar (%)

150

155

160

Figura 2.13. Corelaia dintre marfa livrat i indicii preurilor de consum Graficul din Figura 2.13 este singurul care indic o legtur invers ntre marfa vndut i indicii preurilor de consum, nsemnnd c livrrile de buturi rcoritoare scad atunci cnd cresc indicii preurilor de consum. Totui intensitatea legturii va fi slab pentru c norul de puncte este destul de dispersat. Forma legturii poate fi considerat ca fiind liniar.

5.3. Construirea modelului econometric

Pentru exemplificarea construirii modelului econometric sub form matriceal se ncepe cu modelul de regresie a variabilei y i toate variabilele x i, i=1,6. Modelul: + e , cu vectorii t = a 0 + a 1 x1t + a 2 x 2t + a 3 x 3t + a 4 x 4t + a 5 x5t + a 6 x6t se scrie matriceal: Y = X a y

Y , e i matricea X, n continuare:

60

1 131.750 1 225.245 1 76.316 1 104.875 1 159.366 1 160.124 1 168.745 1 240.814 1 1 213.702 207.965 1 1 181.546 117.786 1 y = X = 1 133.079 1 226.416 78.116 1 1 106.994 161.203 1 1 164.045 170.614 1 243.398 1 1 214.011 208.844 1 1 183.939 118.968 1 1

1523 2525 1114 1369 1945 1865 1647 2444 2268 2097 1952 1464 1884 2927 1580 1884 2355 2208 1999 2630 2325 2545 2355 1884 1884 2927

124 236 124 147 165 167 172 258 240 225 182 123 178 245 110 117 185 206 217 260 233 206 183 165 178 245

1.510 1.532 1.480 1.500 1.580 1.600 1.630 1.650 1.640 1.635 1.580 1.490 1.510 1.536 1.485 1.487 1.530 1.550 1.620 1.640 1.638 1.636 1.580 1.550 1.510 1.536

530 550 400 400 420 430 480 500 490 470 450 430 560 580 450 450 470 480 520 550 550 510 490 480 560 580

1887 1965 1942 1958 1913 1877 1876 1925 1899 1881 1905 1911 2021 2120 1932 2025 2030 2050 2057 2070 2012 2043 2050 2069 2021 2120

e1 154.8 e2 e 156.8 3 155.7 . . 149 . 148.9 144 . . 140.9 144.5 . . 145.4 144.9 . . 142.9 . 141.3 e= 140.7 . . 139.9 140 . . 140.3 137.5 . . 137.4 135.7 . 131.8 . e22 132.4 131.2 e23 e24 130.8 130.7 e25 e 130.3 26

153.7

al estimatorilor parametrilor are dimensiunile: 7 linii i o coloan (7, 1): Vectorul a

a 0 1 a a 2 = a 3 a a 4 a 5 6 a

Dimensiunile masivelor sunt: Y

(26, 1) = (26, 7) x (7, 1) + (26, 1) Se formeaz masivele astfel prezentate i se parcurg pe rnd urmtorii pai: 1. matricea transpus X ,

61

2. matricea produs X X , 3. inversa matricii produs ( X X ) ,


1

4. matricea produs dintre ( X X ) i X


1

, ntre ( X X )1 X i vectorul Y. 5. vectorul produs al estimatorilor a

Descrierea operaiunilor la fiecare pas este prezentat n continuare: 1. Transpusa matricii X, se obine prin comanda Copy a blocului de celule ce formeaz matricea X, i ntr-o celul liber, se alege comanda Paste Special din meniul Edit cu opiunea Transpose. Matricea X va fi de dimensiunile (7 linii, 26 coloane). 2. Pentru a obine produsul matricilor X X , se tie c X are dimensiunea (7,26), iar X, (26,7), iar matricea produs va fi de dimensiunea (7,7). Se selecteaz un bloc de celule libere format din 7 linii i 7 coloane, apoi cu blocul, unde se va depune rezultatul, astfel selectat, se apeleaz funcia

MMULT(array_1, array_2) pentru nmulirea a dou matrici sau vectori i se declar pe rnd: la array_1, matricea X , iar la array_2, matricea X. Ordinea declarrii masivelor este foarte
important pentru nmulirea lor. Pentru a obine rezultatul matricea produs - se apas simultan pe trei taste <Ctrl/ Shift/ Enter>, eliberndu-se nti tasta Enter i apoi celelalte dou. 3. Inversa matricii produs se obine selectnd nti un bloc de celule libere de 7 linii i 7 coloane, unde se va primi rezultatul operaiei, apoi se apeleaz funcia MINVERSE(array) i se declar la

array, blocul matricii X X de inversat. Se apas simultan pe cele trei taste <Ctrl/ Shift/ Enter>
i se obine instantaneu matricea invers. 4. Pentru a realiza matricea produs ( X X ) X trebuie s se cunoasc dimensiunea sa, pentru a
1

putea selecta nainte de apelul funciei MMULT, blocul de celule libere, care va primi rezultatul. Se tie c matricea ( X X )
1

este de dimensiune (7,7), iar matricea X de (7,26), iar matricea

produs va fi de dimensiunea (7,26). Se selecteaz un bloc de 7 linii i 26 de coloane, se apeleaz funcia de nmulire i se declar la array_1, matricea ( X X ) , iar la array_2, matricea X . La
1

apsarea tastelor <Ctrl/ Shift/ Enter> se obine rezultatul dorit. 5. Pentru a obine vectorul estimatorilor se nmulesc matricile ( X X ) X de dimensiune (7,26) cu
1

de dimensiunea (7,1). Se selecteaz 7 celule vectorul Y de dimensiune (26,1) i se obine a

libere pe o coloan i 7 linii, se apeleaz funcia MMULT i se declar n ordine matricele de nmulit, se apas <Ctrl/ Shift/ Enter> i se obine vectorul estimatorilor:

62

- 278825.8 65.7 305.9 = 217262.8 a 103.2 - 123.4 760.8

Pentru a determina intervalele de ncredere ale estimatorilor i pentru a putea aprecia

e2 = calitatea lor i apoi a ajustrii, este necesar s se calculeze dispersia reziduurilor


= 2 ( X X ) 1 . matricea de varian-covarian a estimatorilor: a

ee i n k 1

Se determin reziduurile ca diferen ntre valorile observate i valorile teoretice obinute cu modelul
t = 278825.8 + 65.7 x1t + 305.9 x 2t + 217262.8 x 3t + 103.2 x 4t 123.4 x5t + 760.8 x 6t . y

Deoarece modelul este estimat pentru prima dat este de ateptat s nu fie corespunztor, chiar de la nceput. Dispersia reziduurilor este prea mare 93960182. nmulirea unei constante, dispersia reziduurilor, cu matricea ( X X ) 1 se realizeaz nmulind constanta cu toate celulele matricii. Se scrie formula pentru elementul matricii de pe poziia (1,1) i se blocheaz cu simbolul e2 , apoi se copiaz formula pentru toate celulele matricii $, coloana i linia adesei unde se afl rezultate. Pe diagonala principal se afl varianele estimatorilor, iar abaterile acestora se obin extrgnd radicalul de ordinul 2. Se obin urmroarele abateri ale estimatorilor:
Pentru fiecare estimator se calculeaz raia Student t a i =

i a , care se compar cu o valoare a i

critic a testului Student pentru un prag de semnificaie =5% i 26-6-1=19 grade de libertate, care
/ 2 = 0.025 este t19 grd .lib . = 2.093. Astfel se verific dac estimatorii sunt semnificativ diferii de 0, ipoteza

alternativ H1. n caz contrar, ipoteza nul, H0, variabilele semnificative corespunztoare nu influeneaz semnificativ variabila dependent y, pentru c estimatorii respectivi pot lua i valoarea 0.

63

227794.3 9.8 124.5 a = 69723.8 57.4 49 425.1

- 1.224 6.674 2.457 t = 3.116 1.796 - 2.515 1.789

Se observ pe Figura 2.14, cum se interpreteaz raiile Student calculate fa de valorile teoretice ale testului bilateral.

H0

H1

1-

H1

- t1-/2 -2.093

+ t1-/2 +2.093

Figura 2.14. Testarea raiilor Student ale estimatorilor 0 , a 4 i a 6 , nu sunt semnificativ diferii de 0 pentru c Se ajunge la concluzia c estimatorii a
ta 4 < 2.093 i se va renuna la variabilele x 4 i x 6 . Toi ceilali estimatori sunt semnificativi diferii de 0, ipoteza alternativ, H1, pentru c t a 4 > 2.093 .

Pentru a verifica aceste calcule se poate utiliza tabela de regresie furnizat de Excel. Declararea variabilelor independente necesit existena unui bloc care s cuprind toate cele ase variabile explicative dispuse pe vertical n coloane adiacente. Tabela de regresie este prezentat n Tabelul 2.2. Informaia Standard Error din prima parte a tabelei de regresie este abaterea reziduurilor e2 , fiind o verificare a valorii obinute e , care ridicat la puterea a 2-a rezult, dispersia erorilor

e2 = prin formula

e
t =1

2 t

n k 1

SUMMARY OUTPUT Regression Statistics Multiple R 0.9855 R Square 0.9712 Adj. R Sq. 0.9622 Std Error 9693.3

64

Observations ANOVA Regression Residual Total Intercept X Variable 1 X Variable 2 X Variable 3 X Variable 4 X Variable 5 X Variable 6

26 SS MS F Signific.F 6 6.028E+10 1.005E+10 106.931 1.31E-13 19 1.785E+10 93960182 25 6.207E+11 Coeff. Std. Error t Stat P-value Low95% -278826 227794.29 -1.2240 0.2359 -755605 65.7 9.849 6.6741 0.0000 45.12 305.9 124.501 2.4568 0.0238 45.29 217262.8 69723.82 3.1160 0.0057 71329 103.2 57.436 1.7964 0.0884 -17.04 -123.4 49.043 -2.5154 0.0210 -226.01 760.8 425.110 1.7896 0.0895 -129.01 df

Upp95% 197953 86.35 566.46 363196 223.39 -20.71 1650.52

Tabelul 2.2. Tabela de regresie a modelului econometric iniial cu ase variabile factoriale Se observ c valoarea coeficientului de determinaie 0.9712 este apropiat de 1, artnd c modelul liniar este valid explicnd ntr-o proporie de 97.12% variaia variabilei dependente y de variabilele explicative. Coeficientul de corelaie multipl 0.9855 arat o corelaie puternic ntre variabilele explicative i cea explicat. Valoarea testului Fisher indic o regresie global semnificativ, Significance F, fiind foarte mic. n partea a treia a tabelei de regresie, se regsesc estimatorii obinui prin calcul matriceal, abaterile lor i raiile Student identice cu valorile calculate mai sus. Valorile P-value, indic pragul de semnificaie , de la care ncepnd estimatorii se pot considera semnificativ diferii de 0. 0 , este de Probabilitatea ca estimatorii s fie semnificativi este de 1-. Se poate vedea c pentru a
1 , este 0%, pentru a 2 - este 2.38%, pentru a 3 - este de 0.057%, pentru a 4 - de 23.6%, pentru a

5 - de 2.1% i pentru a 6 - de 8.95%. Deoarece pragul este de obicei de 5%, se va 8.84%, pentru a renuna la variabilele x 4 i x6 , ale cror estimatori depesc aceast valoare a pragului de semnificaie. Intervalele de ncredere pentru =5%, ale acestor estimatori schimb semnul de la - al limitei inferioare Lower 95% la + la limita superioar Upper 95%, fiind cea mai evident dovad a faptului c respectivii estimatori pot lua i valoarea 0. Cu toate c informaiile despre calitatea ajustrii, arat un model foarte bun, totui trebuie s se in seama de semnificaia estimatorilor. O alt variant de model va fi cea prin care se elimin variabilele x 4 i x 6 , care reprezentau capacitatea de ncrcare auto pentru transportul produselor i indicii preurilor de consum, calculai fa de aceeai lun a anului anterior. t = a 0 + a 1 x1t + a 2 x 2t + a 3 x 3t + a 5 x5t . Dup obinerea tabelei de regresie, Noul model va fi: y Tabelul 2.3, se obine modelul: t = 93975.35 + 63.79 x1t + 464.42 x 2t + 122802.3x3t 170.03x5t . y 65

SUMMARY OUTPUT Regression Statistics Multiple R 0.9818 R Square 0.9639 Adj. R Sq 0.9570 Std. Error 10334 Observations 26 ANOVA df Regression 4 Residual 21 Total 25 Coeff. Intercept 93975.3 X Variable 1 63.79 X Variable 2 464.42 X Variable 3 122802 X Var. 4 (x5) -170.03

SS MS F 5.98E+10 1.5E+10 140.05 2.24E+09 1.07E+08 6.21E+10 Std Error t Stat P-value 126814 0.741 0.4668 10.232 6.234 0.000 108.204 4.292 0.000 56579.3 2.170 0.042 38.296 -4.440 0.000

Signif. F 8.0E-15

Low 95% -169749 42.509 239.402 5139 -249.671

Up95% 357699 85.065 689.446 240465 -90.388

Tabelul 2.3. Tabela de regresie pentru modelul cu patru variabile explicative Dei indicatorii calitii ajustrii au valori puin mai mici dect n modelul anterior, totui nu s-a pierdut mult din calitatea ajustrii: coeficientul de corelaie multipl este 0.9818 indic o corelaie puternic ntre variabilele explicative i y, coeficientul de determinaie de 0.9639 arat validitatea modelului liniar, iar regresia este global semnificativ, dup testul Fisher din tabelul ANOVA. S-au ctigat, n schimb, valori semnificative pentru toi ceilali estimatori, care sunt semnificativ diferii de 0, dup cum indic raiile Student, n comparaie cu valoarea critic
/ 2 = 0.025 t 21 grd .lib . = 2.080 . Gradele de libertate sunt n-k-1, adic 26-4-1=21, unde k=4.

0 , care arat nivelul mediu al variabilei dependente dac toi factorii, Termenului constant, a nafara celor nregistrai, ar avea o aciune constant, nu este totui semnificativ diferit de 0, dup cum indic valoarea prea mic a raiei Student, P-value prea mare, de 46.68% i intervalul de ncredere care conine valoarea 0. O analiz mai amnunit a sezonalitii, a corelaiilor dintre variabilele explicative, a autocorelaiei erorilor, va ndrepta acest neajuns. Se poate totui n aceast faz, s se renune la t = 62.14 x1t + 434.89 x 2t + 159285.3 x3t 146.89 x5t , va avea toi termenul liber, iar modelul obinut: y estimatorii parametrilor variabilelor explicative semnificativi, cu o probabilitate de aproape 100%, dei se micorez nc puin indicatorii calitii ajustrii: R=0.9812, R 2 = 0.9629 . Valorile teoretice corespunztoare valorilor observate sunt reprezentate n Figura 2.15.

66

300000

Evoluia livrrilor de marf i ajustarea lor

250000

nr. peturi

200000

150000

100000

11.99

12.99

01.00 02.00

03.00

04.00 05.00

06.00

07.00 08.00

09.00

10.00 11.00

12.00 01.01

02.01

03.01 04.01

05.01

06.01 07.01

08.01

09.01 10.01

11.01

yt

Figura 2.15. Ajustarea folosind modelul liniar fr constant Regresia este global semnificativ, dar pn nu se parcurg i etapele unei analize mai amnunite, nu se poate stabili care este cel mai bun model. Modelul final, trebuie s respecte ipotezele modelului general de regresie liniar: lipsa autocorelaiei erorilor, variabilele explicative, ct mai puin autocorelate ntre ele.

6. Teste statistice i analiza varianei


0 , a 1 ,..., a k folosind Testarea semnificaiei individuale a coeficienilor pariali de regresie, a testul t Student difer de testarea semnificaiei globale a regresiei multiple, prin care se accept sau se infirm ipoteza nul H0: R2=0, pe baza testului Fisher, F. Dac folosind testul t se gsete unul sau mai muli coeficieni pariali de regresie, ca fiind n mod individual nesemnificativi, nu nseamn c se poate accepta ipoteza c toi coeficienii sunt de asemenea nesemnificativi (Tabelul 2.2. i Tabelul 2.3).

6.1. Construirea testelor statistice


Testele statistice se refer la contribuia uneia sau mai multor variabile explicative la regresia multipl, testarea egalitii statistice a unui ansamblu de coeficieni cu un ansamblu de valori fixate, restriciile asupra estimatorilor coeficienilor i testarea validitii lor, folosirea testului F pe baza analizei varianei pentru analiza unor ipoteze asupra regresiei multiple.

67

12.01

50000

luni

6.1.1. Compararea unui parametru ai cu o valoare fixat a

Contribuia marginal a fiecrei variabile explicative la formarea variabilei y este valoarea coeficientului fiecreia dintre ele. De exemplu, n modelul liniar cu patru variabile t = 62.14 x1t + 434.89 x 2t + 159285.3 x3t 146.89 x5t , se poate explicative, din exemplul anterior: y spune c lunar creterea cu 1 euro a consumului mediu de combustibil conduce la creterea livrrilor lunare, n medie, cu aproximativ 62 de peturi, creterea cu 1 euro a valorii daunelor i pierderilor lunare determin o cretere a livrrilor, n medie, de 435 de peturi, creterea cu un procent a mrfii returnate, poate influena creterea livrrilor, n medie, cu 159285 de peturi, iar creterea cu 1 euro a fondului mediu net de salarii ale personalului distribuitor genereaz o scdere a livrrilor lunare, n medie, cu 147 de peturi. Se observ legtura invers ntre livrrile fizice i fondul de salarii, care pe graficul din Figura 2.12, nu se putea sesiza.

Pentru a compara un parametru cu o valoare fixat a, testul de ipoteze este: H0: ai = a H1: ai a . Pe baza datelor din eantionul extras se calculeaz raportul critic, care urmeaz o lege
Student, i este de forma: t a = i

i a a . Se compar aceast raie Student calculat, cu o valoare a i

teoretic numit critic, pentru un prag de semnificaie =5% i n-k-1 grade de libertate. Pentru c testul este bilateral se alege valoarea teoretic Student pentru un prag de semnificaie /2.
/2 Dac t a > tn k 1 , se respinge ipoteza nul H0; se accept ipoteza alternativ H1, ai este i

semnificativ diferit de valoarea a, la un prag de semnificaie , adic o probabilitate de 1-.


/2 tn Dac t a k 1 , se accept ipoteza nul H0; ai nu este semnificativ diferit de valoarea a, la i

un prag de semnificaie . Un caz particular este cnd valoarea a=0 i atunci raportul critic devine raia Student
= calculat a estimatorului respectiv, t a i

i a . a i

Se verific semnificaia fa de zero a coeficientului, care nseamn verificarea semnificaiei variabilei explicative, care apare n model, pentru a ti dac aceasta contribuie n mod real la explicarea variabilei endogene y.

68

6.2. Execiiu Teste asupra coeficienilor


Despre o firm, se cunosc datele referitoare la vnzrile de marf, y, exprimate n mii euro, pe o perioad de 14 luni, numrul de angajai (persoane), x1, cheltuielile de ntreinere a utilajelor, exprimate n euro, x2, i cheltuielile de publicitate pentru promovarea produselor, exprimate n euro, x3. Datele sunt prezentate n Tabelul 2.4:
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 y 17 19 15 21 19 24 26 24 26 21 24 26 30 26 x1 3 2 4 7 8 9 9 6 6 9 5 10 13 8 x2 42 40 40 44 39 38 29 30 38 35 29 28 32 26 x3 115 126 148 139 123 150 126 141 122 157 155 166 168 174 yt1 18 17 18 19 23 23 27 24 22 24 23 27 28 26 yt2 18 17 19 20 22 23 26 24 21 24 23 27 28 26

Tabelul 2.4. Datele referitoare la un agent economic Sunt semnificative variabilele exogene n explicarea variaiei variabilei endogene? S se argumenteze i prin calculul intervalelor de ncredere ale estimatorilor coeficienilor.
Soluie:

n Figurile 2.16, 2.17, i 2.18 sunt prezentate corelaiile dintre variabila dependent, stabilit ca fiind vnzrile de marf, influenat de celelalte variabile, considerate factori.
Corelaia dintre valoarea vnzrilor i numrul de angajai

35 30 25 20 15 10 0

mil. euro

10

12 14 x1 (nr. persoane)

Figura 2.16. Legtura direct dintre valoarea vnzrilor i numrul de angajai 69

35 30 mil. euro 25 20 15 10 25

Corelaia dintre valoarea vnzrilor i cheltuielile de ntre inere a utilajelor

30

35

40

x2 (euro)

45

Figura 2.17. Legtura invers: valoarea vnzrilor i cheltuielile cu utilajele

35 30 25 mil. euro 20 15 10 100

Corelaia dintre valoarea vnzrilor i cheltuielile de publicitate

110

120

130

140

150

160

170 x3 (euro)

180

Figura 2.18. Legtura direct dintre valoarea vnzrilor i cheltuielile de publicitate Se observ n cele trei grafice, legturile de natur direct, ale valorii vnzrilor cu numrul de angajai i cheltuielile de publicitate i de sens invers cu cheltuielile de ntreinere a utilajelor. Cu ct sunt mai mari aceste cheltuieli de ntreinere, cu att se reduc vnzrile din cauza stagnrilor n producie pentru repararea utilajelor, creterii costurilor de fabricaie i implicit a preurilor de vnzare a produselor, reducerii altor cheltuieli, cum ar fi cele de aprovizionare cu materii prime i materiale, salariile personalului angajat, etc.

70

SUMMARY OUTPUT Regression Statistics Multiple R 0.8383 R Square 0.7027 Adj. R Square 0.6135 Std. Error 2.5971 Observations 14 ANOVA df SS Regression 3 159.4095 Residual 10 67.4477 Total 13 226.857 Coeff. Std Err Intercept 35.722 10.994 X Variable 1 0.802 0.298 X Variable 2 -0.3814 0.156 X Variable 3 -0.037 0.052

MS 53.136 6.745 t Stat 3.249 2.687 -2.435 -0.714

F 7.87

Signif. F 0.005

P-value 0.0087 0.0228 0.0351 0.492

Lower 95% 11.226 0.137 -0.730 -0.153

Upper 95% 60.219 1.467 -0.032 0.078

Tabelul 2.5. Tabela de regresie a modelului cu trei variabile explicative Tabela de regresie este prezentat n Tabelul 2.5. n urma analizei de regresie, se ateapt un coeficient negativ pentru variabila explicativ a cheltuielilor de ntreinere a utilajelor, x2 i coeficieni pozitivi pentru celelalte dou variabile independente x1 i x3. Modelul este: t = 35.72 + 0.802 x1 0.381x 2 0.037 x3 , y iar valorile teoretice, yt1, se afl n Tabelul 2.4 i pe acelai grafic care arat evoluia n timp a valorilor observate, n Figura 2.19.
35 30 mil. euro 25 20 15 10
1 2 3 4 5 6
y

Evoluia vnzrilor

8
yt1

10
yt2

11

12

13

14

luni

Figura 2.19. Evoluia vnzrilor i ajustarea lor


= Raia Student pentru fiecare coeficient de regresie, calculat dup formula t a i

i a , se compar cu a i

/ 2 = 0.025 valoarea teoretic Student pentru =5% i 10 grade de libertate, t10 grd .lib . = 2.228 .

71

1 0 , variabila x1 contribuie la explicarea variaiei ta 1 = 2.687 > 2.228 , rezult c a

variabilei y;
2 0 , variabila x2 contribuie la explicarea variaiei ta 2 = 2.435 > 2.228 , rezult c a

variabilei y;
3 = 0 , variabila x3 nu contribuie la explicarea variaiei ta 3 = 0.714 < 2.228 , rezult c a

variabilei y, i poate fi retras din model. 3 , indic Se poate vedea n tabela de regresie din Tabelul 2.5 c P-value pentru estimatorul a un prag de semnificaie de 49%, care este mult prea mare. Intervalul de ncredere al coeficientului ai se stabilete n funcie de valoarea estimatorului, estimaia abaterii sale i valoarea teoretic Student pentru un prag de semnificaie ales, de obicei
=5%:
/2 /2 i a i + a ICa i = [a i t grd .lib . ; a i t grd .lib . .

Intervalele de ncredere pentru cei trei estimatori ai coeficienilor variabilelor explicative sunt:
ICa1 : [0.137 ; 1.467] , semnul + indic legtura direct dintre y i x1; ICa 2 : [ 0.730 ; 0.032] , semnul - indic legtura invers dintre y i x2 (Figura 2.17);

3 poate lua valoarea 0, nu este ICa3 : [ 0.153 ; 0.079] , se schimb semnul de la - la +, a semnificativ diferit de 0. Numai variabilele x1 i x2 sunt variabile exogene semnificative. Pentru noul model cu dou variabile explicative, se obine tabela de regresie prezentat n

Tabelul 2.6. Valorile teoretice calculate cu acest model: t = 29.143 + 0.715 x 0.328 x 2 y se af n Tabelul 2.4 i n Figura 2.19.
SUMMARY OUTPUT Regression Statistics Multiple R 0.8292 R Square 0.6875 Adj. R Sq. 0.6307 Std Error 2.538 Observations 14 ANOVA df Regression 2 Residual 11 Total 13 Coeff. Intercept 29.143 X Variable 1 0.715 X Variable 2 -0.32811

SS 155.97 70.88 226.86 Std. Error 5.85 0.26 0.134561

MS 77.99 6.44 t Stat 4.976 2.685 -2.4384

F 12.10 P-value 0.0004 0.0212 0.03292

Signif. F 0.0016 Low 95% 16.25 0.13 -0.6243 Upp 95% 42.03 1.30 -0.0319

Tabelul 2.6. Tabela de regresie a modelului cu dou variabile explicative

72

Se poate observa c acest model are coeficienii semnificativ diferii de 0, dup cum indic raiile Student calculate, care sunt mai mari dect valoarea teoretic din tabela Student, valorile Pvalue, care sunt mai mici dect 5%, precum i intervalele de ncredere ale coeficienilor, care nu

schimb semnul de la limita inferioar la cea superioar, deci nu conin valoarea 0. Intervalele de ncredere sunt:
ICa 0 : [16.25 ; 42.03] , ICa1 : [0.129 ; 1.301] , ICa 2 : [ 0.624 ; 0.032] .

Coeficientul de determinaie de 68.7% indic validitatea modelului liniar, iar coeficientul de corelaie multipl de 0.83 indic o corelaie puternic ntre cele trei variabile y, x1 i x2.

6.3. Analiza varianei testul Fisher


Tabelul de analiz a varianei, ANOVA este de forma celui din Tabelul 2.7:
Natura variaiei, datorat: Regresiei (variabilelor explicative) SSE= Reziduurilor (variana neexplicat) SSR= Total (toi factorii) SST= Sum de ptrate (Sum Squares) SS Grd.lib df k n-k-1 n-1 (Modified Sums) MS SSE/k SSR/(n-k-1) Testul Fisher F

(y
t =1 n

y)2 t )2 y y)2

F=

SSE/ k SSR/(n k 1)

(y
t =1 n

(y
t =1

Tabelul 2.7. Tabelul ANOVA la regresia multipl Testul de semnificaie global a regresiei se formuleaz astfel: exist cel puin o variabil explicativ semnificativ? Ipotezele sunt: H0: a1 = a2 = ... = ak = 0 (toi coeficienii sunt nuli, nici o variabil explicativ nu i aduce contribuia la explicarea variabilei y; termenul constant a0 nu prezint interes, deoarece un model n care numai termenul constant este semnificativ, nu are sens economic.) H1: exista cel puin un coeficient nenul. n cazul n care se accept H0 nseamn c nu exist nici o relaie liniar semnificativ ntre variabila y i variabilele xi cu i=1,2, ..., k. Testarea H0 este echivalent cu a testa dac variana SSE este semnificativ diferit de 0. n cazul exerciiului prezentat, tabelul de analiza varianei pentru modelul cu dou variabile explicative, dup eliminarea variabilei nesemnificative x3, este extras din Tabelul 2.6, n Tabelul 2.8:

73

Natura variaiei Regression Residual Total

df 2 11 13

SS 155.9733 70.88389 226.8571

MS 77.98663 6.44399

F 12.10223

Significance F 0.001665

Tabelul 2.8. Tabelul ANOVA pentru modelul cu dou variabile explicative Ipoteza de normalitate a erorilor implic, sub ipoteza H0, c statistica F* urmeaz o lege Fisher cu k i n-k-1 grade de libertate. F * = SSE / k = 12.10 se compar cu o valoare SSR /(n k 1)

teoretic Fisher cu 2 i 11 grade de libertate, care pentru un prag de semnificaie =5% este
Fk,n=5k% 1 = 3.98. Cum F * > Fteoretic se accept ipoteza alternativ, H1, deci regresia este global

semnificativ, modelul este bine construit. Valoarea calculat F* corespunde unui prag de semnificaie de 0.16%, mult mai mic dect 5%. i regresia prezentat n Tabelul 2.5, cu trei variabile explicative, este global semnificativ
=5% = 3.71 , iar valoarea calculat F*=7.87>3.71, pentru un prag de semnificaie de pentru c F3 ,10

0.54%. Numai cnd modelul are termen constant, F* se poate scrie n funcie de coeficientul de determinaie R2. Din relaia: R 2 = SSE , se poate exprima: SSE = SST R 2 , iar SSR se poate SST SSR , SSR = SST (1 R 2 ) . SST

exprima n funcie de coeficientul de nedeterminaie: N 2 = 1 R 2 =

nlocuind n formula statisticii F*, valorile astfel exprimate SSE i SSR, se simplific cu SST i rmne astfel: F * = R2 / k . (1 R 2 ) /(n k 1)

Pe lng testul global de semnificaie, se efectueaz testele de semnificaie individual a coeficienilor pentru fiecare variabil explicativ din model. Calitatea ajustrii se determin n funcie de coeficientul de determinaie: R 2 = SSE . Dac SST

R 2 1 nseamn c variana total SST, este aproape n ntregime explicat de SSE, i modelul
este bine ales. Coeficientul de determinaie multipl: R = R 2 , arat intensitatea corelaiei simultane a variabilelor explicative asupra variabilei dependente y.

74

6.4. Teste pornind de la analiza varianei modelului liniar


Pe baza analizei varianei se disting patru teste des utilizate: verificarea semnificaiei introducerii uneia sau mai multor variabile explicative n model, verificarea stabilitii n timp a modelului, folosind testul Chow, testarea restriciilor asupra coeficienilor, semnificaia creterii volumului eantionului pentru estimarea modelului.

6.4.1. Introducerea uneia sau mai multor variabile explicative n model


Adugarea unor variabile explicative n model mbuntete semnificativ calitatea ajustrii? Exist oare o diferen semnificativ ntre variana explicat, SSE, de modelul complet i cea explicat, SSE1, de modelul cu mai puine variabile independente? Testul de ipoteze este:
1 H 0 : SSE SSE = 0 . 1 H SSE SSE : 0 1

Se calculeaz: F * =

( SSE SSE 1) /(k k 1 ) i se compar cu Fk k 1 ,n k 1 , unde k este numrul de SSR /(n k 1)

variabile explicative, inclusiv cele adugate din modelul cel mai cuprinztor, iar k este numrul iniial de variabile explicative, k<k. Regula de decizie este: F * < Fk k ,n k 1 se accept H0, nu este nici o diferen ntre cele dou modele i introducerea

variabilelor suplimentare nu mbuntete calitatea ajustrii; - F * > Fk k ,n k 1 se accept H1, introducerea variabilei sau variabilelor suplimentare a contribuit la o mai bun explicare a varianei variabilei endogene.

6.4.2. Verificarea stabilitii n timp a modelului testul CHOW


Problema este dac modelul se poate considera ca fiind stabil pe ntreaga perioad sau este mai bine s se considere dou subperioade distincte de estimare? Specificarea modelului este aceeai, dar valorile coeficienilor pot fi diferite. Verificarea stabilitii coeficienilor const n a testa dac exist o diferen semnificativ ntre variana neexplicat SSR pe ansamblul perioadei i suma varianelor neexplicate pe cele dou subperioade SSR1 + SSR2? Dac rspunsul este negativ, nseamn c divizarea pe subperioade nu mbuntete calitatea modelului, modelul iniial este stabil pe ntreaga perioad. n caz contrar se declar modelul ca fiind instabil i este mai bine s se estimeze pe subperioade.

75

Testul de ipoteze este:


1 2 H 0 : SSR ( SSR + SSR ) = 0 1 2 H 1 : SSR ( SSR + SSR ) 0

Se calculeaz valoarea Fisher, considernd n1, numrul de observri n prima subperioad i n2, numrul de observri n a doua subperioad, iar suma lor n1 + n 2 = n , este numrul total de observri din modelul iniial: [ SSR ( SSR 1 + SSR 2 )] /[(n k 1) (n1 k 1) (n2 k 1)] F* = = ( SSR 1 + SSR 2 ) /[(n1 k 1) + (n2 k 1)] = [ SSR ( SSR 1 + SSR 2 )] /(k + 1) ( SSR 1 + SSR 2 ) /[n 2(k + 1)]

Regula de decizie: - F * Fk+1,n 2( k +1) se accept H0, nu este nici o diferen ntre variana reziduurilor calculat pe ntreaga perioad i suma varianelor reziduurilor calculate pe subperioade; coeficienii sunt stabili pe ntreaga perioad; F * > Fk+1,n 2( k +1) se accept H1, exist diferene semnificative ntre variana reziduurilor pe

ntreaga perioad i suma varianelor reziduurilor pe subperioade; coeficienii nu sunt constani; modelul este instabil.

6.5. Exerciiu Teste pornind de la analiza varianei


Relund datele din aplicaia anterioar, referitoare la modelul cu trei variabile t = 35.72 + 0.802 x1 0.381x 2 0.037 x3 explicative: y (10.99) (0.298) (0.156) S se testeze urmtoarele ipoteze: a) Adugarea variabilelor explicative x2 i x3 amelioreaz semnificativ calitatea ajustrii fa de estimarea numai n raport de variabila x1? Dar adugarea numai a variabilei x2? b) Se poate considera modelul cu trei variabile, ca fiind stabil pe ansamblul perioadei sau trebuie s se procedeze la estimarea pe subperioade: de la perioada 1 la 7 i de la 7 la 14?
Soluie:

(0.052)

( ) abaterea standard a coeficienilor, n=14, R2=0.7027.

a) Introducerea a dou variabile explicative suplimentare Se execut urmtoarele operaiuni:

76

1. Calculul varianei totale, a celei explicate i a celei reziduale pentru modelul complet cu trei variabile explicative. Aceste valori se gsesc n tabela de regresie din Tabelul 2.5: SSE=159.409 SSR= 67.448 SST=226.857 2. Calculul varianei totale, a celei explicate i a celei reziduale pentru modelul cu o singur variabil explicativ, x1. Aceste valori se gsesc n tabela de regresie din Tabelul 2.9: SSE=117.659 SSR=109.198 SST=226.857 SST este evident aceeai, indiferent de numrul variabilelor explicative, pentru c msoar variaia datorat tuturor factorilor (nregistrai i reziduali). Se observ c R2=0.5186 este mai mic dect n cazul modelului iniial, cu trei variabile explicative.
SUMMARY OUTPUT Regression Statistics Multiple R 0.7202 R Square 0.5186 Adjusted R 0.4785 Square Standard 3.0166 Error Observations 14 ANOVA df Regression 1 Residual 12 Total 13 Coeff. Intercept X Variable 1

SS MS F Signifi. F 117.6589 117.6589 12.92975 0.0036 109.1983 9.099855 226.8571 Standard t Stat P-value Lower Error 95% 15.559 2.147 7.247 1.02E-05 10.882 1.0118 0.281 3.596 0.003674 0.399

Upper 95% 20.237 1.625

Tabelul 2.9. Tabele de regresie a modelului cu o singur variabil explicativ 3. Testul statistic asupra ipotezelor: H0: SSE-SSE1=0 H1: SSE-SSE1 0 Valoarea calculat Fisher este:
F* = ( SSE SSE 1) /(k k 1 ) (159.409 117.659) /(3 1) = 3.09 = 67.448 /(14 3 1) SSR /(n k 1)
= 5% = 5% Fk k 1 ,n k 1 = F3 = 4.10 1,14 31 = F2 ,10

77

Cum 3.09 < 4.10, rezult c se accept ipoteza nul H0, adugarea variabilelor x2 i x3 nu este important. Introducerea acestor variabile nu contribuie semnificativ la mbuntirea calitii ajustrii. S-a discutat deja mai sus, i se poate vedea n tabela de regresie din Tabelul 2.5, c variabila x3, nu este semnificativ, deoarece raia sa Student este mai mic dect valoarea teoretic, fapt care a condus apoi la excluderea sa din model. Este interesant s se analizeze, dac introducerea unei singure variabile suplimentare, i anume x2, mbuntete calitatea ajustrii. Se vor parcurge aceeai pai, ca cei prezentai mai sus: calculul varianei totale, a celei explicate i a celei reziduale pentru modelul cu dou variabile explicative, x1 i x2: SSE=155.973 SSR= 70.884 SST=226.857 calculul varianei totale, a celei explicate i a celei reziduale pentru modelul cu o singur variabil explicativ, x1. Tabela de regresie este n Tabelul 2.9. SSE=117.659 SSR=109.198 SST=226.857 Valoarea calculat Fisher este:
F* = ( SSE SSE 1) /(k k 1 ) (155.973 117.659) /(2 1) = 5.946 = 70.884 /(14 2 1) SSR /(n k 1)
= 5% = 5% Fk k 1 ,n k 1 = F2 = 4.84 1,14 2 1 = F1,11

Cum 5.946 > 4.84, rezult c se respinge ipoteza nul H0, i se accept ipoteza alternativ, H1, conform creia adugarea variabilei x2 aduce o modificare semnificativ a varianei explicate. Introducerea variabilei x2 contribuie semnificativ la mbuntirea calitii ajustrii. Acest fapt este dovedit i de valoarea coeficientului de determinaie, care n cazul modelului cu dou variabile explicative este R2=0.6875 mai mare dect n modelul cu o singur variabil explicativ, x1, R2=0.5186. b) Testul Chow pentru verificarea stabilitii n timp a modelului Se va testa stabilitatea modelului cu trei variabile explicative. Pasul 1: se estimeaz coeficienii modelului pentru prima subperioad, de la 1 la 7. Tabela de regresie obinut este prezentat n Tabelul 2.10.

78

SUMMARY OUTPUT Regression Statistics Multiple R 0.8322 subperioada 1 R Square 0.6926 Adj. R Sq. 0.3851 Std. Error 3.0176 Observations 7 ANOVA df SS MS F Regression 3 61.5396 20.5132 2.2527 Residual 3 27.3176 9.1059 Total 6 88.8571 Coefficients Std.Error t Stat P-value Intercept 28.5471 15.8986 1.7956 0.1704 X Variable 1 0.7739 0.5290 1.4629 0.2397 X Variable 2 -0.2932 0.3137 -0.9346 0.4189 X Variable 3 -0.0125 0.1008 -0.1240 0.9091

Significance F 0.2610 Lower 95% -22.0494 -0.9097 -1.2914 -0.3333 Upper 95% 79.1436 2.4575 0.7051 0.3083

Tabelul 2.10. Tabela de regresie pentru prima subperioad de la 1 la 7 Se observ n Tabelul 2.10, c nici unul din coeficienii de regresie nu este semnificativ diferit de 0, valorile P-value sunt mai mari dect pragul acceptat de 0.05, toate intervalele de ncredere ale estimatorilor coeficienilor schimb semnul de la la +, deci conin valoarea 0. Nici testul Fisher nu indic o regresie global semnificativ, Significance F avnd o valoare mult prea mare, 26.1% fa de 5%, ct se accept n mod obinuit. Varianele din tabelul ANOVA sunt: SSE1=61.54 SSR1=27.32 SST2=88.86 Pasul 2: se estimeaz coeficienii modelului pentru a doua subperioad, de la 8 la 14; tabela de regresie se afl n Tabelul 2.11.
SUMMARY OUTPUT Regression Statistics Multiple R 0.7375 subperioada 2 R Square 0.5439 Adjusted R Square 0.0877 Standard Error 2.6282 Observations 7 ANOVA df SS MS F Significance F Regression 3 24.7067 8.2356 1.1923 0.44423 Residual 3 20.7219 6.9073 Total 6 45.4286 Coefficients Std.Error t Stat P-value Lower 95% Intercept 63.1390 34.3309 1.8391 0.1632 -46.1175 X Variable 1 1.2282 0.6852 1.7924 0.1710 -0.9525 X Variable 2 -0.6208 0.5224 -1.188 0.3201 -2.2832 X Variable 3 -0.1843 0.1528 -1.206 0.3142 -0.6707

Upper 95% 172.3955 3.4089 1.0416 0.3020

Tabelul 2.11. Tabela de regresie pentru a doua subperioad de la 8 la 14 79

Concluzia este asemntoare cu cea de la prima subperioad: c nici unul din coeficienii de regresie nu este semnificativ, intervalele de ncredere ale estimatorilor coeficienilor conin valoarea 0, testul Fisher nu indic o regresie global semnificativ. Varianele din tabelul ANOVA, corespunztor celei de a 2-a subperioade, sunt: SSE2=24.71 SSR2=20.72 SST2=45.43 Pasul 3: se calculeaz valoarea Fisher: F* = [ SSR ( SSR 1 + SSR 2 )] /(k + 1) . ( SSR 1 + SSR 2 ) /[n 2(k + 1)]

F* =

[67.448 (27.32 + 20.72)] /(3 + 1) (67.448 48.04) / 4 = = 0.606 (27.32 + 20.72) /[14 2(3 + 1)] 48.04 / 6
=5% = 5% Fk+1,n 2( k +1) = F3 = 4.53 . +1,14 2 ( 3+1) = F4 , 6

Valoarea teoretic Fisher cu care se compar este:

Cum 0.606 < 4.53, rezult c se accept ipoteza nul, H0, adic nu exist diferene semnificative ntre variana reziduurilor pe ntreaga perioad i suma varianelor reziduale pe cele dou subperioade. Se poate accepta stabilitatea coeficienilor pe ntreaga perioad.

7. Previziuni folosind modelul regresiei multiple


Procedura de estimare a valorilor viitoare ale variabilei dependente, y, este similar cu cea utilizat la regresia simpl. Se cunosc valorile viitoare ale variabilelor explicative i n funcie de acestea se stabilesc previziunile punctuale, dup care, cu o anumit probabilitate se estimeaz intervalele de ncredere ale acestor valori viitoare. Pentru perioada de la 1 la n, cu t=1,n, modelul este: t = a 0 + a 1 x1,t + a 2 x 2,t + ... + a k x k ,t . y Previziunea pentru unitatea de timp t+h, unde h este orizontul de previziune, sau i+h, dac datele sunt observate n mod instantaneu este: t +h = a 0 + a 1 x1,t + h + a 2 x 2,t + h + ... + a k x k ,t + h . y t +h . Eroarea de previziune este: et + h = y t + h y

80

t + h este nedeplasat i se obine Conform ipotezelor modelului liniar general, previziunea y prin aplicarea direct a modelului de regresie estimat. Se calculeaz variana erorii de previziune, care permite determinarea unui interval de ncredere pentru previziune. Aceast varian se calculeaz astfel:

e2 = 2 [ X t+ h ( X X ) 1 X t + h + 1]
t +h

Cunoscnd vectorul X t + h , care conine valorile viitoare ale variabilelor explicative, se


. dorete obinerea vectorului valorilor previzionate Y t +h
1 x1,t + h = x 2 ,t + h ... x k ,t + h

X t +h

Eroarea de previziune et + h urmeaz o lege normal de medie 0 i varian e2t + h , N(0, e2t + h ). 2 , se deduce c raportul: nlocuind variana erorilor 2 cu variana estimat, cea a reziduurilor
t +h yt +h y 2 [ X t+ h ( X X ) 1 X t + h + 1]

urmeaz o lege Student cu n-k-1 grade de libertate, unde k este numrul variabilelor explicative din model. Intervalul de ncredere pentru un prag de semnificaie de ,

/2 2 1 X t + h + 1] . t +h t n este: ICy t + h = y k 1 [ X t + h ( X X )

7.1. Exerciiu Previziuni folosind modelul regresiei multiple


Pentru exerciiul anterior, prezentat n paragraful 2.6.2. se alege modelul cu dou variabile explicative, dup ce s-a eliminat variabila x3, care a fost identificat ca fiind t = 29.143 + 0.715 x1,t 0.328 x 2,t se gsete n nesemnificativ. Tabela de regresie a acestui model y Tabelul 2.6. tiind c valorile variabilelor x1 i x2 pentru urmtoarele dou luni, 15 i 16 sunt: x1,15=3 i x1,16=6, respectiv x2,15=24 i x2,16=38, s se calculeze previziunea i intervalul su de ncredere de 95%, pentru lunile 15 i 16.
Soluie:

Pentru o probabilitate de 95%, valoarea teoretic Student este: 81

/2 0.025 0.025 tn = 2.201 . k 1 = t14 2 1 = t10

Tabela de regresie din Tabelul 2.6 arat c estimatorii coeficienilor sunt toi semnificativi diferii de 0. Previziunile pentru lunile 15 i 16 se obin direct prin nlocuirea n model a valorilor variabilelor explicative. Varianele reziduurilor sunt:
( X X ) 1 X 15 + 1] i ( X X ) 1 X 16 + 1] . e2 = 2 [ X 15 e2 = 2 [ X 16
15 16

Cei doi vectori ai variabilelor explicative sunt:


X 15 1 = 3 , 24 X 16 1 = 6 . 38

Se calculeaz ( X X ) 1 , fr a se considera i valorile viitoare pentru lunile 15 i 16, ci numai numrul de observri ale celor dou variabile explicative care intr n estimarea modelului:
99 490 14 X X = 99 815 3361 ; 490 3361 17600 ( X X ) 1 5.3223 - 0.1668 - 0.1163 = - 0.1668 0.0110 0.0025 . - 0.1163 0.0025 0.0028

e2

15

5.3223 - 0.1668 - 0.1163 1 = 2.5385 2 (1 3 24) - 0.1668 0.0110 0.0025 3 + 1 = 11.738 ; - 0.1163 0.0025 0.0028 24

e = 3.426 .
15

2 e16

5.3223 - 0.1668 - 0.1163 1 = 2.5385 (1 6 38) - 0.1668 0.0110 0.0025 6 + 1 = 7.043 ; - 0.1163 0.0025 0.0028 38
2

e = 2.654 .
16

Valorile punctuale ale variabilei dependente sunt: 15 = 29.143 + 0.715 3 0.328 24 = 23.41 y 16 = 29.143 + 0.715 6 0.328 38 = 20.96 . y Intervalele de ncredere ale previziunilor sunt:
0.025 15 t11 e15 = 23.41 2.201 3.426 , ICy15 = [15.87 ; 30.95] ; ICy15 : y 0.025 16 t11 e16 = 20.96 2.201 2.654 , ICy16 = [15.12 ; 26.80] . ICy16 : y

82

Evoluia vnzrilor, ajustarea si previziunea lor


35

30

mil. euro

25

20

15

10 1 2 3 4 y 5 6 7 yt 8 9 10 11 12 13 14 15 16 lim.inf. lim.sup.

luni

Figura 2.20. Evoluia valorii vnzrilor, ajustarea i previziunea lor

n Figura 2.20 sunt prezentate valorile teoretice care ajusteaz seria iniial i previziunile pentru urmroarele dou perioade, precum i intervalul de ncredere care la cuprinde. Pentru a putea reprezenta limitele inferioar i superioar se creaz dou serii de date identice cu cea ajustat i se completeaz cu limitele inferioare, respectiv superioare, ale celor dou intervale de ncredere. Se are n vedere reprezentarea cu acelai tip de marcator ale celor trei serii: ajustat, a limitelor inferioare i a limitelor superioare ale intervalelor de ncredere, acestea dou din urm suprapunndu-se peste valorile ajustate, pn n luna a 14-a.

83

Rezumat:

Aceast capitol prezint modelul regresiei multiple, ipotezele de lucru, estimarea coeficienilor modelului, intervalele lor de ncredere, testarea semnificaiei estimatorilor modelului, testarea semnificaiei globale a regresiei, construirea de teste pentru verificarea validitii modelului i a stabilitii sale, previziunea cu modelul regresiei multiple. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.
Termeni importani:

Model de regresie multipl, estimatorii modelului de regresie multipl, ipotezele modelului de regresie multipl, testul F de verificare a semnificaiei globale a regresiei, ANOVA, testul Chow

ntrebri recapitulative

1. Enumerai ipotezele modelului de regresie multipl 2. Scriei modelul de regresie pe baza unei tabelei de regresie multipl. 3. n ce const testul Chow? 4. Cum stabilii daca estimatorii modelului sunt semnificativ diferii de zero? 5. Reprezentai tabelul de analiz a varianei ANOVA si testul F pentru regresia multipl. 6. Cum se construiesc intervalele de ncredere ale estimatorilor? Dar ale valorilor previzionate? 7. Cum apreciai validitatea unui model de regresie multipl?

Teme de cas

Parcurgei exemplele din curs utiliznd calculatorul; realizai graficele i tabela de regresie. Sa se stabileasc matriceal estimatorii modelului de regresie multipl.

84

CAPITOLUL 3

Tema Obiectivele

MULTICOLINIARITATEA I SELECIA VARIABILELOR EXPLICATIVE 1. Corelaia parial, n modelele econometrice 1.1. Calculul coeficienilor de corelaie parial 1.2. Exerciiu Calculul coeficienilor de corelaie parial 2. Multicoliniaritatea 2.1. Consecinele multicoliniaritii 2.2. Detectarea multicoliniaritii 2.3. Remedierea multicoliniaritii 3. Selecia variabilelor explicative 3.1. Exerciiu Metode de selecie a variabilelor explicative 1. Estimarea coeficienilor de corelaie parial 2. Eliminarea din modelul de regresie multipl a variabilelor explicative multicoliniare 3. Cunoaterea i aplicarea metodelor de selecie a variabilelor explicative - citire/nvare - ntrebri, probleme ce apar, explicaii - definiii, explicaii ce trebuie reinute - situaii economice concrete, supuse analizei, exemple (sub lup) - teme de cas, aplicaii practice pentru studeni - parcurgerea aplicaiilor propuse 1. Pentru cunoaterea problemei: 3 ore 2. Pentru rezolvarea temelor: 4 ore + timpul de documentare

Finalitatea Competene dobndite Mijloace

Evaluarea Timp de lucru necesar

85

MULTICOLINIARITATEA I SELECIA VARIABILELOR EXPLICATIVE


n construirea unui model, se caut o combinaie optim de variabile explicative, care s maximizeze coeficientul de corelaie multipl cu seria variabilei explicate, i care s fie n acelai timp ct mai puin corelate ntre ele.

1. Corelaia parial, n modelele econometrice


Coeficienii de corelaie parial permit determinarea aportului fiecrei variabile exogene la explicarea variabilei endogene. De exemplu, pentru modelul cu dou variabile explicative: yt = a0 + a1x1t + a2x2t + t , se pot calcula: coeficieni de corelaie simpl: ryx1, ntre y i x1, ryx2, ntre y i x2, rx1x2, ntre x1 i x2; ryx1.x2, ntre y i x1, cnd influena lui x2 este retras (meninut constant), ryx2.x1, ntre y i x2, cnd influena lui x1 este retras (meninut constant).

coeficieni de corelaie parial:

Coeficientul de corelaie parial msoar legtura dintre dou variabile n timp ce influena celei de a treia este meninut constant (retras). Coeficienii de corelaie parial se interpreteaz la fel ca i coeficienii de corelaie simpl. Coeficienii de corelaie parial se situeaz n intervalul [-1, 1]. Valorile apropiate de 1arat o corelaie parial mare, iar valorile apropiate de 0, o corelaie parial mic. Cu ct un coeficient de corelaie parial este mai mare cu att contribuia variabilei respective este mai important la explicarea global a modelului. are expresia r2yx1.x2, de exemplu, i semnific

Coeficientul de determinaie parial variaiei variabilei x1.

proporia din variaia variabilei y neexplicat de variabila x2, care este explicat prin considerarea

86

Explicarea grafic a coeficienilor de corelaie poate contribui la mai buna nelegere a coninutului lor. Fie un model cu dou variabile explicative:
0 + a 1 x 1t + a 2 x 2 t + et . yt = a

n Figura 3.1 se prezint trei situaii posibile de interaciune ntre variabila dependent y i cele dou variabile explicative considerate n model: variabilele x1 i x2 sunt independente ntre ele i fiecare influeneaz variaia variabilei y, cazul a); n cazul b) variabilele x1 i x2 sunt interdependente, ambele pot influena variabila y, sau numai una din ele, care la rndul ei se af n interdependen cu cealalt variabil explicativ. Se spune despre variabile c sunt coliniare; se poate manifesta fenomenul de multicoliniaritate.

y x1

x2 x1

y x2 x1

x2

a) Variabilele x1, x2 sunt independente ntre ele

b) Variabilele x1, x2 sunt corelate (coliniare)

Figura 3.1. Reprezentarea grafic a unor tipuri de relaii ntre variabile n cazul a) se pot calcula coeficieni de corelaie simpl: ryx1 - ntre y i x1 i ryx2 - ntre y i x2. Coeficientul de determinaie este n acest caz: R2yx1x2 = r2yx1 + r2yx2, iar coeficientul de corelaie
2 2 multipl este: R yx1x 2 = ryx 1 + ryx 2 .

Pe grafic coeficientul de determinaie este suma suprafeelor de intersecie dintre y i x1, respectiv dintre y i x2. Coeficienii de corelaie parial sunt: ryx1.x2 = ry.x1 ; ryx2.x1 = ryx2. n cazul b) variabilele explicative sunt interdependente i coeficientul de determinaie este suma suprafeelor de intersecie dintre: y i x1 separat, fr zona influenei comune a lui x1 i x2 asupra lui y, y i x2 separat, fr zona influenei comune a lui x1 i x2 asupra lui y, y, x1 i x2, zona de influen simultan a celor dou variabile explicative asupra lui y. Pentru calculul coeficientului de determinaie, respectiv a coeficientului de corelaie multipl, trebuie s se elimine interinfluena dintre variabilele explicative, din suma coeficienilor de determinaie a variabilelor explicative.

87

Generaliznd noiunea de corelaie parial, pentru modelul cu k variabile explicative, se poate spune c un coeficient de corelaie parial msoar legtura dintre dou variabile, n timp ce influena uneia sau mai multor variabile este meninut constant (retras). Numrul variabilelor a cror influen se retrage, stabilete ordinul coeficientului de corelaie parial respectiv. Coeficienii de corelaie simpl se mai numesc de coeficieni de corelaie de ordinul 0. ntr-un model cu k variabile explicative, ordinul maxim pn la care se pot calcula coeficieni de corelaie parial este k1, deoarece nu se poate retrage influena tuturor variabilelor explicative. Fie y, variabila de explicat i x1, x2, x3, variabilele explicative (k = 3). Coeficienii de determinaie pentru regresiile dintre y i fiecare variabil explicativ considerat separat, sunt R2yx1, R2yx2, R2yx3. Acetia sunt egali cu coeficienii de corelaie simpl ridicai la ptrat, deoarece legtura este liniar. Se pot scrie r2yx1, r2yx2, r2yx3 i arat proporia cu care contribuie fiecare din variabilele exogene la explicarea varianei lui y. Se pot calcula 6 coeficieni de corelaie parial de ordinul 1: ryx1.x2 ; ryx1.x3 ; ryx2.x1 ; ryx2.x3 ; ryx3.x1 ; ryx3.x2 ; i 3 coeficieni de corelaie parial de ordinul 2: ryx1.x2x3 ; ryx2.x1x3 ; ryx3.x1x2 ; Ultimul ordin pn la care se pot calcula coeficienii de corelaie parial, este 2, cnd k=3.

1.1. Calculul coeficienilor de corelaie parial


Coeficienii de corelaie parial se poate calcula n dou moduri: A) - pornind de la reziduurile e1 i e2 rezultate n urma a dou regresii: 1. regresia dintre variabila de explicat y i variabilele retrase, 2. regresia dintre variabila explicativ xi a crei influen se analizeaz, i variabilele explicative retrase. parcurgndu-se urmtoarele etape: - exemplu pentru calculul r2yx3.x1x2: a) regresia y = f(x1, x2) , yt = a0 + a1x1t + a2x2t + 1t, unde t=1, 2, , n; t = y t (a 0 + a 1 x1t + a 2 x 2t ) ; b) calculul reziduurilor e1t = y t y c) regresia x3 = f(x1, x2) , x3t = b0 + b1x1t + b2x2t + 2t, unde t=1, 2, , n;
+b x +b x ); 3t = x3t (b d) calculul reziduurilor e2t = x3t x 0 1 1t 2 2t

e) calculul coeficientului de corelaie simpl ntre e1 i e2: r2yx3.x1x2=r2e1e2. Coeficientul de corelaie parial este coeficientul de corelaie simpl al reziduurilor obinute.

88

B) - pornind de la testul Student. Aceast metod se utilizeaz numai pentru calculul coeficienilor de corelaie parial de ordinul k-1. ntr-un model cu k variabile explicative, exist urmtoarea relaie ntre raiile Student calculate, ale estimatorilor coeficienilor de regresie ai variabilelor explicative i coeficienii de corelaie parial de ordinul k-1: r2yxi.(celelalte
k-1 variabile)

t i2 , unde ti reprezint raia Student empiric pentru variabila xi a crei influen asupra t i2 + (n k 1) lui y, se analizeaz.

1.2. Exerciiu Calculul coeficienilor de corelaie parial

Pentru seriile de date din Tabelul 3.1. s se calculeze cte un coeficient de corelaie parial pentru fiecare ordin: ryx3.x1, ryx3.x1x2, ryx3.x1x2x4.

y 9.5 10.7 11.5 12.5 13.3 15.3 16.8 18.8 19.5 21.5

x1 83.7 88.8 100.7 105.5 118.5 131.4 148.5 162 174.5 185.3

x2 18 21.5 25.6 29.5 34.6 40.5 44.4 49.8 51.5 53.8

x3 92.5 93.6 96.5 94 100.2 101.5 105.4 112.8 112.6 112.7

x4 92.5 95.6 97.5 97.4 100.2 101.4 104.6 109.8 111.5 112.2

Tabelul 3.1. Variabila dependent y i variabilele explicative

Coeficientul de corelaie parial de ordinul 1: ryx3.x1 se obine prin parcurgerea urmtorilor pai: a) regresia lui y = f(x1), prezentat n Tabelul 3.2:

89

SUMMARY OUTPUT Regression Statistics Multiple R 0.9969 R Square 0.9939 Adjusted RSquare 0.9931 Standard Error 0.3391 Obs. 10 ANOVA df SS MS F SignificanceF Regression 1 149.4443 149.4443 1299.89 3.84E-10 Residual 8 0.9197 0.1150 Total 9 150.364 Coefficients Std.Error t Stat P-value Lower 95% Intercept 0.3463 0.4187 0.8270 0.4322 -0.6193 XVariable1 0.1124 0.0031 36.0540 0.0000 0.1052

Upper 95% 1.3119 0.1195

Tabelul 3.2. Tabela de regresie y = f(x1)

t i reziduurile e1t = yt y t = yt (0.3463 + 0.1124x1t); b) valorile teoretice y

c) regresia x3 = f(x1), n Tabelul 3.3;

SUMMARY OUTPUT Regression Statistics Multiple R 0.9780 R Square 0.9565 Adj. R Sq. 0.9510 Standard Error 1.8269 Obs. 10 ANOVA df SS MS F Regression 1 586.57 586.5766 175.7572 Residual 8 26.7 3.3374 Total 9 613.27 Coefficients Std.Error t Stat P-value Intercept 73.267 2.2561 32.47 0.0000 XVariable1 0.223 0.0168 13.26 0.0000

Significance F 1E-06

Lower 95% Upper 95% 68.06 78.47 0.18 0.26

Tabelul 3.3. Tabela de regresie x3=f(x1)

3 t i reziduurile e2t= x3t x 3 t = x3t (73.267 + 0.223x1t). d) valorile teoretice x

Aceste valori teoretice i reziduurile sunt prezentate n Tabelul 3.4:

90

t (x1) y 9.8 10.3 11.7 12.2 13.7 15.1 17.0 18.5 20.0 21.2

e1t -0.25 0.38 -0.16 0.30 -0.36 0.19 -0.23 0.25 -0.45 0.33

3 t (x1) x 91.9 93.0 95.7 96.8 99.6 102.5 106.3 109.3 112.1 114.5

e2t 0.60 0.57 0.82 -2.75 0.56 -1.02 -0.92 3.47 0.49 -1.81

Tabelul 3.4. Calculul reziduurilor celor dou regresii

e)

calculul re1e2 = ryx3.x1, prin formula prezentat anterior la paragraful 3.3, punctul e) sau

realiznd regresia dintre cele dou serii de date e1 i e2, e1 = f(e2) sau mai simplu, folosind funcia CORREL pentru cele dou serii de reziduuri, se afl coeficientul lor de corelaie simpl, care este egal cu cel de corelaie parial cutat. Extrgnd radicalul din R Squared = 0.04296, se obine coeficientul de corelaie dintre cele dou variabile, cu semnul coeficientului de regresie. Deoarece coeficientul de regresie a1, din regresia e1t = a0 + a1e2t + vt, este negativ, rezult c: re1e2 = - 0.20728 i ryx3.x1= - 0.20728, iar coeficientul de determinaie parial este r2yx3.x1 = 0.04296, o valoare destul de mic, care indic o proporie foarte mic din variana neexplicat de x1 i explicat de x3. Coeficientul de corelaie parial al variabilei x3 asupra variabilei dependente y, cnd se retrage influena variabilei x1 indic lipsa corelaiei dintre y i x3. Valoarea acestui coeficient se obine cel mai simplu folosind funcia CORREL, al crei argument l constituie cele dou serii de reziduuri, indiferent de ordinea lor. Pentru a efectua o analiz mai amnunit a legturilor dintre y, x1, i x3, se pot interpreta corelaiile, deja existente, indicate de Multiple R, n Tabelele 3.2 i 3.3: - ntre y i x1, considerat separat, este o corelaie puternic ryx1=0.99690.997, - ntre y i x3, considerat separat, exist deasemenea o legtur puternic, care se poate obine uor prin efectuarea regresiei y=f(x3), n urma creia R2yx3=0.944, iar radicalul din acesta este coeficientul de corelaie simpl ryx3=0.9716 0.972; - ntre x1 i x3, este o corelaie puternic rx1x3 = 0.9779 0.978;

91

Coeficientul de corelaie parial ryx3.x1=-0.20728, arat legtura dintre y i x3, meninnduse constant influena lui x1; r2yx3.x1 = 0.04296 arat ct din variana lui y este explic x3 din variana rmas neexplicat de x1; valoarea foarte mic provine din faptul c x1 i x3 sunt puternic corelate pozitiv ntre ele. Urmnd procedura de mai sus se poate calcula i coeficientul de corelaie parial dintre y i x1, cnd se elimin influena lui x3: ryx1.x3= + 0.9462. Valoarea apropiat de 1 a acestui coeficient, indic o influen puternic a variabilei x1 asupra variabilei dependente y, dar n acelai timp exist o puternic legtur ntre x1 i x3. Pentru c ryx 3 < ryx1 , ambii coeficieni sunt de acelai semn pozitiv, artnd corelaii de intensitate mare asupra variabilei y, atnci ryx3. x1 < ryx1. x 3 i este firesc ca ryx1. x 3 > 0 indicnd o

legtur puternic, iar ryx 3. x1 < 0 , indic o intensitate slab a corelaiei pariale. Graficul acestor
corelaii, fr a analiza i legturile cu celelalte variabile, ar putea fi, cel din Figura 3.2:

x3

x1

Figura 3.2. Corelaii pariale ale variabilelor x1 i x3 asupra variabilei y Pe graficul din Figura 3.2 se poate vedea c suprafaa influenei dintre y i x1 este mai mare ca cea dintre y i x3, chiar cu poriunea haurat care reprezint coeficientul de determinaie parial

r2yx3.x1, variaia rmas ntre y i x3, dup ce s-a eliminat influena variabilei x1 i explicat de x3.
Suprafaa dintre y i x1, dup ce s-a eliminat influena lui x3, msurat prin r2yx1.x3 este mai mare.

Coeficientul de corelaie parial de ordinul 2: ryx3.x1x2 se obine prin parcurgerea etapelor:


a) regresia lui y = f(x1, x2), prezentat n Tabelul 3.5: Coeficientul de corelaie multipl Ryx1x2=0.997, arat legtur o puternic ntre y, x1 i x2.

92

SUMMARY OUTPUT Regression Statistics Multiple R 0.9970 R Square 0.9940 Adjusted R Square 0.9922 Std Error 0.3603 Observations 10 ANOVA df SS Regression 2 149.4551 Residual 7 0.9089 Total 9 150.364 Coefficients Std.Error Intercept 0.5079 0.7141 X Variable 1 0.1060 0.0221 X Variable 2 0.0179 0.0617

MS F 74.7276 575.5485 0.1298 t Stat 0.7113 4.7976 0.2894 P-value 0.4999 0.0020 0.7806

Signif. F 1.72E-08

Lower 95% -1.1806 0.0538 -0.1281

Upper 95% 2.1964 0.1583 0.1639

Tabelul 3.5. Tabela de regresie y = f(x1, x2)


t i reziduurile e1t = yt y t = yt (0.508 + 0.106x1t + 0.018x2t); b) valorile y

c) regresia x3 = f(x1, x2), prezentat n Tabelul 3.6:


SUMMARY OUTPUT Regression Statistics Multiple R 0.9780 R Square 0.9565 Adjusted R Square 0.9440 Standard Error 1.9528 Observations 10 ANOVA df SS MS Regression 2 586.583 293.2915 Residual 7 26.6930 3.8133 Total 9 613.276 Coefficients Std.Error t Stat Intercept 73.3916 3.8698 18.9653 X Variable 1 0.2177 0.1198 1.8179 X Variable 2 0.0137 0.3346 0.0411

F 76.91

Signif. F 1.72E-05

P-value 0.0000 0.1119 0.9684

Lower 95% 64.2410 -0.0655 -0.7776

Upper 95% 82.5421 0.5009 0.8051

Tabelul 3.6. Tabela de regresie x3 = f(x1, x2)

Coeficientul de corelaie multipl Rx3x1x2=0.978, arat o legtur puternic ntre x3 i x1, x2.
3 t i reziduurile e2t = x3t x 3 t = x3t (73.39 + 0.218x1t +0.014x2t). d) valorile x

Valorile teoretice i reziduurile sunt prezentate n Tabelul 3.7:

93

t (x1,x2) y 9.7 10.3 11.6 12.2 13.7 15.2 17.0 18.6 19.9 21.1

e1t
-0.2 0.4 -0.1 0.3 -0.4 0.1 -0.2 0.2 -0.4 0.4

3 t (x1,x2) x 91.9 93.0 95.7 96.8 99.7 102.6 106.3 109.3 112.1 114.5

e2t
0.6 0.6 0.8 -2.8 0.5 -1.1 -0.9 3.5 0.5 -1.8

Tabelul 3.7. Valorile teoretice i reziduurile celor dou regresii e) calculul re1e2 = ryx3.x1x2, prin formula prezentat anterior, realiznd regresia dintre cele dou serii de date e1 i e2, e1 = f(e2) sau cu funcia CORREL. Rezult c: re1e2 = -0.2102; ryx3.x1x2 = -0.2102, iar coeficientul de determinaie parial r2yx3.x1x2 =

0.0442, are o valoare foarte mic.


Pentru a interpreta rezultatul, se pot calcula: rx1x2=0.9887, rx3x2=0.9674, ryx2=0.987. Se tie de la calculul coeficientului de corelaie parial de ordinul 1, c: rx1x3=0.978, ryx1= 0.997,

ryx3 = 0.972. Se poate trage concluzia c variabilele x1, x2 i x3 sunt puternic corelate ntre ele i
fiecare din ele separat cu y. Concluzia este c ntre y i x3 nu exist corelaie, dac se retrag variabilele x1 i x2.

Coeficientul de corelaie parial de ordinul 3: ryx3.x1x2x4 .


a) regresia y = f(x1, x2, x4), prezentat n Tabelul 3.8:
SUMMARY OUTPUT Regression Statistics Multiple R 0.9970 R Square 0.9940 Adjusted R Sq. 0.9911 Standard Error 0.3863 Observations 10 ANOVA df SS MS F SignificanceF Regression 3 149.4688 49.8229 333.9411 4.61E-07 Residual 6 0.8952 0.1492 Total 9 150.364 Coefficients Standard t Stat P-value Lower 95% Error Intercept -2.5606 10.1626 -0.2520 0.8095 -27.43 X Variable 1 0.0980 0.0355 2.7651 0.0326 0.011 X Variable 2 0.0191 0.0663 0.2879 0.7831 -0.143 X Variable 3 0.0397 0.1311 0.3028 0.7723 -0.281

Upper 95% 22.31 0.185 0.181 0.361

Tabelul 3.8. Tabela de regresie y = f(x1, x2, x4) 94

Coeficientul de corelaie multipl Ryx1x2x4 = 0.997, arat legtura puternic ntre y, x1, x2, x4.
t i e1t = yt y t = yt (-2.561+ 0.098x1t+0.019x2t + 0.040x4t); b) valorile y

c) regresia x3 = f(x1, x2, x4), prezentat n Tabelul 3.9;


SUMMARY OUTPUT Regression Statistics Multiple R 0.9878 R Square 0.9757 Std. Error 1.5776 Obs. 10 ANOVA df SS MS Regression 3 598.3432 199.4477 Residual 6 14.9328 2.4888 Total 9 613.276 Coefficients Intercept X Variable 1 X Variable 2 X Variable 3 -16.5784 -0.0165 0.0495 1.1643 Standard Error 41.5071 0.1448 0.2709 0.5356 t Stat -0.3994 -0.1138 0.1829 2.1738

F 80.14

Signif. F 3.13E-05

Pvalue 0.7034 0.9131 0.8609 0.0727

Lower Upper 95% 95% -118.1427 84.9859 -0.3708 0.3379 -0.6132 0.7123 -0.1463 2.4749

Tabelul 3.9. Tabela de regresie x3 = f(x1, x2, x4) Coeficientul de corelaie multipl Rx3x1x2x4 = 0.987, arat legtura puternic ntre x3, x1, x2, x4.
3 t i e2t = x3t x 3 t = x3t - (-16.578 - 0.016x1t + 0.049x2t + 1.164x4t). d) valorile x

Aceste valori teoretice i reziduurile sunt prezentate n Tabelul 3.10:


t (x1x2x4) 3 t (x1x2x4) e1t e2t x y 9.7 -0.2 90.6 1.9 10.4 0.3 94.3 -0.7 11.7 -0.2 96.5 0.0 12.2 0.3 96.5 -2.5 13.7 -0.4 99.8 0.4 15.1 0.2 101.3 0.2 17.0 -0.2 105.0 0.4 18.6 0.2 111.1 1.7 20.0 -0.5 112.9 -0.3 21.1 0.4 113.7 -1.0 Tabelul 3.10. Valorile teoretice i reziduurile celor dou regresii

e) calculul re1e2 = ryx3.x1x2x4, prin formula prezentat anterior, realiznd regresia dintre cele dou serii de date e1 i e2, e1 = f(e2) sau cu funcia CORREL aplicat serrilor reziduurilor. Rezult c: re1e2 = -

0.3929; ryx3.x1x2x4 = -0.3929, iar coeficientul de determinaie parial este r2yx3.x1x2x4 = 0.1544, o

95

valoare mic, apropiat de 0, indicnd o mic proporie a variaiei variabilei y, explicat de variabila

x3, cnd se retrage influena celorlalte variabile explicative.


Datorit corelaiei mari dintre variabilele explicative (valorile apropiate de 1 ale coeficienilor de corelaie multipl de mai sus) i de asemenea dintre y i x4: ryx4 = 0.9882, coeficientul de corelaie parial de ordinul 3 al aceleai variabile x3 fa de y, este mic i de acelai semn negativ. ntre y i x3 nu exist corelaie dac se retrag variabilele x1, x2 i x4. Coeficientul de corelaie parial de ordinul 3, fiind ultimul ordin posibil de calculat, se poate obine i prin modalitatea de calcul pornind de la raia t Student. Valoarea sa trebuie s fie aceeai cu cea deja obinut prin procedeul anterior prezentat. Etapele care se parcurg sunt urmtoarele: a) regresia complet y = f(x1, x2, x3, x4), prezentat n Tabelul 3.11: b) raia Student a variabilei a crei influen asupra lui y se studiaz, t3, corespunztoare lui x3, -

0.9555 se nlocuiete n formula:


2 ryx 3. x1 x 2 x 4 = 2 t3 (0.9555) 2 = = 0.15439 2 t3 + (n k 1) (0.9555) 2 + (10 4 1)

ryx 3. x1x 2 x 4 = 0.15439 = 0.3929 .


SUMMARY OUTPUT Regression Statistics Multiple R 0.9975 R Square 0.9950 Adjusted R Square 0.9909 Standard Error 0.3891 Observations 10 ANOVA df Regression 4 Residual 5 Total 9 Coefficients Intercept -4.1555 X Variable 1 0.0965 X Variable 2 0.0239 X Variable 3 -0.0962 X Variable 4 0.1517

SS MS F 149.607 37.4018 247.0493 0.7570 0.1514 150.364 Std.Error t Stat P-value 10.3724 -0.4006 0.7052 0.0358 2.6976 0.0429 0.0670 0.3561 0.7363 0.1007 -0.9555 0.3832 0.1766 0.8590 0.4296

Signif. F 6.27E-06

Lower 95% -30.8186 0.0045 -0.1483 -0.3550 -0.3023

Upper 95% 22.5075 0.1884 0.1961 0.1626 0.6057

Tabelul 3.11. Tabela de regresie y = f(x1, x2, x3, x4) Semnul acestui coeficient este dat de semnul (negativ) coeficientului de regresie corespunztor variabilei x3. Raiile Student calculate comparate cu valoarea teoretic t5/2= 2.571, pentru 5 grade libertate i un prag de semnificaie = 5%, indic numai variabila x1, ca fiind semnificativ diferit

96

de 0. La celelalte se poate renuna, fapt confirmat i de rezultatele obinute pentru coeficienii de corelaie parial ai lui x3. Din cauza puternicei corelaii dintre variabilele explicative fenomen numit

multicoliniaritate - variabila x3 apare cu semnul negativ, chiar dac legtura sa cu y este direct, i
la fel i cu celelalte variabile explicative. Ca o consecin a multicoliniaritii, n acest exemplu este evident c dei coeficientul de determinaie este foarte mare, R2=0.9949, apar ca fiind nesemnificative variabilele explicative. Se reine n model, ca variabil semnificativ, numai variabila x1.

2. Multicoliniaritatea
Una din ipotezele modelului liniar clasic de regresie este aceea c nu exist

multicoliniaritate printre variabilele explicative incluse n model.


Termenul de multicoliniaritate, la originea sa nsemna existena unei relaii liniare

perfecte sau exacte dintre unele sau ntre toate variabilele explicative ale unui model de
regresie. Sensul recent al acestui termen este mai larg, referindu-se i la o relaie mai puin determinist. Despre dou serii x1 i x2, se spune c sunt ortogonale sau independente dac au covariana nul: cov(x1, x2) = 0. n acest caz, coeficientul lor de corelaie simpl este 0. Dac coeficientul de corelaie simpl dintre dou variabile este egal cu 1, seriile sunt perfect corelate, fie pozitiv, fie negativ. Legtura dintre ele este perfect sau determinist. Cnd valoarea coeficientului de corelaie simpl este apropiat de1, dei relaia lor nu este determinist, variabilele sunt puternic corelate. n practic seriile de date sunt mai mult sau mai puin corelate ntre ele. Multicoliniaritatea se refer strict la existena mai multor relaii liniare, iar termenul de coliniaritate se refer la existena unei singure relaii liniare. Aceast distincie nu se face n practic, folosindu-se n ambele situaii termenul de multicoliniaritate. n cazul a dou variabile explicative, intercorelaia lor se msoar cu coeficientul de corelaie simpl dintre ele. Intercorelaia n cazul mai multor variabile explicative se msoar cu ajutorul coeficienilor de corelaie parial sau prin coeficientul de corelaie multipl R a unei variabile xi cu toate celelalte variabile x considerate mpreun. n esen, multicoliniaritatea este un fenomen de eantionare, deoarece chiar dac n populaie, variabilele xi sunt necorelate liniar, se poate ca ntr-un eantion dat, ele s fie corelate. Astfel nct, dei teoretic se poate considera c variabilele xi au o influen separat sau independent asupra variabilei dependente y, se poate ntmpla ca n eantionul dat pentru a testa 97

funcia de regresie a populaiei, unele variabile xi, s fie att de puternic corelate, nct s nu se poat izola influena lor individual asupra lui y.

2.1. Consecinele multicoliniaritii


Se pot ntlni urmtoarele consecine ale multicoliniaritii: variane i covariane mari ale estimatorilor coeficienilor de regresie; intervale mari de ncredere ale estimatorilor, din cauza abaterilor standard mari; raiile t Student nesemnificative, din cauza abaterilor standard mari; un coeficient mare de determinaie R2, dar raiile t nesemnificative; instabilitatea estimatorilor i a abaterilor lor standard la mici schimbri ale datelor; n caz de multicoliniaritate perfect matricea X X este singular (determinatul este 0), estimarea coeficienilor este imposibil i variana lor, infinit. n Tabelul 3.11, regresia y = f(x1, x2, x3, x4) din exerciiul prezentat n paragraful 3.1.3, indic un coeficient de determinaie mare, de 0.995, iar testul Fisher arat c regresia este global semnificativ cu o probabilitate de 100% (Significance F). Cu excepia coeficientului variabilei x1, care este semnificativ, restul coeficienilor au raiile Student mai mici dect valoarea critic pentru un prag de semnificaie de 5%. Intervalele de ncredere ale estimatorilor, cu excepia intervalului
1 , schimb semnul de la minus la plus, coninnd valoarea 0 i indicnd faptul c sunt pentru a

nesemnificativi.

2.2. Detectarea multicoliniaritii


Pentru c n esen, multicoliniaritatea este un fenomen de eantionare, nu exist o metod unic de detectare i msurare a intensitii sale. Exist cteva reguli pentru stabilirea existenei sale: 1. R2 mare, dar puine raii t semnificative reprezint un simptom clasic de existen a multicoliniaritii. Testul F de semnificaie global a regresiei va fi n majoritatea cazurilor, mai mare dect valoarea F teoretic, astfel c se va respinge ipoteza nul, conform creia coeficienii pariali de regresie (estimatorii variabilelor explicative) sunt simultan egali cu zero. Dar raiile t infirm aceast concluzie. Prin valorile lor mici arat c nici unul sau foarte puini coeficieni de regresie sunt statistic semnificativ diferii de 0. Dei acest diagnostic este sensibil, dezavantajul su const n faptul c n acelai timp, este prea puternic, n sensul c se consider multicoliniaritatea ca fiind duntoare numai cnd influenele tuturor variabilelor explicative asupra lui y nu pot fi separate. 98

2. Corelaiile perechi puternice (perechi de cte dou variabile explicative) reprezint o alt regul pentru detectarea multicoliniaritii. Coeficienii de corelaie simpl ntre doi regresori pot avea valori mari i atunci multicoliniaritatea devine o problem serioas. Ideea principal, ce trebuie reinut, este c nu este necesar ca aceti coeficieni s fie mari pentru a exista coliniaritate. Coeficienii mari de corelaie de ordinul 0 reprezint condiia

suficient, dar nu i necesar pentru existena multicoliniaritii, deoarece aceasta poate exista chiar dac valorile lor sunt comparativ mici. Dac modelul are numai dou variabile
explicative atunci coeficientul lor de corelaie simpl este suficient n aprecierea gradului de coliniaritate. Pornind de la aceast regul, testul lui Klein, const n compararea coeficientului de determinaie

R2,

calculat

pe

modelul

cu

variabile

explicative:

0 + a 1 x1 + a 2 x 2 + ... + a k xk + e y=a

cu ptratul coeficienilor de corelaie simpl dintre regresori, r2xixj, unde ij. Dac R2 < r2xixj pentru oricare ij, i,j =1,2,,k, atunci exist o prezumpie de multicoliniaritate. Acest test nu este un test propriu-zis i nici nu este concludent n toate cazurile. 3. Examinarea corelaiilor pariale a fost propus de Farrar i Glauber, tocmai datorit problemei menionate pentru coeficienii de corelaie simpl dintre regresori. Ei susin c, n regresia dintre y i x1, x2, x3, dac se gsete c R2yx1x2x3 este mare, i comparativ r2yx1.x2x3,

r2yx2.x1x3, r2yx3.x1x2 sunt mici, aceasta poate sugera c variabilele x1, x2 i x3 sunt puternic
intercorelate i c cel puin una din variabilele explicative este n plus. Dei studiul coeficienilor de corelaie parial ar putea fi foarte util, totui nu se poate garanta c va furniza un rspuns sigur n ceea ce privete multicoliniaritatea. Se poate ntmpla ca att

R2yx1x2x3 ct i toate corelaiile pariale s fie suficient de mari, nct s pun sub semnul
ntrebrii afirmaia lui Farrar i Glauber. 4. Regresiile auxiliare. Aflarea variabilei explicative care este corelat cu alte variabile x, ntro combinaie liniar exact sau aproximativ, se poate realiza prin efectuarea regresiilor pentru fiecare variabil xi i restul variabilelor x. Fiecare din aceste regresii se consider ca fiind auxiliar fa de regresia principal, considerat a fi regresia lui y n funcie de toate variabilele explicative x. Un coeficient mare de determinaie sugereaz c xi este puternic corelat cu celelalte variabile x. Pentru fiecare din aceste regresii auxiliare se calculeaz
2 R xi .x 2 x 3...xk /( k 1) , unde k este numrul de statistica F, dup formula: Fi = 2 (1 R xi .x 2 x 3...xk ) /(n k 1)

variabile regresori din modelul auxiliar, n este volumul eantionului, iar R2xi.x2x3xk este 99

coeficientul de determinaie corespunztor fiecrei regresii. Se compar Fi* cu valoarea critic din tabela Fisher, pentru un prag de semnificaie i (k-1), (n-k-1) grade de libertate. Dac Fi* > Fk-1,n-k-1 acesta nseamn c acea variabil xi este coliniar cu celelalte variabile

x. Dac Fi* < Fk-1,n-k-1 se spune c variabila xi nu este coliniar cu celelalte variabile x, caz
n care respectiva variabil xi se reine n model. Aceast metod are neajunsurile ei, n sensul c atunci cnd multicoliniaritatea presupune implicarea a mai puine variabile, este dificil s se identifice inter-relaiile separate.

2.3. Remedierea multicoliniaritii


Exist mai multe reguli de remediere a multicoliniaritii, dar care nu reprezint metode sigure de nlturare a ei. Cteva dintre aceste reguli sunt: 1.

creterea volumului eantionului este eficient numai dac se adaug observri

semnificativ diferite de cele care sunt deja considerate n model, n caz contrar, multicoliniaritatea se menine; 2.

nlturarea variabilei puternic corelate poate conduce la o specificare incorect a

modelului. Eroarea de specificare duce la obinerea de estimatori eronai, fiind mai duntoare dect acceptarea unei multicoliniariti mici; 3.

transformarea variabilelor n serii de diferene de ordinul 1. Modelul de regresie pe

diferenele de ordinul 1, reduce severitatea multicoliniaritii, deoarece chiar dac exist corelaie puternic ntre dou variabile, nu exist nici un motiv s se considere c aceasta s-ar menine i ntre diferenele lor de ordinul 1. Acest procedeu are i dezavantajele sale: termenul eroare din forma transformat a diferenelor de ordinul 1, s-ar putea s nu respecte una din ipotezele modelului liniar clasic, i anume erorile nu sunt serial corelate (corelaie de ordinul 1). Dac n seriile iniiale erorile sunt independente sau necorelate, n seria transformat, acestea vor fi serial corelate n majoritatea cazurilor. Un alt dezavantaj este faptul c se pierde o observare prin difereniere, ceea ce este important cnd volumul eantionului este mic, i numrul gradelor de libertate se micoreaz cu 1. Mai mult, n seriile de date instantanee, procedura de difereniere nu este corespunztoare, deoarece nu exist o ordine logic a datelor observate. 4.

utilizarea altor metode cum sunt: analiza factorial, analiza n componente principale, sunt

deseori folosite pentru a rezolva problema multicoliniaritii. Se observ c nu n orice situaie, cnd se obin valori t nesemnificative pentru estimatorii coeficienilor de regresie, exist multicoliniaritate. Lipsa de semnificaie se poate datora i altor cauze, cum ar fi: 100

metoda folosit pentru culegerea datelor, de exemplu eantionarea variabilelor regresori peste valorile lor limit, pe care acestea le iau n populaie; restricii asupra modelului sau asupra populaiei i a metodei de eantionare folosit; specificarea modelului; supradimensionarea modelului, prin introducerea unui numr de variabile explicative, mai mare dect numrul de observri (n domeniul medical, cnd numrul de pacieni este mai mic dect informaiile despre ei, cuprinse ntr-un numr mare de variabile). Aplicarea n practic a uneia din modalitile de remediere, depinde de natura datelor i de

severitatea multicoliniaritii. Nu se recomand utilizarea regresiei afectat de multicoliniaritate, pentru previziune.

3. Selecia variabilelor explicative


Procedurile statistice de selecie a variabilelor explicative permit determinarea acelor variabile, care se adaug sau se retrag dintr-un model. Aceste demersuri exclud raionamentul economic, permind gsirea unor modele, care deseori sunt bune din punct de vedere statistic, dar a cror interpretare economic poate fi nul sau aberant. De aceea tehnicile automate de selecie a variabilelor explicative se utilizeaz cu pruden, completndu-se rezultatele cu raionamentul economic. Identificarea variabilelor explicative cele mai corelate cu variabila explicat i cel mai puin corelate ntre ele, se face conform urmtoarelor cinci proceduri: 1. 2. 3. 4. 5. - toate regresiile posibile; - eliminarea progresiv; - selecia progresiv; - regresia pas cu pas; - regresia pe faze.

Toate regresiile posibile. Aceast metod const n efectuarea tuturor regresiilor posibile (2k 1),
unde k este numrul variabilelor explicative, candidate la intrarea n model. Se reine acel model care are coeficientul de determinaie, R2 cel mai mare i toate variabilele explicative semnificative. Dezavantajul acestei metode, este legat de numrul k, de variabile explicative, care cu ct este mai mare, cu att duce la realizarea unui numr considerabil de regresii (de exemplu: k=10, numr

regresii posibile = 1023). 1. Eliminarea progresiv (Backward Elimination). Aceast procedur const n efectuarea
regresiei cu toate variabilele explicative i apoi eliminarea pe rnd, a acelora a cror raie Student 101

este mai mic dect valoarea critic. Procedura se utilizeaz, numai dac se poate estima efectiv, modelul iniial, ceea ce nu este mereu posibil. Modelul poate avea un numr mare de variabile explicative, i atunci, riscul multicoliniaritii este mare, iar matricea X X poate fi singular.

2.
-

Selecia progresiv (Forward Regression). Prin aceast procedur se parcurge un sens


n prima etap, se selecteaz n model o variabil xi, care are coeficientul de corelaie simpl cu variabila y, cel mai mare. n a doua etap se calculeaz coeficienii de determinaie parial r2yxj.xi pentru j i i se reine acea variabil xj, care are cel mai mare coeficient de corelaie parial.

invers celui descris n eliminarea progresiv.

Selecia variabilelor se oprete cnd raiile t calculate devin mai mici dect valoarea critic citit din tabela Student.

3.

Regresia pas cu pas (Stepwise regression). Aceast procedur este identic cu cea

precedent, a seleciei progresive, doar c nainte de a incorpora o nou variabil explicativ se examineaz raia t* a fiecreia din variabilele explicative selecionate n prealabil i se elimin din model cele care au raiile t* mai mici dect valoarea critic.

4.

Regresia pe faze sau pe stadii (Stagewise Regression). Procedura aceasta permite

minimizarea intercorelaiilor dintre variabilele explicative, prin studiul reziduurilor. Etapele care se parcurg sunt urmtoarele: etapa 1: se selecioneaz acea variabil explicativ, xi, care are coeficientul de corelaie simpl
cu y, cel mai mare;

t = y t (a 0 + a 1 x it ) i coeficienii de corelaie etapa a 2-a: se calculeaz reziduurile e1t = y t y

simpl ntre e1t i restul variabilelor explicative; se reine aceea dintre ele, xj, care are acest coeficient cel mai mare, considernd c va explica n continuare, cel mai bine, variana reziduurilor; -

t = y t (a 0 + a 1 x it + a 2 x jt ) i coeficienii etapa a 3-a: se calculeaz un nou reziduu: e2 t = y t y


de corelaie simpl ntre e2t i restul variabilelor explicative; se reine aceea dintre ele, xk, care are acest coeficient cel mai mare, ceea ce duce la obinerea altor reziduuri; procedura se termin cnd de coeficienii de corelaie simpl dintre reziduuri i variabilele explicative rmase, devin nesemnificativi.

102

3.1. Exerciiu Metode de selecie a variabilelor explicative


Pentru datele din Tabelul 3.12, se exemplific cele cinci proceduri de selecie a variabilelor explicative.
y 9.5 10.7 11.5 12.5 13.3 15.3 16.8 18.8 19.5 21.5 x1 83.7 88.8 100.7 105.5 118.5 131.4 148.5 162 174.5 185.3 x2 18 21.5 25.6 29.5 34.6 40.5 44.4 49.8 51.5 53.8 x3 92.5 93.6 96.5 94 100.2 101.5 105.4 112.8 112.6 112.7 x4 92.5 95.6 97.5 97.4 100.2 101.4 104.6 109.8 111.5 112.2

Tabelul 3.12. Eantionul de observri

1.

Toate regresiile posibile regresiile cu o variabil explicativ


(1) (2) (3) (4)

Pentru datele din Tabelul 3.12, k=4, (2k 1)=(241)=16-1=15 modelele.

yt = 0.346 + 0.112x1t + et (0.83) (36.05) yt = 3.466 + 0.311x2t + et (4.96) (17.34) yt = - 34.219 + 0.481x3t + et (-8.06) (11.62)

R2yx1 = 0.994 R2yx2 = 0.974 R2yx3 = 0.944 R2yx4 = 0.977

yt = - 44.318 + 0.579x4t + et (-13.64) (18.27) regresiile cu dou variabile explicative yt = 0.508 + 0.106x1t + 0.018x2t + et (0.71) (4.80) (0.29) yt = 3.165 + 0.121x1t 0.038x3t + et (0.63) (7.74) (-0.56) yt = - 2.555 + 0.105x1t + 0.037x4t + et (- 0.27) (4.49) (0.307) yt = - 6.850 + 0.231x2t + 0.130x3t + et (- 0.79) (3.35) (1.20) yt = - 22.187 + 0.148x2t + 0.309x4t + et (- 2.18) (2.26) (2.53) yt = - 45.88 - 0.090x3t + 0.685x4t + et (- 9.90) (- 0.50) (3.22)
103

(5) (6) (7) (8) (9) (10)

R2yx1x2 = 0.99395 R2yx1x3 = 0.99414 R2yx1x4 = 0.99396 R2yx2x3 = 0.9785 R2yx2x4 = 0.9864 R2yx3x4 = 0.9774

regresiile cu trei variabile explicative


(11) (12) (13) (14)

yt = 3.355 + 0.114x1t + 0.018x2t - 0.039x3t + et (4.04) (0.28) (-0.53) (0.61) yt = - 2.56 + 0.098x1t + 0.019x2t + 0.039x4t + et (- 0.25) (2.76) (0.28) (0.30) yt = -23.63 + 0.151x2t - 0.109x3t + 0.431x4t + et (-2.21) (2.23) (-0.76) (2.11)

R2yx1x2x3 = 0.9942 R2yx1x2x4 = 0.9940 R2yx2x3x4 = 0.9876 R2yx1x3x4 = 0.9948

yt = -4.105 + 0.105x1t - 0.093x3t + 0.146x4t + et (- 0.43) (4.50) (-1.00) (0.89) regresia cu cele patru variabile explicative yt= -4.155+0.096x1t+0.024x2t0.096x3t+0.152x4t+et (-0.40) (2.70) (0.36) (-0.95) (0.86)

(15)

R2yx1x2x3x4=0.998

Dintre cele 15 modele se elimin acelea care au una sau mai multe raii t Student calculate, mai mici dect valoarea Student critic, t/2n-k-1, pentru un prag de semnificaie =5% i corespunztoare pe rnd, fiecrui numr de grade de libertate: cnd k=1, t/28=2.306; k=2,

t/27=2.365; k=3, t/26=2.447; k=4, t/25=2.571. Se verific raiile Student i pentru termenul
constant. n urma acestei operaii se nltur modelele: 1, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15. Rmn ca fiind satisfctoare trei modele: 2, 3 i 4. Dintre acestea se alege modelul (4) deoarece are coeficientul de determinaie, R2, cel mai mare. Variabila x4 este singura care se reine pentru explicarea variabilei y. Modelul (1) are semnificativ variabila x1, are i coeficientul de determinaie cel mai mare, dar termenul liber are raia Student nesemnificativ.

2.

Eliminarea progresiv (Backward Elimination).

Din modelul complet (regresia cu toate variabilele explicative): (15)

yt= -4.155 + 0.096x1t + 0.024x2t 0.096x3t + 0.152x4t + et (0.36) (-0.95) (0.86) R2yx1x2x3x4=0.998 (-0.40) (2.70)

se elimin variabilele x2, x3 i x4 ale cror coeficieni de regresie au raiile t* mai mici dect valoarea critic, t/25=2.571, fiind astfel nesemnificativ diferii de 0. Rmne de estimat modelul cu o variabil explicativ, x1 i anume modelul: (1)

yt = 0.346 + 0.112x1t + et (0.83) (36.05)

R2yx1 = 0.994

Procedura se oprete aici, deoarece variabila explicativ din model este semnificativ, n urma aplicrii testului individual de semnificaie, t. Se alege variabila x1. Dar modelul nu este suficient de bun, pentru c termenul liber nu este semnificativ diferit de 0.

104

Din cauza multicoliniaritii variabilelor explicative, care sunt puternic corelate ntre ele, nu se poate alege variabila x4, conform aceastei proceduri.

3.

Selecia progresiv (Forward Regression).


Pentru exerciiul de mai sus, se pot obine imediat coeficienii de corelaie simpl ntre y i

variabilele x1, x2, x3 i x4, extrgnd radicalul din R2yx1, R2yx2, R2yx3, R2yx4 pentru modelele 1, 2, 3, 4 sau direct citind Multiple R n tabelele de regresie corespunztoare modelelor, sau utiliznd funcia

CORREL(array_1,array_2): ryx1=0.997; ryx2 =0.983; ryx3=0.975; ryx4=0.988.


n prima etap, se selecteaz n model variabila x1, care are coeficientul de corelaie simpl,

ryx1, cu variabila y, cel mai mare.


n etapa a doua, se estimeaz trei modele cu dou variabile explicative: x1 i x2 (5), x1 i x3 (6), x1 i x4 (7). Se calculeaz coeficienii de corelaie parial i se reine variabila, care are acest coeficient cel mai mare. Deoarece n modelele 5, 6, i 7 se observ c variabila introdus este nesemnificativ, de fiecare dat, (privind regresiile cu dou variabile explicative) nu este necesar s se mai calculeze coeficienii de corelaie parial. Procedura se oprete i variabila aleas rmne x1.

4.

Regresia pas cu pas (Stepwise regression).


Pentru exemplul prezentat:

n prima etap se calculeaz coeficienii de corelaie simpl dintre y i toate variabilele explicative; se alege x1 pentru c are ryx1 cel mai mare; n etapa a doua se estimeaz modelele cu dou variabile explicative, prin adugarea la model, cte una a celor rmase; se examineaz raiile Student cu valoarea critic i se ajunge la situaia descris deja.

5.

Regresia pe faze sau pe stadii (Stagewise Regression).


n exerciiul prezentat:

(1) -

n prima etap se alege variabila x1. Modelul este:

yt = 0.346 + 0.112x1t + et R2yx1 = 0.994 (0.83) (36.05) n etapa a 2-a se calculeaz reziduurile e1t = yt (0.346 + 0.112x1t), n Tabelul 3.13.

105

yt 9.5 10.7 11.5 12.5 13.3 15.3 16.8 18.8 19.5 21.5

x1 83.7 88.8 100.7 105.5 118.5 131.4 148.5 162 174.5 185.3

yt
9.8 10.3 11.7 12.2 13.7 15.1 17.0 18.5 20.0 21.2

e1t -0.3 0.4 -0.2 0.3 -0.4 0.2 -0.2 0.3 -0.5 0.3

Tabelul 3.13. Calculul valorilor ajustate n funcie de x1 i reziduurile e1t n etapa a 3-a se calculeaz coeficienii de corelaie simpl ntre reziduurile e1t i celelalte variabile explicative:

re1x2 = 0.016; re1x3 = -0.043; re1x4 = 0.016.


Coeficientul de corelaie simpl, re1x1 = 0, ntre x1 i e1 este nul, prin construcie, deoarece n

e1 nu mai exist informaie referitoare la x1. Ceilali coeficieni calculai, fiind foarte mici, deci
nesemnificativ diferii de 0, procedura de selecie se termin. Variabila explicativ aleas este x1. Dintre tehnicile prezentate, cea a tuturor regresilor posibile, furnizeaz un rezultat diferit de celelalte proceduri. Alegerea variabilei explicative x1 este indicat de majoritatea procedeelor.

106

Rezumat:

Cand variabilele explicative sunt corelate ntre ele apare fenomenul de multicoliniaritate, ale crui consecine nu pot fi ignorate n construirea unui model econometric. n aceast situaie a nerespectrii ipotezei de independen a variabilelor explicative, se identific variabilele corelate, care se elimin din model, pastrndu-se numai cele puternic corelate cu variabila dependent y, i ct mai puin corelate ntre ele. Calculul coeficienilor de corelaie simpl dintre variabilele explicative i a celor de corelaie parial ofer informaii pentru selecia variabilelor explicative n model. Aplicarea metodelor de selecie a variabilelor explicative se poate face combinat, pentru a ajunge la cea mai bun soluie. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.
Termeni importani:

Multicoliniaritate, coeficieni de corelaie parial de ordinul i, coeficieni de determinaie parial de ordinul i, metode de selecie a variabilelor explicative

ntrebri recapitulative

1. Explicai semnificaia coeficientului de corelaie parial. 2. Scriei toi coeficienii de corelaie parial posibi a se calcula pentru un model cu trei variabile explicative. 3. Ce este fenomenul de multicoliniaritate? 4. Care sunt consecinele multicoliniaritii? 5. Care sunt mijloacele de remediere a multicoliniaritii? 6. Care sunt metodele de selecie a variabilelor explicative? 7. Ce se ntmpl cand un model de regresie multipl prezint indicatori foarte buni de validitate, este global semnificativ, conform testului Fisher, dar are majoritatea estimatorilor modelului nesemnificativ diferii de zero?
Teme de cas

Parcurgei exemplele din curs,utiliznd calculatorul. Folosii ambele metodele de estimare a coeficienilor de corelaie parial de odinul k-1, ntrun model cu k variabile explicative, pentru un exemplu din curs.

107

CAPITOLUL 4

Tema Obiectivele

AUTOCORELAIA ERORILOR
1. Natura i cauzele autocorelaiei erorilor 2. Detectarea autocorelaiei 2.1. Exerciiu - Testul Durbin Watson 3. Estimatorii metodei celor mai mici ptrate n prezena autocorelaiei 4. Proceduri de estimare a lui 4.1. Estimarea direct a lui pornind de la regresia pe modelul iniial 4.1.1. Exerciiu - Estimarea parametrilor umui model n prezena autocorelaiei erorilor 1. Detectarea autocorelaiei erorilor de ordinul 1 2. Aplicarea metodei grafice pentru detectarea autocorelaiei erorilor 3. Estimarea unui model n prezena autocorelaiei erorilor - citire/nvare - ntrebri, probleme ce apar, explicaii - definiii, explicaii ce trebuie reinute - situaii economice concrete, supuse analizei, exemple (sub lup) - teme de cas, aplicaii practice pentru studeni - parcurgerea aplicaiilor propuse 1. Pentru cunoaterea problemei: 4 ore 2. Pentru rezolvarea temelor: 4 ore + timpul de documentare

Finalitatea Competene dobndite Mijloace

Evaluarea Timp de lucru necesar

108

AUTOCORELAIA ERORILOR
O ipotez important a modelului liniar clasic este aceea a inexistenei autocorelaiei erorilor de ordinul 1 (corelaie serial). n cazul n care aceast ipotez nu se respect este util de cunoscut care este natura autocorelaiei erorilor, care sunt consecinele practice ale acesteia i cum se remediaz aceast problem.

1. Natura i cauzele autocorelaiei erorilor


Prin termenul de autocorelaie se definete corelaia dintre termenii unei serii de observri ordonai n timp, dac seria este cronologic, sau ordonai n spaiu dac seria este instantanee. n modelul liniar clasic se presupune c nu exist o astfel de autocorelaie ntre erorile t, t=1,n. Simbolic, E(t t) = 0 , t t. Cnd autocorelaia erorilor exist atunci: E(t t) 0, t t. n Figura 4.1, sunt prezentate diferite forme de tendine, ce se pot manifesta n evoluia erorilor pentru o serie de timp. n Figura 4.1, cazul (a) prezint tendin ciclic, (b) i (c) - tendine liniare cresctoare, respectiv descresctoare, (d) tendin parabolic, iar (e) nu indic nici un trend sistematic printre erori, prezentnd situaia cnd se respect ipoteza de lips a autocorelaie a erorilor. Existena autocorelaiei erorilor semnific faptul c o eroare aprut la momentul t depinde de erorile care apar la momente anterioare de timp. Cauzele care determin autocorelaia erorilor sunt: 1. ineria ce se manifest n majoritatea seriilor economice de timp. Datorit ciclurilor economice, observrile succesive sunt interdependente. n general, ciclul economic presupune succesiunea unor faze de expansiune cu cele de recesiune. O expansiune sau o recesiune nceput dureaz, de obicei, mai muli ani. Aceste secvene repetate de cretere, sunt urmate de noi creteri i contraciile sunt urmate de noi contracii, care definesc ineria sau persistena ciclurilor economice. 2. eroarea de specificare datorit excluderii unor variabile explicative importante, conduce la apariia unui trend n comportamentul erorilor. Influena variabilei excluse este asimilat erorilor, ducnd la manifestarea unei tendine sistematice n evoluia acestora, producnd astfel o fals autocorelaie;

109

et

et

t et

(a)

(b) et

(c)

et

(d)

(e) Figura 4.1. Forme de evoluie n timp a erorilor

3. eroarea de specificare datorat alegerii incorecte a funciei analitice a modelului. De exemplu, dac se alege o funcie liniar n locul uneia de gradul doi, atunci termenul care reprezint ptratul variabilei explicative va fi cuprins n erori. Efectul sistematic al acestuia face ca erorile s manifeste autocorelaie din cauza specificrii incorecte a funciei analitice; 4. fenomenul pnz de pianjen, care se reflect, n special, n domeniul ofertei de produse agricole. Oferta acestor produse reacioneaz la preuri cu un lag (ntrziere) de o perioad, deoarece deciziile de ofert dureaz pn se implementez (de exemplu: perioada de gestaie, perioade de cretere a recoltei). La nceputul unui an agricol, recolta este influenat de preurile practicate cu un an n urm. Astfel funcia ofertei este: yt = a0 + a1pt-1 + t , unde yt este oferta, iar pt-1 reprezint preurile cu un an n urm. Dac n anul t, preul pt scade fa de pt-1, atunci n perioada t+1, agricultorii vor produce mai puin dect n perioada t. n aceast situaie erorile t 110

nu se ateapt s fie aleatoare, pentru c, dac n anul t a fost supraproducie, ei tind s-i diminueze producia n anul t+1, conducnd astfel la fenomenul numit pnz de pianjen (n limba englez Cobweb phemomenon); 5. ntrzierile, numite laguri apar deseori n unele modele n care variabilele dependente observate cu una, dou sau mai multe perioade n urm influeneaz variabila dependent din perioada curent. De exemplu, consumul la momentul t-1 poate influena consumul la momentul t, deoarece consumatorii nu-i schimb des comportamentul de consum, din raiuni psihologice, tehnologice, instituionale, etc. Dac se neglijeaz termenul ntrziat, erorile care apar vor reflecta sistematic o tendin datorit influenei consumului cu lag asupra consumului curent. Astfel de modele, cnd variabila dependent cu lag devine variabil explicativ pentru ea nsi, se numesc modele autoregresive. 6. modul de prelucrare a datelor poate produce autocorelaia erorilor n situaiile cnd: n regresiile care folosesc serii de date trimestriale sub form de medii, care se obin prin nsumarea observrilor pe trei luni i mprirea sumei la 3. Aceste medii netezesc fluctuaiile lunare i pot conduce la o tendin sistematic ce se manifest n erori, introducnd autocorelaie; interpolarea sau extrapolarea datelor pot constitui o alt surs de manipulare a datelor. Datele obinute prin interpolare, n interiorul unui interval de timp, de exemplu, 10 ani, n cazul recensmintelor, care au loc din 10 n 10 ani, sau datele extrapolate nafara unei perioade de timp analizate, impun o manifestare sistematic a unei tendine n erori, care nu ar fi existat dac s-ar fi folosit datele originale. Problema autocorelaiei erorilor este cel mai adesea ntlnit la seriile de timp, dar poate aprea i la seriile de date instantanee. n seriile instantanee nu poate exista o ordine cronologic, dar n unele cazuri poate fi stabilit o ordine de similaritate. Astfel tendina de consum poate fi diferit de la o regiune geografic la alta, dei este substanial similar n interiorul unei regiuni date. Reziduurile obinute n urma efectuarii unei regresii, pot manifesta o tendin sistematic asociat cu diferenele regionale. Unii autori numesc aceasta autocorelaie spaial, ceea ce nseamn corelaie n spaiu mai degrab dect n timp. Este important de tiut c n analiza seriilor instantanee, ordonarea datelor trebuie s aib o logic, un interes economic, care s dea sens existenei autocorelaiei erorilor. Autocorelaia erorilor este fie pozitiv, fie negativ. Manifestrile n timp ale erorilor, n ambele situaii sunt prezentate n Figura 4.2. n general, seriile cronologice manifest o autocorelaie pozitiv, pentru c majoritatea lor au, fie o evoluie cresctoare, fie descresctoare pentru o perioad de timp prezentat n cazul (a) i nu manifest o micare constant sus jos, ca

111

cea din cazul (b). Autocorelaia este pozitiv, cnd corelaia ntre t i t-1 este direct (a), i negativ, cnd corelaia ntre t i t-1 este invers (b).

t
0

0 timp

t-1

(a)

t
(b) Figura 4.2. Autocorelaia erorilor: pozitiv (a) i negativ (b) n Figurile 4.3 i 4.4 se prezint cele dou grafice utile pentru a pune n eviden corelaia

timp

t-1

pozitiv a reziduurilor. Graficul din Figura 4.3 este de tip Line i arat evoluia n timp a reziduurilor.

112

300 250 200 150 100

Evolutia erorilor

erorile

50 0 -50 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55

-100 -150 -200

timpul

Figura 4.3. Evoluia erorilor n cazul corelaiei pozitive Graficul din Figura 4.4. este de tip Scatter i arat corelaia de ordinul 1 dintre erorile, respectiv reziduurile, la timpul t i t-1, care n exemplul prezentat este de 0.888, artnd o intensitate puternic a cestei autocorelaii.

Corelaia serial a erorilor


300 250 200 150 100

et

50 0 -100 -50 0 -100 -150 -200 e t-1 100 200 300

-200

Figura 4.4. Autocorelaia pozitiv a erorilor, de ordinul 1

113

Figura 4.5 i Figura 4.6 prezint aceleai tipuri de grafice, pentru corelaia negativ. Intensitatea corelaiei de ordinul 1, prezentat n graficul din Figura 4.6. este de -0.856.

1.0 0.8 0.6 0.4 0.2 0.0 1 2 3 4 et -0.2 -0.4 -0.6 -0.8 -1.0

Corelaia invers a erorilor

10

11

12

13

14

15

timpul

Figura 4.5. Evoluia n timp a erorilor, n cazul corelaiei negative

Corelaia invers a erorilor 1.0 0.5 0.0 -0.5 -0.5 -1.0 e t-1 0.0 0.5 1.0 et -1.0

Figura 4.6. Corelaia serial a erorilor n cazul n care nu exist autocorelaia erorilor, graficele evoluiei n timp a reziduurilor i cel al autocorelaiei de ordinul 1, vor fi asemntoare celor din Figura 4.7, respectiv 4.8. Coeficientul de corelaie de ordinul 1 (cu funcia CORREL) este 0.10, o valoare mic, apropiat de 0, indicnd lipsa autocorelaiei de ordinul 1.

114

Graficul din Figura 4.7, care arat lipsa autocorelaiei de ordinul 1, prezint succesiuni de reziduuri pozitive i negative, comparativ cu alternarea strict a reziduurilor pozitive cu cele negative, la autocorelaia negativ, n Figura 4.5. Deosebirea ntre absena autocorelaiei erorilor fa de corelaia lor pozitiv, n Figura 4.3, const n lipsa oricrei tendine n evoluia erorilor.

80 60 40 20 0 -20 1 -40 -60 -80 4

Evoluia reziduurilor

7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55

Figura 4.7. Evoluia n timp a reziduurilor, n cazul lipsei autocorelaiei

Analiza autocorelaiei reziduurilor de ordinul 1 80 60 40 20 0 -60 -40 -20 -20 0 -40 -60 -80 et-1 20 40 60 80 et -80

Figura 4.8. Lipsa autocorelaiei reziduurilor

115

Graficul din Figura 4.4 prezint norul de puncte n cazul autocorelaiei pozitive, orientat, de-a lungul bisectoarei unghiului drept, fiind exact invers orientat n cazul autocorelaiei negative, n Figura 4.6. n cazul lipsei autocorelaiei reziduurilor, norul de puncte este dispersat i paralel cu axa Ox, n Figura 4.8. Utilizarea celor dou grafice: forma de evoluie a reziduurilor i corelograma reziduurilor, constituie una din modalitile de detectare a prezenei autocorelaiei erorilor.

2. Detectarea autocorelaiei
Detectarea autocorelaiei erorilor se face analiznd reziduurile, acestea fiind cunoscute. Metodele de detectare a autocorelaiei erorilor sunt: a) - examinarea vizual a reziduurilor metoda grafic dac reziduurile sunt fie pozitive, fie negative pe mai multe perioade, atunci se manifest o autocorelaie pozitiv; dac reziduurile alterneaz (pozitive cu negative), schimbndu-i semnul, se manifest o autocorelaie negativ. b) - Testul Durbin-Watson (DW) Acest test permite detectarea autocorelaiei erorilor de ordinul 1, adic de forma:
t = t 1 + t , cu t N(0,2v) , < 1.

Aceast relaie este cunoscut sub denumirea de schema Markov de ordinul 1 sau schema autoregresiv de ordinul 1 - AR(1). Denumirea de model autoregresiv este corespunztoare, deoarece se interpreteaz ca fiind regresia erorilor fa de ele nsi, retardate cu o unitate de timp i de ordinul 1, deoarece consider valoarea imediat trecut, adic de lag maxim 1. Testul de ipoteze este urmtorul: H0: = 0 H1: 0 - nu exist autocorelaia erorilor; - exist autocorelaia erorilor ( poate fi > 0 sau < 0).
n

Pentru a testa ipoteza nul se calculeaz statistica DW:

DW =

(e
t =2

e t 1 )
2 t

e
t =1

, unde

et sunt reziduurile rezultate n urma estimrii modelului.

116

este estimatorul coeficientului de Prin construcia sa, aceast statistic variaz ntre 0 i 4.

e +v : regresie al variabilei explicative din regresia et = t 1 t

DW =

2 (et et 1 ) (et 2et et 1 + et21 ) et 2 et et 1 + et21


n n n n n t =2

e
t =1

t =2

e
t =1

t =2

t =2 n

t =2

e
t =1

n n n 2 et et et 1 et et 1 2 1 t = 2 2(1 ) t =2 n t =2 n 2 2 et et t =1 t =1

= Coeficientul

e e
t =2

t t 1

e
t =1

se mai numete coeficient de autocorelaie de ordinul 1 sau coeficient de

2 t

ia valori n intervalul [-1, +1]: autocorelaie de lag 1. Ca orice coeficient de corelaie

= 0, DW = 2 i atunci nu exist autocorelaia erorilor; cnd = - 1, DW = 4 i exist autocorelaie negativ a erorilor; cnd = +1, DW = 0 i exist autocorelaie pozitiv a erorilor. cnd

Durbin i Watson au tabelat valorile critice ale testului DW, la un prag de semnificaie de 5%, n funcie de volumul eantionului i numrul variabilelor explicative, k. Lectura ascestei tabele permite determinarea a dou valori d1 i d2, cuprinse ntre 0 i 2, care mpart spaiul cuprins ntre 0 i 4 astfel:

0 I ? autocorelaie pozitiv >0

d1 I

d2 I ?

2 I

4 - d2 I

4 - d1 I

4 I

lips autocorelaie
=0

autocorelaie negativ <0

117

Cnd d1 < DW < d2 sau 4 d2 < DW < 4 d1, se manifest o ndoial (nedeterminare) asupra existenei sau lipsei de autocorelaie. Pentru a utiliza aceast statistic este necesar ndeplinirea simultan a urmtoarelor condiii: modelul s aib termen constant (liber); numrul de observri s fie mai mare dect 15; variabila de explicat s nu figureze printre variabilele explicative (nu n modele autoregresive); pentru seriile de date observate n mod instantaneu, acestea trebuie s fie ordonate dup variabila de explicat.

2.1. Exerciiu - Testul Durbin -Watson


Pentru modelul cu trei variabile explicative:
y t = a 0 + a 1 x 1t + a 2 x 2 t + a 3 x 3 t + t ,

se dispune de datele anuale ale variabilelor, pe o perioad de 20 de ani, n Tabelul 4.1. Anii 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 y 90 101 100 101 102 104 106 111 100 92 x1 102 104 105 104 105 105 105 105 103 103 x2 102 102 102 114 111 109 113 112 104 84 x3 112 113 113 107 110 108 111 106 106 107 Anii 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 y 78 80 88 94 106 108 99 107 114 130 x1 101 100 100 99 102 103 103 107 108 111 x2 72 74 84 105 108 114 95 92 96 110 x3 102 101 105 97 101 104 105 107 112 114

Tabelul 4.1. Evoluia variabilelor Pentru a depista o eventual autocorelaie a erorilor: a) s se estimeze parametrii modelului; b) s se efectueze analiza grafic a reziduurilor; c) s se calculeze statistica DW i s se efectueze testul de autocorelaie a erorilor.

118

a)

Pentru estimarea modelului se obine tabela de regresie, prezentat n Tabelul 4.2. Analiznd rezultatele din tabela de regresie se ajunge la urmtorul model:
y t = 241.04 + 3.72 x 1 + 0.39 x 2 0.78 x 3 + et , cu raiile Student: (-7.57) (8.13) (5.45) (-2.89)

SUMMARY OUTPUT Multiple R 0.9576 R Square 0.9170 Adjusted R Square 0.9015 Standard Error 3.7045 Observations 20 ANOVA df Regression 3 Residual 16 Total 19 Coefficients Intercept -241.039 X Variable 1 3.723 X Variable 2 0.391 X Variable 3 -0.783

Regression Statistics

SS MS F 2427.37 809.1233 58.95788 219.58 13.72375 2646.95 Std.Error t Stat P-value 31.84 -7.570 1.13E-06 0.458 8.131 4.49E-07 0.072 5.454 5.31E-05 0.271 -2.897 0.010505

Signif. F 7.21E-09

Lower 95% -308.54 2.75 0.24 -1.35

Upper 95% -173.54 4.69 0.54 -0.21

Tabelul 4.2. Tabela de regresie a modelului cu trei variabile explicative

Valoarea teoretic Student pentru un prag de semnificaie =5% i 16 grade de libertate, este 2.12; comparnd raiile Student ale estimatorilor coeficienilor de regresie se observ c toi sunt semnificativ diferii de 0. Modelul este global semnificativ, dup cum indic testul Fisher, iar coeficientul de detreminaie de 0.917 arat c modelul liniar este bine ales. Coeficientul de corelaie mulipl de 0.957 arat o intensitate puternic a dependenei variabilei y de variabilele explicative x1, x2 i x3. Graficul evoluiei variabilei y i a valorilor ajustate yt prin regresia liniar este prezentat n Figura 4.9:

119

140 130 valorile observate si ajustate 120 110 100 90 80 70 60 1 2 3

Evolutia variabilei y si ajustarea ei

10 11 12 13 14 15 16 17 18 19 20

yt

timpul

Figura 4.9. Evoluia variabilei y i a valorilor teoretice corespunztoare

b)

Analiza grafic a reziduurilor utilizeaz graficul evoluiei erorilor din Figura 4.10 i cel al

autocorelaiei reziduurilor din Figura 4.11.

8 6 4 2 erori 0

Evoluia reziduurilor

-2 -4 -6 -8

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

timpul

Figura 4.10. Evoluia reziduurilor

120

n Figura 4.10, reziduurile se succed ciclic, conducnd la presupunerea existenei unei autocorelaii pozitive, dei graficul din Figura 4.11 sugereaz o uoar intensitate a autocorelaiei pozitive, a crei existen este mai evident n Figura 4.10.

Autocorelaia reziduurilor 8 6 4 2 et 0 -8 -6 -4 -2 -2 -4 -6 -8 0 2 4 6 8 e t-1

Figura 4.11. Autocorelaia reziduurilor

c)

Datele exerciiului i modelul specificat ndeplinesc condiiile pentru aplicarea testului DW.
t , rotunjite la ntreg, pentru a fi similare cu datele observate, valorile teoretice (ajustate) y t , reziduurile et, calculate ca diferen ntre valorile observate yt i cele teoretice y

n Tabelul 4.3 sunt calculate:


diferenele a dou erori consecutive et - et-1, ptratele acestor diferene i suma lor, care constituie numrtorul, i calculul valorilor et2 i suma lor, care reprezint numitorul.

121

Pentru n=20 i k=3, se citesc n tabela lui Durbin-Watson, valorile d1=0.9981; d2 =1.6761.68.
t y 91 98 101 107 107 108 107 111 100 91 83 81 82 93 102 106 97 110 111 126

et -0.88 3.46 -1.27 -5.94 -5.14 -3.92 -1.14 0.34 -0.09 0.52 -5.26 -1.10 6.12 1.37 4.16 2.44 1.65 -2.50 3.13 4.05

et - et-1 (et - et-1)2 4.34 -4.72 -4.67 0.80 1.22 2.79 1.47 -0.42 0.61 -5.78 4.16 7.22 -4.76 2.79 -1.72 -0.78 -4.15 5.63 0.92 DW= 18.81 22.31 21.81 0.64 1.48 7.76 2.18 0.18 0.37 33.37 17.28 52.15 22.63 7.79 2.96 0.62 17.24 31.68 0.85 262.09 1.1978

e t2 0.78 11.94 1.61 35.25 26.39 15.38 1.29 0.11 0.01 0.27 27.63 1.21 37.49 1.86 17.27 5.93 2.73 6.26 9.78 16.39 218.80

Tabelul 4.3. Calculul statisticii DW Valoarea calculat DW=1.1978, se situeaz n zona de incertitudine (?): d1 < DW < d2, mai aproape de limita inferioar i se poate mai degrab accepta o autocorelaie pozitiv a reziduurilor, deci o prezumpie de existen a autocorelaiei erorilor.

0 I ? autocorelaie pozitiv

1 1.19 I I

1.68 I

2 I

2.32 I ?

3 I

4 I autocorelaie negativ

lips autocorelaie

Aceast concluzie ntrete pe cea formulat la punctul b), privind graficul din Figura 4.10, care sugera o intensitate slab a autocorelaiei pozitive. Estimatorii gsii sunt nedeplasai, dar neeficieni; nu mai sunt de varian minim. Se impune utilizarea unei proceduri adecvate de estimare.

122

3. Estimatorii metodei celor mai mici ptrate n prezena autocorelaiei

n cazul autocorelaiei erorilor, elementele de o parte i de alta a diagonalei matricei varian-covarian a erorilor, nu sunt 0, deoarece Cov(t,t-1)0, i = E( ) 2 I , unde I este matricea unitate. Estimatorii obinui cu metoda celor mai mici ptrate sunt nedeplasai, dar nu mai sunt de varian minim.
a )(a a ) Matricea de varian-covarian a estimatorilor este: a = E (a

}
1

a ) = ( X X )1 X (a
1

a ) = X ( X X )1 , (a a )(a a ) = ( X X )1 X X ( X X )1 , de unde (a
1 1

a X ) X E ( )X ( X X ) = ( X X ) = (X

( X X )( X X )1 .

2 n cazul respectrii ipotezei de independen a erorilor, aceast matrice este a = ( X X ) , dar n

situaia autocorelrii, cum = E( ) 2 I , aceasta devine a = X X

Metoda pentru obinerea unor estimatori liniari nedeplasai i de varian minim se numete metoda generalizat a celor mai mici ptrate. Estimatorii obinui prin aceast metod se numesc = X 1 X estimatorii lui Aitken: a

) (X
1

Faptul c n practic, nu se cunoate , face ca aceste formule s fie inutilizabile i s se impun necesitatea utilizrii unor proceduri operaionale de estimare.

4. Proceduri de estimare a lui


Aceste proceduri sunt valide numai dac se consider c ntre erori exist o relaie exprimat sub forma modelului autoregresiv de ordinul 1, adic se cunoate structura autocorelaiei.
t = t 1 + t , cu t N(0,2v) , < 1.

Substituind succesiv erorile n acest model, se obine:


t = ( t 2 + t 1 ) + t = 2 t 2 + ( t 1 + t ) t = t + t 1 + 2 t 2 + 3 t 3 + ...

123

Acest proces tinde ctre 0, deoarece || < 1, iar t ndeplinete condiiile modelului liniar clasic de regresie: E(t)=0 ; E(t2)=2v; E(t ,t )=0, unde tt.

4.1.

Estimarea direct a lui pornind de la regresia pe modelul iniial

Etapa 1: se estimeaz n dou moduri:

= fie, prin regresia direct a lui et n funcie de et-1:

e e
t =2

t t 1 2 t

e
t =1

= 1 DW . ) , de unde fie, pornind de la statistica Durbin-Watson: DW = 2(1- 2

Etapa a 2-a: se transform variabilele i se efectuaeaz regresia pe cvasi-diferene.

(1) (2) (3) (4)

0 + a 1 x t + et Dac este adevrat pentru unitatea de timp t, atunci, pentru t-1: yt = a i se obine ecuaia (3). 0 + a 1 x t 1 + et 1 Se nmulete cu y t 1 = a

y t 1 = a a et 1 Se scade ecuaia (3) din forma (1) i se obine (4): 0 + 1 x t 1 + y t 1 = a )+a x t 1 ) + et et 1 , dar et et 1 = v t . 0 (1 1 (xt yt

y t 1 = a )+a x t 1 ) + v t , unde vt ndeplinete ipotezele pentru a putea 0 (1 1 (xt Atunci: y t

utiliza metoda celor mai mici ptrate n estimarea coeficienilor de regresie pentru modelul
y t 1 ; x t = x t x t 1 ; a ), 0 + a 1 x t + v t , unde y t = y t 0 = a 0 (1 transformat: y t = a

) . Parametrii estimai sunt a0 i a1*. 0 = a 0 /(1 de unde: a

4.1.1. Exerciiu - Estimarea parametrilor umui model n prezena autocorelaiei erorilor

124

Pentru datele din Tabelul 4.1, considernd c exist prezumia de autocorelaie pozitiv a erorilor, s se corecteze efectul autocorelaiei.
, prin regresia direct a lui et n funcie de et-1, Utiliznd prima modalitate de obinere a lui

conduce la urmtoarele rezultate, din Tabelul 4.4:

Coeff. Intercept X Variable 1 0.1308 0.3961

Standard Error 0.7625 0.2332

Pvalue 0.1715 0.8658 1.6986 0.1076

t Stat

Lower 95% -1.4780 -0.0959

Upper 95% 1.7396 0.8881

Tabelul 4.4. Tabela de regresie et=f(et-1)

= 0.396. n etapa a 2-a se fac transformrile variabilelor: y, x1, x2, x3, n Tabelul 4.5:

y* 65 60 61 62 64 65 69 56 52

x1 * 64 64 62 64 63 63 63 61 62

x2 * 62 62 74 66 65 70 67 60 43

x3 * 69 68 62 68 64 68 62 64 65

42 49 56 59 69 66 56 68 72 85

60 60 60 59 63 63 62 66 66 68

39 45 55 72 66 71 50 54 60 72

60 61 65 55 63 64 64 65 70 70

Tabelul 4.5. Transformarea variabilelor

Regresia obinut pe valorile transformate (sunt numai 19 observri transformate, se pierde primul termen pentru fiecare variabil) ofer urmtoarele informaii, n Tabelul 4.6:

125

SUMMARY OUTPUT Regression Statistics Multiple R 0.9487 R Square 0.9001 Adj. R Sq. 0.8801 Std. Error 3.2348 Observations 19 ANOVA df Regression 3 Residual 15 Total 18 Coeff. Intercept X Variable 1 X Variable 2 X Variable 3 -145.84 3.1610 0.4199 -0.2563

SS MS F 1413.828 471.276 45.038 156.960 10.464 1570.788 Standard t Stat P-value Error 22.76 -6.4084 0.00001 0.571 5.5323 0.00006 0.079 5.2972 0.00009 0.323 -0.7935 0.43985

Signif. F 9.7E-08

Lower 95% -194.34 1.9431 0.2509 -0.9446

Upper 95% -97.33 4.3788 0.5888 0.4321

Tabelul 4.6. Tabela de regresie a variabilelor transformate

) = 145.83/(1 - 0.3961) = -241.48 . Se calculeaz termenul constant: a0 = a0* / (1 -

Ceilali estimatori sunt: a1* = 3.16; a2* = 0.420; a3* = -0.256.


t = -241.48 + 3.16x1 + 0.42x2 - 0.25x3. Modelul determinat este: y

Se observ c variabila x3 devine nesemnificativ. Valorile teoretice yt1 sunt calculate n Tabelul 4.8 i n Figura 4.12. Se repet regresia pe variabilele transformate, eliminnd variabila x3 i se obine tabela de regresie din Tabelul 4.7, valorile teoretice yt2, n Tabelul 4.8 i Figura 4.12:
SUMMARY OUTPUT Regression Statistics Multiple R 0.9465 R Square 0.8959 Adjusted R Square 0.8829 Standard Error 3.1972 Observations 19 ANOVA df SS MS F Regression 2 1407.239 703.620 68.835 Residual 16 163.549 10.222 Total 18 1570.788 Coeff. Std.Error t Stat P-value Intercept -141.31 21.7744 -6.49 0.000007 X Variable 1 2.815 0.3646 7.72 0.000001 X Variable 2 0.432 0.0770 5.61 0.000039

Signif. F 1.38E-08

Lower 95% -187.470 2.042 0.269

Upper 95% -95.150 3.588 0.595

Tabelul 4.7. Tabela de regresie a variabilelor transformate, dup eliminarea variabilei x3

126

Se observ c regresia este global semnificativ i cele dou variabile explicative sunt individual semnificative.
) = -141.31 / (1-0.396) = -233.99. Termenul constant: a0 = a0* / (1-

Ceilali estimatori sunt: a1* = 2.815; a2* = 0.432.


t = -233.99 + 2.815x1 + 0.432x2. Modelul este: y
Anii 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 y 90 101 100 101 102 104 106 111 100 92 78 80 88 94 106 108 99 107 114 130 yt 91 98 101 107 107 108 107 111 100 91 83 81 82 93 102 106 97 110 111 126 yt1 95 101 104 108 109 109 109 110 101 92 82 80 83 91 100 105 97 108 112 126 yt2 97 103 106 108 109 109 110 110 101 92 81 79 84 90 100 105 97 107 111 126

Tabelul 4.8. Valorile observate i ajustate prin regresiile efectuate Graficul valorilor ajustate cu cele dou modele determinate dup transformarea variabilelor este prezentat n Figura 4.12.
140 130 valorile observate si ajustate 120 110 100 90 80 70 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Evolutia variabilei y si ajustarea ei

yt1

yt2

timpul

Figura 4.12. Evoluia variabilei y i a valorilor teoretice corespunztoare 127

Pe graficul din Figura 4.12, se observ c cele dou modele pe variabilele transformate sunt foarte apropiate, eliminarea variabilei x3 a avut un impact nesemnificativ asupra modificrii modelului, pe variabilele transformate. Se va reine ca fiind cel mai bun, al doilea model, cel stabilit pe baza variabilelor transformate, cu dou variabile explicative x1 i x2. Dei iniial, modelul cu cele trei variabile explicative, prea a fi foarte bun, avnd toate variabilele independente semnificative i indicatorii calitii ajustrii foarte buni, totui analiza autocorelaiei erorilor a condus la identificarea i apoi eliminarea unei variabile nesemnificative i obinerea unui alt model, ai crui estimatori sunt nedeplasai i eficieni n acelai timp.
, este cea pornind de la testul Durbin-Watson: A doua posibilitate de estimare pentru = (1 - 1.1978/2) = 0.4011, = 0.4011

- etapa 1: - etapa a 2-a:

Se realizeaz transformrile variabilelor i se execut o nou regresie pe variabilele

astfel transformate. Tabela de regresie este prezentat mai jos i de asemenea calculul i stabilirea
obinut pornind de la testul Durbin-Watson este foarte estimatorilor modelului. Valoarea lui

apropiat de cea obinut prin regresia direct a lui et n funcie de et-1. De aceea valorile estimatorilor dup aceast regresie pe variabilele transformate sunt apropiate de cele obinute prin regresia reziduurilor.
, se afl n Tabela de regresie pe noile variabile transformate folosind noua valoare

Tabelul 4.9.
SUMMARY OUTPUT Regression Statistics Multiple R 0.9487 R Square 0.9000 Adj. R Sq. 0.8800 Std. Error 3.2273 Observations 19 ANOVA df Regression 3 Residual 15 Total 18 Coefficients Intercept -144.67 X Variable 1 3.154 X Variable 2 0.420 X Variable 3 -0.249

Upper 95% -96.5 4.37 0.5895 0.437 Tabelul 4.9. Regresia pe variabilele transformate cu noua valoarea

SS 1405.93 156.23 1562.16 Std. Error 22.59 0.57 0.079 0.322

MS 468.6 10.4

F SignificanceF 44.99 9.8E-08

t Stat P-value -6.40 0.00001 5.52 0.0001 5.31 0.0001 -0.77 0.4506

Lower 95% -192.8 1.94 0.252 -0.937

128

) = -241.537. Se calculeaz termenul constant: a0 = a0* / (1-

Estimatorii coeficienilor de regresie sunt: a1* = 3.15; a2* = 0.42; a3* = -0.25.
t = -241.54 + 3.15x1 + 0.42x2 - 0.25x3. Modelul determinat este: y

i n acest caz, variabila x3 devine nesemnificativ. Se reface regresia folosind numai variabilele explicative semnificative, i se obine tabela de regresie din Tabelul 4.10.
SUMMARY OUTPUT Regression Statistics Multiple R 0.9466 R Square 0.8960 Adjusted R 0.8830 Square Standard 3.1867 Error Observations 19 ANOVA df Regression 2 Residual 16 Total 18 Coefficients Intercept -140.297 X Variable 1 2.817 X Variable 2 0.432

SS MS 1399.684 699.842 162.482 10.155 1562.166 Std.Error t Stat 21.598 -6.496 0.365 7.727 0.077 5.624

F 68.915

Significance F 1.37E-08

P-value 0.000 0.000 0.000

Lower 95% -186.082 2.044 0.269

Upper 95% -94.51 3.590 0.595

Tabelul 4.10. Tabela de regresie a modelului cu doua variabile explicative Se observ n Tabelul 4.10, c variabilele independente sunt semnificative, la fel i termenul
) = -234.251. constant, care devine: a0 = a0* / (1 -

Estimatorii coeficienilor de regresie sunt: a1* = 2.817; a2* = 0.432.


t = -234.25 + 2.817x1 + 0.432x2. Noul model este: y

Comparnd acest model cu cel obinut prin metoda regresiei reziduurilor:


t = -233.99 + 2.815x1 + 0.432x2, y

se observ c diferenele sunt foarte mici, estimatorii variabilelor explicative, fiind aproape identici. Valorile teoretice obinute cu acest din urm model, pentru c sunt rotunjite la numere ntregi, sunt identice cu valorile yt2, diferenele mici dintre valorile ajustate sunt la nivelul zecimalelor.
, rezultatele sunt aproape Indiferent de procedeul ales pentru estimarea direct a valorii

identice, fiind la fel de bune.

129

Rezumat

Cand reziduurile sunt corelate ntre ele apare fenomenul de autocorelaia erorilor, ale crui prezen conduce la instabilitatea modelului econometric. n aceast situaie a nerespectrii ipotezei de independen a reziduurilor, se identific natura autocorelaiei i se detecteaz cu ajutorul testului Durbin-Watson, n cazul autocorelaiei de ordinul 1. Se aplic o procedur iterativ pentru estimarea modelului n prezena autocorelaiei erorilor. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.
Termeni importani

Autocorelaia erorilor, coeficient de autocorelaie de ordinul 1, corelaia serial a reziduurilor, testul Durbin-Watson, proceduri iterative de estimare a modelului
ntrebri recapitulative

1. Explicai semnificaia nerespectrii ipotezei de independen a erorilor. 2. Scriei testul Durbin-Watson, intervalul su si interpretarea testului. 3. Care sunt metodele de detectare a autocorelaiei erorilor ? 4. Care sunt consecinele autocorelaiei erorilor? 5. Care sunt mijloacele de remediere a autocorelaiei erorilor? 6. Care sunt metodele grafice de detectare a autocorelaiei erorilor?
Teme de cas

Parcurgei exemplele din curs, utiliznd calculatorul. Aplicai metoda grafic pentru detectarea autocorelaiei reziduurilor pentru un exemplu numeric din curs.

130

BIBLIOGRAFIE 1. Artus Patric, Michel Deleau, Pierre Malgrange, Modelisation macroeconomique, Economica, Paris, 1986 2. Bourbonnais Regis "conomtrie", Ed. Dunod, Paris, 1993 3. Constantinescu N.N., Reform i redresare economic, Editura Economic, 1995 4. Dugulean C., Introducere in economia aplicata, Ed. Infomarket, Brasov, 2004 5. Dugulean C., Previziuni ale consumului agregat pe termen lung, vol. I, Ed. Universitaria Craiova, 2004, pag. 56 63 6. Dugulean C., Correlation between Average Productivity of Work and Average Wages, International Conference Small and Medium Enterprises in European Economies, BabesBolyai University Cluj-Napoca, Faculty of Business, October 17-18, 2003, Cluj-Napoca, Ed. Alma Mater, pag. 190-196 7. Dugulean L., Dugulean C., Economie aplicat - econometrie, Ed. Universitii, Braov, 1998 8. Dugulean L., Dugulean C., Oprei A., Previziune economic. Quattro Pro, Reprografie, Braov, 1995 9. Dugulean L., Statistic economic i social, Ed. Infomarket, Braov, 1999 10. Dugulean L., Statistic, Ed. Infomarket, Braov, 2002 11. Dugulean L., Dugulean C., Sondajul statistic - probleme intampinate in cercetarile de marketing industrial, Revista de Statistica nr. 4/1997, pag. 32-42, Ed. Comisia Nationala pentru Statistica 12. Dugulean L., Consideratii privind inegalitatea distributiei veniturilor n tarile dezvoltate ale lumii, Universitatea OVIDIUS din Constanta, 15-16 octombrie 2004 , vol. I, Ed. Universitaria Craiova, 2004, pag. 239-244 13. Dugulean L., Studiul regiunilor din Romania folosind analiza cluster, Universitatea Ovidius din Constanta, 15-16 oct. 2004, vol. I, Ed. Universitaria Craiova, 2004, pag. 42-48 14. Makridakis S., The Accuracy of Extrapolation (Time series) Methods: Results of a Forecasting Competition, Journal of Forecasting, vol.1, 1982, pag.111-153 15. Gujarati Damodar, Basic Econometrics, McGraw-Hill Book Company, NewYork, 1988 16. Melard Guy "Methodes de prevision a court term", University of Brussels, Belgium, 1990 17. Tanadi Alexandru, Claudiu Doltu, Monetarismul, Editura Economic, Bucureti, 1996 18. "Anuarul Statistic al Romniei", 1993, 1996, 1997, 1998, 2001, 2002, INSE, Bucuresti, 2002

131