Documente Academic
Documente Profesional
Documente Cultură
CUPRINS NOIUNI INTRODUCTIVE...........................................................................5 1. Econometria, ca tiin ................................................................................... 6 2. Etapele construirii modelelor econometrice....................................................6 3. Modele econometrice utilizate n economie ................................................... 7 CAPITOLUL 1..........MODELUL REGRESIEI LINIARE SIMPLE..........9 1. Problema estimrii .....................................................................................11 2. Metoda celor mai mici ptrate - ipoteze ....................................................11 3. Metoda celor mai mici ptrate - estimatorii...............................................13 4. Proprietile estimatorilor metodei celor mai mici ptrate ........................15 5. Liniaritatea .................................................................................................15 6. Tabela de regresie .....................................................................................16 7. Funcia de regresie a populaiei .................................................................19 8. Funcia de regresie a eantioanelor............................................................24 9. Exerciiu - Calculul estimatorilor modelului de regresie simpl ..............30 10. Consecine ale ipotezelor: construirea testelor ........................................31 10.1. Exerciiu - Rolul termenului aleator .................................................. 32 10.2. Testul de semnificaie al estimatorului.............................................. 35 10.3. Intervalul de ncredere al estimatorilor..............................................38 10.4. Tabelul de analiz a varianei testul Fisher ....................................38 11. Intervalul de ncredere al previziunii cu modelul regresiei simple..........39 11.1. Exerciiu - Previziuni ale variabilei endogene...................................40 12. Exerciiu - Compararea coeficienilor de regresie ...................................43 CAPITOLUL 2 MODELUL REGRESIEI MULTIPLE...................46 1. Modelul liniar general................................................................................47 2. Estimarea coeficienilor de regresie........................................................... 48 3. Ipotezele i proprietile estimatorilor .......................................................49 4. Analiza varianei i calitatea ajustrii ........................................................51 5. Exerciiu Modelul regresiei liniare multiple...........................................51 5.1. Analiza grafic a evoluiei n timp a variabilelor considerate.............53 5.2. Analiza grafic a influenei variabilelor explicative asupra variabilei dependente y ........................................................................................57 5.3. Construirea modelului econometric .................................................... 60 6. Teste statistice i analiza varianei............................................................. 67 6.1. Construirea testelor statistice...............................................................67 6.1.1. Compararea unui parametru ai cu o valoare fixat a ..................68 6.2. Execiiu Teste asupra coeficienilor i varianei erorilor.................. 69 6.3. Analiza varianei-testul Fisher de semnificaie global a regresiei ... ..73 6.4. Teste pornind de la analiza varianei modelului liniar ........................75 6.4.1. Introducerea uneia sau mai multor variabile explicative n model...........................................................................................75 6.4.2. Verificarea stabilitii n timp a modelului testul CHOW ....... 75 6.5. Exerciiu Teste pornind de la analiza varianei ................................76 7. Previziuni folosind modelul regresiei multiple..........................................80 7.1. Exerciiu Previziuni folosind modelul regresiei multiple.................81
CAPITOLUL 3
MULTICOLINIARITATEA I SELECIA VARIABILELOR EXPLICATIVE........................85 1. Corelaia parial, n modelele econometrice ............................................86 1.1. Calculul coeficienilor de corelaie parial .........................................88 1.2. Relaii ntre coeficienii de corelaie simpl, parial i multipl ........ 1.3. Exerciiu Calculul coeficienilor de corelaie parial ......................89 2. Multicolininiaritatea ..................................................................................97 2.1. Consecinele multicoliniaritii ...........................................................98 2.2. Detectarea multicoliniaritii ...............................................................98 2.3. Remedierea multicoliniaritii ...........................................................100 3. Selecia variabilelor explicative...............................................................101 3.1. Exerciiu Metode de selecie a variabilelor explicative..................103
CAPITOLUL 4 AUTOCORELAIA ERORILOR ......................108 1. Natura i cauzele autocorelaiei erorilor ..................................................109 2. Detectarea autocorelaiei.......................................................................... 116 2.1. Exerciiu - Testul Durbin -Watson ....................................................118 3. Estimatorii metodei celor mai mici ptrate n prezena autocorelaiei..... 123 4. Proceduri de estimare a lui ...................................................................123 4.1. Estimarea direct a lui pornind de la regresia pe modelul iniial ...124 4.1.1. Exerciiu - Estimarea parametrilor umui model n prezena autocorelaiei erorilor ................................................................124 BIBLIOGRAFIE ...........................................................................................131
NOIUNI INTRODUCTIVE
Tema Obiectivele
NOIUNI INTRODUCTIVE
1. Econometria, ca tiin 2. Etapele construirii modelelor econometrice 3. Modele econometrice utilizate n economie
1. Dobndirea de cunotine despre apariiei i dezvoltarea Econometriei, ca tiin 2. Cunoaterea obiectului de studiu i a metodelor de analiz 3. Definiii i comparaii ale modelului economic i econometric 4. Cunoaterea modului de construire a modelelor econometrice 5. Noiuni privind clasificarea modelor econometrice utilizate n economie
Mijloace
- citire/nvare
- situaii economice concrete, supuse analizei, exemple (sub lup) Evaluarea Timp de lucru necesar - parcurgerea ntrebrilor propuse 1. Pentru cunoaterea problemei: 4 ore 2. Pentru rezolvarea ntrebrilor: 1 ora
1. Econometria, ca tiin
Econometria este acea ramur a economiei, care presupune aplicarea metodelor statistice i matematice la analiza datelor economice, cu scopul de a oferi un coninut empiric teoriilor economice pentru verificarea veridicitii lor. matematica economie Bazele apariiei econometriei ca tiin = contribuiile timpurii ale unor matematicieni: Newton i Leibnitz, (secolul al XVII-lea) au elaborat calculul diferenial; operele unor oameni de tiin economiti i statisticieni, precum: Keynes, Jevons, Walras, Hayek, Pearson, Edgeworth, Pareto, Fisher, etc., care i-au nscris numele n istoria dezvoltrii omenirii. nfiinarea n 1932, n SUA a unei Societii de Econometrie i editarea revistei Econometrica n 1933, precum i dezvoltarea ulterioar a teoriilor economice, a metodelor matematice i statistice, susinute de apariia calculatoarelor i dezvoltarea rapid n domeniul informaticii, face posibil considerarea apariiei econometriei ca fiind, nceputul secolului XX. n 1954, Samuelson afirma ca econometria a fost definit ca aplicarea statisticii matematice la datele economice pentru a furniza suport empiric modelelor construite cu ajutorul economiei matematice i pentru a obine estimri numerice Econometria const n: formularea unor ipoteze statistice asupra datelor economice observate, parcurgerea etapelor n construirea modelelor, verificarea validitii ipotezelor formulate iniial i utilizarea modelelor econometrice identificate pentru realizarea de previziuni ale fenomenelor economice analizate. Econometria este parte integrant a unei alte tiine economice, recent aprut, i anume previziunea economic (n anii 80 ). Previziune economic a existat din totdeauna, ca parte integrant a tuturor tipurilor de luare a deciziilor de management, dar ca disciplin separat de sine stttoare, exist de numai cteva decade. n anii 80, previziunea a devenit un domeniu practic de studiu, ncepnd s i afirme importana n planificarea i luarea deciziei n domeniul afacerilor, la nivelul guvernului. Previziunea este mai mult dect o disciplin tehnic sau statistic, este un domeniu al psihologiei, sociologiei, politicii, managementului, matematicii, informaticii, economiei i altor discipline nrudite. n timpul anilor 60, cnd condiiile economice i politice erau relativ stabile pentru rile industrializate ale lumii, se manifesta puin interes pentru previziune. n contrast, n anii 70, i la nceputul anilor 80, cnd mediul economic i social a devenit mai turbulent, s-a manifestat necesitatea larg recunoscut a previziunii. Abordarea cantitativ a previziunii se bazeaz fie pe analiza seriilor de timp - studiul datelor istorice, presupunnd c lucrurile nu se vor schimba i istoria se repet (previziune fatalist), fie pe metode explicative, i anume metodele econometrice, care explic interdependena dintre factori. 4 statistica
Astfel econometria, aprut iniial ca tiin separat, treptat devine parte integrant din tiina previziunii, care a aprut la mbinarea interdisciplinar a altor tiine, pentru a satisface cerinele cunoaterii i stpnirii realitii economice contemporane.
Etapa de specificare a modelului trebuie s ia n considerare i faptul c unele relaii ntre variabile nu sunt ntotdeauna sincrone, ele fiind deseori decalate n timp (de exemplu influena venitului asupra consumului, realizarea investiiilor i efectul lor asupra nivelului produciei, dezvoltarea unei ramuri economice i a activitii de comer exterior a ramurii respective, etc.). Selectarea variabilelor explicative din model ine seama de: unitile de msur n are sunt exprimate variabilele; datele pot fi temporale, cnd sunt observate la anumite intervale egale de timp sau pot fi instantanee, cnd datele sunt observate n acelai timp pentru un grup de indivizi sau uniti administrativ-teritoriale diferite. Validarea modelului ridic probleme referitoare la validitatea relaiilor, precizia estimatorilor, dac modelul este valid pe ntreaga perioad analizat, dac sunt stabili coeficienii? 5
Descrierea schematic a etapelor unei analize econometrice a modelelor economice este reprezentat n Figura 1.
Schema etapelor unei analize econometrice n anii 70 1 4 Informaii economice iniiale 2 Modelul econometric sau evaluarea empiric a teoriei economice Estimarea modelului 3 Datele observate Teoria economic sau modelul economic
6 7
Testarea ipotezelor modelului economic Utilizarea modelului pentru previziuni sau decizii
Figura 1. Schema etapelor unei analize econometrice n anii 70 Aceast descriere a analizei econometrice a fost criticat n anii 70, argumentndu-se c: nu exist feedback-ul testrii econometrice a teoriilor economice la formularea teoriilor economice (de la pasul 6 la pasul 1); stabilirea datelor de colectat care vor fi folosite la estimarea i testarea modelelor econometrice, neexistnd feedback ntre paii 2 i 5 i pasul 3; la pasul 6 testarea ipotezelor se refer numai la ipotezele sugerate de modelul economic original, care depind de presupunerea c specificarea modelului de la pasul 2 este corect. Dar trebuie testat i dac modelul a fost corect specificat, faz care lipsete din Figura 1, i care constituie feedback-ul pentru pasul 2, n cazul n care testele de specificare indic necesitatea unei noi specificri a modelului econometric.
Dezvoltrile aduse econometriei n anii 70 au condus la acceptarea unei alte scheme a etapelor unei analize econometrice, prezentat n Figura 2.
Schema revizuit a etapelor unei analize econometrice Teoria economic Modelul econometric Date
NU
DA
Testarea ipotezelor Utilizarea modelului pentru previziune i analize, control Figura 2. Schema revizuit a etapelor unei analize econometrice n schema din Figura 2 se pot distinge relaiile de feedback: de la rezultatele analizei econometrice la teoria economic, de la testarea specificrii la modificarea specificrii modelului economic, de la modelul econometric la culegerea datelor.
Schema prezentat pornete de la o singur teorie economic, dar adesea exist mai multe teorii concurente, caz n care econometria ajut la alegerea celei mai pertinente.
Rezumat Aceast seciune prezint apariia Econometriei ca tiin, locul ei n rndul altor discipline la a cror intersecie a aprut, importana studierii Econometriei i apartenena sa la o alt disciplin Previziunea economic. Construirea modelelor econometrice pornind de la o teorie economic parcurge niste etape, a cror abordare s-a dezvoltat n timp, asigurnd feed-back-ul. Clasificarea modelelor econometrice ofer o imagine cuprinztoare asupra importantei construirii i utilizrii modelelor econometrice. Termeni importani Econometrie, Previziune economic, model economic, model econometric, etapele construirii unui model econometric ntrebri recapitulative 1. Definii modelul economic. 2. Definii modelul econometric. 3. Care este relaia de subordonare dintre Econometrie i Previziunea economic 4. Care sunt etapele construirii unui model econometric 5. Enumerati cteva criterii de clasificare a modelelor econometrice 8
CAPITOLUL 1
Tema Obiectivele
Mijloace
n funcie de numrul de factori a cror variaie se consider n explicarea variaiei fenomenului efect, y, exist: - regresie simpl: cnd se consider variaia unui singur factor: y=f(x) i - regresie multipl: cnd se consider variaia mai multor variabile explicative: y=f(x1, x2, , xk). Metoda regresiei analizeaz relaiile existente ntre variabila explicat i variabilele explicative, pe baza datelor observate pentru aceste variabile. Se poate stabili care din factori au o influen semnificativ, gradul lor de esenialitate i cunoscnd influena variabilelor factoriale asupra variaiei fenomenului explicat, se pot face previziuni ale valorilor variabilei y pentru anumite valori date ale variabilelor x. Analiza regresiei reprezint o metod analitic de msurare a intensitii legturilor dintre fenomenele economico-sociale, fiind instrumentul cel mai utilizat n analiza economic. Analiza de regresie msoar dependena statistic a unei variabile y, variabil dependent, de una sau mai multe variabile explicative x, cu scopul de a estima i de a previziona valoarea medie a variabilei y, pe baza valorilor cunoscute sau fixate ale variabilelor explicative. Fenomenul a crui variaie se analizeaz n funcie de influena variaiei unor alte fenomenecauz, se mai numete variabil explicat, endogen, iar fenomenele a cror variaie influeneaz semnificativ variabila y, se mai numesc variabile independente, exogene, independente, regresori, factori sau variabile factoriale. De exemplu, n funcia Keynesian a consumului: C = C 0 + cYd , unde C = consumul privat C0 = consumul privat incompresibil, c = nclinaia marginal spre consum Yd = venitul disponibil, C este variabila dependent, endogen, explicat, iar Yd reprezint variabila independent, exogen, explicativ, factorul de influen, cauza, regresorul.
10
1. Problema estimrii
Metoda regresiei statistice const n stabilirea funciei de regresie care descrie cel mai bine relaia dintre variabila explicat i variabila sau variabilele independente, dup caz. Fenomenele economico-sociale sunt fenomene de mas supuse aciunii legilor statistice, care se manifest sub form de tendin (medie) ntr-un numr mare de cazuri individuale, diferite ca form de manifestare, sub aciunea combinat a influenei mai multor factori, dar care aparin aceleai esene, aceleai colectiviti. Fenomenele economico-sociale sunt fenomene stochastice, care nu pot fi experimentate n laborator. La aceleai valori ale fenomenelor cauz, se obin ntotdeauna valori diferite ale fenomenului efect analizat. Combinarea diferit a factorilor, cu grade diferite de esenialitate, confer o mare variabilitate fenomenului explicat. A observa ntreaga colectivitate pentru a stabili parametri ecuaiei de regresie a populaiei este o modalitate ineficient, care necesit un efort mare, att din punct de vedere material ct i al timpului. Avantajele oferite de sondajul statistic reprezint cea mai bun soluie pentru estimarea parametrilor pe baza datelor observate dintr-un eantion. Se obine astfel ecuaia de regresie a eantionului. Estimatorii ecuaiei de regresie a eantionului vor furniza rezultate foarte bune, despre parametrii polulaiei, n anumite condiii de probabilitate i respectnd anumite ipoteze pe care acetia trebuie s le ndeplineasc. Problema estimrii parametrilor este obiectivul prioritar al econometriei. Exist mai multe metode de determinare a estimatorilor parametrilor de regresie: metoda momentelor, metoda celor mai mici ptrate i metoda maximei verosimiliti. Dintre aceste metode, cea care ndeplinete criteriile de cost minim de aplicare, i de asigurare a calitii estimatorilor, n condiiile respectrii unor ipoteze fundamentale, este metoda celor mai mici ptrate (M.C.M.M. P.)
2. Valorile lui xi sunt observate fr erori (xi este nealeator). 3. Media (operatorul E) reziduurilor este zero: E(i / xi)=0. Aceast ipotez spune de fapt c toi factorii neexplicitai de model, i dealtfel cuprini n i, nu afecteaz n mod sistematic valoarea medie a lui y, adic valorile lor pozitive se anuleaz cu cele negative astfel nct efectul lor mediu asupra lui y este zero. 4. Homoscedasticitatea sau variaia (V dispersia, varian) egal a reziduurilor 2. Variana reziduurilor pentru fiecare xi (variana condiionat a lui i) este un numr pozitiv constant i egal cu 2 sau altfel spus, populaiile lui y, corespunztoare valorilor xi, au aceeai varian. Situaia opus se numete heteroscedasticitate i se poate nota: V ( i / xi ) = i2, unde variana nu mai este constant, i=1,n.
Ajustarea liniar a profitului n funcie de numrul de angajai
230 210 190
profit (mii euro)
V ( i / xi ) = E [ i E ( i )] = E i2 = 2
2
( )
170 150 130 110 90 70 50 0 50 100 150 200 ymed 250 300 350 ymed.teoretic 400 450 500 550
numr angajai (persoane)
Figura 1.1. Reprezentarea grafic a ipotezei de heteroscedasticitate 5. Nu exist corelaia (covariana) erorilor pentru oricare i j. cov( i , j ) = E[ i E ( i )][ j E ( j )] = E ( i j ) = 0 Pentru anumite valori date xi, abaterile oricror dou valori y de la valoarea lor medie nu prezint nici o tendin. 6. Erorile sunt independente de variabila explicativ. Nu exist corelaie ntre erori i valorile x. cov( i , xi ) = E[ i E ( i )][ xi E ( xi )] = E[ i ( xi E ( xi ))] =
= E ( i xi ) E ( xi ) E ( i ) = E ( i xi ) = 0
12
pentru c E ( i ) = 0 din ipoteza 3. 7. Modelul de regresie este corect specificat. O investigaie econometric ncepe prin specificarea modelului econometric. Problemele sunt: ce variabile ar trebui incluse n model, care este forma funcional a modelului (este liniar n parametri, n variabile sau ambele?)
i ) = 0 , ei = ( yi y
i =n
n
se
alege
criteriul
minimizrii
ptratelor
reziduurilor:
i=n
e
i =1
2 i
i ) . = ( yi y
2 i =1
Este evident c suma ptratelor reziduurilor este funcie de valorile estimatorilor coeficienilor dreptei de regresie
e
i =1
2 i
1 se vor obine valori diferite ale reziduurilor i deci i pentru 0 i a Alegnd valori diferite pentru a
S =0 0 a
0 + a 1 x i y i ) = 0 2 (a
i =1
S =0 1 a
0 + a 1 x i y i ) x i = 0 2 (a
i =1
13
0 + a 1 x i = y i na
i =1 i =1
0 xi + a 1 xi2 = xi y i a
i =1 i =1 i =1
yi
i =1 n
x
i =1 n i i =1
0 = a
x y x
i =1 i
2 i
n
n i
x
i =1 n i =1
xi2 yi xi xi yi
i =1 i =1 n i =1
x x
i =1
n xi2 xi i =1 i =1
n
i =1 2
2 i
n
n i
y
i =1 n i =1 i n
1 = a
x x y
i =1
n
n i
xi
i =1 n i =1 2 i
n xi y i xi y i
i =1 i =1 i =1
x x
i =1
n x xi i =1 i =1
n 2 i n
Dac n sistemul de ecuaii normale, variabilele xi i y i se nlocuiesc cu valorile lor centrate fa de mediile lor, se obine:
0 + a 1 ( x i x ) = ( y i y ) na
i =1 i =1
0 ( xi x ) + a 1 ( xi x ) 2 = ( xi x )( y i y ) a
i =1 i =1 i =1
Cum
(x
i =1
x ) = 0 i
(y
i =1
(x
i =1 n
x )( y i y )
i
(x
i =1
x)
.
2
0 + a 1 x , rezult a 0 = y a 1 x . tiind c y = a 0 i a 1 sunt numii estimatori ai celor mai mici ptrate, deoarece sunt Aceti estimatori a obinui pe baza acestui principiu i sunt estimatori punctuali, pentru c furnizeaz o singur valoare (punct) relevant pentru parametrul populaiei. 14
regresie;
nedeplasai, media estimatorului din toate eantioanele posibile, de volum n sau valoarea
1 )este egal cu valoarea adevrat a parametrului, a1 ; ateptat a estimatorului E (a
Teorema lui Gauss-Markov se enun astfel: Date fiind ipotezele modelului liniar clasic de regresie, estimatorii celor mai mici ptrate, din clasa estimatorilor liniari nedeplasai, au varian minim; se poate spune c sunt BLUE (Best Linear Unbiased Estimators).
5. Liniaritatea
valoarea medie ateptat - n econometrie, apare termenul de speran matematic) a variabilei y este o funcie liniar a lui xi. Operatorul de speran matematic se noteaz cu litera E. Dreapta de regresie a populaiei reprezint tendina medie i se scrie: E(y/xi)=a0 + a1xi.
liniaritatea n parametrii este cnd distribuia condiional a variabilei y, E(y/xi) este o funcie
liniar a parametrilor, adic toi sunt la puterea 1, in timp ce variabilele x pot sau nu s fie liniare. Termenul de regresie liniar nsemn ntotdeauna, liniaritatea n parametrii necunoscui; indiferent dac exist liniaritate n variabilele explicative. Astfel, exemple de modele liniare sunt: E(y/xi)=a0 + a1xi, liniar n parametrii i n variabile i E(y/xi)=a0 + a1xi2, liniar n parametrii i neliniar n variabile. Un model neliniar n parametrii este: E ( y / xi ) = a0 + a1 xi . Pentru regresia liniar este relevant termenul de liniaritate n parametrii.
15
6. Tabela de regresie
n realitate, nu se pot observa colectiviti generale, ci numai eantioane extrase din acestea, repectnd principii probabilistice, pentru a asigura condiia de reprezentativitate. Scopul analizei de regresie este descrierea modelului prin estimarea parametrilor, pe baza datelor de sondaj. Aceast metod calculeaz valorile estimatorilor, astfel nct suma ptratelor abaterilor valorilor empirice (observate) ale variabilei dependente y de la valorile ei teoretice (calculate dup funcia liniar obinut), adic suma ptratelor reziduurilor s fie minim: min i )2 = min ei2 . ( yi y
i =1 i =1 n n
Analiza de regresie se poate obine automat prin tabela de regresie, n Microsoft Excel. Dup efectuarea declaraiilor blocurilor care conine valorile variabilei explicate y i variabila (sau variabilele, n cazul regresiei multiple) independent x, precum i a locului pe spreadsheet unde se va obine tabela i eventual a unor alte opiuni privind probabilitatea de garantare a rezultatelor, pentru intervalele de ncredere ale estimatorilor sau obinerea automat a valorilor teoretice, ale erorilor lor fa de valorile y observate, ale graficelor, etc., se confirm declaraiile prin OK i tabela apare instantaneu. Acest criteriu al minimizrii patratelor abaterilor face ca metoda ce st la baza obinerii estimatorilor, s se numeasc metoda celor mai mici ptrate (M.C.M.M.P.). Tabela de regresie cuprinde n sumarul su, SUMMARY OUTPUT, trei pri: Regression Statistics, tabelul ANOVA i informaiile despre estimatorii coeficienilor modelului liniar. Regression Statistics conine informaii cu caracter general despre variabilele implicate n analiza de regresie: coeficientul de corelaie multipl Multiple R, care la regresia simpl este coeficientul de corelaie liniar simpl, r; coeficientul de determinaie R2, numit R Square arat validitatea modelului. Valoarea sa este cuprins n intervalul [0, 1] i cu ct e mai apropiat de 1, cu att modelul este bine ales, adic explic ntr-o proporie mai mare (deseori, n %) variaia variabilei dependente y. i y )2 (y
n n
R2 =
(y y)
i =1 i
i =1 n
= 1
) (y y
(y y)
i =1 i
i =1 n
, unde
y este media valorilor empirice yi. Adjusted R Square care este R2 ajustat cu un anumit numr de grade de libertate;
16
Standard Error este eroarea medie standard a valorilor teoretice ale lui y i se calculeaz ca o abatere medie ptratic a valorilor empirice fa de cele teoretice:
i )2 ( yi y
i =1
n k 1
e
i =1
2 i
n k 1
2 , unde =
2 este estimatorul pentru dispersia reziduurilor, iar nk1 este numrul gradelor de libertate, iar k este numrul variabilelor explicative; Observations reprezint n este numrul de observri ale variabilei dependente, care este egal cu
numrul de valori ale variabilei (variabilelor) independente xi. Tabelul ANOVA este tabelul de analiz a varianelor, a crui denumire provine din iniialele
ANalysis Of Variances i are ca scop prezentarea variaiei pe factori de influen i calculul testului
Fisher pentru evaluarea semnificaiei globale a regresiei. Analiza varianei pentru o regresie simpl este prezentat n Tabelul 1.1. n coloana numit SS - Sum Squares (sum de ptrate) - se prezint descompunerea variaiei totale a variabilei explicate y, Total: n
(y
i =1
y ) pe tipuri de influen:
2
(y
i =1
y) ,
2
(y
i =1
Tabelul 1.1. ANOVA n cazul regresiei simple Coloana numit df degrees freedom - se refer la gradele de libertate corespunztoare fiecrui tip de variaie: pentru variaia explicat de regresie, gradele de libertate sunt egale cu numrul variabilelor explicative, k; la regresia simpl este 1; pentru variaia datorat factorilor reziduali, gradele de libertate sunt egale cu n-k-1, adic n-2; pentru variaia total corespunde un numr de grade de libertate egal cu n-1.
17
Gradele de libertate se calculeaz n funcie de termenul constant Intercept astfel: dac Intercept = 0, df = n-k i numai dac Intercept 0, df = n-k-1. Coloana numit MS - Modified Sums conine dispersiile corectate cu gradele de libertate corespunztoare fiecrui tip de variaie. Valoarea calculat F se obine raportnd variaia corectat datorat modelului la cea corectat datorat factorilor reziduali, iar Significance F reprezint pragul de semnificaie de la care regresia ncepe s devin global semnificativ. Regresia este global semnificativ cu o probabilitate P=1 - . Testul empiric F de analiz a varianei este: F * = Fisher cu 1 i n-2 grade de libertate. La regresia liniar simpl: F * = (t * ) 2 , unde t * , este testul Student empiric. Acest test se poate scrie n funcie de coeficientul de determinaie, astfel:
F* = R2 . Dac variana explicat de model este superioar varianei reziduale, se (1 R 2 ) /(n 2) SSE / 1 , unde F * urmeaz o lege SSR /(n 2)
x fiind semnificativ pentru variaia variabilei y. n caz contrar se accept aceast ipotez de
egalitate a varianelor. A treia parte a tabelei de regresie conine: i , i=1,k, n coloana Coefficients pentru: - valorile estimate ale coeficienilor modelului liniar, a
- Intercept - estimatorul termenului constant, 0, care poate fi zero dac s-a optat
a i ; arat cu ct variaz n medie, n plus - Standard Error, i abaterile standard ale estimatorilor a sau n minus valorile estimate ale coeficienilor fa de parametri pe care i estimeaz. Eroarea standard de estimaie are caracter de medie a abaterilor valorilor estimate ale coeficientului fa de parametrul corespondent din populaie. - valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaiei acestuia fa de 0; - P-value, corespunztoare pragului de semnificaie , ncepnd de la care valoarea estimatorului este semnificativ diferit de zero,
18
- limitele intervalului de ncredere ale estimatorilor: inferioar Lower 95% i superioar Upper
95%, cu o probabilitate de 95%, implicit, iar la cerere se pot solicita i alte valori ale probabilitii:
99%, 90%, etc. Suma valorilor observate este egal cu suma valorilor teoretice: y = y
i =1 i i =1 n n i
, pentru c prin
C
50
D
100 74 78 81 89 90 94 90 95 96 100 107 110
K
450 145 150 160 170 185 190 200 205 206 500 167 169 170 180 192 195 197 200 202 204 208 208
Grupe dup numrul mediu de angajai (x) 150 200 250 300 350 400 85 88 90 95 98 104 105 110 110 115 114 117 121 104 13 1352 104 95 97 100 110 112 115 120 120 125 125 127 130 130 132 117 14 1638 117 110 112 115 120 125 128 130 135 140 141 145 147 130 132 134 136 139 141 144 145 145 146 147 152 155 142 13 1846 142 120 122 135 149 153 155 160 160 165 165 170 173 175 154 13 2002 154 140 148 151 156 160 169 170 170 174 175 177 179 180 189 167 14 2338 167
60 70 75 85 80 83 87 92
79 8 632 79
92 12 1104 92
Tabelul 1.2. Gruparea societilor comerciale dup numrul mediu lunar de salariai i dup profiturile medii lunare 19
Pentru a se analiza vaiaia profitului n funcie de numrul mediu de angajai, se va considera variabila independent ca fiind numrul mediu lunar de salariai (x), iar variabila dependent profitul lunar (y). Societile comerciale cuprinse n aceeai grup dup numrul de angajai, au un profit variabil. Corespunztor unui numr mediu de 50 de salariai (coloana B), de exemplu, sunt 8 firme (celula B20) ale cror profituri medii lunare se situeaz ntre 60 mii i 92 mii (blocul de celule B4:B11), obinndu-se o medie a profiturilor pentru aceast grup de angajai, de 79 mii (B19). Similar, pentru o alt variant a numrului de angajai, de 500 salariai (coloana K), exist 12 firme (K20), al cror profit mediu lunar este cuprins ntre 167 mii i 208 mii (blocul K4:K15), cu o medie a profiturilor lunare de 191 mii (K19). O coloan din tabel reprezint distribuia profitului lunar y, la un nivel fixat al numrului de angajai, x, adic distribuia condiional a lui y pentru o valoare dat a lui x. n celulele B19:K19 se afl profiturile medii lunare pentru fiecare grup de angajai, adic mediile blocurilor de celule corespunztoare fiecrei grupe: B4:B17, C4:C17, D4:D17, ... K4:K17. Mediile se calculeaz astfel: n celula B19, se scrie funcia statistic pentru calculul mediei, =AVERAGE(B4..B17). Se observ c numrul maxim de firme dintr-o grup este de 14, pentru
x=200, x=400. Dei n prima grup sunt 8 firme, se va specifica blocul de dimensiunea maxim,
pentru ca prin copierea formulei din celula B19 n celelalte celule, de la C19 la K19, s se translateze corespunztor coloanele celulelor, i s se ia n considerare toate situaiile grupelor (indiferent de numrul de elemente declarate, media se va calcula innd seama de numrul efectiv de elemente existente, n fiecare bloc de celule). n linia 21, se afl profiturile totale lunare ale grupelor, obinute prin nsumarea profiturilor individuale observate n fiecare grup de salariai. La B21 se scrie formula =SUM(B4..B17), care apoi se copiaz pentru restul celulelor de pe aceeai linie, adic pentru celelalte nou variante date ale numrului de salariai. Profiturile medii pe grupe de salariai se pot obine i mprind profitul total al grupei la numrul de firme considerate n grupa respectiv, de exemplu n linia 18 (care n Tabelul 1.2 este liber), cu formula =B21/B20, i apoi copiat pentru restul grupelor; valorile obinute vor fi identice cu cele din linia 19. n graficul din Figura 1.2, de tip Scatter XY, s-au reprezentat profiturile firmelor corespunztoare fiecrei grupe de salariai. S-au declarat 14 serii, corespunztor numrului maxim de variante de profit n funcie de numrul de salariai, astfel: B4..K4, B5..K5, B6..K6, ..., B17..K17 (cu acelai tip de marcatori - puncte) i a 15-a serie, pentru profiturile medii calculate ale celor 10 grupe diferite dup numrul de salariai, B19..K19. Profiturile medii sunt reprezentate cu marcatori diferii, cercuri mari.
20
170 150 130 110 90 70 50 0 50 100 150 200 250 300 350 400 450 500 550
numr angajai (persoane)
Figura 1.2. Corelaia dintre profiturile medii lunare i numrul mediu lunar de salariai n Figura 1.2, punctele mediilor profiturilor lunare pe grupe de salariai, reprezint distribuia condiional a profiturilor, corespunztoare fiecrei grupe dup numrul de salariai. Graficul arat tendina relaiei dintre cei doi indicatori, de form liniar i sensul direct al legturii, profitul mediu crete cnd numrul mediu al salariailor crete. Se poate spune c pentru fiecare valoare xi exist o populaie a valorilor y, presupuse a fi distribuite normal, iar media acestor valori y este medie condiional. Dreapta sau curba de regresie, dup caz, trece prin mediile condiionale teoretice (ateptate) care corespund mediilor condiionale calculate. Pe graficul din Figura 1.3 se pot vedea distribuiile condiionale ale valorilor y pentru fiecare valoare dat xi, precum i distribuiile erorilor n jurul fiecrei medii condiionale a variabilei y. Dreapta de regresie trece prin toate valorile teoretice ale mediilor condiionale, ca urmare a ipotezei c mediile condiionale ale erorilor pentru o valoare dat xi sunt 0: E ( i / xi ) = 0 . Aciunea factorilor necuprini n model este asimilat erorilor i , iar ipoteza conform creia media lor este 0, semnific faptul c erorile pozitive se anuleaz cu cele negative, adic nu au o aciune sistematic asupra mediei variabilei y. Valorile observate ale profiturilor lunare se abat fa de valoarea lor medie, calculat ca medie a grupei din care fac parte, dup numrul de salariai. Aceste abateri, numite erori, se datoreaz altor factori, dect cel nregistrat numrul de salariai, numii factori reziduali, care ar putea fi: eficiena activitii de management, profilul de activitate al firmei, ramura economic n care activeaz, gradul de instruire, nivelul de sntate i experiena salariailor, 21
conjunctura pieei, nivelul naional i internaional la care activeaz firma, deschiderea spre pieele externe, etc.
170 150 130 110 90 70 50 0 50 100 150 200 ymed 250 300 350 ymed.teoretic 400 450 500 550
numr angaja i (persoane)
Figura 1.3. Distribuiile condiionale i dreapta de regresie a populaiei Valorile teoretice corespunztoare acestor profituri medii se afl pe dreapta de regresie a
populaiei, a crei ecuaie este E ( y / xi ) = a0 + a1 xi .
Pentru a 0 :
=INTERCEPT(B19:K19,B2:K2)
i pentru a1 : =SLOPE(B19:K19,B2:K2). Aceste funcii se pot tasta, de exemplu n celulele N23, respectiv N24. Modelul de regresie a populaiei este E ( y / xi ) = 66.86 + 0.25 xi . Coeficientul de determinaie R2=1 indic faptul c modelul liniar explic 100% variaia profiturilor lunare, y i este evident din faptul c s-a efectuat regresia pe valorile medii ale profiturilor lunare. Coeficientul de corelaie se poate obine i prin funcia statistic =correl(array1,array2), aici =CORREL(B2:K2,B19:K19). Aceleai rezultate se pot obine cu ajutorul tabelei de regresie. Regresia nu poate utiliza dect blocuri de tip coloan i de aceea trebuie s se transpun blocurile linie ale valorilor variabilelor pe vertical. Se poate proceda n felul urmtor:
22
se selecteaz blocul B2:K2, al variabilei x; se activeaz operaia de copiere prin <CTRL/C> sau din meniul Edit / Copy sau apsnd butonul dreapta al mouse-ului pe blocul selectat i se alege comanda Copy; se poziioneaz cursorul n celula blocului destinaie, de exemplu n N2; se apas butonul dreapta al mouse-ului i se alege Paste Special sau din meniul Edit, comanda
Paste Special, unde se bifeaz Values, pentru a transforma n valori rezultatul unor formule
pentru variabila x, nu este cazul, acestea fiind deja valori, rezultate prin editarea lor i
Transpose, apoi se confirm prin OK.
Blocul N2:N11 va conine valorile variabilei x, din Tabelul 1.2. Pentru transpunerea valorilor medii ale variabilei y se procedeaz la fel, selectnd blocul B19:K19, se depune blocul transpus n O2:O11, cu meniunea c la Paste Special se va bifa Values i Transpose. Prin transpunere, funciile de calcul ale mediilor din linia 19, =AVERAGE(...), i vor schimba adresele din argumentul lor, obinndu-se nite valori eronate i de aceea, formulele coninute n celulele B19:K19 trebuie transformate n valori, cu opiunea Values. Pentru c profiturile medii calculate (linia19) se afl pe o dreapt, regresia ntre valorile variabilei x i valorile medii ale variabilei y furnizeaz nite parametri, care utilizai n calculul valorilor teoretice corespunztoare, au ca rezultat valori identice cu mediile calculate din valorile observate ale variabilei y. Modelul liniar determin n totalitate, 100%, variaia acesteia, regresia exprimnd chiar aceast tendin medie de evoluie a lui y n funcie de x. Valorile medii ale profiturilor pe grupe, se afl pe dreapta de regresie a populaiei, dup cum se poate vedea i pe graficul din Figura 1.3. Valorile teoretice se obin prin modelul liniar determinat, n linia 22 din Tabelul 1.2. Dac, de exemplu, valorile parametrilor a0 i a1 se afl n celulele N23 i N24, atunci n celula B22 se scrie formula =$N$23+$N$24*B2, care se copiaz i pentru restul celulelor C22:K22. Celulele N23 i N24, sunt fixate prin folosirea simbolului $, astfel nct prin copierea formulei n restul celulelor, s nu se schimbe coloanele i linii. Cum acestea din urm nu se schimb, pentru c se face copierea pe orizontal, formula era la fel de corect dac se scria =$N23+$N24*B2. Se adaug nc o serie pe graficul din Figura 1.2, cea a valorilor teoretice din linia 22, i se obine graficul din Figura 1.3. Mediile profiturilor calculate pe grupe de salariai se pot abate de la valorile teoretice ale acestor medii condiionale, sub influena alegerii modelului. Un model bine ales va minimiza aceste abateri. Acest tip de variaie a mediilor condiionale se datoreaz factorului de grupare, numrul de salariai, variabila explicativ a variaiei profiturilor, cea nregistrat, a crei influen este
23
considerat n model. n acest caz mediile profiturilor calculate pe grupe de salariai coincid cu valorile lor teoretice, aflate pe dreapta de regresie a populaiei. Suma celor dou tipuri de variaie: din interiorul grupelor i dintre variantele de grupare, reprezint variaia total a profiturilor datorat tuturor factorilor, i se exprim prin totalitatea abaterilor valorilor observate ale profiturilor fa de nivelul lor mediu calculat (media mediilor grupelor). Aciunea factorilor reziduali apare n modelul liniar de regresie a populaiei sub termenul de
disturban sau eroare, i, iar la nivel de eantion, ca reziduu, ei.
Funcia de regresie a populaiei E(y / xi) = a0 + a1xi se poate estima prin funcia de regresie a i = a 0 + a 1 xi i atunci y i reprezint un estimator pentru E(y / xi). unui eantion y La nivel de eantion, n modelul liniar, erorile se estimeaz prin reziduuri i se noteaz ei . i = a 0 + a 1 xi , iar valorile observate n eantion sunt Modelul liniar la nivel de eantion este y 0 + a 1 x i + ei = y i + ei . descrise de ecuaia y i = a n Figura 1.4 se prezint grafic termenul de eroare i cel de reziduu, dispunnd de un eantion oarecare extras din populaia statistic. Se cunosc dreaptele de regresie a eantionului i a populaiei. Se poate exprima funcia de regresie a populaiei cunoscnd datele dintr-unul sau mai multe eantioane? Din populaia de societi comerciale, prezentat anterior, s-au extras dou eantioane aleatoare, prezentate n Tabelul 1.3. Din cele 120 de societi s-au extras 10 n primul eantion i 10 n al doilea. S-au nregistrat valorile numrului mediu lunar de salariai, x i profitul mediu lunar, y, pentru fiecare din cele 10 firme. Pentru fiecare eantion se va stabili ecuaia de regresie a
24
190
170
150
yi 130
i e i
i y
110
90
E(y/xi)
70 0 50 100 150 200 250 300 350 400 450 500 550
yes
ytes
ytpop
Figura 1.4. Valorile observate din eantion, dreapta de regresie a eantionului i a populaiei Pentru fiecare din cele dou eantioane valorile estimate ale parametrilor a0 i a1 , difer ntre ele, pentru c unitile statistice au fost extrase la ntmplare i fa de parametri, pentru c un eantion nu poate reproduce identic colectivitatea din care a fost extras. Folosind pe rnd, pentru fiecare eantion funciile intercept i slope se pot determina valorile estimate pentru a0 i respectiv, a1 .
01 i pentru a 11 , Pentru primul eantion, n celula A42: =INTERCEPT(B31:B40,A31:A40) pentru a
1 2 , n celula D43: =SLOPE(E31:E40,D31:D40). a Astfel pentru primul eantion se determin urmtoarele rezultate: 1 un coeficient de corelaie liniar ntre variabilele x i y, de rxy = 0.943 , care arat o legtur de
intensitate mare i se obine cu funcia =CORREL(B31:B40,A31:A40), n celula A44; 11 = 0.26 , modelul este y i 1 = 69.78 + 0.26 xi ; 01 = 69.78 i a estimatorii a un coeficient de determinaie R2=0.8893, care arat un model valid, bine ales, care explic variaia variabilei y, ntr-o proporie de 88.93%;
25
i 1 , se afl n coloana C, din Tabelul 1.3. n celula C31, formula Valorile teoretice corespunztoare y
C
eantion 1 yi 60 83 107 110 120 125 152 155 135 204 01 a rxy1
1 1 a
D
i y 83 83 96 96 121 121 147 147 160 198
1
E
xi 50 150 200 250 300 350 400 400 450 500 72.6035 0.2305 0.9764
F
eantion 2 yi 92 105 120 125 136 153 156 170 170 202 0 2 a i 2 y 84 107 119 130 142 153 165 165 176 188
1 2 a rxy2
Tabelul 1.3. Cele dou eantioane extrase din populaie Aceste rezultate se pot obine i folosind procedura Regression din meniul Tools, opiunea
Data Analysis. Se realizeaz tabela de regresie pentru primul eantion, declarndu-se variabila
dependent (Input Y Range), blocul B31:B40, variabila independent (Input X Range), blocul A31:A40, iar la Output Range, celula care va fi din colul stnga sus al tabelei de regresie, de exemplu K27. n Tabelul 1.4 este prezentat tabela de regresie obinut n Excel pentru primul eantion. n tabela de regresie se regsesc estimatorii i indicatorii calculai mai sus.
SUMMARY OUTPUT eantionul 1 Regression Statistics Multiple R 0.943 R Square 0.8893 Adjusted R Square 0.8755 Standard Error 14.1781 Observations 10 ANOVA df SS Regression 1 12924.74 Residual 8 1608.161 Total 9 14532.9 Coeff. Standard Error Intercept 69.784 8.2275 X Variable 1 0.2573 0.0321
MS F Signif. F 12924.7 64.29573 4.29E-05 201.02 t Stat 8.4817 8.0185 P-value 2.86E-05 4.29E-05 Lower 95% 50.811 0.183 Upper 95% 88.756 0.331
26
Pentru al doilea eantion se determin cu funcii sau din tabela de regresie, urmtoarele rezultate: 2 un coeficient de corelaie liniar ntre variabilele x i y, de rxy = 0.9764 , care arat o legtur de
intensitate mare i se poate obine cu funcia =CORREL(E31:E40,D31:D40) n D44; 1 2 = 0.23 , n celula D43, iar modelul este 0 2 = 72.6 , n celula D42 i a estimatorii: a
i 2 = 72.6 + 0.23 xi ; y
un coeficient de determinaie R2=0.9534, care arat c modelul liniar este bine ales i explic variaia variabilei y, ntr-o proporie de 95.34%, mai mare dect n cazul primului eantion;
i 2 se afl n coloana F, din Tabelul 1.3 i sunt calculate prin Valorile teoretice corespunztoare y
copierea formulei =D$42+D$43*D31 din celula F31, n F32:F40. Se realizeaz tabela de regresie pentru al doilea eantion, la Input Y Range se declar E31:E40, la Input X Range, D31:D40, iar la Output Range, de exemplu, celula U27. Tabela de regresie pentru al doilea eantion este prezentat n Tabelul 1.5.
SUMMARY OUTPUT eantionul 2 Regression Statistics Multiple R 0.9764 R Square 0.9534 Adjusted R 0.9475 Square Standard Err 7.694 Observations 10 ANOVA df SS MS F Signif. F Regression 1 9681.317 9681.317 163.5416 1.32E-06 Residual 8 473.583 59.19787 Total 9 10154.9 Coeff. Standard Err t Stat P-value Lower 95% Intercept 72.6035 6.0113 12.0778 2.04E-06 58.7414 X Variable 1 0.2305 0.0180 12.7883 1.32E-06 0.1889
Tabelul 1.5. Tabela de regresie pentru eantionul 2 Pe graficul din Figura 1.5 s-au reprezentat: dreapta de regresie a populaiei (n legend, ymed. teoretic), declarnd la X Values blocul B2:K2, iar la Y Values, blocul B22:K22, valorile variabilei y pentru primul eantion (n legend, y1), la X Values s-a declarat blocul variabilei x, adic A31:A40, iar pe axa Oy, la Y Values, B31:B40 i dreapta de regresie a primului eantion,
i 1 (n legend, yt1), la X Values declarndu-se A31:A40, iar la Y Values, valorile teoretice y
C31:C40.
27
150 130 110 90 70 50 0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic
y1
yt1
Figura 1.5. Valorile empirice din eantionul 1 i ajustarea lor Graficul din Figura 1.6, conine: dreapta de regresie a populaiei (n legend, ymed. teoretic), valorile variabilei y pentru eantionul al doilea (y2), la X Values s-a declarat blocul variabilei x, adic D31:D40, iar la Y Values, E31:E40 i dreapta de regresie a eantionului al
i 2 (yt2), blocul F31:F40. doilea, y
Ajustarea profitului n funcie de numrul de angajai - e antionul 2
210 190 170
profit (mii euro)
150 130 110 90 70 50 0 50 100 150 200 250 y2 300 350 yt2 400 450 500 550 ymed.teoretic
numr angajai (persoane)
28
Pe graficul din Figura 1.7 s-au reprezentat: dreapta de regresie a populaiei (n legend, ymed. teoretic), valorile variabilelor y pentru cele dou eantioane (n legend, y1 i y2), cele dou
drepte de regresie ale eantioanelor (yt1 i yt2).
Ajustarea liniar a profitului n funcie de numrul de angajai
230 210 190
profit (mii euro)
170 150 130 110 90 70 50 0 50 100 150 200 y1 250 y2 300 yt1 350 yt2 400 450 500 550 ymed.teoretic
numr angaja i (persoane)
Figura 1.7. Valorile empirice din eantioane i ajustrile lor Legenda graficului arat aceeai marcatori pentru valorile empirice observate ale profiturilor medii lunare i marcatori diferii pentru fiecare din cele trei drepte de regresie. Comparnd ecuaiile de regresie ale celor dou eantioane:
i 1 = 69.78 + 0.26 xi , y i 2 = 72.6 + 0.23 xi cu ecuaia de regresie a populaiei: E ( y / xi ) = 66.86 + 0.25 xi , se observ c y 1 sunt apropiai de valoarea a1 , din regresia populaiei. estimatorii a
Dac s-ar alege un eantion de volum mai mare, n=20, de exemplu, cele dou eantioane
i 3 = 71.64 + 0.24 xi , cu un reunite ntr-unul singur, n Tabelul 1.6, atunci noul model obinut este: y
i3 y
84 84 84 96 96 108 120 120 120 132 144 144
300 350 350 400 400 450 500 500 50 71.643 0.239 0.956 rxy3
03 a
1 3 a
0.915 R2
Dreapta de regresie obinut pe baza datelor din eantionul 3 i prezentat n Figura 1.8, difer de celelalte dou, anterior calculate; valorile teoretice sunt diferite, pentru c i valorile estimate ale coeficienilor a 0 i a1 sunt diferite.
3
170 150 130 110 90 70 50 0 50 100 150 200 250 y 300 350 yt 400 450 500 550 ymed.teoretic
numr angaja i (persoane)
Figura 1.8. Valorile empirice din eantionul 3 i ajustarea lor Modelul calculat pe baza datelor din eantionul al doilea are un coeficient de determinaie mai mare dect celelalte dou eantioane. Acesta poate fi o variant mai bun, pentru estimarea parametrilor ecuaiei de regresie a populaiei, dect celelalte dou modele. Se poate afirma ns, c fiecare din cele trei modele prezentate, este bun, datorit valorii mari a coeficientului de determinaie, R2.
Pentru exemplul numeric, va fi considerat un eantion de 10 familii, dintr-o populaia ipotetic, pentru care se cunosc cheltuielile de consum i veniturile lunare, exprimate n i prezentat n Tabelul 1.7.
1 , dispersia reziduurilor, varianele i erorile standard 0 i a Se cer estimaiile coeficienilor a
ale estimatorilor, covariana lor, coeficientul de corelaie i coeficientul de determinaie. Se recomand utilizarea formulelor prezentate mai sus i apoi pentru verificare, utilizarea tabelei de regresie din Tools / Data Analysis / Regression. Cheltuieli de Venitul xi i y consum yi 70 80 65.18 65 100 75.36 90 120 85.55 95 140 95.73 110 160 105.91 115 180 116.09 120 200 126.27 140 220 136.45 155 240 146.64 150 260 156.82 Tabelul 1.7. Analiza cheltuielilor n funcie de venituri 0 Valorile teoretice obinute, dup estimarea coeficienilor a i = 24.45 + 0.51xi sunt prezentate n Tabelul 1.7. y
1 , cu modelul: i a
regresie a populaiei, precum i intervalul lor de ncredere, estimat cu o anumit probabilitate; testul Fisher de verificare a semnificaiei globale a regresiei.
31
Exerciiul folosete datele din Tabelul 1.8, care reprezint venitul mediu lunar/locuitor, exprimat n dolari, pentru o ar, n perioada 1993-2002.
Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Venit 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000
tiind c nclinaia marginal spre consum este 0.8 i consumul incompresibil (sub care nu se poate asigura un trai normal) este 1.000, se cere: a) S se calculeze consumul teoretic n perioada 1993 - 2002. b) Considernd c erorile de observare urmeaz o lege normal de medie 0 i varian 20000, s se genereze un consum aleator. 32
venitul/locuitor, iar yt este consumul/locuitor. Generarea variabilei aleatoare se realizeaz cu un generator de numere aleatoare, t N(0; 20000). Media i variana acestor erori generate, sunt uor diferite de valorile teoretice: 19 fa de 0, respectiv, 10056, fa de 20000. Aceste diferene reprezint o consecin a extragerii unui eantion de volum mic (zece observri). Consumul observat se calculeaz adugnd la consumul teoretic, obinut cu modelul de regresie a populaiei: yt=1000+0.8+t., erorile de observare, generate. Acesta este un demers invers, pentru a pune n eviden rolul erorilor i distincia ntre ecuaia de regresie a populaiei i cea a eantionului. n realitate valorile observate conin deja erorile. Valorile observate sunt empirice, reale, i nu se pot obine invers prin adgarea erorilor (necunoscute, dealtfel) la valorile teoretice. Generarea de numere aleatoare se poate realiza, de exemplu, cu o comand: =(RAND()*100+RAND()*100)*(-1)^(ROUND(RAND()*10,0). Aceast formul poate fi diferit, de cea prezentat (se poate nmuli, de exemplu, rezultatul generrii prin funcia RAND(..), care este un numr subunitar pozitiv, cu 200, 500 sau 1000), care conine nmulirea cu (-1) ridicat la o putere obinut ca partea ntreag a unui numr pn la 10, pentru a genera i erori negative. Formula odat scris pentru primul an 1993, se copiaz i pentru restul anilor. Se vor obine rezultate diferite ale erorilor la fiecare nou operaie pe spreadsheet. De aceea, se recomand ca atunci cnd s-au generat nite erori, care s ndeplineasc condiiile pentru medie i dispersie, aceste valori s se transforme cu Values, prin copiere n acelai bloc de celule, cu Paste Special. Rezultatele obinute de cei care lucreaz acest exerciiu nu pot fi identice cu cele din Tabelul 1.9 (cu excepia cazului cnd, se prefer s se lucreze cu erorile generate aici). Calculele pentru ntrebrile a) i b) sunt prezentate n Tabelul 1.9. Tabela de regresie y=f(x), unde valorile xt reprezint veniturile observate, iar yt, consumurile
1 = 0.804 , un coeficient de 0 = 971.56 i a observate, furnizeaz estimaiile coeficienilor: a
corelaie de 0.99893, care indic o intensitate puternic ntre consum i venit, precum i un coeficient de determinaie de 0.9979, foarte apropiat de 1, care arat ca modelul liniar al venitului este foarte bun pentru explicarea variaiei consumului/locuitor.
33
(date convenionale)
Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 media dispersia
t populaie y
7400 8200 8600 8600 8840 9800 10600 11400 13000 13800
yt observat 7297 8343 8455 8672 8905 9931 10509 11458 13064 13798
t regresie y
7405 8210 8612 8612 8853 9818 10622 11427 13035 13839
Tabelul 1.9. Calculele n ordine invers, prin generarea erorilor Graficul din Figura 1.9 este de tip Scatter (X,Y) i prezint corelaia dintre venitul/locuitor i consumul/locuitor. Consumul observat este sub forma unor puncte aflate de o parte i de alta a t = 971.56 + 0.804 xt , dup cum erorile au fost pozitive sau negative. Se dreptei de regresie: y 0 i a 1 , au valori apropiate de parametri modelului de regresie a populaiei observ c estimatorii a a0 i a1 .
15000 14000 13000 consumul/locuitor 12000 11000 10000 9000 8000 7000 7000
9000 y
11000
13000 y teoretic
15000
17000
venitul/locuitor
34
Figura 1.10. Evoluia consumului i venitului mediu lunar, pe locuitor n perioada 1993-2002 Graficul din Figura 1.10, de tip Line, fiind o cronogram, prezint evoluia n timp a consumului teoretic calculat cu ecuaia de regresie a eantionului, a consumului observat i a venitului care fiind cam de acelai ordin de mrime i aceeai unitate de msur se pot reprezenta mpreun pe acelai grafic. Evoluia asemntoare, n timp, a celor dou variabile: venitul i consumul, arat existena unei legturi puternice, ntre ele. n exerciiul prezentat, valorile adevrate a0 i a1 , sunt perfect cunoscute: a 0 = 1000 , i
a1 = 0.8 . n realitate, aceste valori nu se cunosc; ci numai consumurile i veniturile medii,
observate pe locuitor n perioada celor 10 ani, adic coloanele: xt i yt. 0 i a 1 , sunt variabilele aleatoare, care urmeaz aceeai lege de Estimatorii coeficienilor a probabilitate ca i t, pentru c sunt funcie de aceast variabil aleatoare. Mediile i abaterile standard ale acestor estimatori permit construirea testelor de validitate a modelului.
e
i
2 i
n2
. Estimaia
(x
i
2
i
x)2
35
(n 2)
Rezult c:
0 a0 a urmeaz o lege Student cu n-2 grade de libertate; a 0 1 a1 a urmeaz o lege Student cu n-2 grade de libertate. a 1
Testul de semnificaie al estimatorilor i intervalele de ncredere ale acestora apar ca fiind consecine ale ipotezei de normalitate a erorilor.
Utiliznd datele din exerciiul prezentat, se cere: a) nclinaia marginal spre consum este semnificativ diferit de 0? b) Care este intervalul de ncredere, la un nivel de semnificaie de 95%, pentru nclinaia marginal spre consum? n cazul unui rspuns negativ la prima ntrebare - coeficientul a1 nu este semnificativ diferit de 0, variabila explicativ venitul anual/locuitor, nu va fi considerat ca fiind explicativ pentru consum, pentru c are un coeficient de ponderare nul. Problema se rezolv pornind de la teoria testelor, folosind urmtoarele ipoteze: - ipoteza nul - ipoteza alternativ H0: a1 = 0 H1: a1 0
Dac se respinge ipoteza nul H0, la un prag fixat, atunci nclinaia marginal spre consum este considerat, ca fiind semnificativ diferit de 0. Pragul de semnificaie cel mai des utilizat este =0.05, adic un risc de a respinge H0, n mod nentemeiat, de 5%. Sub ipoteza H0, relaia 0 a 1 a1 a a devine 1 = 1 = ta 1 , care urmeaz o lege Student cu n-2 a 1 1 1 a a
36
H0 cu probabilitatea P=1-
H1 /2
t n 2 grd .lib.
/ 2 = 0.025
H1 /2 I a1
/ 2 = 0.025 + tn 2 grd .lib .
accept H1 (a1 0) . Coeficientul este semnificativ diferit de 0, variabila explicativ contribuie la explicarea variaiei lui y.
0.025 se accept H0 (a1 = 0) , se respinge H1. Coeficientul nu este semnificativ Dac t a 1 < t n 2
diferit de 0, variabila explicativ nu contribuie la explicarea variaiei lui y. 0 + a 1 xt + et se pot estima valorile teoretice y t , prin ecuaia de regresie: Cu modelul y t = a t = a 0 + a 1 xt , concret: y t = 971.56 + 0.804 xt . y 2 = t , dispersia lor: Se pot calcula reziduurile et = yt y Aplicnd 1 ) = V (a formulele, se pot obine: estimaia
e
i
2 i
n2
(y
i
i )2 y .
1 : a
n2
varianei 1 a . a 1
estimatorului
(x
i
2
i
x)2
Dispersia reziduurilor se poate obine i prin ridicarea la puterea a 2-a a valorii Standard Error din tabela de regresie, care reprezint abaterea medie ptratic a valorilor yt fa de valorile t . Raia Student este calculat i n tabela de regresie, care se poate vedea n Tabelul sale teoretice y 1.10, partea referitoare la coeficieni. Se compar valoarea calculat a raiei Student cu cea teoretic, din tabelele statistice ale funciei Student, pentru n-2 grade de libertate i un prag de semnificaie /2.
Coeff. Intercept X Variable 1 971.556 0.804 Standard Error 152.54 0.013 t Stat 6.37 60.95 P-value 0.000216 5.83E-12 Lower 95% 619.79 0.774 Upper 95% 1323.32 0.835
Dac se utilizeaz tabela de regresie nu mai este nevoie de compararea amintit, pentru ca Excel-ul furnizeaz la P-value, valoarea pragului de semnificaie , care aici, este foarte mic, aproape 0, deci probabilitatea P=1-, de garantare a rezultatelor este de 100%.
ta 1 =
Se respinge ipoteza nul, estimatorul coeficientului a1 este semnificativ diferit de 0, se accept ipoteza H1: a1 0 . 0 este semnificativ diferit de 0. Valoarea raiei Student este 6.369 > 2.306, i estimatorul a fapt indicat i de P-value care este de 0.0216%.
Fie
de semnificaie 0.95: IC a1 = 0.804 0.0132 2.306 . Intervalul de ncredere este [0.77; 0.83]. n acest exerciiu, se tie ca valoarea lui a1 este de 0.8, deci este cuprins n interval. Exist un risc de 5% ca adevratul coeficient s se gseasc n exteriorul acestui interval. Se constat c acest interval nu cuprinde valoarea 0, ceea ce este coerent cu rezultatul diferenei semnificative fa de 0 a coeficientului. 0 este de [619.8 , 1323.3]. n acest exerciiu, Intervalul de ncredere pentru estimatorul a valoarea parametrului a0 este 1000, i este cuprins n intervalul de ncredere.
F * urmeaz o lege Fisher cu 1 i 8 grade de libertate. Pentru =5%, valoarea teoretic este F10si.05 8 = 5.32 .
38
df 1 8 9
MS 41494953.7 11169.3673
F 3715.068
Significance F 5.83E-12
Tabelul 1.11. tabelul ANOVA pentru regresia liniar simpl Testul Fisher n funcie de coeficientul de determinaie, R2, este: F* = 0.9978 0.9978 R2 = = = 3715 . 2 (1 R ) /(n 2) (1 0.9978) /(10 2) 0.0002686
.05 Cum F * > F10 = 5.32 , se accept ipoteza H1, variana explicat difer semnificativ de cea a .8
1 , este semnificativ, regresia este global reziduurilor, deci coeficientul variabilei explicative, a
semnificativ.
2 2 La regresia simpl: F = (t a 1 ) = (60.95135) = 3715.068 , pentru c semnificaia global a
39
n aceast formul, variana erorii de previziune este funcie de abaterea medie ptratic ntre variabila exogen prevzut i media aceleiai variabile: cu ct acest valoare prevzut se abate mai mult de la media sa, cu att riscul erorii este mai important. Totodat se observ c variana erorii de previziune este o funcie invers a variabilitii seriei explicative. Ipoteza de normalitate a erorilor, t, permite determinarea intervalului cu o ncredere P=1-: Fie raportul t = n +1 y n +1 y 1 + n ( x n +1 x ) 2 = +1 0 + a 1 x n +1 y n +1 a 1 + n ( x n +1 x ) 2 t n 2 (care urmeaz o lege +1
(x
t =1
x)
(x
t =1
x)
1 ( x n +1 x ) 2 + +1 n ( xt x ) 2
t
Caz particular: Cnd se utilizeaz modelul regresiei simple pentru o serie cronologic, se calculeaz dreapta de tendin dup modelul specificat astfel: 0 + a 1t + et pentru t=1,2,,n. Tt = a Pentru a calcula previziunea pentru orizontul h, se nlocuiete valoarea variabilei t cu n+h pentru 0 + a 1 (n + h) + et , iar intervalul de ncredere se gsete pe dou brae de hiperbol: extrapolare: Tt = a (n + h t ) 2 , ilustrate n graficul din Figura 1.12:
40
(date convenionale)
Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 media Venitul xt 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 11280 Consumul yt 7410 8267 8664 8645 8921 9766 10645 11425 12963 13714
Tabelul 1.12. Venitul i consumul mediu lunar/locuitor Pentru aceste date, modelul consum - venit estimat este: y t = 1186.45 + 0.785 xt + et (20.97) (160.4) (.) = raia t Student; n = 10. 1) S se calculeze coeficientul de determinaie i s se efectueze testul Fisher, prin care se determin dac regresia este global semnificativ. 2) Care este consecina asupra consumului a unei creteri de 8% a venitului? 3) n 2003 i 2004 se prevd venituri de 16800$ i 17000$ venit/locuitor. S se determine previziunea consumului pentru cei doi ani, i intervalele de ncredere cu o probabilitate de 95%.
Soluie:
1) Pentru a calcula coeficientul de determinaie se utilizeaz relaiile testului Fisher empiric, prezentate n paragraful 1.7. Se utilizeaz formulele din paragraful 1.5, n Tabelul 1.13. Se calculeaz dispersia reziduurilor, apoi abaterea reziduurilor, care se regsete n prima parte a tabelei de regresie, la Standard Error. Dispersia reziduurilor se utilizeaz n formulele de calcul ale varianelor estimatorilor. Abaterile estimatorilor, calculate cu funcia =SQRT(), se
1 se calculeaz regsesc n partea a treia a tabelei de regresie; raia Student pentru estimatorul a
raportnd estimatorul la abaterea sa i se afl n coloana t-Stat.
* 2 * 2 F * = ( ta 1 ) = ( 160.4 ) = 25730.77 , unde t , este testul Student empiric al estimatorului a1 .
n
n
Tabelul
1.13
n
s-au
calculat
valorile:
SSR
(Sum
Squares
n
of
Residues)
Se verific relaia dintre aceste sume: SST = SSR + SSE . Testul Fisher se poate calcula ca raport ntre dou dispersii corectate cu gradele de libertate, ntotdeauna cea explicat raportat la cea 41
rezidual: F =
SSE / 1 . Valorile sumelor se regsesc n tabelul ANOVA, unde valoarea foarte SSR /(n 2)
globale a regresiei liniare. Acelai rezultat se obine i cu formula:
F* =
R2 .05 , R 2 = r 2 = 0.99967 . Se calculeaz i F * = 25730.77 > F10 si .8 grd .lib . = 5.35 , 2 (1 R ) /(n 2)
arat c regresia i implicit variabila explicativ (singura) este semnificativ. Se observ c valoarea Fisher calculat dup oricare din formule, este aceeai i este egal cu cea furnizat de tabela de regresie. De asemenea se mai poate verifica valoarea coeficientului de determinaie: R 2 =
R2 = 1
Consum yt 7410 8267 8664 8645 8921 9766 10645 11425 12963 13714
yteoretic
7467 8252 8645 8645 8880 9822 10607 11392 12962 13748 14376 14533
( xt x ) 2
10758400 5198400 3168400 3168400 2190400 78400 518400 2958400 13838400 22278400
t )2 ( yt y
3247.1 223.5 377.0 0.2 1672.6 3156.4 1425.2 1068.4 0.3 1123.1
t y) 2 (y
6630711.4 3203923.4 1952776.1 1952776.1 1350006.5 48320.175 319504.83 1823347 8529004 13730819
( yt y) 2
6927424 3150625 1898884 1951609 1256641 76176 363609 1912689 8532241 13483584
SSR 12293.8 1536.73 39.20 3201.41 56.58 2.39E-05 0.00489 160.408 25730.775 Signific.F 2.5522E-15
Fisher F 25730.775
Tabelul 1.13. Calculele i tabela de regresie 2) Creterea cu 8% a venitului duce la o cretere mai mic a consumului, i anume de 6.28%.
42
1 xt ; y t = 0.785xt = 0.785 0.08 = 0.0628 y t = a 3) Cunoscndu-se valorile veniturilor, previziunile cheltuielilor de consum n anii 2003 i 2004, se calculeaz ca previziuni punctuale, utiliznd modelul estimat: 2003 = 1186.45 + 0.787 x 2003 = 1186.45 + 0.785 16800 = 14376 y 2004 = 1186.45 + 0.787 x 2004 = 1186.45 + 0.785 17000 = 14533 y Se pot calcula intervalele de ncredere, pentru previziunile celor doi ani:
2003 t n 2 ICy 2003 = y Se cunosc informaiile: n=10; = 39.2 ,
/2
(x
t
Pentru anul 2003: x 2003 = 16800 ; ICy 2003 = 14376 2.306 49.2 ; IC2003 = [14262 , 14489]. Previziunea are o ans de 95%, s se afle n interiorul intervalului. Pentru 2004: x 2003 = 17000 ; ICy 2004 = 14533 2.306 49.74 ; IC2004 = [14418 , 14647], cu o probabilitate de 95%.
Un economist specialist n managementul resurselor umane se intereseaz de legtura dintre salariu i durata studiilor. El dispune de un eantion de 40 de brbai i 25 de femei, avnd aceeai vrst i crora le nregistreaz salariul pe un an (yi) exprimat n milioane lei i numrul de studii (xi), exprimat n ani de studiu. Estimaiile sunt urmtoarele: Pentru brbai: y i = 112.80 + 1.8 xi + ei , i=1,2,,40 ni=40, R2=0.42 (9.3) (5.2) Pentru femei: y i = 87.20 + 0.7 xi + ei , i=1,2,,25, n2=25, R2=0.22 (12.8) (2.5)
() raia Student 1) Este semnificativ durata studiilor asupra salariului? 2) tiind c salariul mediu al brbailor este 6.9 milioane lei i cel al femeilor este 5.8 milioane lei, s se stabileasc dac exist diferen semnificativ ntre salariul brbailor i cel al femeilor?
43
Soluie:
1) Se analizeaz fie raiile Student, fie coeficientul de determinaie. Raia Student pentru variabila anii de studiu este:
* 0.05 = 0.05 , t 40 - pentru brbai: t B = 5.2 > t 38 2 =38 grd. lib. = 1.96
* 0.05 = 0.05 = 2.5 > t 23 , t 25 - pentru femei: t F 2 = 23 grd. lib. = 2.06
Cei doi coeficieni sunt semnificativi diferii de 0. Se observ c pentru femei, coeficientul de ponderare a anilor de studii este mai mic i mai puin semnificativ ca cel pentru brbai. Testul Fisher conduce la aceleai rezultate. 2) Problema se rezum la un test de diferen a mediilor variabilelor aleatoare normale
1 ai celor independente i a varianelor inegale. n acest caz se testeaz diferena dintre coeficienii a
dou regresii (valorile1.8, respectiv 0.7). Cunoscnd raiile Student, t =
estimatorul abaterea std.
estimatorii se pot obine abaterile lor tip (abaterile standard): B = 0.346 i F = 0.28 . Ipoteza nul i cea alternativ ale unui test bilateral, sunt:
H 0 : aB = aF ; H 0 : d = aB aF = 0
H1 : aB aF ; H1 : d = aB aF 0
Raportul:
t* =
d = d
Se respinge ipoteza nul. Exist o diferen semnificativ ntre coeficienii de regresie: durata studiilor la femei are un impact mai mic asupra salariului, dect n cazul brbailor.
Rezumat:
Aceast capitol prezint modelul regresiei multiple, ipoteze de lucru, estimarea coeficienilor modelului, intervalele lor de ncredere, testarea validitii lor i a regresiei, previziunea cu modelul regresiei simple. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.
44
Termeni importani:
Model de regresie simpl, estimatori, parametri, proprietrile estimatorilor, reziduuri, erori, ipotezele modelului de regresie, testul F, ANOVA, testul t, tabela de regresie
ntrebri recapitulative
1. Enumerai ipotezele modelului de regresie 2. Stabilii diferena ntre modelul de regresie al populaiei i modelul de regresie al eantioanelor 3. Ce este liniaritatea? 4. Care sunt proprietile estimatoruilor modelului de regresie? 5. Reprezentai tabelul de analiz a varianei ANOVA si testul F pentru regresia simpl. 6. La ce se refer testul t Student? 7. Cum apreciai validitatea unui model?
Teme de cas
Parcurgei exemplele din curs utiliznd calculatorul; realizai graficele i tabela de regresie.
45
CAPITOLUL 2
Tema Obiectivele
46
(n,1)=(n,k+1)(k+1,1)+(n,1) Prima coloan a matricii X, compus numai din valorile 1, corespunde parametrului a 0 , termenul constant al crui coeficient este 1. Dimensiunea matricii X este de n linii i k+1 coloane.
47
y1 y2 ... Y = ; yt ... y n
1 1 ... X = 1 ... 1
a0 a1 a a = 2 ; ... ... a k
1 2 ... = . t ... n
S = 0; = 2 X Y + 2 X Xa a = ( X X ) 1 X Y . a
= X Y ; X Xa
(1)
n x1t x 2t ... x kt
sau altfel:
0 na
x x x x
1t 2 1t 2t
1t
x x x x
1t
2t 2t
2 2t
x x x x x
kt
...
... x
kt 1t
kt
x 2t
2 0 x 2t + a 1 x 2t x1t + a 2 x2 a t
0 x1t + a 1 x a
1 x1t + a
2 1t
2 x 2t +a
k x kt + ... + a
= yt
k x 2t x kt = x 2t y t + ... + a = x kt y t
........................................................................................................................................................
2 0 x kt + a 1 x kt x1t + a 2 x kt x 2t + ... + a k x kt a
t = a 0 + a 1 x1t + a 2 x 2t + ... + a k x kt , Modelul estimat poate fi scris astfel: y 0 + a 1 x1t + a 2 x 2t + ... + a k x kt + et . iar variabila observat, n funcie de model: y t = a
48
Estimatorii parametrilor a 0 , a1 ,..., a k , modelului populaiei generale, se obin pe baza datelor unui eantion. Valorile et sunt reziduurile, abateri ntre valorile observate ale variabilei de explicat i valorile sale teoretice, estimate, ajustate. Se face distinie ntre eroarea de specificare t i reziduurile et. Dac se consider valorile centrate (fa de media lor), vectorul a al estimatorilor se poate scrie:
a 1 var( x1 ) 2 a cov( x 2 , x1 ) a 3 = cov( x 3 , x1 ) ... ... ... cov( x , x ) k 1 a k cov( x1 , x 2 ) var( x 2 ) cov( x 3 , x 2 ) ... cov( x k , x 2 ) cov( x1 , x 3 ) cov( x 2 , x 3 ) var( x 3 ) ... cov( x k , x 3 ) ... cov( x1 , x k ) cov( x1 , y ) ... cov( x 2 , x k ) cov( x 2 , y ) ... cov( x 3 , x k ) cov( x 3 , y ) ... ... ... ... var( x k ) cov( x k , y )
0 = y a 1 x1 a 2 x 2 ... a k xk 0 se obine prin relaia: a Estimatorul a Efectul variaiei unei singure variabile explicative asupra variaiei variabilei explicate y, t = a 0 + a 1 x1t + a 2 x 2t + ... + a k x kt i noua stare a variabilei explicative, x2, de cunoscnd modelul y exemplu, modificat n ( x 2t + x 2t ), iar toate celelalte k-1 variabile rmnnd neschimbate, se 2 x 2t , care reprezint modificarea n medie a variabilei explicate y. msoar prin a
homoscedascticitate, 4. E ( t t ) = 0 , dac t t , erorile sunt necorelate (independena erorilor), 5. cov( xit , t ) = 0 , erorile sunt independente de variabilele explicative, pentru orice i=1,k; b) ipoteze structurale 1. absena multicoliniaritii ntre variabilele explicative, aceasta implic faptul c matricea ( X X )
2. ( X X ) / n tinde ctre o matrice finit nesingular, 3. n > k+1, numrul de observri trebuie s fie mai mare dect numrul variabilelor explicative (cnd n=k+1, atunci sistemul este cu n ecuaii i n necunoscute, perfect determinat). 0 , a 1 ,..., a k au proprietile ca i estimatorii regresiei simple: liniari, nedeplasai Estimatorii a i eficieni. Modelul regresiei multiple se poate scrie n urmtoarele moduri:
Y = Xa +
+e Y = Xa
(2)
= Xa Y
) = a . Pentru a arta c estimatorii sunt nedeplasai este suficient s se demonstreze c E (a Folosind formula de calcul a estimatorilor (1) i ecuaiile unui model liniar multiplu prezentate se obine:
= ( X X ) 1 X Y = ( X X ) 1 X ( Xa + ) = ( X X ) 1 X ( Xa ) + ( X X ) 1 X a = a + ( X X ) 1 X
(3)
) = a + ( X X ) 1 X E ( ) = a , atunci: E (a pentru c prin ipotez E ( t ) = 0 . Estimatorii metodei celor mai mici ptrate sunt nedeplasai pentru
) = a . c E ( a
Matricea de varian-covarian a estimatorilor, notat cu a este util pentru c va conine varianele, pe baza crora se calculeaz abaterile lor standard, respectiv covarianele a)(a a)] coeficienilor de regresie: a = E[( a Din ecuaia (3): a = ( X X ) 1 X i (a a ) = X ( X X ) 1 , a (4)
a)(a a ) = ( X X ) 1 X X ( X X ) 1 , iar matricea de varianDin relaiile (4) rezult: (a covarian a estimatorilor, devine:
50
ee . n k 1
Cnd numrul observrilor tinde spre +, variana reziduurilor tinde spre 0, se spune c
este convergent, de varian minim. estimatorul a
(y
t =1
t y ) 2 + ( yt y t )2 y) 2 = ( y
t =1 t =1
SST
SSE
SSR
Calitatea ajustrii se apreciaz cu indicatorul coeficientul de determinaie, R2, care se calculeaz ca raport ntre variana explicat de model i variana total a variabilei dependente y, artnd ponderea varianei explicate. Ponderea varianei neexplicate se msoar cu indicatorul coeficientul de nedeterminaie N2, fiind raportul (y
n t
varianei
reziduale
totalul
varianei
2 t
variabilei
dependente
y)2 = 1 N 2 = 1 y)
2
y. R 2 =
(y
t =1
t =1 n
(y
t =1 n t =1
t )2 y y)
2
(y
= 1
e
t =1 t
(y
t =1
.
2
y)
51
- fondul mediu net de salarii, al personalului din departamentul Distribuie msurat n . Variaia salariilor este mai mare n perioadele n care consumul este mare, i necesitatea unei distribuii mai rapide a produselor, conduce la apelarea la colaboratori externi. n perioadele de consum redus i mediu, indicatorul reprezint retribuiile personalului de baz. - Indicele Preurilor de Consum (IPC), fa de aceeai lun din anului anterior, n %. Datele colectate sunt prezentate n Tabelul 2.1. Se cere s se construiasc un model econometric pentru analiza i previziunea distribuiei lunare de buturi rcoritoare. Variabilele semnificative explic evoluia i variaia mrfii livrate. Analiza influenei factorilor ncepe prin analiza grafic a evoluiei variabilelor i a corelaiilor dintre fiecare variabil factorial i variabila explicat, y, marfa livrat lunar. Consumul mediu lunar de combustibil - x1, valoarea daunelor lunare - x2, pondere marfa returnat - x3, capacitatea de ncrcare auto - x4, salariile nete medii ale personalului - x5, i Indicele Preurilor de Consum (IPC) x6, reprezint variabilele explicative.
Luna total distrib. (nr. pet) yt 131.750 225.245 76.316 104.875 159.366 160.124 168.745 240.814 213.702 207.965 181.546 117.786 133.079 226.416 78.116 106.994 161.203 164.045 170.614 243.398 214.011 208.844 183.939 118.968 consum comb. () x1 1.523 2.525 1.114 1.369 1.945 1.865 1.647 2.444 2.268 2.097 1.952 1.464 1.884 2.927 1.580 1.884 2.355 2.208 1.999 2.630 2.325 2.545 2.355 1.884 pierderi materiale () x2 124 236 124 147 165 167 172 258 240 225 182 123 178 245 110 117 185 206 217 260 233 206 183 165 retur mf. (%) x3 1,510 1,532 1,480 1,500 1,580 1,600 1,630 1,650 1,640 1,635 1,580 1,490 1,510 1,536 1,485 1,487 1,530 1,550 1,620 1,640 1,638 1,636 1,580 1,550 capacit. ncarc. (nr. pet) x4 530 550 400 400 420 430 480 500 490 470 450 430 560 580 450 450 470 480 520 550 550 510 490 480 fond salarii () x5 1.887 1.965 1.942 1.958 1.913 1.877 1.876 1.925 1.899 1.881 1.905 1.911 2.021 2.120 1.932 2.025 2.030 2.050 2.057 2.070 2.012 2.043 2.050 2.069 IPC (%) x6 153.7 154.8 156.8 155.7 149 148.9 144 140.9 144.5 145.4 144.9 142.9 141.3 140.7 139.9 140 140.3 137.5 137.4 135.7 131.8 132.4 131.2 130.8
Nov-99 Dec-99 Ian-00 Feb-00 Mar-00 Apr-00 Mai-00 Iun-00 Iul-00 Aug-00 Sep-00 Oct-00 Nov-01 Dec-01 Ian-01 Feb-01 Mar-01 Apr-01 Mai-01 Iun-01 Iul-01 Aug-01 Sep-01 Oct-01
52
n graficul din Figura 2.1 se prezint evoluia n timp a livrrilor lunare de marf, exprimat n uniti fizice. Se observ o sezonalitate lunar, dei datele sunt complete numai pe doi ani. Pe grafic se identific anul de afaceri al firmei Coca Cola care ncepe din noiembrie i se termin n octombrie, fiind doi ani complei i dou luni din anul urmtor. Consumul de Coca-Cola pe parcusul unui an, are dou valori maxime in lunile decembrie i iunie, fapt explicat prin nceputul srbtorilor de iarn i nceputul sezonului cald. Valori mai sczute sunt n linile ianuarie i octombrie. Din ianuarie ncepe un trend cresctor pn n iunie, apoi descrestor n iulie, august, septembrie i octombrie. Cei doi ani au evoluii asemntoare, conducnd la concluzia existenei unei sezonaliti lunare.
Evoluia livrrilor de marf n perioada noiembrie 1999-decembrie 2001
300000
250000
numar pet 2l
200000
150000
100000
50000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
luni
53
3500
3000
2500
euro
2000
1500
1000 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01 12.01
luna
Figura 2.2. Evoluia cheltuielilor lunare cu combustibilul n Figura 2.2 se poate vedea evoluia consumul mediu lunar de combustibil, variabila x1. Valoarea consumului de combustibil utilizat pentru distribuia produselor are o evoluie asemntoare cu cantitatea mrfurilor livrate: n lunile ianuarie se nregistreaz valorile cele mai mici, urmat de luna octombrie, iar valorile cele mai mari, n lunile decembrie, urmate apoi de lunile iunie, pe un trend anual uor ascendent. n Figura 2.3 se prezint evoluia cronologic a a valorii daunelor lunare variabila x2.
Evoluia valorii pierderilor lunare
280 260 240 220
euro
200 180 160 140 120 100 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01
luna
54
12.01
Evoluia lunar a pierderilor este foarte asemntoare cu evoluia cantitii de marf vndut lunar, nregistrndu-se valori mai mari n lunile n care volumul desfacerilor este mai mare (decembrie i iunie) i valori mai mici n lunile n care se distribuie mai puin marf, (ianuarie i octombrie). Valoarea daunelor i pierderilor este proporional cu volumul mrfii.
1.70
1.65
1.60 % 1.55 1.50 1.45 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01 12.01
luna
Figura 2.4. Ponderea mrfii returnate lunar, n totalul livrrilor n Figura 2.4, graficul evoluiei ponderilor lunare a mrfii returnate n total livrri lunare variabila x3, arat o evoluie asemntoare cu cea a livrrilor fizice de marf, dar se observ o pondere mai mare a returnrilor n lunile de var, pentru c n sezonul cald produsele se deterioreaz mai rapid dect n cel rece. Graficul din Figura 2.5 arat evoluia capacitii lunare de ncrcare auto -variabila x4.
Evoluia capacitii lunare de transport
600
550
numr peturi 2l
500
450
400
350 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01 11.01
luna
12.01
2100
2050
euro
2000
1950
1900
1850 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 10.01
10.01
11.01
luna
Figura 2.6. Evoluia salariilor medii lunare ale personalului angajat i colaboratori Ca i celelalte variabile i capacitatea lunar de transport are o evoluie asemntoare cu cea a volumului mrfii livrate, fiind mai mare n lunile decembrie i iunie. Se observ valori mai mari n lunile noiembrie dect n iunie, vrful din sezonul cald.
160 155
% fa de aceeai luna
150 145 140 135 130 125 11.99 12.99 01.00 02.00 03.00 04.00 05.00 06.00 07.00 08.00 09.00 10.00 11.00 12.00 01.01 02.01 03.01 04.01 05.01 06.01 07.01 08.01 09.01 11.01 12.01
luna
Figura 2.7. Evoluia IPC fa de aceeai lun a anului anterior n Figura 2.6 se prezint evoluia cheltuielilor cu salariile medii lunare ale personalului angajat i colaboratori externi. Variaiile mai mari n al doilea an de afaceri, n lunile noiembrie i
56
12.01
decembrie, situate pe un trend cresctor al salariilor, se explic prin apelarea la serviciile unor colaboratori externi. Evoluia IPC prezentat n Figura 2.7 este descresctoare i considerarea acestei variabile se explic prin faptul c rata inflaiei poate influena comportamentul de cumprare al consumatorilor de buturi rcoritoare.
200000
150000
100000
50000 1000
1500
2000
2500
3000
3500
57
250000
200000
150000
100000
50000 100
120
140
160
180
200
220
240
260
280
Figura 2.9. Corelaia dintre marfa livrat i valoarea daunelor i pierderilor n Figura 2.10, corelaia dintre volumul produselor livrate i ponderea returului n totalul lunar al livrrilor, x2, indic o legtur de tip liniar i direct. Norul de puncte mai dispersat din Figura 2.10 indic o corelaie mai slab dect n cazul variabilelor x1 i x2.
250000
200000
150000
100000
50000 1.45
1.50
1.55
1.60
1.65
1.70
Figura 2.10. Corelaia dintre volumul mrfii livrate i ponderea livrrilor returnate lunar Graficul din Figure 2.11. indic o legtur de aceeai natur direct, ca i n cazul variabilelor x1, x2 i x3, adic pe msur ce crete volumul vnzrilor, crete i capacitatea lunar,
58
dar nu pe msura necesitilor, astfel nct norul de puncte dispersat va indica o legtur de intensitate mai slab. Forma legturii poate fi considerat liniar.
300000
250000
200000
150000
100000
50000
350 400 450 500 550 600
Figura 2.11. Corelaia dintre marfa vndut i capacitatea lunar de ncrcare auto
300000
250000
200000
150000
100000
50000 1850
1900
1950
2000
2050
2100
2150
Figura 2.12. Corelaia dintre volumul lunar al mrfii livrate i fondul lunar de salarii n Figura 2.12, corelaia dintre marfa lunar livrat i fondul lunar de salarii pentru personalul propriu i colaboratori, este de slab intensitate. Norul de puncte este aproape paralel cu axa Ox, 59
conducnd fie la concluzia lipsei legturii dintre fondul de salarii i volumul mrfii livrate, fie la existena unei legturi de intensitate slab, mai degrab de sens invers.
Corelaia dintre marfa livrat i indicii pre urilor de consum
300000 250000
marfa livrat (nr. pet.)
150
155
160
Figura 2.13. Corelaia dintre marfa livrat i indicii preurilor de consum Graficul din Figura 2.13 este singurul care indic o legtur invers ntre marfa vndut i indicii preurilor de consum, nsemnnd c livrrile de buturi rcoritoare scad atunci cnd cresc indicii preurilor de consum. Totui intensitatea legturii va fi slab pentru c norul de puncte este destul de dispersat. Forma legturii poate fi considerat ca fiind liniar.
Pentru exemplificarea construirii modelului econometric sub form matriceal se ncepe cu modelul de regresie a variabilei y i toate variabilele x i, i=1,6. Modelul: + e , cu vectorii t = a 0 + a 1 x1t + a 2 x 2t + a 3 x 3t + a 4 x 4t + a 5 x5t + a 6 x6t se scrie matriceal: Y = X a y
Y , e i matricea X, n continuare:
60
1 131.750 1 225.245 1 76.316 1 104.875 1 159.366 1 160.124 1 168.745 1 240.814 1 1 213.702 207.965 1 1 181.546 117.786 1 y = X = 1 133.079 1 226.416 78.116 1 1 106.994 161.203 1 1 164.045 170.614 1 243.398 1 1 214.011 208.844 1 1 183.939 118.968 1 1
1523 2525 1114 1369 1945 1865 1647 2444 2268 2097 1952 1464 1884 2927 1580 1884 2355 2208 1999 2630 2325 2545 2355 1884 1884 2927
124 236 124 147 165 167 172 258 240 225 182 123 178 245 110 117 185 206 217 260 233 206 183 165 178 245
1.510 1.532 1.480 1.500 1.580 1.600 1.630 1.650 1.640 1.635 1.580 1.490 1.510 1.536 1.485 1.487 1.530 1.550 1.620 1.640 1.638 1.636 1.580 1.550 1.510 1.536
530 550 400 400 420 430 480 500 490 470 450 430 560 580 450 450 470 480 520 550 550 510 490 480 560 580
1887 1965 1942 1958 1913 1877 1876 1925 1899 1881 1905 1911 2021 2120 1932 2025 2030 2050 2057 2070 2012 2043 2050 2069 2021 2120
e1 154.8 e2 e 156.8 3 155.7 . . 149 . 148.9 144 . . 140.9 144.5 . . 145.4 144.9 . . 142.9 . 141.3 e= 140.7 . . 139.9 140 . . 140.3 137.5 . . 137.4 135.7 . 131.8 . e22 132.4 131.2 e23 e24 130.8 130.7 e25 e 130.3 26
153.7
a 0 1 a a 2 = a 3 a a 4 a 5 6 a
(26, 1) = (26, 7) x (7, 1) + (26, 1) Se formeaz masivele astfel prezentate i se parcurg pe rnd urmtorii pai: 1. matricea transpus X ,
61
Descrierea operaiunilor la fiecare pas este prezentat n continuare: 1. Transpusa matricii X, se obine prin comanda Copy a blocului de celule ce formeaz matricea X, i ntr-o celul liber, se alege comanda Paste Special din meniul Edit cu opiunea Transpose. Matricea X va fi de dimensiunile (7 linii, 26 coloane). 2. Pentru a obine produsul matricilor X X , se tie c X are dimensiunea (7,26), iar X, (26,7), iar matricea produs va fi de dimensiunea (7,7). Se selecteaz un bloc de celule libere format din 7 linii i 7 coloane, apoi cu blocul, unde se va depune rezultatul, astfel selectat, se apeleaz funcia
MMULT(array_1, array_2) pentru nmulirea a dou matrici sau vectori i se declar pe rnd: la array_1, matricea X , iar la array_2, matricea X. Ordinea declarrii masivelor este foarte
important pentru nmulirea lor. Pentru a obine rezultatul matricea produs - se apas simultan pe trei taste <Ctrl/ Shift/ Enter>, eliberndu-se nti tasta Enter i apoi celelalte dou. 3. Inversa matricii produs se obine selectnd nti un bloc de celule libere de 7 linii i 7 coloane, unde se va primi rezultatul operaiei, apoi se apeleaz funcia MINVERSE(array) i se declar la
array, blocul matricii X X de inversat. Se apas simultan pe cele trei taste <Ctrl/ Shift/ Enter>
i se obine instantaneu matricea invers. 4. Pentru a realiza matricea produs ( X X ) X trebuie s se cunoasc dimensiunea sa, pentru a
1
putea selecta nainte de apelul funciei MMULT, blocul de celule libere, care va primi rezultatul. Se tie c matricea ( X X )
1
produs va fi de dimensiunea (7,26). Se selecteaz un bloc de 7 linii i 26 de coloane, se apeleaz funcia de nmulire i se declar la array_1, matricea ( X X ) , iar la array_2, matricea X . La
1
apsarea tastelor <Ctrl/ Shift/ Enter> se obine rezultatul dorit. 5. Pentru a obine vectorul estimatorilor se nmulesc matricile ( X X ) X de dimensiune (7,26) cu
1
libere pe o coloan i 7 linii, se apeleaz funcia MMULT i se declar n ordine matricele de nmulit, se apas <Ctrl/ Shift/ Enter> i se obine vectorul estimatorilor:
62
ee i n k 1
Se determin reziduurile ca diferen ntre valorile observate i valorile teoretice obinute cu modelul
t = 278825.8 + 65.7 x1t + 305.9 x 2t + 217262.8 x 3t + 103.2 x 4t 123.4 x5t + 760.8 x 6t . y
Deoarece modelul este estimat pentru prima dat este de ateptat s nu fie corespunztor, chiar de la nceput. Dispersia reziduurilor este prea mare 93960182. nmulirea unei constante, dispersia reziduurilor, cu matricea ( X X ) 1 se realizeaz nmulind constanta cu toate celulele matricii. Se scrie formula pentru elementul matricii de pe poziia (1,1) i se blocheaz cu simbolul e2 , apoi se copiaz formula pentru toate celulele matricii $, coloana i linia adesei unde se afl rezultate. Pe diagonala principal se afl varianele estimatorilor, iar abaterile acestora se obin extrgnd radicalul de ordinul 2. Se obin urmroarele abateri ale estimatorilor:
Pentru fiecare estimator se calculeaz raia Student t a i =
critic a testului Student pentru un prag de semnificaie =5% i 26-6-1=19 grade de libertate, care
/ 2 = 0.025 este t19 grd .lib . = 2.093. Astfel se verific dac estimatorii sunt semnificativ diferii de 0, ipoteza
alternativ H1. n caz contrar, ipoteza nul, H0, variabilele semnificative corespunztoare nu influeneaz semnificativ variabila dependent y, pentru c estimatorii respectivi pot lua i valoarea 0.
63
Se observ pe Figura 2.14, cum se interpreteaz raiile Student calculate fa de valorile teoretice ale testului bilateral.
H0
H1
1-
H1
- t1-/2 -2.093
+ t1-/2 +2.093
Figura 2.14. Testarea raiilor Student ale estimatorilor 0 , a 4 i a 6 , nu sunt semnificativ diferii de 0 pentru c Se ajunge la concluzia c estimatorii a
ta 4 < 2.093 i se va renuna la variabilele x 4 i x 6 . Toi ceilali estimatori sunt semnificativi diferii de 0, ipoteza alternativ, H1, pentru c t a 4 > 2.093 .
Pentru a verifica aceste calcule se poate utiliza tabela de regresie furnizat de Excel. Declararea variabilelor independente necesit existena unui bloc care s cuprind toate cele ase variabile explicative dispuse pe vertical n coloane adiacente. Tabela de regresie este prezentat n Tabelul 2.2. Informaia Standard Error din prima parte a tabelei de regresie este abaterea reziduurilor e2 , fiind o verificare a valorii obinute e , care ridicat la puterea a 2-a rezult, dispersia erorilor
e2 = prin formula
e
t =1
2 t
n k 1
SUMMARY OUTPUT Regression Statistics Multiple R 0.9855 R Square 0.9712 Adj. R Sq. 0.9622 Std Error 9693.3
64
Observations ANOVA Regression Residual Total Intercept X Variable 1 X Variable 2 X Variable 3 X Variable 4 X Variable 5 X Variable 6
26 SS MS F Signific.F 6 6.028E+10 1.005E+10 106.931 1.31E-13 19 1.785E+10 93960182 25 6.207E+11 Coeff. Std. Error t Stat P-value Low95% -278826 227794.29 -1.2240 0.2359 -755605 65.7 9.849 6.6741 0.0000 45.12 305.9 124.501 2.4568 0.0238 45.29 217262.8 69723.82 3.1160 0.0057 71329 103.2 57.436 1.7964 0.0884 -17.04 -123.4 49.043 -2.5154 0.0210 -226.01 760.8 425.110 1.7896 0.0895 -129.01 df
Tabelul 2.2. Tabela de regresie a modelului econometric iniial cu ase variabile factoriale Se observ c valoarea coeficientului de determinaie 0.9712 este apropiat de 1, artnd c modelul liniar este valid explicnd ntr-o proporie de 97.12% variaia variabilei dependente y de variabilele explicative. Coeficientul de corelaie multipl 0.9855 arat o corelaie puternic ntre variabilele explicative i cea explicat. Valoarea testului Fisher indic o regresie global semnificativ, Significance F, fiind foarte mic. n partea a treia a tabelei de regresie, se regsesc estimatorii obinui prin calcul matriceal, abaterile lor i raiile Student identice cu valorile calculate mai sus. Valorile P-value, indic pragul de semnificaie , de la care ncepnd estimatorii se pot considera semnificativ diferii de 0. 0 , este de Probabilitatea ca estimatorii s fie semnificativi este de 1-. Se poate vedea c pentru a
1 , este 0%, pentru a 2 - este 2.38%, pentru a 3 - este de 0.057%, pentru a 4 - de 23.6%, pentru a
5 - de 2.1% i pentru a 6 - de 8.95%. Deoarece pragul este de obicei de 5%, se va 8.84%, pentru a renuna la variabilele x 4 i x6 , ale cror estimatori depesc aceast valoare a pragului de semnificaie. Intervalele de ncredere pentru =5%, ale acestor estimatori schimb semnul de la - al limitei inferioare Lower 95% la + la limita superioar Upper 95%, fiind cea mai evident dovad a faptului c respectivii estimatori pot lua i valoarea 0. Cu toate c informaiile despre calitatea ajustrii, arat un model foarte bun, totui trebuie s se in seama de semnificaia estimatorilor. O alt variant de model va fi cea prin care se elimin variabilele x 4 i x 6 , care reprezentau capacitatea de ncrcare auto pentru transportul produselor i indicii preurilor de consum, calculai fa de aceeai lun a anului anterior. t = a 0 + a 1 x1t + a 2 x 2t + a 3 x 3t + a 5 x5t . Dup obinerea tabelei de regresie, Noul model va fi: y Tabelul 2.3, se obine modelul: t = 93975.35 + 63.79 x1t + 464.42 x 2t + 122802.3x3t 170.03x5t . y 65
SUMMARY OUTPUT Regression Statistics Multiple R 0.9818 R Square 0.9639 Adj. R Sq 0.9570 Std. Error 10334 Observations 26 ANOVA df Regression 4 Residual 21 Total 25 Coeff. Intercept 93975.3 X Variable 1 63.79 X Variable 2 464.42 X Variable 3 122802 X Var. 4 (x5) -170.03
SS MS F 5.98E+10 1.5E+10 140.05 2.24E+09 1.07E+08 6.21E+10 Std Error t Stat P-value 126814 0.741 0.4668 10.232 6.234 0.000 108.204 4.292 0.000 56579.3 2.170 0.042 38.296 -4.440 0.000
Signif. F 8.0E-15
Tabelul 2.3. Tabela de regresie pentru modelul cu patru variabile explicative Dei indicatorii calitii ajustrii au valori puin mai mici dect n modelul anterior, totui nu s-a pierdut mult din calitatea ajustrii: coeficientul de corelaie multipl este 0.9818 indic o corelaie puternic ntre variabilele explicative i y, coeficientul de determinaie de 0.9639 arat validitatea modelului liniar, iar regresia este global semnificativ, dup testul Fisher din tabelul ANOVA. S-au ctigat, n schimb, valori semnificative pentru toi ceilali estimatori, care sunt semnificativ diferii de 0, dup cum indic raiile Student, n comparaie cu valoarea critic
/ 2 = 0.025 t 21 grd .lib . = 2.080 . Gradele de libertate sunt n-k-1, adic 26-4-1=21, unde k=4.
0 , care arat nivelul mediu al variabilei dependente dac toi factorii, Termenului constant, a nafara celor nregistrai, ar avea o aciune constant, nu este totui semnificativ diferit de 0, dup cum indic valoarea prea mic a raiei Student, P-value prea mare, de 46.68% i intervalul de ncredere care conine valoarea 0. O analiz mai amnunit a sezonalitii, a corelaiilor dintre variabilele explicative, a autocorelaiei erorilor, va ndrepta acest neajuns. Se poate totui n aceast faz, s se renune la t = 62.14 x1t + 434.89 x 2t + 159285.3 x3t 146.89 x5t , va avea toi termenul liber, iar modelul obinut: y estimatorii parametrilor variabilelor explicative semnificativi, cu o probabilitate de aproape 100%, dei se micorez nc puin indicatorii calitii ajustrii: R=0.9812, R 2 = 0.9629 . Valorile teoretice corespunztoare valorilor observate sunt reprezentate n Figura 2.15.
66
300000
250000
nr. peturi
200000
150000
100000
11.99
12.99
01.00 02.00
03.00
04.00 05.00
06.00
07.00 08.00
09.00
10.00 11.00
12.00 01.01
02.01
03.01 04.01
05.01
06.01 07.01
08.01
09.01 10.01
11.01
yt
Figura 2.15. Ajustarea folosind modelul liniar fr constant Regresia este global semnificativ, dar pn nu se parcurg i etapele unei analize mai amnunite, nu se poate stabili care este cel mai bun model. Modelul final, trebuie s respecte ipotezele modelului general de regresie liniar: lipsa autocorelaiei erorilor, variabilele explicative, ct mai puin autocorelate ntre ele.
67
12.01
50000
luni
Contribuia marginal a fiecrei variabile explicative la formarea variabilei y este valoarea coeficientului fiecreia dintre ele. De exemplu, n modelul liniar cu patru variabile t = 62.14 x1t + 434.89 x 2t + 159285.3 x3t 146.89 x5t , se poate explicative, din exemplul anterior: y spune c lunar creterea cu 1 euro a consumului mediu de combustibil conduce la creterea livrrilor lunare, n medie, cu aproximativ 62 de peturi, creterea cu 1 euro a valorii daunelor i pierderilor lunare determin o cretere a livrrilor, n medie, de 435 de peturi, creterea cu un procent a mrfii returnate, poate influena creterea livrrilor, n medie, cu 159285 de peturi, iar creterea cu 1 euro a fondului mediu net de salarii ale personalului distribuitor genereaz o scdere a livrrilor lunare, n medie, cu 147 de peturi. Se observ legtura invers ntre livrrile fizice i fondul de salarii, care pe graficul din Figura 2.12, nu se putea sesiza.
Pentru a compara un parametru cu o valoare fixat a, testul de ipoteze este: H0: ai = a H1: ai a . Pe baza datelor din eantionul extras se calculeaz raportul critic, care urmeaz o lege
Student, i este de forma: t a = i
teoretic numit critic, pentru un prag de semnificaie =5% i n-k-1 grade de libertate. Pentru c testul este bilateral se alege valoarea teoretic Student pentru un prag de semnificaie /2.
/2 Dac t a > tn k 1 , se respinge ipoteza nul H0; se accept ipoteza alternativ H1, ai este i
un prag de semnificaie . Un caz particular este cnd valoarea a=0 i atunci raportul critic devine raia Student
= calculat a estimatorului respectiv, t a i
i a . a i
Se verific semnificaia fa de zero a coeficientului, care nseamn verificarea semnificaiei variabilei explicative, care apare n model, pentru a ti dac aceasta contribuie n mod real la explicarea variabilei endogene y.
68
Tabelul 2.4. Datele referitoare la un agent economic Sunt semnificative variabilele exogene n explicarea variaiei variabilei endogene? S se argumenteze i prin calculul intervalelor de ncredere ale estimatorilor coeficienilor.
Soluie:
n Figurile 2.16, 2.17, i 2.18 sunt prezentate corelaiile dintre variabila dependent, stabilit ca fiind vnzrile de marf, influenat de celelalte variabile, considerate factori.
Corelaia dintre valoarea vnzrilor i numrul de angajai
35 30 25 20 15 10 0
mil. euro
10
12 14 x1 (nr. persoane)
35 30 mil. euro 25 20 15 10 25
30
35
40
x2 (euro)
45
110
120
130
140
150
160
170 x3 (euro)
180
Figura 2.18. Legtura direct dintre valoarea vnzrilor i cheltuielile de publicitate Se observ n cele trei grafice, legturile de natur direct, ale valorii vnzrilor cu numrul de angajai i cheltuielile de publicitate i de sens invers cu cheltuielile de ntreinere a utilajelor. Cu ct sunt mai mari aceste cheltuieli de ntreinere, cu att se reduc vnzrile din cauza stagnrilor n producie pentru repararea utilajelor, creterii costurilor de fabricaie i implicit a preurilor de vnzare a produselor, reducerii altor cheltuieli, cum ar fi cele de aprovizionare cu materii prime i materiale, salariile personalului angajat, etc.
70
SUMMARY OUTPUT Regression Statistics Multiple R 0.8383 R Square 0.7027 Adj. R Square 0.6135 Std. Error 2.5971 Observations 14 ANOVA df SS Regression 3 159.4095 Residual 10 67.4477 Total 13 226.857 Coeff. Std Err Intercept 35.722 10.994 X Variable 1 0.802 0.298 X Variable 2 -0.3814 0.156 X Variable 3 -0.037 0.052
F 7.87
Signif. F 0.005
Tabelul 2.5. Tabela de regresie a modelului cu trei variabile explicative Tabela de regresie este prezentat n Tabelul 2.5. n urma analizei de regresie, se ateapt un coeficient negativ pentru variabila explicativ a cheltuielilor de ntreinere a utilajelor, x2 i coeficieni pozitivi pentru celelalte dou variabile independente x1 i x3. Modelul este: t = 35.72 + 0.802 x1 0.381x 2 0.037 x3 , y iar valorile teoretice, yt1, se afl n Tabelul 2.4 i pe acelai grafic care arat evoluia n timp a valorilor observate, n Figura 2.19.
35 30 mil. euro 25 20 15 10
1 2 3 4 5 6
y
Evoluia vnzrilor
8
yt1
10
yt2
11
12
13
14
luni
i a , se compar cu a i
/ 2 = 0.025 valoarea teoretic Student pentru =5% i 10 grade de libertate, t10 grd .lib . = 2.228 .
71
variabilei y;
2 0 , variabila x2 contribuie la explicarea variaiei ta 2 = 2.435 > 2.228 , rezult c a
variabilei y;
3 = 0 , variabila x3 nu contribuie la explicarea variaiei ta 3 = 0.714 < 2.228 , rezult c a
variabilei y, i poate fi retras din model. 3 , indic Se poate vedea n tabela de regresie din Tabelul 2.5 c P-value pentru estimatorul a un prag de semnificaie de 49%, care este mult prea mare. Intervalul de ncredere al coeficientului ai se stabilete n funcie de valoarea estimatorului, estimaia abaterii sale i valoarea teoretic Student pentru un prag de semnificaie ales, de obicei
=5%:
/2 /2 i a i + a ICa i = [a i t grd .lib . ; a i t grd .lib . .
Intervalele de ncredere pentru cei trei estimatori ai coeficienilor variabilelor explicative sunt:
ICa1 : [0.137 ; 1.467] , semnul + indic legtura direct dintre y i x1; ICa 2 : [ 0.730 ; 0.032] , semnul - indic legtura invers dintre y i x2 (Figura 2.17);
3 poate lua valoarea 0, nu este ICa3 : [ 0.153 ; 0.079] , se schimb semnul de la - la +, a semnificativ diferit de 0. Numai variabilele x1 i x2 sunt variabile exogene semnificative. Pentru noul model cu dou variabile explicative, se obine tabela de regresie prezentat n
Tabelul 2.6. Valorile teoretice calculate cu acest model: t = 29.143 + 0.715 x 0.328 x 2 y se af n Tabelul 2.4 i n Figura 2.19.
SUMMARY OUTPUT Regression Statistics Multiple R 0.8292 R Square 0.6875 Adj. R Sq. 0.6307 Std Error 2.538 Observations 14 ANOVA df Regression 2 Residual 11 Total 13 Coeff. Intercept 29.143 X Variable 1 0.715 X Variable 2 -0.32811
Signif. F 0.0016 Low 95% 16.25 0.13 -0.6243 Upp 95% 42.03 1.30 -0.0319
72
Se poate observa c acest model are coeficienii semnificativ diferii de 0, dup cum indic raiile Student calculate, care sunt mai mari dect valoarea teoretic din tabela Student, valorile Pvalue, care sunt mai mici dect 5%, precum i intervalele de ncredere ale coeficienilor, care nu
schimb semnul de la limita inferioar la cea superioar, deci nu conin valoarea 0. Intervalele de ncredere sunt:
ICa 0 : [16.25 ; 42.03] , ICa1 : [0.129 ; 1.301] , ICa 2 : [ 0.624 ; 0.032] .
Coeficientul de determinaie de 68.7% indic validitatea modelului liniar, iar coeficientul de corelaie multipl de 0.83 indic o corelaie puternic ntre cele trei variabile y, x1 i x2.
(y
t =1 n
y)2 t )2 y y)2
F=
SSE/ k SSR/(n k 1)
(y
t =1 n
(y
t =1
Tabelul 2.7. Tabelul ANOVA la regresia multipl Testul de semnificaie global a regresiei se formuleaz astfel: exist cel puin o variabil explicativ semnificativ? Ipotezele sunt: H0: a1 = a2 = ... = ak = 0 (toi coeficienii sunt nuli, nici o variabil explicativ nu i aduce contribuia la explicarea variabilei y; termenul constant a0 nu prezint interes, deoarece un model n care numai termenul constant este semnificativ, nu are sens economic.) H1: exista cel puin un coeficient nenul. n cazul n care se accept H0 nseamn c nu exist nici o relaie liniar semnificativ ntre variabila y i variabilele xi cu i=1,2, ..., k. Testarea H0 este echivalent cu a testa dac variana SSE este semnificativ diferit de 0. n cazul exerciiului prezentat, tabelul de analiza varianei pentru modelul cu dou variabile explicative, dup eliminarea variabilei nesemnificative x3, este extras din Tabelul 2.6, n Tabelul 2.8:
73
df 2 11 13
MS 77.98663 6.44399
F 12.10223
Significance F 0.001665
Tabelul 2.8. Tabelul ANOVA pentru modelul cu dou variabile explicative Ipoteza de normalitate a erorilor implic, sub ipoteza H0, c statistica F* urmeaz o lege Fisher cu k i n-k-1 grade de libertate. F * = SSE / k = 12.10 se compar cu o valoare SSR /(n k 1)
teoretic Fisher cu 2 i 11 grade de libertate, care pentru un prag de semnificaie =5% este
Fk,n=5k% 1 = 3.98. Cum F * > Fteoretic se accept ipoteza alternativ, H1, deci regresia este global
semnificativ, modelul este bine construit. Valoarea calculat F* corespunde unui prag de semnificaie de 0.16%, mult mai mic dect 5%. i regresia prezentat n Tabelul 2.5, cu trei variabile explicative, este global semnificativ
=5% = 3.71 , iar valoarea calculat F*=7.87>3.71, pentru un prag de semnificaie de pentru c F3 ,10
0.54%. Numai cnd modelul are termen constant, F* se poate scrie n funcie de coeficientul de determinaie R2. Din relaia: R 2 = SSE , se poate exprima: SSE = SST R 2 , iar SSR se poate SST SSR , SSR = SST (1 R 2 ) . SST
nlocuind n formula statisticii F*, valorile astfel exprimate SSE i SSR, se simplific cu SST i rmne astfel: F * = R2 / k . (1 R 2 ) /(n k 1)
Pe lng testul global de semnificaie, se efectueaz testele de semnificaie individual a coeficienilor pentru fiecare variabil explicativ din model. Calitatea ajustrii se determin n funcie de coeficientul de determinaie: R 2 = SSE . Dac SST
R 2 1 nseamn c variana total SST, este aproape n ntregime explicat de SSE, i modelul
este bine ales. Coeficientul de determinaie multipl: R = R 2 , arat intensitatea corelaiei simultane a variabilelor explicative asupra variabilei dependente y.
74
Se calculeaz: F * =
variabile explicative, inclusiv cele adugate din modelul cel mai cuprinztor, iar k este numrul iniial de variabile explicative, k<k. Regula de decizie este: F * < Fk k ,n k 1 se accept H0, nu este nici o diferen ntre cele dou modele i introducerea
variabilelor suplimentare nu mbuntete calitatea ajustrii; - F * > Fk k ,n k 1 se accept H1, introducerea variabilei sau variabilelor suplimentare a contribuit la o mai bun explicare a varianei variabilei endogene.
75
Se calculeaz valoarea Fisher, considernd n1, numrul de observri n prima subperioad i n2, numrul de observri n a doua subperioad, iar suma lor n1 + n 2 = n , este numrul total de observri din modelul iniial: [ SSR ( SSR 1 + SSR 2 )] /[(n k 1) (n1 k 1) (n2 k 1)] F* = = ( SSR 1 + SSR 2 ) /[(n1 k 1) + (n2 k 1)] = [ SSR ( SSR 1 + SSR 2 )] /(k + 1) ( SSR 1 + SSR 2 ) /[n 2(k + 1)]
Regula de decizie: - F * Fk+1,n 2( k +1) se accept H0, nu este nici o diferen ntre variana reziduurilor calculat pe ntreaga perioad i suma varianelor reziduurilor calculate pe subperioade; coeficienii sunt stabili pe ntreaga perioad; F * > Fk+1,n 2( k +1) se accept H1, exist diferene semnificative ntre variana reziduurilor pe
ntreaga perioad i suma varianelor reziduurilor pe subperioade; coeficienii nu sunt constani; modelul este instabil.
(0.052)
76
1. Calculul varianei totale, a celei explicate i a celei reziduale pentru modelul complet cu trei variabile explicative. Aceste valori se gsesc n tabela de regresie din Tabelul 2.5: SSE=159.409 SSR= 67.448 SST=226.857 2. Calculul varianei totale, a celei explicate i a celei reziduale pentru modelul cu o singur variabil explicativ, x1. Aceste valori se gsesc n tabela de regresie din Tabelul 2.9: SSE=117.659 SSR=109.198 SST=226.857 SST este evident aceeai, indiferent de numrul variabilelor explicative, pentru c msoar variaia datorat tuturor factorilor (nregistrai i reziduali). Se observ c R2=0.5186 este mai mic dect n cazul modelului iniial, cu trei variabile explicative.
SUMMARY OUTPUT Regression Statistics Multiple R 0.7202 R Square 0.5186 Adjusted R 0.4785 Square Standard 3.0166 Error Observations 14 ANOVA df Regression 1 Residual 12 Total 13 Coeff. Intercept X Variable 1
SS MS F Signifi. F 117.6589 117.6589 12.92975 0.0036 109.1983 9.099855 226.8571 Standard t Stat P-value Lower Error 95% 15.559 2.147 7.247 1.02E-05 10.882 1.0118 0.281 3.596 0.003674 0.399
Tabelul 2.9. Tabele de regresie a modelului cu o singur variabil explicativ 3. Testul statistic asupra ipotezelor: H0: SSE-SSE1=0 H1: SSE-SSE1 0 Valoarea calculat Fisher este:
F* = ( SSE SSE 1) /(k k 1 ) (159.409 117.659) /(3 1) = 3.09 = 67.448 /(14 3 1) SSR /(n k 1)
= 5% = 5% Fk k 1 ,n k 1 = F3 = 4.10 1,14 31 = F2 ,10
77
Cum 3.09 < 4.10, rezult c se accept ipoteza nul H0, adugarea variabilelor x2 i x3 nu este important. Introducerea acestor variabile nu contribuie semnificativ la mbuntirea calitii ajustrii. S-a discutat deja mai sus, i se poate vedea n tabela de regresie din Tabelul 2.5, c variabila x3, nu este semnificativ, deoarece raia sa Student este mai mic dect valoarea teoretic, fapt care a condus apoi la excluderea sa din model. Este interesant s se analizeze, dac introducerea unei singure variabile suplimentare, i anume x2, mbuntete calitatea ajustrii. Se vor parcurge aceeai pai, ca cei prezentai mai sus: calculul varianei totale, a celei explicate i a celei reziduale pentru modelul cu dou variabile explicative, x1 i x2: SSE=155.973 SSR= 70.884 SST=226.857 calculul varianei totale, a celei explicate i a celei reziduale pentru modelul cu o singur variabil explicativ, x1. Tabela de regresie este n Tabelul 2.9. SSE=117.659 SSR=109.198 SST=226.857 Valoarea calculat Fisher este:
F* = ( SSE SSE 1) /(k k 1 ) (155.973 117.659) /(2 1) = 5.946 = 70.884 /(14 2 1) SSR /(n k 1)
= 5% = 5% Fk k 1 ,n k 1 = F2 = 4.84 1,14 2 1 = F1,11
Cum 5.946 > 4.84, rezult c se respinge ipoteza nul H0, i se accept ipoteza alternativ, H1, conform creia adugarea variabilei x2 aduce o modificare semnificativ a varianei explicate. Introducerea variabilei x2 contribuie semnificativ la mbuntirea calitii ajustrii. Acest fapt este dovedit i de valoarea coeficientului de determinaie, care n cazul modelului cu dou variabile explicative este R2=0.6875 mai mare dect n modelul cu o singur variabil explicativ, x1, R2=0.5186. b) Testul Chow pentru verificarea stabilitii n timp a modelului Se va testa stabilitatea modelului cu trei variabile explicative. Pasul 1: se estimeaz coeficienii modelului pentru prima subperioad, de la 1 la 7. Tabela de regresie obinut este prezentat n Tabelul 2.10.
78
SUMMARY OUTPUT Regression Statistics Multiple R 0.8322 subperioada 1 R Square 0.6926 Adj. R Sq. 0.3851 Std. Error 3.0176 Observations 7 ANOVA df SS MS F Regression 3 61.5396 20.5132 2.2527 Residual 3 27.3176 9.1059 Total 6 88.8571 Coefficients Std.Error t Stat P-value Intercept 28.5471 15.8986 1.7956 0.1704 X Variable 1 0.7739 0.5290 1.4629 0.2397 X Variable 2 -0.2932 0.3137 -0.9346 0.4189 X Variable 3 -0.0125 0.1008 -0.1240 0.9091
Significance F 0.2610 Lower 95% -22.0494 -0.9097 -1.2914 -0.3333 Upper 95% 79.1436 2.4575 0.7051 0.3083
Tabelul 2.10. Tabela de regresie pentru prima subperioad de la 1 la 7 Se observ n Tabelul 2.10, c nici unul din coeficienii de regresie nu este semnificativ diferit de 0, valorile P-value sunt mai mari dect pragul acceptat de 0.05, toate intervalele de ncredere ale estimatorilor coeficienilor schimb semnul de la la +, deci conin valoarea 0. Nici testul Fisher nu indic o regresie global semnificativ, Significance F avnd o valoare mult prea mare, 26.1% fa de 5%, ct se accept n mod obinuit. Varianele din tabelul ANOVA sunt: SSE1=61.54 SSR1=27.32 SST2=88.86 Pasul 2: se estimeaz coeficienii modelului pentru a doua subperioad, de la 8 la 14; tabela de regresie se afl n Tabelul 2.11.
SUMMARY OUTPUT Regression Statistics Multiple R 0.7375 subperioada 2 R Square 0.5439 Adjusted R Square 0.0877 Standard Error 2.6282 Observations 7 ANOVA df SS MS F Significance F Regression 3 24.7067 8.2356 1.1923 0.44423 Residual 3 20.7219 6.9073 Total 6 45.4286 Coefficients Std.Error t Stat P-value Lower 95% Intercept 63.1390 34.3309 1.8391 0.1632 -46.1175 X Variable 1 1.2282 0.6852 1.7924 0.1710 -0.9525 X Variable 2 -0.6208 0.5224 -1.188 0.3201 -2.2832 X Variable 3 -0.1843 0.1528 -1.206 0.3142 -0.6707
Concluzia este asemntoare cu cea de la prima subperioad: c nici unul din coeficienii de regresie nu este semnificativ, intervalele de ncredere ale estimatorilor coeficienilor conin valoarea 0, testul Fisher nu indic o regresie global semnificativ. Varianele din tabelul ANOVA, corespunztor celei de a 2-a subperioade, sunt: SSE2=24.71 SSR2=20.72 SST2=45.43 Pasul 3: se calculeaz valoarea Fisher: F* = [ SSR ( SSR 1 + SSR 2 )] /(k + 1) . ( SSR 1 + SSR 2 ) /[n 2(k + 1)]
F* =
[67.448 (27.32 + 20.72)] /(3 + 1) (67.448 48.04) / 4 = = 0.606 (27.32 + 20.72) /[14 2(3 + 1)] 48.04 / 6
=5% = 5% Fk+1,n 2( k +1) = F3 = 4.53 . +1,14 2 ( 3+1) = F4 , 6
Cum 0.606 < 4.53, rezult c se accept ipoteza nul, H0, adic nu exist diferene semnificative ntre variana reziduurilor pe ntreaga perioad i suma varianelor reziduale pe cele dou subperioade. Se poate accepta stabilitatea coeficienilor pe ntreaga perioad.
80
t + h este nedeplasat i se obine Conform ipotezelor modelului liniar general, previziunea y prin aplicarea direct a modelului de regresie estimat. Se calculeaz variana erorii de previziune, care permite determinarea unui interval de ncredere pentru previziune. Aceast varian se calculeaz astfel:
e2 = 2 [ X t+ h ( X X ) 1 X t + h + 1]
t +h
X t +h
Eroarea de previziune et + h urmeaz o lege normal de medie 0 i varian e2t + h , N(0, e2t + h ). 2 , se deduce c raportul: nlocuind variana erorilor 2 cu variana estimat, cea a reziduurilor
t +h yt +h y 2 [ X t+ h ( X X ) 1 X t + h + 1]
urmeaz o lege Student cu n-k-1 grade de libertate, unde k este numrul variabilelor explicative din model. Intervalul de ncredere pentru un prag de semnificaie de ,
/2 2 1 X t + h + 1] . t +h t n este: ICy t + h = y k 1 [ X t + h ( X X )
Tabela de regresie din Tabelul 2.6 arat c estimatorii coeficienilor sunt toi semnificativi diferii de 0. Previziunile pentru lunile 15 i 16 se obin direct prin nlocuirea n model a valorilor variabilelor explicative. Varianele reziduurilor sunt:
( X X ) 1 X 15 + 1] i ( X X ) 1 X 16 + 1] . e2 = 2 [ X 15 e2 = 2 [ X 16
15 16
Se calculeaz ( X X ) 1 , fr a se considera i valorile viitoare pentru lunile 15 i 16, ci numai numrul de observri ale celor dou variabile explicative care intr n estimarea modelului:
99 490 14 X X = 99 815 3361 ; 490 3361 17600 ( X X ) 1 5.3223 - 0.1668 - 0.1163 = - 0.1668 0.0110 0.0025 . - 0.1163 0.0025 0.0028
e2
15
5.3223 - 0.1668 - 0.1163 1 = 2.5385 2 (1 3 24) - 0.1668 0.0110 0.0025 3 + 1 = 11.738 ; - 0.1163 0.0025 0.0028 24
e = 3.426 .
15
2 e16
5.3223 - 0.1668 - 0.1163 1 = 2.5385 (1 6 38) - 0.1668 0.0110 0.0025 6 + 1 = 7.043 ; - 0.1163 0.0025 0.0028 38
2
e = 2.654 .
16
Valorile punctuale ale variabilei dependente sunt: 15 = 29.143 + 0.715 3 0.328 24 = 23.41 y 16 = 29.143 + 0.715 6 0.328 38 = 20.96 . y Intervalele de ncredere ale previziunilor sunt:
0.025 15 t11 e15 = 23.41 2.201 3.426 , ICy15 = [15.87 ; 30.95] ; ICy15 : y 0.025 16 t11 e16 = 20.96 2.201 2.654 , ICy16 = [15.12 ; 26.80] . ICy16 : y
82
30
mil. euro
25
20
15
10 1 2 3 4 y 5 6 7 yt 8 9 10 11 12 13 14 15 16 lim.inf. lim.sup.
luni
n Figura 2.20 sunt prezentate valorile teoretice care ajusteaz seria iniial i previziunile pentru urmroarele dou perioade, precum i intervalul de ncredere care la cuprinde. Pentru a putea reprezenta limitele inferioar i superioar se creaz dou serii de date identice cu cea ajustat i se completeaz cu limitele inferioare, respectiv superioare, ale celor dou intervale de ncredere. Se are n vedere reprezentarea cu acelai tip de marcator ale celor trei serii: ajustat, a limitelor inferioare i a limitelor superioare ale intervalelor de ncredere, acestea dou din urm suprapunndu-se peste valorile ajustate, pn n luna a 14-a.
83
Rezumat:
Aceast capitol prezint modelul regresiei multiple, ipotezele de lucru, estimarea coeficienilor modelului, intervalele lor de ncredere, testarea semnificaiei estimatorilor modelului, testarea semnificaiei globale a regresiei, construirea de teste pentru verificarea validitii modelului i a stabilitii sale, previziunea cu modelul regresiei multiple. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.
Termeni importani:
Model de regresie multipl, estimatorii modelului de regresie multipl, ipotezele modelului de regresie multipl, testul F de verificare a semnificaiei globale a regresiei, ANOVA, testul Chow
ntrebri recapitulative
1. Enumerai ipotezele modelului de regresie multipl 2. Scriei modelul de regresie pe baza unei tabelei de regresie multipl. 3. n ce const testul Chow? 4. Cum stabilii daca estimatorii modelului sunt semnificativ diferii de zero? 5. Reprezentai tabelul de analiz a varianei ANOVA si testul F pentru regresia multipl. 6. Cum se construiesc intervalele de ncredere ale estimatorilor? Dar ale valorilor previzionate? 7. Cum apreciai validitatea unui model de regresie multipl?
Teme de cas
Parcurgei exemplele din curs utiliznd calculatorul; realizai graficele i tabela de regresie. Sa se stabileasc matriceal estimatorii modelului de regresie multipl.
84
CAPITOLUL 3
Tema Obiectivele
MULTICOLINIARITATEA I SELECIA VARIABILELOR EXPLICATIVE 1. Corelaia parial, n modelele econometrice 1.1. Calculul coeficienilor de corelaie parial 1.2. Exerciiu Calculul coeficienilor de corelaie parial 2. Multicoliniaritatea 2.1. Consecinele multicoliniaritii 2.2. Detectarea multicoliniaritii 2.3. Remedierea multicoliniaritii 3. Selecia variabilelor explicative 3.1. Exerciiu Metode de selecie a variabilelor explicative 1. Estimarea coeficienilor de corelaie parial 2. Eliminarea din modelul de regresie multipl a variabilelor explicative multicoliniare 3. Cunoaterea i aplicarea metodelor de selecie a variabilelor explicative - citire/nvare - ntrebri, probleme ce apar, explicaii - definiii, explicaii ce trebuie reinute - situaii economice concrete, supuse analizei, exemple (sub lup) - teme de cas, aplicaii practice pentru studeni - parcurgerea aplicaiilor propuse 1. Pentru cunoaterea problemei: 3 ore 2. Pentru rezolvarea temelor: 4 ore + timpul de documentare
85
Coeficientul de corelaie parial msoar legtura dintre dou variabile n timp ce influena celei de a treia este meninut constant (retras). Coeficienii de corelaie parial se interpreteaz la fel ca i coeficienii de corelaie simpl. Coeficienii de corelaie parial se situeaz n intervalul [-1, 1]. Valorile apropiate de 1arat o corelaie parial mare, iar valorile apropiate de 0, o corelaie parial mic. Cu ct un coeficient de corelaie parial este mai mare cu att contribuia variabilei respective este mai important la explicarea global a modelului. are expresia r2yx1.x2, de exemplu, i semnific
proporia din variaia variabilei y neexplicat de variabila x2, care este explicat prin considerarea
86
Explicarea grafic a coeficienilor de corelaie poate contribui la mai buna nelegere a coninutului lor. Fie un model cu dou variabile explicative:
0 + a 1 x 1t + a 2 x 2 t + et . yt = a
n Figura 3.1 se prezint trei situaii posibile de interaciune ntre variabila dependent y i cele dou variabile explicative considerate n model: variabilele x1 i x2 sunt independente ntre ele i fiecare influeneaz variaia variabilei y, cazul a); n cazul b) variabilele x1 i x2 sunt interdependente, ambele pot influena variabila y, sau numai una din ele, care la rndul ei se af n interdependen cu cealalt variabil explicativ. Se spune despre variabile c sunt coliniare; se poate manifesta fenomenul de multicoliniaritate.
y x1
x2 x1
y x2 x1
x2
Figura 3.1. Reprezentarea grafic a unor tipuri de relaii ntre variabile n cazul a) se pot calcula coeficieni de corelaie simpl: ryx1 - ntre y i x1 i ryx2 - ntre y i x2. Coeficientul de determinaie este n acest caz: R2yx1x2 = r2yx1 + r2yx2, iar coeficientul de corelaie
2 2 multipl este: R yx1x 2 = ryx 1 + ryx 2 .
Pe grafic coeficientul de determinaie este suma suprafeelor de intersecie dintre y i x1, respectiv dintre y i x2. Coeficienii de corelaie parial sunt: ryx1.x2 = ry.x1 ; ryx2.x1 = ryx2. n cazul b) variabilele explicative sunt interdependente i coeficientul de determinaie este suma suprafeelor de intersecie dintre: y i x1 separat, fr zona influenei comune a lui x1 i x2 asupra lui y, y i x2 separat, fr zona influenei comune a lui x1 i x2 asupra lui y, y, x1 i x2, zona de influen simultan a celor dou variabile explicative asupra lui y. Pentru calculul coeficientului de determinaie, respectiv a coeficientului de corelaie multipl, trebuie s se elimine interinfluena dintre variabilele explicative, din suma coeficienilor de determinaie a variabilelor explicative.
87
Generaliznd noiunea de corelaie parial, pentru modelul cu k variabile explicative, se poate spune c un coeficient de corelaie parial msoar legtura dintre dou variabile, n timp ce influena uneia sau mai multor variabile este meninut constant (retras). Numrul variabilelor a cror influen se retrage, stabilete ordinul coeficientului de corelaie parial respectiv. Coeficienii de corelaie simpl se mai numesc de coeficieni de corelaie de ordinul 0. ntr-un model cu k variabile explicative, ordinul maxim pn la care se pot calcula coeficieni de corelaie parial este k1, deoarece nu se poate retrage influena tuturor variabilelor explicative. Fie y, variabila de explicat i x1, x2, x3, variabilele explicative (k = 3). Coeficienii de determinaie pentru regresiile dintre y i fiecare variabil explicativ considerat separat, sunt R2yx1, R2yx2, R2yx3. Acetia sunt egali cu coeficienii de corelaie simpl ridicai la ptrat, deoarece legtura este liniar. Se pot scrie r2yx1, r2yx2, r2yx3 i arat proporia cu care contribuie fiecare din variabilele exogene la explicarea varianei lui y. Se pot calcula 6 coeficieni de corelaie parial de ordinul 1: ryx1.x2 ; ryx1.x3 ; ryx2.x1 ; ryx2.x3 ; ryx3.x1 ; ryx3.x2 ; i 3 coeficieni de corelaie parial de ordinul 2: ryx1.x2x3 ; ryx2.x1x3 ; ryx3.x1x2 ; Ultimul ordin pn la care se pot calcula coeficienii de corelaie parial, este 2, cnd k=3.
e) calculul coeficientului de corelaie simpl ntre e1 i e2: r2yx3.x1x2=r2e1e2. Coeficientul de corelaie parial este coeficientul de corelaie simpl al reziduurilor obinute.
88
B) - pornind de la testul Student. Aceast metod se utilizeaz numai pentru calculul coeficienilor de corelaie parial de ordinul k-1. ntr-un model cu k variabile explicative, exist urmtoarea relaie ntre raiile Student calculate, ale estimatorilor coeficienilor de regresie ai variabilelor explicative i coeficienii de corelaie parial de ordinul k-1: r2yxi.(celelalte
k-1 variabile)
t i2 , unde ti reprezint raia Student empiric pentru variabila xi a crei influen asupra t i2 + (n k 1) lui y, se analizeaz.
Pentru seriile de date din Tabelul 3.1. s se calculeze cte un coeficient de corelaie parial pentru fiecare ordin: ryx3.x1, ryx3.x1x2, ryx3.x1x2x4.
y 9.5 10.7 11.5 12.5 13.3 15.3 16.8 18.8 19.5 21.5
x1 83.7 88.8 100.7 105.5 118.5 131.4 148.5 162 174.5 185.3
x4 92.5 95.6 97.5 97.4 100.2 101.4 104.6 109.8 111.5 112.2
Coeficientul de corelaie parial de ordinul 1: ryx3.x1 se obine prin parcurgerea urmtorilor pai: a) regresia lui y = f(x1), prezentat n Tabelul 3.2:
89
SUMMARY OUTPUT Regression Statistics Multiple R 0.9969 R Square 0.9939 Adjusted RSquare 0.9931 Standard Error 0.3391 Obs. 10 ANOVA df SS MS F SignificanceF Regression 1 149.4443 149.4443 1299.89 3.84E-10 Residual 8 0.9197 0.1150 Total 9 150.364 Coefficients Std.Error t Stat P-value Lower 95% Intercept 0.3463 0.4187 0.8270 0.4322 -0.6193 XVariable1 0.1124 0.0031 36.0540 0.0000 0.1052
SUMMARY OUTPUT Regression Statistics Multiple R 0.9780 R Square 0.9565 Adj. R Sq. 0.9510 Standard Error 1.8269 Obs. 10 ANOVA df SS MS F Regression 1 586.57 586.5766 175.7572 Residual 8 26.7 3.3374 Total 9 613.27 Coefficients Std.Error t Stat P-value Intercept 73.267 2.2561 32.47 0.0000 XVariable1 0.223 0.0168 13.26 0.0000
Significance F 1E-06
90
t (x1) y 9.8 10.3 11.7 12.2 13.7 15.1 17.0 18.5 20.0 21.2
e1t -0.25 0.38 -0.16 0.30 -0.36 0.19 -0.23 0.25 -0.45 0.33
3 t (x1) x 91.9 93.0 95.7 96.8 99.6 102.5 106.3 109.3 112.1 114.5
e2t 0.60 0.57 0.82 -2.75 0.56 -1.02 -0.92 3.47 0.49 -1.81
e)
calculul re1e2 = ryx3.x1, prin formula prezentat anterior la paragraful 3.3, punctul e) sau
realiznd regresia dintre cele dou serii de date e1 i e2, e1 = f(e2) sau mai simplu, folosind funcia CORREL pentru cele dou serii de reziduuri, se afl coeficientul lor de corelaie simpl, care este egal cu cel de corelaie parial cutat. Extrgnd radicalul din R Squared = 0.04296, se obine coeficientul de corelaie dintre cele dou variabile, cu semnul coeficientului de regresie. Deoarece coeficientul de regresie a1, din regresia e1t = a0 + a1e2t + vt, este negativ, rezult c: re1e2 = - 0.20728 i ryx3.x1= - 0.20728, iar coeficientul de determinaie parial este r2yx3.x1 = 0.04296, o valoare destul de mic, care indic o proporie foarte mic din variana neexplicat de x1 i explicat de x3. Coeficientul de corelaie parial al variabilei x3 asupra variabilei dependente y, cnd se retrage influena variabilei x1 indic lipsa corelaiei dintre y i x3. Valoarea acestui coeficient se obine cel mai simplu folosind funcia CORREL, al crei argument l constituie cele dou serii de reziduuri, indiferent de ordinea lor. Pentru a efectua o analiz mai amnunit a legturilor dintre y, x1, i x3, se pot interpreta corelaiile, deja existente, indicate de Multiple R, n Tabelele 3.2 i 3.3: - ntre y i x1, considerat separat, este o corelaie puternic ryx1=0.99690.997, - ntre y i x3, considerat separat, exist deasemenea o legtur puternic, care se poate obine uor prin efectuarea regresiei y=f(x3), n urma creia R2yx3=0.944, iar radicalul din acesta este coeficientul de corelaie simpl ryx3=0.9716 0.972; - ntre x1 i x3, este o corelaie puternic rx1x3 = 0.9779 0.978;
91
Coeficientul de corelaie parial ryx3.x1=-0.20728, arat legtura dintre y i x3, meninnduse constant influena lui x1; r2yx3.x1 = 0.04296 arat ct din variana lui y este explic x3 din variana rmas neexplicat de x1; valoarea foarte mic provine din faptul c x1 i x3 sunt puternic corelate pozitiv ntre ele. Urmnd procedura de mai sus se poate calcula i coeficientul de corelaie parial dintre y i x1, cnd se elimin influena lui x3: ryx1.x3= + 0.9462. Valoarea apropiat de 1 a acestui coeficient, indic o influen puternic a variabilei x1 asupra variabilei dependente y, dar n acelai timp exist o puternic legtur ntre x1 i x3. Pentru c ryx 3 < ryx1 , ambii coeficieni sunt de acelai semn pozitiv, artnd corelaii de intensitate mare asupra variabilei y, atnci ryx3. x1 < ryx1. x 3 i este firesc ca ryx1. x 3 > 0 indicnd o
legtur puternic, iar ryx 3. x1 < 0 , indic o intensitate slab a corelaiei pariale. Graficul acestor
corelaii, fr a analiza i legturile cu celelalte variabile, ar putea fi, cel din Figura 3.2:
x3
x1
Figura 3.2. Corelaii pariale ale variabilelor x1 i x3 asupra variabilei y Pe graficul din Figura 3.2 se poate vedea c suprafaa influenei dintre y i x1 este mai mare ca cea dintre y i x3, chiar cu poriunea haurat care reprezint coeficientul de determinaie parial
r2yx3.x1, variaia rmas ntre y i x3, dup ce s-a eliminat influena variabilei x1 i explicat de x3.
Suprafaa dintre y i x1, dup ce s-a eliminat influena lui x3, msurat prin r2yx1.x3 este mai mare.
92
SUMMARY OUTPUT Regression Statistics Multiple R 0.9970 R Square 0.9940 Adjusted R Square 0.9922 Std Error 0.3603 Observations 10 ANOVA df SS Regression 2 149.4551 Residual 7 0.9089 Total 9 150.364 Coefficients Std.Error Intercept 0.5079 0.7141 X Variable 1 0.1060 0.0221 X Variable 2 0.0179 0.0617
MS F 74.7276 575.5485 0.1298 t Stat 0.7113 4.7976 0.2894 P-value 0.4999 0.0020 0.7806
Signif. F 1.72E-08
F 76.91
Signif. F 1.72E-05
Coeficientul de corelaie multipl Rx3x1x2=0.978, arat o legtur puternic ntre x3 i x1, x2.
3 t i reziduurile e2t = x3t x 3 t = x3t (73.39 + 0.218x1t +0.014x2t). d) valorile x
93
t (x1,x2) y 9.7 10.3 11.6 12.2 13.7 15.2 17.0 18.6 19.9 21.1
e1t
-0.2 0.4 -0.1 0.3 -0.4 0.1 -0.2 0.2 -0.4 0.4
3 t (x1,x2) x 91.9 93.0 95.7 96.8 99.7 102.6 106.3 109.3 112.1 114.5
e2t
0.6 0.6 0.8 -2.8 0.5 -1.1 -0.9 3.5 0.5 -1.8
Tabelul 3.7. Valorile teoretice i reziduurile celor dou regresii e) calculul re1e2 = ryx3.x1x2, prin formula prezentat anterior, realiznd regresia dintre cele dou serii de date e1 i e2, e1 = f(e2) sau cu funcia CORREL. Rezult c: re1e2 = -0.2102; ryx3.x1x2 = -0.2102, iar coeficientul de determinaie parial r2yx3.x1x2 =
ryx3 = 0.972. Se poate trage concluzia c variabilele x1, x2 i x3 sunt puternic corelate ntre ele i
fiecare din ele separat cu y. Concluzia este c ntre y i x3 nu exist corelaie, dac se retrag variabilele x1 i x2.
Coeficientul de corelaie multipl Ryx1x2x4 = 0.997, arat legtura puternic ntre y, x1, x2, x4.
t i e1t = yt y t = yt (-2.561+ 0.098x1t+0.019x2t + 0.040x4t); b) valorile y
F 80.14
Signif. F 3.13E-05
Lower Upper 95% 95% -118.1427 84.9859 -0.3708 0.3379 -0.6132 0.7123 -0.1463 2.4749
Tabelul 3.9. Tabela de regresie x3 = f(x1, x2, x4) Coeficientul de corelaie multipl Rx3x1x2x4 = 0.987, arat legtura puternic ntre x3, x1, x2, x4.
3 t i e2t = x3t x 3 t = x3t - (-16.578 - 0.016x1t + 0.049x2t + 1.164x4t). d) valorile x
e) calculul re1e2 = ryx3.x1x2x4, prin formula prezentat anterior, realiznd regresia dintre cele dou serii de date e1 i e2, e1 = f(e2) sau cu funcia CORREL aplicat serrilor reziduurilor. Rezult c: re1e2 = -
0.3929; ryx3.x1x2x4 = -0.3929, iar coeficientul de determinaie parial este r2yx3.x1x2x4 = 0.1544, o
95
valoare mic, apropiat de 0, indicnd o mic proporie a variaiei variabilei y, explicat de variabila
SS MS F 149.607 37.4018 247.0493 0.7570 0.1514 150.364 Std.Error t Stat P-value 10.3724 -0.4006 0.7052 0.0358 2.6976 0.0429 0.0670 0.3561 0.7363 0.1007 -0.9555 0.3832 0.1766 0.8590 0.4296
Signif. F 6.27E-06
Tabelul 3.11. Tabela de regresie y = f(x1, x2, x3, x4) Semnul acestui coeficient este dat de semnul (negativ) coeficientului de regresie corespunztor variabilei x3. Raiile Student calculate comparate cu valoarea teoretic t5/2= 2.571, pentru 5 grade libertate i un prag de semnificaie = 5%, indic numai variabila x1, ca fiind semnificativ diferit
96
de 0. La celelalte se poate renuna, fapt confirmat i de rezultatele obinute pentru coeficienii de corelaie parial ai lui x3. Din cauza puternicei corelaii dintre variabilele explicative fenomen numit
multicoliniaritate - variabila x3 apare cu semnul negativ, chiar dac legtura sa cu y este direct, i
la fel i cu celelalte variabile explicative. Ca o consecin a multicoliniaritii, n acest exemplu este evident c dei coeficientul de determinaie este foarte mare, R2=0.9949, apar ca fiind nesemnificative variabilele explicative. Se reine n model, ca variabil semnificativ, numai variabila x1.
2. Multicoliniaritatea
Una din ipotezele modelului liniar clasic de regresie este aceea c nu exist
perfecte sau exacte dintre unele sau ntre toate variabilele explicative ale unui model de
regresie. Sensul recent al acestui termen este mai larg, referindu-se i la o relaie mai puin determinist. Despre dou serii x1 i x2, se spune c sunt ortogonale sau independente dac au covariana nul: cov(x1, x2) = 0. n acest caz, coeficientul lor de corelaie simpl este 0. Dac coeficientul de corelaie simpl dintre dou variabile este egal cu 1, seriile sunt perfect corelate, fie pozitiv, fie negativ. Legtura dintre ele este perfect sau determinist. Cnd valoarea coeficientului de corelaie simpl este apropiat de1, dei relaia lor nu este determinist, variabilele sunt puternic corelate. n practic seriile de date sunt mai mult sau mai puin corelate ntre ele. Multicoliniaritatea se refer strict la existena mai multor relaii liniare, iar termenul de coliniaritate se refer la existena unei singure relaii liniare. Aceast distincie nu se face n practic, folosindu-se n ambele situaii termenul de multicoliniaritate. n cazul a dou variabile explicative, intercorelaia lor se msoar cu coeficientul de corelaie simpl dintre ele. Intercorelaia n cazul mai multor variabile explicative se msoar cu ajutorul coeficienilor de corelaie parial sau prin coeficientul de corelaie multipl R a unei variabile xi cu toate celelalte variabile x considerate mpreun. n esen, multicoliniaritatea este un fenomen de eantionare, deoarece chiar dac n populaie, variabilele xi sunt necorelate liniar, se poate ca ntr-un eantion dat, ele s fie corelate. Astfel nct, dei teoretic se poate considera c variabilele xi au o influen separat sau independent asupra variabilei dependente y, se poate ntmpla ca n eantionul dat pentru a testa 97
funcia de regresie a populaiei, unele variabile xi, s fie att de puternic corelate, nct s nu se poat izola influena lor individual asupra lui y.
nesemnificativi.
2. Corelaiile perechi puternice (perechi de cte dou variabile explicative) reprezint o alt regul pentru detectarea multicoliniaritii. Coeficienii de corelaie simpl ntre doi regresori pot avea valori mari i atunci multicoliniaritatea devine o problem serioas. Ideea principal, ce trebuie reinut, este c nu este necesar ca aceti coeficieni s fie mari pentru a exista coliniaritate. Coeficienii mari de corelaie de ordinul 0 reprezint condiia
suficient, dar nu i necesar pentru existena multicoliniaritii, deoarece aceasta poate exista chiar dac valorile lor sunt comparativ mici. Dac modelul are numai dou variabile
explicative atunci coeficientul lor de corelaie simpl este suficient n aprecierea gradului de coliniaritate. Pornind de la aceast regul, testul lui Klein, const n compararea coeficientului de determinaie
R2,
calculat
pe
modelul
cu
variabile
explicative:
0 + a 1 x1 + a 2 x 2 + ... + a k xk + e y=a
cu ptratul coeficienilor de corelaie simpl dintre regresori, r2xixj, unde ij. Dac R2 < r2xixj pentru oricare ij, i,j =1,2,,k, atunci exist o prezumpie de multicoliniaritate. Acest test nu este un test propriu-zis i nici nu este concludent n toate cazurile. 3. Examinarea corelaiilor pariale a fost propus de Farrar i Glauber, tocmai datorit problemei menionate pentru coeficienii de corelaie simpl dintre regresori. Ei susin c, n regresia dintre y i x1, x2, x3, dac se gsete c R2yx1x2x3 este mare, i comparativ r2yx1.x2x3,
r2yx2.x1x3, r2yx3.x1x2 sunt mici, aceasta poate sugera c variabilele x1, x2 i x3 sunt puternic
intercorelate i c cel puin una din variabilele explicative este n plus. Dei studiul coeficienilor de corelaie parial ar putea fi foarte util, totui nu se poate garanta c va furniza un rspuns sigur n ceea ce privete multicoliniaritatea. Se poate ntmpla ca att
R2yx1x2x3 ct i toate corelaiile pariale s fie suficient de mari, nct s pun sub semnul
ntrebrii afirmaia lui Farrar i Glauber. 4. Regresiile auxiliare. Aflarea variabilei explicative care este corelat cu alte variabile x, ntro combinaie liniar exact sau aproximativ, se poate realiza prin efectuarea regresiilor pentru fiecare variabil xi i restul variabilelor x. Fiecare din aceste regresii se consider ca fiind auxiliar fa de regresia principal, considerat a fi regresia lui y n funcie de toate variabilele explicative x. Un coeficient mare de determinaie sugereaz c xi este puternic corelat cu celelalte variabile x. Pentru fiecare din aceste regresii auxiliare se calculeaz
2 R xi .x 2 x 3...xk /( k 1) , unde k este numrul de statistica F, dup formula: Fi = 2 (1 R xi .x 2 x 3...xk ) /(n k 1)
variabile regresori din modelul auxiliar, n este volumul eantionului, iar R2xi.x2x3xk este 99
coeficientul de determinaie corespunztor fiecrei regresii. Se compar Fi* cu valoarea critic din tabela Fisher, pentru un prag de semnificaie i (k-1), (n-k-1) grade de libertate. Dac Fi* > Fk-1,n-k-1 acesta nseamn c acea variabil xi este coliniar cu celelalte variabile
x. Dac Fi* < Fk-1,n-k-1 se spune c variabila xi nu este coliniar cu celelalte variabile x, caz
n care respectiva variabil xi se reine n model. Aceast metod are neajunsurile ei, n sensul c atunci cnd multicoliniaritatea presupune implicarea a mai puine variabile, este dificil s se identifice inter-relaiile separate.
semnificativ diferite de cele care sunt deja considerate n model, n caz contrar, multicoliniaritatea se menine; 2.
modelului. Eroarea de specificare duce la obinerea de estimatori eronai, fiind mai duntoare dect acceptarea unei multicoliniariti mici; 3.
diferenele de ordinul 1, reduce severitatea multicoliniaritii, deoarece chiar dac exist corelaie puternic ntre dou variabile, nu exist nici un motiv s se considere c aceasta s-ar menine i ntre diferenele lor de ordinul 1. Acest procedeu are i dezavantajele sale: termenul eroare din forma transformat a diferenelor de ordinul 1, s-ar putea s nu respecte una din ipotezele modelului liniar clasic, i anume erorile nu sunt serial corelate (corelaie de ordinul 1). Dac n seriile iniiale erorile sunt independente sau necorelate, n seria transformat, acestea vor fi serial corelate n majoritatea cazurilor. Un alt dezavantaj este faptul c se pierde o observare prin difereniere, ceea ce este important cnd volumul eantionului este mic, i numrul gradelor de libertate se micoreaz cu 1. Mai mult, n seriile de date instantanee, procedura de difereniere nu este corespunztoare, deoarece nu exist o ordine logic a datelor observate. 4.
utilizarea altor metode cum sunt: analiza factorial, analiza n componente principale, sunt
deseori folosite pentru a rezolva problema multicoliniaritii. Se observ c nu n orice situaie, cnd se obin valori t nesemnificative pentru estimatorii coeficienilor de regresie, exist multicoliniaritate. Lipsa de semnificaie se poate datora i altor cauze, cum ar fi: 100
metoda folosit pentru culegerea datelor, de exemplu eantionarea variabilelor regresori peste valorile lor limit, pe care acestea le iau n populaie; restricii asupra modelului sau asupra populaiei i a metodei de eantionare folosit; specificarea modelului; supradimensionarea modelului, prin introducerea unui numr de variabile explicative, mai mare dect numrul de observri (n domeniul medical, cnd numrul de pacieni este mai mic dect informaiile despre ei, cuprinse ntr-un numr mare de variabile). Aplicarea n practic a uneia din modalitile de remediere, depinde de natura datelor i de
Toate regresiile posibile. Aceast metod const n efectuarea tuturor regresiilor posibile (2k 1),
unde k este numrul variabilelor explicative, candidate la intrarea n model. Se reine acel model care are coeficientul de determinaie, R2 cel mai mare i toate variabilele explicative semnificative. Dezavantajul acestei metode, este legat de numrul k, de variabile explicative, care cu ct este mai mare, cu att duce la realizarea unui numr considerabil de regresii (de exemplu: k=10, numr
regresii posibile = 1023). 1. Eliminarea progresiv (Backward Elimination). Aceast procedur const n efectuarea
regresiei cu toate variabilele explicative i apoi eliminarea pe rnd, a acelora a cror raie Student 101
este mai mic dect valoarea critic. Procedura se utilizeaz, numai dac se poate estima efectiv, modelul iniial, ceea ce nu este mereu posibil. Modelul poate avea un numr mare de variabile explicative, i atunci, riscul multicoliniaritii este mare, iar matricea X X poate fi singular.
2.
-
Selecia variabilelor se oprete cnd raiile t calculate devin mai mici dect valoarea critic citit din tabela Student.
3.
Regresia pas cu pas (Stepwise regression). Aceast procedur este identic cu cea
precedent, a seleciei progresive, doar c nainte de a incorpora o nou variabil explicativ se examineaz raia t* a fiecreia din variabilele explicative selecionate n prealabil i se elimin din model cele care au raiile t* mai mici dect valoarea critic.
4.
minimizarea intercorelaiilor dintre variabilele explicative, prin studiul reziduurilor. Etapele care se parcurg sunt urmtoarele: etapa 1: se selecioneaz acea variabil explicativ, xi, care are coeficientul de corelaie simpl
cu y, cel mai mare;
simpl ntre e1t i restul variabilelor explicative; se reine aceea dintre ele, xj, care are acest coeficient cel mai mare, considernd c va explica n continuare, cel mai bine, variana reziduurilor; -
102
1.
yt = 0.346 + 0.112x1t + et (0.83) (36.05) yt = 3.466 + 0.311x2t + et (4.96) (17.34) yt = - 34.219 + 0.481x3t + et (-8.06) (11.62)
yt = - 44.318 + 0.579x4t + et (-13.64) (18.27) regresiile cu dou variabile explicative yt = 0.508 + 0.106x1t + 0.018x2t + et (0.71) (4.80) (0.29) yt = 3.165 + 0.121x1t 0.038x3t + et (0.63) (7.74) (-0.56) yt = - 2.555 + 0.105x1t + 0.037x4t + et (- 0.27) (4.49) (0.307) yt = - 6.850 + 0.231x2t + 0.130x3t + et (- 0.79) (3.35) (1.20) yt = - 22.187 + 0.148x2t + 0.309x4t + et (- 2.18) (2.26) (2.53) yt = - 45.88 - 0.090x3t + 0.685x4t + et (- 9.90) (- 0.50) (3.22)
103
R2yx1x2 = 0.99395 R2yx1x3 = 0.99414 R2yx1x4 = 0.99396 R2yx2x3 = 0.9785 R2yx2x4 = 0.9864 R2yx3x4 = 0.9774
yt = 3.355 + 0.114x1t + 0.018x2t - 0.039x3t + et (4.04) (0.28) (-0.53) (0.61) yt = - 2.56 + 0.098x1t + 0.019x2t + 0.039x4t + et (- 0.25) (2.76) (0.28) (0.30) yt = -23.63 + 0.151x2t - 0.109x3t + 0.431x4t + et (-2.21) (2.23) (-0.76) (2.11)
yt = -4.105 + 0.105x1t - 0.093x3t + 0.146x4t + et (- 0.43) (4.50) (-1.00) (0.89) regresia cu cele patru variabile explicative yt= -4.155+0.096x1t+0.024x2t0.096x3t+0.152x4t+et (-0.40) (2.70) (0.36) (-0.95) (0.86)
(15)
R2yx1x2x3x4=0.998
Dintre cele 15 modele se elimin acelea care au una sau mai multe raii t Student calculate, mai mici dect valoarea Student critic, t/2n-k-1, pentru un prag de semnificaie =5% i corespunztoare pe rnd, fiecrui numr de grade de libertate: cnd k=1, t/28=2.306; k=2,
t/27=2.365; k=3, t/26=2.447; k=4, t/25=2.571. Se verific raiile Student i pentru termenul
constant. n urma acestei operaii se nltur modelele: 1, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15. Rmn ca fiind satisfctoare trei modele: 2, 3 i 4. Dintre acestea se alege modelul (4) deoarece are coeficientul de determinaie, R2, cel mai mare. Variabila x4 este singura care se reine pentru explicarea variabilei y. Modelul (1) are semnificativ variabila x1, are i coeficientul de determinaie cel mai mare, dar termenul liber are raia Student nesemnificativ.
2.
yt= -4.155 + 0.096x1t + 0.024x2t 0.096x3t + 0.152x4t + et (0.36) (-0.95) (0.86) R2yx1x2x3x4=0.998 (-0.40) (2.70)
se elimin variabilele x2, x3 i x4 ale cror coeficieni de regresie au raiile t* mai mici dect valoarea critic, t/25=2.571, fiind astfel nesemnificativ diferii de 0. Rmne de estimat modelul cu o variabil explicativ, x1 i anume modelul: (1)
R2yx1 = 0.994
Procedura se oprete aici, deoarece variabila explicativ din model este semnificativ, n urma aplicrii testului individual de semnificaie, t. Se alege variabila x1. Dar modelul nu este suficient de bun, pentru c termenul liber nu este semnificativ diferit de 0.
104
Din cauza multicoliniaritii variabilelor explicative, care sunt puternic corelate ntre ele, nu se poate alege variabila x4, conform aceastei proceduri.
3.
variabilele x1, x2, x3 i x4, extrgnd radicalul din R2yx1, R2yx2, R2yx3, R2yx4 pentru modelele 1, 2, 3, 4 sau direct citind Multiple R n tabelele de regresie corespunztoare modelelor, sau utiliznd funcia
4.
n prima etap se calculeaz coeficienii de corelaie simpl dintre y i toate variabilele explicative; se alege x1 pentru c are ryx1 cel mai mare; n etapa a doua se estimeaz modelele cu dou variabile explicative, prin adugarea la model, cte una a celor rmase; se examineaz raiile Student cu valoarea critic i se ajunge la situaia descris deja.
5.
(1) -
yt = 0.346 + 0.112x1t + et R2yx1 = 0.994 (0.83) (36.05) n etapa a 2-a se calculeaz reziduurile e1t = yt (0.346 + 0.112x1t), n Tabelul 3.13.
105
yt 9.5 10.7 11.5 12.5 13.3 15.3 16.8 18.8 19.5 21.5
x1 83.7 88.8 100.7 105.5 118.5 131.4 148.5 162 174.5 185.3
yt
9.8 10.3 11.7 12.2 13.7 15.1 17.0 18.5 20.0 21.2
e1t -0.3 0.4 -0.2 0.3 -0.4 0.2 -0.2 0.3 -0.5 0.3
Tabelul 3.13. Calculul valorilor ajustate n funcie de x1 i reziduurile e1t n etapa a 3-a se calculeaz coeficienii de corelaie simpl ntre reziduurile e1t i celelalte variabile explicative:
e1 nu mai exist informaie referitoare la x1. Ceilali coeficieni calculai, fiind foarte mici, deci
nesemnificativ diferii de 0, procedura de selecie se termin. Variabila explicativ aleas este x1. Dintre tehnicile prezentate, cea a tuturor regresilor posibile, furnizeaz un rezultat diferit de celelalte proceduri. Alegerea variabilei explicative x1 este indicat de majoritatea procedeelor.
106
Rezumat:
Cand variabilele explicative sunt corelate ntre ele apare fenomenul de multicoliniaritate, ale crui consecine nu pot fi ignorate n construirea unui model econometric. n aceast situaie a nerespectrii ipotezei de independen a variabilelor explicative, se identific variabilele corelate, care se elimin din model, pastrndu-se numai cele puternic corelate cu variabila dependent y, i ct mai puin corelate ntre ele. Calculul coeficienilor de corelaie simpl dintre variabilele explicative i a celor de corelaie parial ofer informaii pentru selecia variabilelor explicative n model. Aplicarea metodelor de selecie a variabilelor explicative se poate face combinat, pentru a ajunge la cea mai bun soluie. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.
Termeni importani:
Multicoliniaritate, coeficieni de corelaie parial de ordinul i, coeficieni de determinaie parial de ordinul i, metode de selecie a variabilelor explicative
ntrebri recapitulative
1. Explicai semnificaia coeficientului de corelaie parial. 2. Scriei toi coeficienii de corelaie parial posibi a se calcula pentru un model cu trei variabile explicative. 3. Ce este fenomenul de multicoliniaritate? 4. Care sunt consecinele multicoliniaritii? 5. Care sunt mijloacele de remediere a multicoliniaritii? 6. Care sunt metodele de selecie a variabilelor explicative? 7. Ce se ntmpl cand un model de regresie multipl prezint indicatori foarte buni de validitate, este global semnificativ, conform testului Fisher, dar are majoritatea estimatorilor modelului nesemnificativ diferii de zero?
Teme de cas
Parcurgei exemplele din curs,utiliznd calculatorul. Folosii ambele metodele de estimare a coeficienilor de corelaie parial de odinul k-1, ntrun model cu k variabile explicative, pentru un exemplu din curs.
107
CAPITOLUL 4
Tema Obiectivele
AUTOCORELAIA ERORILOR
1. Natura i cauzele autocorelaiei erorilor 2. Detectarea autocorelaiei 2.1. Exerciiu - Testul Durbin Watson 3. Estimatorii metodei celor mai mici ptrate n prezena autocorelaiei 4. Proceduri de estimare a lui 4.1. Estimarea direct a lui pornind de la regresia pe modelul iniial 4.1.1. Exerciiu - Estimarea parametrilor umui model n prezena autocorelaiei erorilor 1. Detectarea autocorelaiei erorilor de ordinul 1 2. Aplicarea metodei grafice pentru detectarea autocorelaiei erorilor 3. Estimarea unui model n prezena autocorelaiei erorilor - citire/nvare - ntrebri, probleme ce apar, explicaii - definiii, explicaii ce trebuie reinute - situaii economice concrete, supuse analizei, exemple (sub lup) - teme de cas, aplicaii practice pentru studeni - parcurgerea aplicaiilor propuse 1. Pentru cunoaterea problemei: 4 ore 2. Pentru rezolvarea temelor: 4 ore + timpul de documentare
108
AUTOCORELAIA ERORILOR
O ipotez important a modelului liniar clasic este aceea a inexistenei autocorelaiei erorilor de ordinul 1 (corelaie serial). n cazul n care aceast ipotez nu se respect este util de cunoscut care este natura autocorelaiei erorilor, care sunt consecinele practice ale acesteia i cum se remediaz aceast problem.
109
et
et
t et
(a)
(b) et
(c)
et
(d)
3. eroarea de specificare datorat alegerii incorecte a funciei analitice a modelului. De exemplu, dac se alege o funcie liniar n locul uneia de gradul doi, atunci termenul care reprezint ptratul variabilei explicative va fi cuprins n erori. Efectul sistematic al acestuia face ca erorile s manifeste autocorelaie din cauza specificrii incorecte a funciei analitice; 4. fenomenul pnz de pianjen, care se reflect, n special, n domeniul ofertei de produse agricole. Oferta acestor produse reacioneaz la preuri cu un lag (ntrziere) de o perioad, deoarece deciziile de ofert dureaz pn se implementez (de exemplu: perioada de gestaie, perioade de cretere a recoltei). La nceputul unui an agricol, recolta este influenat de preurile practicate cu un an n urm. Astfel funcia ofertei este: yt = a0 + a1pt-1 + t , unde yt este oferta, iar pt-1 reprezint preurile cu un an n urm. Dac n anul t, preul pt scade fa de pt-1, atunci n perioada t+1, agricultorii vor produce mai puin dect n perioada t. n aceast situaie erorile t 110
nu se ateapt s fie aleatoare, pentru c, dac n anul t a fost supraproducie, ei tind s-i diminueze producia n anul t+1, conducnd astfel la fenomenul numit pnz de pianjen (n limba englez Cobweb phemomenon); 5. ntrzierile, numite laguri apar deseori n unele modele n care variabilele dependente observate cu una, dou sau mai multe perioade n urm influeneaz variabila dependent din perioada curent. De exemplu, consumul la momentul t-1 poate influena consumul la momentul t, deoarece consumatorii nu-i schimb des comportamentul de consum, din raiuni psihologice, tehnologice, instituionale, etc. Dac se neglijeaz termenul ntrziat, erorile care apar vor reflecta sistematic o tendin datorit influenei consumului cu lag asupra consumului curent. Astfel de modele, cnd variabila dependent cu lag devine variabil explicativ pentru ea nsi, se numesc modele autoregresive. 6. modul de prelucrare a datelor poate produce autocorelaia erorilor n situaiile cnd: n regresiile care folosesc serii de date trimestriale sub form de medii, care se obin prin nsumarea observrilor pe trei luni i mprirea sumei la 3. Aceste medii netezesc fluctuaiile lunare i pot conduce la o tendin sistematic ce se manifest n erori, introducnd autocorelaie; interpolarea sau extrapolarea datelor pot constitui o alt surs de manipulare a datelor. Datele obinute prin interpolare, n interiorul unui interval de timp, de exemplu, 10 ani, n cazul recensmintelor, care au loc din 10 n 10 ani, sau datele extrapolate nafara unei perioade de timp analizate, impun o manifestare sistematic a unei tendine n erori, care nu ar fi existat dac s-ar fi folosit datele originale. Problema autocorelaiei erorilor este cel mai adesea ntlnit la seriile de timp, dar poate aprea i la seriile de date instantanee. n seriile instantanee nu poate exista o ordine cronologic, dar n unele cazuri poate fi stabilit o ordine de similaritate. Astfel tendina de consum poate fi diferit de la o regiune geografic la alta, dei este substanial similar n interiorul unei regiuni date. Reziduurile obinute n urma efectuarii unei regresii, pot manifesta o tendin sistematic asociat cu diferenele regionale. Unii autori numesc aceasta autocorelaie spaial, ceea ce nseamn corelaie n spaiu mai degrab dect n timp. Este important de tiut c n analiza seriilor instantanee, ordonarea datelor trebuie s aib o logic, un interes economic, care s dea sens existenei autocorelaiei erorilor. Autocorelaia erorilor este fie pozitiv, fie negativ. Manifestrile n timp ale erorilor, n ambele situaii sunt prezentate n Figura 4.2. n general, seriile cronologice manifest o autocorelaie pozitiv, pentru c majoritatea lor au, fie o evoluie cresctoare, fie descresctoare pentru o perioad de timp prezentat n cazul (a) i nu manifest o micare constant sus jos, ca
111
cea din cazul (b). Autocorelaia este pozitiv, cnd corelaia ntre t i t-1 este direct (a), i negativ, cnd corelaia ntre t i t-1 este invers (b).
t
0
0 timp
t-1
(a)
t
(b) Figura 4.2. Autocorelaia erorilor: pozitiv (a) i negativ (b) n Figurile 4.3 i 4.4 se prezint cele dou grafice utile pentru a pune n eviden corelaia
timp
t-1
pozitiv a reziduurilor. Graficul din Figura 4.3 este de tip Line i arat evoluia n timp a reziduurilor.
112
Evolutia erorilor
erorile
50 0 -50 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55
timpul
Figura 4.3. Evoluia erorilor n cazul corelaiei pozitive Graficul din Figura 4.4. este de tip Scatter i arat corelaia de ordinul 1 dintre erorile, respectiv reziduurile, la timpul t i t-1, care n exemplul prezentat este de 0.888, artnd o intensitate puternic a cestei autocorelaii.
et
-200
113
Figura 4.5 i Figura 4.6 prezint aceleai tipuri de grafice, pentru corelaia negativ. Intensitatea corelaiei de ordinul 1, prezentat n graficul din Figura 4.6. este de -0.856.
1.0 0.8 0.6 0.4 0.2 0.0 1 2 3 4 et -0.2 -0.4 -0.6 -0.8 -1.0
10
11
12
13
14
15
timpul
Corelaia invers a erorilor 1.0 0.5 0.0 -0.5 -0.5 -1.0 e t-1 0.0 0.5 1.0 et -1.0
Figura 4.6. Corelaia serial a erorilor n cazul n care nu exist autocorelaia erorilor, graficele evoluiei n timp a reziduurilor i cel al autocorelaiei de ordinul 1, vor fi asemntoare celor din Figura 4.7, respectiv 4.8. Coeficientul de corelaie de ordinul 1 (cu funcia CORREL) este 0.10, o valoare mic, apropiat de 0, indicnd lipsa autocorelaiei de ordinul 1.
114
Graficul din Figura 4.7, care arat lipsa autocorelaiei de ordinul 1, prezint succesiuni de reziduuri pozitive i negative, comparativ cu alternarea strict a reziduurilor pozitive cu cele negative, la autocorelaia negativ, n Figura 4.5. Deosebirea ntre absena autocorelaiei erorilor fa de corelaia lor pozitiv, n Figura 4.3, const n lipsa oricrei tendine n evoluia erorilor.
Evoluia reziduurilor
7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55
Analiza autocorelaiei reziduurilor de ordinul 1 80 60 40 20 0 -60 -40 -20 -20 0 -40 -60 -80 et-1 20 40 60 80 et -80
115
Graficul din Figura 4.4 prezint norul de puncte n cazul autocorelaiei pozitive, orientat, de-a lungul bisectoarei unghiului drept, fiind exact invers orientat n cazul autocorelaiei negative, n Figura 4.6. n cazul lipsei autocorelaiei reziduurilor, norul de puncte este dispersat i paralel cu axa Ox, n Figura 4.8. Utilizarea celor dou grafice: forma de evoluie a reziduurilor i corelograma reziduurilor, constituie una din modalitile de detectare a prezenei autocorelaiei erorilor.
2. Detectarea autocorelaiei
Detectarea autocorelaiei erorilor se face analiznd reziduurile, acestea fiind cunoscute. Metodele de detectare a autocorelaiei erorilor sunt: a) - examinarea vizual a reziduurilor metoda grafic dac reziduurile sunt fie pozitive, fie negative pe mai multe perioade, atunci se manifest o autocorelaie pozitiv; dac reziduurile alterneaz (pozitive cu negative), schimbndu-i semnul, se manifest o autocorelaie negativ. b) - Testul Durbin-Watson (DW) Acest test permite detectarea autocorelaiei erorilor de ordinul 1, adic de forma:
t = t 1 + t , cu t N(0,2v) , < 1.
Aceast relaie este cunoscut sub denumirea de schema Markov de ordinul 1 sau schema autoregresiv de ordinul 1 - AR(1). Denumirea de model autoregresiv este corespunztoare, deoarece se interpreteaz ca fiind regresia erorilor fa de ele nsi, retardate cu o unitate de timp i de ordinul 1, deoarece consider valoarea imediat trecut, adic de lag maxim 1. Testul de ipoteze este urmtorul: H0: = 0 H1: 0 - nu exist autocorelaia erorilor; - exist autocorelaia erorilor ( poate fi > 0 sau < 0).
n
DW =
(e
t =2
e t 1 )
2 t
e
t =1
, unde
116
este estimatorul coeficientului de Prin construcia sa, aceast statistic variaz ntre 0 i 4.
DW =
e
t =1
t =2
e
t =1
t =2
t =2 n
t =2
e
t =1
n n n 2 et et et 1 et et 1 2 1 t = 2 2(1 ) t =2 n t =2 n 2 2 et et t =1 t =1
= Coeficientul
e e
t =2
t t 1
e
t =1
2 t
= 0, DW = 2 i atunci nu exist autocorelaia erorilor; cnd = - 1, DW = 4 i exist autocorelaie negativ a erorilor; cnd = +1, DW = 0 i exist autocorelaie pozitiv a erorilor. cnd
Durbin i Watson au tabelat valorile critice ale testului DW, la un prag de semnificaie de 5%, n funcie de volumul eantionului i numrul variabilelor explicative, k. Lectura ascestei tabele permite determinarea a dou valori d1 i d2, cuprinse ntre 0 i 2, care mpart spaiul cuprins ntre 0 i 4 astfel:
d1 I
d2 I ?
2 I
4 - d2 I
4 - d1 I
4 I
lips autocorelaie
=0
117
Cnd d1 < DW < d2 sau 4 d2 < DW < 4 d1, se manifest o ndoial (nedeterminare) asupra existenei sau lipsei de autocorelaie. Pentru a utiliza aceast statistic este necesar ndeplinirea simultan a urmtoarelor condiii: modelul s aib termen constant (liber); numrul de observri s fie mai mare dect 15; variabila de explicat s nu figureze printre variabilele explicative (nu n modele autoregresive); pentru seriile de date observate n mod instantaneu, acestea trebuie s fie ordonate dup variabila de explicat.
se dispune de datele anuale ale variabilelor, pe o perioad de 20 de ani, n Tabelul 4.1. Anii 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 y 90 101 100 101 102 104 106 111 100 92 x1 102 104 105 104 105 105 105 105 103 103 x2 102 102 102 114 111 109 113 112 104 84 x3 112 113 113 107 110 108 111 106 106 107 Anii 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 y 78 80 88 94 106 108 99 107 114 130 x1 101 100 100 99 102 103 103 107 108 111 x2 72 74 84 105 108 114 95 92 96 110 x3 102 101 105 97 101 104 105 107 112 114
Tabelul 4.1. Evoluia variabilelor Pentru a depista o eventual autocorelaie a erorilor: a) s se estimeze parametrii modelului; b) s se efectueze analiza grafic a reziduurilor; c) s se calculeze statistica DW i s se efectueze testul de autocorelaie a erorilor.
118
a)
Pentru estimarea modelului se obine tabela de regresie, prezentat n Tabelul 4.2. Analiznd rezultatele din tabela de regresie se ajunge la urmtorul model:
y t = 241.04 + 3.72 x 1 + 0.39 x 2 0.78 x 3 + et , cu raiile Student: (-7.57) (8.13) (5.45) (-2.89)
SUMMARY OUTPUT Multiple R 0.9576 R Square 0.9170 Adjusted R Square 0.9015 Standard Error 3.7045 Observations 20 ANOVA df Regression 3 Residual 16 Total 19 Coefficients Intercept -241.039 X Variable 1 3.723 X Variable 2 0.391 X Variable 3 -0.783
Regression Statistics
SS MS F 2427.37 809.1233 58.95788 219.58 13.72375 2646.95 Std.Error t Stat P-value 31.84 -7.570 1.13E-06 0.458 8.131 4.49E-07 0.072 5.454 5.31E-05 0.271 -2.897 0.010505
Signif. F 7.21E-09
Valoarea teoretic Student pentru un prag de semnificaie =5% i 16 grade de libertate, este 2.12; comparnd raiile Student ale estimatorilor coeficienilor de regresie se observ c toi sunt semnificativ diferii de 0. Modelul este global semnificativ, dup cum indic testul Fisher, iar coeficientul de detreminaie de 0.917 arat c modelul liniar este bine ales. Coeficientul de corelaie mulipl de 0.957 arat o intensitate puternic a dependenei variabilei y de variabilele explicative x1, x2 i x3. Graficul evoluiei variabilei y i a valorilor ajustate yt prin regresia liniar este prezentat n Figura 4.9:
119
10 11 12 13 14 15 16 17 18 19 20
yt
timpul
b)
Analiza grafic a reziduurilor utilizeaz graficul evoluiei erorilor din Figura 4.10 i cel al
8 6 4 2 erori 0
Evoluia reziduurilor
-2 -4 -6 -8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
timpul
120
n Figura 4.10, reziduurile se succed ciclic, conducnd la presupunerea existenei unei autocorelaii pozitive, dei graficul din Figura 4.11 sugereaz o uoar intensitate a autocorelaiei pozitive, a crei existen este mai evident n Figura 4.10.
c)
Datele exerciiului i modelul specificat ndeplinesc condiiile pentru aplicarea testului DW.
t , rotunjite la ntreg, pentru a fi similare cu datele observate, valorile teoretice (ajustate) y t , reziduurile et, calculate ca diferen ntre valorile observate yt i cele teoretice y
diferenele a dou erori consecutive et - et-1, ptratele acestor diferene i suma lor, care constituie numrtorul, i calculul valorilor et2 i suma lor, care reprezint numitorul.
121
Pentru n=20 i k=3, se citesc n tabela lui Durbin-Watson, valorile d1=0.9981; d2 =1.6761.68.
t y 91 98 101 107 107 108 107 111 100 91 83 81 82 93 102 106 97 110 111 126
et -0.88 3.46 -1.27 -5.94 -5.14 -3.92 -1.14 0.34 -0.09 0.52 -5.26 -1.10 6.12 1.37 4.16 2.44 1.65 -2.50 3.13 4.05
et - et-1 (et - et-1)2 4.34 -4.72 -4.67 0.80 1.22 2.79 1.47 -0.42 0.61 -5.78 4.16 7.22 -4.76 2.79 -1.72 -0.78 -4.15 5.63 0.92 DW= 18.81 22.31 21.81 0.64 1.48 7.76 2.18 0.18 0.37 33.37 17.28 52.15 22.63 7.79 2.96 0.62 17.24 31.68 0.85 262.09 1.1978
e t2 0.78 11.94 1.61 35.25 26.39 15.38 1.29 0.11 0.01 0.27 27.63 1.21 37.49 1.86 17.27 5.93 2.73 6.26 9.78 16.39 218.80
Tabelul 4.3. Calculul statisticii DW Valoarea calculat DW=1.1978, se situeaz n zona de incertitudine (?): d1 < DW < d2, mai aproape de limita inferioar i se poate mai degrab accepta o autocorelaie pozitiv a reziduurilor, deci o prezumpie de existen a autocorelaiei erorilor.
0 I ? autocorelaie pozitiv
1 1.19 I I
1.68 I
2 I
2.32 I ?
3 I
4 I autocorelaie negativ
lips autocorelaie
Aceast concluzie ntrete pe cea formulat la punctul b), privind graficul din Figura 4.10, care sugera o intensitate slab a autocorelaiei pozitive. Estimatorii gsii sunt nedeplasai, dar neeficieni; nu mai sunt de varian minim. Se impune utilizarea unei proceduri adecvate de estimare.
122
n cazul autocorelaiei erorilor, elementele de o parte i de alta a diagonalei matricei varian-covarian a erorilor, nu sunt 0, deoarece Cov(t,t-1)0, i = E( ) 2 I , unde I este matricea unitate. Estimatorii obinui cu metoda celor mai mici ptrate sunt nedeplasai, dar nu mai sunt de varian minim.
a )(a a ) Matricea de varian-covarian a estimatorilor este: a = E (a
}
1
a ) = ( X X )1 X (a
1
a ) = X ( X X )1 , (a a )(a a ) = ( X X )1 X X ( X X )1 , de unde (a
1 1
a X ) X E ( )X ( X X ) = ( X X ) = (X
( X X )( X X )1 .
Metoda pentru obinerea unor estimatori liniari nedeplasai i de varian minim se numete metoda generalizat a celor mai mici ptrate. Estimatorii obinui prin aceast metod se numesc = X 1 X estimatorii lui Aitken: a
) (X
1
Faptul c n practic, nu se cunoate , face ca aceste formule s fie inutilizabile i s se impun necesitatea utilizrii unor proceduri operaionale de estimare.
123
Acest proces tinde ctre 0, deoarece || < 1, iar t ndeplinete condiiile modelului liniar clasic de regresie: E(t)=0 ; E(t2)=2v; E(t ,t )=0, unde tt.
4.1.
e e
t =2
t t 1 2 t
e
t =1
0 + a 1 x t + et Dac este adevrat pentru unitatea de timp t, atunci, pentru t-1: yt = a i se obine ecuaia (3). 0 + a 1 x t 1 + et 1 Se nmulete cu y t 1 = a
y t 1 = a a et 1 Se scade ecuaia (3) din forma (1) i se obine (4): 0 + 1 x t 1 + y t 1 = a )+a x t 1 ) + et et 1 , dar et et 1 = v t . 0 (1 1 (xt yt
utiliza metoda celor mai mici ptrate n estimarea coeficienilor de regresie pentru modelul
y t 1 ; x t = x t x t 1 ; a ), 0 + a 1 x t + v t , unde y t = y t 0 = a 0 (1 transformat: y t = a
124
Pentru datele din Tabelul 4.1, considernd c exist prezumia de autocorelaie pozitiv a erorilor, s se corecteze efectul autocorelaiei.
, prin regresia direct a lui et n funcie de et-1, Utiliznd prima modalitate de obinere a lui
t Stat
= 0.396. n etapa a 2-a se fac transformrile variabilelor: y, x1, x2, x3, n Tabelul 4.5:
y* 65 60 61 62 64 65 69 56 52
x1 * 64 64 62 64 63 63 63 61 62
x2 * 62 62 74 66 65 70 67 60 43
x3 * 69 68 62 68 64 68 62 64 65
42 49 56 59 69 66 56 68 72 85
60 60 60 59 63 63 62 66 66 68
39 45 55 72 66 71 50 54 60 72
60 61 65 55 63 64 64 65 70 70
Regresia obinut pe valorile transformate (sunt numai 19 observri transformate, se pierde primul termen pentru fiecare variabil) ofer urmtoarele informaii, n Tabelul 4.6:
125
SUMMARY OUTPUT Regression Statistics Multiple R 0.9487 R Square 0.9001 Adj. R Sq. 0.8801 Std. Error 3.2348 Observations 19 ANOVA df Regression 3 Residual 15 Total 18 Coeff. Intercept X Variable 1 X Variable 2 X Variable 3 -145.84 3.1610 0.4199 -0.2563
SS MS F 1413.828 471.276 45.038 156.960 10.464 1570.788 Standard t Stat P-value Error 22.76 -6.4084 0.00001 0.571 5.5323 0.00006 0.079 5.2972 0.00009 0.323 -0.7935 0.43985
Signif. F 9.7E-08
Se observ c variabila x3 devine nesemnificativ. Valorile teoretice yt1 sunt calculate n Tabelul 4.8 i n Figura 4.12. Se repet regresia pe variabilele transformate, eliminnd variabila x3 i se obine tabela de regresie din Tabelul 4.7, valorile teoretice yt2, n Tabelul 4.8 i Figura 4.12:
SUMMARY OUTPUT Regression Statistics Multiple R 0.9465 R Square 0.8959 Adjusted R Square 0.8829 Standard Error 3.1972 Observations 19 ANOVA df SS MS F Regression 2 1407.239 703.620 68.835 Residual 16 163.549 10.222 Total 18 1570.788 Coeff. Std.Error t Stat P-value Intercept -141.31 21.7744 -6.49 0.000007 X Variable 1 2.815 0.3646 7.72 0.000001 X Variable 2 0.432 0.0770 5.61 0.000039
Signif. F 1.38E-08
126
Se observ c regresia este global semnificativ i cele dou variabile explicative sunt individual semnificative.
) = -141.31 / (1-0.396) = -233.99. Termenul constant: a0 = a0* / (1-
Tabelul 4.8. Valorile observate i ajustate prin regresiile efectuate Graficul valorilor ajustate cu cele dou modele determinate dup transformarea variabilelor este prezentat n Figura 4.12.
140 130 valorile observate si ajustate 120 110 100 90 80 70 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
yt1
yt2
timpul
Pe graficul din Figura 4.12, se observ c cele dou modele pe variabilele transformate sunt foarte apropiate, eliminarea variabilei x3 a avut un impact nesemnificativ asupra modificrii modelului, pe variabilele transformate. Se va reine ca fiind cel mai bun, al doilea model, cel stabilit pe baza variabilelor transformate, cu dou variabile explicative x1 i x2. Dei iniial, modelul cu cele trei variabile explicative, prea a fi foarte bun, avnd toate variabilele independente semnificative i indicatorii calitii ajustrii foarte buni, totui analiza autocorelaiei erorilor a condus la identificarea i apoi eliminarea unei variabile nesemnificative i obinerea unui alt model, ai crui estimatori sunt nedeplasai i eficieni n acelai timp.
, este cea pornind de la testul Durbin-Watson: A doua posibilitate de estimare pentru = (1 - 1.1978/2) = 0.4011, = 0.4011
astfel transformate. Tabela de regresie este prezentat mai jos i de asemenea calculul i stabilirea
obinut pornind de la testul Durbin-Watson este foarte estimatorilor modelului. Valoarea lui
apropiat de cea obinut prin regresia direct a lui et n funcie de et-1. De aceea valorile estimatorilor dup aceast regresie pe variabilele transformate sunt apropiate de cele obinute prin regresia reziduurilor.
, se afl n Tabela de regresie pe noile variabile transformate folosind noua valoare
Tabelul 4.9.
SUMMARY OUTPUT Regression Statistics Multiple R 0.9487 R Square 0.9000 Adj. R Sq. 0.8800 Std. Error 3.2273 Observations 19 ANOVA df Regression 3 Residual 15 Total 18 Coefficients Intercept -144.67 X Variable 1 3.154 X Variable 2 0.420 X Variable 3 -0.249
Upper 95% -96.5 4.37 0.5895 0.437 Tabelul 4.9. Regresia pe variabilele transformate cu noua valoarea
MS 468.6 10.4
t Stat P-value -6.40 0.00001 5.52 0.0001 5.31 0.0001 -0.77 0.4506
128
Estimatorii coeficienilor de regresie sunt: a1* = 3.15; a2* = 0.42; a3* = -0.25.
t = -241.54 + 3.15x1 + 0.42x2 - 0.25x3. Modelul determinat este: y
i n acest caz, variabila x3 devine nesemnificativ. Se reface regresia folosind numai variabilele explicative semnificative, i se obine tabela de regresie din Tabelul 4.10.
SUMMARY OUTPUT Regression Statistics Multiple R 0.9466 R Square 0.8960 Adjusted R 0.8830 Square Standard 3.1867 Error Observations 19 ANOVA df Regression 2 Residual 16 Total 18 Coefficients Intercept -140.297 X Variable 1 2.817 X Variable 2 0.432
SS MS 1399.684 699.842 162.482 10.155 1562.166 Std.Error t Stat 21.598 -6.496 0.365 7.727 0.077 5.624
F 68.915
Significance F 1.37E-08
Tabelul 4.10. Tabela de regresie a modelului cu doua variabile explicative Se observ n Tabelul 4.10, c variabilele independente sunt semnificative, la fel i termenul
) = -234.251. constant, care devine: a0 = a0* / (1 -
se observ c diferenele sunt foarte mici, estimatorii variabilelor explicative, fiind aproape identici. Valorile teoretice obinute cu acest din urm model, pentru c sunt rotunjite la numere ntregi, sunt identice cu valorile yt2, diferenele mici dintre valorile ajustate sunt la nivelul zecimalelor.
, rezultatele sunt aproape Indiferent de procedeul ales pentru estimarea direct a valorii
129
Rezumat
Cand reziduurile sunt corelate ntre ele apare fenomenul de autocorelaia erorilor, ale crui prezen conduce la instabilitatea modelului econometric. n aceast situaie a nerespectrii ipotezei de independen a reziduurilor, se identific natura autocorelaiei i se detecteaz cu ajutorul testului Durbin-Watson, n cazul autocorelaiei de ordinul 1. Se aplic o procedur iterativ pentru estimarea modelului n prezena autocorelaiei erorilor. Exemplele ofer explicaii pentru nelegerea obiectivelor capitolului.
Termeni importani
Autocorelaia erorilor, coeficient de autocorelaie de ordinul 1, corelaia serial a reziduurilor, testul Durbin-Watson, proceduri iterative de estimare a modelului
ntrebri recapitulative
1. Explicai semnificaia nerespectrii ipotezei de independen a erorilor. 2. Scriei testul Durbin-Watson, intervalul su si interpretarea testului. 3. Care sunt metodele de detectare a autocorelaiei erorilor ? 4. Care sunt consecinele autocorelaiei erorilor? 5. Care sunt mijloacele de remediere a autocorelaiei erorilor? 6. Care sunt metodele grafice de detectare a autocorelaiei erorilor?
Teme de cas
Parcurgei exemplele din curs, utiliznd calculatorul. Aplicai metoda grafic pentru detectarea autocorelaiei reziduurilor pentru un exemplu numeric din curs.
130
BIBLIOGRAFIE 1. Artus Patric, Michel Deleau, Pierre Malgrange, Modelisation macroeconomique, Economica, Paris, 1986 2. Bourbonnais Regis "conomtrie", Ed. Dunod, Paris, 1993 3. Constantinescu N.N., Reform i redresare economic, Editura Economic, 1995 4. Dugulean C., Introducere in economia aplicata, Ed. Infomarket, Brasov, 2004 5. Dugulean C., Previziuni ale consumului agregat pe termen lung, vol. I, Ed. Universitaria Craiova, 2004, pag. 56 63 6. Dugulean C., Correlation between Average Productivity of Work and Average Wages, International Conference Small and Medium Enterprises in European Economies, BabesBolyai University Cluj-Napoca, Faculty of Business, October 17-18, 2003, Cluj-Napoca, Ed. Alma Mater, pag. 190-196 7. Dugulean L., Dugulean C., Economie aplicat - econometrie, Ed. Universitii, Braov, 1998 8. Dugulean L., Dugulean C., Oprei A., Previziune economic. Quattro Pro, Reprografie, Braov, 1995 9. Dugulean L., Statistic economic i social, Ed. Infomarket, Braov, 1999 10. Dugulean L., Statistic, Ed. Infomarket, Braov, 2002 11. Dugulean L., Dugulean C., Sondajul statistic - probleme intampinate in cercetarile de marketing industrial, Revista de Statistica nr. 4/1997, pag. 32-42, Ed. Comisia Nationala pentru Statistica 12. Dugulean L., Consideratii privind inegalitatea distributiei veniturilor n tarile dezvoltate ale lumii, Universitatea OVIDIUS din Constanta, 15-16 octombrie 2004 , vol. I, Ed. Universitaria Craiova, 2004, pag. 239-244 13. Dugulean L., Studiul regiunilor din Romania folosind analiza cluster, Universitatea Ovidius din Constanta, 15-16 oct. 2004, vol. I, Ed. Universitaria Craiova, 2004, pag. 42-48 14. Makridakis S., The Accuracy of Extrapolation (Time series) Methods: Results of a Forecasting Competition, Journal of Forecasting, vol.1, 1982, pag.111-153 15. Gujarati Damodar, Basic Econometrics, McGraw-Hill Book Company, NewYork, 1988 16. Melard Guy "Methodes de prevision a court term", University of Brussels, Belgium, 1990 17. Tanadi Alexandru, Claudiu Doltu, Monetarismul, Editura Economic, Bucureti, 1996 18. "Anuarul Statistic al Romniei", 1993, 1996, 1997, 1998, 2001, 2002, INSE, Bucuresti, 2002
131