Sunteți pe pagina 1din 99

UNIVERSITATEA TEFAN CEL MARE SUCEAVA

Facultatea de tiine Economice i Administraie Public Departamentul ID Specializarea : Finane Bnci, Anul II, Sem I

ECONOMETRIE

Lector univ. drd. Anamaria MACOVEI

2008

Cuprins
Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 0. Elemente de probabilitate i statistic matematic utilizate n econometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . 0.1. Cmp de evenimente i de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.2. Formule de calcul cu probabiliti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.2.1. Probabilitatea evenimentului reuniune i intersecie . . . . . . . . . . . . . . . . . . . . . 0.2.2. Formula probabilitii totale. Formula lui Bayes. . . . . . . . . . . . . . . . . . . . . . . . 0.3. Scheme clasice de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.4. Variabile aleatoare i repartiii clasice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 1. Introducere n modelarea econometric . . . . . . . . . . . . . . . . . . . . . . . . 1.1. Ce este econometria? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Repere istorice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Concepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Demers metodologic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Notaii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 2. Modele de regresie simpl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Modelul liniar simplu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Prezentarea problemei. Exemple din economie . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2. Prezentare model i ipoteze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3. Estimarea parametrilor modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4. Testarea parametrilor modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5. Coeficientul de corelaie i coeficientul de determinaie . . . . . . . . . . . . . . . . . 2.1.6. Regresia liniar simpl n SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Modelul neliniar simplu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Prezentarea problemei i exemple din economie . . . . . . . . . . . . . . . . . . . . . . . 2.2.2. Modele liniarizabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Modele polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 3. Modele de regresie multipl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Modelul liniar multiplu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Prezentare model i ipoteze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2. Estimarea parametrilor modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3. Testarea parametrilor i a modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4. Coeficieni de corelaie i coeficientul de determinaie . . . . . . . . . . . . . . . . . . . 3.1.5. Regresia multipl n SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Modele neliniare multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Prezentarea problemei i exemple din economie . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Modele liniarizabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3. Modele polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 4. Ipotezele modelului clasic de regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. Normalitatea erorilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Homoscedasticitatea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Autocorelarea erorilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Lipsa de coliniaritatea a erorilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Testarea ipotezelor n SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 5. Modele speciale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Variabile dummy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Modele ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Modele ANCOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 5 9 9 10 11 12 19 19 20 20 21 22 22 22 22 23 24 27 28 33 36 36 37 37 41 41 41 42 42 43 46 52 52 52 55 56 56 57 59 62 64 71 71 72 74

Capitolul 6. Modele pentru serii de timp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1. Componentele unei serii de timp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Estimarea trenului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Ajustarea seriilor sezoniere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tem de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabele probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78 78 81 85 91 93 94

Introducere
ntr-o economie de pia, unde fenomenele economice sunt din ce n ce mai complexe, specialistul din acest domeniu are nevoie de o pregtire superioar, constnd n cunotine multiple i profunde n vederea observrii i rezolvrii acestor fenomene pe baze tiinifice. Modelele econometrice analizeaz calitatea i cantitatea proceselor economice i evoluia lor. Econometria prin caracterul su general creeaz modele abstracte ale fenomenelor economice. Econometria este disciplina care s-a conturat ca o sintez ntre analiza matematic, statistica matematic i economie. Cursul de Econometrie, elaborat pe baza programei analitice aprobate n cadrul Catedrei de Informatic, se adreseaz studenilor care urmeaz specializarea: Contabilitate i Informatic de Gestiune, forma de nvmnt: nvmnt la distan. Unitatea de studiu este capitolul care, n esen, pune n eviden noiuni i concepte teoretice din baza de cunotine matematice, statistice i economice. n acest curs sunt prezentate: elementele de probabilitate i statistic matematic utilizate n ecomometrie, noiuni fundamentale ale econometriei, metodele care conin o variabil dependent i una independent ntre care poate exista o legtur de tip liniar sau neliniar, metodele de regresie multipl care conin cel puin dou variabile independente, principalele probleme legate de testarea ipotezelor unui model de regresie, restriciile de modelare ecomometric, modele speciale i modelele seriilor de timp. Scopul cursului este de asigura studenilor din anul III pregtirea econometric necesar nelegerii noiunilor i tehnicilor de specialitate cu referire la modelarea econometric. Obiectivele principale ale cursului pot fi sistematizate astfel: - nsuirea cunotinelor de probabilitate i statistic matematic utilizate n ecomometrie; - nsuirea cunotinelor necesare abordrii cantitative a fenomenelor economice; - formarea competenelor i abilitile necesare utilizrii instrumentelor econometrice de analiz; - dezvoltarea competenelor de analiz critic a valenelor i limitelor analizei cantitative: - rezolvarea i utilizarea modelelor econometrice la fundamentarea deciziilor: utilizarea pachetelor de programe la rezolvarea modelelor econometrice operaionale. Structura cursului ine seama de problematica tratat pentru aceeai specializare la forma de nvmnt zi, adaptat n funcie de specificul modului de organizare a nvmntului la distan. Timpul de studiu individual, estimat pentru parcurgerea materialului prezentat n curs este de 2 ore/sptmn. Mod de evaluare: examen scris conform planificrii din sesiunea de examene; nota final se stabilete, procentual, astfel: - test final: 30% - examen scris: 70% Recomandare: Cursurile de Matematici financiare i actuariale, Statistic i Economie.

Capitolul. 0. Elemente de probabilitate i statistic matematic utilizate n econometrie


n capitolul acesta sunt prezentate cteva elemente de baz din teoria probabilitilor i statisticii matematice i sunt studiate fenomenele ntmpltoare sau aleatoare, care au proprietatea de stabilitate a frecvenei apariiei lor n condiii identice. Noiunea central a acestei teorii este probabilitatea. Teoria probabilitilor i statistica matematic este una dintre ramurile importante ale matematicii, care se ocup cu studiul fenomenelor aleatoare (ntmpltoare, nesigure).

0.1. Cmp de evenimente i de probabilitate


Cmpul de evenimente este un concept fundamental n teoria probabilitilor i reprezint cadrul n care are sens noiunea de probabilitate (msur a anselor de realizare a unui eveniment). Ca noiuni primare n teoria probabilitilor se consider: experiena (experimentul), proba i evenimentul. n general, prin experien sau experiment se nelege realizarea practic a unui complex de condiii, n scopul cercetrii unui fenomen, ce conduce la obinerea unui rezultat. Experienele pot fi: deterministe i aleatoare . Experienele se caracterizeaz prin: posibilitatea de a fi repetate n condiii identice; cunoaterea rezultatelor sale posibile; imposibilitatea de anticipare a rezultatului. Definiia 0.1.1: Orice reluare a unei experiene se numete prob. Definiia 0.1.2: Prin eveniment nelegem orice rezultat pe care ni-l imaginm n legtur cu experiena dat. Evenimentele se noteaz, de obicei, cu litere mari ale alfabetului: A, B, C, ... Definiia 0.1.3: Orice rezultat posibil al unei experiene se numete eveniment elementar. Spunem c evenimentul elementar A s-a realizat ntr-o prob a experienei, dac rezultatul probei este A. Definiia 0.1.4: Evenimentele care nu sunt elementare vor fi numite evenimente compuse. Definiia 0.1.5: Considerm o experien cu un numr finit de rezultate posibile i fie E mulimea tuturor evenimentelor elementare sau compuse asociate acesteia. n mulimea E se disting dou evenimente remarcabile, i anume: evenimentul sigur (cert), notat prin , care se realizeaz la fiecare prob a experienei; - evenimentul imposibil, notat prin , care nu se realizeaz la nici o prob a experienei. Definiia 0.1.6: Un eveniment se numete ntmpltor sau aleator dac poate s apar sau s nu apar ntr-o prob a experimentului considerat. Fie A, BE. Operaii cu evenimente 1. A sau B este evenimentul care se realizeaz dac i numai dac se realizeaz cel puin unul dintre evenimentele A sau B. Acest eveniment se noteaz prin AB i se va numi reuniunea evenimentelor A i B. 2. A i B este evenimentul care se realizeaz dac i numai dac se realizeaz ambele evenimente A i B. Acest eveniment se noteaz prin AB i se va numi intersecia evenimentelor A i B. 3. non A este evenimentul care se realizeaz dac i numai dac nu se realizeaz evenimentul A. Acest eveniment se noteaz prin A i se va numi contrarul evenimentului A.

4. Diferena evenimentelor A i B este evenimentul care se realizeaz dac i numai dac se realizeaz simultan evenimentele A i B . Acest eveniment se noteaz prin A B. Avem: A B = A B . 5. Diferena simetric a evenimentelor A i B este evenimentul care se realizeaz dac i numai dac se realizeaz numai unul dintre cele dou evenimente. Acest eveniment se noteaz prin AB. Avem: AB = (A\B)(B\A). Relaii ntre evenimente 1. Implicaie notat . Spunem c evenimentul A implic evenimentul B i se scrie AB, dac n orice prob n care se realizeaz evenimentul A se realizeaz i evenimentul B; n acest caz se mai spune c evenimentul A este favorabil realizrii evenimentului B. 2. Echivalena , notat =. Evenimentele A i B se numesc echivalente i se scrie A=B, dac i numai dac AB i BA. Aceast relaie induce o ordine parial n E, adic oricare dou evenimente sau sunt echivalente, sau unul implic pe cellalt, sau nu sunt comparabile. Teorema 0.1.1: Mulimea evenimentelor asociate unui eveniment se mparte n clase de echivalen. 3. Compatibilitate. Evenimentele A i B sunt compatibile dac cel puin ntr-o prob a experienei ele se pot realiza simultan . Avem: AB (neechivalent cu ). 4. Incompatibilitate Evenimentele A i B sunt incompatibile dac nu sunt compatibile, adic n nici o prob a experienei ele nu se pot realiza simultan. Avem: AB = (echivalent cu ). Acceptm drept axiome urmtoarele proprieti ale operaiilor cu evenimente: - A ( B C ) = ( A B) C = A B C ; - A B = B A; - A A = A ; - A = ; - A = A; - A A = ; - A ( B C ) = ( A B) C = A B C ; - A B = B A; - A A = A ; - A = A; - A = ; - A A = ; - A ( B C ) = ( A B) ( A C ) ; - A ( B C ) = ( A B) ( A C ) ; - A ( A B) = A ; - A ( A B) = A ;

- A B = A B ; - A B = A B Prin inducie se pot demonstra proprietile: - formulele lui Morgan:


n n

U Ai = I Ai ;
i =1 i =1

I Ai = U Ai ;
i =1 i =1 n

n - A I Bi = I ( A Bi ) ; - A U Bi = U ( A Bi ) . i =1 i =1 i =1 i =1 Definiia 0.1.7: Spunem c evenimentele A i B sunt contrare ( opuse sau complementare ) dac sunt incompatibile i reuniunea lor este evenimentul sigur, adic AB = i A B = . n scopul axiomatizrii teoriei probabilitilor mulimea E, a tuturor evenimentelor asociate unei experiene, a fost organizat cu o structur specific, numit cmp de evenimente. Pentru introducerea acestui concept sunt necesare cteva elemente din teoria mulimilor. Fie o mulime nevid i P() mulimea prilor lui adic P() = {A, B, C, ... / A, B, C, ... }.

Definiia 0.1.8: Un eveniment elementar se identific cu o submulime a lui , format dintr-un singur element. Dac = {1, 2,..., n}, atunci evenimentele elementare sunt {1}, {2},..., {n}. Definiia 0.1.9: Un eveniment compus se identific cu o submulime a lui obinut prin reuniunea evenimentelor elementare ce i sunt favorabile. Definiia 0.1.10: Evenimentul sigur se identific cu mulimea . Cum orice eveniment elementar i este favorabil evenimentului sigur, rezult c va fi reuniunea tuturor evenimentelor elementare; dac = {1, 2, ..., n}, atunci evenimentul sigur = {1}{2} ... {n}. Definiia 0.1.11: Spaiul se mai numete i spaiul evenimentelor elementare. Definiia 0.1.12: Evenimentul imposibil se identific cu mulimea vid . n sfrit, mulimea E a tuturor evenimentelor asociate unei experiene se identific cu mulimea prilor lui , P().
a) Definiia clasic a probabilitii Considerm o experien cu un numr finit de rezultate posibile i fie E mulimea tuturor evenimentelor asociate (E este finit). Presupunem c toate evenimentele elementare au aceeai ans de realizare (sunt echiprobabile). Definiia 0.1.13: Se numete probabilitate, n sens clasic, a unui eveniment A din E numrul m P ( A) = , n unde n este numrul total de evenimente elementare din E, iar m este numrul evenimentelor elementare favorabile realizrii evenimentului A. Aadar, vom spune c m este numrul cazurilor favorabile realizrii evenimentului A, iar n este numrul cazurilor egal posibile. Se poate arta c probabilitatea n sens clasic este o funcie P : E [0, 1], cu urmtoarele proprieti: - P ( ) = 1; P ( A ) 0, () A E ;

P ( A B ) = P ( A ) + P ( B ) , dac evenimentele A i B sunt incompatibile, adic A B = .


b) Definiia statistic a probabilitii Considerm o experien cu un numr finit de rezultate posibile i fie E mulimea tuturor evenimentelor asociate (E este finit). Presupunem c toate evenimentele elementare au aceeai ans de realizare (sunt echiprobabile). Repetm experiena de n ori i fie nA numrul total de probe n care s-a realizat evenimentul A. n Definiia 0.1.14: Se numete frecvena relativ a evenimentului A, numrul f n ( A ) = A . n Dac numrul probelor este suficient de mare, s-a constatat c frecvena relativ a unui eveniment A se stabilizeaz n jurul anumitei valori. Aceast observaie a condus la urmtoarea definiie: Definiia 0.1.15: Se numete probabilitate, n sens statistic, a evenimentului A numrul P ( A ) = lim f n ( A ) .
n

Definiia statistic a probabilitii, pe lng restriciile evideniate la definiia clasic, are un caracter experimental i este puin formalizat din punct de vedere matematic.

c) Definiia axiomatic a probabilitii Definiia axiomatic a urmrit s elimine restriciile din definiiile anterioare, scop n care sa realizat, mai nti, modelarea matematic a mulimii evenimentelor ataate unei experiene, modelare ce a condus la conceptul de cmp de evenimente. Fie (, K ) un cmp finit de evenimente. Definiie 0.1.16: Se numete probabilitate pe acest cmp o funcie de mulimi P : K , care satisface axiomele: 1. P ( A ) 0, () A K 2. P ( ) = 1 ;

3. () A, B K , A B = P ( A B ) = P ( A ) + P ( B ) , spunem c funcia P este finit aditiv. Observaia: Este natural ca domeniul de definiie a funciei P s fie corpul finit de evenimente K, pentru a avea sens calculul unor probabiliti de forma: P(A B), P A , P(A B), P(A \ B), P( ), etc. Definiie 0.1.17: Se numete cmp finit de probabilitate un triplet de forma (, K, P), unde (, K) este un cmp finit de evenimente, iar P o probabilitate definit pe acest cmp. Observaia: Probabilitatea n sens clasic este un caz particular al probabilitii axiomatice. Teorema 0.1.1: Fie (, K, P) un cmp finit de probabilitate. Au loc proprietile: 1. P ( ) = 0 ; 2. P A = 1 P ( A ) , () A K ;

( )

( )

3. 0 P ( A ) 1, () A K ;

4. P ( A \ B ) = P ( A ) P ( A B ) , ( ) A, B K ;

5. Dac () A, B K , B A , atunci P ( A \ B ) = P ( A ) P ( B ) ; 6. Dac () A, B K , B A , atunci P ( A ) P ( B ) ; 7. P ( A B) = P( A) + P( B) P ( A B ), () A, B K ; 8. P ( AB) = P( A) + P( B) 2 P( A B), () A, B K ; 9. P ( A B) P( A) + P( B), () A, B K Definiia 0.1.18: Fie o mulime infinit (numrabil sau nenumrabil) i (, K) un cmp borelian de evenimente. Se numete probabilitate complet aditiv sau aditiv pe acest cmp o funcie de mulimi P : K , care satisface axiomele: 1. P ( A ) 0, () A K ; 2. P ( ) = 1 ; 3. () ( An )nIN * K ir de evenimente din K, cu Ai Aj = , i j , are loc:

P U An = P ( An ) . n =1 n =1 Definiia 0.1.19: Fie (, K, P) un cmp borelian de probabilitate i H o submulime nevid a lui K. O funcie de dou variabile P : KK se numete probabilitate condiionat dac: 1. P ( A \ B) 0 , () A K , B H ; 2. P ( B \ B) = 1 , () B H ; 3. P U An \ B = P( An \ B) , () ( An ) n * K , B H , Ai Aj = , i j ; n * n * P( A B \ C ) 4. P ( A \ B) = , () A K , B, C H , B C , P ( B \ C ) > 0 . P( B \ C ) Definiia 0.1.20: Tripletul (, K, P) se numete cmp condiionat de probabilitate.

Definiia 0.1.21: P( A \ B) 0 se numete probabilitatea evenimentului A condiionat de evenimentul B. Teorema II.2.2.1: Probabilitatea condiionat are urmtoarele proprieti: 1. P ( A \ B) = P( A B \ B) , () A K , B H ; 2. P ( A \ B) P( A \ B) , () A, A K , B H , A A ; 3. P ( A \ B C ) P( B \ C ) = P( A B \ C ) , () A, B K , B C H ; 4. P( \ B) = 1 , () B H ; 5. P ( A \ B) 1 , () A K , B H ; 6. P( \ B) = 0 , () B H ; 7. P( A \ B) = 0 , dac A B = . Definiia 0.1.22: Fie (, K, P) un cmp borelian de probabilitate , H = { B K

P( B) > 0} i P :

KH . Se numete probabilitatea evenimentului A condiionat de evenimentul B, notat P(A/B), raportul: P ( A B) P ( A / B) = . P ( B)

Definiia 0.1.23: Cmpul (, K, H, P) se numete cmp condiionat de probabilitate generat de (, K, P). Observaia: Deoarece condiionarea evenimentelor nu este o proprietate reciproc avem, n general: P(A/B) P(B/A). Propoziia II.2.2.1: Funcia PA : K , PA ( B ) = P ( B / A ) este o probabilitate finit aditiv pe cmpul de evenimente (, K). Definiia 0.1.24: Fie (, K, P) un cmp de probabilitate cu P finit aditiv. Evenimentele A,BK se numesc P - independente sau independente dac: P ( A B ) = P ( A) P ( B ) . Definiia 0.1.25: Evenimentele A, B K se numesc dependente dac: P ( A B ) = P ( A ) P ( B / A ) , P ( A ) 0 sau P ( A B ) = P ( B ) P ( A / B ) , P ( B ) 0 . Observaia: Dac P ( A ) P ( B ) 0 , atunci dependena evenimentelor A i B se caracterizeaz prin: P ( A B ) = P ( A ) P ( B / A ) = P ( B ) P ( A / B ) . Propoziia II.2.2.2: Dac evenimentele A, B K sunt independente, atunci sunt independente i perechile de evenimente: A, B , A, B , A, B .

) (

) (

0.2. Formule de calcul cu probabiliti


0.2.1. Probabilitatea evenimentului reuniune i intersecie
Probabilitatea unei reuniuni de evenimente depinde de compatibilitatea sau incompatibilitatea evenimentelor. Fie (, K, P) un cmp de probabilitate. Dac A, B K sunt dou evenimente incompatibile, adic A B = , n conformitate cu axioma P3) din definiia probabilitii, avem: P ( A B ) = P ( A) + P ( B )

Teorema 0.2.1.1: Fie A1 , A2 , K , An K un sistem de evenimente incompatibile dou cte dou. Probabilitatea realizrii cel puin a unui eveniment este dat de relaia: n n P U Ai = P ( Ai ), Ai Aj = , i j i =1 i =1 Teorema 0.2.1.2: Dac A, B K sunt dou evenimente oarecare, avem urmtorul rezultat: P ( A B ) = P ( A ) + P ( B ) P ( A B ) (relaia lui Boole).) Teorema 0.2.1.3: Fie A1 , A2 , K , An K un sistem de evenimente oarecare. Probabilitatea realizrii cel puin a unui eveniment este dat de formula lui Poincar: n n n n n n 1 P U Ai = P ( Ai ) P ( Ai Aj ) + P ( Ai Aj Ak ) + ... + ( 1) P I Ai . i , j =1 i , j , k =1 i =1 i =1 i =1
i< j i< j <k

Fie (, K, P) un cmp de probabilitate i A, BK dou evenimente independente. Din definiia evenimentelor independente avem: P ( A B ) = P ( A) P ( B ) Teorema 0.2.1.4 Fie A1, A2, ... , An K un sistem de n evenimente independente n totalitate. Probabilitatea realizrii simultane a celor n evenimente este dat de relaia: n n P I Ai = P ( Ai ) i =1 i =1 Teorema 0.2.1.5 Fie A1, A2, ... , An K un sistem de n evenimente dependente n ordinea indicilor. Probabilitatea realizrii simultane a celor n evenimente este dat de relaia: n 1 n P I A i = P(A1 ) P(A 2 A 1 ) P(A 3 A 1 A 2 )LP A n I A i i =1 i =1 Observaia: Dac A1, A2, ... , An K reprezint un sistem de evenimente compatibile i independente, probabilitatea realizrii cel puin a unui eveniment se poate calcula cu formula: n n P U Ai = 1 1 P ( Ai ) i =1 i =1

0.2.2. Formula probabilitii totale. Formula lui Bayes


Fie (, K, P) un cmp finit de probabilitate. Definiia 0.2.2.1: Evenimentele A1, A2, ... , An K, o familie cel mult numrabil de evenimente, formeaz un sistem complet de evenimente (partiie a evenimentului sigur), dac: n U Ai = ; i =1 A A = , i, j = 1, n, i j. j i
Formula probabilitii totale Teorema 0.2.2.1: Fie A1, A2, ... , An K un sistem complet de evenimente cu P(Ai) 0, () i{1, 2, ... , n} i A K, un eveniment oarecare. n aceste condiii are loc relaia:

P ( A ) = P ( A1 ) P ( A / A1 ) + P ( A2 ) P ( A / A2 ) + ... + P ( An ) P ( A / An ) = P ( Ai ) P ( A / Ai )
i =1

10

Formula lui Bayes Teorema 0.2.2.2: Fie A1, A2, ... , An K un sistem complet de evenimente cu P(Ai) 0, () i{1, 2, ... , n} i A K un eveniment oarecare cu P(A) 0. n aceste condiii are loc relaia: P ( Ai ) P ( A / Ai ) P ( Ai / A ) = n . P ( Ai ) P ( A / Ai )
i =1

Inegalitatea lui Boole Teorema 0.2.2.3: Fie (, K, P) un cmp borelian de probabilitate i ( Ai ) K , i I , o familie cel mult numrabil de evenimente. Atunci: P I Ai 1 P( Ai ) . iI iI

0.3. Scheme clasice de probabilitate


Prin scheme clasice de probabilitate se neleg anumite procedee de calcul ale probabilitii definite n sens clasic. Ele au fost elaborate pe experiene cu urne, dar pot fi aplicate unui numr mare de experiene aleatoare care respect anumite condiii.

0.3.1. Schema urnei cu bile nerevenite (schema hipergeometric)


Considerm o urn cu N bile dintre care a bile sunt albe i N a bile sunt negre. Se fac n N extrageri succesive, la ntmplare, fr a repune bilele extrase napoi n urn (echivalent cu a extrage n bile deodat). Probabilitatea evenimentului ca din cele n bile extrase, un numr de x bile s fie albe, este: C x C n x Pn ( x ) = a n N a , unde max {0, a + n N } x min {a, n} . CN

0.3.2. Schema urnei cu bile nerevenite, cazul mai multor culori


Se consider o urn cu N bile i urmtoarea structur pe culori: a2 bile de culoarea c2, , as bile de culoarea cs, a1 bile de culoarea c1,

a
i =1

= N , s 3.

Se extrag n N bile deodat (sau, succesiv, fr revenire). Probabilitatea evenimentului ca dintre cele n bile extrase : x1 bile s fie de culoarea c1, x2 bile s fie de culoarea c2, , xs bile s fie de culoarea cs, este: Cax11 Cax22 L Caxss Pn ( x1 , x2 ,K , xs ) = . n CN

0.3.3. Schema lui Poisson


Considerm n urne U1, U2, ... , Un, care conin bile albe i bile negre de aceeai mrime i greutate, n diferite proporii. Se extrage, la ntmplare, cte o bil din fiecare urn. 11

Fie evenimentele:

Ai bila extras din urna Ui este alb,

Ui este neagr, ale cror probabiliti sunt cunoscute: pi = P ( Ai ) ; qi = 1 pi = P Ai , i = 1, n.

Ai bila extras din urna

( )

Probabilitatea ca din cele n bile extrase, x bile s fie albe este egal cu coeficientul lui tx din dezvoltarea polinomului de gradul n: Qn ( t ) = ( p1 t + q1 ) ( p2 t + q2 ) ... ( pn t + qn ) .

0.3.4. Schema urnei cu bile revenite (schema binomial, schema lui Bernoulli)
Considerm o urn care conine bile albe i negre de aceeai mrime i form. Efectum n extrageri succesive, nregistrm culoarea bilei i introducem, de fiecare dat, bila napoi n urn. Fie evenimentele: A extragerea unei bile albe, A extragerea unei bile negre. Presupunem cunoscute probabilitile: P ( A ) = p, P A = q = 1 p.

( )

Probabilitatea evenimentului ca din cele n bile extrase un numr de x bile s fie albe, este: Pn ( x ) = Cnx p x q n x .

0.3.5. Schema multinominal


Considerm o urn care conine bile de k culori. Fie evenimentele Ai extragerea unei bile de culoarea ci, i = 1, k cu probabilitile cunoscute P ( Ai ) = pi , i = 1, k . Efectum n extrageri succesive, la ntmplare, cu revenirea bilei n urn dup fiecare extragere. Probabilitatea ca din cele n bile extrase, xi bile s fie de culoarea ci, i = 1, k , este: n! x p1x1 p2 2 ... pkxk . Pn ( x1 , x2 ,K , xk ) = x1 ! x2 ! ... xk !

0.4. Variabile aleatoare i repartiii clasice


Variabila aleatoare este o noiune fundamental n teoria probabilitilor i este modelat matematic cu ajutorul conceptului de cmp de probabilitate. Definiia 0.4.1: Fie (, K, P) un cmp (borelian) de probabilitate. Se numete variabil aleatoare unidimensional pe acest cmp, o funcie definit pe spaiul evenimentelor elementare cu valori reale, X : X : X ( ) , cu proprietatea: (1) { / , X ( ) x} K , () x . Proprietatea (1) impune ca mulimea evenimentelor elementare pentru care X() < x, () x s fie un eveniment ataat aceleai experiene. Mulimea dat n proprietatea (1) se mai noteaz { / X ( ) x} sau (X < x), iar X() este valoarea variabilei aleatoare. Definiia 0.4.2: Fie (, K, P) un cmp (borelian) de probabilitate i X :
aleatoare. Funcia F : o variabil

F ( x ) = P { / X ( ) x} = P ( X x ) , () x , se numete

not

funcie de repartiie a variabilei aleatoare X. Propoziia 0.4.1: Orice funcie de repartiie are proprietile caracteristice:

12

R1 ) 0 F ( x ) 1, () x . R2 ) lim F ( x ) = F ( + ) = 1; lim F ( x ) = F ( ) = 0. R3 ) P ( a X b ) = F ( b ) F ( a ) , cu a b. R4 ) F este nedescrescatoare pe , adica () a, b R, a b F ( a ) F ( b ) . , adic: lim F ( x ) = F ( x0 0 ) = F ( x0 ) .


x x0 x x0 not
x + x not not

R5) F este continu la stnga n orice punct x0

Definiia 0.4.3: Variabila aleatoare X se numete variabil aleatoare simpl dac ia un numr finit de valori, adic X() = {x1, x2, ..., xn} . Definiia 0.4.4: Variabila aleatoare X se numete variabil aleatoare discret dac mulimea valorilor sale este cel mult numrabil, adic X() = {xi / i I, I * }. Definiia 0.4.5: Corespondena dintre valorile variabilei aleatoare discrete X i probabilitile matematice (calculate apriori) cu care aceste valori sunt luate se numete repartiia discret a variabilei aleatoare X. Aceast repartiie se indic cu ajutorul unui tablou (tablou de repartiie, tablou de distribuie) de forma: x x L xn xi , pentru variabile aleatoare simple sau (1) X : 1 2 sau X : p1 p2 L pn pi i =1, n

x1 x2 L xi L xi , pentru variabile aleatoare discrete, sau X : p1 p2 L pi L pi iI N * unde, n ambele cazuri, pi = P(X = xi). Repartiia determin complet o variabil aleatoare discret n sensul c la variabile aleatoare discrete diferite corespund repartiii diferite i reciproc. Deoarece pe prima linie a tabloului de repartiie au fost trecute toate valorile pe care variabila aleatoare discret le ia i, cum dou valori distincte nu pot fi luate simultan, rezult c evenimentele (X = xi) formeaz un sistem complet de evenimente, adic: n U ( X = xi ) = U ( X = xi ) = , respectiv ( 2 ') iI (1') i =1 ( X = xi ) ( X = x j ) = , i j ( X = xi ) ( X = x j ) = , i j

( 2) X :

n (1) i (2), aplicnd formula de calcul a probabilitii reuniunii evenimentelor incompatibile, obinem: pi 0, i = 1, n p 0, i I * n i , respectiv ( 2 '') p = 1. (1'') pi = 1 i i I i =1 Condiiile (1) sau (2) trebuie verificate atunci cnd decidem dac un tablou de forma (1) sau (2) este tablou de repartiie pentru o variabil aleatoare simpl, respectiv discret. Pentru variabila aleatoare simpl sau discret X, funcia de repartiie este dat de expresia F ( x ) = pi , () x ,
{i / xi x}

i indic probabilitatea ca variabila aleatoare X s ia valori strict la stnga lui x.


13

Definiia 0.4.6: Fie (, K, P) un cmp (borelian) de probabilitate. Variabila aleatoare X : se numete continu, dac exist o funcie real f : [0, ) , integrabil pe , astfel nct F ( x) =

f ( t ) dt ,

unde F(x) este funcia de repartiie a lui X. n acest caz funcia f se numete densitate de probabilitate (de repartiie), iar expresia f(x) dx se numete probabilitate elementar. ale variabilei aleatoare continue X i f(x) se Definiia 0.4.7: Corespondena dintre valorile x numete repartiie (continu) a variabilei aleatoare X. x Vom scrie X : , x . f ( x) Propoziia 0.4.2: Funcia f(x) are urmtoarele proprieti caracteristice:
a ) f ( x ) 0, () x

b)

f ( x ) dx = 1.

Definiia 0.4.8: Fie (, K, P) un cmp (borelian) de probabilitate. Variabilele aleatoare simple yj xi sunt independente, dac X : , Y : qj pi i =1,n
j =1, m

P ( X = xi ) (Y = y j ) = P ( X = xi , Y = y j ) = P ( X = xi ) P (Y = y j ) = pi q j ,
not

() i = 1, n, () j = 1, m. yj xi , Y : sunt independente, dac Variabilele aleatoare discrete X : qj pi iI N * jJ N *

P ( X = xi ) (Y = y j ) = P ( X = xi , Y = y j ) = P ( X = xi ) P (Y = y j ) = pi q j , () i I , j J . x y Variabila aleatoare continue X : , Y : sunt independente, dac f ( x) g ( y)


not

P ( X x ) (Y y ) = P ( X x, Y y ) = P ( X x ) P (Y y ) = FX ( x ) FY ( y ) , () x, y , unde FX i FY sunt funciile de repartiie ale celor dou variabile. Fie (, K, P) un cmp (borelian) de probabilitate i X, Y: , dou variabile aleatoare definite pe acest cmp. Definiia 0.4.9: Se numete variabil aleatoare bidimensional (vector aleator bidimensional), o funcie definit pe spaiul evenimentelor elementare cu valori n 2, Z: 2 Z() = (X(), Y()), () .. n acest caz variabilele aleatoare X i Y se numesc variabile aleatoare marginale. O variabil aleatoare bidimensional se va nota, pe scurt, Z = (X, Y). 2 Definiia 0.4.10: Funcia F : definit astfel F(x, y) = P(X< x, Y < y), () (x,y) 2 se numete funcie de repartiie a variabilei aleatoare bidimensionale Z =(X,Y). Definiia 0.4.11: Variabila aleatoare Z = (X,Y) se numete variabil aleatoare bidimensional discret dac variabilele marginale X i Y sunt discrete.

not

14

n acest caz, mulimea: Z() = (X(), Y()) = {(xi, yj)/(i, j) I x J, I * , J * } este cel mult numrabil. Dac I i J sunt mulimi finite de indici, atunci Z este variabil aleatoare bidimensional simpl. Repartiia variabilei Z (corespondena dintre valori i probabiliti) se deduce cu ajutorul repartiiilor marginale. Fie X, Y cu repartiiile: q j 0 pi 0 yj xi X : , pi = P ( X = xi ) , p = 1, Y : , q j = P (Y = y j ) , q = 1. q i pi iI * i I j j jJ * jJ ( xi , y j ) Repartiia variabilei aleatoare Z = (X, Y), se scrie: Z : , pij = P ( X = xi , Y = y j ) . p ij ( i , j )I J adic: Deoarece evenimentele (X = xi, Y = yj)(i,j)IxJ formeaz un sistem complet de evenimente, U U ( X = xi , Y = y j ) = , iI j J ( X = xi , Y = y j ) ( X = x p , Y = yl ) = , pentru ( i, j ) ( p, l )

deducem c probabilitile pij satisfac urmtoarele proprieti caracteristice p 0, () ( i, j ) I J , ij p = 1. ij i I j J ntre probabilitile pij, pi, qj exist urmtoarele relaii: pij = pi i pij = q j .
j J i I

Definiia 0.4.12: Se numete media variabilei aleatoare X, numrul real notat cu M(X), dat de xi pi , dac X este de tip discret , iI M (X ) = x f ( x ) dx, dac X este continu. Propoziia 0.4.3: Media unei variabile aleatoare are urmtoarele proprieti: (1) M(a) = a, () a (2) M(aX) = a M(X), () a (3) M(a + X) = a + M(X), () a (4) M(X + Y) = M(X) + M(Y) (5) M(XY) = M(X) M(Y), dac X i Y sunt variabile aleatoare independente. Definiia 0.4.13: Se numete dispersia variabilei aleatoare X, un numr nenegativ notat D2(X), definit prin egalitatea D2(X) = M[(X M(X))2] . Din definiia mediei unei variabile aleatoare, obinem pentru dispersie urmtoarele formule de calcul ( x M ( X ) )2 p , dac X este de tip discret ; i iI i 2 D (X ) = x M ( X ) 2 f ( x ) dx, dac X este continu. Propoziia 0.4.4: Proprieti ale dispersiei:

15

2. D2(a) = 0, () a 1. D2(X) = M(X2) M2(X) 3. D2(aX) = a2D2(X), () a 4. D2(a + X) = D2(X), () a 2 2 2 5. D (X + Y) = D (X) + D (Y), n ipoteza c X i Y sunt variabile aleatoare independente. Definiia 0.4.14: Definim abatere medie ptratic, astfel D ( X ) = D 2 ( x ) . Definiia 0.4.15: Se numete momentul centrat de ordinul k, k N, al variabilei aleatoare X, momentul iniial de ordinul k al variabilei X M(X) (abaterea fa de medie a variabilei aleatoare X), adic: k(X) = mK(X M(X)) = M[(X M(X))k] Definiia 0.4.16: Se numete funcie de regresie a lui Y n raport cu X, funcia dat de Ry ( x ) = M (Y / X = x ) , x . Graficul acestei funcii se numete curba de regresie a lui Y fa Analog, se definete de X. Rx ( y ) = M ( X / Y = y ) , y .
funcia de regresie a lui X n raport cu Y:

Definiia 0.4.17: Se numete covariana dintre variabilele aleatoare X i Y, notat cov(X, Y), momentul centrat de ordinul (1,1) al vectorului aleator bidimensional Z=(X, Y), adic cov ( X , Y ) = 1,1 = M ( X M ( X ) ) (Y M (Y ) ) .

Propoziia 0.4.5 (proprieti ale covariaiei) 1. cov ( X , Y ) = M ( XY ) M ( X ) M (Y ) . Dac X , Y sunt independente cov ( X , Y ) = 0, 2. Dac cov ( X , Y ) = 0 nu rezult c X i Y sunt independente, Dac cov ( X , Y ) 0 X , Y sunt dependente. 3. cov ( X , Y ) = cov (Y , X ) ; cov ( X , X ) = D 2 ( X ) .
4. cov ( X , b ) = 0; cov ( a, Y ) = 0; () a, b . 5. cov ( aX , bY ) = ab cov ( X , Y ) ; () a, b . cov ( X 1 + X 2 , Y ) = cov ( X 1 , Y ) + cov ( X 2 , Y ) 6. cov ( X , Y1 + Y2 ) = cov ( X , Y1 ) + cov ( X , Y2 ) . Definiia 0.4.18: Se numete coeficientul de corelaie dintre variabilele X i Y, un numr notat (X,Y) dat de relaia cov ( X , Y ) ( X ,Y ) = D ( X ) D (Y )

unde D(X) este abaterea ptratic a lui X, D ( X ) D (Y ) 0, D ( X ) = D 2 ( X ) . Observaie: Se utilizeaz i notaiile: D 2 ( X ) = 2 ( X ) = 2 ; D ( X ) = ( X ) = X = . Propoziia 0.4.6 (proprieti ale coeficientului de corelaie) 1. Dac X i Y sunt independente (X,Y) = 0, Dac (X,Y) = 0 nu rezult c X i Y sunt independente (X, Y necorelate), Dac (X,Y) 0 X i Y sunt dependente. 2. 1 (X,Y) 1 3. ntre variabilele X i Y exist o dependen liniar de forma Y = aX + b ( X , Y ) = 1 .
a 0

4. (X,X) = 1, (X,X) = 1, cu D(X) 0.

16

Definiia 0.4.19: Se numete matricea de covarian (corelaie) a variabilei Z, matricea cov(X, Y ) cov(X, X ) cov(X, Y ) D 2 (X ) C= . = D 2 (Y ) cov(Y, X ) cov(Y, Y ) cov(X, Y ) Definiia 0.4.20: O variabil aleatoare X are o repartiie uniform discret dac admite o repartiie de forma 1 2 L x L n x 1 X : , unde px = P ( X = x ) = , () x = 1, n. sau X : n p1 p2 L px L pn px x =1, n 1 Definiia 0.4.21: Funcia f : {1, 2,K , n} [ 0,1] , f ( x ) = , k = 1, n se numete legea de repartiie n uniform discret. Definiia 0.4.22: O variabil aleatoare X are o repartiie binomial de parametrii n i p, dac admite o repartiie de forma 0 1 L x L n x x n x X : , unde px = P ( X = x ) = Cn p q , p > 0, q > 0, p + q = 1, n p0 p1 L px L pn Definiia 0.4.23: Funcia f : {0,1,K , x,K , n} [ 0,1] , f ( x ) = px = Cnx p x q n x se numete legea de
repartiie binomial. Mulimea variabilelor aleatoare cu repartiia binomial de parametri n i p se noteaz B(n, p). Definiia 0.4.24: O variabil aleatoare X are o repartiie hipergeometric de parametrii n, a, N, dac admite o repartiie de forma x C xC n x , unde px = P ( X = x ) = a nN a ; a *, n *. X : CN px x = x , x
0 1

n Cax CN xa Definiia 0.4.25: Funcia f ( x ) = se numete legea de repartiie hipergeometric. n CN Definiia 0.4.26: O variabil aleatoare X are o repartiie Poisson de parametru , dac admite o repartiie de forma x x X : , unde px = e , > 0, x . x! px

x! Definiia 0.4.28: Variabila aleatoare continu X are o repartiie uniform continu dac admite densitatea de repartiie (probabilitate) 1 , x [ a, b ] , b > a 0, f ( x) = b a 0, n rest. Funcia f se numete legea de repartiie uniform continu Definiia 0.4.29: Variabila aleatoare X are repartiia normal (Gauss-Laplace) de parametrii m i , dac admite densitatea de probabilitate (de repartiie)
1 f ( x) = e 2 2

Definiia 0.4.27: Funcia f ( x ) = px =

e se numete legea de repartiie Poisson.

1 xm

, x , m , > 0.

17

Mulimea variabilelor aleatoare cu repartiia normal de parametrii m i se noteaz cu N(m, ). Funcia f se numete funcia de repartiie normal. Definiia 0.4.30: Variabila aleatoare X are repartiia gama de parametri a i b, dac admite densitatea de repartiie x 1 x a 1 e b , x > 0, a > 0, b > 0, f ( x ) = ba ( a ) 0, x 0. Funcia f se numete legea de repartiie gama. Definiia 0.4.31: Variabila aleatoare X are o repartiie exponenial negativ dac admite densitatea de repartiie e x , x > 0, > 0, f ( x) = 0, x 0. Funcia f se numete legea de repartiie exponenial negativ. Definiia 0.4.32: Variabil aleatoare X are repartiia 2 de parametrii n i , X H ( n, ) dac admite densitatea de repartiie:
x n 2 1 1 2 2 x e , x>0 n 2 n n f ( x) = 2 2 0 , x 0. Funcia f se numete legea de repartiie hi-ptrat. Definiia 0.4.33: Variabila aleatoare X are repartiia beta de parametrii a i b, dac admite densitatea de repartiie b 1 1 a 1 a, b x (1 x ) , x ( 0,1) , a > 0, b > 0, ) f ( x) = ( 0 , n rest. Funcia f se numete legea de repartiie beta. Definiia 0.4.34: Variabila aleatoare X are repartiia Student cu n grade de libertate, x S ( n )

dac admite densitatea de repartiie n +1 n +1 x 2 2 2 1+ f ( x) = , x , n *. n n n 2 Funcia f se numete legea de repartiie Student.

Rezumat
Noiuni importante: Experiment, prob, eveniment, evenimentul sigur, evenimentul imposibil, operaii cu evenimente, relaii ntre evenimente, evenimente contrare, eveniment elementar, eveniment compus, probabilitate, probabilitate complet aditiv, probabilitate condiionat, probabilitate independent, probabilitate dependent, sistem complet de evenimente, scheme clasice de probabilitate, schema urnei cu bile nerevenite, schema urnei cu bile nerevenite cazul

18

mai multor culori, schema lui Poissson, schema urnei cu bile revenite, variabil aleatoare unidimensional, funcie de repartiie, variabil aleatoare simpl, variabil aleatoare discret, tablou de repartiie, variabil aleatoare independent, variabil aleatoare bidimensional, media variabilei aleatoare, dispersia, abatere medie ptratic, momentul centrat de ordinul k, funcie de regresie, covariana dintre variabilele aleatoare X i Y, coeficientul de corelaie, matricea de covarian, repartiie uniform discret, legea de repartiie uniform discret, repartiie binomial de parametrii n i p, legea de repartiie binomial, repartiie hipergeometric de parametrii n, a, N, legea de repartiie hipergeometric, repartiie Poisson, legea de repartiie Poisson, repartiie uniform continu, legea de repartiie uniform continu, repartiia normal (Gauss-Laplace) de parametrii m i , repartiia gama, repartiie exponenial negativ, repartiia 2 de parametrii n i , repartiia beta de parametrii a i b, repartiia Student cu n grade de libertate. Formule importante: Formula proprietile condiionate, formula evenimentelor dependente, formula evenimentelor independente, relaia lui Boole, formula lui Poicare, formula probabilitii totale, formula lui Bayas, inegalitatea lui Boole, formula din schema urnei cu bile nerevenite, formula din schema urnei cu bile nerevenite cazul mai multor culori, , formula din schema lui Poissson, , formula din schema urnei cu bile revenite. Teoreme importante: Proprietile probabilitii, proprietile probabilitii condiionate.

Capitolul 1. Introducere n modelarea econometric


n acest capitol, sunt prezentate noiunile fundamentale ale econometriei ca disciplin tiinific. Sunt vizate: definiia econometriei, obiectul, metoda i scopul acesteia, cteva repere istorice ale dezvoltrii econometriei, demersul metodologic, conceptele de baz i notaiile utilizate.

1.1. Ce este econometria?


Termenul econometrie a fost introdus n anul 1926 de ctre economistul i statisticianul norvegian R. Frisch prin analogie cu termenul biometrie" utilizat de Galton i Pearson. Aa cum "biometrie" desemna cercetrile biologice cu ajutorul statisticii i matematicii, econometria avea s nsemne studiul economiei cu ajutorul acestor tiine fundamentale. Fondatorii Societii de Econometrie (1930) au definit econometria astfel: "the quanlitative analysis of actual economic phenomena based on the concurrent development of theory and observation, related by appropriate methods of inference". Econometria este o disciplin care s-a conturat ca o sintez ntre economie, matematic i statistic.. Economie Econometrie Statistic Matematic Din economie provin teoriile economice, din matematic modelele teoretice care exprim teoriile economice, iar din statistic datele empirice i metodele de prelucrare a acestora.

19

Pe baza datelor din economie, econometria construiete modele (expresii cantitative) pentru realitile economice studiate care au un corespondent n teoriile economice. Prin procedeele de inferen statistic, econometria estimeaz parametrii modelelor i realizeaz predicii asupra realitii studiate. Obiect: Aria de studiu a econometriei este realitatea economic privit ca un ansamblu de relaii i intercondiionri. Econometria studiaz legturile dintre fenomenele economice, dintre diferite componente ale economiei n ansamblul su. Metod: Econometria studiaz realitile economice sub aspect cantitativ, utiliznd metoda statisticii. Econometria contribuie la cunoaterea realitii economice prin modul su specific de a surprinde cantitativ relaiile din viaa economic real cu ajutorul unui instrument specific: modelul econometric. Scop: Scopul principal al econometriei este identificarea, estimarea i testarea modelelor, prin care se surprind relaiile dintre fenomenele economice reale.

1.2. Repere istorice


Econometria este o disciplin tiinific relativ nou, dezvoltat ncepnd cu mijlocul secolului trecut. Totui, primele ncercri de a cuantifica i exprima cantitativ relaiile dintre fenomenele reale sunt mult mai vechi i dateaz din secolul al XVII-lea. coala Aritmeticii politice engleze: Un studiu asupra genezei econometriei ne-ar conduce la nceputurile secolului al XVII-lea cnd englezul W. Petty pune bazele "aritmeticii politice" prin care se foloseau sistematic fapte i cifre n elaborarea unor studii legate de populaie, finane, comer exterior sau impozitare. Laboratoarele biometrice engleze: La sfritul secolului al XIX-lea i nceputul secolului al XX-lea, n Anglia se desfura o activitate tiinific remarcabil de cercetare a legilor naturii i a geneticii umane. Printre figurile ilustre ale acestei coli se numr F. Gallun, K. Pearson, R.A. Fisher, F.Y. Edgeworth, ale cror lucrri fundamentale au contribuit la dezvoltarea metodelor de analiz a legturilor dintre variabile. Societatea de econometric: La 29 decembrie 1930, la Cleveland (S.U.A.) a fost ntemeiat "Societatea de Econometrie", instituie care a creat i promovat termenul de "econometrie". Dintre membrii societii, menionm cele mai importante figuri: Irving Fisher, R. A. Fisher (matematician i biolog, care a dezvoltat analiza dispersional), Jan Timbergen (fizician olandez), Trygve Haavelmo, R. Frisch (primul preedinte al societii) .a. Mari gnditori ai secolului XX: Econometria se dezvolt prin contribuia unor cercettori importani, din diferite direcii ale cercetrii; producie, Cobb C.W. i Douglas P.H.; cererea de consum, K. Schultz, P.A. Samuelson; teoriile economice i construirea modelelor, J. Timbergen, T. Haavelmo, R. Frisch, L.R. Klein, H.Theil; studiul riscului i incertitudinii n economie, modele macroeconomice, J.M. Kcynes.

1.3. Concepte
n cercetarea econometric se utilizeaz o serie de concepte, noiuni i termeni specifici: model, variabile, parametri, estimator, estimaii etc.

20

Modelul econometric: Modelul este o schem simplificat a realitii care are rolul de a explica realitatea studiat n dimensiunile ei fundamentale, eseniale. Modelul econometric este o prezentare formalizat a problemei sau a realitii economice studiate. De regul, modelul econometric este o ecuaie sau un sistem de ecuaii construit pe baza variabilelor statistice. Variabile: n cercetarea econometric se utilizeaz variabile statistice ntre care exist relaii de interdependen. Tipuri de variabile: variabile dependente, numite i variabile rezultative sau efect, rezultat; variabile independente, numite i variabile factoriale sau factori de influen care determin un anumit efect asupra variabilei rezultat. Alturi de aceste dou categorii de variabile, n econometrie se utilizeaz o categorie special: variabilele reziduale sau eroare. De regul, aceste variabile apar n model ca sum a tuturor influenelor necunoscute sau care nu apar explicit n model. n cercetarea econometric, variabila eroare este o variabil aleatoare care respect anumite proprieti numite i ipoteze clasice. Parametri: Parametrii modelului econometric, numii i coeficieni de regresie, sunt mrimi reale i necunoscute care apar n model n diferite expresii alturi de variabile. Parametrii fac obiectul procesului de estimare i testare statistic. Estimatori: Estimatorii sunt variabile aleatoare, convenabil construite n procesul de estimare, cu distribuii de probabilitate cunoscute i cu proprieti specifice n baza crora se realizeaz procesul de estimare a parametrilor modelului econometric. Notm parametrul cu simbolul i un estimator al acestuia cu . n procesul de estimare, cele mai importante proprieti ale estimatorilor sunt: nedeplasarea - un estimator este nedeplasat dac media sau sperana matematic a acestuia este egal cu parametrul. Un estimator nedeplasat verific relaia relaia: M ( ) = . Dac relaia nu este respectat, atunci estimatorul este deplasat. convergena - un estimator este convergent dac pentru un eantion cu volum suficient de mare irul estimatorilor converge ctre parametru. Pentru un estimator convergent are loc relaia: lim P < = 0 , pentru orice (0,1)
n

eficiena - estimatorul este eficient dac are dispersia sau variana cea mai mic dintre toi estimatorii posibili pentru parametru . Estimaii: Estimaiile sunt valori ale estimatorilor calculate la nivelul unui eantion sau set de date reale observate din realitate.

1.4. Demers metodologic


Modelarea econometric se poate rezuma sintetic la parcurgerea urmtoarelor etape: formularea problemei n termeni economici, pornind de la o teorie sau o problem economic; identificarea variabilelor care instrumenteaz problema; identificarea tipului i formei legturii dintre variabile, dup o analiz atent a fenomenului real i a teoriei economice; propunerea unuia sau a mai multor modele care explic realitatea studiat prin relaii de dependen ntre variabile;

21

estimarea parametrilor modelului sau modelelor propuse, pe baza metodelor statistice cunoscute; testarea modelului sau modelelor i alegerea celui mai bun model; aplicarea n practic sau realizarea de predicii pe seama modelului.

1.5. Notaii
n lucrare, se vor utiliza urmtoarele notaii: Y- variabila dependent; Xi - variabilele independente, i = 1, k , unde k este numrul de factori; - variabila rezidual sau eroare; Y = f ( X i ) + - modelul econometric; , - parametrii modelului, i = 1, k ; , - estimatorii parametrilor modelului, i = 1, k ;
i i i i

ai , bi - estimaii ale parametrilor modelului, i = 1, k ;

n - volumul eantionului.

Rezumat
Noiuni importante: Econometria, modelul econometric, tipuri de variabile, parametrii modelului econometric, estimatorii, estimaiile, modelarea econometric.

Capitolul 2. Modele de regresie simpl


n acest capitol, sunt prezentate cele mai simple modele econometrice - modelele care conin o variabil dependent i o variabil independent ntre care poate exista o legtur de tip liniar sau una neliniar.

2.1. Modelul liniar simplu


Modelul liniar simplu presupune c ntre cele dou variabile exist o dependeni dup modelul unei ecuaii de gradul nti sau c ntre variabile exist o relaie de proporionalitate.

2.1.1. Prezentarea problemei. Exemple din economic


Modelul liniar simplu este cel mai simplu model econometric sau cea mai simpl schem explicativ a dependenei dintre dou variabile. n economie exist situaii n care un rezultat sau un fenomen poate fi explicat ntr-o proporie ridicat doar de influena unui singur factor. Acest factor apare n modelul econometric drept variabil independent, iar restul influenelor este preluat de variabila rezidual. Exemple din economie de modele liniare simple 1) Funcia de consum - cererea sau consumul populaiei pentru o anumit categoric de mrfuri este o funcie de venit Ci = + Vi + i , unde parametrul arat de cte ori crete consumul unui anumit produs ( Ci ) la o cretere cu o unitate a venitului i este de regul pozitiv.

22

2) Legea cererii - cererea populaiei pentru o anumit categorie de mrfuri este n funcie de preul acestor produse Ci = + Pi + i , unde parametrul este de regul negativ i arat cu ct scade cererea la o cretere a preului cu o unitate.

2.1.2. Prezentare model i ipoteze


Modelul de regresie liniar simpl exprim legtura dintre dou variabile i ia forma: Y = + X + Relaia de mai sus se numete ecuaie de represie i reprezint funcia liniar YX = + X plus eroarea . Variabilele din ecuaie sunt: Y - variabila dependent, aleatoare; X- variabila independent, nonaleatoare; - variabila aleatoare eroare sau reziduu. Ipotezele modelului de regresie vizeaz variabila rezidual i variabila independent. Cele mai importante ipoteze sunt: normalitatea erorilor: i N (0, 2 ) , adic variabila rezidual urmeaz o lege de repartiie normal de medie zero i varian 2 ; homoscedasticitate: V ( i ) = M ( i2 ) = 2 , adic variana erorii este constant la nivelul distribuiilor condiionate de tipul Yi X = xi ; necorelarea erorilor: cov( i , j ) = 0 , adic erorile nu se influeneaz reciproc; lipsa corelaiei dintre variabila independent i variabila eroare: cov( i , xi ) = 0 . Parametrii ecuaiei de regresie sunt: - ordonata la origine arat valoarea variabilei Y cnd X = 0; (Simbolul utilizat aici nu trebuie confundat cu simbolul ce desemneaz pragul de semnificaie al unui test.) - panta dreptei, numit i coeficient de regresie. n ecuaia de regresie i sunt parametri necunoscui. Semnul parametrului de regresie indic direcia legturii dintre cele dou variabile corelate: - > 0 legtur direct (pozitiv); - = 0 nu exist legtur; - < 0 legtur invers {negativ). Parametrul de regresie arat gradul de dependen dintre variabile, respectiv cu ct crete sau scade Y la o cretere sau la o scdere a variabilei X cu o unitate. Variabila Y condiionat de X este de medie y = + X . O valoare yi a variabilei condiionate Yi X = xi , i = 1, n se poate scrie: yi = + xi + i

Fig. 1. Legi condiionate ale variabilei Y de X

23

2.1.3. Estimarea parametrilor modelului


n practic, determinarea parametrilor la nivelul populaiei totale nu este posibil de realizat, fapt care impune estimarea parametrilor. Valoarea parametrilor de regresie se estimeaz pe baza estimatorilor i . Folosind date nregistrate asupra unui eantion de n perechi de observaii asupra variabilelor X i Y, se calculeaz estimaiile a i b ale parametrilor i .
A. Estimarea punctual a parametrilor ecuaiei de regresie La nivelul unui eantion modelul de regresie ia forma: Y = a + bX + e . n relaia de mai sus, notm prin Yx = a + bX funcia liniar a lui Y n funcie de X, unde a i b reprezint valori ale estimatorilor i , respectiv estimaii ale parametrilor i , calculate la nivelul unui eantion de volum n. Se consider acei estimatori, i ai parametrilor i , pentru care valoarea ei a variabilei eroare , adic distana dintre o valoare observat, yi, i o valoare estimat a ecuaiei de regresie la nivelul eantionului, y xi = a + bxi , s fie ct mai mic. Adic:

ei = yi y xi = yi (a + bxi ) s fie minim pentru orice valoare "i" a variabilei X. Estimarea parametrilor se poate face pornind de la diferite criterii, cum ar fi: 1. min { ei }

e : 3. (e )
2.
i

1 i n

minim : minim

De regul, n practic se utilizeaz ultimul criteriu, care definete metoda celor mai miei ptrate (MCMMP). Aplicarea MCMMP presupune minimizarea expresiei: S = ei2 = ( yi y xi ) = minim nlocuind valoarea y xi , obinem: S = ( yi a bxi ) 2 = minim Rezolvarea problemei de minim impune dou condiii: 1. anularea derivatelor pariale de ordinul nti ale lui S n raport cu a i b; 2. matricea derivatelor parialele ordinul doi s fie definit pozitiv. 1. Derivatele pariale de ordinul nti: S a = 2 ( yi a bxi )(1) = 0 S = 2 ( y a bx )( x ) = 0 i i i b cu i = 1, n , din care obinem un sistem de ecuaii normale sub forma: na + b xi = yi , i = 1, n . 2 a xi + b xi = xi yi 2. Derivatele pariale de ordinul doi:

24

este pozitiv definit, deoarece n xi2 ( xi ) = n 2 > 0


2

2S 2S 2S = xi , = 2 xi2 = 2n , 2 2 ab b a Matricea derivatelor pariale de ordinul doi: n xi 2 xi xi

Prin rezolvarea sistemului de ecuaii normale printr-una din metodele cunoscute (metoda determinanilor, metoda Doolittle etc.) se obin estimaiile a i b. Aplicnd metoda determinanilor, se obin pentru a i b urmtoarele relaii de calcul: 2 b n xi yi xi yi a yi xi xi xi yi , a= , i = 1, n b= = = 2 2 n xi2 ( xi ) n xi2 ( xi )

a = y bx n relaia de mai sus, a i b reprezint valori de sondaj, estimaii ale parametrilor i , calculate la nivelul unui eantion prin aplicarea metodei celor mai mici ptrate.

B . Estimarea prin interval de ncredere Estimarea prin interval de ncredere se bazeaz pe distribuiile de selecie ale estimatorilor i ai parametrilor i . Pentru modelul liniar simplu, se poate demonstra c estimatorii parametrilor urmeaz o lege de distribuie normal i sunt nedeplasai: X i2 2 2 2 i N ( , ) ; M ( ) = ; V ( ) = ; = 2 2 n ( X i X )
i

2 2 2 N ( , ) ; M ( ) = ; V ( ) = ; =

(X
i

2
i

X )2

Estimaii: - pentru variana erorilor 2 : se2 =

e
i

2 i

n2

( y a bx )
i i i

2 - pentru variana estimatorului : s = 2 - pentru variana estimatorului : s =

x n ( x x )
2 i i i i

n2
2

se2

se2 ( xi x )2
i

Intervalul de ncredere pentru coeficientul de regresie estimat pentru un eantion observat este definit de relaia: b t / 2 s . Analog, pentru parametrul , se determin intervalul: a t / 2 s .

25

Exemplu. Considernd datele din tabelul 1, se cere s se estimeze parametrii modelului de regresie corespunztor. Tabelul 1. Date convenionale ngrminte Producie medie de gru-ha (u.p) (X) (Y) 1,0 10 2,0 15 3,0 20 4,0 30 5,0 40 Corelograma din figura 2 evideniaz o legtur direct, liniar ntre cantitatea de ngrminte i producia obinut la hectar. Prin urmare, pentru cazul considerat, estimarea produciei n funcie de cantitatea de ngrminte se efectueaz cu ajutorul ecuaiei de regresie liniar: y = a + bx + e . Elementele de calcul necesare pentru determinarea parametrilor ecuaiei de regresie sunt sistematizate n tabelul 2.

Fig. 2. Legtura dintre cantitatea de ngrminte i producia medie de gru/ ha Ecuaia estimat este: y x = a + bx = 0,5 + 7,5 x Estimaia parametrului de regresie , lund valoare pozitiv, arat c legtura ntre variabilele X i Y este direct. De asemenea, scoate n eviden gradul de dependen dintre variabile, i anume la o cretere a lui X cu o unitate (uc/ha), Y crete n medie cu 7,5 uniti. xi 1 1 2 3 4 5 yi 2 10 15 20 30 40
2 i

Tabelul 2. Elemente de calcul y xi xi yi xi x yi2 4 5 10 100 30 225 60 400 120 900 200 1600 420 3225 6 8,0 15,5 23,0 30,5 38,0 115,0 7 -2 -1 0 1 2 -

( xi x ) 2 8 4 1 0 1 4 10

3 1 4 9 16 25 55

15 115

26

2.1.4. Testarea parametrilor modelului


Formularea ipotezelor Testarea semnificaiei coeficientului de regresie pleac de la formularea urmtoarelor ipoteze: H0 : = 0 H1 : 0 Dac respingem ipoteza H0, cu un prag de semnificaie ales, atunci legtura dintre cele dou variabile X i Y este semnificativ. n practica economic se consider, de regul, un = 0, 05 , adic se consider un risc de 5% de a respinge pe ipoteza H0, atunci cnd aceasta ar fi adevrat. Test: Pentru testarea semnificaiei coeficientului de regresie se folosete statistica definit de raportul t: t= .

n ipoteza H0, statistica t =

0 = devine: t = care este o statistic ce

urmeaz o lege de repartiie Student de ( n 2 ) grade de libertate. b La nivelul unui eantion observat, raportul t se scrie: t = . s Estimaia varianei estimatorului parametrului de regresie , la nivelul unui eantion
se2 observat, se calculeaz dup relaia: s = . ( xi x )2
2

Pentru un prag de semnificaie , se citete din tabelul Student o valoare teoretic a testului t / 2;n 2 care va fi comparat cu valoarea calculat la nivelul eantionului observat. Se utilizeaz un risc / 2 pentru determinarea valorii teoretice deoarece distribuia Student este simetric, iar suprafaa de respingere ( ) este mprit n dou pri egale ( / 2 ) - vezi figura 3. Calculul estimaiei varianei erorii. Pe baza exemplului de mai sus s-au calculat: b = 7,5 i ( xi x )2 = 10 (coloanele 7 i 8 din tabelul 2). Valorile s i se se pot calcula pe baza
i

elementele de calcul din tabelul 3. Estimaia variantei erorii este: s

n2 Tabelul 3. Calculul reziduului ( ei = yi y xi ) yi 10 15 20 30 40 115 yx ei ei2 8,0 2,0 4,00 15,5 -0,5 0,25 23.0 -3,0 9,00 30,5 -0,5 0,25 38,0 2,a 4,00 115 0,0 17,50

2 e

e =

2 i

17,5 = 5,83 . 52

27

2 Estimaia variantei estimatorului : s = Calculul raportului Student: tcalc =

se2 5,83 = = 0,583 i s = 0, 76376 2 ( xi x ) 10


i

b 7,5 = = 9,8198 s 0, 76376

Regula de decizie. Pentru un risc = 0, 05 , dac tcalc > t / 2;n 2 se respinge ipoteza H0, adic

coeficientul de regresie este considerat semnificativ diferit de 0 (se accept H1 : 0 ). Distribuia de selecie a estimatorului coeficientului de regresie este reprezentat n figura 3. n exemplul considerat tcalc = 9,8198 , iar din tabelul Student citim, pentru / 2 = 0, 025 i n 2 = 3 , t0,025;3 = 3,182 . Ca urmare, pentru tcalc > t0,025;3 , coeficientul de regresie este semnificativ diferit de 0, adic variabila X explic variabila Y.

Fig. 3. Distribuia de selecie a estimatorului i intervalul de ncredere

Determinarea intervalului de ncredere. Intervalul de ncredere pentru coeficientiul de regresie , considernd un risc / 2 , este prezentat n figura 3 i este definit de: b t / 2 s

Astfel, folosind datele din exemplul considerat anterior, pentru un risc = 0, 05 , gsim la nivelul eantionului urmtorul interval de ncredere: (7,50,76376-3,182). Putem spune c ne asumm un risc de 5% ca valoarea adevrat a coeficientului de regresie, , s nu fie acoperit de intervalul [5,07; 9,93]. Dac intervalul de ncredere pentru ar conine valoarea 0, atunci nu s-ar respinge ipoteza H0, ceea ce nu este cazul n exemplul nostru, deci factorul X influeneaz semnificativ variabila Y.

2.1.5. Coeficientul de corelaie i coeficientul de determinaie


Alturi de stabilirea liniei de regresie, care exprim modelul legturii ntre variabile este necesar s se msoare i intensitatea legturii. Aceasta arat gradul de concentrare sau de mprtiere a valorilor yi n jurul liniei de regresie yx. Intensitatea legturii se poate msura cu ajutorul coeficientului de corelaie i a raportului de corelaie. O apreciere aproximativ a intensitii legturii dintre variabile se poate obine prin aplicarea metodelor neparametrice. 28

Coeficientul de corelaie Se folosete pentru msurarea legturii n cazul unei regresii liniare simple. Pentru dou variabile aleatoare X i Y, la nivelul unei populaii de volum N, coeficientul de corelaie teoretic se noteaz cu ( X , Y ) i este definit de relaia: ( x x )( yi y ) cov( X , Y ) i i = ( X ,Y ) = , i = 1, N x y N x y n care: - cov( X , Y ) - covariana; - xi , yi , x , y - valorile variabilelor corelate i nivelul mediu al acestora;

- N - numrul perechilor de valori; - x , y - abaterea medie ptratic pentru X, respectiv Y. Comparnd relaia de determinare a coeficientului de regresie cu cea a coeficientului de corelaie se constat c ntre aceti indicatori exist urmtoarea legtur:

( X ,Y ) =

x y

din care rezult c semnul coeficientului de corelaie coincide cu semnul coeficientului de regresie, deoarece x , y 0 . Valoarea coeficientului de corelaie este cuprins ntre -1 i +1: 1 +1 Cele dou valori extreme reprezint o legtur liniar perfect (funcional) ntre cele dou variabile, "pozitiv", respectiv "negativ". Valoarea 0 semnific absena legturii ntre cele dou variabile. Pentru o populaie de volum N, coeficientul de corelaie este un parametru care trebuie estimat.
Estimarea coeficientului de corelaie Un estimator pentru este , care are ca valori posibile coeficienii de corelaie empirici, determinai la nivelul eantioanelor posibil de extras printr-o metod de sondaj. n acest sens, la nivelul unui eantion de volum n, se determin coeficientul de corelaie empiric propus de K. Pearson:

( x x )( yi y ) cov( X , Y ) i i =1 = ryx = sx s y n sx s y care reprezint o estimaie pentru parametrul . Dezvoltnd relaia de mai sus, se obine o formul de calcul simplificat al coeficientului de corelaie empiric bazat pe elementele calculate deja cu ocazia calculrii coeficientului de regresie: n xi yi xi yi , i = 1, n . ryx = n x 2 ( x )2 n y 2 ( y )2 i i i i Folosind datele din tabelul 1, intensitatea legturii dintre cantitatea de ngrminte i producia medie de gru la hectar se determin, pe baza relaiei de mai sus, astfel:

29

5 55 (15 )2 5 3225 (115 )2 Valoarea obinut este foarte apropiat de +1, deci ntre cele dou variabile exist o legtur direct foarte strns.

ryx =

5 420 15 115

375 = 0,98479 380, 79

Testarea coeficientului de corelaie Testarea coeficientului de corelaie se face n scopul de a verifica dac variabila factorial considerat (X) influeneaz semnificativ variaia variabilei rezultative (Y). Se pleac de la emiterea ipotezei H0, considerndu-se pentru variaia lui X i Y un = 0 . Ipoteza nul H0 : = 0 Ipoteza alternativ: H1 : 0 Verificarea ipotezei H0 se face cu ajutorul testului t pentru coeficientul de corelaie simpl. Testul t (Student), folosit pentru verificarea semnificaiei coeficientului de corelaie simpl, este: n2 = . t= 1 2

t este o statistic Student cu ( n 2 ) grade de libertate.


este estimatorul abaterii medii ptratice a lui (estimatorul lui ): =

1 2 n2

La nivelul unui eantion observat, se obin relaiile: t =

ryx Valoarea calculat a lui t se compar cu valoarea teoretic obinut din tabelul t, pentru n-2 grade de libertate i pentru nivelul de semnificaie stabilit. Dac tcalc > ttab. , atunci se respinge H0 i se trage concluzia c ntre variabilele cercetate exist o legtur semnificativ, deci coeficientul de corelaie este semnificativ statistic. Considernd legtura dintre cantitatea de ngrminte i producia medie de gru la hectar, prezentat prin datele din tabelul 1, cu un numr de 5 valori x i y, pentru care s-a gsit coeficientul de corelaie ryx = 0,98 , se calculeaz testul t astfel: = 8,53 . 1 0,982 n tabelul t, la n 2 = 3 grade de libertate i pentru un nivel de semnificaie = 0, 01 , gsim t = 5,841 . Comparnd tcalc cu ttab. observ c: tcalc = 8,53 > ttab. = 5,841 , prin urmare se respinge ipoteza nul i deci coeficientul de corelaie are valoare semnificativ.
Raportul de corelaie Este un indicator al intensitii legturii ce poate fi aplicat att n cazul regresiei liniare ct i a celei neliniare simple sau multiple. Raportul de corelaie este notat cu i se definete prin relaia:

1 ry2x r r n2 = , s = Sr n2 1 r2 reprezint coeficientul de corelaie simpl, iar n - numrul perechilor de valori x i y.

t=

0,98 5 2

30

2 2 y y/ y = sau = 1 2 . 2 y y
x x

n care:

, reprezint varianta general, respectiv variana variabilei Y n raport n cu media tuturor valorilor; ( yxi Y )2 , variana valorilor teoretice fa de media lor (variana sub influena 2 yx = n factorilor eseniali); ( yi yxi )2 , variana valorilor reale fa de valorile teoretice ale variabilei (varianta 2 y / yx = n rezidual). Variana general este egal cu suma celorlalte dou variane componente: 2 2 2 y = yx + y / yx respectiv, variana total ( VT ) este suma variaiei explicate ( VE ) i a variaiei reziduale (VR ) adic: VT = VE + VR . Descompunerea pe componente a variaiei unei variabile Y dintr-un model de regresie i relaiile dintre ele sunt reprezentate grafic n diagrama 4. Analiza variaiei pe componente, ilustrat grafic n figura 4, ne arat c raportul de corelaie msoar ponderea variaiei explicat prin linia de regresie n variaia total. Ca urmare, valoarea raportului de corelaie este un numr cuprins n intervalul: 0 1 . Valoarea 1 arat existena unei legturi funcionale, respectiv, cazul cnd variaia variabilei Y depinde numai de variaia variabilei X, variana rezidual fiind egal cu zero.

2 y

( y y) =
i

Fig. 4. Descompunerea pe componente a dispersiei unei variabile Y, ntr-un model de regresie: a) variana total; b) variana explicat; c) variana rezidual; d) relaia ntre componente.

31

Valoarea la ptrat a raportului de corelaie reprezint raportul de determinaie: 2 =

2 y 2 y

i arat ponderea influenei factorului X asupra variaiei variabilei Y. Acest indicator se exprim, de regul, n procente pentru a facilita interpretarea rezultatelor. 2 2 Prin explicitarea celor dou variante y / yx i y , din raportul de corelaie i efectuarea unor transformri elementare se ajunge la calculul acestuia pe baza valorilor parametrilor ecuaiei de regresie din modelul admis. n cazul regresiei liniare ( y = + x + ) raportul de corelaie devine:

yi + xi yi

2 1 ( yi ) N , i = 1, N . 2 1 2 yi N ( yi )

Estimarea raportului de corelaie Ca i n cazul coeficientului de corelaie teoretic, pentru raportul de corelaie se pune problema estimrii. ntr-un sondaj statistic, la nivelul unui eantion observat, se poate determina raportul de corelaie pe baza valorilor empirice: 2 1 a yi + b xi yi ( yi ) n yx = , i = 1, n . 2 1 2 yi n ( yi ) Valoarea yx reprezint o estimaie a parametrului , iar a i b sunt estimaii ale

parametrilor i . Aplicnd relaia raportului de corelaie la datele din exemplul din acest capitol, se obine: 1 2 0,5 115 + 7,5 420 (115 ) 562,5 5 yx = = = 0,98 1 2 580 3225 (115 ) 5 2 Raportul de determinaie ( = 98% ) estimeaz c variaia variabilei Y este determinat n proporie de 98% de factorul X, diferena pn la 100% s-ar datora factorilor aleatori. 2 Dac valoarea la ptrat a raportului de corelaie ( yx ) este egal cu valoarea la ptrat a liniar.

2 coeficientului de corelaie empiric ( ry2x ), conform testului B (Blackman ry2x = yx ), legtura este

Testarea raportului de corelaie Testul F folosit pentru verificarea semnificaiei raportului de corelaie este definit de

relaia:
F= n k 2 k 1 1 2

32

n care n reprezint numrul valorilor observate; k - numrul parametrilor estimai ai modelului de regresie; - estimatorul raportului de corelaie. Statistica F urmeaz o lege de distribuie Snedecor-Fishcr de v1 = k 1 i v2 = n k grade de libertate. La nivelul unui eantion observat, se determin valoarea calculat a testului: F= n k yx 2 k 1 1 yx
2

Dac Fcalc. > Ftab. = F ,v1 ,v2 cu v1 = k 1 i v2 = n k grade de libertate, atunci se trage concluzia c variabila factorial influeneaz semnificativ comportarea variabilei rezultative, deci raportul de corelaie este semnificativ statistic.

2.1.6. Regresia liniar simpl n SPSS


Procesul de estimare a parametrilor unui model de regresie n SPSS este cunoscut ca fitting the model" i presupune parcurgerea demersului: meniul Analyze comanda Regression opiunea Linear, prin care se deschide fereastra de dialog Linear Rcgression (vezi Fig. 5).

n fereastra dialog Linear Rcgression selectm variabilele considerate i le mutm n zonele de lucru corespunztoare. n exemplul nostru (vezi Tabelul 9.1), selectm variabila rezultativ prod i o mutm n zona Dependent, iar variabila factorial ingras n zona Independent. n zona Case Labels mutm firma. Tabelul 4. Cantitatea de ngrminte i producia de gru la ha firma ingras prod 1 a 1,00 10,00 2 b 2,00 15,O0 3 c 3,00 20,00 d 4,00 30.00 4 5 e 5,00 40.00

33

n continuare se parcurg urmtorii pai: - Alegem din lista Method, ca metod de lucru, opiunea Enter; - Activm butonul de comand Statistics care deschide fereastra de dialog Linear Regression: Statistics n care bifm casetele de validare: Estimates, Confidence intervals, Model fit i Descriptives (vezi Fig. 6); - Butonul de comand Continue determin revenirea n fereastra Linear Regression n care activm butonul Plots, care deschide fereastra Linear Regression: Plots; n fereastra de dialog Linear Regression: Plots selectm i mutm SRESID n zona Y, respectiv ZPRED n zona X. Pentru Standardized Residual Plots bifm casetele de validare Histogram i Normal probability plot; - Butonul de comand Continue determin revenirea n fereastra Linear Regression n care activm butonul Save; - n fereastra Linear Regression: Save (vezi Fig.7), pentru Predicted Values bifm caseta Unstandardized, pentru Prediction Intervals bifm caseta Mean, iar pentru Residuals alegem Unstandardized; - Acionm butonul de comand Continue pentru a reveni n fereastra Linear Regression; - Butonul OK comand obinerea output-ului n fereastra de rezultate i a valorilor estimate n fiierul Data Editor.

n fiierul Data Editor, n foaia Data View, SPSS completeaz coloane distincte cu valorile estimate pentru variabila dependent, valorile reziduale i limitele inferioar i superioar ale intervalului de ncredere. Pentru exemplul considerat, rezultatele estimrii sunt prezentate n Tabelul 5.

34

Tabelul 5. Valori estimate, pentru producia de gru la ha, pe baza eantionului de firme prezentate n Tab.4
firma a b c d e ingras. 1.00 2.00 3.00 4.00 5.00 prod. 10.00 15.00 20.00 30.00 40.00 pre_1 8.00 15.50 23.00 30.50 38.00 res_1 2.00 -0.50 -3.00 -0.50 2.00 Imci_1 2.04619 11.29002 19.56257 26.29002 32.04619 umci_1 13.95381 19.70998 26.43743 34.70998 43.95381

Fereastra de rezultate - Output-ul, pentru analiza de regresie, conine: Model Summary, ANOVA, Coefficients, Normal P-P plot i Scatterplot. Tabelul Model Summary prezint valoarea coeficientului de corelaie (R), valoarea raportului de determinaie (R2), valoarea ajustat a lui R i eroarea standard a estimaiei. Pentru exemplul considerat, Model Summary este prezentat n Tabelul 6 (vezi i output-ul din tabelul. 6) Tabelul 6. Model Summary, cazul regresiei simple
Model R R Square 1 .985 .970 a .Predictors: (Constant), Cantitatea de ngrminte la ha b Dependent Variable: Producia de gru la ha Adjusted R Square .960 Std. Error of the Estimate 2.4152

Valoarea R arat dac exist sau nu o corelaie ntre variabila dependent (rezultativa Y) i variabila independent (factoriala X). Acest indicator ia valori ntre -l i 1. Interpretarea modelului. n interpretarea modelului se folosete coeficientul de determinaie, R2 . Raportul de determinaie, R2, arat proporia variaiei variabilei dependente explicate prin modelul de regresie i este folosit pentru a evalua calitatea ajustrii (alegerea modelului). R2 ia valori ntre 0 i 1. Dac R2 este egal cu 0 sau are o valoare foarte mic, atunci modelul de regresie ales nu explic legtura dintre variabile, relaia dintre variabila dependent i variabila independent nu coincide cu modelul ales, de exemplu, liniar. Dac R2 este egal cu 1, atunci toate observaiile cad pe linia de regresie, deci, modelul de regresie explic perfect legtura dintre variabile. Ca urmare, R2 este folosit pentru a stabili care model de regresie este cel mai bun. Aceast metod de alegere a modelului de regresie potrivit este recomandat pentru modelele care nu conin un numr mare de variabile. Pentru exemplul considerat, a rezultat o valoare R=0.985, respectiv, R2 = 0.970, ceea ce ne arat c ntre cantitatea de producie/ha i cantitatea de ngrminte/ha exist o legtur liniar, direct, foarte strns. Tabelul Regression ANOVA prezint rezultatele analizei variantei variabilei dependente sub influena factorului de regresie i a factorului reziduu. Adic, prezint informaii asupra sumei ptratelor abaterilor variabilei dependente, datorate modelului de regresie i factorului reziduu, gradele de libertate, estimaiile variantelor datorate celor dou surse de variaie (regresie i reziduu), raportul F i Sig. (vezi Tabelul 7).

Tabelul 7. ANOVA pentru regresie


Model 1 Regression Residual Total a Predictors: (Constant), Cantitatea de ngrminte la ha b Dependent Variable: Producia de gru la ha Sum of Squares 562.500 17.500 580.000 df 1 3 4 Mean Square 562.500 5.833 F 96.429 Sig. .002

35

Statistica test F se obine ca raport ntre media ptratelor abaterilor datorate regresiei i media ptratelor abaterilor datorate reziduului, calculate cu gradele de libertate corespunztoare. Aceast statistic test este folosit pentru testarea modelului de regresie, adic a ipotezei prin care se presupune ca panta dreptei ( 1 ) este 0, respectiv, pentru regresia multipl, 1 ,..., p = 0 .

Dac testul F ia o valoare mare, iar valoarea Sig. corespunztoare statisticii F este mic (mai mic dect 0,05), atunci variabila independent explic variaia variabilei dependente i invers. n exemplul considerat, valoarea Sig. pentru F este mai mic dect 0,05, deci relaia liniar dintre cele dou variabile considerate este semnificativ (vezi Tabelul 7). Tabelul 8. Coeficienii de regresie
Unstandardized Coefficients Model 1 (Constant) Cantitatea de ngrminte la ha a. Dependent Variable: Producia de gru la ha B Std. Error .500 7.500 .533 .764 .985 Beta .197 .820 .856 .002 Standardized Coefficients t Sig.

Coeficienii de regresie. Tabelul Coefficients (vezi Tabelul 8) prezint coeficienii nestandardizai ai modelului de regresie estimat, erorile standard ale acestora, coeficienii de regresie standardizai cu erorile standard corespunztoare, precum i valorile statisticii test t i valorile Sig. corespunztoare. Coeficienii de regresie standardizai sunt folosii atunci cnd ntr-un model intr mai multe variabile independente exprimate n uniti de msur diferite, n scopul facilitrii comparrii acestora. Testarea parametrilor modelului de regresie se face cu ajutorul testului t, pentru a afla care este probabilitatea ca fiecare parametru s fie nul : H0 : = 0 Pentru exemplul dat, valoarea (Sig.=0.002) este mai mic dect 0.05, artnd c (panta dreptei de regresie) corespunde unei legturi semnificative ntre cele dou variabile.

2.2. Modelul neliniar simplu


2.2.1. Prezentarea problemei i exemple din economie
O mare parte a legturilor dintre variabilele din domeniul economic se ncadreaz n urmtoarele modele: parabolic, hiperbolic, exponenial, pe care le vom prezenta n continuare. O alt parte se aduc la forma modelului liniar prin logaritmare i se trateaz ca atare. Un exemplu clasic de model neliniar este modelul care explic relaia dintre inflaie i omaj, iar curba reprezentat cu ajutorul celor dou variabile se numete curba lui Philips. Curba are la baz un model reciproc sau hiperbolic de forma: 1 ri = + + , si unde, r este rata inflaiei, iar s este rata omajului. 36

2.2.2. Modele liniarizabile


Modelele liniarizabile sunt modelele neliniare care permit, n urma unor transformri, construirea de modele liniare. Astfel de modele sunt; exponenial, hiperbolic, putere .a. Ecuaia estimat a modelului de regresie de tip hiperbolic este: b y = a+ +e x Estimaiile parametrilor modelului se afl pe baza sistemului: 1 n a + b x = yi i a 1 + b 1 = yi xi xi2 xi
Ecuaia estimat a modelului de regresie de tip exponenial are forma: y = a bx . Pentru orice eantion, expresia poate fi liniarizat prin logaritmare: log y x = log a + x log b Aplicnd metoda celor mai mici ptrate, pentru un eantion observat se obine sistemul: n log a + log b xi = log yi 2 log a xi + log b xi = xi log y Rezolvarea sistemului de mai sus permite aflarea relaiilor prin care se determin estimaiile modelului. Ecuaia estimat a modelului de regresie de tip putere are forma: yx = a xb Pentru orice eantion, expresia poate fi liniarizat prin logaritmare: log y x = log a + b log x Aplicnd metoda celor mai mici ptrate, pentru un eantion observat se obine sistemul: n log a + b log xi = log yi 2 log a log xi + b (log xi ) = log xi log y

2.2.3. Modele polinomiale


Cel mai simplu model polinomial este modelul parabolic. Ecuaia estimat a modelul de regresie de tip parabolic are forma: y = a + b x + c x 2 + e Pentru calculul estimaiilor parametrilor la nivelul unui eantion, aplicnd metoda celor mai mici ptrate, se rezolv sistemul: n a + b xi + c xi2 = yi 2 3 a xi + b xi + c xi = xi yi 2 3 4 2 a xi + b xi + c xi = xi yi

37

Exemplu. Admitem c ntre numrul de pomi la hectar (X) i producia medie la hectar (Y) exist o legtur. Pentru a cunoate legtura dintre cele dou variabile s-au nregistrat datele cuprinse n tabelul 9. Tabelul 9. Date convenionale Nr. Crt. X Y 1 2 3 1 20 21,2 2 25 23,0 3 30 24,3 4 35 28,8 5 40 27.5 6 45 28.7 7 50 29,0 8 55 28,5 9 60 27,8 Se cere: 1. S se stabileasc forma i direcia legturii dintre cele dou variabile prin metoda grafic; 2. S se determine valorile ajustate ale lui Y dup funcia de regresie corespunztoare legturii; 3. S se calculeze intensitatea legturii dintre variabilele admise. Rezolvare: 1. Corelograma, reprezentnd legtura dintre numrul de pomi la hectar (X) i producia medie la hectar (Y), este prezentat n figura 8. Reprezentarea grafic a celor dou variabile arat o legtur direct de forma unei parabole. 2. Ecuaia de regresie corespunztoare legturii dintre cele dou variabile este de forma: yx = a + b x + c x 2

Fig. 8. Legtura dintre numrul de pomi la hectar i producia medie la hectar Pentru determinarea valorilor ajustate ale tui Y se estimeaz parametrii ecuaiei prin rezolvarea sistemului: n a + b x + c x 2 = y 2 3 a x + b x + c x = x y 2 2 3 4 a x + b x + c x = x y Sumele din sistem se obin cu ajutorul tabelului de calcul nr. 10. nlocuind sumele se obine sistemul:

38

9 a + 360 b + 15900 c = 238,8 360 a + 15900 b + 756000 c = 9813 15900 a + 756000 b + 37882500 c = 440915

Pentru rezolvarea acestui sistem se poate folosi procedeul excluderii succesive a primului coeficient. n acest scop se mparte prima ecuaie cu 9, a doua ecuaie cu 360 i a treia ecuaie cu 15900 i se obine: a + 40 b + 1766, 6667 c = 26,5333 a + 44,1667 b + 2100 c = 27, 2583 a + 47,5472 b + 2382,5471c = 27, 7305 Din ecuaia a doua i ecuaia a treia se scade prima ecuaie: 4,1667 b + 333,3334 c = 0, 7250 7,5472 b + 615,8804 c = 1,1972 Se mparte prima ecuaie cu 4,1667, iar a doua cu 7,5472 i se obine: b + 79,9999 c = 0,1739 b + 81, 6938 c = 0,1586 Din ecuaia a doua se scade prima ecuaie: 1, 6039 c = 0, 0153 de unde, 0, 0153 c= = 0, 0095 1, 6039 nlocuim valoarea lui c n una din ecuaii: b + 79,9999 c = 0,1739 , de unde b = 0,9338 , iar prin nlocuirea lui c i a lui b n prima ecuaie obinem: a + 40 b + 1766, 6667 c = 26,5333 , de unde a = 5,9646 Pe baza valorilor parametrilor, ecuaia de regresie va fi: y x = 5,9646 + 0,9338 x + (0, 0095) x 2 x 1 20 25 30 35 40 45 50 55 60 360 y 2 21,2 23,0 24,3 28,8 27.5 28.7 29,0 28,5 27,8 238,8 Tabelul 10. Elemente de calcul x3 x2 3 4 400 8000 625 15625 900 27000 1225 42875 1600 64000 2025 91125 2500 125000 3025 166375 3600 216000 15900 756000 x4 5 160000 390625 810000 1500625 2560000 4100625 6250000 9150625 12960000 37882500

39

x 6 20 25 30 35 40 45 50 55 60 360

xy 7 424 575 729 1008 1100 1291,5 1450 1567,5 1668 9813

x2 y 8 8480 14375 21870 35280 44000 58117,5 72500 86212,5 100080 440915

yx = a + b x + c x 2 9 21,0426 23,3721 25,4286 27,0101 28,1166 28,7481 28,9046 28,5861 27,7926 239

y2 10 449,44 529 520,49 829,44 756,25 823,69 841 812,25 772,84 6404,4

Semnul parametrilor de regresie arat c la o cretere a numrului de pomi la hectar (X) corespunde o cretere a produciei medii la hectar (Y) pn la un anumit punct, dup care nivelul acesteia scade, prin urmare ecuaia admite un maxim. Valoarea lui (X) pentru care (Y) este maxim se poate determina cu ajutorul ecuaiei de regresie, calculnd i anulnd prima derivat: 0,9338 + 2(0, 0095) x = 0 de unde, 0,9338 x= = 49,1473 = 49 pomi 0, 019 Pentru un numr de 49 de pomi la hectar, producia medie la hectar va fi: y x = 5,9646 + 0,9338 49 + (0, 0095) 492 = 28,9303 uniti de producie la hectar. Pentru un numr mai mare de 49 pomi la hectar, producia medie scade. Astfel, pentru 50 pomi producia este: y x = 5,9646 + 0,9338 50 + (0, 0095) 502 = 28,9046 uniti de producie la hectar. 3. Intensitatea legturii dintre cele dou variabile se stabilete cu ajutorul raportului de corelaie, calculat dup relaia: 2 1 a yi + b xi yi + c xi2 yi ( yi ) n yx = = 2 1 2 yi n ( yi ) = 5,9646 238,8 + 0.9338 9813 + (0, 0095) 440915 6404, 4 1 2 ( 238,8 ) 9 = 0,8139 = 0,9021

1 2 ( 238,8) 9 Valoarea raportului de corelaie arat c ntre variabilele admise n studiu exist o corelaie foarte strns, iar valoarea raportului de determinaie arat c 81,39% din variaia produciei medii s-ar datora densitii pomilor la hectar.

40

Rezumat
Noiuni importante: modelul liniar simplu, modelul de regresie liniar simplu, parametrii ecuaiei de regresie, coeficientul de corelaie, coeficientul de determinaie, raportul de corelaie, modelul neliniar simplu, model liniarizabil. Formule importante: ecuaia de regresie, estimarea punctual a parametrilor de regresie, estimarea prin interval de ncredere, testarea parametrilor modelului, determinarea intervalului de ncredere, estimarea coeficientului de corelaie, testarea coeficientului de corelaie, test t, coeficientul de determinaie, estimarea raportului de corelaie, testarea raportului de corelaie, ecuaia estimat a modelului de regresie de tip hiperbolic, ecuaia estimat a modelului de regresie de tip exponenial, ecuaia estimat a modelului de regresie de tip putere, ecuaia estimat a modelului de regresie de tip parabolic.

Capitolul 3. Modele de regresie multipl


n modelarea econometric, cele mai ntlnite sunt modelele de regresie multipl, care conin cel puin dou variabile independente.

3.1. Modelul liniar multiplu


Modelul liniar multiplu este un model n care ntre variabila dependent i variabilele independente exist o legtur liniar.

3.1.1. Prezentare model i ipoteze


Un model statistic de regresie liniar multipl este definit de relaia: Y = + 1 X 1 + 2 X 2 + ... + p X p + unde: - Y este variabila dependent ; - X 1 , X 2 ,..., X p sunt variabile independente (predictori);

- este variabila aleatoare eroare (reziduu); - , i sunt coeficienii de regresie. Modelarea se realizeaz n urmtoarele ipoteze: 1. normalitatea erorilor: i N (0, 2 ) , adic variabila rezidual urmeaz o lege de repartiie normal de medie zero i varian 2 ; 2. homoscedasticitate: V ( i ) = M ( i2 ) = 2 , adic variana erorii este constant la nivelul distribuiilor condiionate de tipul Yi X = xi ; 3. necorelarea erorilor: cov( i , j ) = 0 , adic erorile nu se influeneaz reciproc; 4. lipsa corelaiei dintre variabilele independente i variabila eroare; 5. lipsa coliniaritaii sau a unei legturi liniare ntre variabilele independente.

41

3.1.2. Estimarea parametrilor modelului


Ecuaia estimat a modelului de regresie care exprim o legtur multipl liniar este: y x1x2 ... = a + b1 x1 + b2 x2 + ... + bk xk Dac punem condiia de minim: S = ( yi y x1x2 ... ) 2 = ( yi a b1 x1i b2 x2i ... bk xki ) 2 = minim i anulm derivatele pariale ale expresiei de mai sus n raport cu parametrii a, b1 , b2 ,..., bk rezult sistemul de ecuaii normale prin a crui rezolvare se obin estimaii ale parametrilor ecuaiei de regresie. De exemplu, pentru un model cu dou variabile independente, sistemul de ecuaii normale, la nivelul unui eantion, este de forma: n a + b1 x1i + b2 x2i = yi i i 2 a x1i + b1 x1i + b2 x1i x2i = x1i yi i i i i a x + b x x + b x 2 = x y 2i i i 2i 1 i 1i 2i 2 i 2i i Prin rezolvarea sistemului, se obin relaii pentru estimaiile parametrilor modelului de regresie.

3.1.3. Testarea parametrilor i a modelului


Considerm modelul de regresie liniar multipl: Y = + 1 X 1 + 2 X 2 + Prin aplicarea metodei celor mai mici ptrate, pentru coeficienii de regresie se obin 2 estimatori care urmeaz legea normal: i N ( i , ) . Prin standardizare i aplicarea teoremei
i

limit central, se obin statisticile:

i i

N (0,1) ,

i i
i

t (n 3) . Testarea semnificaiei

parametrilor i , se realizeaz cu ajutorul testului student: t = Etapele testrii: 1. Ipoteze: H0 : i = 0 , i = 0, 2 H1 : i 0 3. Statistica Student t = i t (n 3)

i i
i

2. Pragul de semnificaie

2 De exemplu, pentru 1 , estimatorul varianei este: =


i

(x
i

2 x1 ) 2 (1 rx2x2 ) 1

1i

4. valorile teoretice t( n 2) / 2

5. valoarea calculat la nivelul unui eantion t0

6. regula de decizie t0 [t( n 2) / 2 , t( n 2) / 2 ] se accept H0

42

3.1.4. Coeficieni de corelaie i coeficientul de determinaie


Msurarea intensitii corelaiei multiple se poate efectua cu ajutorul raportului de corelaie multipl, n cazul unei regresii neliniare, sau cu ajutorul coeficientului de corelaie multipl i a raportului de corelaie multipl, n cazul unei regresii multiple liniare.
Coeficientul de corelaie multipl Coeficientul de corelaie multipl se determin cu ajutorul coeficienilor de corelaie simpl dintre variabilele perechi. Astfel, n cazul corelaiei dintre o variabil rezultativ Y i dou variabile independente X1, X2, coeficientul de corelaie multipl, notat cu y x1x2 , se poate

calcula la nivelul unui eantion observat dup relaia:


y x1x2 = ry2x1 + ry2x2 2 ry x1 ry x2 rx1x2 1 rx2x2 1 ry x2 = n x2 y x2 y n x 2 ( x )2 n y 2 ( y )2 2 2

n care:
ry x1 =

n x1 y x1 y n x 2 ( x )2 n y 2 ( y )2 1 1 rx1x2 =

n x1 x2 x1 x2

n x 2 ( x )2 n x 2 ( x )2 1 1 2 2

Dac rx1x2 = 0 , atunci y x1x2 = ry2x1 + ry2x2 . Coeficientul de corelaie multipl liniar se poate determina i cu ajutorul unei relaii bazate pe determinanii formai din coeficienii de corelaie simpl liniar. Astfel, n cazul a trei variabile, vom avea: 1 ry x1 ry x2 1 rx1x2 y y x ; y y x = rx1 y y x1x2 = 1 unde: y = 1 rx1x2 rx2 x1 1 y rx2 y rx2 x1 1
Raportul de corelaie multipl Se calculeaz dup relaia:

y x x ... =
1 2

2 s y x1x2 ... 2 sy

sau y x1x2 ... = 1

2 s y / y x1x2 ... 2 sy

( y y ) 1 ( y y)
i x1 x2 ... 2 i

Raportul de corelaie multipl se poate calcula i pe baza estimaiilor parametrilor ecuaiei de regresie multipl, formula stabilindu-se n funcie de modelul regresiei multiple aplicat. Pentru o corelaie multipl liniar dintre y i x1, x2 : y x1x2 = a + b1 x1 + b2 x2 raportul de corelaie devine

43

2 1 ( y) n 2 Pentru o corelaie multipl curbilinie de tipul : y x1x2 = a + b1 x1 + b1x12 + b2 x2 + b2 x2


1 2

y x x =

a y + b1 x1 y + b2 x2 y

2 1 ( y) n

raportul de corelaie se calculeaz dup formula:

y x x =
1 2

2 a y + b1 x1 y + b1 x12 y + b2 x2 y + b2 x2 y

2 1 ( y) n

2 1 ( y ) n

Corelaia parial Alturi de corelaia simpl, care arat legtura dintre o variabil rezultativ (Y) i o variabil factorial (X) i de corelaia multipl, care caracterizeaz legtura dintre Y i variaia simultan a dou sau mai multe variabile factoriale, n practic apare necesitatea studierii separate a perechilor de variabile Y i X. Aceasta se realizeaz cu ajutorul corelaiei pariale, care msoar dependena dintre variabile prin excluderea succesiv a influenei celorlali factori (considernd influena lor constant) meninnd numai influena factorului msurat. n funcie de numrul variabilelor a cror influen se elimin din calcul, coeficienii de corelaie parial pot fi de ordinul nti (pentru o variabil), de ordinul doi (pentru dou variabile) etc. Coeficienii corelaiei pariale pot fi calculai fie pe baza coeficienilor de corelaie simpli, fie pe baza dispersiilor Coeficienii de corelaie parial de ordinul nti: ry x1 ry x2 rx1x2 - ntre Y i X1, excluznd influena lui X2: ry x1x2 = ; 1 ry2x2 1 rx2x2 1

)(

) )

- ntre Y i X2, excluznd influena lui X1 : ry x2 x1 =

ry x2 ry x1 rx1x2

1 ry2x1 1 rx2x2 1

)(

Coeficienii de corelaie parial, folosind estimaiile variantelor, se calculeaz dup relaiile: - ntre Y i X1, excluznd pe X2: y x1x2 = - ntre Y i X2, excluznd pe X1 : y x2 x1 =
2 s y x1x2 2 s y x2 2 s y x1x2 2 s y x1

; .

Determinaia multipl i parial Msurarea influenei factorilor, simultan i separat, se stabilete prin indicatorii determinaiei multiple, respectiv, determinaiei pariale. Raportul determinaiei totale. Acest indicator se noteaz cu Dy x1x2 ... i arat influena simultan

a variabilelor factoriale asupra variabilei rezultative. Poate fi calculat prin ridicarea la ptrat fie 44

a coeficientului de corelaie multipl y x1x2 , fie a raportului de corelaie multipl y x1x2 ... , dup relaiile: Dy x1x2 =
2 y x1 x2

ry2x1 + ry2x2 2 ry x1 ry x2 rx1x2 1 rx2x2 1

Dy x1x2 ... = sau

2 y x1 x2 ...

( y y ) = 1 ( y y)
i x1 x2 ... 2 i

2 1 ( y) n Raportul determinaiei multiple variaz ntre: 0 Dy x1x2 ... 1 .

2 Dy x1x2 ... = y x1x2 ... =

an y + b1n x1 y + ... + bnn xn y

2 1 ( y) n

Pentru a facilita interpretarea rezultatelor, Dy x1x2 ... se poate exprima procentual i arat ct la sut din variaia lui y depinde, de variaia simultan a variabilelor factoriale considerate. Raportul determinaiei pariale. Acest indicator arat influena separat a factorilor. Se calculeaz fie prin ridicarea la ptrat a coeficienilor corelaiei pariale, fie prin descompunerea determinaiei totale. Indicatorii determinaiei pariale, pentru o regresie multipl liniar de forma y x1x2 = a + b1 x1 + b2 x2 , calculai pe baza corelaiei pariale, sunt: d y x1x2 = ry2x1x2 i d y x2 x1 = ry2x2 x1 . Plecnd de la determinaia multipl total, pentru Y n funcie de X1 i X2, i nlocuind a cu expresia lui rezultat din prima ecuaie a sistemului de ecuaii normale n care s-au substituit b1 i b2: 2 1 a y + b1 x1 y + b2 x2 y ( y ) 2 n Dy x1x2 = y x1x2 = 2 1 2 y n ( y) y b1 x1 b2 x2 = y b x1 b x2 a= 1 2 n se obine: 2 1 y y + b1 x1 y + b2 x2 y + b1 x1 y + b2 x2 y ( y ) n = Dy x1x2 = 2 1 2 y n ( y) x y x y b1 x1 y 1 + b2 x2 y 2 n n = 2 1 y2 n ( y ) din care, indicatorii determinaiei pariale se obin prin divizarea determinaiei multiple totale: x1 y b x y x2 y b1 x1 y 2 2 n n + sau Dy x1x2 = 2 2 1 1 y2 n ( y ) y2 n ( y )
45

Dy x1x2 =

b1 ( n x1 y x1 y ) n y 2 ( y )
2

b2 ( n x2 y x2 y ) n y 2 ( y )
2

Primul termen al membrului doi al relaiei din formula anterioar reprezint determinaia parial ntre y i x1 iar al doilea, determinaia parial ntre y i x2. Prin urmare, Dy x1x2 = d y x1x2 + d y x2 x1

3.1.5. Regresia multipl n SPSS


Pentru a gsi cea mai bun combinaie de variabile independente care explic variaia variabilei dependente, ntr-un model de regresie, SPSS ofer mai multe metode: Forward, Backward, Stepwise. Prin aceste metode se pot selecta variabile care explic cel mai bine variaia variabilei dependente. Aplicarea lor presupune introducerea i eliminarea variabilelor independente n model n funcie de gradul de semnificaie a legturii lor cu variabila dependent, pn cnd nici o variabil nu mai poate fi introdus sau eliminat din ecuaia de regresie. 1. Forward (Introducerea pas cu pas). Prin acest procedeu variabilele independente sunt introduse n model una cte una (pas cu pas), n ordinea importanei lor. n pasul nti este introdus variabila care este cel mai puternic corelat, pozitiv sau negativ, cu variabila dependent. n pasul doi (i urmtorii) se introduc variabile mai puin corelate. La fiecare pas, este testat ipoteza de nul asupra coeficientului de regresie a variabilei introduse, adic se testeaz dac coeficientul de regresie corespunztor este zero. Este folosit statistica test t (respectiv, statistica F care este ptratul statisticii t). Paii se opresc cnd un prag de semnificaie stabilit pentru F nu mai este atins. 2. Backward (Eliminarea pas cu pas). Acest procedeu este cel mai des folosit n practic. ncepe cu toate variabilele considerate n model i la fiecare pas se elimin cel mai slab predictor (variabil independent). Cel mai slab predictor este definit de variabila independent cel mai puin important, adic variabila care determin cea mai mic reducere a statisticii Fisher, F. Variabilele sunt eliminate pn cnd un prag de semnificaie stabilit pentru F nu mai este atins. 3. Stepwise (Selecia pas cu pas). Acest procedeu ncepe la fel ca Forward, dar la fiecare pas, testeaz variabilele existente deja n model, pentru a le elimina. Aceasta este metoda cea mai folosit, n special, cnd exist corelaii ntre variabilele independente. De exemplu, introducerea celei de a patra variabile poate diminua importana unei variabile deja introduse i ca urmare, aceasta este eliminat din model (n Forward aceasta rmne n model).
Exemplu. Pentru realizarea n SPSS a unei analize de regresie multipl vom considera datele din reg_pib_inv_es_pocup.sav, referitoare la regiunile Romniei, n anul 2000 i procedeul Backward. Paii demersului sunt cei prezentai n cazul unui model de regresie liniar simpl, cu elementele specifice unui model de regresie multipl. Astfel, n fereastra Linear Regression selectm (vezi Fig. 9.12): - n zona Dependent: ctigul salarial nominal net (cs); - n zona Independent(s): produsul intern brut regional (pib), investiiile n 2000 (inv) i populaia ocupat n 2000 (pocup); - n zona Method: se alege metoda Backward; - n zona Case Labels : regiunile Romniei (reg);

46

- n fereastra Linear Regression: Statistics, deschis prin butonul de comand Statistics, se activeaz casetele de validare Descriptives i Collinearty diagnostics.

Fig. 1 Fereastra de dialog Liniar Regression, metoda Backward n tabelul Correlations se afieaz coeficienii de corelaie Pearson (Pearson Correlation), valoarea semnificaiei (Sig.) pentru fiecare coeficient de corelaie i numrul cazurilor considerate n studiu (N). Pentru exemplul dat, sunt prezentate corelaiile simple ale fiecrei variabile independente (predictor) cu variabila dependent cs -ctigul salarial nominal net (vezi matricea corelaiilor din Tabelul 1). Tabelul 1. Matricea corelaiilor pariale
Correlations Ctigul salarial nominal net n anul 2000 1.000 .001 .887 -.555 PIB intern brut regional pe locuitor n anul 2000 (lei) .001 1.000 -.157 -.710 .500 .500 .005 .098 7 7 7 7 .368 .037 7 7 7 7 Investiii n 2000 .877 -157 1.000 -.737 .005 .368 .029 7 7 7 7 7 7 7 7 Populaia ocupat n 2000 (mii persoane) -.555 -.710 -.737 1.000 .098 .037 .029

Pearson Correlation

Sig. (1-tailed)

Ctigul salarial nominal net n anul 2000 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane) Ctigul salarial nominal net n anul 2000 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane) Ctigul salarial nominal net n anul 2000 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane)

47

Se observ c valoarea coeficienilor de corelaie de pe diagonal este egal cu unu, deoarece fiecare variabil este corelat perfect cu ea nsi. Se constat c legtura cea mai semnificativ este ntre ctigul salarial nominal net i investiii. ntre variabila dependent - cs i variabila independent - inv exist o legtur direct, puternic. Valoarea coeficientului de corelaie este egal cu 0,877, cu o valoare Sig. mai mic dect 0,05. Tabelul Varinble Entered/Removed furnizeaz o prezentare a rezultatelor eliminrii pas cu pas a variabilelor (vezi Tabelul 2). SPSS elaboreaz, la nceput, un model cu toate variabilele independente, folosind metoda Enter, apoi, n fiecare pas creeaz un model, eliminnd variabila care are cea mai redus contribuie. Tabelul 2. Variabilele introduse n model i variabilele eliminate pas cu pas
Model 1 Variables Entered/Removed Variables Entered Variables Removed Populaia ocupat n 2000 (mii persoane) PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane) 3 Method Enter

PIB intern brut regional pe locuitor n anul 2000 (lei) a. All requested variables entered b. DependentVariable: Ctigul salarial nominal net n anul 2000

Backward (criterion: Probabilit z of F to remove >= .100). Backward (criterion: Probabilit z of F to remove >= .100).

n exemplul considerat, sunt eliminate, pe rnd, n ordinea celei mai slabe influene asupra ctigului salarial nominal net, variabila populaie ocupat i variabila produs intern brut pe locuitor. Tabelul Model Summary prezint pentru fiecare model de regresie valoarea coeficientul de corelaie (R), valoarea coeficientului de determinaie (R2) i eroarea standard. Valoarea R2 crete pe msur ce se introduc mai multe variabile n model. Includerea de variabile irelevante duce, de asemenea, la creterea erorii standard. Tabelul 3. Model Summary, cazul regresiei multiple
Model Summary Change Statistics Std.Error of the R Square F Change df1 df2 Sig. Estimate Change F. Change 1 .888a .789 .578 130351.7763 -.789 3.745 3 3 .153 2 .888b .789 .683 113053.5944 -.001 .009 1 5 .931 3 .877c .769 .723 105627.4703 -.019 .365 1 6 .578 a. Predictors: (Constant), Populaia ocupat n 2000 (mii persoane), PIB intern brut regional pe locuitor n anul 2000 (lei), invesliiile n 2000 b. Predictors: (Constant), PIB intern brut regional pe locuitor n anul 2000 (lei), Investiiile n 2000 c. Predictors: (Constant), Investiiile n 2000 d. Dependent Variable: Ctigul salarial nominal net n anul 2000 Model R R Square Adjusted Square R

n exemplul dat, valoarea R, valoarea R2 ajustat i eroarea standard arat c cel mai bun predictor (variabila independent care estimeaz cel mai bine variabila dependent) este variabila investiii. Aceeai concluzie se poate trage considernd rezultatele din tabelul ANOVA (vezi Tabelul 3). Dac valoarea semnificaiei statisticii F este mic (Sig. este mai mic dect 0,05),

48

atunci variabilele independente explic variaia variabilei dependente. Cea mai mic valoare Sig. corespunde modelului care explic variaia ctigului salarial nominal net n funcie de investiii. n tabelul coeficienilor de regresie, n prima parte, apar coeficienii de regresie, erorile standard, valoarea statisticii test t pentru fiecare coeficient, precum i valoarea Sig. n cazul unei regresii multiple apare, n plus, fa de cazul unei corelaii simple statisticile de coliniarizate (collinearity statistics), tolerana (tolerance) i factorul de inflaie a varianei (variance inflation factor -VIF). Tabelul 4. ANOVA
ANOVAd Sum of Squares df Mean Square F Sig. 1 Regression 1.91E+11 3 6.363E+10 3 745 .153a Residual 5.10E+10 3 1.699E+10 Total 2.42E+11 6 2 Regression 1.91E+11 2 9.536E+10 7.461 .045b Residual 5.11E+10 4 1.278E+10 Total 2.42E+11 6 3 Regression 1.86E+11 1 1.861E+11 16.677 .010c Residual 5.58E+10 5 1.116E+10 Total 2.42E+11 8 a. Predictors: (Constant), Populaia ocupat n 2000 (mii persoane), PIB intern brut regional pe locuitor n anul 2000 (lei), invesliiile n 2000 b. Predictors: (Constant), PIB intern brut regional pe locuitor n anul 2000 (lei), Investiiile n 2000 c. Predictors: (Constant), Investiiile n 2000 d. Dependent Variable: Ctigul salarial nominal net n anul 2000

Model

Coliniaritatea exprim existena unei corelaii puternice ntre variabilele independente. n astfel de situaii se calculeaz statisticile toleranei, considernd numai variabilele independente, variabila dependent este exclus din model. Tolerana fiecrei variabile Xi se calculeaz dup relaia: Tolerana = 1 - Ri2 , unde:

Ri2 - este ptratul coeficientului de corelaie multipl a variabilei Xi cu toate celelalte variabile independente. VIF este reciproca toleranei. Tolerana poate lua valori de la 0 la 1. Cu ct valoarea toleranei este mai mic, mai apropiat de zero, cu att variabila independent Xi este explicat printr-o combinaie liniar a celorlalte variabile independente. Ca urmare, explicarea variabilei dependente prin aceast variabil poate fi considerat c are prea puin acuratee. Tabelul 5. Coeficienii de regresie
Coefficientsa Unstandardized Coeffcients B Std. Error 2191707 2170142 -4.01E-03 .026 Standar dized Coeffci ents Beta

Model t 1 (Constant) 1.010 -.091 -.155 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 42.296 27.310 .951 1.549 Populaia ocupat n 81.670 870.088 .081 .094 2000 (mii persoane) 2 (Constant) 2391840 350602.0 6.822 PIB intern brut -6.18E-03 .010 -.141 -.604 regional pe locuitor n anul 2000 (lei) Investiii n 2000 39.991 10.352 .899 3.863 3 (Constant) 2210270 168505.7 13.117 Investiii n 2000 39010 9.552 .877 4.084 a. Dependent Variable: Ctigul salarial nominal net n anul 2000

Sig. .387 .887 .219 .931 .002 .578 .018 .000 .010

95% Confidence interval for B Lower Bound Upper Bound -4714653.203 9098066.708 -.087 .079 -44.615 -2687.337 1418412.850 -.035 11.248 1777112.723 14.454 129.208 2850.677 3365267.294 .022 68.733 2643428.213 63.565

Collinearity Statistics Tolerance VIF .202 .186 .095 .975 .975 1.000 4.954 5.367 10.566 1.025 1.025 1.000

49

Diagnosticul coliniaritii presupune analiza rezultatelor din tabelul Collinearity Diagnostics (vezi Tabelul 5). Tabelul 6. Diagnosticul coliniaritii
Collinearity Diagnosticsa Variance Proportions PIB intern brut regional pe locuitor n anul Investiii 2000 (lei) n 2000 .00 .00 .00 .08 .10 .10 .90 .83 .00 .01 .09 .97 .91 .02 .01 .99 Populaia ocupat n 2000 (mii persoane) .00 .02 .02 .97

Dimension Eigenvalue Condition Index 1 3.906 1.000 2 7.156E-02 7.388 3 2.237E-02 13.214 4 3.752E-02 102.030 2 1 2.954 1.000 2 3.752E-02 8.873 3 8.423E-03 18.727 3 1 1.972 1.000 2 2.847E-02 8.321 a. Dependent Variable: Ctigul salarial nominal net n anul 2000

Model 1

(Constant) .00 .00 .00 1.00 .00 .05 .95 .01 .99

Eigenvalue d o indicaie asupra numrului de legturi care exist ntre variabilele independente. Cnd mai multe eigenvalues sunt apropiate de zero, variabilele sunt puternic intercorelate. Indicii de condiie se calculeaz ca rdcin ptrat din raportul dintre valoarea eigenvalue cea mai mare i valoarea eigenvalue a fiecrei dimensiuni. Un indice mai mare dect 15 arat c exist o posibil problem de coliniaritate, iar o valoare mai mare ca 30 indic probleme grave de coliniaritate. Aceste situaii le ntlnim n exemplul considerat, pentru modelul 1, indicele corespunztor dimensiunii 4 (variabila populaia ocupat) are valoarea de 102,030, respectiv, pentru modelul 2, indicele corespunztor dimensiunii 3 (variabila PIB) are valoarea de 18,721 (vezi Tabelul 6). Proporia varianei evideniaz contribuia fiecrei variabile la varian. Variabilele care au valori mari pentru acest indicator arat probleme de coliniaritate. n exemplul dat, variabilele cu probleme de coliniaritate i care influeneaz substanial varianta sunt: - populaia ocupat, cu o proporie de 0,97; -PIB regional, cu o proporie de 0,91. Tabelul Exclucled Variables prezint informaii despre variabilele care sunt excluse la fiecare pas (vezi Tabelul 7). Tabelul 7. Variabile excluse
Excluded Variablesc Model 2 Beta In t Sig. Populaia ocupat n 2000 .081a .094 .931 (mii persoane) 3 Populaia ocupat n 2000 .200b .586 .590 .281 .457 (mii persoane) PIB intern brut regional pe -.141b -.604 .578 -.289 .975 locuitor n anul 2000 (lei) a. Predictors in the Model: PIB intern brut regional pe locuitor n anul 2000 (lei), Investiiile n 2000 b. Predictors in the Model: (Constant), Investiiile n 2000 c. Dependent Variable: Ctigul salarial nominal net n anul 2000 Partial Correlation .054 Collinearity Statistics Minimum Tolerance Tolerance VIF 9.464E-02 10.566 9.464E-02 2.187 1.025 .457 .975

Beta in este coeficientul de regresie care ar rezulta dac n pasul urmtor s-ar pstra n model variabila exclus.

50

Statistica test t i valoarea Sig. sunt folosite pentru testarea ipotezei de nul cu privire la coeficienii de regresie, adic a ipotezei c ntre variabila dependent i variabila independent nu exist o legtur semnificativ. n exemplul considerat, se constat valori Sig. foarte mari (comparativ cu 0.05), ceea ce nu ne permite s respingem ipoteza de nul, adic a inexistenei unei legturi semnificative ntre variabila dependent -ctigul salarial- i variabilele independente -populaia ocupat i PIB regional pe locuitor, la nivelul anului 2000, n Romnia. Se observ, de asemenea, valori mici pentru toleran i valori mari pentru VIF,. ceea ce denot existena multicoliniaritii, care determin o variant mare a coeficientului de regresie, i, ca urmare, o instabilitate a estimaiei.

Fig. 2 Diagrama Normal P-P Plot

Fig. 3 Diagrama Scatterplot Respectarea ipotezelor cerute de analiza de regresie (erorile sunt distribuite normal, cu media zero; erorile au variant constant; erorile sunt independente unele de altele) pot fi verificate grafic folosind diagramele P-P Plot i Scatterplot. Figurile 2 i 3 arat c sunt respectate aceste ipoteze.

51

3.2. Modele neliniare multiple


Complexitatea fenomenelor economice a condus la elaborarea unor modele multiple neliniare. Ca i n cazul modelelor simple, modelele multiple sunt de mai multe tipuri, dintre care prezentm modelele liniarizabile i modelele polinomiale.

3.2.1. Prezentarea problemei i exemple din economie


Poate cel mai cunoscut model din aceast categorie este funcia de producie, numit i funcia Cobb-Douglas. Aceast funcie exprim relaia dintre output i input n cazul unei firme sau la nivelul unei economii naionale. Exist o multitudine de expresii ale funciei de producie, n funcie de numrul de factori luai n calcul i de modul de exprimare a acestora. Cea mai simpl expresie a funciei de producie este: Y = L K unde: Y este outputul sau producia, L este munca (labour) i K este capitalul, ca factori de producie sau input-uri; este elasticitatea produciei n raport cu munca; este elasticitatea produciei n raport cu capitalul.

3.2.2. Modele liniarizabile


ntre modelele liniarizabile se afl modelele de tip exponenial i putere.
Modelul putere Ecuaia estimat a modelului regresiei multiple neliniare, pentru o variabil dependent Y i variabilele factoriale X1, X2, ..., Xk, de tipul funciilor putere, ia forma: b b y x1x2 ... = a x1b1 x22 ...xnn care, pentru facilitatea calculelor, se liniarizeaz. devenind: log y x1x2 ... = log a + b1 log x1 + b2 log x2 + ... + bn log xn Obinerea parametrilor presupune rezolvarea sistemului corespunztor de ecuaii normale rezultat din aplicarea metodei celor mai mici ptrate pentru expresia anterioar. Un model de corelaie bifactorial, utilizat mult n modelarea creterii economice, este b funcia de tip Cobb-Douglas: y x1x2 = a x1b1 x22 care exprim corelarea produsului final (Y) cu fondurile fixe productive (X1) i cu fora de munc (X2); b1 i b2 reprezint coeficienii de elasticitate. n expresie logaritmic, modelul de mai sus devine: log y x1x2 = log a + b1 log x1 + b2 log x2 Prin rezolvarea sistemului de ecuaii normale (aplicnd metoda Gauss, metoda abaterilor de la medie, metoda determinanilor) se afl estimaiile parametrilor: log a; b1; b2. Estimaiile parametrilor ecuaiei de regresie se afl rezolvnd urmtorul sistem de ecuaii normale:

52

n log a + b1 log x1 + b2 log x2 = log y 2 log a log x1 + b1 (log x1 ) + b2 (log x1 log x2 ) = (log x1 log y ) 2 log a log x2 + b1 (log x1 log x2 ) + b2 (log x2 ) = (log x2 log y )
Exemplu. n vederea studierii legturii dintre producia industrial (Y), personalul muncitor (X1) i fondurile fixe din industrie (X2), considerm ponderile exprimate procentual ale acestor variabile pe judee fa de total ar, redate n tabelul 8.

Tabelul 8. Ponderea produciei industriale (Y), a personalului muncitor (X1) i a fondurilor fixe (X2) pe judee fa de total ar (n %) Judeul y x1 x2 Judeul y x1 x2 1 l. Alba 2. Arad 3. Arge 4. Bacu 5.Bihor 6.Bistria- Nsud 7. Botoani 8. Braov 9.Brila 10. Buzu 11. Cara- Severin 12.Clrai 13.Cluj 14.Constana 15.Covasna l6.Dmbovia 17.Dolj 18.Galai 19.Giurgiu 20.Gorj 2 1,7 1,8 4,4 3,6 2,3 0,7 0,8 5,8 1,7 1,7 2,0 0,7 3,1 2,3 0,9 2,3 2.5 5,0 0,5 1,4 3 2,2 2,3 3,3 2,9 2,9 1,0 1,1 5,2 1,6 1,9 2,1 0,8 3,9 2,0 1,1 2,6 2,5 2,5 0,6 1,8 3 1,5 1,5 4,8 4,2 1,9 0,8 0,7 5,1 2,1 1,6 2,2 0,7 2,9 2,1 0,9 3,3 2,9 4,6 0,9 4,5 1 21.Harghita 22.Hunedoara 23. Ialomia 24.1ai 25 .Maramure 26.Mehedini 27.Mure 28.Neam 29.Olt 30.Prahova 31.Satu-Mare 32. Slaj 33. Sibiu 34.Suceava 35.Teleorman 36.Timi 37.Tulcea 38.Vaslui 39.Vlcea 4O.Vrancca 2 1.1 3,5 0,7 2,8 1,9 1,0 2,8 2,3 2,2 7,1 1,2 0,9 3,3 1,6 1,2 3,5 0,9 1.1 1,3 0,8 3 1,8 3,2 0,5 2,7 2,4 0,9 3,0 2,5 1,5 5,2 1,7 0,9 3,4 2,4 1,3 3,9 0,9 1,4 1,3 1,0 4 1,0 5,1 0,8 2,7 1,6 1,2 2,6 2,9 2,4 5,4 0,7 0,9 1,8 1,6 1,8 2,5 1.7 1,2 2,7 0,7

Sursa: Anuarul Statistic al Romniei, 1994, pp.52-53. Se cere: 1. S se estimeze parametrii ecuaiei de regresie multipl; 2. S se determine intensitatea corelaiei multiple; 3. S se calculeze raportul determinaiei multiple i coeficienii determinatei pariale. Rezolvare 1. n teoria i practica modelrii creterii economice se consider c ntre variabilele admise exist o legtur exprimat printr-un model de corelaie bifactorial redat printr-o funcie de tip b Cobb-Douglas: y x1x2 = a x1b1 x22 care prin logaritmare devine: log y x1x2 = log a + b1 log x1 + b2 log x2

53

Estimaiile parametrilor ecuaiei de regresie se afl rezolvnd urmtorul sistem de ecuaii normale: n log a + b1 log x1 + b2 log x2 = log y 2 log a log x1 + b1 (log x1 ) + b2 (log x1 log x2 ) = (log x1 log y ) 2 log a log x2 + b1 (log x1 log x2 ) + b2 (log x2 ) = (log x2 log y ) Calcule: log x1 = 10, 7989 (log x1 )2 = 5, 29089 (log x1 log x2 ) = 4,96492

log x = 10,9084 log y = 9,82793


2

(log x ) = 5, 0203 (log y) = 5, 49318


2 2 2

(log x (log x

1 2

log y ) = 5,16665 log y ) = 5, 2936

n = 40 nlocuind n sistem valorile sumelor variabilelor, obinem: 40 log a + 10, 7989 b1 + 10,9084 b2 = 9,82793 10, 7989 log a + 5, 29089 b1 + 4,96492 b2 = 5,16665 10,9084 log a + 4,96492 b + 5, 0203 b = 5, 2936 1 2 Prin rezolvarea sistemului obinem urmtoarele valori pentru estimaiile parametrilor ecuaiei regresiei multiple: log a = 0, 056676 b1 = 0, 728269 b2 = 0,387821 Ecuaia de regresie multipl va fi: log y = 0, 056676 + 0, 728269 log x1 + 0,387821log x2 2. Intensitatea corelaiei dintre variabilele luate n studiu se calculeaz cu ajutorul 2 1 log a log y + b1 (log x1 log y ) + b2 (log x2 log y ) ( log y ) n = yx = 2 1 2 (log y) n ( log y )
= 0, 056676 9,82793 + 0, 728269 5,16665 + 0,387821 5, 2936 5, 49318 1 (9,82793) 2 40 = 0,9612

1 (9,82793) 2 40 Valoarea raportului de corelaie arat o legtur foarte strns ntre variabilele admise.

Coeficienii corelaiei pariale. Pentru calcularea lor s-au determinat coeficienii de corelaie simpl liniar ale cror valori sunt: n (log x1 log y ) log x1 log y rlog y log x1 = = n (log x ) 2 ( log x )2 n (log y ) 2 ( log y )2 1 1 40 5,16665 10, 7989 9,82793 = = 0,929426 40 5, 29089 (10, 7989) 2 40 5, 49318 (9,82793) 2 respectiv rlog y log x2 = 0,867890 rlog x1 log x2 = 0, 763632

54

Calculul coeficienilor corelaiei pariale pe baza coeficienilor de corelaie simpl s-a efectuat dup relaiile: rlog y log x1 rlog y log x2 rlog x1 log x2 rlog y log x1 = = 0,831466 2 2 1 rlog y log x1 1 rlog x1 log x2

)(

rlog y log x2 =

rlog y log x2 rlog y log x1 rlog x1 log x2

(1 r

2 log y log x2

)(1 r

2 log x1 log x2

= 0, 663798

Coeficienii corelaiei pariale arat c legtura dintre Y i X1 este mai strns dect cea dintre Y i X2. Raportul determinaiei totale se poate afla prin ridicarea la ptrat a raportului de corelaie: 2 Dlog y log x1 log x2 = log y log x1 log x2 = (0,961158) 2 = 0,923826 (92,38%) Coeficienii determinaiei pariale se calculeaz fie prin ridicarea la ptrat a coeficienilor corelaiei pariale: d log y log x1 log x2 = (0,831466) 2 = 0, 691336 d log y log x2 log x1 = (0, 663798) 2 = 0, 440628 fie prin relaiile obinute pe baza divizrii determinaiei multiple totale, Dy x1x2 = d y x1x2 + d y x2 x1 i anume d log y log x1 log x2 = = b1n (log x1 log y ) log x1 log y n (log y ) ( log y )
2 2

= = 0,5945

0, 728269 40 5,16665 10, 7989 9,82793 40 5, 49318 (9,82793) 2


b2 n (log x2 log y ) log x2 log y n (log y ) 2 ( log y )
2

d log y log x2 log x1 =

= 0,329236

Reiese c 92,38% din variaia ponderii produciei medii industriale pe judee este datorat influenei simultane a ponderii personalului muncitor i a ponderii fondurilor fixe n industria judeelor fa de total ar. Influena total, descompus pe cei doi factori, arat c ponderea personalului muncitor are o influen mai mare (59,45%) n comparaie cu ponderea fondurilor fixe n industria judeelor fa de total ar (33%).

3.2.3. Modele polinomiale


n cazul unei legturi multiple curbilinii de tipul polinomului de gradul doi, ecuaia de regresie ia forma: 2 y x1x2 ... = a + b1 x1 + b1x12 + b2 x2 + b2 x2 + ... + bk xk + bk xk2 Pentru o ecuaie de regresie de tipul polinomului de gradul doi cu dou variabile factoriale: 2 y x1x2 = a + b1 x1 + b1x12 + b2 x2 + b2 x2 se obine sistemul de ecuaii normale prin rezolvarea cruia se afl valoarea parametrilor.

55

Rezumat
Noiuni importante: model de regresie multipl, coeficientul de corelaie multipl, coeficientul de determinaie multipl, corelaia parial, modele neliniare multiple, model putere, model polinomial. Formule importante: estimarea parametrilor modelului de regresie multipl, testarea parametrilor i modelului de regresie multipl, coeficientul de corelaie multipl, coeficientul de determinaie multipl, raportul de corelaie multipl, coeficientul de corelaie parial, raportul determinaiei totale, raportul determinaiei pariale.

Capitolul 4. Testarea ipotezelor modelului clasic de regresie


n acest capitol, sunt prezentate principalele probleme legate de testarea ipotezelor unui model de regresie. Sunt prezentate urmtoarele restricii de modelare econometric: normalitatea erorilor, homoscedasticitatea, necorelarea erorilor i lipsa coliniaritii variabilelor independente. Pentru fiecare ipotez se va utiliza un demers care cuprinde urmtoarele etape: prezentarea ipotezei, efectele nclcrii ipotezei, testarea ipotezei i eventual procedee de corecie, n cazul nclcrii unei ipoteze.

4.1. Normalitatea erorilor


Ipoteza de normalitate a erorilor este important pentru stabilirea proprietilor estimatorilor parametrilor modelului de regresie. Dac este respectat ipoteza de normalitate a erorilor, i N (0, 2 ) , estimatorii , urmeaz, de asemenea, o lege normal. Efectele nclcrii ipotezei: Dac ipoteza de normalitate este nclcat, proprietile estimatorilor construii pe baza metodei celor mai mici ptrate au doar proprieti asimptotice, adic necesit eantioane sau seturi mari de date. Testarea ipotezei de normalitate a erorilor: Pentru testarea normalitii repartiiei erorilor se poate utiliza un test neparametric clasic, cum ar fi testul chi-ptrat sau testul Kolmogorov, de exemplu. Exist i posibilitatea de a construi un test pornind de la parametrii formei unei repartiii: asimetria i boltirea. Un astfel de test este ntlnit n literatura de specialitate sub numele de testul Jarque - Bera, dup numele statisticienilor care l-au elaborat. Testul Jarque Bera: Acest test se construiete pe baza estimatorilor parametrilor formei unei

3 (S este asimetria - skewness, S = 0 pentru o repartiie normal, pozitiv sau 3 negativ n caz de asimetrie) i K = 4 (K este boltirea - kurtosis, K = 3 pentru o repartiie 2 2
repartiii: S = normal). Estimatorii pentru cei doi parametri au urmtoarele relaii:

56

i3 i4 n2 i n2 S= , respectiv K = i . 3 3 2 2 i i i n2 i n2 Testul Jarque - Bera are urmtoarea expresie: n 2 ( K 3) 2 2 JB = S + (2) 6 4 Decizia de admitere a ipotezei de normalitate se ia pe baza valori calculate a testului, dac aceasta este mai mic dect valoarea teoretic pentru o distribuie chi-ptrat de dou grade de libertate i un prag de semnificaie specificat.

4.2. Homoscedasticitatea
Aceast ipotez presupune o variant constant a erorilor la nivelul distribuiilor condiionate de forma Y X = xi . Ipoteza de homoscedasticitate presupune respectarea relaiei: V ( i ) = 2 . Cnd ipoteza este nclcat, modelul este numit heteroscedastic. Efectele heteroscedasticitii: Cel mai important efect al heteroscedasticitii este pierderea eficienei estimatorilor parametrilor modelului de regresie. De exemplu, pentru parametrul , se poate arta c variana estimatorului sufer modificri n cazul heteroscedasticitii i este mai mare dect n cazul n care ipoteza nu este nclcat. Considerm relaia: Xi X = + wi i , cu wi = . i ( X i X )2
i

Dac ipoteza este nclcat, adic V ( i ) = , atunci variana estimatorului este:


2

V ( ) = V wi i = wi2V ( i ) = wi2 i2 i i i i difer de variana estimatorului n cazul respectrii ipotezei de homoscedasticitate.


Testarea homoscedasticitii: Pentru testarea homoscedasticitii se utilizeaz mai multe teste: testul corelaiei neparametrice ntre i i Xi testul Goldfeld-Quandt, testul Glejser, testul White .a. a. Testul corelaiei neparametrice ntre i i Xi Etapele testrii sunt urmtoarele: Y = + X + , fr a ine seama de ipoteza de se realizeaz regresia homoscedasticitate; - se estimeaz erorile i la nivelul eantionului; se determin rangurile pentru valorile absolute ale erorilor estimate i pentru valorile variabilei independente; - se determin coeficientul de corelaie al rangurilor Spearman ntre i i Xi ;

57

- se testeaz coeficientul de corelaie cu ajutorul testului Student; - dac se accept ipoteza c coeficientul de corelaie nu este semnificativ, se accept i ipoteza de homoscedasticitate, iar n caz contrar modelul este heteroscedastic. Relaiile utilizate n acest demers sunt: di2 - estimatorul coeficientului de corelaie: = 1 6 i 2 , unde di reprezint diferenele dintre n(n 1) ranguri pentru cele dou variabile, iar n este volumul eantionului; n 2 t (n 2) . - testul Student: t = 1 2
b. Testul Goldfeld-Quandt: Acest test este utilizat n cazul n care numrul de date sau volumul eantionului este suficient de mare. Se parcurg urmtoarele etape: - se ordoneaz cresctor seria empiric dup variabila X; - se mparte seria n dou pri egale, dup omiterea unui set de date din centrul seriei; - se realizeaz dou regresii pentru cele dou seturi de date i se calculeaz variaia rezidual (RSS) pentru fiecare model n parte; - se realizeaz un test Fisher care compar cele dou variaii reziduale, RSS2 F= ; RSS1 - dac testul este semnificativ statistic, atunci modelul iniial de regresie este heteroscedastic. c. Testul Glejser: Acest test are la baz un model de regresie ntre variabila rezidual estimat i variabila independent. Forma acestui model indic i forma heteroscedasticitii. Realizarea testului presupune parcurgerea urmtorului demers: - se realizeaz regresia yi = + xi + i ; - se determin erorile estimate i ;

- se realizeaz, de exemplu, regresia i = 0 + 1 xi + ui ; se testeaz modelul din etapa anterioar: dac parametrul 1 este semnificativ, atunci modelul iniial este heteroscedastic.
Corectarea modelului heteroscedastic Corectarea heteroscedasticitii se poate realiza innd cont de informaia disponibil asupra parametrilor i2 : dac sunt cunoscui sau dac nu sunt cunoscui. a. Cazul i2 cunoscui - Metoda celor mai mici ptrate generalizat

Fie modelul de regresie yi = + xi + i . Dac se cunosc i2 , modelul poate fi rescris n urmtoarea form: yi x x 1 = + i + i sau yi* = * + * i + i* n care V ( i* ) = 1 .

n concluzie, modelul modificat este homoscedastic. b. Cazul i2 necunoscui

58

n acest caz, asupra parametrilor i2 se emit diferite ipoteze funcionale, cum ar fi, de exemplu, i2 = 2 xi2 sau i2 = 2 xi etc. Astfel de relaii pot fi detectate cu ajutorul testului Glejser. Dac se folosete ipoteza i2 = 2 xi2 , atunci modelul corectat are forma: yi 1 = + + i sau yi* = * + * + i* n care V ( i* ) = 2 . xi xi xi xi

4.3. Autocorelarea erorilor


Ipoteza de necorelare a erorilor se refer la lipsa unei corelaii ntre termenii variabilei eroare din modelul de regresie sau c eroarea asociat unei valori a variabilei dependente nu este influenat de eroarea asociat altei valori a variabilei dependente. Dac nu se respect aceast ipotez, suntem n situaia existenei fenomenului de autocorelare a erorilor sau a corelaiei seriale, adic cov( i , j ) 0 sau M ( i , j ) 0 . Autocorelarea erorilor poate s apar din diferite cauze: ineria fenomenelor n timp i decalajul, n cazul seriilor de timp, lipsa unei specificaii adecvate a formei modelului de regresie, lipsa din model a uneia sau a mai multor variabile semnificative, sistematizarea i pregtirea datelor pentru prelucrare. Considerm c ntre erori exist o relaie dat de modelul: i = i 1 + ui unde ui reprezint o variabil aleatoare, numit "zgomot alb" sau variabil pur aleatoare, care respect ipotezele modelului clasic de regresie, iar este coeficientul de corelaie sau de autocorelaie ntre i i i 1 . Pentru variabila ui au loc relaiile: M (ui ) = 0 ; V (ui ) = u2 , ipoteza de homoscedasticitate; ui N (0, u2 ) , ipoteza de normalitate; cov(ui , u j ) = 0 , ipoteza de necorelare a erorilor.

Coeficientul de autocorelaie ntre i i i 1 , este definit prin relaia: cov( i , i 1 ) cov( i , i 1 ) = = 2

i i 1

u2 n aceste condiii, = V ( i ) = V ( i 1 + ui ) = + , de unde rezult = . 1 2


2 2 2 2 u 2

Funcia de autocorelaie : Coeficientul de autocorelare se poate determina i ntre dou valori ntre care exist un decalaj cu ordin mai mare dect unu. Pentru astfel de situaii, se definete funcia de autocorelaie, potrivit relaiei: cov( i , i k ) cov( i , i k ) f (k ) = = 2

i i k

Efectele nclcrii ipotezei: Prin nclcarea ipotezei de necorelare a erorilor, se poate demonstra c pentru parametrul , prin aplicarea metodei celor mai mici ptrate, se obine un estimator

59

nedeplasat, dar neeficient. ntr-adevr, vom arta c pentru parametrul se obine un alt estimator, * , care are varian minim. Considerm modelul liniar de regresie: yi = + xi + i pentru care are loc relaia i = i 1 + ui , i fie modelul pentru un decalaj de ordinul unu: yi 1 = + xi 1 + i 1 . Dac acest ultim model se nmulete cu i se scade din modelul iniial, rezult modelul: yi yi 1 = (1 ) + ( xi xi 1 ) + ui Scris altfel, modelul de mai sus este de forma: yi* = * + * xi* + i* , numit i model de quasi-diferen, unde * = . Acest model respect ipotezele modelului clasic de regresie, iar prin aplicarea metodei celor mai mici ptrate ne ofer un alt estimator pentru parametrul , estimator care este nedeplasat i eficient.
Testarea autocorelrii erorilor n literatura de specialitate se ntlnesc mai multe teste pentru aceast ipotez, iar dintre acestea vom prezenta dou: Runs test i Durbin Watson test. a. Runs test Acest test are la baz ideea c valorile variabilei reziduale se constituie n secvene sau seturi de valori pozitive sau negative numite runs, care se succed ntr-o anumit ordine sau aleator. De exemplu, o variabil eroare cu 10 valori poate fi dat de urmtoarea succesiune de 3 runs: ( - - - ) ( + + + ) (- - - ). Ipoteza de baz a acestui test este aceea c n cazul lipsei autocorelrii erorilor succesiunea de runs este aleatoare sau numrul acestora este distribuit normal. Notaii Pentru un eantion de volum n, se fac urmtoarele notaii: - i este variabila eroare estimat la nivelul eantionului; - n1 este numrul de valori pozitive ale variabilei i ; - n2 este numrul de valori negative ale variabilei i , n1 + n1 = n; - k este numrul de runs, variabil aleatoare care are urmtorii parametri: nn M (k ) = 2 1 2 + 1 , n1 + n2 n1n2 n1 n2 V (k ) = 2n1n2 . (n1 + n2 ) 2 (n1 + n2 1) Etapele testrii

1. Formularea ipotezelor H0 : k este distribuit normal (nu exist autocorelare a erorilor); H1 : k nu este distribuit normal (ipoteza este nclcat). k M (k ) 2. Se utilizeaz o statistica Student: t = . k 3. Pentru un prag de semnificaie de 5%, se ia decizia de a accepta ipoteza nul dac are loc condiia: M (k ) 1,96 k k M (k ) + 1,96 k .

60

b. Durbin Watson test

Etapele testului: 1. Formularea ipotezelor: 2. Statistica test utilizat este:

H0 : = 0 (nu exist autocorelare a erorilor) H1 : 0 (ipoteza este nclcat)

n condiiile n care i = i 1 + ui , statistica DW = d =

( )
i i 1 i

i i 1 1 i = 2(1 ) d= 2 =2 i2 i i2 n concluzie, statistica DW se poate aproxima prin relaia: d = 2(1 ) . Deoarece 1 1 , atunci valorile statisticii DW sunt date de intervalul: 0 d 4 . Astfel, dac = 1 d = 4 , deci exist autocorelare pozitiv maxim a erorilor; = 1 d = 0 , deci autocorelare negativ maxim a erorilor; = 0 d = 2 , deci nu exist autocorelare. 3. Decizia se ia pe baza valorilor critice ale statisticii DW, calculate i tabelate n funcie de pragul de semnificaie i de volumul eantionului. n tabele se determin dou valori critice, notate cu dL (limita inferioar) i dU (limita superioar) pentru diverse valori ale pragului de semnificaie i ale volumului eantionului. n funcie de aceste valori critice se determin urmtoarele intervale, care permit luarea deciziei de respingere sau acceptare a ipotezei nule:
2 2
i i i i 1 i i i i i 2

2 i i 1 + i21

i2

se mai poate scrie astfel:

----o------o-------------------------------------- 0 dL dU 2 4- dU 4- dL 4 Decizia se ia n funcie de urmtoarele regiuni: (0; dL) este o regiune de respingere, erorile nregistreaz o autocorelare pozitiv; (dL ; dU) i (4-dU; 4-dL) sunt regiune de nedeterminare, dac valoarea statisticii DW cade n aceast regiune, nu se poate decide asupra existenei autocorelrii erorilor; (dU ; 4- dU) este o regiune de acceptare a ipotezei nule, erorile nu sunt autocorelate; (4-dL; 4) este o regiune de respingere, erorile nregistreaz o autocorelare negativ. Observaie: Testul Durbin Watson nu realizeaz dect un test asupra existenei unei autocorelri de ordinul nti ntre termenii variabilei eroare.
Corectarea autocorelrii erorilor Considerm modelul liniar de regresie yi = + xi + i . Exist dou situaii posibile pentru corectarea autocorelrii erorilor: cnd se cunoate coeficientul de autocorelaie dintre erori i cnd acesta nu se cunoate. a. este cunoscut n acest caz, estimarea parametrilor modelului se realizeaz cu ajutorul modelului de regresie modificat, adic a modelului de quasi-diferen yi* = * + * xi* + ui , unde

Yi * = Yi Yi 1 , * = (1 ) , X i* = X i X i 1 , * = , ui = i i 1 .

61

Pentru modelul (*) exist doi estimatori nedeplasai, convergeni i eficieni, * , * , care se determin cu ajutorul metodei celor mai mici ptrate. n aceste condiii, estimatorii pentru parametrii modelului iniial sunt: * = , = * . 1 b. este necunoscut n acest caz, exist mai multe metode de estimare a parametrilor modelului iniial care au la baz estimarea coeficientului de autocorelaie dintre erori. O metod larg utilizat este procedeul iterativ Cochrane-Orcutt. Etapele procedeului Cochrane-Orcutt: 1. Realizarea regresiei yi = + xi + i , fr a ine cont de ipoteza de necorelare a erorilor i estimarea erorilor i . 2. Realizarea regresiei i = i + vi i obinerea unei valori estimate pentru parametrul ,
3. Realizarea unei regresii pe baza modelului de quasi-diferen yi* = * + * xi* + ui , unde ei* = i i 1 . 4. Se reia pasul 1 cu rezultatele de la pasul 3, dac valoarea estimat pentru parametrul nu este satisfctoare. Astfel, dac la pasul 3, n prima iteraia s-a obinut un model care nu este satisfctor, se consider erorile estimate pentru acest model (fie aceste erori i** = yi * * xi* i se trece la pasul 2. La acest nivel, se estimeaz un coeficient de autocorelaie , pe baza erorii estimate din prima iteraie ( i** = i 1** + wi ), care va fi utilizat n pasul 3 pentru modelul de quasi-diferen. Procedeul se oprete atunci cnd ntre dou valori estimate a coeficientului de autocorelaie din dou iteraii succesive verific relaia: ( k ) ( k 1) = 0, 0025 .

4.4. Lipsa de coliniaritate a erorilor


Ipoteza de necoliniaritate afirm c ntre variabilele independente ale unui model de regresie nu exist o legtur de tip liniar. Principalele probleme legate de aceast ipotez sunt: stabilirea cauzelor nclcrii ipotezei, identificarea gradului de coliniaritate, stabilirea efectelor coliniaritii, testarea ipotezei de coliniaritate i corectarea modelului n cazul existenei coliniaritii.
Grade de coliniaritate Considerm un model de regresie care are k variabile independente. ntre variabilele independente exist o coliniaritate perfect dac exist k constante 1 , 2 ,..., k , nu toate nule, astfel nct s aib loc relaia: 1 X 1 + 2 X 2 + ... + k X k = 0 . Coliniaritate dintre variabile se numete neperfect, dac are loc relaia: 1 X 1 + 2 X 2 + ... + k X k + u = 0 , unde u este o variabil aleatoare care respect ipotezele modelului clasic de regresie.

62

Cauze: Coliniaritatea poate apare din diferite surse: natura fenomenului i variabilele alese pentru a realiza modelarea (de exemplu, ntr-un model asupra consumului de bunuri de strict necesitate, variabile independente ca venitul i mrimea familiei pot fi corelate liniar), tipul de model de regresie utilizat etc. Fenomenul care apare la nivelul eantionului de date disponibile, nu la nivelul populaiei totale. Efectele nclcrii ipotezei: Efectul coliniaritii se evideniaz n varianta estimatorilor parametrilor modelului de regresie. n cazul unei coliniariti perfecte, parametrii asociai variabilelor independente ntre care exist o legtur de tip liniar perfect nu pot fi determinai, iar variana acestora este practic infinit. n cazul unei coliniariti imperfecte, coeficienii de regresie ai variabilelor independente coliniare se estimeaz cu o eroare foarte mare. Testarea coliniaritii n practic, identificarea coliniaritii variabilelor independente se poate realiza prin diferite metode: a. Testarea coeficienilor de regresie n cazul unui model cu un coeficient de determinaie ridicat (de obicei peste 0.8). Dac coeficienii de regresie sunt nesemnificativ diferii de zero, atunci ipoteza de necoliniaritate este nclcat. b. Testarea coeficienilor de corelaie bivariai pentru variabilele independente din modelul de regresie. Dac aceti coeficieni au valori ridicate (de regul, peste 0.8), atunci exist posibilitatea coliniaritii ntre variabilele independente. c. Estimarea i testarea parametrilor modelelor de regresie auxiliar dintre variabilele independente. Ipoteza de necoliniaritate este nclcat dac aceti coeficieni de regresie sunt semnificativ diferii de zero. n softurile de statistic, cum este i cazul SPSS-ului, se utilizeaz o metod de detectare a coliniaritii pe baza a doi indicatori: Tolerance i VIF (Variance Inflation Factor). Ideea de baz a acestei metode se bazeaz pe cteva proprieti din cazul unui model liniar multiplu. Considerm modelul: yi = + 1 x1i + 2 x2i + i , atunci au loc relaiile:
V ( 1 ) =

(X
i

2
1i 2 X 1 ) 2 (1 r12 )

V (2 ) =

(X
i

2
2i 2 X 2 ) 2 (1 r12 )

n care
2 r12

( X X )( X X ) = (X X ) (X X )
2 1i 1 2i 2 i 2 1i 1 2i 2 i i

adic coeficientul de determinaie din modelul de regresie auxiliar bazat pe cele dou variabile independente. Cu alte cuvinte, dac generalizm, putem scrie:
V ( j ) =

(X
i

2
ji

X j ) 2 (1 rj2 )

unde

2 j

este raportul de determinaie din modelul de regresie auxiliar, construit pe baza

variabilelor independente, n care variabila j este considerat variabila dependent, iar celelalte variabile factoriale sunt considerate variabile independente.

63

1 i indic modul n care variana 1 rj2 estimatorului unui coeficient de regresie este influenat de prezena coliniaritii la nivelul variabilelor independente. Evident, lipsa coliniaritii d o valoare VIF = 1, iar existena coliniaritii determin o valoare mare a indicatorului, condiia limit fiind n cazul unei coliniariti perfecte ( rj2 = 1 VIF ). n practic, se consider c o valoare VIF > 10 indic

Indicatorul VIF se definete prin relaia: VIF =

prezena coliniaritii. Indicatorul Tolerance se determin ca inversul valorii indicatorului VIF. Astfel, 1 TOL j = = 1 rj2 VIFj Dac TOL = 1, nu exist coliniaritate, iar dac TOL = 0 suntem n situaia extrem de coliniaritate perfect.
Corectarea coliniaritii Corectarea se poate realiza n funcie de mai multe condiii: de dimensiunile coliniaritii, de informaiile suplimentare cunoscute a priori, de numrul de variabile independente i de importana lor etc. n acord cu aceste condiii, se pot aplica mai multe metode de corecie: - Eliminarea variabilei care induce fenomenul de coliniaritate. Aceast metod necesit ns destul precauie, pentru a nu comite o eroare de specificare a modelului. - Combinarea datelor din anchete cu date din serii de timp (pooling the data). Prin aceast metod se poate reduce influena unei variabile independente asupra celorlalte, estimnd coeficientul de regresie al variabilei respective pe baza unui alt set de date disponibile. - Transformarea variabilelor modelului prin diferite procedee, cum ar fi aplicarea operatorilor lag (decalaj) sau diferen. - Mrirea numrului eantionului sau includerea de noi date n analiz. Deoarece coliniaritatea este dat n special de construcia eantionului, includerea de noi date poate reduce sensibil fenomenul.

4.5. Testarea ipotezelor n SPSS


Pentru exemplificarea demersului testrii ipotezelor modelului clasic de regresie, se consider un exemplu de model de regresie liniar multipl, pe baza datelor disponibile din statistica oficial (Anuarul Statistic al Romniei, 2001). Variabile: Variabilele din exemplu sunt prezentate n figura 1. Variabila dependent este valoarea serviciilor din agricultur.

64

Figura 1. Variabilele din exemplu n urma analizei specifice modelelor liniare multiple prezentate la capitolul 3, se obine un model liniar multiplu cu 2 variabile independente, aa cum o arat figura 2.
Variables Entered/Removeda Variables Variables

Model 1

Entered suprafaa cultivata(h a), nr mediu al salariailor in agricultura (mii g persoane)

Removed

Method

Enter

a- All requested variables entered. b- Dependent Variable: valoarea serviciilor agricole(mil lei)

Figura 2. Variabilele din modelul supus testrii Aplicarea demersului de estimare a parametrilor modelului liniar multiplu cu variabilele prezentate mai sus, se obin rezultatele din figura 3. care ofer estimaiile parametrilor modelului.
Coefficientsa Unstandardized Coefficients Standardized Coefficients B Std. Error Beta -13515,9 6798,191 8,080 2,132 ,483

Model 1

(Constant) nr mediu al salariailor in agricultura (mii persoane) suprafaa cultivata (ha) ,163 a. Dependent Variable: valoarea serviciilor agricole(mii lei)

t -1,988 3,790 3,502

Sig. ,054 ,001 ,001

,047

,447

Figura 3. Estimaiile coeficienilor de regresie Modelul estimat este: Y = 13515,9 + 8, 080 nrm _ sal + 0,163 sup rf _ c Acest model va fi utilizat n continuare pentru testarea ipotezelor.

65

Observaie: Ipotezele cu privire la variabila rezidual se vor verifica cu ajutorul estimaiilor calculate n urma estimrii parametrilor modelului de regresie. n SPSS, exist posibilitatea salvrii acestei variabile, aa cum arat figura 4.

Figura 4. Opiunea de a salva variabila rezidual estimat


a. Ipoteza de normalitate a erorilor Pentru acest exemplu, vom testa ipoteza de normalitate a erorilor cu ajutorul testului neparametric Kolmogorov-Smirnov (testul K-S). Testul K-S verific normalitatea repartiiei comparnd frecvenele cumulate cu frecvenele teoretice cumulate extrase din tabelul Gauss. n SPSS, verificarea normalitii cu ajutorul testului K-S presupune urmtorul demers: meniul Analyze comanda Nonparametric Tests opiunea One-Sample Kolmogorov Smirnov Test. n fereastra Test Variable List introducem variabila rezidual "res_l". Decizia de a accepta sau respinge ipoteza nul H 0 : i N (0, 2 ) se ia pe baza rezultatelor testului, prezentate n figura 5. Regula de decizie: sig = 0,16 > 0, 05 , se accepta H0 , deci distribuia erorilor urmeaz o lege normal. Astfel, ipoteza de normalitate a erorilor este verificat.
One-Sample Kolmogorov-Smirnov Test Unstandardiz ed Residual N 40 Normal Parameters a,b Mean ,0000000 Std. Deviation 19667,44153 Most Extreme Absolute ,176 Differences Positive ,176 Negative -,145 Kolmogorov-Smirnov Z 1,116 Asymp. Sig. (2-tailed) ,166 a. Test distribution is Normal, b. Calculated from data.

Figura 5. Rezultatele testului i

N (0, 2 )

Ipoteza de normalitate implic o alt ipotez cu privire la media erorilor, i anume M ( i ) = 0 . Aceasta ipoteza semnifica faptul ca influena tuturor factorilor neinclui n model nu trebuie s afecteze sistematic media variabilei dependente. 66

n SPSS, pentru testarea acestei ipoteze se urmeaz demersul: meniul Analyze comanda Compare Means opiunea One-Sample T Test. n caseta Test Variable(s) se introduce variabila rezidual nestandardizat estimat ("res_l") obinut n urma aplicrii demersului regresiei. Aceasta valoare se compar cu 0, deci n caseta Test Value se va introduce valoarea 0. Conform figurii 6, se obine o valoare a semnificaiei testului sig t= 1,00, deci sig t > 0,05, ceea ce nseamn c se va accepta ipoteza H0 , conform creia media erorilor este zero.
One-Sample Test Test Value = 0

95% Confidencn Interval of the Difference t Unstandardized Residual ,000 df 39 Stg..(2-tailed) 1.000 Mean Difference ,0000000 Lower -6289,95 Upper 6289,953

Figura 6. Rezultatele testului M ( i ) = 0


b. Ipoteza de homoscedasticitate Testarea acestei ipoteze se realizeaz cu ajutorul mai multor teste: testul corelaiei neparametrice dintre variabila i i X i , testul Goldfeld - Quandt, testul Glejser.

Testul corelaiei neparametrice dintre variabila i i X i : n testare se alege, de regul, acea variabil independent care este posibil s determine heteroscedasticitatea modelului. Etapele testrii: se estimeaz erorile i ;
se calculeaz rangurile pentru variabilele i i X i ;

se determin coeficientul de corelaie neparametric Spearman

n(n 2 1) se realizeaz testarea cu ajutorul testului

= 1

6 di2
i =1

; d i = R i RX i ;

n 2 t (n 2) ; 1 2 se stabilesc ipotezele: H0 : = 0 (model homoscedastic) H1 : 0 (model heteroscedastic) se calculeaz t0 i se compar cu t ; regula de decizie: - dac sig t < se respinge H0, adic modelul este heteroscedastic; - dac sig t > se accepta H0, adic modelul este homoscedastic. n SPSS, construim mai nti variabila i . Ca demers: folosim din bara de meniu Transform comanda Compute (funcia ABS) i noua variabila llres_2", care va fie egal cu |res_1|. Apoi urmm demersul Analyze comanda Correlate opiunea Bivariate. n caseta Variables se selecteaz "suprf_c"(variabila independenta) i noua variabil res_2". Se obine urmtorul output:

t=

67

Correlations

Spearman's rho

RES_2 suprafaa cultivata(ha)

Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N

RES_2 1,000 . 40 ,201 ,10 40

suprafaa cultivata(ha) ,201 ,010 40 1.000 . 40

Figura 7. Rezultatele testului H0 : = 0 Deoarece Sig t = 0,101 > 0, 05 se accepta ipoteza H0 cu o probabilitate de 95%, adic modelul este homoscedastic.
Testul Goldfeld Quandt. Etapele testului: se ordoneaz seria dup variabila independent X; se mparte seria de date n dou pri dup ce au fost excluse un numr de nregistrri din centrul seriei; se realizeaz cte o regresie pentru fiecare din cele dou subeantioane obinute i se calculeaz valoarea estimat a variaie reziduale (RSS) pentru fiecare regresie: RSS1 i RSS2; se stabilesc ipotezele H0 : = 0 (model homoscedastic) H1 : 0 (model heteroscedastic) RSS1 (dac F este semnificativ exist diferene pentru testare se utilizeaz testul Fischer: F = RSS2 semnificative la nivelul celor dou seturi de date, deci modelul este heteroscedastic, iar dac F este nesemnificativ modelul este homoscedastic); regula de decizie: - dac sig F > se accepta H0 , adic modelul este homoscedastic; - dac sig F < , se respinge H0 , adic modelul este heteroscedastic i va trebui corectat n SPSS, ordonm seria dup variabila independent "suprf_c" (suprafaa cultivat) i se vor construi dou subeantioane de volume egale (20 de nregistrri): unul corespunztor valorilor mici ale variabilei independente i altul corespunztor valorilor mari. Cele doua subeantioane se construiesc parcurgnd urmtorul demers: - Meniul Transform comanda Recode opiunea Recode Into Different Variables. Selectnd variabila de interes "suprf_c", aceasta va primi o nou denumire, "suprc2"i o eticheta nou: mrimea suprafeei cultivate definit ca variabila dummy. Valorile mai mici dect 177 000 vor primi codul 0, iar celelalte vor primi codul 1. - Se utilizeaz comanda Split File din meniul Data, pentru a delimita cele dou seturi distincte de date. Toate comenzile ulterioare se vor realiza pentru cele dou seturi distincte de date. - Se realizeaz regresia ntre variabilele considerate i se obin rezultatele din figura 8.
SUPRC2 ,00 Model 1 Sum of Squares 860121056,041 1264204006,5 2124325062,6 12814543052 19361576104 32176119157 ANOVAb df 1 18 19 1 18 19 Mean Square 860121056,041 70233555,917 12814543052 1075643116,897 F 12,247 11,913 Sig. ,003a ,003a

Regression Residual Total 1,00 1 Regression Residual Total a. Predictors: (Constant), suprafaa cultivata (ha) b Dependent Variable: valoarea serviciilor agricole (mii lei)

Figura 8. Tabelul ANOVA pentru cele dou regresii

68

Se calculeaz valoarea testului Fisher. Deoarece valorile estimate sunt RSS2 . RSS1 =1264204006,5 i RSS2 = 19361576104, valoarea testului se calculeaz F = RSS1 Se obine F = 1,53, valoare pe care o comparm cu valoarea teoretic F ,n1 k ;n1 k = F0,05;18;18 2,191 . Observm c valoarea calculat este mai mic dect valoarea teoretic, deci acceptm ipoteza H0, adic modelul este homoscedastic.
c. Ipoteza de necorelare a erorilor Testarea acestei ipoteze se realizeaz cu ajutorul testelor: Runs Test i Durbin Watson test(DW). Runs Test se bazeaz pe ideea c valorile variabilelor reziduale pot fi analizate ca un ir de secvene de valori pozitive i negative. n ipoteza de necorelare a erorilor, acest ir este aleator sau numrul de secvene (run-uri) este aleator i normal distribuit. n SPSS, se urmeaz demersul: Analyze comanda Nonparametric Tests opiunea Runs Test, Testul se face asupra variabilei "res_1" Observaie: n SPSS, secvenele se obin prin compararea valorilor variabilei reziduale cu o valoare central (mediana, modul, media aritmetic) sau o alt valoare (figura 9).

Figura 9. Runs-test Dup ce n zona Cut Point se bifeaz opiunea Median, se obine output-ul urmtor:
Runs Test

Unstandardiz ed Residual Test Value Cases < Test Value Cases >= Test Value Total Cases Number of Runs 2 Asymp. Sig. (2-tailed) a. Median
a

616,52818 20 20 40 20 -,160 ,873

Figura 10. Rezultate Runs-test

69

Valoarea sig = 0,873 > 0,05, deci se accept ipoteza H0 , adic nu exist fenomenul de autocorelare a erorilor. Observm, de asemenea, c valoarea testului z = 0,16 (1,96;1,96) se afl n regiunea de acceptare

(z

= z0,005 2 = z0,0025 = 1,96 ) .

(z

; z 2 ) ,

de

unde

rezult

aceeai

concluzie

Durbin Watson Test (DW) admite o ipotez asupra coeficientului de corelaie a erorilor ( ). Ipotezele testului sunt: H0 : = 0 H1 : 0 Demersul testrii: - Se calculeaz statistica DW = d = 2(1 ) . - Regula de decizie: dac d [d L , dU ] [4 d L , 4 dU ] , nu se poate lua nici o decizie; dac d [dU , 4 dU ] , se accept H0, nu exist autocorelare;

dac d [0, d L ] , se respinge H0, exist autocorelare pozitiv; dac d [4 d L , d L ] , se respinge H0, exist autocorelare negativ. Unde: dL i dU se citesc din tabele Durbin Watson. n SPSS, se obine valoarea testului DW = d = 1,526. Din tabela Durbin Watson, pentru k = 2 (numrul de variabile independente), n = 40 (volumul eantionului) i un nivel de ncredere de 95%, se obin valorile: dL = 1,39; dU = 1,60. n concluzie, d [d L , dU ] , adic nu se poate lua o decizie cu privire fa aceast ipotez.
d. Ipoteza lipsei de coliniaritate a variabilelor independente n SPSS, testarea acestei ipoteze se realizeaz cu ajutorul opiunii de Collinearity diagnostics din meniul Analyze comanda Liean Regression opiunea Statistics.

Figura 11. Opiunea Collinearity diagnostics Rezultatul diagnosticului cu privire la ipoteza de necoliniaritate are la baz analiza a doi indicatori: TOL si VIF. Dac VIF are valori mai mari dect 10, exist probleme de coliniaritate cu acea variabil. n cazul n care TOL = 0 exist o coliniaritate perfect; cu ct valorile TOL sunt mai aproape de 1, rezult ca acea variabil nu induce fenomenul de coliniaritate. Rezultatele diagnosticului sunt prezente n figura 12.

70

Coefficientsa Model 1 suprafaa cultivata(ha) ,163 ,047 ,447 3,502 ,001 ,376 2,659

(Constant) Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity Statistics B Std Error Beta -13515,86 6798.191 -1,938 ,054

nr mediu al salariailor n agricultur (mii persoane) 8,080 2,132 ,483 3,790 ,001 ,376 2,659

Tolerance VIF a. Dependent Variable: valoarea serviciilor agricole (mii lei)

Figura 12. Rezultatele pentru Collinearity diagnostics Valorile indicatorilor VIF i TOL arat c nu sunt probleme n ceea ce privete coliniaritatea variabilelor independente.

Rezumat
Noiuni importante: normalitatea erorilor, homoscedasticitatea, corelarea modelului heteroscedastic, autocorelarea erorilor, lipsa de coliniaritate a erorilor, grade de coliniaritate, corectarea coliniaritii. Formule importante: Testul Jarque-Bera, tastarea homoscedasticitii, coeficientul de autocorelaie, funcia de autocorelaie, testarea autocorelrii erorilor, corectarea autocorelrii erorilor, testarea coliniaritii.

Capitolul 5. Modele speciale


Un domeniu mai puin cercetat, adesea trecut uor cu vederea, este cel al analizei regresie cu variabile dummy. De regul, n analiza de regresie, att variabila rezultativ ct i variabila / variabilele factoriale sunt variabile numerice. Variabilele dummy sunt utilizate n calitate de variabile factoriale n analiza variaiei prin procedeul ANOVA. Folosirea lor n analiza de regresie devine posibil doar prin cuantificarea lor. n lucrare, se consider cazul analizei de regresie cu o variabil rezultativ numeric i una, respectiv, dou variabile factoriale dummy.

5.1. Variabile dummy


Variabilele dummy sunt variabile calitative (nominale) care indic prezena absena unui atribut. De regul, astfel de variabile sunt cunoscute n literatura de specialitate sub denumirea de variabile dichotomice, variabile binare sau variabile alternative. De exemplu, variabila sex prezint dou variante posibile, masculin - feminin. O persoan poate sau nu s posede o anumit categorie, poate sau nu fi de sex masculin, respectiv de sex feminin. Generaliznd, se poate construi o variabil X ale crei valori sunt da, cnd unitile populaiei posed categoria considerat, i nu, cnd unitile populaiei posed acea categorie. Fiecrei modaliti i se poate atribui un cod, numeric sau simbolic, cu rol identificator, care nu exprim un raport de dependen ntre variantele variabilei. Fiecrei variante a variabilei

71

X i se atribuie o valoare, i anume: 1 pentru da i 0 pentru nu. Sub aceast form cuantificabil, variabilele dummy pot fi folosite n analiza de regresie. Sub form cuantificabil, variabila nominal dichotomic ia aspectul unei variabile numerice, tratamentul ei statistic devenind facil.

5.2. Modele ANOVA


Un model de regresie care conine variabile dummy ca variabile factoriale este cunoscut sub denumirea de ANOVA - model de analiz a variaiei. Dac variabilele dummy sunt cuantificate", acestea pot fi incluse ntr-un model de regresie i pot fi tratate asemeni variabilelor cantitative. Un astfel de model de regresie poate fi scris sub forma modelului de tip liniar: Y=a+bD+e unde: Y = variabila rezultativ, numeric; D = variabila factorial, dummy, ale crei valori sunt da i nu, respectiv 1 i 0; a = parametru, ordonata la origine a dreptei de regresie, care arat valoarea variabilei Y cnd D = 0; b = parametru, panta dreptei de regresie, numit coeficient de regresie; e = reziduu sau variabila eroare aleatoare neobservabil, de medie egal cu zero. Arat influena factorilor aleatori asupra variaiei variabilei Y. n modelul de regresie ANOVA, care conine o variabil dummy n calitate de variabil factorial, media variabilei rezultative numerice Y poate fi: M (Y Di = 0 ) = a M (Y Di = 1) = a + b Ecuaiile de mai sus arat c valoarea medie a variabilei Y este egal cu valoarea parametrului a, atunci cnd variabila dummy nu posed nsuirea considerat; respectiv, cu suma celor doi parametri, a + b, cnd variabila dummy posed nsuirea. n cazul al doilea, valoarea parametrului b arat cu ct este mai mare valoarea medie a variabilei Y, atunci cnd unitile colectivitii poart nsuirea dat, fa de cazul cnd nu poart nsuirea dat. n situaia n care nu exist nici o deosebire ntre valoarea medie a variabilei Y, obinut pentru variabila dummy cnd D = 0 i valoarea medie a variabile Y cnd D = 1, variabila dummy nu exercit o influen semnificativ asupra variabilei Y.
Exemplu. Pentru a exemplifica, considerm variabilele din baza de date Tapestry: - sexul (sexul persoanelor sosite n pelerinaj la Suceava n perioada srbtorilor oraului Suceava i ale Sfntului Ioan cel Nou de la Suceava ), variabil independent, dummy, cu variantele: 1 - Masculin, 0 - Feminin; - venit_1 (Venitul lunar al persoanelor sosite n pelerinaj la Suceava n perioada srbtorilor oraului Suceava i ale Sfntului Ioan cel Nou de la Suceava), variabil dependent, numeric, continu. Pentru estimarea ecuaiei de regresie am folosit programul SPSS, parcurgnd paii prezentai n figura 1, i anume: meniul principal Analyse comanda Regression opiunea Linear. Din fereastra de dialog Linear Regression se alege, din lista variabilelor, variabila sexul

72

i se mut n zona Variabil independent, iar variabila venit_1 n zona Variabil dependent. Prin click asupra butonului OK se comand output-ul, prezentat figura 2.

Fig. 1. Fereastra de dialog Linear Regression n SPSS, pentru o variabila factorial dummy
Model 1
ANOVAb Suin of Squares df 98,451 1 2454,759 398

Regression Residual Total

Mean Square 98,451 6,168

F 15,962

Sig. ,000a

2553,240

399

a. Predictors: (Constant), sexul persoanei b. Dependent Variable: Venitul persoanei

Model 1 (Constant) sexul persoanei

Coefficientsa Unstandardized Coefficients B Std. Error

Standadized Coefficients Beta ,196

t 14,921 3,995

Sig. ,000 ,000

2,443 1,004

,164 ,251

a. Dependent Variable: Venitul persoanei

Fig. 2. Output-urile analizei de regresie liniar n SPSS, pentru o variabil factorial dummy Probabilitatea Sig., asociat valorii testului Fisher din tabelul ANOVA, este mai mic dect 0,05 (Sig. - 0,000). Ca urmare, variabila independent sexul explic variaia variabilei dependente venit_1. Din tabelul Coefficients observm c ecuaia de regresie estimat are forma: Y = 2,443 + 1,004 D, unde: Y = venit_1; D = sexul Valorile Sig. asociate testului t pentru cei doi coeficieni de regresie, sunt mai mici ca 0,05, prin urmare, coeficienii ecuaiei de regresie au valori semnificative la nivelul populaiei de 73

pelerini. Valorile semnificative ale celor doi coeficieni de regresie arat c venitul lunar mediu este de 2,443 milioane, cnd variabila sexul ia valoarea feminin, respectiv de 3,447 milioane lei, cnd variabila independent ia valoarea masculin, venitul mediu lunar este, deci cu 1,004 milioane lei mai mare dect n cazul n care variabila ia valoarea feminin.

5.3. Modele ANCOVA


Un model de regresie care conine o variabil rezultativ numeric i o mixtur de variabile cantitative i variabile dummy ca variabile factoriale este cunoscut sub denumirea de model ANCOVA - model de analiz a covarianei.
a. Modele ANCOVA cu o variabil dummy i o variabil numeric Un model ANCOVA de acest tip poate fi scris sub forma modelului de tip liniar: Y = a + b Di + c X + ei unde: - Y = variabila rezultativ, numeric; - D = variabila factorial, dummy, ale crei variante sunt da i nu (posed sau nu posed nsuirea), respectiv ,,1 i 0; - a = parametru, ordonata la origine a dreptei de regresie, care arat valoarea variabilei Y cnd D = 0; - b = parametru, care, mpreun cu parametrul a, (a+b), reprezint ordonata la origine a dreptei de regresie, care arat valoarea variabilei Y cnd D = 1; - c = panta dreptei de regresie, numit coeficient de regresie; - X = variabila explicativ (factorial), numeric; - e = reziduu sau variabila eroare aleatoare neobservabil, de medie egal cu zero. Arat influena factorilor aleatori asupra variaiei variabilei Y. n cazul unui astfel de model, media variabilei rezultative Y, pentru fiecare din cele dou valori ale variabilei factoriale dummy, poate fi: M (Y X , Di = 0 ) = a + c X M (Y X , Di = 1) = (a + b) + c X Din relaiile de mai sus se desprinde concluzia c media variabilei rezultative Y, indiferent de valorile variantelor variabilei factoriale dummy, este funcie liniar de variabila explicativ cantitativ. Diferena dintre valoarea medie a variabilei rezultative n cazul n care elementele colectivitii poart nsuirea (deci, cnd D = 1), fa de cazul n care elementele nu poart nsuirea dat (deci, cnd D = 0) este egal cu b. Exemplu. Din baza de date Tapestry considerm variabilele: - sexul (Sexul persoanelor sosite n pelerinaj la Suceava n perioada srbtorilor oraului Suceava i ale Sfntului Ioan cel Nou de la Suceava), variabil independent, dummy, cu variantele: 1 - Masculin, 0 - Feminin; - vrsta (Vrsta persoanelor sosite n pelerinaj la lai n perioada srbtorilor oraului Suceava i ale Sfntului Ioan cel Nou de la Suceava), variabil independent, numeric, discret; - venit_1 (Venitul lunar al persoanelor sosite n pelerinaj la lai n perioada srbtorilor oraului Suceava i ale Sfntului Ioan cel Nou de la Suceava), variabil dependent, numeric, continu.

74

Pentru estimarea ecuaiei de regresie am folosit programul SPSS, parcurgnd paii prezentai n figura 2 i anume: meniul principal Analyse comanda Regression opiunea Linnear. Din fereastra de dialog Linear Regression se alege, din lista variabilelor, variabila sexul i variabila vrsta ca variabile independente, iar variabila venit_1 ca variabil dependent. Prin click asupra butonului OK se comand output-ul, prezentat figura 4.

Fig. 3. Fereastra de dialog Linear Regression n variabil dummy i o variabil numeric


Model 1
ANOVAb Suin of Squares df 112,779 2 2440,461 397

Regression Residual Total

Mean Square 56,390 6,147

F 9,173

Sig. ,000a

2553,240

399

a. Predictors: (Constant), vrsta persoanei, sexul persoanei b. Dependent Variable: Venitul persoanei
Coefficientsa Unstandardized Coefficients B Std. Error

Model 1 (Constant) sexul persoanei vrsta persoanei a. Dependent Variable: Venitul persoanei

Standadized Coefficients Beta ,199 ,075 5,605 4,056 1,527

t ,000 ,000 ,128

Sig.

1.969 1,018 1.239E-02

,351 ,251 ,008

Fig. 4. Output-urile analizei de regresie liniar n SPSS, pentru o mixtur cu o variabil dummy i o variabil numeric Probabilitatea Sig. = 0,000, din tabelul ANOVA, arat c variabilele independente sexul i vrsta explic variaia variabilei dependente ,,venit_1. Din tabelul Coefficients observm c ecuaia de regresie estimat are forma: Y = 1,969 + 1,018 D + 0,01239 X, unde: Y = venit_1; D = sexul; X = vrsta. Valorile Sig., asociate testului t, arat c valorile coeficienilor a i b1 sunt semnificative, pe cnd coeficientul b2 nu are o valoare semnificativ la nivelul populaiei pelerinilor. 75

Valorile coeficienilor de regresie arat c venitul lunar mediu, atunci cnd variabila ,,sexul ia valoarea feminin, este cu 1,018 milioane lei mai mic dect atunci cnd variabila ia valoarea masculin. Totodat, la o cretere cu un an a vrstei unui pelerin, venitului lunar crete, n medie, cu 0,01239 milioane. Valoarea mic a coeficientului de regresie b2 ne arat c, pentru cazul considerat, vrsta nu este explicativ pentru creterea venitului.
b. Model ANCOVA cu dou variabile dummy i cu o variabilii numeric Modelul de regresie cu variabile dummy poate fi extins cu uurin ia mai multe variabile calitative. Un model care exprim legtura de regresie dintre o variabil cantitativ i o mixtur cu o variabil cantitativ i dou variabile dummy poate fi scris sub forma: Y = a + b1 D1 + b2 D2 + c X + ei unde: - Y = variabila rezultativ, numeric; - D = variabila factorial, dummy, ale crei variante sunt da i nu (posed sau nu posed nsuirea), respectiv ,,1 i 0; - a = parametru, ordonata la origine a dreptei de regresie, care arat valoarea variabilei Y cnd D = 0; - b = parametru, care, mpreun cu parametrul a, (a+b), reprezint ordonata la origine a dreptei de regresie, care arat valoarea variabilei Y cnd D = 1; - c = panta dreptei de regresie, numit coeficient de regresie; - X = variabila explicativ (factorial), numeric; - e = reziduu sau variabila eroare aleatoare neobservabil, de medie egal cu zero. Arat influena factorilor aleatori asupra variaiei variabilei Y. Presupunnd c M ( e ) = 0, pe baza relaiei modelului, se pot obine urmtoarele valori pentru media variabilei rezultative: M (Y D1 = 0, D2 = 0, X ) = a + c X M (Y D1 = 1, D2 = 0, X ) = (a + b1 ) + c X M (Y D1 = 0, D2 = 1, X ) = (a + b2 ) + c X M (Y D1 = 1, D2 = 1, X ) = (a + b1 + b2 ) + c X Se observ din aceste relaii c ecuaiile de regresie anterioare difer numai prin valoarea parametrilor (a coeficienilor variabilelor dummy), n timp ce panta dreptei de regresie (c) este aceeai. O estimare cu ajutorul metodei celor mai mici ptrate a modelului ANCOVA va conduce la testarea mai multor ipoteze. Astfel, dac b2 este semnificativ din punct de vedere statistic, se poate desprinde concluzia c variabila D1 influeneaz n mare msur variabila rezultativ Y. n mod analog, dac b1 este statistic semnificativ, atunci variabila D2 exercit o influen deosebit asupra variabilei rezultative. n cazul n care ambii parametri, b1 i b2, sunt statistic semnificativi, se poate concluziona c cele dou variabile dummy se constituie n factori determinani ai variabilei rezultative. Din cele prezentate anterior, se poate observa faptul c un model poate fi extins prin includerea mai multor variabile cantitative (mai mult dect o singur variabil cantitativ) i a mai mult de dou variabile calitative, cu precizarea c numrul variabilelor dummy trebuie s fie mai mic cu unul dect numrul categoriilor variabilei respective.

76

Exemplu. Din baza de date Tapestry considerm, n plus fa de cazul precedent, variabila "ara" (ara de provenien a persoanelor sosite n pelerinaj la Suceava n perioada srbtorilor oraului Suceava i ale Sfntului Ioan cel Nou de la Suceava), variabil independent, dummy, cu variantele: 1 - Romnia, 0 - Alte ri. Output-ul rezultat n urma prelucrrii este prezentat n figura 5.
Model 1
ANOVAb Suin of Squares df 189,206 3 2364,034 396

Regression Residual Total

Mean Square 63,069 5,970

F 10,565

Sig. ,000a

2553,240

399

a. Predictors: (Constant), vrsta persoanei, sexul persoanei , ara b. Dependent Variable: Venitul persoanei

Model 1 (Constant) sexul persoanei ara vrsta persoanei a. Dependent Variable: Venitul persoanei

Coefficientsa Unstandardized Coefficients B Std. Error

Standadized Coefficients Beta ,198 -,174 ,095

t 5.861 4,083 -3.578 1,958

Sig. ,000 ,000 ,000 ,051

4,246 1,010 -2,482 1.577E-02

,725 ,247 .694 ,008

Figura 5. Output-ul analizei de regresie liniar n SPSS, pentru o mixtur cu dou variabile dummy i o variabil numeric Probabilitatea Sig. = 0,000, din tabelui ANOVA, arat c variabilele independente sexul, ara i vrsta explic variaia variabilei dependente venit_1. Din tabelul Coefficients observm c ecuaia de regresie estimat are forma: Y = 4,246 + 1,010 D1 - 2,482 D2 + 0,01577 X , unde: Y = venit_1; D1 = sexul; D2 = ara; X = vrsta. Valorile Sig., asociate testului t, arat c valorile coeficienilor de regresie a, b1 i b2 sunt semnificative, pe cnd coeficientul b3 nu are o valoare semnificativ la nivelul populaiei pelerinilor, ceea ce nseamn c doar variabilele sexul i ara influeneaz semnificativ variabila venit_1. Din valorile coeficienilor de regresie se poate observa c venitul lunar mediu este cu 1,010 milioane lei mai mare atunci cnd variabila sexul ia valoarea masculin dect atunci cnd variabila ia valoarea feminin i este cu 2,482 mai mare atunci cnd variabila ara ia valoarea Alte ri dect atunci cnd valoarea variabilei este Romnia. Totodat, la o cretere cu un an a vrstei unui pelerin, venitului lunar va crete, n medie, cu 0,01577 milioane. Valorile medii ale variabilei rezultative Y, venit_1, corespunztoare sunt: - venitul mediu lunar al pelerinilor de sex feminin din Romnia este de 4,246 milioane lei; - venitul mediu lunar al pelerinilor de sex masculin din Romnia este de 5,256 milioane lei; - venitul mediu lunar al pelerinilor de sex feminin din alte ri dect Romnia este de 6,728 milioane lei; - venitul mediu al pelerinilor de sex masculin din alte ri dect Romnia este de 7,738 milioane lei.

77

Rezumat
Noiuni importante: variabile Dummy, modele ANOVA, modele ANCOVA, modele ANCOVA cu o variabil dummy i o variabil numeric, modele ANCOVA cu dou variabile dummy i o variabil numeric,

Capitolul 6. Modele pentru serii de timp


O serie de timp reprezint un set de observaii, un set de valori pe care le ia o variabil (cantitativ sau calitativ) la diferite momente sau intervale de timp. Principalele probleme ale modelrii seriilor de timp sunt: delimitarea componentelor seriei, descompunerea seriei pe componente, ajustarea seriei n funcie de componentele identificate, prognoza fenomenului pe baza seriei ajustate.

6.1. Componentele unei serii de timp


Seriile cronologice pot fi descompuse n patru componente, fiecare exprimnd un aspect particular al valorilor seriei, definind i tipologia lor. Aceste componente sunt: tendina, fluctuaia ciclic, variaia sezonier i variaia aleatoare, prezentate grafic n figura 1.

Figura 1. Componentele unei serii cronologice "complete"


Componenta tendenial (trend) Componenta tendenial, numit i trend sau tendin secular, se noteaz ft i arat tendina general nregistrat pe o perioad lung de timp i exprim variaia medie, respectiv legea de evoluie a variabilei observate. Este de natur determinist, timpul fiind singura variabil care explic variaia fenomenului observat. Descrierea componentei trend se face printr-o funcie continu, de regul, printr-o funcie polinomial n timp, yt = f (t), de grad n (cu n = 1 sau 2, foarte rar n > 2). Aproximarea modelului de trend (a legii de evoluie n timp a variabilei observate) i estimarea parametrilor acestuia se constituie ca obiect al ajustrii statistice. Componenta ciclic Componenta ciclic se noteaz Ct i se prezint ca o fluctuaie de tip sinusoidal, n jurul trendului, cu o durat relativ lung de timp, cu caracter de repetabilitate regulat. Variaia ciclic cuprinde patru faze: expansiunea, criza, recesiunea i relansarea (vezi figura 2.).

78

Figura 2. Fazele unui ciclu n activitatea economic s-au conturat cicluri cu durat diferit, de exemplu, de aproximativ 50 ani pentru ciclul tip Kondratieff, de aproximativ 9 ani pentru ciclul tip Juglar, de aproximativ 7 ani pentru ciclul biblic (7 vaci grase, 7 vaci slabe). Analiza componentei ciclice (atunci cnd aceasta exist, deoarece adesea se suprapune pe trend) presupune studierea comportamentului variabilei observate pe o perioad lung de timp n raport cu trendul, decupndu-se periodicitatea ciclic i fazele unui ciclu.
Componenta sezonier Componenta sezonier se noteaz St i este definit de variaiile pe termen scurt, prin creteri i descreteri de nivel succesive care se repet de la o perioad la alta, fie n jurul componentei ciclice (cnd aceasta exist), fie n jurul componentei trend. Variaiile sezoniere sunt repetabile, de regul, de la o lun la alta, sau de la un trimestru la altul. La nivelul unui an influena sezonier este neutr. Teoretic, variaiile sezoniere, St , se repeta riguros identic de la o perioad "p" la alta, adic: St = St + p = St + 2 p = ... = etc.

Dac, de exemplu, perioadele ar fi lunile sau trimestrele anului, atunci variaiile sezoniere corespunztoare se repet identic lunar sau trimestrial n fiecare an, respectiv, au loc egalitile: St = St +12 , adic S1 = S13 = S25 = ... = etc. , sau St = St + 4 , adic S1 = S5 = S9 = ... = etc. Influena variaiilor sezoniere St (lunare sau trimestriale) este neutr la nivelul anului; creterile i descreterile de nivel (lunare sau trimestriale) se compenseaz ntre ele la nivelul fiecrui an. Ca urmare, au loc urmtoarele relaii: - n cazul unui model aditiv, (considernd t = 0 ) media variaiilor sezoniere este nul la nivelul anului: 1 p St p t =1 t =1 - n cazul unui model multiplicativ, (considernd t = 0 ) media variaiilor sezoniere

St = 0 , respectiv S = 0, S =

este egal cu unitatea:

79

1 p S = 1, S = St p t =1 - n cazul modelului multiplicativ, variaiile sezoniere cresc sau descresc cu aceeai rat (proporie), s, astfel c: S = 1+ s unde 1 + s este multiplicatorul, iar S rata medie de cretere, egal eu zero: S = 0, Adic, analog modelului aditiv, rata de cretere a variaiilor sezoniere se anuleaz, n medie, n fiecare an, repetndu-se identic de la an la an. Variaiile sezoniere sunt datorate unor cauze diferite care definesc ritmul activitilor sezoniere (periodicitatea lucrrilor agricole, a concediilor, a srbtorilor tradiionale). Depistarea componentei sezoniere se face prin metode grafice, armonice.
Componenta aleatoare (rezidual) Componenta aleatoare se noteaz t i are drept caracteristic de baz caracterul non-

determinist al variaiei. Se consider c pe un numr mic de ani t se compenseaz:

= 0.

Variaia aleatoare se poate manifesta ca un proces pur aleator, un proces aleator n care parametrii variaz n timp, i ca un proces staionar. n cazul procesului pur aleator seria cronologic este o secven de variabile independente mutual i cu aceeai distribuie de probabilitate. Sperana matematic i variana variabilei aleatoare t , sunt independente de timp: M ( t ) = , V ( t ) = 2 , oricare ar fi perioada t, iar covariana a dou perturbaii aleatoare decalate de un numr j de perioade este nul: cov( t , t + j ) = 0 , oricare ar fi j. Un proces pur aleator mai este numit zgomot alb, denumire ce implic necesar normalitatea perturbaiilor aleatoare (sub aceast ipotez s-au determinat estimatorii coreci ai parametrilor necunoscui ai unei populaii, precum i estimatorii parametrilor de regresie). n cazul proceselor aleatoare n care parametrii variaz n timp se includ procese aleatoare ale cror realizri sunt independente de la o perioad la alta, dar ai cror parametri evolueaz n cursul timpului. Fiecare dat a seriei este o realizare a unei variabile aleatoare diferit de precedentele. Respect aceleai proprieti specifice proceselor aleatoare: M ( t ) = , V ( t ) = 2 , cov( t , t + j ) = 0 n cazul proceselor staionare caracteristic este dependena variabilei t de t 1 , t 2 , ..., t k , dependen exprimat prin proprietatea: covariana ntre t i t j rmne constant i nu depinde dect de decalajul j i nu de t. Ca urmare, proprietile specifice proceselor staionare, n raport cu procesele pur aleatoare, sunt: M ( t ) = , V ( t ) = 2 , pentru oricare t, cov( t , t j ) 0 , rmne constant i nu depinde dect de j i nu de t.
Combinarea componentelor unei serii cronologice Componentele unei serii cronologice, ft trendul, Ct componenta ciclic, St componenta sezonier, t componenta aleatoare, se pot combina fie aditiv, fie multiplicativ. Din combinrile posibile, n practica economic se aplic frecvent urmtoarele modele: - modelul aditiv: yt = ft + Ct + St + t ,

80

- modelul multiplicativ: yt = f t Ct St t ,

- modelul mixt: yt = St + ( f t Ct t ) sau y = Ct + ( ft St t ) . n majoritatea cazurilor modelul multiplicativ se transform logaritmic yt = ft St t este echivalent cu log yt = log ft + log St + log t . Transformarea se recomand pentru a stabiliza variana sa i pentru a facilita calculele. ntr-un model aditiv, fenomenul y studiat n funcie de timp se descompune n componente independente unele de altele, pe cnd ntr-un model multiplicativ yt se descompune n componente dependente unele de altele. Analiza unei serii cronologice const n determinarea valorilor luate de fiecare din cele pentru componente. Tratarea componentelor impune s se nceap cu evaluarea trendului ( ft ), apoi s se estimeze variaiile sezoniere i n fine componenta ciclic (atunci cnd aceasta exist). Ceea ce nu se atribuie celor trei componente se consider explicat prin componenta aleatoare ( t ). n urmtoarele paragrafe vom insista asupra evalurii acestor componente, n special asupra trendului.

6.2. Estimarea trendului


Metoda analitic de ajustare const n aproximarea tendinei de variaie n timp cu ajutorul funciei de trend yt = f (t ) , n care t reprezint variabila timp, iar y variabila n timp. Prin folosirea metodei analitice de ajustare se stabilete cu mai mult siguran legea de dezvoltare, de variaie a unui fenomen, deoarece se ine seama de valorile empirice ale tuturor termenilor unei serii. Tendina de variaie a fenomenelor sociale se aproximeaz, de regul, printr-una din funciile ale cror curbe si ecuaii de estimare au fost prezentate n capitolul "Regresie i corelaie". Variabila x din modelele de regresie devine t n modelele de trend. Parametrii ecuaiei de trend se afl, de regul, cu ajutorul metodei celor mai mici ptrate.
Trendul liniar. O variaie n timp de forma unei funcii liniare este specific fenomenelor care se dezvolt rectiliniu. Ecuaia de estimare a funciei de trend liniare este definit de relaia: yt =a + b t + e Determinarea parametrilor funciei de trend are la baz principiul celor mai mici ptrate, conform cruia trebuie s se satisfac condiia: S = ei2 = ( yi yt ) 2 = minim.

Aflarea parametrilor presupune urmtoarele operaii: 1. se afl derivatele pariale ale expresiei de mai sus n raport cu parametrii funciei yt = f (t ) ; 2. se anuleaz derivatele pariale; 3. se rezolva sistemul de ecuaii normale obinut. Pentru un trend liniar, principiul celor mai mici ptrate cere s se satisfac condiia: S = ( yi a b ti ) 2 = minim. Se stabilesc i se anuleaz derivatele pariale ale expresiei S n raport cu a i b:

81

S a = 2 ( yi a b ti )(1) = 0 S = 2 ( y a b t )( x ) = 0 i i i b De aici rezult urmtorul sistem de dou ecuaii normale: n a + b ti = yi 2 a ti + b ti = ti yi n funcia de trend, variabila timp reprezint de regul o serie de numere consecutive, originea lundu-se n centrul seriei i deci ti = 0 . Ca urmare, ecuaiile normale pot fi simplificate, lund urmtoarea form: n a = yi 2 b ti = ti yi de unde rezult relaiile de calcul pentru parametrii ecuaiei de trend: yi i b = ti yi a= n ti2 Valorile variabilei timp se msoar n uniti ntregi (intervale), dac numrul termenilor seriei este impar i anume: ...,-2,-1, 0, 1,2,... sau n jumti de interval, dac numrul termenilor este par, astfel: ...,-5, -3, -l, 0, 1,3, 5, ... Aflarea parametrilor se efectueaz mai facil dac elementele de calcul sunt grupate ntr-un tabel (vezi tabelul 1).
Exemplu Considernd datele prezentate n tabelul 1 cu plivire la un fenomen Y, ntr-o perioad de 11 ani, se cere s se ajusteze seria prin metoda analitic.

Tabelul 1. Elemente de calcul pentru determinarea tendinei liniare Valorile seriei ajustate ti2 Anii yi ti yi t i yti = a + b ti = 56,9 + 9,44 ti 1 1 2 3 4 5 6 7 8 9 10 11 Total 2 22,9 25,2 28,8 36,0 49,8 53,1 60,8 69,6 77,4 92,3 110.0 625,9 3 -5 -4 -3 -2 -I 0 1 2 3 4 5 0 4 -114,5 -180,8 -86,4 -72,8 -49,8 0 68,8 139,2 232,2 369,2 550,8 927,9 5 25 16 9 4 1 0 1 4 9 16 25 110 6 14,7 23.14 31,58 40,82 48,46 56,9 65,34 73,78 82,22 90,66 99,10 625,9

82

Introducnd datele, calculate n tabelul 1, n sistemul de ecuaii se va obine: 11 a = 625,9 110 b = 927,9 de unde rezult valoarea parametrilor: a = 56,9 b = 8, 44 Ecuaia tendinei liniare va fi: yt =a + b t = 56,9 + 8,44 t , iar dreapta determinat pe baza acestei ecuaii este prezentat n coloana 6 a tabelului 1. Verificarea exactitii ajustrii const n compararea sumei valorilor empirice cu suma valorilor ajustate (teoretice) ale termenilor seriei, care trebuie s fie egale ( yi = yt ). n ipoteza

=0.

n seria considerat, abaterile n plus i n minus fa de tendina medie sunt relativ mici, ceea ce ne ndreptete s credem c dreapta calculat oglindete corect trendul n perioada cercetat.
Trendul parabolic Trendul parabolic este specific fenomenelor care prezint o tendin cresctoare sau descresctoare cu un punct de maxim, respectiv de minim. Ecuaia tendinei parabolice de gradul doi este: y = a + b t + c t2 + e Aplicnd metoda celor mai mici ptrate, n cazul ajustrii dup o parabol de gradul doi, se obine urmtorul sistem de ecuaii normale: n a + b ti + c ti2 = yi 2 3 a ti + b ti + c ti = ti yi 2 3 4 2 a ti + b ti + c ti = ti yi n condiia ti = 0 , se obin:

n a + c ti2 = yi 2 3 b ti + c ti = ti yi 2 3 4 2 a ti + b ti + c ti = ti yi

de unde avem:

yi ti4 ti2 yi ti2 a = 2 n ti4 ( ti2 ) ti yi b = ti2 n t2 y t2 c = i i i 2 n ti4 ( ti2 )

83

Exemplu Considerm datele din exemplul de mai sus. S se ajusteze seria dup un trend parabolic. Rezolvare Elementele de calcul sunt prezentate n tabelul 2. nlocuind datele din tabelul 2 n sistemul de ecuaii, se obine soluia sistemului: 11 a + 110 c = 625,9 a = 51,861563 51,86 b = 8, 435454 8, 44 110 b = 927,9 110 a + 1958 c = 6691,3 c = 0,503846 0,504

Ecuaia estimat a tendinei parabolice pentru seria dat va fi: y = a + b t + c t 2 = 51,86 + 8, 44 t + 0,504 t 2 , iar valorile teoretice pentru perioada 1-11 sunt prezentate n coloana a 8-a din tabelul 2. Tabelul 2. Elemente de calcul Scria Anii empiric yi 1 1 2 3 4 5 6 7 8 9 10 11 Total 2 22,9 25,2 28,0 36,0 49,8 53,1 60,8 69,6 77,4 92,3 110,0 625,9 ti 3 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 t
2 i

4 i

yi t i 6 -114,5 -100,8 -86,4 -72,0 -49,8 0 60,8 139,2 232,2 369,2 550,0 927,9

t y

2 i i

Seria ajustat yti = a + b ti + c ti 2 =


= 51,86 + 8, 44 ti + 0,504 ti 2

4 25 16 9 4 1 0 1 4 9 16 25 110

5 625 256 81 16 1 0 1 16 81 256 625 1958

7 572,5 403,2 259,2 144,0 49,8 0 60,8 278,4 696,6 1476,8 2750,0 6691,3

8 22,26 26,164 31,076 36,996 43,924 51,06 68,804 70,756 81,716 93,684 106,66 625,906

Trendul exponenial. Trendul exponenial este specific fenomenelor care se dezvolt asemntor unei progresii geometrice. Ecuaia de estimare a trendului exponenial este dat de relaia: yt = a bt Prin logaritmarea expresiei funciei de trend se obine: log yt = log a + t log b Aplicnd metoda celor mai mici ptrate n ajustarea dup o curb exponenial, a crei ecuaie a fost logaritmat i considernd condiia ti = 0 , se obin formulele de calcul ale

parametrilor modelului de trend:

84

log yi log a = n log b = ti log yi ti2

6.3. Ajustarea seriilor sezoniere


Cunoaterea variaiilor sezoniere necesit depistarea componentei sezoniere (prin metode grafice), msurarea lor (prin indici i coeficieni de sezonalitate) i analiza diferitelor cauze care definesc ritmul producerii lor (de exemplu, periodicitatea lucrrilor agricole, a concediilor, a srbtorilor etc). Ajustarea seriilor cronologice cu variaii sezoniere se bazeaz pe descompunerea seriei, pe de o parte, n componenta trend ( ft ) i componenta ciclic C (cnd este cazul) i, pe de alt parte, n componenta variaie sezonier ( St ) considernd influena aleatoare nul ( i = 0 ), adic: yt = ft + St (pentru un model aditiv), respectiv yt = ft St (pentru un model multiplicativ), Ajustarea componentei trend a fost tratat n paragraful anterior. Ajustarea componentei sezoniere presupune eliminarea influenei sezoniere. Ajustarea seriilor sezoniere const n nlocuirea termenilor reali ai seriei cu termeni calculai i are ca rezultat obinerea unei serii cronologice cu variaii sezoniere riguros identice de la o perioad la alta i cu influen nul la nivelul fiecrui an. Aceast operaie se face, de regul, prin metoda mediilor mobile. Prin aceast metod se definesc componenta trend i componenta ciclic. Pentru "capturarea" componentei sezoniere se calculeaz indicii de sezonalitate. Pentru izolarea componentei sezoniere se calculeaz coeficienii sezonieri ( Sj ), pe baza crora se desezonalizeaz seria iniial. Aceast operaie se face prin raportarea valorilor aberante ( yi ) la coeficienii sezonieri. Resezonalizarea este operaia invers desezonalizrii, aplicat asupra valorilor calculate prin ajustare. Resezonalizarea se realizeaz n funcie de modelul de compunere admis, n sens previzional.
Depistarea grafic a variaiilor sezoniere Grafic, seria ajustat se prezint sub forma unei linii ondulatorii, cu bucle riguros identice, mai aplatizate fa de cronograma iniial, repetabile n jurul liniei de trend.

85

Fig. 3. Trendul i variaiile sezoniere empirice i teoretice


Ajustarea prin medii mobile Ajustarea seriilor cronologice cu variaii sezoniere prin metoda mediilor mobile const n nlocuirea termenilor empirici cu termeni rezultai n urma calculrii mediilor mobile pentru seria data. Prin nlocuirea termenilor reali cu termeni calculai va rezulta o curb mai rotunjit sau o dreapt de tendin, cu condiia ca s se fi determinat corect periodicitatea de variaie a fenomenului. Periodicitatea este evideniat de punctele de maxim sau de minim (vezi fig.3). Calculul mediilor mobile const n aflarea mediilor aritmetice dintr-un numr impar sau par de termeni luai succesiv, n funcie de mrimea unui ciclu de variaie. Cnd numrul de termeni luai n calcul este impar, mediile obinute cad pe termeni reali pe care-i vor nlocui. Cnd se cuprinde n calcul un numr par de termeni, mediile cad ntre doi termeni reali. Pentru a afla ce termen va fi nlocuit se face centrarea mediilor mobile, adic se determin media aritmetic din dou medii mobile consecutive. Procedeul de determinare a mediilor mobile este evideniat n tabelul 3. Dup cum se observ i din tabelul 3, numrul termenilor din seria ajustat prin medii mobile este egal cu: N - (n - 2) -1, respectiv N - (n - 2) - 2, unde: N, reprezint numrul termenilor din seria empiric, n, numrul termenilor cuprini n calculul mediilor mobile. Prima relaie este pentru un n impar, iar a doua pentru un n par. De exemplu, cnd N = 7, iar n = 3, respectiv n = 4, rezult c seria ajustat poate avea 7 - ( 3 - 2 ) -1 = 5 termeni, respectiv 7 - (4 - 2) - 2 = 3 termeni, caz ilustrat i n tabelul 3. Devierile fa de valoarea medie, datorate sezonalitii, pot fi msurate prin indici de sezonalitate. Indicii de sezonalitate Indicii de sezonalitate se determin ca raport ntre termenii reali i cei ajustai, dup y y y relaiile: i = i 100 , respectiv i = i 100 sau i = i -, cnd ajustarea s-a efectuat prin medii yt yi yt mobile, respectiv prin metoda celor mai mici ptrate.

86

Valori empirice

y1 y2 y3 y4 y5 y6 y7 -

Tabel 3. Elemente de calcul (ajustarea prin medii mobile) Medii mobile calculate din Indici de sezonalitate Medii centrate numr impar (de numr par (de ex. yi yi 100 100 ex. trei) patru) yi yi yi (valori ajustate) yi y2 y + y2 + y3 100 y1 = 1 y1 3 y3 y3 y + y3 + y4 y + y2 + y3 + y4 y + y2 100 100 y1 = 1 y2 = 2 y1 = 1 y2 y1 3 4 2 y4 y4 y + y4 + y5 y + y3 + y4 + y5 y + y3 100 100 y3 = 3 y2 = 2 y2 = 2 y3 y2 3 4 2 y5 y5 y + y5 + y6 y + y4 + y5 + y6 y + y4 100 100 y4 = 4 y3 = 3 y3 = 3 y4 y3 3 4 2 y6 y + y 6 + y7 y + y5 + y6 + y7 100 y5 = 5 y4 = 4 y5 3 4 -

Coeficieni sezonieri Variaiile sezoniere ( St ) se repet, teoretic, identic de la o perioad la alta (lun de lun, trimestru de trimestru) i se compenseaz la nivelul anului, conform principiului de conservare a ariilor. Practic, variaiile sezoniere nu se repet absolut identic. Pentru a ajusta o scrie real, respectnd exigenele modelului teoretic, variaiile sezoniere St observate se nlocuiesc cu valori calculate numite coeficieni sezonieri, S j , j = 1, p

perioade ( j = 1,12 , pentru luni, respectiv j = 1, 4 , pentru trimestre). Coeficienii sezonieri S j sunt identici perioad de perioad pe n ani observai, adic exist j coeficieni sezonieri i nu j x n variaii sezoniere St pe n ani. (De exemplu: 16 St diferite pentru 4 ani, pe trimestru, sau 24 St diferite pentru 2 ani, lunar).
Calculul coeficienilor sezonieri. Coeficienii sezonieri se calculeaz ca o medie aritmetic a variaiilor sezoniere, lun de lun sau trimestru de trimestru, pe ansamblu a n ani: 1 n S j = Sij n i =1 unde Sij = St , j este luna sau trimestrul pentru care se calculeaz coeficientul sezonier, iar i

reprezint anii observai. Conform principiului compensrii variaiilor sezoniere la nivelul anului, suma, respectiv media coeficienilor sezonieri, pe an, trebuie s fie zero. n calcule apar rezultate uor diferite, ca

87

urmare a aproximrilor. Efectul lor poate fi compensat printr-un corector dt rezultnd un coeficient sezonier corectat, S j . - n cazul modelului aditiv, corectarea coeficienilor sezonieri presupune calculul diferenelor: S j = S j d t
1 4 1 12 1 p S j sau dt = S j , n general dt = S j . p j =1 4 j =1 12 j =1 Rolul coeficientului corector d este de a repartiza eroarea de aproximare pe ansamblul perioadelor, astfel devenind posibil respectarea principiului compensrii: 1 p j = 0 sau S = 0 , unde S = S j S p j =1 j (suma i media coeficienilor sezonieri sunt nule pe an, n cazul modelului aditiv). - n cazul modelului multiplicativ, corectarea coeficienilor sezonieri presupune calculul raportului: Sj S j = , dt

unde dt reprezint corectorul: dt =

1 p iar media lor este egal cu unitatea: S = 1 , S = S j , p j =1

Exemplu. Dalele nregistrate trimestrial, pe durata a doi ani, cu privire la cifra de afaceri a unei firme sunt prezentate n tabelul 4. Admitem ipoteza continuitii trendului, a stabilitii sezoniere i a lipsei influenelor accidentale. Se cere: 1. s se determine tendina seriei 2. s se calculeze indicii de sezonalitate i coeficienii sezonieri 3. s se desezonalizeze seria; 4. s se extrapoleze seria pentru trimestrul I al anului urmtor celor observai.

Tabelul 4. (Date convenionale) Trim. 1 2 Anul 1 1 2 2 3 5 3 4 7 4 2 4 1. Determinarea tendinei Reprezentarea grafic a seriei din tabelul 4, vezi fig. 4, evideniaz clar o evoluie sezonier, cu valori maxime n trimestrul 3 i minime n trimestrul 1. De asemenea, se observ o evoluie medie liniar ft = a + b t. Elementele de calcul pentru linia de trend i valorile estimate ( yti ) sunt prezentate n tabelul 5.

88

Figura 4. Dinamica cifrei de afaceri trimestriale (sute mil. lei) a firmei A n anii 1-2 i prognoz pentru trimestrul I, anul 3 Tabelul 5. Elementele de calcul, valori estimate ( yti ) Valori Trim.*) empirice ti yi 1 2 1 1 2 3 3 4 4 2 5 2 6 5 7 7 8 4 ti yi
*

t i yi 3 1 6 12 8 10 30 49 32 ti yi

2 i

Valori estimate yti 5 1,68 2,20 2,72 3,24 3,76 4,28 4,80 5,32 yti 28

4 1 4 9 16 25 36 49 64 ti2

Indici sezonieri it 6 0,595 1,364 1,470 0,617 0,532 1,168 1,458 0,752 -

Valori corectate 7 1,773 2,381 2,732 2,920 3,546 3,949 4,781 5,839 27,92

36 28 148 204 ) Nu se mai anuleaz influena factorului timp

Calculul parametrilor:

yi b ti = 28 0,52 36 = 1,16 a = 8 8 n n n ty t y b = i i i 2 i = 8 148 36 28 = 0,52 8 204 (28) 2 n ti2 ( ti )

89

Ecuaia de trend liniar pentru seria considerat este: yt =1,16 + 0,52 t. Valorile calculate, yti sunt prezentate n tabelul 6, coloana 5. Se verific condiia de normalitate a trendului:

y =y
i

ti

2. Calculul indicilor de sezonalitate i a coeficienilor de sezonalitate Indicii de sezonalitate sunt calculai ca raport ntre valoarea observat yi i valoarea calculat corespunztoare a trendului ft, respectiv yti . Rezultatele sunt prezentate n tabelul 6, coloana 6. Se observ c indicii de sezonalitate variaz n jurul unitii. Valoarea lor medie la nivelul unui ciclu sezonier (al unui an, n cazul nostru) este egal cu unitatea. De asemenea, se observ c valorile primului i ultimului trimestru, din fiecare an, sunt subunitare, n celelalte trimestre sunt supraunitare, i c valorile lor din fiecare trimestru sunt diferite. Coeficienii de sezonalitate se calculeaz ca medie aritmetic simpl a variaiilor sezoniere pentru fiecare trimestru ( Sj ), n cursul celor doi ani considerai (cicluri sezoniere) i anume: 0,595 + 0,532 1,364 + 1,168 S1 = = 0,564 S2 = = 1, 266 2 2 1, 470 + 1, 458 0, 617 + 0, 752 S3 = = 1, 464 S4 = = 0, 685 2 2 Observaii. Media celor patru coeficieni de sezonalitate trebuie s fie egal cu 1, evideniind faptul c variaiile sezoniere n interiorul unui ciclu se compenseaz. n cazul nostru, valoarea medie a coeficienilor de sezonalitate este egal cu 0,995, valoare ce poate fi admis, innd cont de aproximrile luate n calcul. 3. Desezonalizarea seriei Desezonalizarea seriei presupune calculul valorilor corectate i are ca scop obinerea tendinei fr influena sezonier. Seria desezonalizat se obine prin raportarea valorilor empirice, yi la valoarea coeficienilor de sezonalitate corespunztori, (Sj). Rezultatele sunt prezentate n tabelul 5, coloana 7 i n figura 4. 4. Prognoza nivelului cifrei de afaceri pentru trimestrul 1 al anului urmtor celor observai. Folosim modelul de compunere multiplicativ yt = ft St unde: ft - trendul; St - componenta sezonier. a. Extrapolarea trendului. Valoarea prognozat, prin extrapolarea trendului, pentru ti = 9 (trimestrul 1 al anului 3), este: y9 = 1,16 + 0,52 9 = 5,84. b. Corectarea valorii prognozate. Corectarea valorii extrapolate cu influena sezonier presupune (1) resezonalizarea valorii, adic: y9 = y9 i1 = 5,84 0,564 = 3, 7376 n concluzie, ne putem atepta ca cifra de afaceri a firmei "A" s ating, n trimestrul I al anului trei considerat, valoarea de 3,7376 sute milioane lei, numai dac se respect ipotezele admise iniial, i anume: continuitatea trendului, pstrarea stabilitii sezoniere i lipsa influenelor accidentale.

Rezumat
Noiuni importante: serie de timp, componentele unei serii de timp: tendenial, ciclic, sezonier, aleatoare, combinarea componentelor unei serii cronologice, estimarea trendului, ajustarea seriilor sezoniere, ajustarea prin medii mobile, coeficienii sezonieri. Formule importante: trendul liniar, trendul parabolic, trendul exponenial, ajustarea prin medii mobile, indicii de sezonalitate, calculul coeficienilor sezonieri.

90

Tem de control
1. Fie datele din tabelul de mai jos reprezentnd valorile pentru 20 uniti, unde X venitul naional pe locuitor i Y veniturile reale pe locuitor, n Romnia pe perioada de 20 ani: X Y 1 5 2 7 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 10 12 14 15 17 19 25 27 30 35 40 45 49 55 60 63 66 70

Se cere: a) S se stabileasc forma i direcia legturii dintre cele dou variabile prin metoda grafic; b) S se estimeze parametrului elaborat i s se determine ecuaia de regresie; c) S se calculeze estimaiile varianei; d) S se calculeze coeficientul de corelaie i raportul de corelaie e) S se testeze semnificaia parametrilor modelului liniar utiliznd testul T i testul F. 2. Pentru dou variabile: X - capitalul fix i Y - volumul produciei, avem urmtorul tabel: Nr.crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X 5 7 9 17 18 20 25 27 30 32 37 40 42 43 49 52 55 59 62 65 Y 10 14 15 20 24 25 30 34 36 40 47 55 53 50 48 46 45 44 42 39 Se cere: a) S se stabileasc forma i direcia legturii dintre cele dou variabile prin metoda grafic; b) S se determine valorile ajustate ale lui Y dup funcia de regresie corespunztoare legturii; c) S se calculeze intensitatea legturii dintre variabilele admise. 3. Pentru trei variabile aleatoare exist seria de date din tabelul de mai jos: Nr.crt. Y X1 X2 1 16 20 15 2 17 19 14 3 34 29 35 4 40 37 40 5 5 18 14 6 25 20 27 7 27 33 30 8 36 30 37 9 9 10 16 10 50 25 40 11 55 37 57 12 45 40 55 13 40 32 38 14 37 43 50 15 30 29 28 16 27 30 26 17 19 25 14 18 10 29 14 19 7 19 12 20 23 25 29

Se cere: a) S se estimeze parametrii ecuaiei de regresie multipl; b) S se determine intensitatea corelaiei multiple; c) S se calculeze raportul determinaiei multiple i coeficienii determinatei pariale. 4. S se ajusteze seria de date care reflect exportul de servicii turistice realizat de Romnia n ultimii 19 ani, prin metoda analitic i dup un trend parabolic. Nr. Crt. 1 2 Exportul de servicii turistice (yi) 10 12

91

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Se cere: a) S se ajusteze seria prin metoda analitic. b) S se ajusteze seria dup un trend parabolic.

14 17 20 23 25 28 30 31 34 36 39 40 42 45 47 50 55

5. Se consider evoluia unui indicator exprimat n preuri comparabile sub forma seriei:
ti yi

1 4

2 5

3 7

4 9

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 11 15 17 19 23 25 25 22 20 30 33 29 27 32 35 37

Se cere: a) S se determine tendina seriei; b) S se calculeze indicii de sezonalitate i coeficienii sezonieri; c) S se desezonalizeze seria.

Referate
1. Prezentarea i coninutul tabelelor de contingen. 2. Prelucrarea datelor din tabelul de contingen. 3. Analiza grafic a legturilor dintre dou variabile. 4. Tipuri de legturi ntre variabile economice. 5. Raportul de corelaie. 6. Modelul liniar simplu de regresie. 7. Modele de regresie neliniare deterministe. 8. Modelul liniar general. 9. Corelaia neparametric. 10. Coeficientul de elasticitate.

92

11. Definiia i clasificarea seriilor de timp. 12. Caracteristicile unei serii de timp cu coninut socio-economic. 13. Forme de prezentare grafic a seriilor de timp. 14. Ajustarea seriilor de timp. 15. Prelucrarea primar a seriilor de timp. 16. Componentele unei serii de timp. 17. Metode de ajustare a trendului. Modele cu component aleatoare. 18. Analiza variaiilor sezoniere. 19. Testarea semnificaiei pentru seriile de timp. 20. Previziune prin metode statistice. 21. Tipuri i legturi ntre fenomenele social-economice. 22. Metode i procedee de verificare i analiz a legturilor statistice. 23. Metode analitice de msurare i analiz a legturilor statistice. 24. Metode neparametrice de msurare a legturilor dintre fenomenele social-economice. 25. Interpolarea i extrapolarea pe baza datelor seriilor de timp.

Bibliografie
1. Andrei., T. Statistic i econometrie, Editura Economic , Bucureti, 2004; 2. Berdot, J.P. - Econometrie, CNED, Poitiers-Futurscopc, 2001; 3. Blaug, M. - Teoria economic n retrospectiv. Editura Didactic i Pedagogic, Bucureti, 1992; 4. Iacob, A. I., Tnsoiu, O. Modele econometrice, Volumul I, Editura ASE, Bucureti, 2005; 5. Iacob, A. I., Tnsoiu, O. Econometrie. Studiu de caz, Editura ASE, Bucureti, 2005; 6. Jaba, E., Statistica, Ediia a treia, Editura Economic, Bucureti, 2002; 7. Jaba, E., Grama, A. - Analiza statistica cu SPSS sub Windows, Polirom, Iai, 2004; 8. Jaba, E., Jemma, D. - Econometrie, Editura Sedcom Libris, Iai, 2006 9.Mihoc, G., Craiu, V. - Tratat de statistic matematic, volumul I, Editura Academiei R.S.R., Bucureti, 1976; 10. Nenciu, E. - Teoria probabilitilor i statistic matematic, Editura Universitii "Al. I. Cuza" Iai, 1984; 11. Pecican, E. Econometrie pentru economiti, Editura Economic , Bucureti, 2004; 12. Zai, D., Nica, P. Introducere n modelarea econometric, Editura Universitii Al. I. Cuza, 1995.

93

Tabele probabiliste
Valorile funciei Laplace

94

Repartiia Student

95

Repartiia Hi-ptrat

96

Repartiia Durbin-Watson

97

Repartiia Fisher

98

Repartiia Fisher

99