Documente Academic
Documente Profesional
Documente Cultură
Facultatea de tiine Economice i Administraie Public Departamentul ID Specializarea : Finane Bnci, Anul II, Sem I
ECONOMETRIE
2008
Cuprins
Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 0. Elemente de probabilitate i statistic matematic utilizate n econometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . 0.1. Cmp de evenimente i de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.2. Formule de calcul cu probabiliti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.2.1. Probabilitatea evenimentului reuniune i intersecie . . . . . . . . . . . . . . . . . . . . . 0.2.2. Formula probabilitii totale. Formula lui Bayes. . . . . . . . . . . . . . . . . . . . . . . . 0.3. Scheme clasice de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.4. Variabile aleatoare i repartiii clasice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 1. Introducere n modelarea econometric . . . . . . . . . . . . . . . . . . . . . . . . 1.1. Ce este econometria? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Repere istorice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Concepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Demers metodologic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5. Notaii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 2. Modele de regresie simpl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Modelul liniar simplu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Prezentarea problemei. Exemple din economie . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2. Prezentare model i ipoteze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3. Estimarea parametrilor modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4. Testarea parametrilor modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5. Coeficientul de corelaie i coeficientul de determinaie . . . . . . . . . . . . . . . . . 2.1.6. Regresia liniar simpl n SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Modelul neliniar simplu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Prezentarea problemei i exemple din economie . . . . . . . . . . . . . . . . . . . . . . . 2.2.2. Modele liniarizabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Modele polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 3. Modele de regresie multipl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Modelul liniar multiplu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Prezentare model i ipoteze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2. Estimarea parametrilor modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3. Testarea parametrilor i a modelului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4. Coeficieni de corelaie i coeficientul de determinaie . . . . . . . . . . . . . . . . . . . 3.1.5. Regresia multipl n SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Modele neliniare multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Prezentarea problemei i exemple din economie . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Modele liniarizabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3. Modele polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 4. Ipotezele modelului clasic de regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. Normalitatea erorilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Homoscedasticitatea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Autocorelarea erorilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Lipsa de coliniaritatea a erorilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Testarea ipotezelor n SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capitolul 5. Modele speciale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Variabile dummy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Modele ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Modele ANCOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 5 9 9 10 11 12 19 19 20 20 21 22 22 22 22 23 24 27 28 33 36 36 37 37 41 41 41 42 42 43 46 52 52 52 55 56 56 57 59 62 64 71 71 72 74
Capitolul 6. Modele pentru serii de timp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1. Componentele unei serii de timp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Estimarea trenului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Ajustarea seriilor sezoniere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tem de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabele probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78 78 81 85 91 93 94
Introducere
ntr-o economie de pia, unde fenomenele economice sunt din ce n ce mai complexe, specialistul din acest domeniu are nevoie de o pregtire superioar, constnd n cunotine multiple i profunde n vederea observrii i rezolvrii acestor fenomene pe baze tiinifice. Modelele econometrice analizeaz calitatea i cantitatea proceselor economice i evoluia lor. Econometria prin caracterul su general creeaz modele abstracte ale fenomenelor economice. Econometria este disciplina care s-a conturat ca o sintez ntre analiza matematic, statistica matematic i economie. Cursul de Econometrie, elaborat pe baza programei analitice aprobate n cadrul Catedrei de Informatic, se adreseaz studenilor care urmeaz specializarea: Contabilitate i Informatic de Gestiune, forma de nvmnt: nvmnt la distan. Unitatea de studiu este capitolul care, n esen, pune n eviden noiuni i concepte teoretice din baza de cunotine matematice, statistice i economice. n acest curs sunt prezentate: elementele de probabilitate i statistic matematic utilizate n ecomometrie, noiuni fundamentale ale econometriei, metodele care conin o variabil dependent i una independent ntre care poate exista o legtur de tip liniar sau neliniar, metodele de regresie multipl care conin cel puin dou variabile independente, principalele probleme legate de testarea ipotezelor unui model de regresie, restriciile de modelare ecomometric, modele speciale i modelele seriilor de timp. Scopul cursului este de asigura studenilor din anul III pregtirea econometric necesar nelegerii noiunilor i tehnicilor de specialitate cu referire la modelarea econometric. Obiectivele principale ale cursului pot fi sistematizate astfel: - nsuirea cunotinelor de probabilitate i statistic matematic utilizate n ecomometrie; - nsuirea cunotinelor necesare abordrii cantitative a fenomenelor economice; - formarea competenelor i abilitile necesare utilizrii instrumentelor econometrice de analiz; - dezvoltarea competenelor de analiz critic a valenelor i limitelor analizei cantitative: - rezolvarea i utilizarea modelelor econometrice la fundamentarea deciziilor: utilizarea pachetelor de programe la rezolvarea modelelor econometrice operaionale. Structura cursului ine seama de problematica tratat pentru aceeai specializare la forma de nvmnt zi, adaptat n funcie de specificul modului de organizare a nvmntului la distan. Timpul de studiu individual, estimat pentru parcurgerea materialului prezentat n curs este de 2 ore/sptmn. Mod de evaluare: examen scris conform planificrii din sesiunea de examene; nota final se stabilete, procentual, astfel: - test final: 30% - examen scris: 70% Recomandare: Cursurile de Matematici financiare i actuariale, Statistic i Economie.
4. Diferena evenimentelor A i B este evenimentul care se realizeaz dac i numai dac se realizeaz simultan evenimentele A i B . Acest eveniment se noteaz prin A B. Avem: A B = A B . 5. Diferena simetric a evenimentelor A i B este evenimentul care se realizeaz dac i numai dac se realizeaz numai unul dintre cele dou evenimente. Acest eveniment se noteaz prin AB. Avem: AB = (A\B)(B\A). Relaii ntre evenimente 1. Implicaie notat . Spunem c evenimentul A implic evenimentul B i se scrie AB, dac n orice prob n care se realizeaz evenimentul A se realizeaz i evenimentul B; n acest caz se mai spune c evenimentul A este favorabil realizrii evenimentului B. 2. Echivalena , notat =. Evenimentele A i B se numesc echivalente i se scrie A=B, dac i numai dac AB i BA. Aceast relaie induce o ordine parial n E, adic oricare dou evenimente sau sunt echivalente, sau unul implic pe cellalt, sau nu sunt comparabile. Teorema 0.1.1: Mulimea evenimentelor asociate unui eveniment se mparte n clase de echivalen. 3. Compatibilitate. Evenimentele A i B sunt compatibile dac cel puin ntr-o prob a experienei ele se pot realiza simultan . Avem: AB (neechivalent cu ). 4. Incompatibilitate Evenimentele A i B sunt incompatibile dac nu sunt compatibile, adic n nici o prob a experienei ele nu se pot realiza simultan. Avem: AB = (echivalent cu ). Acceptm drept axiome urmtoarele proprieti ale operaiilor cu evenimente: - A ( B C ) = ( A B) C = A B C ; - A B = B A; - A A = A ; - A = ; - A = A; - A A = ; - A ( B C ) = ( A B) C = A B C ; - A B = B A; - A A = A ; - A = A; - A = ; - A A = ; - A ( B C ) = ( A B) ( A C ) ; - A ( B C ) = ( A B) ( A C ) ; - A ( A B) = A ; - A ( A B) = A ;
U Ai = I Ai ;
i =1 i =1
I Ai = U Ai ;
i =1 i =1 n
n - A I Bi = I ( A Bi ) ; - A U Bi = U ( A Bi ) . i =1 i =1 i =1 i =1 Definiia 0.1.7: Spunem c evenimentele A i B sunt contrare ( opuse sau complementare ) dac sunt incompatibile i reuniunea lor este evenimentul sigur, adic AB = i A B = . n scopul axiomatizrii teoriei probabilitilor mulimea E, a tuturor evenimentelor asociate unei experiene, a fost organizat cu o structur specific, numit cmp de evenimente. Pentru introducerea acestui concept sunt necesare cteva elemente din teoria mulimilor. Fie o mulime nevid i P() mulimea prilor lui adic P() = {A, B, C, ... / A, B, C, ... }.
Definiia 0.1.8: Un eveniment elementar se identific cu o submulime a lui , format dintr-un singur element. Dac = {1, 2,..., n}, atunci evenimentele elementare sunt {1}, {2},..., {n}. Definiia 0.1.9: Un eveniment compus se identific cu o submulime a lui obinut prin reuniunea evenimentelor elementare ce i sunt favorabile. Definiia 0.1.10: Evenimentul sigur se identific cu mulimea . Cum orice eveniment elementar i este favorabil evenimentului sigur, rezult c va fi reuniunea tuturor evenimentelor elementare; dac = {1, 2, ..., n}, atunci evenimentul sigur = {1}{2} ... {n}. Definiia 0.1.11: Spaiul se mai numete i spaiul evenimentelor elementare. Definiia 0.1.12: Evenimentul imposibil se identific cu mulimea vid . n sfrit, mulimea E a tuturor evenimentelor asociate unei experiene se identific cu mulimea prilor lui , P().
a) Definiia clasic a probabilitii Considerm o experien cu un numr finit de rezultate posibile i fie E mulimea tuturor evenimentelor asociate (E este finit). Presupunem c toate evenimentele elementare au aceeai ans de realizare (sunt echiprobabile). Definiia 0.1.13: Se numete probabilitate, n sens clasic, a unui eveniment A din E numrul m P ( A) = , n unde n este numrul total de evenimente elementare din E, iar m este numrul evenimentelor elementare favorabile realizrii evenimentului A. Aadar, vom spune c m este numrul cazurilor favorabile realizrii evenimentului A, iar n este numrul cazurilor egal posibile. Se poate arta c probabilitatea n sens clasic este o funcie P : E [0, 1], cu urmtoarele proprieti: - P ( ) = 1; P ( A ) 0, () A E ;
Definiia statistic a probabilitii, pe lng restriciile evideniate la definiia clasic, are un caracter experimental i este puin formalizat din punct de vedere matematic.
c) Definiia axiomatic a probabilitii Definiia axiomatic a urmrit s elimine restriciile din definiiile anterioare, scop n care sa realizat, mai nti, modelarea matematic a mulimii evenimentelor ataate unei experiene, modelare ce a condus la conceptul de cmp de evenimente. Fie (, K ) un cmp finit de evenimente. Definiie 0.1.16: Se numete probabilitate pe acest cmp o funcie de mulimi P : K , care satisface axiomele: 1. P ( A ) 0, () A K 2. P ( ) = 1 ;
3. () A, B K , A B = P ( A B ) = P ( A ) + P ( B ) , spunem c funcia P este finit aditiv. Observaia: Este natural ca domeniul de definiie a funciei P s fie corpul finit de evenimente K, pentru a avea sens calculul unor probabiliti de forma: P(A B), P A , P(A B), P(A \ B), P( ), etc. Definiie 0.1.17: Se numete cmp finit de probabilitate un triplet de forma (, K, P), unde (, K) este un cmp finit de evenimente, iar P o probabilitate definit pe acest cmp. Observaia: Probabilitatea n sens clasic este un caz particular al probabilitii axiomatice. Teorema 0.1.1: Fie (, K, P) un cmp finit de probabilitate. Au loc proprietile: 1. P ( ) = 0 ; 2. P A = 1 P ( A ) , () A K ;
( )
( )
3. 0 P ( A ) 1, () A K ;
4. P ( A \ B ) = P ( A ) P ( A B ) , ( ) A, B K ;
5. Dac () A, B K , B A , atunci P ( A \ B ) = P ( A ) P ( B ) ; 6. Dac () A, B K , B A , atunci P ( A ) P ( B ) ; 7. P ( A B) = P( A) + P( B) P ( A B ), () A, B K ; 8. P ( AB) = P( A) + P( B) 2 P( A B), () A, B K ; 9. P ( A B) P( A) + P( B), () A, B K Definiia 0.1.18: Fie o mulime infinit (numrabil sau nenumrabil) i (, K) un cmp borelian de evenimente. Se numete probabilitate complet aditiv sau aditiv pe acest cmp o funcie de mulimi P : K , care satisface axiomele: 1. P ( A ) 0, () A K ; 2. P ( ) = 1 ; 3. () ( An )nIN * K ir de evenimente din K, cu Ai Aj = , i j , are loc:
P U An = P ( An ) . n =1 n =1 Definiia 0.1.19: Fie (, K, P) un cmp borelian de probabilitate i H o submulime nevid a lui K. O funcie de dou variabile P : KK se numete probabilitate condiionat dac: 1. P ( A \ B) 0 , () A K , B H ; 2. P ( B \ B) = 1 , () B H ; 3. P U An \ B = P( An \ B) , () ( An ) n * K , B H , Ai Aj = , i j ; n * n * P( A B \ C ) 4. P ( A \ B) = , () A K , B, C H , B C , P ( B \ C ) > 0 . P( B \ C ) Definiia 0.1.20: Tripletul (, K, P) se numete cmp condiionat de probabilitate.
Definiia 0.1.21: P( A \ B) 0 se numete probabilitatea evenimentului A condiionat de evenimentul B. Teorema II.2.2.1: Probabilitatea condiionat are urmtoarele proprieti: 1. P ( A \ B) = P( A B \ B) , () A K , B H ; 2. P ( A \ B) P( A \ B) , () A, A K , B H , A A ; 3. P ( A \ B C ) P( B \ C ) = P( A B \ C ) , () A, B K , B C H ; 4. P( \ B) = 1 , () B H ; 5. P ( A \ B) 1 , () A K , B H ; 6. P( \ B) = 0 , () B H ; 7. P( A \ B) = 0 , dac A B = . Definiia 0.1.22: Fie (, K, P) un cmp borelian de probabilitate , H = { B K
P( B) > 0} i P :
Definiia 0.1.23: Cmpul (, K, H, P) se numete cmp condiionat de probabilitate generat de (, K, P). Observaia: Deoarece condiionarea evenimentelor nu este o proprietate reciproc avem, n general: P(A/B) P(B/A). Propoziia II.2.2.1: Funcia PA : K , PA ( B ) = P ( B / A ) este o probabilitate finit aditiv pe cmpul de evenimente (, K). Definiia 0.1.24: Fie (, K, P) un cmp de probabilitate cu P finit aditiv. Evenimentele A,BK se numesc P - independente sau independente dac: P ( A B ) = P ( A) P ( B ) . Definiia 0.1.25: Evenimentele A, B K se numesc dependente dac: P ( A B ) = P ( A ) P ( B / A ) , P ( A ) 0 sau P ( A B ) = P ( B ) P ( A / B ) , P ( B ) 0 . Observaia: Dac P ( A ) P ( B ) 0 , atunci dependena evenimentelor A i B se caracterizeaz prin: P ( A B ) = P ( A ) P ( B / A ) = P ( B ) P ( A / B ) . Propoziia II.2.2.2: Dac evenimentele A, B K sunt independente, atunci sunt independente i perechile de evenimente: A, B , A, B , A, B .
) (
) (
Teorema 0.2.1.1: Fie A1 , A2 , K , An K un sistem de evenimente incompatibile dou cte dou. Probabilitatea realizrii cel puin a unui eveniment este dat de relaia: n n P U Ai = P ( Ai ), Ai Aj = , i j i =1 i =1 Teorema 0.2.1.2: Dac A, B K sunt dou evenimente oarecare, avem urmtorul rezultat: P ( A B ) = P ( A ) + P ( B ) P ( A B ) (relaia lui Boole).) Teorema 0.2.1.3: Fie A1 , A2 , K , An K un sistem de evenimente oarecare. Probabilitatea realizrii cel puin a unui eveniment este dat de formula lui Poincar: n n n n n n 1 P U Ai = P ( Ai ) P ( Ai Aj ) + P ( Ai Aj Ak ) + ... + ( 1) P I Ai . i , j =1 i , j , k =1 i =1 i =1 i =1
i< j i< j <k
Fie (, K, P) un cmp de probabilitate i A, BK dou evenimente independente. Din definiia evenimentelor independente avem: P ( A B ) = P ( A) P ( B ) Teorema 0.2.1.4 Fie A1, A2, ... , An K un sistem de n evenimente independente n totalitate. Probabilitatea realizrii simultane a celor n evenimente este dat de relaia: n n P I Ai = P ( Ai ) i =1 i =1 Teorema 0.2.1.5 Fie A1, A2, ... , An K un sistem de n evenimente dependente n ordinea indicilor. Probabilitatea realizrii simultane a celor n evenimente este dat de relaia: n 1 n P I A i = P(A1 ) P(A 2 A 1 ) P(A 3 A 1 A 2 )LP A n I A i i =1 i =1 Observaia: Dac A1, A2, ... , An K reprezint un sistem de evenimente compatibile i independente, probabilitatea realizrii cel puin a unui eveniment se poate calcula cu formula: n n P U Ai = 1 1 P ( Ai ) i =1 i =1
P ( A ) = P ( A1 ) P ( A / A1 ) + P ( A2 ) P ( A / A2 ) + ... + P ( An ) P ( A / An ) = P ( Ai ) P ( A / Ai )
i =1
10
Formula lui Bayes Teorema 0.2.2.2: Fie A1, A2, ... , An K un sistem complet de evenimente cu P(Ai) 0, () i{1, 2, ... , n} i A K un eveniment oarecare cu P(A) 0. n aceste condiii are loc relaia: P ( Ai ) P ( A / Ai ) P ( Ai / A ) = n . P ( Ai ) P ( A / Ai )
i =1
Inegalitatea lui Boole Teorema 0.2.2.3: Fie (, K, P) un cmp borelian de probabilitate i ( Ai ) K , i I , o familie cel mult numrabil de evenimente. Atunci: P I Ai 1 P( Ai ) . iI iI
a
i =1
= N , s 3.
Se extrag n N bile deodat (sau, succesiv, fr revenire). Probabilitatea evenimentului ca dintre cele n bile extrase : x1 bile s fie de culoarea c1, x2 bile s fie de culoarea c2, , xs bile s fie de culoarea cs, este: Cax11 Cax22 L Caxss Pn ( x1 , x2 ,K , xs ) = . n CN
Fie evenimentele:
( )
Probabilitatea ca din cele n bile extrase, x bile s fie albe este egal cu coeficientul lui tx din dezvoltarea polinomului de gradul n: Qn ( t ) = ( p1 t + q1 ) ( p2 t + q2 ) ... ( pn t + qn ) .
0.3.4. Schema urnei cu bile revenite (schema binomial, schema lui Bernoulli)
Considerm o urn care conine bile albe i negre de aceeai mrime i form. Efectum n extrageri succesive, nregistrm culoarea bilei i introducem, de fiecare dat, bila napoi n urn. Fie evenimentele: A extragerea unei bile albe, A extragerea unei bile negre. Presupunem cunoscute probabilitile: P ( A ) = p, P A = q = 1 p.
( )
Probabilitatea evenimentului ca din cele n bile extrase un numr de x bile s fie albe, este: Pn ( x ) = Cnx p x q n x .
F ( x ) = P { / X ( ) x} = P ( X x ) , () x , se numete
not
funcie de repartiie a variabilei aleatoare X. Propoziia 0.4.1: Orice funcie de repartiie are proprietile caracteristice:
12
Definiia 0.4.3: Variabila aleatoare X se numete variabil aleatoare simpl dac ia un numr finit de valori, adic X() = {x1, x2, ..., xn} . Definiia 0.4.4: Variabila aleatoare X se numete variabil aleatoare discret dac mulimea valorilor sale este cel mult numrabil, adic X() = {xi / i I, I * }. Definiia 0.4.5: Corespondena dintre valorile variabilei aleatoare discrete X i probabilitile matematice (calculate apriori) cu care aceste valori sunt luate se numete repartiia discret a variabilei aleatoare X. Aceast repartiie se indic cu ajutorul unui tablou (tablou de repartiie, tablou de distribuie) de forma: x x L xn xi , pentru variabile aleatoare simple sau (1) X : 1 2 sau X : p1 p2 L pn pi i =1, n
x1 x2 L xi L xi , pentru variabile aleatoare discrete, sau X : p1 p2 L pi L pi iI N * unde, n ambele cazuri, pi = P(X = xi). Repartiia determin complet o variabil aleatoare discret n sensul c la variabile aleatoare discrete diferite corespund repartiii diferite i reciproc. Deoarece pe prima linie a tabloului de repartiie au fost trecute toate valorile pe care variabila aleatoare discret le ia i, cum dou valori distincte nu pot fi luate simultan, rezult c evenimentele (X = xi) formeaz un sistem complet de evenimente, adic: n U ( X = xi ) = U ( X = xi ) = , respectiv ( 2 ') iI (1') i =1 ( X = xi ) ( X = x j ) = , i j ( X = xi ) ( X = x j ) = , i j
( 2) X :
n (1) i (2), aplicnd formula de calcul a probabilitii reuniunii evenimentelor incompatibile, obinem: pi 0, i = 1, n p 0, i I * n i , respectiv ( 2 '') p = 1. (1'') pi = 1 i i I i =1 Condiiile (1) sau (2) trebuie verificate atunci cnd decidem dac un tablou de forma (1) sau (2) este tablou de repartiie pentru o variabil aleatoare simpl, respectiv discret. Pentru variabila aleatoare simpl sau discret X, funcia de repartiie este dat de expresia F ( x ) = pi , () x ,
{i / xi x}
Definiia 0.4.6: Fie (, K, P) un cmp (borelian) de probabilitate. Variabila aleatoare X : se numete continu, dac exist o funcie real f : [0, ) , integrabil pe , astfel nct F ( x) =
f ( t ) dt ,
unde F(x) este funcia de repartiie a lui X. n acest caz funcia f se numete densitate de probabilitate (de repartiie), iar expresia f(x) dx se numete probabilitate elementar. ale variabilei aleatoare continue X i f(x) se Definiia 0.4.7: Corespondena dintre valorile x numete repartiie (continu) a variabilei aleatoare X. x Vom scrie X : , x . f ( x) Propoziia 0.4.2: Funcia f(x) are urmtoarele proprieti caracteristice:
a ) f ( x ) 0, () x
b)
f ( x ) dx = 1.
Definiia 0.4.8: Fie (, K, P) un cmp (borelian) de probabilitate. Variabilele aleatoare simple yj xi sunt independente, dac X : , Y : qj pi i =1,n
j =1, m
P ( X = xi ) (Y = y j ) = P ( X = xi , Y = y j ) = P ( X = xi ) P (Y = y j ) = pi q j ,
not
P ( X x ) (Y y ) = P ( X x, Y y ) = P ( X x ) P (Y y ) = FX ( x ) FY ( y ) , () x, y , unde FX i FY sunt funciile de repartiie ale celor dou variabile. Fie (, K, P) un cmp (borelian) de probabilitate i X, Y: , dou variabile aleatoare definite pe acest cmp. Definiia 0.4.9: Se numete variabil aleatoare bidimensional (vector aleator bidimensional), o funcie definit pe spaiul evenimentelor elementare cu valori n 2, Z: 2 Z() = (X(), Y()), () .. n acest caz variabilele aleatoare X i Y se numesc variabile aleatoare marginale. O variabil aleatoare bidimensional se va nota, pe scurt, Z = (X, Y). 2 Definiia 0.4.10: Funcia F : definit astfel F(x, y) = P(X< x, Y < y), () (x,y) 2 se numete funcie de repartiie a variabilei aleatoare bidimensionale Z =(X,Y). Definiia 0.4.11: Variabila aleatoare Z = (X,Y) se numete variabil aleatoare bidimensional discret dac variabilele marginale X i Y sunt discrete.
not
14
n acest caz, mulimea: Z() = (X(), Y()) = {(xi, yj)/(i, j) I x J, I * , J * } este cel mult numrabil. Dac I i J sunt mulimi finite de indici, atunci Z este variabil aleatoare bidimensional simpl. Repartiia variabilei Z (corespondena dintre valori i probabiliti) se deduce cu ajutorul repartiiilor marginale. Fie X, Y cu repartiiile: q j 0 pi 0 yj xi X : , pi = P ( X = xi ) , p = 1, Y : , q j = P (Y = y j ) , q = 1. q i pi iI * i I j j jJ * jJ ( xi , y j ) Repartiia variabilei aleatoare Z = (X, Y), se scrie: Z : , pij = P ( X = xi , Y = y j ) . p ij ( i , j )I J adic: Deoarece evenimentele (X = xi, Y = yj)(i,j)IxJ formeaz un sistem complet de evenimente, U U ( X = xi , Y = y j ) = , iI j J ( X = xi , Y = y j ) ( X = x p , Y = yl ) = , pentru ( i, j ) ( p, l )
deducem c probabilitile pij satisfac urmtoarele proprieti caracteristice p 0, () ( i, j ) I J , ij p = 1. ij i I j J ntre probabilitile pij, pi, qj exist urmtoarele relaii: pij = pi i pij = q j .
j J i I
Definiia 0.4.12: Se numete media variabilei aleatoare X, numrul real notat cu M(X), dat de xi pi , dac X este de tip discret , iI M (X ) = x f ( x ) dx, dac X este continu. Propoziia 0.4.3: Media unei variabile aleatoare are urmtoarele proprieti: (1) M(a) = a, () a (2) M(aX) = a M(X), () a (3) M(a + X) = a + M(X), () a (4) M(X + Y) = M(X) + M(Y) (5) M(XY) = M(X) M(Y), dac X i Y sunt variabile aleatoare independente. Definiia 0.4.13: Se numete dispersia variabilei aleatoare X, un numr nenegativ notat D2(X), definit prin egalitatea D2(X) = M[(X M(X))2] . Din definiia mediei unei variabile aleatoare, obinem pentru dispersie urmtoarele formule de calcul ( x M ( X ) )2 p , dac X este de tip discret ; i iI i 2 D (X ) = x M ( X ) 2 f ( x ) dx, dac X este continu. Propoziia 0.4.4: Proprieti ale dispersiei:
15
2. D2(a) = 0, () a 1. D2(X) = M(X2) M2(X) 3. D2(aX) = a2D2(X), () a 4. D2(a + X) = D2(X), () a 2 2 2 5. D (X + Y) = D (X) + D (Y), n ipoteza c X i Y sunt variabile aleatoare independente. Definiia 0.4.14: Definim abatere medie ptratic, astfel D ( X ) = D 2 ( x ) . Definiia 0.4.15: Se numete momentul centrat de ordinul k, k N, al variabilei aleatoare X, momentul iniial de ordinul k al variabilei X M(X) (abaterea fa de medie a variabilei aleatoare X), adic: k(X) = mK(X M(X)) = M[(X M(X))k] Definiia 0.4.16: Se numete funcie de regresie a lui Y n raport cu X, funcia dat de Ry ( x ) = M (Y / X = x ) , x . Graficul acestei funcii se numete curba de regresie a lui Y fa Analog, se definete de X. Rx ( y ) = M ( X / Y = y ) , y .
funcia de regresie a lui X n raport cu Y:
Definiia 0.4.17: Se numete covariana dintre variabilele aleatoare X i Y, notat cov(X, Y), momentul centrat de ordinul (1,1) al vectorului aleator bidimensional Z=(X, Y), adic cov ( X , Y ) = 1,1 = M ( X M ( X ) ) (Y M (Y ) ) .
Propoziia 0.4.5 (proprieti ale covariaiei) 1. cov ( X , Y ) = M ( XY ) M ( X ) M (Y ) . Dac X , Y sunt independente cov ( X , Y ) = 0, 2. Dac cov ( X , Y ) = 0 nu rezult c X i Y sunt independente, Dac cov ( X , Y ) 0 X , Y sunt dependente. 3. cov ( X , Y ) = cov (Y , X ) ; cov ( X , X ) = D 2 ( X ) .
4. cov ( X , b ) = 0; cov ( a, Y ) = 0; () a, b . 5. cov ( aX , bY ) = ab cov ( X , Y ) ; () a, b . cov ( X 1 + X 2 , Y ) = cov ( X 1 , Y ) + cov ( X 2 , Y ) 6. cov ( X , Y1 + Y2 ) = cov ( X , Y1 ) + cov ( X , Y2 ) . Definiia 0.4.18: Se numete coeficientul de corelaie dintre variabilele X i Y, un numr notat (X,Y) dat de relaia cov ( X , Y ) ( X ,Y ) = D ( X ) D (Y )
unde D(X) este abaterea ptratic a lui X, D ( X ) D (Y ) 0, D ( X ) = D 2 ( X ) . Observaie: Se utilizeaz i notaiile: D 2 ( X ) = 2 ( X ) = 2 ; D ( X ) = ( X ) = X = . Propoziia 0.4.6 (proprieti ale coeficientului de corelaie) 1. Dac X i Y sunt independente (X,Y) = 0, Dac (X,Y) = 0 nu rezult c X i Y sunt independente (X, Y necorelate), Dac (X,Y) 0 X i Y sunt dependente. 2. 1 (X,Y) 1 3. ntre variabilele X i Y exist o dependen liniar de forma Y = aX + b ( X , Y ) = 1 .
a 0
16
Definiia 0.4.19: Se numete matricea de covarian (corelaie) a variabilei Z, matricea cov(X, Y ) cov(X, X ) cov(X, Y ) D 2 (X ) C= . = D 2 (Y ) cov(Y, X ) cov(Y, Y ) cov(X, Y ) Definiia 0.4.20: O variabil aleatoare X are o repartiie uniform discret dac admite o repartiie de forma 1 2 L x L n x 1 X : , unde px = P ( X = x ) = , () x = 1, n. sau X : n p1 p2 L px L pn px x =1, n 1 Definiia 0.4.21: Funcia f : {1, 2,K , n} [ 0,1] , f ( x ) = , k = 1, n se numete legea de repartiie n uniform discret. Definiia 0.4.22: O variabil aleatoare X are o repartiie binomial de parametrii n i p, dac admite o repartiie de forma 0 1 L x L n x x n x X : , unde px = P ( X = x ) = Cn p q , p > 0, q > 0, p + q = 1, n p0 p1 L px L pn Definiia 0.4.23: Funcia f : {0,1,K , x,K , n} [ 0,1] , f ( x ) = px = Cnx p x q n x se numete legea de
repartiie binomial. Mulimea variabilelor aleatoare cu repartiia binomial de parametri n i p se noteaz B(n, p). Definiia 0.4.24: O variabil aleatoare X are o repartiie hipergeometric de parametrii n, a, N, dac admite o repartiie de forma x C xC n x , unde px = P ( X = x ) = a nN a ; a *, n *. X : CN px x = x , x
0 1
n Cax CN xa Definiia 0.4.25: Funcia f ( x ) = se numete legea de repartiie hipergeometric. n CN Definiia 0.4.26: O variabil aleatoare X are o repartiie Poisson de parametru , dac admite o repartiie de forma x x X : , unde px = e , > 0, x . x! px
x! Definiia 0.4.28: Variabila aleatoare continu X are o repartiie uniform continu dac admite densitatea de repartiie (probabilitate) 1 , x [ a, b ] , b > a 0, f ( x) = b a 0, n rest. Funcia f se numete legea de repartiie uniform continu Definiia 0.4.29: Variabila aleatoare X are repartiia normal (Gauss-Laplace) de parametrii m i , dac admite densitatea de probabilitate (de repartiie)
1 f ( x) = e 2 2
1 xm
, x , m , > 0.
17
Mulimea variabilelor aleatoare cu repartiia normal de parametrii m i se noteaz cu N(m, ). Funcia f se numete funcia de repartiie normal. Definiia 0.4.30: Variabila aleatoare X are repartiia gama de parametri a i b, dac admite densitatea de repartiie x 1 x a 1 e b , x > 0, a > 0, b > 0, f ( x ) = ba ( a ) 0, x 0. Funcia f se numete legea de repartiie gama. Definiia 0.4.31: Variabila aleatoare X are o repartiie exponenial negativ dac admite densitatea de repartiie e x , x > 0, > 0, f ( x) = 0, x 0. Funcia f se numete legea de repartiie exponenial negativ. Definiia 0.4.32: Variabil aleatoare X are repartiia 2 de parametrii n i , X H ( n, ) dac admite densitatea de repartiie:
x n 2 1 1 2 2 x e , x>0 n 2 n n f ( x) = 2 2 0 , x 0. Funcia f se numete legea de repartiie hi-ptrat. Definiia 0.4.33: Variabila aleatoare X are repartiia beta de parametrii a i b, dac admite densitatea de repartiie b 1 1 a 1 a, b x (1 x ) , x ( 0,1) , a > 0, b > 0, ) f ( x) = ( 0 , n rest. Funcia f se numete legea de repartiie beta. Definiia 0.4.34: Variabila aleatoare X are repartiia Student cu n grade de libertate, x S ( n )
Rezumat
Noiuni importante: Experiment, prob, eveniment, evenimentul sigur, evenimentul imposibil, operaii cu evenimente, relaii ntre evenimente, evenimente contrare, eveniment elementar, eveniment compus, probabilitate, probabilitate complet aditiv, probabilitate condiionat, probabilitate independent, probabilitate dependent, sistem complet de evenimente, scheme clasice de probabilitate, schema urnei cu bile nerevenite, schema urnei cu bile nerevenite cazul
18
mai multor culori, schema lui Poissson, schema urnei cu bile revenite, variabil aleatoare unidimensional, funcie de repartiie, variabil aleatoare simpl, variabil aleatoare discret, tablou de repartiie, variabil aleatoare independent, variabil aleatoare bidimensional, media variabilei aleatoare, dispersia, abatere medie ptratic, momentul centrat de ordinul k, funcie de regresie, covariana dintre variabilele aleatoare X i Y, coeficientul de corelaie, matricea de covarian, repartiie uniform discret, legea de repartiie uniform discret, repartiie binomial de parametrii n i p, legea de repartiie binomial, repartiie hipergeometric de parametrii n, a, N, legea de repartiie hipergeometric, repartiie Poisson, legea de repartiie Poisson, repartiie uniform continu, legea de repartiie uniform continu, repartiia normal (Gauss-Laplace) de parametrii m i , repartiia gama, repartiie exponenial negativ, repartiia 2 de parametrii n i , repartiia beta de parametrii a i b, repartiia Student cu n grade de libertate. Formule importante: Formula proprietile condiionate, formula evenimentelor dependente, formula evenimentelor independente, relaia lui Boole, formula lui Poicare, formula probabilitii totale, formula lui Bayas, inegalitatea lui Boole, formula din schema urnei cu bile nerevenite, formula din schema urnei cu bile nerevenite cazul mai multor culori, , formula din schema lui Poissson, , formula din schema urnei cu bile revenite. Teoreme importante: Proprietile probabilitii, proprietile probabilitii condiionate.
19
Pe baza datelor din economie, econometria construiete modele (expresii cantitative) pentru realitile economice studiate care au un corespondent n teoriile economice. Prin procedeele de inferen statistic, econometria estimeaz parametrii modelelor i realizeaz predicii asupra realitii studiate. Obiect: Aria de studiu a econometriei este realitatea economic privit ca un ansamblu de relaii i intercondiionri. Econometria studiaz legturile dintre fenomenele economice, dintre diferite componente ale economiei n ansamblul su. Metod: Econometria studiaz realitile economice sub aspect cantitativ, utiliznd metoda statisticii. Econometria contribuie la cunoaterea realitii economice prin modul su specific de a surprinde cantitativ relaiile din viaa economic real cu ajutorul unui instrument specific: modelul econometric. Scop: Scopul principal al econometriei este identificarea, estimarea i testarea modelelor, prin care se surprind relaiile dintre fenomenele economice reale.
1.3. Concepte
n cercetarea econometric se utilizeaz o serie de concepte, noiuni i termeni specifici: model, variabile, parametri, estimator, estimaii etc.
20
Modelul econometric: Modelul este o schem simplificat a realitii care are rolul de a explica realitatea studiat n dimensiunile ei fundamentale, eseniale. Modelul econometric este o prezentare formalizat a problemei sau a realitii economice studiate. De regul, modelul econometric este o ecuaie sau un sistem de ecuaii construit pe baza variabilelor statistice. Variabile: n cercetarea econometric se utilizeaz variabile statistice ntre care exist relaii de interdependen. Tipuri de variabile: variabile dependente, numite i variabile rezultative sau efect, rezultat; variabile independente, numite i variabile factoriale sau factori de influen care determin un anumit efect asupra variabilei rezultat. Alturi de aceste dou categorii de variabile, n econometrie se utilizeaz o categorie special: variabilele reziduale sau eroare. De regul, aceste variabile apar n model ca sum a tuturor influenelor necunoscute sau care nu apar explicit n model. n cercetarea econometric, variabila eroare este o variabil aleatoare care respect anumite proprieti numite i ipoteze clasice. Parametri: Parametrii modelului econometric, numii i coeficieni de regresie, sunt mrimi reale i necunoscute care apar n model n diferite expresii alturi de variabile. Parametrii fac obiectul procesului de estimare i testare statistic. Estimatori: Estimatorii sunt variabile aleatoare, convenabil construite n procesul de estimare, cu distribuii de probabilitate cunoscute i cu proprieti specifice n baza crora se realizeaz procesul de estimare a parametrilor modelului econometric. Notm parametrul cu simbolul i un estimator al acestuia cu . n procesul de estimare, cele mai importante proprieti ale estimatorilor sunt: nedeplasarea - un estimator este nedeplasat dac media sau sperana matematic a acestuia este egal cu parametrul. Un estimator nedeplasat verific relaia relaia: M ( ) = . Dac relaia nu este respectat, atunci estimatorul este deplasat. convergena - un estimator este convergent dac pentru un eantion cu volum suficient de mare irul estimatorilor converge ctre parametru. Pentru un estimator convergent are loc relaia: lim P < = 0 , pentru orice (0,1)
n
eficiena - estimatorul este eficient dac are dispersia sau variana cea mai mic dintre toi estimatorii posibili pentru parametru . Estimaii: Estimaiile sunt valori ale estimatorilor calculate la nivelul unui eantion sau set de date reale observate din realitate.
21
estimarea parametrilor modelului sau modelelor propuse, pe baza metodelor statistice cunoscute; testarea modelului sau modelelor i alegerea celui mai bun model; aplicarea n practic sau realizarea de predicii pe seama modelului.
1.5. Notaii
n lucrare, se vor utiliza urmtoarele notaii: Y- variabila dependent; Xi - variabilele independente, i = 1, k , unde k este numrul de factori; - variabila rezidual sau eroare; Y = f ( X i ) + - modelul econometric; , - parametrii modelului, i = 1, k ; , - estimatorii parametrilor modelului, i = 1, k ;
i i i i
n - volumul eantionului.
Rezumat
Noiuni importante: Econometria, modelul econometric, tipuri de variabile, parametrii modelului econometric, estimatorii, estimaiile, modelarea econometric.
22
2) Legea cererii - cererea populaiei pentru o anumit categorie de mrfuri este n funcie de preul acestor produse Ci = + Pi + i , unde parametrul este de regul negativ i arat cu ct scade cererea la o cretere a preului cu o unitate.
23
ei = yi y xi = yi (a + bxi ) s fie minim pentru orice valoare "i" a variabilei X. Estimarea parametrilor se poate face pornind de la diferite criterii, cum ar fi: 1. min { ei }
e : 3. (e )
2.
i
1 i n
minim : minim
De regul, n practic se utilizeaz ultimul criteriu, care definete metoda celor mai miei ptrate (MCMMP). Aplicarea MCMMP presupune minimizarea expresiei: S = ei2 = ( yi y xi ) = minim nlocuind valoarea y xi , obinem: S = ( yi a bxi ) 2 = minim Rezolvarea problemei de minim impune dou condiii: 1. anularea derivatelor pariale de ordinul nti ale lui S n raport cu a i b; 2. matricea derivatelor parialele ordinul doi s fie definit pozitiv. 1. Derivatele pariale de ordinul nti: S a = 2 ( yi a bxi )(1) = 0 S = 2 ( y a bx )( x ) = 0 i i i b cu i = 1, n , din care obinem un sistem de ecuaii normale sub forma: na + b xi = yi , i = 1, n . 2 a xi + b xi = xi yi 2. Derivatele pariale de ordinul doi:
24
Prin rezolvarea sistemului de ecuaii normale printr-una din metodele cunoscute (metoda determinanilor, metoda Doolittle etc.) se obin estimaiile a i b. Aplicnd metoda determinanilor, se obin pentru a i b urmtoarele relaii de calcul: 2 b n xi yi xi yi a yi xi xi xi yi , a= , i = 1, n b= = = 2 2 n xi2 ( xi ) n xi2 ( xi )
a = y bx n relaia de mai sus, a i b reprezint valori de sondaj, estimaii ale parametrilor i , calculate la nivelul unui eantion prin aplicarea metodei celor mai mici ptrate.
B . Estimarea prin interval de ncredere Estimarea prin interval de ncredere se bazeaz pe distribuiile de selecie ale estimatorilor i ai parametrilor i . Pentru modelul liniar simplu, se poate demonstra c estimatorii parametrilor urmeaz o lege de distribuie normal i sunt nedeplasai: X i2 2 2 2 i N ( , ) ; M ( ) = ; V ( ) = ; = 2 2 n ( X i X )
i
2 2 2 N ( , ) ; M ( ) = ; V ( ) = ; =
(X
i
2
i
X )2
e
i
2 i
n2
( y a bx )
i i i
x n ( x x )
2 i i i i
n2
2
se2
se2 ( xi x )2
i
Intervalul de ncredere pentru coeficientul de regresie estimat pentru un eantion observat este definit de relaia: b t / 2 s . Analog, pentru parametrul , se determin intervalul: a t / 2 s .
25
Exemplu. Considernd datele din tabelul 1, se cere s se estimeze parametrii modelului de regresie corespunztor. Tabelul 1. Date convenionale ngrminte Producie medie de gru-ha (u.p) (X) (Y) 1,0 10 2,0 15 3,0 20 4,0 30 5,0 40 Corelograma din figura 2 evideniaz o legtur direct, liniar ntre cantitatea de ngrminte i producia obinut la hectar. Prin urmare, pentru cazul considerat, estimarea produciei n funcie de cantitatea de ngrminte se efectueaz cu ajutorul ecuaiei de regresie liniar: y = a + bx + e . Elementele de calcul necesare pentru determinarea parametrilor ecuaiei de regresie sunt sistematizate n tabelul 2.
Fig. 2. Legtura dintre cantitatea de ngrminte i producia medie de gru/ ha Ecuaia estimat este: y x = a + bx = 0,5 + 7,5 x Estimaia parametrului de regresie , lund valoare pozitiv, arat c legtura ntre variabilele X i Y este direct. De asemenea, scoate n eviden gradul de dependen dintre variabile, i anume la o cretere a lui X cu o unitate (uc/ha), Y crete n medie cu 7,5 uniti. xi 1 1 2 3 4 5 yi 2 10 15 20 30 40
2 i
Tabelul 2. Elemente de calcul y xi xi yi xi x yi2 4 5 10 100 30 225 60 400 120 900 200 1600 420 3225 6 8,0 15,5 23,0 30,5 38,0 115,0 7 -2 -1 0 1 2 -
( xi x ) 2 8 4 1 0 1 4 10
3 1 4 9 16 25 55
15 115
26
urmeaz o lege de repartiie Student de ( n 2 ) grade de libertate. b La nivelul unui eantion observat, raportul t se scrie: t = . s Estimaia varianei estimatorului parametrului de regresie , la nivelul unui eantion
se2 observat, se calculeaz dup relaia: s = . ( xi x )2
2
Pentru un prag de semnificaie , se citete din tabelul Student o valoare teoretic a testului t / 2;n 2 care va fi comparat cu valoarea calculat la nivelul eantionului observat. Se utilizeaz un risc / 2 pentru determinarea valorii teoretice deoarece distribuia Student este simetric, iar suprafaa de respingere ( ) este mprit n dou pri egale ( / 2 ) - vezi figura 3. Calculul estimaiei varianei erorii. Pe baza exemplului de mai sus s-au calculat: b = 7,5 i ( xi x )2 = 10 (coloanele 7 i 8 din tabelul 2). Valorile s i se se pot calcula pe baza
i
n2 Tabelul 3. Calculul reziduului ( ei = yi y xi ) yi 10 15 20 30 40 115 yx ei ei2 8,0 2,0 4,00 15,5 -0,5 0,25 23.0 -3,0 9,00 30,5 -0,5 0,25 38,0 2,a 4,00 115 0,0 17,50
2 e
e =
2 i
17,5 = 5,83 . 52
27
Regula de decizie. Pentru un risc = 0, 05 , dac tcalc > t / 2;n 2 se respinge ipoteza H0, adic
coeficientul de regresie este considerat semnificativ diferit de 0 (se accept H1 : 0 ). Distribuia de selecie a estimatorului coeficientului de regresie este reprezentat n figura 3. n exemplul considerat tcalc = 9,8198 , iar din tabelul Student citim, pentru / 2 = 0, 025 i n 2 = 3 , t0,025;3 = 3,182 . Ca urmare, pentru tcalc > t0,025;3 , coeficientul de regresie este semnificativ diferit de 0, adic variabila X explic variabila Y.
Determinarea intervalului de ncredere. Intervalul de ncredere pentru coeficientiul de regresie , considernd un risc / 2 , este prezentat n figura 3 i este definit de: b t / 2 s
Astfel, folosind datele din exemplul considerat anterior, pentru un risc = 0, 05 , gsim la nivelul eantionului urmtorul interval de ncredere: (7,50,76376-3,182). Putem spune c ne asumm un risc de 5% ca valoarea adevrat a coeficientului de regresie, , s nu fie acoperit de intervalul [5,07; 9,93]. Dac intervalul de ncredere pentru ar conine valoarea 0, atunci nu s-ar respinge ipoteza H0, ceea ce nu este cazul n exemplul nostru, deci factorul X influeneaz semnificativ variabila Y.
Coeficientul de corelaie Se folosete pentru msurarea legturii n cazul unei regresii liniare simple. Pentru dou variabile aleatoare X i Y, la nivelul unei populaii de volum N, coeficientul de corelaie teoretic se noteaz cu ( X , Y ) i este definit de relaia: ( x x )( yi y ) cov( X , Y ) i i = ( X ,Y ) = , i = 1, N x y N x y n care: - cov( X , Y ) - covariana; - xi , yi , x , y - valorile variabilelor corelate i nivelul mediu al acestora;
- N - numrul perechilor de valori; - x , y - abaterea medie ptratic pentru X, respectiv Y. Comparnd relaia de determinare a coeficientului de regresie cu cea a coeficientului de corelaie se constat c ntre aceti indicatori exist urmtoarea legtur:
( X ,Y ) =
x y
din care rezult c semnul coeficientului de corelaie coincide cu semnul coeficientului de regresie, deoarece x , y 0 . Valoarea coeficientului de corelaie este cuprins ntre -1 i +1: 1 +1 Cele dou valori extreme reprezint o legtur liniar perfect (funcional) ntre cele dou variabile, "pozitiv", respectiv "negativ". Valoarea 0 semnific absena legturii ntre cele dou variabile. Pentru o populaie de volum N, coeficientul de corelaie este un parametru care trebuie estimat.
Estimarea coeficientului de corelaie Un estimator pentru este , care are ca valori posibile coeficienii de corelaie empirici, determinai la nivelul eantioanelor posibil de extras printr-o metod de sondaj. n acest sens, la nivelul unui eantion de volum n, se determin coeficientul de corelaie empiric propus de K. Pearson:
( x x )( yi y ) cov( X , Y ) i i =1 = ryx = sx s y n sx s y care reprezint o estimaie pentru parametrul . Dezvoltnd relaia de mai sus, se obine o formul de calcul simplificat al coeficientului de corelaie empiric bazat pe elementele calculate deja cu ocazia calculrii coeficientului de regresie: n xi yi xi yi , i = 1, n . ryx = n x 2 ( x )2 n y 2 ( y )2 i i i i Folosind datele din tabelul 1, intensitatea legturii dintre cantitatea de ngrminte i producia medie de gru la hectar se determin, pe baza relaiei de mai sus, astfel:
29
5 55 (15 )2 5 3225 (115 )2 Valoarea obinut este foarte apropiat de +1, deci ntre cele dou variabile exist o legtur direct foarte strns.
ryx =
5 420 15 115
Testarea coeficientului de corelaie Testarea coeficientului de corelaie se face n scopul de a verifica dac variabila factorial considerat (X) influeneaz semnificativ variaia variabilei rezultative (Y). Se pleac de la emiterea ipotezei H0, considerndu-se pentru variaia lui X i Y un = 0 . Ipoteza nul H0 : = 0 Ipoteza alternativ: H1 : 0 Verificarea ipotezei H0 se face cu ajutorul testului t pentru coeficientul de corelaie simpl. Testul t (Student), folosit pentru verificarea semnificaiei coeficientului de corelaie simpl, este: n2 = . t= 1 2
1 2 n2
ryx Valoarea calculat a lui t se compar cu valoarea teoretic obinut din tabelul t, pentru n-2 grade de libertate i pentru nivelul de semnificaie stabilit. Dac tcalc > ttab. , atunci se respinge H0 i se trage concluzia c ntre variabilele cercetate exist o legtur semnificativ, deci coeficientul de corelaie este semnificativ statistic. Considernd legtura dintre cantitatea de ngrminte i producia medie de gru la hectar, prezentat prin datele din tabelul 1, cu un numr de 5 valori x i y, pentru care s-a gsit coeficientul de corelaie ryx = 0,98 , se calculeaz testul t astfel: = 8,53 . 1 0,982 n tabelul t, la n 2 = 3 grade de libertate i pentru un nivel de semnificaie = 0, 01 , gsim t = 5,841 . Comparnd tcalc cu ttab. observ c: tcalc = 8,53 > ttab. = 5,841 , prin urmare se respinge ipoteza nul i deci coeficientul de corelaie are valoare semnificativ.
Raportul de corelaie Este un indicator al intensitii legturii ce poate fi aplicat att n cazul regresiei liniare ct i a celei neliniare simple sau multiple. Raportul de corelaie este notat cu i se definete prin relaia:
t=
0,98 5 2
30
2 2 y y/ y = sau = 1 2 . 2 y y
x x
n care:
, reprezint varianta general, respectiv variana variabilei Y n raport n cu media tuturor valorilor; ( yxi Y )2 , variana valorilor teoretice fa de media lor (variana sub influena 2 yx = n factorilor eseniali); ( yi yxi )2 , variana valorilor reale fa de valorile teoretice ale variabilei (varianta 2 y / yx = n rezidual). Variana general este egal cu suma celorlalte dou variane componente: 2 2 2 y = yx + y / yx respectiv, variana total ( VT ) este suma variaiei explicate ( VE ) i a variaiei reziduale (VR ) adic: VT = VE + VR . Descompunerea pe componente a variaiei unei variabile Y dintr-un model de regresie i relaiile dintre ele sunt reprezentate grafic n diagrama 4. Analiza variaiei pe componente, ilustrat grafic n figura 4, ne arat c raportul de corelaie msoar ponderea variaiei explicat prin linia de regresie n variaia total. Ca urmare, valoarea raportului de corelaie este un numr cuprins n intervalul: 0 1 . Valoarea 1 arat existena unei legturi funcionale, respectiv, cazul cnd variaia variabilei Y depinde numai de variaia variabilei X, variana rezidual fiind egal cu zero.
2 y
( y y) =
i
Fig. 4. Descompunerea pe componente a dispersiei unei variabile Y, ntr-un model de regresie: a) variana total; b) variana explicat; c) variana rezidual; d) relaia ntre componente.
31
2 y 2 y
i arat ponderea influenei factorului X asupra variaiei variabilei Y. Acest indicator se exprim, de regul, n procente pentru a facilita interpretarea rezultatelor. 2 2 Prin explicitarea celor dou variante y / yx i y , din raportul de corelaie i efectuarea unor transformri elementare se ajunge la calculul acestuia pe baza valorilor parametrilor ecuaiei de regresie din modelul admis. n cazul regresiei liniare ( y = + x + ) raportul de corelaie devine:
yi + xi yi
2 1 ( yi ) N , i = 1, N . 2 1 2 yi N ( yi )
Estimarea raportului de corelaie Ca i n cazul coeficientului de corelaie teoretic, pentru raportul de corelaie se pune problema estimrii. ntr-un sondaj statistic, la nivelul unui eantion observat, se poate determina raportul de corelaie pe baza valorilor empirice: 2 1 a yi + b xi yi ( yi ) n yx = , i = 1, n . 2 1 2 yi n ( yi ) Valoarea yx reprezint o estimaie a parametrului , iar a i b sunt estimaii ale
parametrilor i . Aplicnd relaia raportului de corelaie la datele din exemplul din acest capitol, se obine: 1 2 0,5 115 + 7,5 420 (115 ) 562,5 5 yx = = = 0,98 1 2 580 3225 (115 ) 5 2 Raportul de determinaie ( = 98% ) estimeaz c variaia variabilei Y este determinat n proporie de 98% de factorul X, diferena pn la 100% s-ar datora factorilor aleatori. 2 Dac valoarea la ptrat a raportului de corelaie ( yx ) este egal cu valoarea la ptrat a liniar.
2 coeficientului de corelaie empiric ( ry2x ), conform testului B (Blackman ry2x = yx ), legtura este
Testarea raportului de corelaie Testul F folosit pentru verificarea semnificaiei raportului de corelaie este definit de
relaia:
F= n k 2 k 1 1 2
32
n care n reprezint numrul valorilor observate; k - numrul parametrilor estimai ai modelului de regresie; - estimatorul raportului de corelaie. Statistica F urmeaz o lege de distribuie Snedecor-Fishcr de v1 = k 1 i v2 = n k grade de libertate. La nivelul unui eantion observat, se determin valoarea calculat a testului: F= n k yx 2 k 1 1 yx
2
Dac Fcalc. > Ftab. = F ,v1 ,v2 cu v1 = k 1 i v2 = n k grade de libertate, atunci se trage concluzia c variabila factorial influeneaz semnificativ comportarea variabilei rezultative, deci raportul de corelaie este semnificativ statistic.
n fereastra dialog Linear Rcgression selectm variabilele considerate i le mutm n zonele de lucru corespunztoare. n exemplul nostru (vezi Tabelul 9.1), selectm variabila rezultativ prod i o mutm n zona Dependent, iar variabila factorial ingras n zona Independent. n zona Case Labels mutm firma. Tabelul 4. Cantitatea de ngrminte i producia de gru la ha firma ingras prod 1 a 1,00 10,00 2 b 2,00 15,O0 3 c 3,00 20,00 d 4,00 30.00 4 5 e 5,00 40.00
33
n continuare se parcurg urmtorii pai: - Alegem din lista Method, ca metod de lucru, opiunea Enter; - Activm butonul de comand Statistics care deschide fereastra de dialog Linear Regression: Statistics n care bifm casetele de validare: Estimates, Confidence intervals, Model fit i Descriptives (vezi Fig. 6); - Butonul de comand Continue determin revenirea n fereastra Linear Regression n care activm butonul Plots, care deschide fereastra Linear Regression: Plots; n fereastra de dialog Linear Regression: Plots selectm i mutm SRESID n zona Y, respectiv ZPRED n zona X. Pentru Standardized Residual Plots bifm casetele de validare Histogram i Normal probability plot; - Butonul de comand Continue determin revenirea n fereastra Linear Regression n care activm butonul Save; - n fereastra Linear Regression: Save (vezi Fig.7), pentru Predicted Values bifm caseta Unstandardized, pentru Prediction Intervals bifm caseta Mean, iar pentru Residuals alegem Unstandardized; - Acionm butonul de comand Continue pentru a reveni n fereastra Linear Regression; - Butonul OK comand obinerea output-ului n fereastra de rezultate i a valorilor estimate n fiierul Data Editor.
n fiierul Data Editor, n foaia Data View, SPSS completeaz coloane distincte cu valorile estimate pentru variabila dependent, valorile reziduale i limitele inferioar i superioar ale intervalului de ncredere. Pentru exemplul considerat, rezultatele estimrii sunt prezentate n Tabelul 5.
34
Tabelul 5. Valori estimate, pentru producia de gru la ha, pe baza eantionului de firme prezentate n Tab.4
firma a b c d e ingras. 1.00 2.00 3.00 4.00 5.00 prod. 10.00 15.00 20.00 30.00 40.00 pre_1 8.00 15.50 23.00 30.50 38.00 res_1 2.00 -0.50 -3.00 -0.50 2.00 Imci_1 2.04619 11.29002 19.56257 26.29002 32.04619 umci_1 13.95381 19.70998 26.43743 34.70998 43.95381
Fereastra de rezultate - Output-ul, pentru analiza de regresie, conine: Model Summary, ANOVA, Coefficients, Normal P-P plot i Scatterplot. Tabelul Model Summary prezint valoarea coeficientului de corelaie (R), valoarea raportului de determinaie (R2), valoarea ajustat a lui R i eroarea standard a estimaiei. Pentru exemplul considerat, Model Summary este prezentat n Tabelul 6 (vezi i output-ul din tabelul. 6) Tabelul 6. Model Summary, cazul regresiei simple
Model R R Square 1 .985 .970 a .Predictors: (Constant), Cantitatea de ngrminte la ha b Dependent Variable: Producia de gru la ha Adjusted R Square .960 Std. Error of the Estimate 2.4152
Valoarea R arat dac exist sau nu o corelaie ntre variabila dependent (rezultativa Y) i variabila independent (factoriala X). Acest indicator ia valori ntre -l i 1. Interpretarea modelului. n interpretarea modelului se folosete coeficientul de determinaie, R2 . Raportul de determinaie, R2, arat proporia variaiei variabilei dependente explicate prin modelul de regresie i este folosit pentru a evalua calitatea ajustrii (alegerea modelului). R2 ia valori ntre 0 i 1. Dac R2 este egal cu 0 sau are o valoare foarte mic, atunci modelul de regresie ales nu explic legtura dintre variabile, relaia dintre variabila dependent i variabila independent nu coincide cu modelul ales, de exemplu, liniar. Dac R2 este egal cu 1, atunci toate observaiile cad pe linia de regresie, deci, modelul de regresie explic perfect legtura dintre variabile. Ca urmare, R2 este folosit pentru a stabili care model de regresie este cel mai bun. Aceast metod de alegere a modelului de regresie potrivit este recomandat pentru modelele care nu conin un numr mare de variabile. Pentru exemplul considerat, a rezultat o valoare R=0.985, respectiv, R2 = 0.970, ceea ce ne arat c ntre cantitatea de producie/ha i cantitatea de ngrminte/ha exist o legtur liniar, direct, foarte strns. Tabelul Regression ANOVA prezint rezultatele analizei variantei variabilei dependente sub influena factorului de regresie i a factorului reziduu. Adic, prezint informaii asupra sumei ptratelor abaterilor variabilei dependente, datorate modelului de regresie i factorului reziduu, gradele de libertate, estimaiile variantelor datorate celor dou surse de variaie (regresie i reziduu), raportul F i Sig. (vezi Tabelul 7).
35
Statistica test F se obine ca raport ntre media ptratelor abaterilor datorate regresiei i media ptratelor abaterilor datorate reziduului, calculate cu gradele de libertate corespunztoare. Aceast statistic test este folosit pentru testarea modelului de regresie, adic a ipotezei prin care se presupune ca panta dreptei ( 1 ) este 0, respectiv, pentru regresia multipl, 1 ,..., p = 0 .
Dac testul F ia o valoare mare, iar valoarea Sig. corespunztoare statisticii F este mic (mai mic dect 0,05), atunci variabila independent explic variaia variabilei dependente i invers. n exemplul considerat, valoarea Sig. pentru F este mai mic dect 0,05, deci relaia liniar dintre cele dou variabile considerate este semnificativ (vezi Tabelul 7). Tabelul 8. Coeficienii de regresie
Unstandardized Coefficients Model 1 (Constant) Cantitatea de ngrminte la ha a. Dependent Variable: Producia de gru la ha B Std. Error .500 7.500 .533 .764 .985 Beta .197 .820 .856 .002 Standardized Coefficients t Sig.
Coeficienii de regresie. Tabelul Coefficients (vezi Tabelul 8) prezint coeficienii nestandardizai ai modelului de regresie estimat, erorile standard ale acestora, coeficienii de regresie standardizai cu erorile standard corespunztoare, precum i valorile statisticii test t i valorile Sig. corespunztoare. Coeficienii de regresie standardizai sunt folosii atunci cnd ntr-un model intr mai multe variabile independente exprimate n uniti de msur diferite, n scopul facilitrii comparrii acestora. Testarea parametrilor modelului de regresie se face cu ajutorul testului t, pentru a afla care este probabilitatea ca fiecare parametru s fie nul : H0 : = 0 Pentru exemplul dat, valoarea (Sig.=0.002) este mai mic dect 0.05, artnd c (panta dreptei de regresie) corespunde unei legturi semnificative ntre cele dou variabile.
37
Exemplu. Admitem c ntre numrul de pomi la hectar (X) i producia medie la hectar (Y) exist o legtur. Pentru a cunoate legtura dintre cele dou variabile s-au nregistrat datele cuprinse n tabelul 9. Tabelul 9. Date convenionale Nr. Crt. X Y 1 2 3 1 20 21,2 2 25 23,0 3 30 24,3 4 35 28,8 5 40 27.5 6 45 28.7 7 50 29,0 8 55 28,5 9 60 27,8 Se cere: 1. S se stabileasc forma i direcia legturii dintre cele dou variabile prin metoda grafic; 2. S se determine valorile ajustate ale lui Y dup funcia de regresie corespunztoare legturii; 3. S se calculeze intensitatea legturii dintre variabilele admise. Rezolvare: 1. Corelograma, reprezentnd legtura dintre numrul de pomi la hectar (X) i producia medie la hectar (Y), este prezentat n figura 8. Reprezentarea grafic a celor dou variabile arat o legtur direct de forma unei parabole. 2. Ecuaia de regresie corespunztoare legturii dintre cele dou variabile este de forma: yx = a + b x + c x 2
Fig. 8. Legtura dintre numrul de pomi la hectar i producia medie la hectar Pentru determinarea valorilor ajustate ale tui Y se estimeaz parametrii ecuaiei prin rezolvarea sistemului: n a + b x + c x 2 = y 2 3 a x + b x + c x = x y 2 2 3 4 a x + b x + c x = x y Sumele din sistem se obin cu ajutorul tabelului de calcul nr. 10. nlocuind sumele se obine sistemul:
38
9 a + 360 b + 15900 c = 238,8 360 a + 15900 b + 756000 c = 9813 15900 a + 756000 b + 37882500 c = 440915
Pentru rezolvarea acestui sistem se poate folosi procedeul excluderii succesive a primului coeficient. n acest scop se mparte prima ecuaie cu 9, a doua ecuaie cu 360 i a treia ecuaie cu 15900 i se obine: a + 40 b + 1766, 6667 c = 26,5333 a + 44,1667 b + 2100 c = 27, 2583 a + 47,5472 b + 2382,5471c = 27, 7305 Din ecuaia a doua i ecuaia a treia se scade prima ecuaie: 4,1667 b + 333,3334 c = 0, 7250 7,5472 b + 615,8804 c = 1,1972 Se mparte prima ecuaie cu 4,1667, iar a doua cu 7,5472 i se obine: b + 79,9999 c = 0,1739 b + 81, 6938 c = 0,1586 Din ecuaia a doua se scade prima ecuaie: 1, 6039 c = 0, 0153 de unde, 0, 0153 c= = 0, 0095 1, 6039 nlocuim valoarea lui c n una din ecuaii: b + 79,9999 c = 0,1739 , de unde b = 0,9338 , iar prin nlocuirea lui c i a lui b n prima ecuaie obinem: a + 40 b + 1766, 6667 c = 26,5333 , de unde a = 5,9646 Pe baza valorilor parametrilor, ecuaia de regresie va fi: y x = 5,9646 + 0,9338 x + (0, 0095) x 2 x 1 20 25 30 35 40 45 50 55 60 360 y 2 21,2 23,0 24,3 28,8 27.5 28.7 29,0 28,5 27,8 238,8 Tabelul 10. Elemente de calcul x3 x2 3 4 400 8000 625 15625 900 27000 1225 42875 1600 64000 2025 91125 2500 125000 3025 166375 3600 216000 15900 756000 x4 5 160000 390625 810000 1500625 2560000 4100625 6250000 9150625 12960000 37882500
39
x 6 20 25 30 35 40 45 50 55 60 360
xy 7 424 575 729 1008 1100 1291,5 1450 1567,5 1668 9813
x2 y 8 8480 14375 21870 35280 44000 58117,5 72500 86212,5 100080 440915
yx = a + b x + c x 2 9 21,0426 23,3721 25,4286 27,0101 28,1166 28,7481 28,9046 28,5861 27,7926 239
y2 10 449,44 529 520,49 829,44 756,25 823,69 841 812,25 772,84 6404,4
Semnul parametrilor de regresie arat c la o cretere a numrului de pomi la hectar (X) corespunde o cretere a produciei medii la hectar (Y) pn la un anumit punct, dup care nivelul acesteia scade, prin urmare ecuaia admite un maxim. Valoarea lui (X) pentru care (Y) este maxim se poate determina cu ajutorul ecuaiei de regresie, calculnd i anulnd prima derivat: 0,9338 + 2(0, 0095) x = 0 de unde, 0,9338 x= = 49,1473 = 49 pomi 0, 019 Pentru un numr de 49 de pomi la hectar, producia medie la hectar va fi: y x = 5,9646 + 0,9338 49 + (0, 0095) 492 = 28,9303 uniti de producie la hectar. Pentru un numr mai mare de 49 pomi la hectar, producia medie scade. Astfel, pentru 50 pomi producia este: y x = 5,9646 + 0,9338 50 + (0, 0095) 502 = 28,9046 uniti de producie la hectar. 3. Intensitatea legturii dintre cele dou variabile se stabilete cu ajutorul raportului de corelaie, calculat dup relaia: 2 1 a yi + b xi yi + c xi2 yi ( yi ) n yx = = 2 1 2 yi n ( yi ) = 5,9646 238,8 + 0.9338 9813 + (0, 0095) 440915 6404, 4 1 2 ( 238,8 ) 9 = 0,8139 = 0,9021
1 2 ( 238,8) 9 Valoarea raportului de corelaie arat c ntre variabilele admise n studiu exist o corelaie foarte strns, iar valoarea raportului de determinaie arat c 81,39% din variaia produciei medii s-ar datora densitii pomilor la hectar.
40
Rezumat
Noiuni importante: modelul liniar simplu, modelul de regresie liniar simplu, parametrii ecuaiei de regresie, coeficientul de corelaie, coeficientul de determinaie, raportul de corelaie, modelul neliniar simplu, model liniarizabil. Formule importante: ecuaia de regresie, estimarea punctual a parametrilor de regresie, estimarea prin interval de ncredere, testarea parametrilor modelului, determinarea intervalului de ncredere, estimarea coeficientului de corelaie, testarea coeficientului de corelaie, test t, coeficientul de determinaie, estimarea raportului de corelaie, testarea raportului de corelaie, ecuaia estimat a modelului de regresie de tip hiperbolic, ecuaia estimat a modelului de regresie de tip exponenial, ecuaia estimat a modelului de regresie de tip putere, ecuaia estimat a modelului de regresie de tip parabolic.
- este variabila aleatoare eroare (reziduu); - , i sunt coeficienii de regresie. Modelarea se realizeaz n urmtoarele ipoteze: 1. normalitatea erorilor: i N (0, 2 ) , adic variabila rezidual urmeaz o lege de repartiie normal de medie zero i varian 2 ; 2. homoscedasticitate: V ( i ) = M ( i2 ) = 2 , adic variana erorii este constant la nivelul distribuiilor condiionate de tipul Yi X = xi ; 3. necorelarea erorilor: cov( i , j ) = 0 , adic erorile nu se influeneaz reciproc; 4. lipsa corelaiei dintre variabilele independente i variabila eroare; 5. lipsa coliniaritaii sau a unei legturi liniare ntre variabilele independente.
41
i i
N (0,1) ,
i i
i
t (n 3) . Testarea semnificaiei
parametrilor i , se realizeaz cu ajutorul testului student: t = Etapele testrii: 1. Ipoteze: H0 : i = 0 , i = 0, 2 H1 : i 0 3. Statistica Student t = i t (n 3)
i i
i
2. Pragul de semnificaie
(x
i
2 x1 ) 2 (1 rx2x2 ) 1
1i
4. valorile teoretice t( n 2) / 2
42
n care:
ry x1 =
n x1 y x1 y n x 2 ( x )2 n y 2 ( y )2 1 1 rx1x2 =
n x1 x2 x1 x2
n x 2 ( x )2 n x 2 ( x )2 1 1 2 2
Dac rx1x2 = 0 , atunci y x1x2 = ry2x1 + ry2x2 . Coeficientul de corelaie multipl liniar se poate determina i cu ajutorul unei relaii bazate pe determinanii formai din coeficienii de corelaie simpl liniar. Astfel, n cazul a trei variabile, vom avea: 1 ry x1 ry x2 1 rx1x2 y y x ; y y x = rx1 y y x1x2 = 1 unde: y = 1 rx1x2 rx2 x1 1 y rx2 y rx2 x1 1
Raportul de corelaie multipl Se calculeaz dup relaia:
y x x ... =
1 2
2 s y x1x2 ... 2 sy
2 s y / y x1x2 ... 2 sy
( y y ) 1 ( y y)
i x1 x2 ... 2 i
Raportul de corelaie multipl se poate calcula i pe baza estimaiilor parametrilor ecuaiei de regresie multipl, formula stabilindu-se n funcie de modelul regresiei multiple aplicat. Pentru o corelaie multipl liniar dintre y i x1, x2 : y x1x2 = a + b1 x1 + b2 x2 raportul de corelaie devine
43
y x x =
a y + b1 x1 y + b2 x2 y
2 1 ( y) n
y x x =
1 2
2 a y + b1 x1 y + b1 x12 y + b2 x2 y + b2 x2 y
2 1 ( y) n
2 1 ( y ) n
Corelaia parial Alturi de corelaia simpl, care arat legtura dintre o variabil rezultativ (Y) i o variabil factorial (X) i de corelaia multipl, care caracterizeaz legtura dintre Y i variaia simultan a dou sau mai multe variabile factoriale, n practic apare necesitatea studierii separate a perechilor de variabile Y i X. Aceasta se realizeaz cu ajutorul corelaiei pariale, care msoar dependena dintre variabile prin excluderea succesiv a influenei celorlali factori (considernd influena lor constant) meninnd numai influena factorului msurat. n funcie de numrul variabilelor a cror influen se elimin din calcul, coeficienii de corelaie parial pot fi de ordinul nti (pentru o variabil), de ordinul doi (pentru dou variabile) etc. Coeficienii corelaiei pariale pot fi calculai fie pe baza coeficienilor de corelaie simpli, fie pe baza dispersiilor Coeficienii de corelaie parial de ordinul nti: ry x1 ry x2 rx1x2 - ntre Y i X1, excluznd influena lui X2: ry x1x2 = ; 1 ry2x2 1 rx2x2 1
)(
) )
ry x2 ry x1 rx1x2
1 ry2x1 1 rx2x2 1
)(
Coeficienii de corelaie parial, folosind estimaiile variantelor, se calculeaz dup relaiile: - ntre Y i X1, excluznd pe X2: y x1x2 = - ntre Y i X2, excluznd pe X1 : y x2 x1 =
2 s y x1x2 2 s y x2 2 s y x1x2 2 s y x1
; .
Determinaia multipl i parial Msurarea influenei factorilor, simultan i separat, se stabilete prin indicatorii determinaiei multiple, respectiv, determinaiei pariale. Raportul determinaiei totale. Acest indicator se noteaz cu Dy x1x2 ... i arat influena simultan
a variabilelor factoriale asupra variabilei rezultative. Poate fi calculat prin ridicarea la ptrat fie 44
a coeficientului de corelaie multipl y x1x2 , fie a raportului de corelaie multipl y x1x2 ... , dup relaiile: Dy x1x2 =
2 y x1 x2
2 y x1 x2 ...
( y y ) = 1 ( y y)
i x1 x2 ... 2 i
2 1 ( y) n
Pentru a facilita interpretarea rezultatelor, Dy x1x2 ... se poate exprima procentual i arat ct la sut din variaia lui y depinde, de variaia simultan a variabilelor factoriale considerate. Raportul determinaiei pariale. Acest indicator arat influena separat a factorilor. Se calculeaz fie prin ridicarea la ptrat a coeficienilor corelaiei pariale, fie prin descompunerea determinaiei totale. Indicatorii determinaiei pariale, pentru o regresie multipl liniar de forma y x1x2 = a + b1 x1 + b2 x2 , calculai pe baza corelaiei pariale, sunt: d y x1x2 = ry2x1x2 i d y x2 x1 = ry2x2 x1 . Plecnd de la determinaia multipl total, pentru Y n funcie de X1 i X2, i nlocuind a cu expresia lui rezultat din prima ecuaie a sistemului de ecuaii normale n care s-au substituit b1 i b2: 2 1 a y + b1 x1 y + b2 x2 y ( y ) 2 n Dy x1x2 = y x1x2 = 2 1 2 y n ( y) y b1 x1 b2 x2 = y b x1 b x2 a= 1 2 n se obine: 2 1 y y + b1 x1 y + b2 x2 y + b1 x1 y + b2 x2 y ( y ) n = Dy x1x2 = 2 1 2 y n ( y) x y x y b1 x1 y 1 + b2 x2 y 2 n n = 2 1 y2 n ( y ) din care, indicatorii determinaiei pariale se obin prin divizarea determinaiei multiple totale: x1 y b x y x2 y b1 x1 y 2 2 n n + sau Dy x1x2 = 2 2 1 1 y2 n ( y ) y2 n ( y )
45
Dy x1x2 =
b1 ( n x1 y x1 y ) n y 2 ( y )
2
b2 ( n x2 y x2 y ) n y 2 ( y )
2
Primul termen al membrului doi al relaiei din formula anterioar reprezint determinaia parial ntre y i x1 iar al doilea, determinaia parial ntre y i x2. Prin urmare, Dy x1x2 = d y x1x2 + d y x2 x1
46
- n fereastra Linear Regression: Statistics, deschis prin butonul de comand Statistics, se activeaz casetele de validare Descriptives i Collinearty diagnostics.
Fig. 1 Fereastra de dialog Liniar Regression, metoda Backward n tabelul Correlations se afieaz coeficienii de corelaie Pearson (Pearson Correlation), valoarea semnificaiei (Sig.) pentru fiecare coeficient de corelaie i numrul cazurilor considerate n studiu (N). Pentru exemplul dat, sunt prezentate corelaiile simple ale fiecrei variabile independente (predictor) cu variabila dependent cs -ctigul salarial nominal net (vezi matricea corelaiilor din Tabelul 1). Tabelul 1. Matricea corelaiilor pariale
Correlations Ctigul salarial nominal net n anul 2000 1.000 .001 .887 -.555 PIB intern brut regional pe locuitor n anul 2000 (lei) .001 1.000 -.157 -.710 .500 .500 .005 .098 7 7 7 7 .368 .037 7 7 7 7 Investiii n 2000 .877 -157 1.000 -.737 .005 .368 .029 7 7 7 7 7 7 7 7 Populaia ocupat n 2000 (mii persoane) -.555 -.710 -.737 1.000 .098 .037 .029
Pearson Correlation
Sig. (1-tailed)
Ctigul salarial nominal net n anul 2000 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane) Ctigul salarial nominal net n anul 2000 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane) Ctigul salarial nominal net n anul 2000 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane)
47
Se observ c valoarea coeficienilor de corelaie de pe diagonal este egal cu unu, deoarece fiecare variabil este corelat perfect cu ea nsi. Se constat c legtura cea mai semnificativ este ntre ctigul salarial nominal net i investiii. ntre variabila dependent - cs i variabila independent - inv exist o legtur direct, puternic. Valoarea coeficientului de corelaie este egal cu 0,877, cu o valoare Sig. mai mic dect 0,05. Tabelul Varinble Entered/Removed furnizeaz o prezentare a rezultatelor eliminrii pas cu pas a variabilelor (vezi Tabelul 2). SPSS elaboreaz, la nceput, un model cu toate variabilele independente, folosind metoda Enter, apoi, n fiecare pas creeaz un model, eliminnd variabila care are cea mai redus contribuie. Tabelul 2. Variabilele introduse n model i variabilele eliminate pas cu pas
Model 1 Variables Entered/Removed Variables Entered Variables Removed Populaia ocupat n 2000 (mii persoane) PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 Populaia ocupat n 2000 (mii persoane) 3 Method Enter
PIB intern brut regional pe locuitor n anul 2000 (lei) a. All requested variables entered b. DependentVariable: Ctigul salarial nominal net n anul 2000
Backward (criterion: Probabilit z of F to remove >= .100). Backward (criterion: Probabilit z of F to remove >= .100).
n exemplul considerat, sunt eliminate, pe rnd, n ordinea celei mai slabe influene asupra ctigului salarial nominal net, variabila populaie ocupat i variabila produs intern brut pe locuitor. Tabelul Model Summary prezint pentru fiecare model de regresie valoarea coeficientul de corelaie (R), valoarea coeficientului de determinaie (R2) i eroarea standard. Valoarea R2 crete pe msur ce se introduc mai multe variabile n model. Includerea de variabile irelevante duce, de asemenea, la creterea erorii standard. Tabelul 3. Model Summary, cazul regresiei multiple
Model Summary Change Statistics Std.Error of the R Square F Change df1 df2 Sig. Estimate Change F. Change 1 .888a .789 .578 130351.7763 -.789 3.745 3 3 .153 2 .888b .789 .683 113053.5944 -.001 .009 1 5 .931 3 .877c .769 .723 105627.4703 -.019 .365 1 6 .578 a. Predictors: (Constant), Populaia ocupat n 2000 (mii persoane), PIB intern brut regional pe locuitor n anul 2000 (lei), invesliiile n 2000 b. Predictors: (Constant), PIB intern brut regional pe locuitor n anul 2000 (lei), Investiiile n 2000 c. Predictors: (Constant), Investiiile n 2000 d. Dependent Variable: Ctigul salarial nominal net n anul 2000 Model R R Square Adjusted Square R
n exemplul dat, valoarea R, valoarea R2 ajustat i eroarea standard arat c cel mai bun predictor (variabila independent care estimeaz cel mai bine variabila dependent) este variabila investiii. Aceeai concluzie se poate trage considernd rezultatele din tabelul ANOVA (vezi Tabelul 3). Dac valoarea semnificaiei statisticii F este mic (Sig. este mai mic dect 0,05),
48
atunci variabilele independente explic variaia variabilei dependente. Cea mai mic valoare Sig. corespunde modelului care explic variaia ctigului salarial nominal net n funcie de investiii. n tabelul coeficienilor de regresie, n prima parte, apar coeficienii de regresie, erorile standard, valoarea statisticii test t pentru fiecare coeficient, precum i valoarea Sig. n cazul unei regresii multiple apare, n plus, fa de cazul unei corelaii simple statisticile de coliniarizate (collinearity statistics), tolerana (tolerance) i factorul de inflaie a varianei (variance inflation factor -VIF). Tabelul 4. ANOVA
ANOVAd Sum of Squares df Mean Square F Sig. 1 Regression 1.91E+11 3 6.363E+10 3 745 .153a Residual 5.10E+10 3 1.699E+10 Total 2.42E+11 6 2 Regression 1.91E+11 2 9.536E+10 7.461 .045b Residual 5.11E+10 4 1.278E+10 Total 2.42E+11 6 3 Regression 1.86E+11 1 1.861E+11 16.677 .010c Residual 5.58E+10 5 1.116E+10 Total 2.42E+11 8 a. Predictors: (Constant), Populaia ocupat n 2000 (mii persoane), PIB intern brut regional pe locuitor n anul 2000 (lei), invesliiile n 2000 b. Predictors: (Constant), PIB intern brut regional pe locuitor n anul 2000 (lei), Investiiile n 2000 c. Predictors: (Constant), Investiiile n 2000 d. Dependent Variable: Ctigul salarial nominal net n anul 2000
Model
Coliniaritatea exprim existena unei corelaii puternice ntre variabilele independente. n astfel de situaii se calculeaz statisticile toleranei, considernd numai variabilele independente, variabila dependent este exclus din model. Tolerana fiecrei variabile Xi se calculeaz dup relaia: Tolerana = 1 - Ri2 , unde:
Ri2 - este ptratul coeficientului de corelaie multipl a variabilei Xi cu toate celelalte variabile independente. VIF este reciproca toleranei. Tolerana poate lua valori de la 0 la 1. Cu ct valoarea toleranei este mai mic, mai apropiat de zero, cu att variabila independent Xi este explicat printr-o combinaie liniar a celorlalte variabile independente. Ca urmare, explicarea variabilei dependente prin aceast variabil poate fi considerat c are prea puin acuratee. Tabelul 5. Coeficienii de regresie
Coefficientsa Unstandardized Coeffcients B Std. Error 2191707 2170142 -4.01E-03 .026 Standar dized Coeffci ents Beta
Model t 1 (Constant) 1.010 -.091 -.155 PIB intern brut regional pe locuitor n anul 2000 (lei) Investiii n 2000 42.296 27.310 .951 1.549 Populaia ocupat n 81.670 870.088 .081 .094 2000 (mii persoane) 2 (Constant) 2391840 350602.0 6.822 PIB intern brut -6.18E-03 .010 -.141 -.604 regional pe locuitor n anul 2000 (lei) Investiii n 2000 39.991 10.352 .899 3.863 3 (Constant) 2210270 168505.7 13.117 Investiii n 2000 39010 9.552 .877 4.084 a. Dependent Variable: Ctigul salarial nominal net n anul 2000
Sig. .387 .887 .219 .931 .002 .578 .018 .000 .010
95% Confidence interval for B Lower Bound Upper Bound -4714653.203 9098066.708 -.087 .079 -44.615 -2687.337 1418412.850 -.035 11.248 1777112.723 14.454 129.208 2850.677 3365267.294 .022 68.733 2643428.213 63.565
Collinearity Statistics Tolerance VIF .202 .186 .095 .975 .975 1.000 4.954 5.367 10.566 1.025 1.025 1.000
49
Diagnosticul coliniaritii presupune analiza rezultatelor din tabelul Collinearity Diagnostics (vezi Tabelul 5). Tabelul 6. Diagnosticul coliniaritii
Collinearity Diagnosticsa Variance Proportions PIB intern brut regional pe locuitor n anul Investiii 2000 (lei) n 2000 .00 .00 .00 .08 .10 .10 .90 .83 .00 .01 .09 .97 .91 .02 .01 .99 Populaia ocupat n 2000 (mii persoane) .00 .02 .02 .97
Dimension Eigenvalue Condition Index 1 3.906 1.000 2 7.156E-02 7.388 3 2.237E-02 13.214 4 3.752E-02 102.030 2 1 2.954 1.000 2 3.752E-02 8.873 3 8.423E-03 18.727 3 1 1.972 1.000 2 2.847E-02 8.321 a. Dependent Variable: Ctigul salarial nominal net n anul 2000
Model 1
(Constant) .00 .00 .00 1.00 .00 .05 .95 .01 .99
Eigenvalue d o indicaie asupra numrului de legturi care exist ntre variabilele independente. Cnd mai multe eigenvalues sunt apropiate de zero, variabilele sunt puternic intercorelate. Indicii de condiie se calculeaz ca rdcin ptrat din raportul dintre valoarea eigenvalue cea mai mare i valoarea eigenvalue a fiecrei dimensiuni. Un indice mai mare dect 15 arat c exist o posibil problem de coliniaritate, iar o valoare mai mare ca 30 indic probleme grave de coliniaritate. Aceste situaii le ntlnim n exemplul considerat, pentru modelul 1, indicele corespunztor dimensiunii 4 (variabila populaia ocupat) are valoarea de 102,030, respectiv, pentru modelul 2, indicele corespunztor dimensiunii 3 (variabila PIB) are valoarea de 18,721 (vezi Tabelul 6). Proporia varianei evideniaz contribuia fiecrei variabile la varian. Variabilele care au valori mari pentru acest indicator arat probleme de coliniaritate. n exemplul dat, variabilele cu probleme de coliniaritate i care influeneaz substanial varianta sunt: - populaia ocupat, cu o proporie de 0,97; -PIB regional, cu o proporie de 0,91. Tabelul Exclucled Variables prezint informaii despre variabilele care sunt excluse la fiecare pas (vezi Tabelul 7). Tabelul 7. Variabile excluse
Excluded Variablesc Model 2 Beta In t Sig. Populaia ocupat n 2000 .081a .094 .931 (mii persoane) 3 Populaia ocupat n 2000 .200b .586 .590 .281 .457 (mii persoane) PIB intern brut regional pe -.141b -.604 .578 -.289 .975 locuitor n anul 2000 (lei) a. Predictors in the Model: PIB intern brut regional pe locuitor n anul 2000 (lei), Investiiile n 2000 b. Predictors in the Model: (Constant), Investiiile n 2000 c. Dependent Variable: Ctigul salarial nominal net n anul 2000 Partial Correlation .054 Collinearity Statistics Minimum Tolerance Tolerance VIF 9.464E-02 10.566 9.464E-02 2.187 1.025 .457 .975
Beta in este coeficientul de regresie care ar rezulta dac n pasul urmtor s-ar pstra n model variabila exclus.
50
Statistica test t i valoarea Sig. sunt folosite pentru testarea ipotezei de nul cu privire la coeficienii de regresie, adic a ipotezei c ntre variabila dependent i variabila independent nu exist o legtur semnificativ. n exemplul considerat, se constat valori Sig. foarte mari (comparativ cu 0.05), ceea ce nu ne permite s respingem ipoteza de nul, adic a inexistenei unei legturi semnificative ntre variabila dependent -ctigul salarial- i variabilele independente -populaia ocupat i PIB regional pe locuitor, la nivelul anului 2000, n Romnia. Se observ, de asemenea, valori mici pentru toleran i valori mari pentru VIF,. ceea ce denot existena multicoliniaritii, care determin o variant mare a coeficientului de regresie, i, ca urmare, o instabilitate a estimaiei.
Fig. 3 Diagrama Scatterplot Respectarea ipotezelor cerute de analiza de regresie (erorile sunt distribuite normal, cu media zero; erorile au variant constant; erorile sunt independente unele de altele) pot fi verificate grafic folosind diagramele P-P Plot i Scatterplot. Figurile 2 i 3 arat c sunt respectate aceste ipoteze.
51
52
n log a + b1 log x1 + b2 log x2 = log y 2 log a log x1 + b1 (log x1 ) + b2 (log x1 log x2 ) = (log x1 log y ) 2 log a log x2 + b1 (log x1 log x2 ) + b2 (log x2 ) = (log x2 log y )
Exemplu. n vederea studierii legturii dintre producia industrial (Y), personalul muncitor (X1) i fondurile fixe din industrie (X2), considerm ponderile exprimate procentual ale acestor variabile pe judee fa de total ar, redate n tabelul 8.
Tabelul 8. Ponderea produciei industriale (Y), a personalului muncitor (X1) i a fondurilor fixe (X2) pe judee fa de total ar (n %) Judeul y x1 x2 Judeul y x1 x2 1 l. Alba 2. Arad 3. Arge 4. Bacu 5.Bihor 6.Bistria- Nsud 7. Botoani 8. Braov 9.Brila 10. Buzu 11. Cara- Severin 12.Clrai 13.Cluj 14.Constana 15.Covasna l6.Dmbovia 17.Dolj 18.Galai 19.Giurgiu 20.Gorj 2 1,7 1,8 4,4 3,6 2,3 0,7 0,8 5,8 1,7 1,7 2,0 0,7 3,1 2,3 0,9 2,3 2.5 5,0 0,5 1,4 3 2,2 2,3 3,3 2,9 2,9 1,0 1,1 5,2 1,6 1,9 2,1 0,8 3,9 2,0 1,1 2,6 2,5 2,5 0,6 1,8 3 1,5 1,5 4,8 4,2 1,9 0,8 0,7 5,1 2,1 1,6 2,2 0,7 2,9 2,1 0,9 3,3 2,9 4,6 0,9 4,5 1 21.Harghita 22.Hunedoara 23. Ialomia 24.1ai 25 .Maramure 26.Mehedini 27.Mure 28.Neam 29.Olt 30.Prahova 31.Satu-Mare 32. Slaj 33. Sibiu 34.Suceava 35.Teleorman 36.Timi 37.Tulcea 38.Vaslui 39.Vlcea 4O.Vrancca 2 1.1 3,5 0,7 2,8 1,9 1,0 2,8 2,3 2,2 7,1 1,2 0,9 3,3 1,6 1,2 3,5 0,9 1.1 1,3 0,8 3 1,8 3,2 0,5 2,7 2,4 0,9 3,0 2,5 1,5 5,2 1,7 0,9 3,4 2,4 1,3 3,9 0,9 1,4 1,3 1,0 4 1,0 5,1 0,8 2,7 1,6 1,2 2,6 2,9 2,4 5,4 0,7 0,9 1,8 1,6 1,8 2,5 1.7 1,2 2,7 0,7
Sursa: Anuarul Statistic al Romniei, 1994, pp.52-53. Se cere: 1. S se estimeze parametrii ecuaiei de regresie multipl; 2. S se determine intensitatea corelaiei multiple; 3. S se calculeze raportul determinaiei multiple i coeficienii determinatei pariale. Rezolvare 1. n teoria i practica modelrii creterii economice se consider c ntre variabilele admise exist o legtur exprimat printr-un model de corelaie bifactorial redat printr-o funcie de tip b Cobb-Douglas: y x1x2 = a x1b1 x22 care prin logaritmare devine: log y x1x2 = log a + b1 log x1 + b2 log x2
53
Estimaiile parametrilor ecuaiei de regresie se afl rezolvnd urmtorul sistem de ecuaii normale: n log a + b1 log x1 + b2 log x2 = log y 2 log a log x1 + b1 (log x1 ) + b2 (log x1 log x2 ) = (log x1 log y ) 2 log a log x2 + b1 (log x1 log x2 ) + b2 (log x2 ) = (log x2 log y ) Calcule: log x1 = 10, 7989 (log x1 )2 = 5, 29089 (log x1 log x2 ) = 4,96492
(log x (log x
1 2
n = 40 nlocuind n sistem valorile sumelor variabilelor, obinem: 40 log a + 10, 7989 b1 + 10,9084 b2 = 9,82793 10, 7989 log a + 5, 29089 b1 + 4,96492 b2 = 5,16665 10,9084 log a + 4,96492 b + 5, 0203 b = 5, 2936 1 2 Prin rezolvarea sistemului obinem urmtoarele valori pentru estimaiile parametrilor ecuaiei regresiei multiple: log a = 0, 056676 b1 = 0, 728269 b2 = 0,387821 Ecuaia de regresie multipl va fi: log y = 0, 056676 + 0, 728269 log x1 + 0,387821log x2 2. Intensitatea corelaiei dintre variabilele luate n studiu se calculeaz cu ajutorul 2 1 log a log y + b1 (log x1 log y ) + b2 (log x2 log y ) ( log y ) n = yx = 2 1 2 (log y) n ( log y )
= 0, 056676 9,82793 + 0, 728269 5,16665 + 0,387821 5, 2936 5, 49318 1 (9,82793) 2 40 = 0,9612
1 (9,82793) 2 40 Valoarea raportului de corelaie arat o legtur foarte strns ntre variabilele admise.
Coeficienii corelaiei pariale. Pentru calcularea lor s-au determinat coeficienii de corelaie simpl liniar ale cror valori sunt: n (log x1 log y ) log x1 log y rlog y log x1 = = n (log x ) 2 ( log x )2 n (log y ) 2 ( log y )2 1 1 40 5,16665 10, 7989 9,82793 = = 0,929426 40 5, 29089 (10, 7989) 2 40 5, 49318 (9,82793) 2 respectiv rlog y log x2 = 0,867890 rlog x1 log x2 = 0, 763632
54
Calculul coeficienilor corelaiei pariale pe baza coeficienilor de corelaie simpl s-a efectuat dup relaiile: rlog y log x1 rlog y log x2 rlog x1 log x2 rlog y log x1 = = 0,831466 2 2 1 rlog y log x1 1 rlog x1 log x2
)(
rlog y log x2 =
(1 r
2 log y log x2
)(1 r
2 log x1 log x2
= 0, 663798
Coeficienii corelaiei pariale arat c legtura dintre Y i X1 este mai strns dect cea dintre Y i X2. Raportul determinaiei totale se poate afla prin ridicarea la ptrat a raportului de corelaie: 2 Dlog y log x1 log x2 = log y log x1 log x2 = (0,961158) 2 = 0,923826 (92,38%) Coeficienii determinaiei pariale se calculeaz fie prin ridicarea la ptrat a coeficienilor corelaiei pariale: d log y log x1 log x2 = (0,831466) 2 = 0, 691336 d log y log x2 log x1 = (0, 663798) 2 = 0, 440628 fie prin relaiile obinute pe baza divizrii determinaiei multiple totale, Dy x1x2 = d y x1x2 + d y x2 x1 i anume d log y log x1 log x2 = = b1n (log x1 log y ) log x1 log y n (log y ) ( log y )
2 2
= = 0,5945
= 0,329236
Reiese c 92,38% din variaia ponderii produciei medii industriale pe judee este datorat influenei simultane a ponderii personalului muncitor i a ponderii fondurilor fixe n industria judeelor fa de total ar. Influena total, descompus pe cei doi factori, arat c ponderea personalului muncitor are o influen mai mare (59,45%) n comparaie cu ponderea fondurilor fixe n industria judeelor fa de total ar (33%).
55
Rezumat
Noiuni importante: model de regresie multipl, coeficientul de corelaie multipl, coeficientul de determinaie multipl, corelaia parial, modele neliniare multiple, model putere, model polinomial. Formule importante: estimarea parametrilor modelului de regresie multipl, testarea parametrilor i modelului de regresie multipl, coeficientul de corelaie multipl, coeficientul de determinaie multipl, raportul de corelaie multipl, coeficientul de corelaie parial, raportul determinaiei totale, raportul determinaiei pariale.
3 (S este asimetria - skewness, S = 0 pentru o repartiie normal, pozitiv sau 3 negativ n caz de asimetrie) i K = 4 (K este boltirea - kurtosis, K = 3 pentru o repartiie 2 2
repartiii: S = normal). Estimatorii pentru cei doi parametri au urmtoarele relaii:
56
i3 i4 n2 i n2 S= , respectiv K = i . 3 3 2 2 i i i n2 i n2 Testul Jarque - Bera are urmtoarea expresie: n 2 ( K 3) 2 2 JB = S + (2) 6 4 Decizia de admitere a ipotezei de normalitate se ia pe baza valori calculate a testului, dac aceasta este mai mic dect valoarea teoretic pentru o distribuie chi-ptrat de dou grade de libertate i un prag de semnificaie specificat.
4.2. Homoscedasticitatea
Aceast ipotez presupune o variant constant a erorilor la nivelul distribuiilor condiionate de forma Y X = xi . Ipoteza de homoscedasticitate presupune respectarea relaiei: V ( i ) = 2 . Cnd ipoteza este nclcat, modelul este numit heteroscedastic. Efectele heteroscedasticitii: Cel mai important efect al heteroscedasticitii este pierderea eficienei estimatorilor parametrilor modelului de regresie. De exemplu, pentru parametrul , se poate arta c variana estimatorului sufer modificri n cazul heteroscedasticitii i este mai mare dect n cazul n care ipoteza nu este nclcat. Considerm relaia: Xi X = + wi i , cu wi = . i ( X i X )2
i
57
- se testeaz coeficientul de corelaie cu ajutorul testului Student; - dac se accept ipoteza c coeficientul de corelaie nu este semnificativ, se accept i ipoteza de homoscedasticitate, iar n caz contrar modelul este heteroscedastic. Relaiile utilizate n acest demers sunt: di2 - estimatorul coeficientului de corelaie: = 1 6 i 2 , unde di reprezint diferenele dintre n(n 1) ranguri pentru cele dou variabile, iar n este volumul eantionului; n 2 t (n 2) . - testul Student: t = 1 2
b. Testul Goldfeld-Quandt: Acest test este utilizat n cazul n care numrul de date sau volumul eantionului este suficient de mare. Se parcurg urmtoarele etape: - se ordoneaz cresctor seria empiric dup variabila X; - se mparte seria n dou pri egale, dup omiterea unui set de date din centrul seriei; - se realizeaz dou regresii pentru cele dou seturi de date i se calculeaz variaia rezidual (RSS) pentru fiecare model n parte; - se realizeaz un test Fisher care compar cele dou variaii reziduale, RSS2 F= ; RSS1 - dac testul este semnificativ statistic, atunci modelul iniial de regresie este heteroscedastic. c. Testul Glejser: Acest test are la baz un model de regresie ntre variabila rezidual estimat i variabila independent. Forma acestui model indic i forma heteroscedasticitii. Realizarea testului presupune parcurgerea urmtorului demers: - se realizeaz regresia yi = + xi + i ; - se determin erorile estimate i ;
- se realizeaz, de exemplu, regresia i = 0 + 1 xi + ui ; se testeaz modelul din etapa anterioar: dac parametrul 1 este semnificativ, atunci modelul iniial este heteroscedastic.
Corectarea modelului heteroscedastic Corectarea heteroscedasticitii se poate realiza innd cont de informaia disponibil asupra parametrilor i2 : dac sunt cunoscui sau dac nu sunt cunoscui. a. Cazul i2 cunoscui - Metoda celor mai mici ptrate generalizat
Fie modelul de regresie yi = + xi + i . Dac se cunosc i2 , modelul poate fi rescris n urmtoarea form: yi x x 1 = + i + i sau yi* = * + * i + i* n care V ( i* ) = 1 .
58
n acest caz, asupra parametrilor i2 se emit diferite ipoteze funcionale, cum ar fi, de exemplu, i2 = 2 xi2 sau i2 = 2 xi etc. Astfel de relaii pot fi detectate cu ajutorul testului Glejser. Dac se folosete ipoteza i2 = 2 xi2 , atunci modelul corectat are forma: yi 1 = + + i sau yi* = * + * + i* n care V ( i* ) = 2 . xi xi xi xi
i i 1
Funcia de autocorelaie : Coeficientul de autocorelare se poate determina i ntre dou valori ntre care exist un decalaj cu ordin mai mare dect unu. Pentru astfel de situaii, se definete funcia de autocorelaie, potrivit relaiei: cov( i , i k ) cov( i , i k ) f (k ) = = 2
i i k
Efectele nclcrii ipotezei: Prin nclcarea ipotezei de necorelare a erorilor, se poate demonstra c pentru parametrul , prin aplicarea metodei celor mai mici ptrate, se obine un estimator
59
nedeplasat, dar neeficient. ntr-adevr, vom arta c pentru parametrul se obine un alt estimator, * , care are varian minim. Considerm modelul liniar de regresie: yi = + xi + i pentru care are loc relaia i = i 1 + ui , i fie modelul pentru un decalaj de ordinul unu: yi 1 = + xi 1 + i 1 . Dac acest ultim model se nmulete cu i se scade din modelul iniial, rezult modelul: yi yi 1 = (1 ) + ( xi xi 1 ) + ui Scris altfel, modelul de mai sus este de forma: yi* = * + * xi* + i* , numit i model de quasi-diferen, unde * = . Acest model respect ipotezele modelului clasic de regresie, iar prin aplicarea metodei celor mai mici ptrate ne ofer un alt estimator pentru parametrul , estimator care este nedeplasat i eficient.
Testarea autocorelrii erorilor n literatura de specialitate se ntlnesc mai multe teste pentru aceast ipotez, iar dintre acestea vom prezenta dou: Runs test i Durbin Watson test. a. Runs test Acest test are la baz ideea c valorile variabilei reziduale se constituie n secvene sau seturi de valori pozitive sau negative numite runs, care se succed ntr-o anumit ordine sau aleator. De exemplu, o variabil eroare cu 10 valori poate fi dat de urmtoarea succesiune de 3 runs: ( - - - ) ( + + + ) (- - - ). Ipoteza de baz a acestui test este aceea c n cazul lipsei autocorelrii erorilor succesiunea de runs este aleatoare sau numrul acestora este distribuit normal. Notaii Pentru un eantion de volum n, se fac urmtoarele notaii: - i este variabila eroare estimat la nivelul eantionului; - n1 este numrul de valori pozitive ale variabilei i ; - n2 este numrul de valori negative ale variabilei i , n1 + n1 = n; - k este numrul de runs, variabil aleatoare care are urmtorii parametri: nn M (k ) = 2 1 2 + 1 , n1 + n2 n1n2 n1 n2 V (k ) = 2n1n2 . (n1 + n2 ) 2 (n1 + n2 1) Etapele testrii
1. Formularea ipotezelor H0 : k este distribuit normal (nu exist autocorelare a erorilor); H1 : k nu este distribuit normal (ipoteza este nclcat). k M (k ) 2. Se utilizeaz o statistica Student: t = . k 3. Pentru un prag de semnificaie de 5%, se ia decizia de a accepta ipoteza nul dac are loc condiia: M (k ) 1,96 k k M (k ) + 1,96 k .
60
( )
i i 1 i
i i 1 1 i = 2(1 ) d= 2 =2 i2 i i2 n concluzie, statistica DW se poate aproxima prin relaia: d = 2(1 ) . Deoarece 1 1 , atunci valorile statisticii DW sunt date de intervalul: 0 d 4 . Astfel, dac = 1 d = 4 , deci exist autocorelare pozitiv maxim a erorilor; = 1 d = 0 , deci autocorelare negativ maxim a erorilor; = 0 d = 2 , deci nu exist autocorelare. 3. Decizia se ia pe baza valorilor critice ale statisticii DW, calculate i tabelate n funcie de pragul de semnificaie i de volumul eantionului. n tabele se determin dou valori critice, notate cu dL (limita inferioar) i dU (limita superioar) pentru diverse valori ale pragului de semnificaie i ale volumului eantionului. n funcie de aceste valori critice se determin urmtoarele intervale, care permit luarea deciziei de respingere sau acceptare a ipotezei nule:
2 2
i i i i 1 i i i i i 2
2 i i 1 + i21
i2
----o------o-------------------------------------- 0 dL dU 2 4- dU 4- dL 4 Decizia se ia n funcie de urmtoarele regiuni: (0; dL) este o regiune de respingere, erorile nregistreaz o autocorelare pozitiv; (dL ; dU) i (4-dU; 4-dL) sunt regiune de nedeterminare, dac valoarea statisticii DW cade n aceast regiune, nu se poate decide asupra existenei autocorelrii erorilor; (dU ; 4- dU) este o regiune de acceptare a ipotezei nule, erorile nu sunt autocorelate; (4-dL; 4) este o regiune de respingere, erorile nregistreaz o autocorelare negativ. Observaie: Testul Durbin Watson nu realizeaz dect un test asupra existenei unei autocorelri de ordinul nti ntre termenii variabilei eroare.
Corectarea autocorelrii erorilor Considerm modelul liniar de regresie yi = + xi + i . Exist dou situaii posibile pentru corectarea autocorelrii erorilor: cnd se cunoate coeficientul de autocorelaie dintre erori i cnd acesta nu se cunoate. a. este cunoscut n acest caz, estimarea parametrilor modelului se realizeaz cu ajutorul modelului de regresie modificat, adic a modelului de quasi-diferen yi* = * + * xi* + ui , unde
Yi * = Yi Yi 1 , * = (1 ) , X i* = X i X i 1 , * = , ui = i i 1 .
61
Pentru modelul (*) exist doi estimatori nedeplasai, convergeni i eficieni, * , * , care se determin cu ajutorul metodei celor mai mici ptrate. n aceste condiii, estimatorii pentru parametrii modelului iniial sunt: * = , = * . 1 b. este necunoscut n acest caz, exist mai multe metode de estimare a parametrilor modelului iniial care au la baz estimarea coeficientului de autocorelaie dintre erori. O metod larg utilizat este procedeul iterativ Cochrane-Orcutt. Etapele procedeului Cochrane-Orcutt: 1. Realizarea regresiei yi = + xi + i , fr a ine cont de ipoteza de necorelare a erorilor i estimarea erorilor i . 2. Realizarea regresiei i = i + vi i obinerea unei valori estimate pentru parametrul ,
3. Realizarea unei regresii pe baza modelului de quasi-diferen yi* = * + * xi* + ui , unde ei* = i i 1 . 4. Se reia pasul 1 cu rezultatele de la pasul 3, dac valoarea estimat pentru parametrul nu este satisfctoare. Astfel, dac la pasul 3, n prima iteraia s-a obinut un model care nu este satisfctor, se consider erorile estimate pentru acest model (fie aceste erori i** = yi * * xi* i se trece la pasul 2. La acest nivel, se estimeaz un coeficient de autocorelaie , pe baza erorii estimate din prima iteraie ( i** = i 1** + wi ), care va fi utilizat n pasul 3 pentru modelul de quasi-diferen. Procedeul se oprete atunci cnd ntre dou valori estimate a coeficientului de autocorelaie din dou iteraii succesive verific relaia: ( k ) ( k 1) = 0, 0025 .
62
Cauze: Coliniaritatea poate apare din diferite surse: natura fenomenului i variabilele alese pentru a realiza modelarea (de exemplu, ntr-un model asupra consumului de bunuri de strict necesitate, variabile independente ca venitul i mrimea familiei pot fi corelate liniar), tipul de model de regresie utilizat etc. Fenomenul care apare la nivelul eantionului de date disponibile, nu la nivelul populaiei totale. Efectele nclcrii ipotezei: Efectul coliniaritii se evideniaz n varianta estimatorilor parametrilor modelului de regresie. n cazul unei coliniariti perfecte, parametrii asociai variabilelor independente ntre care exist o legtur de tip liniar perfect nu pot fi determinai, iar variana acestora este practic infinit. n cazul unei coliniariti imperfecte, coeficienii de regresie ai variabilelor independente coliniare se estimeaz cu o eroare foarte mare. Testarea coliniaritii n practic, identificarea coliniaritii variabilelor independente se poate realiza prin diferite metode: a. Testarea coeficienilor de regresie n cazul unui model cu un coeficient de determinaie ridicat (de obicei peste 0.8). Dac coeficienii de regresie sunt nesemnificativ diferii de zero, atunci ipoteza de necoliniaritate este nclcat. b. Testarea coeficienilor de corelaie bivariai pentru variabilele independente din modelul de regresie. Dac aceti coeficieni au valori ridicate (de regul, peste 0.8), atunci exist posibilitatea coliniaritii ntre variabilele independente. c. Estimarea i testarea parametrilor modelelor de regresie auxiliar dintre variabilele independente. Ipoteza de necoliniaritate este nclcat dac aceti coeficieni de regresie sunt semnificativ diferii de zero. n softurile de statistic, cum este i cazul SPSS-ului, se utilizeaz o metod de detectare a coliniaritii pe baza a doi indicatori: Tolerance i VIF (Variance Inflation Factor). Ideea de baz a acestei metode se bazeaz pe cteva proprieti din cazul unui model liniar multiplu. Considerm modelul: yi = + 1 x1i + 2 x2i + i , atunci au loc relaiile:
V ( 1 ) =
(X
i
2
1i 2 X 1 ) 2 (1 r12 )
V (2 ) =
(X
i
2
2i 2 X 2 ) 2 (1 r12 )
n care
2 r12
( X X )( X X ) = (X X ) (X X )
2 1i 1 2i 2 i 2 1i 1 2i 2 i i
adic coeficientul de determinaie din modelul de regresie auxiliar bazat pe cele dou variabile independente. Cu alte cuvinte, dac generalizm, putem scrie:
V ( j ) =
(X
i
2
ji
X j ) 2 (1 rj2 )
unde
2 j
variabilelor independente, n care variabila j este considerat variabila dependent, iar celelalte variabile factoriale sunt considerate variabile independente.
63
1 i indic modul n care variana 1 rj2 estimatorului unui coeficient de regresie este influenat de prezena coliniaritii la nivelul variabilelor independente. Evident, lipsa coliniaritii d o valoare VIF = 1, iar existena coliniaritii determin o valoare mare a indicatorului, condiia limit fiind n cazul unei coliniariti perfecte ( rj2 = 1 VIF ). n practic, se consider c o valoare VIF > 10 indic
prezena coliniaritii. Indicatorul Tolerance se determin ca inversul valorii indicatorului VIF. Astfel, 1 TOL j = = 1 rj2 VIFj Dac TOL = 1, nu exist coliniaritate, iar dac TOL = 0 suntem n situaia extrem de coliniaritate perfect.
Corectarea coliniaritii Corectarea se poate realiza n funcie de mai multe condiii: de dimensiunile coliniaritii, de informaiile suplimentare cunoscute a priori, de numrul de variabile independente i de importana lor etc. n acord cu aceste condiii, se pot aplica mai multe metode de corecie: - Eliminarea variabilei care induce fenomenul de coliniaritate. Aceast metod necesit ns destul precauie, pentru a nu comite o eroare de specificare a modelului. - Combinarea datelor din anchete cu date din serii de timp (pooling the data). Prin aceast metod se poate reduce influena unei variabile independente asupra celorlalte, estimnd coeficientul de regresie al variabilei respective pe baza unui alt set de date disponibile. - Transformarea variabilelor modelului prin diferite procedee, cum ar fi aplicarea operatorilor lag (decalaj) sau diferen. - Mrirea numrului eantionului sau includerea de noi date n analiz. Deoarece coliniaritatea este dat n special de construcia eantionului, includerea de noi date poate reduce sensibil fenomenul.
64
Figura 1. Variabilele din exemplu n urma analizei specifice modelelor liniare multiple prezentate la capitolul 3, se obine un model liniar multiplu cu 2 variabile independente, aa cum o arat figura 2.
Variables Entered/Removeda Variables Variables
Model 1
Removed
Method
Enter
a- All requested variables entered. b- Dependent Variable: valoarea serviciilor agricole(mil lei)
Figura 2. Variabilele din modelul supus testrii Aplicarea demersului de estimare a parametrilor modelului liniar multiplu cu variabilele prezentate mai sus, se obin rezultatele din figura 3. care ofer estimaiile parametrilor modelului.
Coefficientsa Unstandardized Coefficients Standardized Coefficients B Std. Error Beta -13515,9 6798,191 8,080 2,132 ,483
Model 1
(Constant) nr mediu al salariailor in agricultura (mii persoane) suprafaa cultivata (ha) ,163 a. Dependent Variable: valoarea serviciilor agricole(mii lei)
,047
,447
Figura 3. Estimaiile coeficienilor de regresie Modelul estimat este: Y = 13515,9 + 8, 080 nrm _ sal + 0,163 sup rf _ c Acest model va fi utilizat n continuare pentru testarea ipotezelor.
65
Observaie: Ipotezele cu privire la variabila rezidual se vor verifica cu ajutorul estimaiilor calculate n urma estimrii parametrilor modelului de regresie. n SPSS, exist posibilitatea salvrii acestei variabile, aa cum arat figura 4.
N (0, 2 )
Ipoteza de normalitate implic o alt ipotez cu privire la media erorilor, i anume M ( i ) = 0 . Aceasta ipoteza semnifica faptul ca influena tuturor factorilor neinclui n model nu trebuie s afecteze sistematic media variabilei dependente. 66
n SPSS, pentru testarea acestei ipoteze se urmeaz demersul: meniul Analyze comanda Compare Means opiunea One-Sample T Test. n caseta Test Variable(s) se introduce variabila rezidual nestandardizat estimat ("res_l") obinut n urma aplicrii demersului regresiei. Aceasta valoare se compar cu 0, deci n caseta Test Value se va introduce valoarea 0. Conform figurii 6, se obine o valoare a semnificaiei testului sig t= 1,00, deci sig t > 0,05, ceea ce nseamn c se va accepta ipoteza H0 , conform creia media erorilor este zero.
One-Sample Test Test Value = 0
95% Confidencn Interval of the Difference t Unstandardized Residual ,000 df 39 Stg..(2-tailed) 1.000 Mean Difference ,0000000 Lower -6289,95 Upper 6289,953
Testul corelaiei neparametrice dintre variabila i i X i : n testare se alege, de regul, acea variabil independent care este posibil s determine heteroscedasticitatea modelului. Etapele testrii: se estimeaz erorile i ;
se calculeaz rangurile pentru variabilele i i X i ;
= 1
6 di2
i =1
; d i = R i RX i ;
n 2 t (n 2) ; 1 2 se stabilesc ipotezele: H0 : = 0 (model homoscedastic) H1 : 0 (model heteroscedastic) se calculeaz t0 i se compar cu t ; regula de decizie: - dac sig t < se respinge H0, adic modelul este heteroscedastic; - dac sig t > se accepta H0, adic modelul este homoscedastic. n SPSS, construim mai nti variabila i . Ca demers: folosim din bara de meniu Transform comanda Compute (funcia ABS) i noua variabila llres_2", care va fie egal cu |res_1|. Apoi urmm demersul Analyze comanda Correlate opiunea Bivariate. n caseta Variables se selecteaz "suprf_c"(variabila independenta) i noua variabil res_2". Se obine urmtorul output:
t=
67
Correlations
Spearman's rho
Figura 7. Rezultatele testului H0 : = 0 Deoarece Sig t = 0,101 > 0, 05 se accepta ipoteza H0 cu o probabilitate de 95%, adic modelul este homoscedastic.
Testul Goldfeld Quandt. Etapele testului: se ordoneaz seria dup variabila independent X; se mparte seria de date n dou pri dup ce au fost excluse un numr de nregistrri din centrul seriei; se realizeaz cte o regresie pentru fiecare din cele dou subeantioane obinute i se calculeaz valoarea estimat a variaie reziduale (RSS) pentru fiecare regresie: RSS1 i RSS2; se stabilesc ipotezele H0 : = 0 (model homoscedastic) H1 : 0 (model heteroscedastic) RSS1 (dac F este semnificativ exist diferene pentru testare se utilizeaz testul Fischer: F = RSS2 semnificative la nivelul celor dou seturi de date, deci modelul este heteroscedastic, iar dac F este nesemnificativ modelul este homoscedastic); regula de decizie: - dac sig F > se accepta H0 , adic modelul este homoscedastic; - dac sig F < , se respinge H0 , adic modelul este heteroscedastic i va trebui corectat n SPSS, ordonm seria dup variabila independent "suprf_c" (suprafaa cultivat) i se vor construi dou subeantioane de volume egale (20 de nregistrri): unul corespunztor valorilor mici ale variabilei independente i altul corespunztor valorilor mari. Cele doua subeantioane se construiesc parcurgnd urmtorul demers: - Meniul Transform comanda Recode opiunea Recode Into Different Variables. Selectnd variabila de interes "suprf_c", aceasta va primi o nou denumire, "suprc2"i o eticheta nou: mrimea suprafeei cultivate definit ca variabila dummy. Valorile mai mici dect 177 000 vor primi codul 0, iar celelalte vor primi codul 1. - Se utilizeaz comanda Split File din meniul Data, pentru a delimita cele dou seturi distincte de date. Toate comenzile ulterioare se vor realiza pentru cele dou seturi distincte de date. - Se realizeaz regresia ntre variabilele considerate i se obin rezultatele din figura 8.
SUPRC2 ,00 Model 1 Sum of Squares 860121056,041 1264204006,5 2124325062,6 12814543052 19361576104 32176119157 ANOVAb df 1 18 19 1 18 19 Mean Square 860121056,041 70233555,917 12814543052 1075643116,897 F 12,247 11,913 Sig. ,003a ,003a
Regression Residual Total 1,00 1 Regression Residual Total a. Predictors: (Constant), suprafaa cultivata (ha) b Dependent Variable: valoarea serviciilor agricole (mii lei)
68
Se calculeaz valoarea testului Fisher. Deoarece valorile estimate sunt RSS2 . RSS1 =1264204006,5 i RSS2 = 19361576104, valoarea testului se calculeaz F = RSS1 Se obine F = 1,53, valoare pe care o comparm cu valoarea teoretic F ,n1 k ;n1 k = F0,05;18;18 2,191 . Observm c valoarea calculat este mai mic dect valoarea teoretic, deci acceptm ipoteza H0, adic modelul este homoscedastic.
c. Ipoteza de necorelare a erorilor Testarea acestei ipoteze se realizeaz cu ajutorul testelor: Runs Test i Durbin Watson test(DW). Runs Test se bazeaz pe ideea c valorile variabilelor reziduale pot fi analizate ca un ir de secvene de valori pozitive i negative. n ipoteza de necorelare a erorilor, acest ir este aleator sau numrul de secvene (run-uri) este aleator i normal distribuit. n SPSS, se urmeaz demersul: Analyze comanda Nonparametric Tests opiunea Runs Test, Testul se face asupra variabilei "res_1" Observaie: n SPSS, secvenele se obin prin compararea valorilor variabilei reziduale cu o valoare central (mediana, modul, media aritmetic) sau o alt valoare (figura 9).
Figura 9. Runs-test Dup ce n zona Cut Point se bifeaz opiunea Median, se obine output-ul urmtor:
Runs Test
Unstandardiz ed Residual Test Value Cases < Test Value Cases >= Test Value Total Cases Number of Runs 2 Asymp. Sig. (2-tailed) a. Median
a
69
Valoarea sig = 0,873 > 0,05, deci se accept ipoteza H0 , adic nu exist fenomenul de autocorelare a erorilor. Observm, de asemenea, c valoarea testului z = 0,16 (1,96;1,96) se afl n regiunea de acceptare
(z
(z
; z 2 ) ,
de
unde
rezult
aceeai
concluzie
Durbin Watson Test (DW) admite o ipotez asupra coeficientului de corelaie a erorilor ( ). Ipotezele testului sunt: H0 : = 0 H1 : 0 Demersul testrii: - Se calculeaz statistica DW = d = 2(1 ) . - Regula de decizie: dac d [d L , dU ] [4 d L , 4 dU ] , nu se poate lua nici o decizie; dac d [dU , 4 dU ] , se accept H0, nu exist autocorelare;
dac d [0, d L ] , se respinge H0, exist autocorelare pozitiv; dac d [4 d L , d L ] , se respinge H0, exist autocorelare negativ. Unde: dL i dU se citesc din tabele Durbin Watson. n SPSS, se obine valoarea testului DW = d = 1,526. Din tabela Durbin Watson, pentru k = 2 (numrul de variabile independente), n = 40 (volumul eantionului) i un nivel de ncredere de 95%, se obin valorile: dL = 1,39; dU = 1,60. n concluzie, d [d L , dU ] , adic nu se poate lua o decizie cu privire fa aceast ipotez.
d. Ipoteza lipsei de coliniaritate a variabilelor independente n SPSS, testarea acestei ipoteze se realizeaz cu ajutorul opiunii de Collinearity diagnostics din meniul Analyze comanda Liean Regression opiunea Statistics.
Figura 11. Opiunea Collinearity diagnostics Rezultatul diagnosticului cu privire la ipoteza de necoliniaritate are la baz analiza a doi indicatori: TOL si VIF. Dac VIF are valori mai mari dect 10, exist probleme de coliniaritate cu acea variabil. n cazul n care TOL = 0 exist o coliniaritate perfect; cu ct valorile TOL sunt mai aproape de 1, rezult ca acea variabil nu induce fenomenul de coliniaritate. Rezultatele diagnosticului sunt prezente n figura 12.
70
Coefficientsa Model 1 suprafaa cultivata(ha) ,163 ,047 ,447 3,502 ,001 ,376 2,659
(Constant) Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity Statistics B Std Error Beta -13515,86 6798.191 -1,938 ,054
nr mediu al salariailor n agricultur (mii persoane) 8,080 2,132 ,483 3,790 ,001 ,376 2,659
Figura 12. Rezultatele pentru Collinearity diagnostics Valorile indicatorilor VIF i TOL arat c nu sunt probleme n ceea ce privete coliniaritatea variabilelor independente.
Rezumat
Noiuni importante: normalitatea erorilor, homoscedasticitatea, corelarea modelului heteroscedastic, autocorelarea erorilor, lipsa de coliniaritate a erorilor, grade de coliniaritate, corectarea coliniaritii. Formule importante: Testul Jarque-Bera, tastarea homoscedasticitii, coeficientul de autocorelaie, funcia de autocorelaie, testarea autocorelrii erorilor, corectarea autocorelrii erorilor, testarea coliniaritii.
71
X i se atribuie o valoare, i anume: 1 pentru da i 0 pentru nu. Sub aceast form cuantificabil, variabilele dummy pot fi folosite n analiza de regresie. Sub form cuantificabil, variabila nominal dichotomic ia aspectul unei variabile numerice, tratamentul ei statistic devenind facil.
72
i se mut n zona Variabil independent, iar variabila venit_1 n zona Variabil dependent. Prin click asupra butonului OK se comand output-ul, prezentat figura 2.
Fig. 1. Fereastra de dialog Linear Regression n SPSS, pentru o variabila factorial dummy
Model 1
ANOVAb Suin of Squares df 98,451 1 2454,759 398
F 15,962
Sig. ,000a
2553,240
399
t 14,921 3,995
2,443 1,004
,164 ,251
Fig. 2. Output-urile analizei de regresie liniar n SPSS, pentru o variabil factorial dummy Probabilitatea Sig., asociat valorii testului Fisher din tabelul ANOVA, este mai mic dect 0,05 (Sig. - 0,000). Ca urmare, variabila independent sexul explic variaia variabilei dependente venit_1. Din tabelul Coefficients observm c ecuaia de regresie estimat are forma: Y = 2,443 + 1,004 D, unde: Y = venit_1; D = sexul Valorile Sig. asociate testului t pentru cei doi coeficieni de regresie, sunt mai mici ca 0,05, prin urmare, coeficienii ecuaiei de regresie au valori semnificative la nivelul populaiei de 73
pelerini. Valorile semnificative ale celor doi coeficieni de regresie arat c venitul lunar mediu este de 2,443 milioane, cnd variabila sexul ia valoarea feminin, respectiv de 3,447 milioane lei, cnd variabila independent ia valoarea masculin, venitul mediu lunar este, deci cu 1,004 milioane lei mai mare dect n cazul n care variabila ia valoarea feminin.
74
Pentru estimarea ecuaiei de regresie am folosit programul SPSS, parcurgnd paii prezentai n figura 2 i anume: meniul principal Analyse comanda Regression opiunea Linnear. Din fereastra de dialog Linear Regression se alege, din lista variabilelor, variabila sexul i variabila vrsta ca variabile independente, iar variabila venit_1 ca variabil dependent. Prin click asupra butonului OK se comand output-ul, prezentat figura 4.
F 9,173
Sig. ,000a
2553,240
399
a. Predictors: (Constant), vrsta persoanei, sexul persoanei b. Dependent Variable: Venitul persoanei
Coefficientsa Unstandardized Coefficients B Std. Error
Model 1 (Constant) sexul persoanei vrsta persoanei a. Dependent Variable: Venitul persoanei
Sig.
Fig. 4. Output-urile analizei de regresie liniar n SPSS, pentru o mixtur cu o variabil dummy i o variabil numeric Probabilitatea Sig. = 0,000, din tabelul ANOVA, arat c variabilele independente sexul i vrsta explic variaia variabilei dependente ,,venit_1. Din tabelul Coefficients observm c ecuaia de regresie estimat are forma: Y = 1,969 + 1,018 D + 0,01239 X, unde: Y = venit_1; D = sexul; X = vrsta. Valorile Sig., asociate testului t, arat c valorile coeficienilor a i b1 sunt semnificative, pe cnd coeficientul b2 nu are o valoare semnificativ la nivelul populaiei pelerinilor. 75
Valorile coeficienilor de regresie arat c venitul lunar mediu, atunci cnd variabila ,,sexul ia valoarea feminin, este cu 1,018 milioane lei mai mic dect atunci cnd variabila ia valoarea masculin. Totodat, la o cretere cu un an a vrstei unui pelerin, venitului lunar crete, n medie, cu 0,01239 milioane. Valoarea mic a coeficientului de regresie b2 ne arat c, pentru cazul considerat, vrsta nu este explicativ pentru creterea venitului.
b. Model ANCOVA cu dou variabile dummy i cu o variabilii numeric Modelul de regresie cu variabile dummy poate fi extins cu uurin ia mai multe variabile calitative. Un model care exprim legtura de regresie dintre o variabil cantitativ i o mixtur cu o variabil cantitativ i dou variabile dummy poate fi scris sub forma: Y = a + b1 D1 + b2 D2 + c X + ei unde: - Y = variabila rezultativ, numeric; - D = variabila factorial, dummy, ale crei variante sunt da i nu (posed sau nu posed nsuirea), respectiv ,,1 i 0; - a = parametru, ordonata la origine a dreptei de regresie, care arat valoarea variabilei Y cnd D = 0; - b = parametru, care, mpreun cu parametrul a, (a+b), reprezint ordonata la origine a dreptei de regresie, care arat valoarea variabilei Y cnd D = 1; - c = panta dreptei de regresie, numit coeficient de regresie; - X = variabila explicativ (factorial), numeric; - e = reziduu sau variabila eroare aleatoare neobservabil, de medie egal cu zero. Arat influena factorilor aleatori asupra variaiei variabilei Y. Presupunnd c M ( e ) = 0, pe baza relaiei modelului, se pot obine urmtoarele valori pentru media variabilei rezultative: M (Y D1 = 0, D2 = 0, X ) = a + c X M (Y D1 = 1, D2 = 0, X ) = (a + b1 ) + c X M (Y D1 = 0, D2 = 1, X ) = (a + b2 ) + c X M (Y D1 = 1, D2 = 1, X ) = (a + b1 + b2 ) + c X Se observ din aceste relaii c ecuaiile de regresie anterioare difer numai prin valoarea parametrilor (a coeficienilor variabilelor dummy), n timp ce panta dreptei de regresie (c) este aceeai. O estimare cu ajutorul metodei celor mai mici ptrate a modelului ANCOVA va conduce la testarea mai multor ipoteze. Astfel, dac b2 este semnificativ din punct de vedere statistic, se poate desprinde concluzia c variabila D1 influeneaz n mare msur variabila rezultativ Y. n mod analog, dac b1 este statistic semnificativ, atunci variabila D2 exercit o influen deosebit asupra variabilei rezultative. n cazul n care ambii parametri, b1 i b2, sunt statistic semnificativi, se poate concluziona c cele dou variabile dummy se constituie n factori determinani ai variabilei rezultative. Din cele prezentate anterior, se poate observa faptul c un model poate fi extins prin includerea mai multor variabile cantitative (mai mult dect o singur variabil cantitativ) i a mai mult de dou variabile calitative, cu precizarea c numrul variabilelor dummy trebuie s fie mai mic cu unul dect numrul categoriilor variabilei respective.
76
Exemplu. Din baza de date Tapestry considerm, n plus fa de cazul precedent, variabila "ara" (ara de provenien a persoanelor sosite n pelerinaj la Suceava n perioada srbtorilor oraului Suceava i ale Sfntului Ioan cel Nou de la Suceava), variabil independent, dummy, cu variantele: 1 - Romnia, 0 - Alte ri. Output-ul rezultat n urma prelucrrii este prezentat n figura 5.
Model 1
ANOVAb Suin of Squares df 189,206 3 2364,034 396
F 10,565
Sig. ,000a
2553,240
399
a. Predictors: (Constant), vrsta persoanei, sexul persoanei , ara b. Dependent Variable: Venitul persoanei
Model 1 (Constant) sexul persoanei ara vrsta persoanei a. Dependent Variable: Venitul persoanei
Figura 5. Output-ul analizei de regresie liniar n SPSS, pentru o mixtur cu dou variabile dummy i o variabil numeric Probabilitatea Sig. = 0,000, din tabelui ANOVA, arat c variabilele independente sexul, ara i vrsta explic variaia variabilei dependente venit_1. Din tabelul Coefficients observm c ecuaia de regresie estimat are forma: Y = 4,246 + 1,010 D1 - 2,482 D2 + 0,01577 X , unde: Y = venit_1; D1 = sexul; D2 = ara; X = vrsta. Valorile Sig., asociate testului t, arat c valorile coeficienilor de regresie a, b1 i b2 sunt semnificative, pe cnd coeficientul b3 nu are o valoare semnificativ la nivelul populaiei pelerinilor, ceea ce nseamn c doar variabilele sexul i ara influeneaz semnificativ variabila venit_1. Din valorile coeficienilor de regresie se poate observa c venitul lunar mediu este cu 1,010 milioane lei mai mare atunci cnd variabila sexul ia valoarea masculin dect atunci cnd variabila ia valoarea feminin i este cu 2,482 mai mare atunci cnd variabila ara ia valoarea Alte ri dect atunci cnd valoarea variabilei este Romnia. Totodat, la o cretere cu un an a vrstei unui pelerin, venitului lunar va crete, n medie, cu 0,01577 milioane. Valorile medii ale variabilei rezultative Y, venit_1, corespunztoare sunt: - venitul mediu lunar al pelerinilor de sex feminin din Romnia este de 4,246 milioane lei; - venitul mediu lunar al pelerinilor de sex masculin din Romnia este de 5,256 milioane lei; - venitul mediu lunar al pelerinilor de sex feminin din alte ri dect Romnia este de 6,728 milioane lei; - venitul mediu al pelerinilor de sex masculin din alte ri dect Romnia este de 7,738 milioane lei.
77
Rezumat
Noiuni importante: variabile Dummy, modele ANOVA, modele ANCOVA, modele ANCOVA cu o variabil dummy i o variabil numeric, modele ANCOVA cu dou variabile dummy i o variabil numeric,
78
Figura 2. Fazele unui ciclu n activitatea economic s-au conturat cicluri cu durat diferit, de exemplu, de aproximativ 50 ani pentru ciclul tip Kondratieff, de aproximativ 9 ani pentru ciclul tip Juglar, de aproximativ 7 ani pentru ciclul biblic (7 vaci grase, 7 vaci slabe). Analiza componentei ciclice (atunci cnd aceasta exist, deoarece adesea se suprapune pe trend) presupune studierea comportamentului variabilei observate pe o perioad lung de timp n raport cu trendul, decupndu-se periodicitatea ciclic i fazele unui ciclu.
Componenta sezonier Componenta sezonier se noteaz St i este definit de variaiile pe termen scurt, prin creteri i descreteri de nivel succesive care se repet de la o perioad la alta, fie n jurul componentei ciclice (cnd aceasta exist), fie n jurul componentei trend. Variaiile sezoniere sunt repetabile, de regul, de la o lun la alta, sau de la un trimestru la altul. La nivelul unui an influena sezonier este neutr. Teoretic, variaiile sezoniere, St , se repeta riguros identic de la o perioad "p" la alta, adic: St = St + p = St + 2 p = ... = etc.
Dac, de exemplu, perioadele ar fi lunile sau trimestrele anului, atunci variaiile sezoniere corespunztoare se repet identic lunar sau trimestrial n fiecare an, respectiv, au loc egalitile: St = St +12 , adic S1 = S13 = S25 = ... = etc. , sau St = St + 4 , adic S1 = S5 = S9 = ... = etc. Influena variaiilor sezoniere St (lunare sau trimestriale) este neutr la nivelul anului; creterile i descreterile de nivel (lunare sau trimestriale) se compenseaz ntre ele la nivelul fiecrui an. Ca urmare, au loc urmtoarele relaii: - n cazul unui model aditiv, (considernd t = 0 ) media variaiilor sezoniere este nul la nivelul anului: 1 p St p t =1 t =1 - n cazul unui model multiplicativ, (considernd t = 0 ) media variaiilor sezoniere
St = 0 , respectiv S = 0, S =
79
1 p S = 1, S = St p t =1 - n cazul modelului multiplicativ, variaiile sezoniere cresc sau descresc cu aceeai rat (proporie), s, astfel c: S = 1+ s unde 1 + s este multiplicatorul, iar S rata medie de cretere, egal eu zero: S = 0, Adic, analog modelului aditiv, rata de cretere a variaiilor sezoniere se anuleaz, n medie, n fiecare an, repetndu-se identic de la an la an. Variaiile sezoniere sunt datorate unor cauze diferite care definesc ritmul activitilor sezoniere (periodicitatea lucrrilor agricole, a concediilor, a srbtorilor tradiionale). Depistarea componentei sezoniere se face prin metode grafice, armonice.
Componenta aleatoare (rezidual) Componenta aleatoare se noteaz t i are drept caracteristic de baz caracterul non-
= 0.
Variaia aleatoare se poate manifesta ca un proces pur aleator, un proces aleator n care parametrii variaz n timp, i ca un proces staionar. n cazul procesului pur aleator seria cronologic este o secven de variabile independente mutual i cu aceeai distribuie de probabilitate. Sperana matematic i variana variabilei aleatoare t , sunt independente de timp: M ( t ) = , V ( t ) = 2 , oricare ar fi perioada t, iar covariana a dou perturbaii aleatoare decalate de un numr j de perioade este nul: cov( t , t + j ) = 0 , oricare ar fi j. Un proces pur aleator mai este numit zgomot alb, denumire ce implic necesar normalitatea perturbaiilor aleatoare (sub aceast ipotez s-au determinat estimatorii coreci ai parametrilor necunoscui ai unei populaii, precum i estimatorii parametrilor de regresie). n cazul proceselor aleatoare n care parametrii variaz n timp se includ procese aleatoare ale cror realizri sunt independente de la o perioad la alta, dar ai cror parametri evolueaz n cursul timpului. Fiecare dat a seriei este o realizare a unei variabile aleatoare diferit de precedentele. Respect aceleai proprieti specifice proceselor aleatoare: M ( t ) = , V ( t ) = 2 , cov( t , t + j ) = 0 n cazul proceselor staionare caracteristic este dependena variabilei t de t 1 , t 2 , ..., t k , dependen exprimat prin proprietatea: covariana ntre t i t j rmne constant i nu depinde dect de decalajul j i nu de t. Ca urmare, proprietile specifice proceselor staionare, n raport cu procesele pur aleatoare, sunt: M ( t ) = , V ( t ) = 2 , pentru oricare t, cov( t , t j ) 0 , rmne constant i nu depinde dect de j i nu de t.
Combinarea componentelor unei serii cronologice Componentele unei serii cronologice, ft trendul, Ct componenta ciclic, St componenta sezonier, t componenta aleatoare, se pot combina fie aditiv, fie multiplicativ. Din combinrile posibile, n practica economic se aplic frecvent urmtoarele modele: - modelul aditiv: yt = ft + Ct + St + t ,
80
- modelul multiplicativ: yt = f t Ct St t ,
- modelul mixt: yt = St + ( f t Ct t ) sau y = Ct + ( ft St t ) . n majoritatea cazurilor modelul multiplicativ se transform logaritmic yt = ft St t este echivalent cu log yt = log ft + log St + log t . Transformarea se recomand pentru a stabiliza variana sa i pentru a facilita calculele. ntr-un model aditiv, fenomenul y studiat n funcie de timp se descompune n componente independente unele de altele, pe cnd ntr-un model multiplicativ yt se descompune n componente dependente unele de altele. Analiza unei serii cronologice const n determinarea valorilor luate de fiecare din cele pentru componente. Tratarea componentelor impune s se nceap cu evaluarea trendului ( ft ), apoi s se estimeze variaiile sezoniere i n fine componenta ciclic (atunci cnd aceasta exist). Ceea ce nu se atribuie celor trei componente se consider explicat prin componenta aleatoare ( t ). n urmtoarele paragrafe vom insista asupra evalurii acestor componente, n special asupra trendului.
Aflarea parametrilor presupune urmtoarele operaii: 1. se afl derivatele pariale ale expresiei de mai sus n raport cu parametrii funciei yt = f (t ) ; 2. se anuleaz derivatele pariale; 3. se rezolva sistemul de ecuaii normale obinut. Pentru un trend liniar, principiul celor mai mici ptrate cere s se satisfac condiia: S = ( yi a b ti ) 2 = minim. Se stabilesc i se anuleaz derivatele pariale ale expresiei S n raport cu a i b:
81
S a = 2 ( yi a b ti )(1) = 0 S = 2 ( y a b t )( x ) = 0 i i i b De aici rezult urmtorul sistem de dou ecuaii normale: n a + b ti = yi 2 a ti + b ti = ti yi n funcia de trend, variabila timp reprezint de regul o serie de numere consecutive, originea lundu-se n centrul seriei i deci ti = 0 . Ca urmare, ecuaiile normale pot fi simplificate, lund urmtoarea form: n a = yi 2 b ti = ti yi de unde rezult relaiile de calcul pentru parametrii ecuaiei de trend: yi i b = ti yi a= n ti2 Valorile variabilei timp se msoar n uniti ntregi (intervale), dac numrul termenilor seriei este impar i anume: ...,-2,-1, 0, 1,2,... sau n jumti de interval, dac numrul termenilor este par, astfel: ...,-5, -3, -l, 0, 1,3, 5, ... Aflarea parametrilor se efectueaz mai facil dac elementele de calcul sunt grupate ntr-un tabel (vezi tabelul 1).
Exemplu Considernd datele prezentate n tabelul 1 cu plivire la un fenomen Y, ntr-o perioad de 11 ani, se cere s se ajusteze seria prin metoda analitic.
Tabelul 1. Elemente de calcul pentru determinarea tendinei liniare Valorile seriei ajustate ti2 Anii yi ti yi t i yti = a + b ti = 56,9 + 9,44 ti 1 1 2 3 4 5 6 7 8 9 10 11 Total 2 22,9 25,2 28,8 36,0 49,8 53,1 60,8 69,6 77,4 92,3 110.0 625,9 3 -5 -4 -3 -2 -I 0 1 2 3 4 5 0 4 -114,5 -180,8 -86,4 -72,8 -49,8 0 68,8 139,2 232,2 369,2 550,8 927,9 5 25 16 9 4 1 0 1 4 9 16 25 110 6 14,7 23.14 31,58 40,82 48,46 56,9 65,34 73,78 82,22 90,66 99,10 625,9
82
Introducnd datele, calculate n tabelul 1, n sistemul de ecuaii se va obine: 11 a = 625,9 110 b = 927,9 de unde rezult valoarea parametrilor: a = 56,9 b = 8, 44 Ecuaia tendinei liniare va fi: yt =a + b t = 56,9 + 8,44 t , iar dreapta determinat pe baza acestei ecuaii este prezentat n coloana 6 a tabelului 1. Verificarea exactitii ajustrii const n compararea sumei valorilor empirice cu suma valorilor ajustate (teoretice) ale termenilor seriei, care trebuie s fie egale ( yi = yt ). n ipoteza
=0.
n seria considerat, abaterile n plus i n minus fa de tendina medie sunt relativ mici, ceea ce ne ndreptete s credem c dreapta calculat oglindete corect trendul n perioada cercetat.
Trendul parabolic Trendul parabolic este specific fenomenelor care prezint o tendin cresctoare sau descresctoare cu un punct de maxim, respectiv de minim. Ecuaia tendinei parabolice de gradul doi este: y = a + b t + c t2 + e Aplicnd metoda celor mai mici ptrate, n cazul ajustrii dup o parabol de gradul doi, se obine urmtorul sistem de ecuaii normale: n a + b ti + c ti2 = yi 2 3 a ti + b ti + c ti = ti yi 2 3 4 2 a ti + b ti + c ti = ti yi n condiia ti = 0 , se obin:
n a + c ti2 = yi 2 3 b ti + c ti = ti yi 2 3 4 2 a ti + b ti + c ti = ti yi
de unde avem:
83
Exemplu Considerm datele din exemplul de mai sus. S se ajusteze seria dup un trend parabolic. Rezolvare Elementele de calcul sunt prezentate n tabelul 2. nlocuind datele din tabelul 2 n sistemul de ecuaii, se obine soluia sistemului: 11 a + 110 c = 625,9 a = 51,861563 51,86 b = 8, 435454 8, 44 110 b = 927,9 110 a + 1958 c = 6691,3 c = 0,503846 0,504
Ecuaia estimat a tendinei parabolice pentru seria dat va fi: y = a + b t + c t 2 = 51,86 + 8, 44 t + 0,504 t 2 , iar valorile teoretice pentru perioada 1-11 sunt prezentate n coloana a 8-a din tabelul 2. Tabelul 2. Elemente de calcul Scria Anii empiric yi 1 1 2 3 4 5 6 7 8 9 10 11 Total 2 22,9 25,2 28,0 36,0 49,8 53,1 60,8 69,6 77,4 92,3 110,0 625,9 ti 3 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 t
2 i
4 i
yi t i 6 -114,5 -100,8 -86,4 -72,0 -49,8 0 60,8 139,2 232,2 369,2 550,0 927,9
t y
2 i i
4 25 16 9 4 1 0 1 4 9 16 25 110
7 572,5 403,2 259,2 144,0 49,8 0 60,8 278,4 696,6 1476,8 2750,0 6691,3
8 22,26 26,164 31,076 36,996 43,924 51,06 68,804 70,756 81,716 93,684 106,66 625,906
Trendul exponenial. Trendul exponenial este specific fenomenelor care se dezvolt asemntor unei progresii geometrice. Ecuaia de estimare a trendului exponenial este dat de relaia: yt = a bt Prin logaritmarea expresiei funciei de trend se obine: log yt = log a + t log b Aplicnd metoda celor mai mici ptrate n ajustarea dup o curb exponenial, a crei ecuaie a fost logaritmat i considernd condiia ti = 0 , se obin formulele de calcul ale
84
85
86
Valori empirice
y1 y2 y3 y4 y5 y6 y7 -
Tabel 3. Elemente de calcul (ajustarea prin medii mobile) Medii mobile calculate din Indici de sezonalitate Medii centrate numr impar (de numr par (de ex. yi yi 100 100 ex. trei) patru) yi yi yi (valori ajustate) yi y2 y + y2 + y3 100 y1 = 1 y1 3 y3 y3 y + y3 + y4 y + y2 + y3 + y4 y + y2 100 100 y1 = 1 y2 = 2 y1 = 1 y2 y1 3 4 2 y4 y4 y + y4 + y5 y + y3 + y4 + y5 y + y3 100 100 y3 = 3 y2 = 2 y2 = 2 y3 y2 3 4 2 y5 y5 y + y5 + y6 y + y4 + y5 + y6 y + y4 100 100 y4 = 4 y3 = 3 y3 = 3 y4 y3 3 4 2 y6 y + y 6 + y7 y + y5 + y6 + y7 100 y5 = 5 y4 = 4 y5 3 4 -
Coeficieni sezonieri Variaiile sezoniere ( St ) se repet, teoretic, identic de la o perioad la alta (lun de lun, trimestru de trimestru) i se compenseaz la nivelul anului, conform principiului de conservare a ariilor. Practic, variaiile sezoniere nu se repet absolut identic. Pentru a ajusta o scrie real, respectnd exigenele modelului teoretic, variaiile sezoniere St observate se nlocuiesc cu valori calculate numite coeficieni sezonieri, S j , j = 1, p
perioade ( j = 1,12 , pentru luni, respectiv j = 1, 4 , pentru trimestre). Coeficienii sezonieri S j sunt identici perioad de perioad pe n ani observai, adic exist j coeficieni sezonieri i nu j x n variaii sezoniere St pe n ani. (De exemplu: 16 St diferite pentru 4 ani, pe trimestru, sau 24 St diferite pentru 2 ani, lunar).
Calculul coeficienilor sezonieri. Coeficienii sezonieri se calculeaz ca o medie aritmetic a variaiilor sezoniere, lun de lun sau trimestru de trimestru, pe ansamblu a n ani: 1 n S j = Sij n i =1 unde Sij = St , j este luna sau trimestrul pentru care se calculeaz coeficientul sezonier, iar i
reprezint anii observai. Conform principiului compensrii variaiilor sezoniere la nivelul anului, suma, respectiv media coeficienilor sezonieri, pe an, trebuie s fie zero. n calcule apar rezultate uor diferite, ca
87
urmare a aproximrilor. Efectul lor poate fi compensat printr-un corector dt rezultnd un coeficient sezonier corectat, S j . - n cazul modelului aditiv, corectarea coeficienilor sezonieri presupune calculul diferenelor: S j = S j d t
1 4 1 12 1 p S j sau dt = S j , n general dt = S j . p j =1 4 j =1 12 j =1 Rolul coeficientului corector d este de a repartiza eroarea de aproximare pe ansamblul perioadelor, astfel devenind posibil respectarea principiului compensrii: 1 p j = 0 sau S = 0 , unde S = S j S p j =1 j (suma i media coeficienilor sezonieri sunt nule pe an, n cazul modelului aditiv). - n cazul modelului multiplicativ, corectarea coeficienilor sezonieri presupune calculul raportului: Sj S j = , dt
Exemplu. Dalele nregistrate trimestrial, pe durata a doi ani, cu privire la cifra de afaceri a unei firme sunt prezentate n tabelul 4. Admitem ipoteza continuitii trendului, a stabilitii sezoniere i a lipsei influenelor accidentale. Se cere: 1. s se determine tendina seriei 2. s se calculeze indicii de sezonalitate i coeficienii sezonieri 3. s se desezonalizeze seria; 4. s se extrapoleze seria pentru trimestrul I al anului urmtor celor observai.
Tabelul 4. (Date convenionale) Trim. 1 2 Anul 1 1 2 2 3 5 3 4 7 4 2 4 1. Determinarea tendinei Reprezentarea grafic a seriei din tabelul 4, vezi fig. 4, evideniaz clar o evoluie sezonier, cu valori maxime n trimestrul 3 i minime n trimestrul 1. De asemenea, se observ o evoluie medie liniar ft = a + b t. Elementele de calcul pentru linia de trend i valorile estimate ( yti ) sunt prezentate n tabelul 5.
88
Figura 4. Dinamica cifrei de afaceri trimestriale (sute mil. lei) a firmei A n anii 1-2 i prognoz pentru trimestrul I, anul 3 Tabelul 5. Elementele de calcul, valori estimate ( yti ) Valori Trim.*) empirice ti yi 1 2 1 1 2 3 3 4 4 2 5 2 6 5 7 7 8 4 ti yi
*
t i yi 3 1 6 12 8 10 30 49 32 ti yi
2 i
Valori estimate yti 5 1,68 2,20 2,72 3,24 3,76 4,28 4,80 5,32 yti 28
4 1 4 9 16 25 36 49 64 ti2
Indici sezonieri it 6 0,595 1,364 1,470 0,617 0,532 1,168 1,458 0,752 -
Valori corectate 7 1,773 2,381 2,732 2,920 3,546 3,949 4,781 5,839 27,92
Calculul parametrilor:
89
Ecuaia de trend liniar pentru seria considerat este: yt =1,16 + 0,52 t. Valorile calculate, yti sunt prezentate n tabelul 6, coloana 5. Se verific condiia de normalitate a trendului:
y =y
i
ti
2. Calculul indicilor de sezonalitate i a coeficienilor de sezonalitate Indicii de sezonalitate sunt calculai ca raport ntre valoarea observat yi i valoarea calculat corespunztoare a trendului ft, respectiv yti . Rezultatele sunt prezentate n tabelul 6, coloana 6. Se observ c indicii de sezonalitate variaz n jurul unitii. Valoarea lor medie la nivelul unui ciclu sezonier (al unui an, n cazul nostru) este egal cu unitatea. De asemenea, se observ c valorile primului i ultimului trimestru, din fiecare an, sunt subunitare, n celelalte trimestre sunt supraunitare, i c valorile lor din fiecare trimestru sunt diferite. Coeficienii de sezonalitate se calculeaz ca medie aritmetic simpl a variaiilor sezoniere pentru fiecare trimestru ( Sj ), n cursul celor doi ani considerai (cicluri sezoniere) i anume: 0,595 + 0,532 1,364 + 1,168 S1 = = 0,564 S2 = = 1, 266 2 2 1, 470 + 1, 458 0, 617 + 0, 752 S3 = = 1, 464 S4 = = 0, 685 2 2 Observaii. Media celor patru coeficieni de sezonalitate trebuie s fie egal cu 1, evideniind faptul c variaiile sezoniere n interiorul unui ciclu se compenseaz. n cazul nostru, valoarea medie a coeficienilor de sezonalitate este egal cu 0,995, valoare ce poate fi admis, innd cont de aproximrile luate n calcul. 3. Desezonalizarea seriei Desezonalizarea seriei presupune calculul valorilor corectate i are ca scop obinerea tendinei fr influena sezonier. Seria desezonalizat se obine prin raportarea valorilor empirice, yi la valoarea coeficienilor de sezonalitate corespunztori, (Sj). Rezultatele sunt prezentate n tabelul 5, coloana 7 i n figura 4. 4. Prognoza nivelului cifrei de afaceri pentru trimestrul 1 al anului urmtor celor observai. Folosim modelul de compunere multiplicativ yt = ft St unde: ft - trendul; St - componenta sezonier. a. Extrapolarea trendului. Valoarea prognozat, prin extrapolarea trendului, pentru ti = 9 (trimestrul 1 al anului 3), este: y9 = 1,16 + 0,52 9 = 5,84. b. Corectarea valorii prognozate. Corectarea valorii extrapolate cu influena sezonier presupune (1) resezonalizarea valorii, adic: y9 = y9 i1 = 5,84 0,564 = 3, 7376 n concluzie, ne putem atepta ca cifra de afaceri a firmei "A" s ating, n trimestrul I al anului trei considerat, valoarea de 3,7376 sute milioane lei, numai dac se respect ipotezele admise iniial, i anume: continuitatea trendului, pstrarea stabilitii sezoniere i lipsa influenelor accidentale.
Rezumat
Noiuni importante: serie de timp, componentele unei serii de timp: tendenial, ciclic, sezonier, aleatoare, combinarea componentelor unei serii cronologice, estimarea trendului, ajustarea seriilor sezoniere, ajustarea prin medii mobile, coeficienii sezonieri. Formule importante: trendul liniar, trendul parabolic, trendul exponenial, ajustarea prin medii mobile, indicii de sezonalitate, calculul coeficienilor sezonieri.
90
Tem de control
1. Fie datele din tabelul de mai jos reprezentnd valorile pentru 20 uniti, unde X venitul naional pe locuitor i Y veniturile reale pe locuitor, n Romnia pe perioada de 20 ani: X Y 1 5 2 7 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 10 12 14 15 17 19 25 27 30 35 40 45 49 55 60 63 66 70
Se cere: a) S se stabileasc forma i direcia legturii dintre cele dou variabile prin metoda grafic; b) S se estimeze parametrului elaborat i s se determine ecuaia de regresie; c) S se calculeze estimaiile varianei; d) S se calculeze coeficientul de corelaie i raportul de corelaie e) S se testeze semnificaia parametrilor modelului liniar utiliznd testul T i testul F. 2. Pentru dou variabile: X - capitalul fix i Y - volumul produciei, avem urmtorul tabel: Nr.crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X 5 7 9 17 18 20 25 27 30 32 37 40 42 43 49 52 55 59 62 65 Y 10 14 15 20 24 25 30 34 36 40 47 55 53 50 48 46 45 44 42 39 Se cere: a) S se stabileasc forma i direcia legturii dintre cele dou variabile prin metoda grafic; b) S se determine valorile ajustate ale lui Y dup funcia de regresie corespunztoare legturii; c) S se calculeze intensitatea legturii dintre variabilele admise. 3. Pentru trei variabile aleatoare exist seria de date din tabelul de mai jos: Nr.crt. Y X1 X2 1 16 20 15 2 17 19 14 3 34 29 35 4 40 37 40 5 5 18 14 6 25 20 27 7 27 33 30 8 36 30 37 9 9 10 16 10 50 25 40 11 55 37 57 12 45 40 55 13 40 32 38 14 37 43 50 15 30 29 28 16 27 30 26 17 19 25 14 18 10 29 14 19 7 19 12 20 23 25 29
Se cere: a) S se estimeze parametrii ecuaiei de regresie multipl; b) S se determine intensitatea corelaiei multiple; c) S se calculeze raportul determinaiei multiple i coeficienii determinatei pariale. 4. S se ajusteze seria de date care reflect exportul de servicii turistice realizat de Romnia n ultimii 19 ani, prin metoda analitic i dup un trend parabolic. Nr. Crt. 1 2 Exportul de servicii turistice (yi) 10 12
91
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Se cere: a) S se ajusteze seria prin metoda analitic. b) S se ajusteze seria dup un trend parabolic.
14 17 20 23 25 28 30 31 34 36 39 40 42 45 47 50 55
5. Se consider evoluia unui indicator exprimat n preuri comparabile sub forma seriei:
ti yi
1 4
2 5
3 7
4 9
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 11 15 17 19 23 25 25 22 20 30 33 29 27 32 35 37
Se cere: a) S se determine tendina seriei; b) S se calculeze indicii de sezonalitate i coeficienii sezonieri; c) S se desezonalizeze seria.
Referate
1. Prezentarea i coninutul tabelelor de contingen. 2. Prelucrarea datelor din tabelul de contingen. 3. Analiza grafic a legturilor dintre dou variabile. 4. Tipuri de legturi ntre variabile economice. 5. Raportul de corelaie. 6. Modelul liniar simplu de regresie. 7. Modele de regresie neliniare deterministe. 8. Modelul liniar general. 9. Corelaia neparametric. 10. Coeficientul de elasticitate.
92
11. Definiia i clasificarea seriilor de timp. 12. Caracteristicile unei serii de timp cu coninut socio-economic. 13. Forme de prezentare grafic a seriilor de timp. 14. Ajustarea seriilor de timp. 15. Prelucrarea primar a seriilor de timp. 16. Componentele unei serii de timp. 17. Metode de ajustare a trendului. Modele cu component aleatoare. 18. Analiza variaiilor sezoniere. 19. Testarea semnificaiei pentru seriile de timp. 20. Previziune prin metode statistice. 21. Tipuri i legturi ntre fenomenele social-economice. 22. Metode i procedee de verificare i analiz a legturilor statistice. 23. Metode analitice de msurare i analiz a legturilor statistice. 24. Metode neparametrice de msurare a legturilor dintre fenomenele social-economice. 25. Interpolarea i extrapolarea pe baza datelor seriilor de timp.
Bibliografie
1. Andrei., T. Statistic i econometrie, Editura Economic , Bucureti, 2004; 2. Berdot, J.P. - Econometrie, CNED, Poitiers-Futurscopc, 2001; 3. Blaug, M. - Teoria economic n retrospectiv. Editura Didactic i Pedagogic, Bucureti, 1992; 4. Iacob, A. I., Tnsoiu, O. Modele econometrice, Volumul I, Editura ASE, Bucureti, 2005; 5. Iacob, A. I., Tnsoiu, O. Econometrie. Studiu de caz, Editura ASE, Bucureti, 2005; 6. Jaba, E., Statistica, Ediia a treia, Editura Economic, Bucureti, 2002; 7. Jaba, E., Grama, A. - Analiza statistica cu SPSS sub Windows, Polirom, Iai, 2004; 8. Jaba, E., Jemma, D. - Econometrie, Editura Sedcom Libris, Iai, 2006 9.Mihoc, G., Craiu, V. - Tratat de statistic matematic, volumul I, Editura Academiei R.S.R., Bucureti, 1976; 10. Nenciu, E. - Teoria probabilitilor i statistic matematic, Editura Universitii "Al. I. Cuza" Iai, 1984; 11. Pecican, E. Econometrie pentru economiti, Editura Economic , Bucureti, 2004; 12. Zai, D., Nica, P. Introducere n modelarea econometric, Editura Universitii Al. I. Cuza, 1995.
93
Tabele probabiliste
Valorile funciei Laplace
94
Repartiia Student
95
Repartiia Hi-ptrat
96
Repartiia Durbin-Watson
97
Repartiia Fisher
98
Repartiia Fisher
99