Documente Academic
Documente Profesional
Documente Cultură
1.1.1. Prezentarea problemei Un exemplu. Se nregistreaz un eantion de n=7 sticle, cupluri de valori (xi, yi) cu privire la efectul vrstei vinului (ani) asupra preului unei sticle de vin (Euro). Tabelul 1.1.1. Vrsta vinului (ani) i preul unei sticle de vin(Euro), nregistrate pe un eantion de 7 sticle alese aleator dintrun lot de produse destinate vnzrii Produsul Vrsta vinului (ani) Preul unei sticle de vin (Euro) (Y) (X) 1,0 A 10 2,0 12 B 3,0 15 C 4,0 18 D 5,0 20 E 6,0 23 F 7,0 25 G Sursa: Date convenionale Din teoria i practica - legtur statistic exprimat printr-un model de regresie simpl liniar. Regresia liniar simpl este un caz particular al analizei de regresie, deoarece ntr-un astfel de model variabila dependent ar fi explicat numai de o singur variabil independent. Se nelege c, n exemplul dat, preului unei sticle de vin (Euro) nu depinde numai de vrsta vinului (ani), ci i de un ansamblu de alte variabile pe care le exprimm sintetic printr-o variabil numit eroare sau reziduu.
1.1.2 Definirea modelului de regresie liniar simpl Forma modelului de regresie liniar simpl este:
Y = 0 + 1 X +
Variabilele modelului, pentru exemplul considerat, sunt: - variabila dependent (rezultativ): Y - preul unei sticle de vin (Euro); - variabila independent (factorial, predictor): X vrsta vinului (ani); - variabila eroare (reziduu):
arat variaia medie a variabilei dependente, Y, la o variaie absolut cu o unitate a variabilei X, adic variaia variabilei Y este proporional cu variaia variabilei X:
1 =
dy dx
- simplitate - capacitatea de aplicare direct pentru verificarea existenei unei relaii ntre variabile - estimarea direct a parametrilor prin metoda celor mai mici ptrate.
1.1.2.2. Analiza descriptiv a variabilelor din modelul de regresie Analiza descriptiv a fiecrei variabile considerate n model se face pentru a studia caracteristicile fiecrei distribuii. Vrsta vinului (ani) Vrsta vinului (ani) N Valid 7 Missing 0 Mean 4,0000 Std. Deviation 2,16025 Skewness ,000 Std. Error of ,794 Skewness Kurtosis -1,200 Std. Error of 1,587 Kurtosis Sum 28,00 Figura 1.1.1. (a) Statistica descriptiv pentru variabila vrsta vinului
Preul unei sticle de vin (Euro) Preul unei sticle de vin (Euro) N Valid 7 Missing 0 Mean 17,5714 Std. Deviation 5,56349 Skewness -,054 Std. Error of ,794 Skewness Kurtosis -1,385 Std. Error of 1,587 Kurtosis Sum 123,00
25,0 22,5 20,0 17,5 15,0 12,5 10,0
Figura 1.1.1. (b) Statistica descriptiv pentru variabila preul unei sticle de vin Se verific dac exist valori lips, valori aberante din punct de vedere statistic. Se recomanda ca astfel de valori s nu fie luate n analiz pentru c ar deforma rezultatele. Observnd rezultatele analizei descriptive a celor dou distribuii, caracteristicile i forma lor, se constat c sunt distribuii normale, simetric pentru variabila X (Vrsta vinului (ani)) i uor asimetric la stnga pentru Y (Preul unei sticle de vin (Euro)), cu un coeficient de asimetrie mai mic dect 1. Nu se nregistreaz valori aberante pentru nici una dintre variabile.
10
1.1.2.3. Aproximarea grafic a modelului legturii dintre variabile Diagrama de dispersie din Figura 1.1.2.a prezint cele n cupluri (xi, yi) sub forma unui nor de puncte n planul (x, y) i este folosit pentru aproximarea modelului de regresie (Vezi Figura 1.1.2.b).
22,50 20,00 17,50 15,00 12,50 10,00 A 1,00 2,00 3,00 4,00 5,00 6,00 7,00 B C E D
25,00
F G
25,00 22,50 20,00 17,50 15,00 12,50 10,00 A 1,00 2,00 3,00 4,00 B C E D
F G
R Sq Linear = 0,997
5,00
6,00
7,00
a)
b)
Figura 1.1.2. Legtura dintre vrsta vinului i preul unei sticle de vin
Forma norului de puncte din diagrama din Figura 1.1.2.b. sugereaz o legtur liniar ntre vrsta vinului i preul unei sticle de vin. Pe msur ce cresc valorile variabilei Vrsta vinului are loc o cretere medie a valorilor variabilei Preul unei sticle de vin. ntre cele dou variabile se constat, deci, o legtur direct, liniar de forma: Y = a + bX + e . Se verific, deci, ideea susinut n teoria i practica economic a existenei unei legturi ntre cele dou variabile considerate, vrsta vinului are efect asupra preului unei sticle de vin.
11
1.1.3 Estimarea parametrilor modelului 1.1.3.1 Estimarea punctual a parametrilor Estimarea punctual a parametrilor modelului de regresie se bazeaz pe criteriul minimizrii sumei ptratelor abaterilor ntre valorile observate, yi , i valorile teoretice, y i , adic:
e
i =1
2 i
= ( y i y i ) 2 = min .
n cazul dreptei de regresie, y = b0 + b1 x , construit pe baza unui eantion observat, estimaiile b0 i b1 ale parametrilor 0 i 1 se pot calcula dup relaiile: Panta dreptei:
b1 =
n
( x
i =1 n
x )( y i y ) = ( xi x ) 2
cov( x, y )
2 sx
i =1
=r
sy sx
b0 ,
este:
Tabelul 1.1.2. Elemente de calcul necesare pentru estimarea parametrilor ecuaiei de regresie yi xi x xi2 y i2 ( xi x ) 2 xi yi xiyi
12
y = b0 + b1 x = 7,286 + 2,571 x Ecuaia estimat este: Estimaia b1 a parametrului de regresie 1 , lund valoare pozitiv, arat c legtura ntre variabilele X i Y este direct.
De asemenea, scoate n eviden relaia de proporionalitate dintre variaia celor dou variabile,
1 =
dy dx
i anume: la o cretere cu o un an a vechimei vinului, preul unei sticle de vin crete n medie cu 2,571 Euro.
13
1.1.3.2. Estimarea parametrilor prin interval de ncredere Se bazeaz pe distribuiile de selecie ale estimatorilor ai parametrilor 0 i . 1 1
0
Pentru modelul liniar simplu, estimatorii parametrilor urmeaz o lege de distribuie normal i sunt nedeplasai:
2 0 ~ N ( 0 , ) ;
0
Cu
M ( 0 ) = 0
2 2 V ( ) = ; 0
X = n( X X )
2 i i i i
2 1 ~ N ( 1 , ) ;
1
cu
M ( 1 ) = 1 ; V ( 1 ) =1 ;
2 =
1
( X
i
2 i
X )2
14
i variana estimatorului 1
2 se 1
x = n( x x )
2 i i i i
s2 2 e
2 s =
1
( x
i
x) 2
Intervalul de ncredere Intervalul de ncredere pentru coeficientul de regresie 1 este definit de relaia: 1 = b1 t / 2 s
1
i intervalul
15
Pe baza datelor din Tabelul 1.1.2, s-au calculat b1 = 2,571 i ( xi x) 2 = 28 . Valorile s 1 i s sunt calculate pe baza elementelor de calcul din Tabelul 1.1.3. Tabelul 1.1.3. Calculul reziduului ( ei
yi yi = yi yi ) ei
ei2
e =
2 i
n2
0,5714 = 0,114 . 72
( x
i= 1
x ) 2
0,1 4 1 =0,0 4 0 2 8
s = 0,064
Astfel, folosind datele din exemplul considerat anterior, pentru un risc = 0,0 , la care citim n tabelul Student un t ; n 2 = t 0.025 ; 5 = 2,571 , se 5 2 calculeaz urmtorul interval de ncredere pentru parametrul 1 :
( 2,571 2,571 0,064 ) .
Interpretare Putem spune, cu o ncredere de 95%, c valoarea adevrat a coeficientului de regresie, 1 , ar fi acoperit de intervalul [2,407; 2,736].
16
1.1.4. Coeficientul de corelaie Pearson 1.1.4.1. Coeficientul de corelaie teoretic Coeficientul de corelaie teoretic, notat cu , pentru dou variabile numerice, X i Y, la nivelul unei populaii de volum N, este definit de relaia:
cov( X , Y ) = = x y
( x
i
X )( y i Y ) N x y
, i = 1,..., N
n care: - cov( X , Y ) - covariana; - xi , y i , X , Y - valorile variabilelor corelate i nivelul mediu al acestora; - N - numrul perechilor de valori; x - , y - abaterea medie ptratic pentru X, respectiv Y.
Observare: Comparnd relaia de calcul a coeficientului de regresie, 1 , cu cea a coeficientului de corelaie, , se constat c ntre aceti indicatori exist urmtoarea legtur:
= 1 . x y
de unde rezult c semnul coeficientului de corelaie coincide cu semnul coeficientului de regresie, deoarece x i y 0 . Valoarea coeficientului de corelaie este cuprins ntre -1 i +1.
17
Valorile extreme ale lui exprim o legtur liniar perfect (funcional) ntre cele dou variabile, "pozitiv", respectiv "negativ". Valoarea 0 semnific absena legturii ntre cele dou variabile. Coeficientul de corelaie este un parametru care fie se determin, atunci cnd dispunem de date pentru variabilele considerate pe ansamblul populaie; fie se estimeaz cnd dispunem numai de date la nivelul unui eantion extras din populaia studiat, valoarea coeficientului de corelaie trebuie estimat.
18
1.1.4.2. Un estimator
pentru
Un estimator pentru este , care are ca valori posibile coeficienii de corelaie empirici, determinai la nivelul eantioanelor posibil de extras printr-o metod de sondaj. La nivelul unui eantion de volum n, se determin coeficientul de corelaie empiric propus de K. Pearson:
cov( x, y ) r= = sx s y
(x
i =1
x)( y i y )
n sx s y
care reprezint o estimaie pentru parametrul . Dezvoltnd relaia de mai sus, se obine o formul de calcul simplificat al coeficientului de corelaie empiric, bazat pe elementele calculate deja pentru coeficientul de regresie, b:
r = n xi y i - xi y i [n xi2 - ( xi )2 ][n y i2 - ( y i )2 ] , i = 1,..., n
Folosind datele din Tabelul 1.1.2, intensitatea legturii dintre vrsta vinului i preul unei sticle de vin se calculeaz, pe baza relaiei de mai sus, astfel:
r = 7 . 564 - 28 .123 [ 7 .140 - ( 28 )2 ][ 7 . 2347 - ( 123 )2 ] = 0,9 9846
Valoarea obinut este foarte apropiat de +1, deci ntre cele dou variabile exist o legtur direct foarte strns.
19
1.1.5.Testarea semnificaiei parametrilor modelului de regresie i a corelaiei 1.1.5.1. Testarea parametrilor unui model de regresie Testarea parametrilor unui model de regresie respect demersul clasic al testrii statistice a parametrilor cu ajutorul testului t Student. Etapele testrii Formularea ipotezelor. Testarea semnificaiei coeficientului de regresie 1 pleac de la formularea urmtoarelor ipoteze:
H 0 : 1 = 0 H 1 : 1 0
Dac respingem ipoteza H 0 , cu un prag de semnificaie ales, atunci legtura dintre cele dou variabile X i Y este semnificativ. n practica economic se consider, de regul, un = 0,05 , adic se consider un risc de 5% de a respinge pe nedrept ipoteza H 0 atunci cnd aceasta ar fi adevrat. Pentru testarea semnificaiei coeficientului de regresie 1 se folosete statistica t Student.
20
n ipoteza
H0 ,
statistica
t=
1 1
1
devine:
t=
1 0 1 =
1
Statistica t urmeaz o lege de repartiie Student de (n-2) grade de libertate. Valoarea teoretic a testului Pentru un prag de semnificaie , se citete din tabelul Student 2 o valoare teoretic a testului t 2;n . Se utilizeaz un risc /2 pentru aflarea valorii teoretice, deoarece distribuia Student este simetric, iar suprafaa de respingere () este mprit n dou pri egale (/ 2). n exemplul considerat, din tabelul Student citim, pentru / 2 = 0,025 i n-2=5, valoarea t 0, 025 ;5 = 2.571 .
Regula de decizie Presupune compararea valorii statisticii test calculate la nivelul eantionului observat cu valoarea teoretic corespunztoare, citit din tabelul Student.
21
Pentru un risc = 0,05 , dac t calc >t 2;n 2 se respinge ipoteza H 0 , adic coeficientul de regresie este considerat semnificativ 1 H 1 : 1 0 ). Decizia se poate lua i pe baza diferit de 0 (se accept valorii Sig., astfel: Sig. > : se accept ipoteza H0, Sig. < : se respinge ipoteza H0, cu o probabilitate de 95%.
Decizia Presupune aplicarea regulii de decizie. n exemplul considerat, t calc = 40 ,24 , iar valoarea teoretic citit n tabelul Student, pentru / 2 = 0 ,025 i n-2=5, este: t 0, 025 ;5 = 2,571 . Ca urmare, t calc . > t 0 , 025 ;5 , coeficientul de regresie 1 este semnificativ diferit de 0, adic variabila X, vrsta vinului (ani), are influen semnificativ asupra variabilei Y, preul unei sticle de vin (Euro). Dac intervalul de ncredere pentru 1 ar conine valoarea 0 atunci nu s-ar putea decide cu privire la respingerea ipotezei H 0 , ceea ce nu este cazul n exemplul nostru, deci factorul X influeneaz semnificativ variabila Y.
22
1.1.5.2. Testarea modelului de regresie i a semnificaiei corelaiei Evaluarea global a modelului de regresie se realizeaz prin testarea fie a coeficientului de corelaie, fie a raportului de corelaie. Presupune testarea influenei variabilei factoriale (X) asupra variaiei variabilei rezultative (Y). Se verific dac variabila factorial (X) influeneaz semnificativ variaia variabilei rezultative (Y), adic dac este semnificativ proporia variaiei explicate pe seama variabilei factoriale. Aceast operaie se bazeaz pe ecuaia de analiz a varianei, respectiv a raportului de determinare, R2, i a raportului de nedeterminare, (1- R2). Observare: n cazul unei regresii liniare simple, ptratul coeficientului de corelaie Pearson, 2 , este egal cu ptratul raportului de corelaie Pearson, 2 . Pentru testarea coeficientului de corelaie se poate folosi statistica test t Student, iar pentru testarea raportului de corelaie statistica test F Fisher. Rezultatele sunt aceleai.
23
Demersul testrii pleac de la formularea ipotezei H0, considerndu-se c variaia variabilei X nu influeneaz variabila Y, adic: = 0 . Ipoteze Ipoteza nul H 0 : = 0 Ipoteza alternativ: H 1 : 0 Statistica test Verificarea ipotezei H 0 se face cu ajutorul testului t (Student), pentru coeficientul de corelaie simpl, i anume: Statistica test t Student:
t= n-2 = 1 - 2
de libertate. unde: este estimatorul lui , coeficientul de corelaie; este estimatorul abaterii medii ptratice a lui :
= 1 - 2 n-2
s =
1- r
n-2
unde: r , r2 i (1-r2) reprezint coeficientul de corelaie simpl, respectiv raportul de deteminare i raportul de nedeterminare, valori calculate pe baza eantionului observat; n - numrul cuplurilor de valori x i y. Regula de decizie Valoarea calculat a lui t se compar cu valoarea teoretic obinut din tabelul t, pentru n-2 grade de libertate i pentru nivelul
24
de semnificaie stabilit. Dac | t calc . | >| t tab . | , atunci se respinge H 0 i se trage concluzia c ntre variabilele cercetate exist o legtur semnificativ, deci coeficientul de corelaie este semnificativ statistic i modelul este corect specificat. Valoarea teoretic a testului Pentru exemplul dat, se citete valoarea teoretic
t
2
; n 2
din
tabela Student, pentru n - 2 = 5 grade de libertate i un nivel de semnificaie = 0,05 , pentru un test bilateral, i anume t =2,571. Valoarea calculat a testului t Considernd legtura dintre vrsta vinului i preul unei sticle de vin, prezentat prin datele din Tabelul 1.1.1, cu n=7, cupluri de valori x i y, pentru care a rezultat un coeficient de corelaie r = 0,985, se calculeaz valoarea testului t , astfel:
t = 0,99846 7 2
2
1 0,99846
= 40 ,24
t tab . se cu observ c: deci, se respinge ipoteza nul , coeficientul de corelaie este semnificativ diferit de zero. Prin urmare, modelul este corect specificat i poate fi reinut. t calc . (t calc . = 40 ,24 ) >( t tab . = 2,571 ) ,
Decizia Comparnd
25
B. Demersul testrii modelului de regresie folosind statistica test F Evaluarea global a modelului de regresie pe baza raportului de corelaie presupune folosirea statisticii test F Fisher. Demersul testrii prin statistica test F este asemntor demersului testrii prin statistica test t. Statistica test F:
F=
2 S reg 2 S rez
VE n k R2 nk = = 2 VR k 1 1 R k 1
urmeaz o lege de distribuie Fisher, unde: 2 S reg reprezint estimaia varianei explicat prin model; 2 S rez reprezint estimaia varianei neexplicat, variana rezidual: R 2 este raportul de determinare, iar (1 R 2 ) reprezint raportul de nedeterminare.
Elementele de calcul i valoarea raportului F se pot obine facil cu ajutorul programelor statistice. De exemplu, n SPSS, rezultatele sunt prezentate n Tabelul ANOVA, i anume: - estimaiile celor dou componente ale variaiei, - gradele de libertate corespunztoare,
26
- estimaiile varianelor, explicat i rezidual, - valoarea calculat a raportului Fisher i - semnificaia testului, Sig. Pe baza elementelor din Tabelul ANOVA se calculeaz un indicator sintetic R 2 , raportul de determinaie, folosit pentru evaluarea modelului. Valoarea teoretic a testului F Pentru exemplul dat, se citete valoarea teoretic a lui F din tabela Fisher, i anume F =6,608, pentru v1=k - 1=1 i v2=n - k= 5 grade de libertate i un nivel de semnificaie = 0,05 . Valoarea calculat a testului F tiind c, n cazul unei regresii liniare simple, ptratul raportului de corelaie Pearson, 2 , este egal cu ptratul coeficientului de corelaie Pearson, 2 , n exemplul dat, folosind estimaia calculat pentru coeficientul de corelaie, obinem: 2 = 2 = 0,99846 2 . Valoarea calculat a lui F este:
Fcalc . = R2 n 2 0,99846 2 7 2 = = 1620 1 R 2 2 1 1 0,99846 2 1
Calculele verific relaiile dintre cele dou statistici test, statistica test t Student aplicat asupra coeficientului de corelaie i statistica test F aplicat asupra raportului de corelaie (40,242 = 1620 ). Decizia. Pentru un prag de semnificaie de 0,05 i gradele de libertate corespunztoare, se constat c valoarea calculat a testului F este mai mare dect valoarea teoretic a acestuia, Fcalc . > F, ( k 2 , n k ) . Prin urmare, se poate lua decizia de a respinge ipoteza nul, cu un risc acceptat de 5%.
27
n SPSS, testul Fisher se realizeaz pe baza procedeului de descompunere a varianei variabilei dependente n cele dou componente: variaia explicat, dat de modelul de regresie, i variaia rezidual. Tabelul ANOVA, redat n Tabelul 1.1.11, prezint estimaiile celor dou componente ale variaiei, gradele de libertate corespunztoare, estimaiile varianelor explicat i rezidual, valoarea calculat a raportului Fisher i semnificaia testului.
28
1.1.6. Testarea ipotezelor clasice asupra modelului de regresie simpl Estimarea prin metoda celor mai mici ptrate a parametrilor modelului de regresie are sens numai dac sunt respectate anumite ipoteze. 1.1.6.1. Ipoteze statistice clasice asupra modelului de regresie simpl Ipotezele statistice clasice asupra modelului de regresie sunt: - Liniaritatea modelului. Relaia ntre Y i X este liniar. Aceast ipotez este necesar pentru estimarea parametrilor modelului; - Normalitatea erorilor. Variabila este distribuit normal: N (0, 2 ) ; - Homoscedasticitatea. Varianele V( ) sunt constante, oricare ar fi valorile variabilei X, adic, V ( ) = 2 ; Necorelarea erorilor. Erorile sunt necorelate ntre ele: cov( i , j ) = 0 ; - Independena erorilor de valorile variabilei X. Valorile variabilei sunt independente de valorile variabilei explicative X, adic cov( , x) = 0 .
-
29
1.1.6.2. Testarea liniaritii modelului propus Liniaritatea relaiei dintre variabila dependent i variabila independent este important att pentru acurateea predictiv a modelului ct i pentru validitatea coeficienilor estimai. Verificarea liniaritii se poate efectua grafic, folosind: scatterplots; diagrama reziduurilor din regresie. Diagrama reziduurilor din regresie Diagrama reziduurilor din regresie se construiete lund pe ordonat variabila reziduu i pe abscis variabila dependent (Figura 1.1.4). Dac reziduurile apar dispersate aleator, de o parte i de alta a valorii zero (Figura 1.1.4.a), atunci relaia poate fi modelat cu ajutorul regresiei liniare. Dac reziduurile apar dispersate n blocuri deasupra sau sub valoarea zero (Figura 1.1.4.b), atunci relaia dintre variabilele considerate nu poate fi modelat cu ajutorul regresiei liniare. Reziduu Reziduu
Variabila dependent
Variabila dependent
..................(a)........................................................................(b) Figura 1.1.4:Distribuia reziduurilor n cazul relaiei de tip liniar (a) i a relaiei de tip neliniar (b)
30
n cazul unor relaii neliniare, se poate gndi la o adecvare la un model liniar, utiliznd o transformare logaritmic etc., sau pot fi tratate ca atare. n exemplul considerat, distribuia reziduurilor de regresie valideaz ipoteza modelului de regresie liniar, reziduurile plasndu-se aleator de o parte i de alta a valorii zero (vezi Figura 1.1.5).
31
1.1.6.3. Testarea ipotezei de normalitate a erorilor Pentru variabila aleatoare reziduu, , dintr-un model de regresie simpl liniar verificm ipotezele de: normalitate, homoscedasticitate, necorelare i independen a erorilor. Ipoteza de normalitate a erorilor presupune c variabila urmeaz o lege normal de medie 0 i varian 2: i ~ N ( 0 , 2 ) . Efectele nclcrii acestei ipoteze Ipoteza de normalitate a erorilor este important pentru stabilirea proprietilor estimatorilor parametrilor modelului de regresie. Dac i ~ N ( 0 , 2 ) , atunci estimatorii parametrilor modelului de regresie urmeaz, de asemenea, o lege normal: 2 2 ~ N (, ), ~ N ( , ) . Dac ipoteza de normalitate este nclcat, proprietile estimatorilor construii pe baza metodei celor mai mici ptrate au doar proprieti asimptotice, adic necesit eantioane sau seturi mari de date. Verificarea acestei ipoteze implic i testarea ipotezei c, n medie, modelul este bine specificat: M () = 0 . A. Testarea ipotezei M () = 0 Testarea ipotezei M () = 0 se poate realiza cu ajutorul testului t Student, folosit pentru compararea mediei cu valoarea 0. Conform rezultatelor din SPSS, Tabelul 1.1.4: One-Sample Test, valoarea calculat a testului t este mic (egal cu 0,000), semnificaia testului (Sig t = 1) este mai mare dect = 0,05 , ca urmare, putem lua decizia de a accepta ipoteza nul, adic ipoteza c media erorilor nu difer semnificativ de valoarea zero (Test Value = 0). Tabelul 1.1.4: One-Sample Test pentru testarea ipotezei
Test Value = 0
M ( i ) = 0
32
Mean Difference
1.000
.00000000
-,2854136
B. Testarea ipotezei de normalitate a erorilor: i ~ N ( 0 , 2 ) Testarea ipotezei de normalitate a erorilor se poate realiza cu ajutorul procedeelor grafice (histograma, box-plot, P-P-plot, diagrama reziduurilor) sau a procedeelor numerice (testul Kolmogorov-Smirnov, testul Jarque - Bera ). B1. Diagrama de dispersie a reziduurilor nclcarea ipotezei de normalitate se poate detecta pe un grafic al reziduurilor (Vezi Figura 1.1.5). Diagrama de dispersie a reziduurilor se construiete considernd pe ordonat valori ale variabilei reziduale, iar pe abscis valori estimate ale variabilei dependente.
Figura 1.1.5: Distribuia reziduurilor din regresia observat n cazul relaiei dintre vrsta vinului i preul unei sticle de vin, pentru eantionul considerat
33
unde:
S=
3
3 2
o repartiie normal, S > 0 pentru o repartiie asimetric la dreapta, respectiv S < 0 pentru o repartiie asimetric la stnga;
K=
4 2 2
repartiie normal, K<3 pentru o repartiie aplatizat i K > 3 pentru o repartiie afectat de boltire. Estimatorii pentru cei doi parametri sunt:
i4 i3 2 ( ) n2 i n2 S= , respectiv K = i 2 . 2 i 2 i 3 ( ) ( ) n2 i n2 i
Tabelul 1.1.5. Estimaii ale erorilor Unstandardized Residual N Valid Missing Mean Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis
parametrilor formei distribuiei 7 0 ,0000000 ,30860670 ,095 ,000 ,794 -1,200 1,587
34
ei4 k = i n 2 , unde ei = y i y i . 2 e ( i )2 i n2
JBcalc = n 2 ( k 3 )2 s + 6 4 .
Estimaiile parametrilor formei repartiiei, obinute n SPSS pentru exemplul dat, sunt prezentate n Tabelul 1.1.5. Valoarea calculat a testului Jarque-Bera:
JB calc = n 2 (k 3) 2 s + 6 4 7 1,2 2 = 0,000 2 + 6 4 = 0,42 .
Valoarea teoretic Din tabela chi-ptrat, se citete valoarea teoretic 2 0 ,05 ;2 = 5 ,99 . Deoarece valoarea calculat a testului este mai mic dect valoarea teoretic, se ia decizia de a accepta ipoteza nul (de normalitate a erorilor), cu o probabilitate de 0,95. Tabelul 1.1.6: Tipuri de asimetrie i transformri ale variabilei pentru normalizarea distribuiei Asimetrie moderat i SQRT(X) pozitiv Asimetrie substanial i LOG10(X) pozitiv ---------atunci cnd scara LOG10(X+C) include zero Asimetrie sever i pozitiv 1/X ---------atunci cnd scara include un zero Asimetrie moderat i negativ 1/(X+C) SQRT(K-X)
35
LOG10(K-X) LOG10(K-X)
C = constant adugat astfel nct scorul cel mai mic este 1 K = constant din care este retras scorul astfel nct scorul cel mai mic este 1; n general egal cu scorul cel mai mare +1 n cazul cnd distribuia nu este normal, aceasta se poate adecva efectund transformri, n funcie de tipul abaterii. n Tabelul 1.1.6 prezentm transformrile recomandate n cazul cnd distribuia prezint diferite grade de asimetrie [9].
36
1.1.6.4. Testarea ipotezei de homoscedasticitate Ipoteza de homoscedasticitate presupune c varianele sunt constante, oricare ar fi valorile variabilei X, adic, V ( ) = 2 . Pentru testarea ipotezei se utilizeaz mai multe teste, dintre care vom prezenta: Testarea prin procedeul Glejser i testul t Student pentru coeficientul de corelaie Spearman. A. Procedeul Glejser Testarea are la baz un model de regresie ntre variabila rezidual estimat i variabila independent. Forma acestui model indic i forma heteroscedasticitii. Pentru a identifica existena heteroscedasticitii, construim un model de regresie simpl ntre variabila eroare estimat i variabila independent, de forma =+ x +u . Dac parametrul este semnificativ, atunci modelul iniial este heteroscedastic. Rezultatele testrii, obinute n SPSS, sunt prezentate n Tabelul 1.1.7. Tabelul 1.1.7: Testarea prin procedeul Glejser pentru variabila eroare i vrsta vinului
Coefficients a Unstandardized Coefficients B Std. Error ,204 ,146 ,010 ,033 Standardized Coefficients Beta ,139
Model 1
t 1,400 ,313
Rezultatele pentru testele prezentate n tabelul de mai sus verific ipoteza nul H0: = 0. Testul t arat c modelul de regresie dintre erorile estimate, n valoarea absolut, i variabila vrsta vinului (ani) nu este semnificativ, adic nu exist o legtur ntre aceste variabile.
37
Ca urmare, se accept ipoteza nul, adic ipoteza de homoscedasticitate pentru modelul considerat n exemplul dat, adic variana erorii este constant pentru orice valoare a variabilei X.
38
B. Testul t Student pentru coeficientul de corelaie neparametric Spearman Testul t Student pentru coeficientul de corelaie neparametric Spearman i se bazeaz pe calculul rangurilor valorilor absolute estimate ale erorilor, i , i ale valorilor Xi . Ipoteze statistice: H0: ipoteza de homoscedasticitate H1: ipoteza de heteroscedasticitate Test t Student:
t= n 2 1 2
unde: este estimatorul parametrului Spearman. Calculul valorii statisticii test - Se afl valorile teoretice ale ecuaiei de regresie: yi = a + bx i , pe baza coeficienilor estimai ai modelului de regresie (a=7,286, b=2,571). - Se estimeaz erorile: ei = yi yi Se calculeaz rangurile pentru erori i pentru variabila independent i, pe baza lor, diferenele: d i = Rx Re - Se calculeaz coeficientul de corelaie Spearman. O estimaie a coeficientului Spearman se calculeaz pe baza relaiei:
i i
6 =1
d
i
2 i
n( n 2 1)
Se aplic testul Student. Exemplu: Considerm datele din Tabelul 1.1.1. Elemente de calcul pentru coeficientul Spearman sunt prezentate mai jos.
39
Coeficientul Spearman:
6 47 ,5 =1 = 0,15 7 ( 49 1)
40
Tabelul 1.1.8 Elemente de calcul pentru coeficientul Spearman xi yi |ei | Rxi Rei di d i2 1,00 10,00 ,14 1 2,5 -1,50 2,25 2,00 12,00 ,43 2 6,5 -4,50 20,25 3,00 15,00 ,00 3 1 2,00 4,00 4,00 18,00 ,43 4 6,5 -2,50 6,25 5,00 20,00 ,14 5 2,5 2,50 6,25 6,00 23,00 ,29 6 4,5 1,50 2,25 7,00 25,00 ,29 7 4,5 2,50 6,25 28 123 47,5 Valoarea calculat a statisticii test t Student:
t calc
n 2
1
2 =
0,15 7 2 1 0,15 2
= 0,3392
Decizie:
n condiiile unui risc asumat, se accept ipoteza H 0 , ipoteza de homoscedasticitate, adic erorile de regresie sunt constante pentru orice valoare a variabilei X.
41
1.1.6.5 Testarea ipotezei de autocorelare a erorilor Ipoteza de necorelare a erorilor: cov( i , j ) = 0 presupune lipsa unei corelaii ntre termenii variabilei eroare din modelul de regresie, adic eroarea asociat unei valori a variabilei dependente nu este influenat de eroarea asociat altei valori a variabilei dependente. Pentru testarea acestei ipoteze se pot utiliza: testul Durbin Watson i Runs test. Testul Durbin Watson (DW) n cazul acestui test se formuleaz ipotezele: H0: = 0 (nu exist autocorelare a erorilor); H1: 0 (ipoteza este nclcat, exist o legtur ntre
erori).
n cazul existenei fenomenului de autocorelare a erorilor se presupune c ntre erori exist o relaie de tipul: i = i 1 + u i , cu 2 ui ~ N (0, u ) . Statistica test:
DW =
(e
i=2
i n
e i 1 ) 2
2 i
e
i =1
42
Nu se dispune de valoarea Sig, p-value, pentru acest test. Valoarea calculat a testului DW se compar numai cu dL (limita inferioar) i dU (limita superioar), citite n tabela Durbin i Watson, pentru diferite valori ale pragului de semnificaie i ale volumului eantionului. n funcie de aceste valori critice se determin urmtoarele intervale, care permit luarea deciziei de respingere sau acceptare a ipotezei nule: 0
>0
dL ?
dU
=0
4- dU ?
4- dL
<0
Decizia se ia n funcie de urmtoarele regiuni: - regiune de respingere: >0 erorile nregistreaz o autocorelare pozitiv; <0 erorile nregistreaz o autocorelare negativ; - regiune de acceptare a ipotezei nule: (du ; 4- du) erorile nu sunt autocorelate; - regiune de nedeterminare: (dL ; dU) i (4-du ; 4-dL), dac valoarea statisticii DurbinWatson cade n aceast regiune, nu se poate decide asupra existenei autocorelrii erorilor; Testul Durbin-Watson se recomand pentru eantioane de volum mare i este folosit n mod curent pentru analiza seriilor de timp. n cazul nostru, eantionul, avnd n = 7, nu recomandm acest test.
43
1.1.7. Previziunea valorii variabilei Y pentru o valoare fix a variabilei X Ecuaia dreptei de regresie, estimat pe baza datelor unui eantion observat, y = a +bx , poate fi folosit pentru previziunea comportamentului unei uniti statistice care ia o anumit valoare dat, xh, pentru variabila X. Deoarece dreapta de regresie este estimat pe baza datelor observate pe un eantion, iar fiecare unitate statistic are un comportament diferit, rezultatul obinut se refer la un comportament mediu, y . Ca urmare, este necesar s se calculeze un interval de ncredere. Calculul intervalului de ncredere:
[ yh t / 2 s y ]
2 y 2
1 ( xh x ) 2 unde, s = s + n ( n 1) s 2 . X
n cazul exemplului considerat, putem afla n ce interval ar trebui s ne ateptm s se gseasc preul unei sticle de vin care ar avea, de exemplu, o vrst xh = 3,5 ani de vechime. Valoarea medie ce s-ar obine pentru xh=3,5 este:
y h = a + bx h = 7,286 + 2,571 3,5 = 16 ,2845
Variana rezidurilor:
s
2
e =
2 i
n2
0,57 = 0,114 72
Intervalul de ncredere al valorii variabilei Y pentru o valoare fix a variabilei X, respectiv xh = 3,5, este egal cu:
= 0,017
44
n cazul exemplului considerat, ne putem atepta, cu o ncredere de 95%, ca preul unei sticle de vin care ar avea, de exemplu, o vrst xh = 3,5 ani de vechime s se gseasc n intervalul [15,9 ; 16,6 ] Euro. 4 2 1.1.8. Rezultate n SPSS i interpretarea lor pentru regresia liniar simpl Procesul de estimare a parametrilor unui model de regresie n SPSS este cunoscut ca fitting the model. n fiierul Data Editor, n foaia Data View, SPSS completeaz coloane distincte cu valorile estimate pentru variabila dependent (PRE_1), valorile reziduale (RES_1) i limitele inferioar i superioar ale intervalului de ncredere (LMCI_1, respectiv UMCI_1). Pentru exemplul considerat, rezultatele estimrii sunt prezentate n Tabelul 1.1.9.
Tabelul 1.1.9. Valori estimate pentru preul unei sticle de vin, pe baza eantionului de 7 sticle prezentat n Tabelul 1.1.1
45
Fereastra de rezultate - Output-ul, pentru analiza de regresie, conine: Model Summary, ANOVA, Coefficients, Normal P-P plot i Scatterplot. Tabelul Model Summary prezint valoarea raportului de corelaie (R), valoarea raportului de determinaie (R2), valoarea ajustat a lui R i eroarea standard a estimaiei. Pentru exemplul considerat, Model Summary este prezentat n Tabelul 1.1.10.
46
a Predictors: (Constant), Vrsta vinului (ani) b Dependent Variable: Preul unei sticle de vin (Euro) Valoarea R arat dac exist sau nu o corelaie ntre variabila dependent (rezultativa Y) i variabila independent (factoriala X). Acest indicator ia valori ntre 0 i 1. Interpretarea modelului. n interpretarea modelului se folosete coeficientul de determinaie, R2. Raportul de determinaie, R2, arat proporia variaiei variabilei dependente explicate prin modelul de regresie i este folosit pentru a evalua calitatea ajustrii (alegerea modelului). R2 ia valori ntre 0 i 1. Dac R2 este egal cu 0 sau are o valoare foarte mic, atunci modelul de regresie ales nu explic legtura dintre variabile, relaia dintre variabila dependent i variabila independent nu coincide cu modelul ales, de exemplu, liniar. Dac R2 este egal cu 1, atunci toate observaiile cad pe linia de regresie, deci, modelul de regresie explic perfect legtura dintre variabile. Ca urmare, R2 este folosit pentru a stabili care model de regresie este cel mai bun. Aceast metod de alegere a modelului de regresie potrivit este recomandat pentru modelele care nu conin un numr mare de variabile. Pentru exemplul considerat a rezultat o valoare R=0.985, respectiv, R2= 0.970, ceea ce ne arat c ntre preul unei sticle de vin (Euro) i vrsta vinului (ani) exist o legtur liniar, direct, foarte strns. Tabelul Regression ANOVA prezint rezultatele analizei varianei variabilei dependente sub influena factorului de regresie i a factorului reziduu. Adic, prezint informaii asupra sumei
47
ptratelor abaterilor variabilei dependente, datorate modelului de regresie i factorului reziduu, gradele de libertate, estimaiile varianelor datorate celor dou surse de variaie (regresie i reziduu), raportul F i Sig. (vezi Tabelul 1.1.11). Tabelul 1.1.11. ANOVA pentru regresie
Model 1 Regression Residual Total Sum of Squares 185,143 ,571 185,714 df 1 5 6 Mean Square 185,143 ,114 F 1620,000 Sig. ,000
a Predictors: (Constant), Vrsta vinului (ani) b Dependent Variable: Preul unei sticle de vin (Euro) Statistica test F se obine ca raport ntre media ptratelor abaterilor datorate regresiei i media ptratelor abaterilor datorate reziduului, calculate cu gradele de libertate corespunztoare. Aceast statistic test este folosit pentru testarea modelului de regresie. Dac testul F ia o valoare mare, iar valoarea Sig. corespunztoare statisticii F este mic (mai mic dect 0,05), atunci variabila independent explic variaia variabilei dependente i invers. n exemplul considerat, valoarea Sig. pentru F este mai mic dect 0,05, deci relaia liniar dintre cele dou variabile considerate este semnificativ (vezi Tabelul 1.1.11).
Coeficienii de regresie Tabelul Coefficients (vezi Tabelul 1.1.12) prezint coeficienii nestandardizai ai modelului de regresie estimat, erorile standard ale acestora, coeficienii de regresie standardizai cu erorile
48
standard corespunztoare, precum i valorile statisticii test t i valorile Sig. corespunztoare. Tabelul 1.1.12. Coeficienii de regresie
Unstandardized Coefficients Model 1 B (Constant) 7,286 Vrsta vinului (ani) 2,571 Std. Error ,286 ,064 Standardized Coefficients Beta ,998 t 25,500 40,249 Sig. ,000 ,000
a Dependent Variable: Pretul unei sticle de vin (Euro) Coeficienii de regresie standardizai sunt folosii atunci cnd ntr-un model intr mai multe variabile independente exprimate n uniti de msur diferite, n scopul facilitrii comparrii acestora. Testarea parametrilor modelului de regresie se face cu ajutorul testului t, pentru a afla dac acetia difer semnificativ de zero: H0 : = 0 Pentru exemplul dat, valoarea (Sig.=0.002) este mai mic dect 0.05, artnd c (panta dreptei de regresie) este semnificativ diferit de zero i corespunde unei legturi semnificative ntre cele dou variabile. Bibliografie Berdot, J.P. - Econometrie, Universitatea din Poitiers, 2001 Bourbonnais, R. Econometrie, 5-e edition, Dunod, Paris, 2003 3. Gujarati, D.N. Basic Econometrics, 3-rd Edition, McGrawHill, 1995 4. Greene, W.H. Econometric Analysis, 5-e ed.,Prentice Hall, 2005
1. 2.
49
5. 6. 7. 8. 9.
Jaba, Elisabeta, Grama, Ana Analiza statistica cu SPSS sub Windows, Editura Polirom, Iai, 2004 Jaba, Elisabeta, Jemna, Dnu Econometrie, Editura Sedcom Libris, Iasi, 2006 Maddala, G.S. Econometrics, McGraw-Hill, 1987 Pecican, E.S. Econometria pentru economiti, Editura Economic,Bucureti, 2003 mgtclass.mgt.unm.edu/Jurkat/Mgt%20501/Variable %20Transformations.doc