Econometrie Varianta 2008-2009

-1-
1.1 : Legătura dintre două variabile : relaţii deterministe şi relaţii stochastice
Se consideră două caracteristici , X şi Y : se presupune că valoarea indicatorului Y

este influenţată într-un fel sau altul de către valoarea pe care o ia indicatorul X.
Cel mai simplu tip de astfel de “ influenţă “ este aşa-numita “ dependenţă de tip
funcţional “ : în cazul unei astfel de dependenţe , avem o relaţie
de forma : Y = f (X) , unde f este o functie .
Se poate intampla sa stim ca intre caracteristicile X , Y exista o relatie de tipul mentionat , dar
sa nu cunoastem care este functia “ f “ implicata .
De aceea , se pun doua probleme diferite :
- cum ne dam seama ca dependenta dintre caracteristicile X , Y este una

de tip functional ?
- in caz afirmativ : cum gasim expresia acestei functii , sau macar o serie
de informatii despre caracteristicile acestei functii ?
Precizare : dupa cum se stie din teoria elementara , o functie este o corespondenta intre doua
multimi , avand ca proprietate esentiala urmatoarea :
la o valoare data x0 a caracteristicii X , corespunde cel mult

o singura valoare a caracteristicii Y :aceasta valoare , pe care
o notam cu y0 , este chiar valoarea luata de f pentru X = x0 ,
adica y0 = f (x0) .
De exemplu : sa consideram corespondenta intre caracteristicile X , Y

data de graficul de mai jos :
-2-
Este clar ca aceasta corespondenta de la multimea { 1, 2 , 3 , 4 , 5 } la multimea

{ 1, 2 , 3 , 4 , 5, 6 , 7 , 8} nu este de tip functie .
Unul dintre motive : la valoarea x0=1 corespund trei valori ale caracteristicii Y , anume
y '0 = 1 ; y '0' = 2 ; y '0'' = 6 .
Exemplul precedent ridica o nouă problemă , anume :

in conditiile figurii prezentate , se mai poate măcar admite că între caracteristicile X , Y
exista vreo legatura ?
Iata şi o alta situatie :
-3-
Si in acest caz , figura ilustreaza o corespondenta de la multimea { 1, 2 , 3 , 4 , 5 }

la { 1, 2 , 3 , 4 , 5 , 6 } , corespondenta care nu este de tip functie : de data aceasta insa , este
clar ca odata cu cresterea valorii lui x∈ X , valorile corespunzatoare ale lui y∈ Y au tendinta
să crească .
' ''
Astfel , pentru x1 = 1 corespund valorile y 1 = 1 ; y 1 = 2 ; pentru x2= 2 , corespund valorile
' ''
nu mai mici y 2 = 2 ; y 2 = 3 , etc. : asadar , exista in mod categoric o influenta a lui X
asupra lui Y , numai ca aceasta influenta nu este de tip functie.
Precizare : dintre tipurile de influente care nu au caracter functional , vom studia

numai dependentele cu caracter stochastic : asupra acestei notiuni
vom reveni pe parcurs .
In studierea dependentei dintre doua caracteristici , se folosesc drept date specifice ,

esantioane de forma { ( x1 , y 1 ) , ( x 2 , y 2 ) , ... , ( x n , y n ) } ,obtinute in urma efectuarii unor
cercetari sau experiente specifice.
In cazul in care la fiecare valoare “ x “ corespunde o singura valoare “ y “ , adica :
daca ( ∋ )i , j = 1, n , i ≠ j pentru care x i = x j ,

atunci obligatoriu avem si y i = y j
se poate trece la cautarea unei functii “ f “ , pentru care sa se poata afirma ca verifica
relatia
Y=f(X).
In raport cu esantionul {( x i , y i )}i = 1,n , o astfel de functie va trebui sa verifice relatiile
y i = f ( x i ) , i = 1, n .
Din numeroase motive , o astfel de pretentie este fara sens : intai , din punct de vedere
matematic , exista o infinitate de functii cu proprietatea y i = f ( x i ) , i = 1, n , pentru orice
esantion { ( x i , y i )}i =1,n .
Pe de alta parte , in orice situatie practica ce poate fi imaginata , pretentia ca y i
sa coincida perfect cu f ( x i ) , pentru orice i = 1, n este si ea exagerata : este imposibil ca ,
intre cele doua seturi de valori sa nu apara mici deosebiri.
Pentru a preintampina astfel de inconveniente , se iau o serie de masuri : iata primele
astfel de precautii :
- ne asiguram ca – din punct de vedere al contextului practic in care lucram – intre
caracteristicile X , Y sa existe o legatura ;
- in caz ca o astfel de legatura exista , urmeaza sa determinam care dintre caracteristici
-4-
este “ variabila independenta “ si care “ variabila dependenta “ sau “ determinata “ :

in materialul de fata , variabila independenta va fi notata cu X , iar cea determinata ,
cu Y ;
- se construieste un esantion { ( x i , y i )}i =1,n si se reprezinta grafic punctele
corespunzatoare in planul (XOY) ; dupa inspectarea reprezentarii grafice , se alege o functie
“ f “ care sa para potrivita .
De exemplu : iata trei situatii , privind reprezentarea grafica a cate unui esantion :
Vom inspecta graficele , pentru a incerca sa stabilim tipul de functie “ f “

pentru care se poate afirma – in fiecare caz separat – ca avem Y = f ( X ).
Este clar ca optiunile cele mai bune par a fi urmatoarele :
- in cazul variantei 1: Y = a·X + b ( dependenta liniara ) ;

- in cazul variantei 2: Y = a·X2 + b·X + c ( dependenta parabolica de grad 2 ) ;
a
- in cazul variantei 3 : Y = + c ( dependenta de tip hiperbolic ) .
X+b
-5-
Rezumat ; precizari finale :
- functia aleasa “ f “ contine o serie de parametri necunoscuti : determinarea de valori

( aproximative ) pentru acesti parametri , pe baza unui esantion { ( x i , y i )}i =1,n
va fi numita “ estimare “ ( asadar , la varianta 1 de mai sus – vom estima parametrii
a , b , c pe baza esantionului
xi 1 2 3 4 5 6 7 8
yi 0 0,8 1 1,5 2,1 2,5 3 3,2
-6-
Functia “f ” , in care parametrii au fost inlocuiti cu valorile estimate , va fi numita

“ functie estimata “:
- pentru un esantion si pentru o functie estimata pe baza acestui esantion , notata cu

~ ~ ~
f , nu avem y i = f ( x i ) , ci numai y i ≈ f ( x i ) .
Cantitatile
~
e i = y i − f ( x i ) , i = 1, n
vor fi numite reziduuri .

Orice metoda de estimare are la baza ideea minimizarii reziduurilor .
Trebuie insa remarcat faptul ca se pot folosi diferite concepte de minim .
1.2 : Metoda celor mai mici patrate ( CMMP )
Vom considera cazul unui esantion ( sau : sondaj ) { ( x i ; y i )}i = 1,n .

Se considera situatia in care caracteristica Y depinde liniar in raport cu caracteristica X , adica
Y= a+b⋅X
In acest caz , lista de reziduuri va fi {e i }i = 1,n , unde ei = yi – a – b·xi .
Pentru estimarea coeficientilor a , b vom folosi drept conditie de minim a listei reziduurilor ,
conditia :
n
( min ) ∑ e i2 .
a,b i =1
Asadar , urmeaza sa rezolvam problema de minim nerestrictionat :
n 2
(min) f ( a , b ) = ∑ ( y i − a − b ⋅ xi ) .
i =1
Conditiile necesare de extrem sunt :

⎧∂f
⎪∂ a =0
⎪
⎨ .
⎪∂f
⎪ =0
⎩∂ b
Avem :
-7-
∂f n
⎡ n n
⎤
= − 2 ⋅ ∑ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢∑ y i − n ⋅ a − b ⋅ ∑ x i ⎥ = 0
∂a i =1 ⎣ i =1 i =1 ⎦
n n
⇔ n ⋅ a + b ⋅ ∑ xi = ∑ y i ; ( 1 )
i =1 i =1
Sa notam :
1 n
- media valorilor {xi } : x = ⋅ ∑ x i ;
n i =1
1 n
- media valorilor {yi } : y = ⋅ ∑ y i .
n i =1
Cu aceste notatii , ecuatia (1) devine :
(2)
a+ b⋅ x=y
∂f n
⎡ n n n
⎤
= − 2 ⋅ ∑ x i ⋅ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢ ∑ x i ⋅ y i − a ⋅ ∑ x i − b ⋅ ∑ x i2 ⎥ = 0
∂b i =1 ⎣ i =1 i =1 i =1 ⎦
n n n
⇔ a ⋅ ∑ xi + b ⋅ ∑ x = 2
i ∑x i ⋅ yi;
i =1 i =1 i =1
Sa notam :
1 n 2 2 1
n
1 n
m 2x = ⋅ ∑ x i ; m y = ⋅ ∑ y i ; s xy = ⋅ ∑ x i ⋅ y i .
2
n i =1 n i =1 n i =1
Atunci ecuatia (2) se poate scrie :
(4)
a ⋅ x + b ⋅ m 2x = s xy
Sistemul :
⎧⎪ a + b ⋅ x = y
⎨ 2
⎪⎩a ⋅ x + b ⋅ m x = s xy
-8-
se numeste sistemul ecuatiilor normale si se considera in general ca este datorat lui

C.F. Gauss ( 1795 ) .
Solutiile acestui sistem , adica valorile coeficientilor dreptei de regresie estimate pe baza
^ ^
esantionului dat , vor fi notate prin a , b : ele sunt date de formulele
⎧^
⎪⎪b =
∑ xi ⋅ y i − n ⋅ x ⋅ y =
∑ ( xi − x) ⋅ ( y i − y )
- varianta 1 : ⎨ ∑ xi2 − n ⋅ x
2
∑ ( x i − x)2
⎪ ^ ^
⎪⎩ a = y − b⋅ x
⎧ ^ s xy − x ⋅ y
⎪⎪b = 2
- varianta 2 : ⎨ m 2x − x .
⎪ ^ ^
⎪⎩ a = y − b ⋅ x
In fine , daca tinem seama ca avem :
2 2 2
- dispersia de selectie a datelor {xi } ( sau : varianţa ) : σ x = m x − x
- covarianţa de selecţie a datelor {xi} , { yi } : σ xy = s xy − x ⋅ y ,
gasim varianta :
⎧^ σ XY
⎪b =
- varianta 3 : ⎨ σ 2X .
⎪^ ^
⎩ a = y − b ⋅x
^ ^
Odata determinate valorile estimate a , b , se poate scrie ecuatia dreptei de regresie , care se
mai numeste si dreapta celor mai mici patrate ( vom intalni drepte de regresie determinate si
prin alte metode ).
Atunci , valorile caracteristicii Y determinate folosind dreapta celor mai mici patrate
^ ^ ^
vor fi : y i = a + b⋅ x i , i = 1, n , sau
^ ^
y i = y + b⋅ ( x i − x ) , i = 1, n
-9-
Pentru reziduuri avem formulele :
^ ^
e i = y i − y i = ( y i − y ) − b⋅ ( x i − x ).
Sa observam ca suma reziduurilor este egala cu zero , deoarece se cunoaste proprietatea ca

suma abaterilor unei caracteristici in raport cu media acelei caracteristici este zero , adica
n n
∑ ( xi − x ) = 0 ; ∑ ( y i − y ) = 0 .
i =1 i =1
Atunci , avem relatia importanta :
y=
∑ yi = ∑ yi
n n
1.3 : Variatia explicata ; variatia ne – explicata
Scopul unui model de regresie liniara este de a explica o parte din modificarea
valorilor caracteristicii Y , prin faptul ca valoarea caracteristicii X s-a modificat ea insasi .
Acest fapt se poate exprima pe scurt astfel :
daca X se modifica , şi Y se modifică în consecinţa
Acest fenomen constituie ceeace numim variaţia explicată de catre modelul de regresie.
Dar este posibil sa aiba loc si alt fenomen , anume :
desi X nu s-a modificat , totusi Y se mai modifica inca
adica este posibil sa aiba loc si o variatie a lui Y , neexplicata de catre model .
Aceasta ar avea loc in cazul in care , la valori “ x “ egale , sa corespunda mai multe valori
pentru “ y “ , sau daca la valori “ x “ foarte apropiate intre ele , sa corespunda valori “ y “ mult
diferite intre ele .
- 10 -
Asadar , situatia descrisa se poate sintetiza astfel :
variaţia totală variaţia explicată variaţie

= + neexplicată
a lui Y în cadrul modelului de către model
Acest mecanism este ilustrat in figura urmatoare :
Asadar : in relatia
^ ^
(y i − y ) = ( y i − y ) + ( y i − y i ) ,
- termenul ( y i − y ) reprezinta variatia totala a lui Y ;

^
- termenul ( y i − y ) reprezinta variatia explicata de catre model ;
^
- termenul e i = ( y i − y i ) reprezinta variatia ne-explicata de catre model , sau reziduul .
- 11 -
O astfel de descompunere este valabila si pentru varianţe , adica avem :
n n ^ n ^
∑ ( y i − y )2 = ∑ ( y i − y )2 + ∑ ( y i − y i )2
i =1 i =1 i =1
In adevar :
^ ^
∑ y i2 = ∑ [ y − b⋅ ( x i − x) ]2 =
2 ^ ^2
= n ⋅ y + 2 ⋅ y ⋅ b⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x )2 =
^ ^
= y ⋅ n ⋅ y + 0 + b⋅ b⋅ ∑ ( x i − x )2 =
^
= y ⋅ ∑ y i + b⋅ ∑ ( x i − x ) ⋅ y i =
^
= ∑ [ y + b⋅ ( xi − x) ] ⋅ y i =
^
= ∑ yi ⋅ yi
Deci :
^ ^ ^2
∑ ( yi − yi ) = ∑ 2
y i2 − 2 ⋅ ∑ yi ⋅ yi + ∑ yi =
^2 ^2
= ∑ y i2 − 2 ⋅ ∑ yi + ∑ yi =
^2
=∑ y i2 − ∑ yi
si
- 12 -
^ ^ ^ 2
∑ ( yi − y) = ∑ 2
y i2 − 2 ⋅ y ⋅ ∑ yi + n ⋅ y =
^
2
= ∑ y i2 − 2 ⋅ y ⋅ ∑ yi + n ⋅ y =
^
2 2
=∑ y i2 − 2⋅n⋅y +n⋅y =
^
2
=∑ y i2 −n⋅y
In final , se obtine :
2
∑ ( y i − y )2 = ∑ y i2 − n ⋅ y =
⎡ ^2 2⎤ ⎡ ⎤ ^2
= ⎢ ∑ y i − n ⋅ y ⎥ + ⎢ ∑ y i2 − ∑ i ⎥=
y
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
^ ^
= ∑ ( y i − y ) 2 + ∑ ( y i − y i )2
In relatia finala , adica :
^ ^
∑ ( yi − y) 2
= ∑ ( yi − y) 2
+ ∑ ( y i − y i )2
- termenul Sg = ∑ ( y i − y )2 se numeste variatie totala ;
^
- termenul Se = ∑ ( y i − y ) 2 se numeste variatie explicata prin regresie ;
^
- termenul Sr = ∑ ( y i − y i )2 se numeste variatie reziduala sau variatie ne-explicata :
asadar , avem relatia
Sg = Se + Sr .
Pentru a masura procentual gradul in care regresia liniara explica variatia lui Y , se foloseste
urmatorul coeficient de determinare , R , cu valori in intervalul [ 0; 1]:
- 13 -
Se
R2 =
Sg
Iata si cateva forme echivalente utile pentru coeficientul de determinare :
^ 2
2
R =
∑ ( y i − y )2 = b
^
2
⋅
∑ x i2 − n ⋅ x
.
∑ ( y i − y )2 ∑ y i2 − n ⋅ y
2
APLICATIA 1 : ( & 1.2 , pag. 12 si & 1.3 )
Se stie ca variabila Y este influentata de catre variabila X .

S-au determinat datele de sondaj :
xi 1 2 3 4 5
yi 2,5 5,6 8 9,7 10,3
- a): stabiliti grafic daca se poate folosi o dreapta de ajustare pentru a descrie dependenta lui Y
in raport cu X ;
-b): determinati dreapta celor mai mici patrate ;
- c): calculati variatiile corespunzatoare acesteia ( variabila totala ; explicata si reziduala ) ;
- d): care este valoarea coeficientului de determinare R ? Cum se interpreteaza rezultatul ?
Rezolvare :
- a): reprezentarea grafica a norului de puncte dat este urmatoarea

- 14 -
Prin pozitia lor , punctele nu par sa difere mult fata de o dreapta .

Observare : linia poligonala care se obtine unind cate doua puncte consecutive este evident
convexa , deci – la un studiu mai pretentios – nu ar trebui totusi folosi dreapta ca
functie de ajustare .
- b : avem calculele urmatoare
xi yi x i2 xi ⋅ y i y i2
1 2,5 1 2,5 6,25
2 5,6 4 11,2 31,36
3 8 9 24 64
4 9,7 16 38,8 94,09
5 10,3 25 51,5 106,09
TOTAL : 15 36,1 55 128 301,79
Atunci :
- 15 -
• n=5
n
15
• ∑x
i =1
i = 15 ⇒ x =
5
= 3
n
36,1
• ∑y
i =1
i = 36,1 ⇒ y =
5
= 7,22
n
55
• ∑x
i =1
2
i = 55 ⇒ m 2X =
5
= 11
x
128
• ∑x
i =1
i ⋅ y i = 128 ⇒ s XY =
5
= 25,6
Dreapta celor mai mici patrate are ecuatia :
⎧ a + b ⋅ x = y ⇒ a + 3 ⋅ b = 7,22
⎨
⎩a ⋅ x + b ⋅ m X = s XY ⇒ 3 ⋅ a + 11 ⋅ b = 25,2
2
de unde se obtine :
⎧ a = 1, 31
⎨ si deci dreapta celor mai mici patrate este :
⎩b = 1, 97
y = 1, 31 + 1, 97 ⋅ x
- c): calculele necesare sunt sintetizate in tabelul urmator :
_ ^ _ ^
xi yi ^ (y i − y )2 = ( y i − y )2 = (y i − y i )2 =
y i = 1 , 31 + 1, 97 ⋅ x i = ei
= ( y i − 7, 22) 2 ^
= ( y i − 7, 22)2
1 2,5 3, 28 22,28 15,52 0,61
2 5,6 5, 25 2,62 3,88 0,12
3 8 7, 22 0,61 0 0,61
4 9,7 9, 19 6,15 3,88 0,26
5 10,3 11, 16 9,49 15,52 0,74
TOTAL : 41,15 38,81 2,34
- 16 -
deci avem :
S g = 41 , 15 ; S e = 38 , 81 ; S R = 2 , 34
S e 38, 81
- d : R2 = = = 0 , 94
S g 41, 15
Avand o valoare apropiata de 1 , constatam ca regresia liniara explica in proportie de 97%
variatia lui Y prin variatia lui X .
2.1 : Modelul regresiei simple
Vom relua unele dintre conceptele deja prezentate , urmand sa facem completarile
necesare studiului regresiei in cazul stochastic .
Fie astfel sondajul { ( xi , yi )}i=1,n : modelul de regresie liniara simpla intre caracteristicile X
si Y are aspectul :
yi = a + b· xi + ei , i = 1, n
Aici erorile ei sunt considerate variabile aleatoare , ce nu pot fi observate direct : aceste
variabile verifica ipotezele urmatoare :
2
- toate variabilele ei au media zero si aceeaşi dispersie s ;
- toate variabilele ei au repartitie normala , deci e i = N( 0 ; s 2 ) , i = 1 , n
- aceste variabile sunt doua cate doua independente , deci au covarianţa egala
cu zero : cov ( e i ; e j ) = 0 , i ≠ j; i , j = 1, n .
De observat ca in aceste conditii , si yi au caracter aleator , intrucat depind de variabilele
aleatoare ei .
- 17 -
Cum in cadrul modelului valorile xi sunt considerate deterministe , avem
M( y i ) = M ( a + b ⋅ x i + ei ) = a + b ⋅ x i + M( ei ) = a + b ⋅ x i ;
D2 ( y i ) = D2 ( a + b ⋅ x i + e i ) = D2 ( ei ) = s 2 .
Variabilele y i au si ele repartitii normale , anume : y i = N (a + b ⋅ x i ; s ) : pentru

aceste variabile , avem :
cov( y i ; y j ) = cov (a + b ⋅ x i + e i ; a + b ⋅ x j + e j ) = cov (e i ; e j ) = 0
deci y i , y j sunt si ele variabile aleatoare independente ( reamintim ca pentru variabilele

aleatoare cu repartitie normala , independenta si necorelarea sunt proprietati echivalente ).
Notă : semnificaţia erorilor aleatoare este aceasta : pentru un set fixat de valori ale
variabilei X , prin repetarea experimentului , se pot obţine valori diferite ale
variabilei Y .
2.2 Distributia estimatorilor proveniti din metoda CMMP
^
2.2.1: Media estimatorului b
^ ^
Pentru estimatorii a , b vom folosi expresiile alternative
⎧^
⎪b =
∑ ( xi − x) ⋅ y i ⎧ ∑ xi
⎪x =
⎪ ∑ ( xi − x)2 , unde : ⎪ n
⎨ ⎨
⎪
⎪ ^ ^
⎪
⎪y =
∑ yi
⎩ a = y − b ⋅x ⎩ n
- 18 -
In aceste formule , y i si y sunt variabile aleatoare repartizate normal , restul componentelor

^ ^
fiind constante : asadar si a , b vor fi tot variabile aleatoare normal repartizate .
Asadar , avem :
⎛^⎞ ⎛ ∑ ( x i − x) ⋅ y i ⎞ ∑ ( x − x ) ⋅ M( y ) =
M ⎜ b ⎟ = M⎜ ⎟= i i
⎝ ⎠ ⎜ ∑ ( x − x) 2 ⎟ ∑ ( x − x) 2
⎝ i ⎠ i
=
∑(x i − x) ⋅ ( a + b ⋅ x i )
=
a ⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x) ⋅ x i
=
∑(x i − x) 2
∑(x i − x) 2
b ⋅ ∑ ( x i − x) ⋅ x i
=
∑(x i − x)2
deoarece stim ca avem : ∑ ( xi − x) = 0 .
Mai mult , avem : ∑ ( xi − x)2 = ∑ ( xi − x) ⋅ xi , deci in final avem
⎛^⎞
M ⎜⎜ b ⎟⎟ = b
⎝ ⎠
In concluzie :
^
b este un estimator nedeplasat pentru parametrul b
- 19 -
^
2.2.2: Media estimatorului a
^
Din relatia de definitie a lui a se deduce :
⎛^⎞ ⎛ ⎞
( ) ⎛ ^⎞
^
M ⎜ a ⎟ = M ⎜ y − b⋅ x ⎟ = M y − x ⋅ M ⎜ b ⎟ =
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
=M (y) −x⋅b
Dar se stie ca :
⎛ ∑ y i ⎞ ∑ M( y i ) ∑ ( a + b ⋅ xi ) =
( )
M y = M ⎜⎜
n
⎟⎟ =
n
=
n
⎝ ⎠
n ⋅ a + b ⋅ ∑ xi
= = a+b⋅x
n
deci in final obtinem :
⎛^⎞
M ⎜⎜ a ⎟⎟ = a + b ⋅ x − x ⋅ b ⇒
⎝ ⎠
⎛^⎞
⇒ M ⎜a⎟ = a
⎝ ⎠
Asadar :
^
a este un estimator nedeplasat pentru parametrul a
- 20 -
^
2.2.3: Dispersia estimatorului b
Utilizand relatiile din sectiunea 2.2.1 , gasim
⎛^⎞ ⎛ ∑ ( x i − x) ⋅ y i ⎞ ∑ ( x − x) ⋅ D ( y ) =
2 2
D2 ⎜ b ⎟ = D2 ⎜ ⎟= i i
⎝ ⎠ ⎜ ∑ ( x − x) 2
⎝ i
⎟
⎠ [∑ ( x − x) ]
i
2 2
=
∑ ( x − x) ⋅ s
i
2 2
=
s2
[ ∑ ( x − x) ]
i
2 2
∑ ( x i − x) 2
Rezultat :
2⎛
^⎞ s2
D ⎜⎜ b ⎟⎟ =
⎝ ⎠ ∑ ( x i − x) 2
- 21 -
^
2.2.4: Dispersia estimatorului a
^
Urmand formula lui a , avem :
^ ^ ^ 2 ^
2 2 2 2
D ( a ) = D ( y − b⋅ x ) = D ( y ) − 2 ⋅ x ⋅ cov ( y , b ) + x ⋅ D ( b ) ;
deoarece avem
⎛ ∑ y i ∑ ( x j − x) ⋅ y j ⎞
^ ⎜ ⎟
j
cov ( y , b ) = cov ⎜ i
; ⎟=
⎜ n
⎜ ∑ i ( x − x ) 2
⎟
⎟
⎝ i ⎠
∑∑ ( x j − x) ⋅ cov ( y i , y j )
i j
= =
n ⋅ ∑ ( x i − x) 2
i
∑ ( x i − x) ⋅ D 2 ( y j ) + ∑ (
( x j − x ) ⋅ cov y i , y j )
i i≠ j
i , j = 1, n
= =
n ⋅ ∑ ( x i − x) 2
s 2 ⋅ ∑ ( x i − x) + 0
i s2 ⋅ 0
= = = 0`
n ⋅ ∑ ( x i − x) 2 n ⋅ ∑ ( x i − x) 2
i i
Cum avem :
2
D ( y )= D ⎜ 2⎛
⎜ ∑ y i ⎞⎟ = ∑ D 2 ( y i ) = n ⋅ s 2 = s2
,
⎟ n2 n2
⎝ n ⎠ n
deci in final obtinem :

- 22 -
^ 2 ^
2 2 2
D (a)= D ( y )+ x ⋅ D (b )=
2
s2 x ⋅ s2
= + =
n ∑ ( x i − x) 2
2
s 2 ⋅ [ ∑ ( x i − x) 2 + n ⋅ x ]
= .
n ⋅ ∑ ( x i − x) 2
Cum stim ca :
2
∑ ( x i − x) 2 = ∑ x i2 − n ⋅ x ,
in final obtinem :
D 2
^
(a) =
∑ x i2
⋅
s2
n ⋅ ∑ ( x i − x) 2 n
- 23 -
^ ^
2.2.5 : Covarianta estimatorilor a , b
Avem :
⎛^ ^ ⎞ ⎛^ ^ ⎞ ^ ^
cov ⎜⎜ b , a ⎟⎟ = cov⎜⎜ b , y − b⋅ x ⎟⎟ = cov ( b , y ) − x ⋅ D 2 ( b ) =
⎝ ⎠ ⎝ ⎠
x ⋅ s2
= 0 − ;
∑ ( x i − x) 2
In final , am obtinut rezultatul :
⎛^ ^ ⎞ x ⋅ s2
cov ⎜ b , a ⎟ = .
⎝ ⎠ ∑ ( x i − x) 2
== // ==
APLICATIA 2 ( la &2.1 si &2.2 )
Pentru modelul liniar Y = a + b·X + e dispunem de urmatoarele date de sondaj :
xi 1,2 2,5 3,7 4,1 5,6 6,3 7,5

yi 7 13 17 19 25 28 33
^ ^ ^ ^
Sa determinam dispersiile estimatorilor a , b precum si cov ( a , b ) .
- 24 -
Rezolvare :
avem rezultatele urmatoare : ∑x i = 30,9 ; ∑ y i = 142 ; ∑ x i y i = 745 , 6 ; ∑ x i2 = 165 , 49
Asadar , coeficientii dreptei celor mai mici patrate sunt dati de sistemul
⎧⎪ n ⋅ a + b ⋅ ∑ xi = ∑ y i ⎧ 7 ⋅ a + 30, 9b = 142
⎨ ⇒⎨
⎪⎩a ⋅ ∑ x i + b ⋅ ∑ x i = ∑ x i ⋅y i
2
⎩ 30, 9 ⋅ a + 165, 49 ⋅ b = 745, 6
de unde gasim :
⎧ a = 2, 26
⎨ ⇒ dreapta celor mai mici patrate are ecuatia : y = 2,26 + 4, 08 · x.
⎩b = 4, 08
Expresia reziduului este :
^ ^
e i = y i − y i , unde y i = 2,26 + 4, 08 · x i
Valorile estimate ale reziduurilor apar in tabelul urmator :
^
yi 7,16 12,46 17,36 18,99 25,11 27,96 32,86
ei - 0,16 0,54 - 0,36 0,01 0 0,11 0,04 - 0,14
Avem :
− 0, 18
∑e i = − 0 , 18 ⇒ M (e i ) =
7
= − 0, 03
∑ e i2 − [M (e )] 2 = 0 , 07 ⇒ s 2 = 0 , 07
∑ i
e 2
= 0 , 48 ⇒ D 2
( e ) =
n
i
Pe de alta parte , avem :
x=
∑x i
=
30 , 9
= 4 , 414 ⇒
n 7
∑(x − x ) 2 = ∑ x i2 − 2 ⋅ x ⋅ ∑ x i + x = 165 , 49 − 2 ⋅ 4 , 414 ⋅ 30 , 9 + ( 4 ,414) 2 = 29 , 09
2
⇒ i
- 25 -
2
^ s2 0 , 07
deci : ( & 2.2. 3 ) D ( b ) = = = 0 , 024
∑ ( x i − x ) 29, 09
2
2
( & 2.2. 4 ) D ( a ) =
^
∑x 2
i
⋅
s2
=
165 , 49 0 , 07
⋅ = 0 , 01
n⋅ ∑(x − x)
i
2
n 7 ⋅ 29, 09 7
^ ^ x ⋅ s2 4 , 41 ⋅ 0 , 07
( & 2.2. 5 ) cov ( a , b ) = = = 0 , 01
∑ ( xi − x ) 2
29 , 09
2. 2. 3 : Estimarea dispersiei erorilor
2
Ne vom ocupa acum de estimarea dispersiei s a reziduurilor : aceasta cantitate s-a
^ ^
dovedit esentiala in descrierea caracteristicilor estimatorilor a , b .
Dar , prin structura modelului , aceasta nu este cunoscuta apriori si va trebui estimata pe baza
esantionului de care dispunem.
Daca a reusi sa determinam erorile ei , atunci dispersia lor s-ar putea estima prin
estimatorul nedeplasat “ dispersie de selectie modificata “ , dat de expresia :
η 2
=
∑ ( ei − e)2
,
n −1
unde prin e am notat media de selectie a erorilor { ei } .
Din pacate insa , cantitatile { ei } nu sunt observabile direct , ci pot fi estimate numai
prin relatiile :
^ ^ ^ ^ ^
e i = y i − y i , unde : y i = a + b⋅ x i = y + b⋅ ( x i − x ) .
In continuare ,vom utiliza unele dintre rezultatele precedente :
- stim ca media reziduurilor este zero , deci :
^
∑ ( ei − e ) 2 = ∑ ei2 = ∑ ( yi − yi ) 2 :
- deci :
- 26 -
⎡ ^
2⎤
⎛ ^2 ⎞
M ⎢∑ ( y i − y i ) ⎥ = ∑ M( y i ) − ∑ M ⎜ y i ⎟ =
2
⎣ ⎦ ⎜ ⎟
⎝ ⎠
[ ]
⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤
= ∑ D2 ( y i ) + M 2 ( y i ) − ∑ ⎢ D2 ⎜⎜ y i ⎟⎟ + M 2 ⎜⎜ y i ⎟⎟ ⎥
⎣ ⎝ ⎠ ⎝ ⎠⎦
- dar avem :
⎛^ ⎞ ⎛^ ^ ⎞ ⎛^⎞ ⎛^⎞
M ⎜⎜ y i ⎟⎟ = M ⎜⎜ a + b⋅ x i ⎟⎟ = M ⎜⎜ a ⎟⎟ + x i ⋅ M ⎜⎜ b ⎟⎟ =
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
= a + b ⋅ x i = M( y i )
- astfel , inlocuim si gasim :
⎛ ^
⎞ ⎛^ ⎞
M ⎜ ∑ ( y i − y i ) 2 ⎟ = ∑ D2 ( y i ) − ∑ D2 ⎜ y i ⎟ =
⎝ ⎠ ⎝ ⎠
2 ⎛ ⎞
^
= n ⋅ s2 − ∑ ⎝ i ⎟⎠
D ⎜ y
2⎛ ⎞
^
Vom calcula valoarea expresiei D ⎜⎜ y i ⎟⎟ ; avem :
⎝ ⎠
^ ^ ^ ^ ^ ^ ^
D 2 ( y i ) = D 2 (a + b⋅ x i ) = D 2 ( a ) + x i2 ⋅ D 2 ( b ) + 2 ⋅ x i ⋅ cov( a ; b ) =
s 2 ⋅ ∑ x 2j x i2 ⋅ s 2 2 ⋅ xi ⋅ x ⋅ s 2
= + − =
n ⋅ ∑ ( x j − x) 2
∑ j
( x − x ) 2
∑ j( x − x ) 2
s2 ⎛ ∑ x 2j ⎞
= ⋅ ⎜ + x 2
− 2 ⋅ x ⋅ x ⎟=
2 ⎜ n i i
⎟
∑ ( x j − x) ⎝ ⎠
s2 ⎛ ∑ x 2j n x 2 2⎞
= ⋅ ⎜ − + x 2
− 2 ⋅ x ⋅ x + x ⎟=
2 ⎜ n i i
⎟
∑ ( x j − x) ⎝ n
⎠
s2 ⎛ ∑ ( x j − x)2 ⎞
= ⋅ ⎜ + ( x − x ) 2⎟
=
2 ⎜ i
⎟
∑ j
( x − x ) ⎝ n ⎠
⎛1 ( x i − x )2 ⎞⎟
⎜2
=s ⋅ +
⎜ n ∑ ( x j − x )2 ⎟
⎝ ⎠
de unde gasim imediat forma finala , anume ;
- 27 -
⎡ ^
2⎤ 2
⎛
2 ⎜n
M ⎢∑ ( y i − y i ) ⎥ = n ⋅ s − s ⋅ +
∑ ( x i − x) 2 ⎞
⎟
⎣ ⎦ ⎜ n ∑ ( x − x)2 ⎟
⎝ j ⎠
⎡ ^ ⎤
M ⎢∑ ( y i − y i )2 ⎥
⇒ s2 = ⎣ ⎦
n−2
Asadar , estimatorul abaterii medii patratice a erorilor reziduale este :
θ* =
∑ ( y i − y i )2
n−2
- 28 -
2.4 : Inferenta statistica asupra parametrilor modelului
2.4.1: Teste privind panta b a dreptei de regresie
^
Am vazut ca estimatorul b are o distributie normala , si ca avem :
⎧ ^
⎪⎪M (b ) = b
⎨ 2 ^ s2 ;
⎪ D (b ) =
⎪⎩ ∑ ( x i − x) 2
Asadar , expresia :
^
b−b
Z=
^
2
D ( b)
*
are o repartitie normala normata : folosind estimatorul θ pentru s , gasim variabila
aleatoare
^
b−b
T=
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2
care are o repartitie Student , cu ( n-2) grade de libertate .
In cazul testarii ipotezei nule :

- 29 -
⎧ H 0 :b = b 0
⎨ ,
⎩ H 1 :b ≠ b 0
utilizam statistica
^
b−b
tc = .
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2
- Se respinge H0 la pragul de semnificatie α , daca | t c | > t ( α / 2 ; n − 2 )
OBSERVARE : daca se accepta ipoteza H 0 :b = 0 , in raport cu alternativa H 1 :b ≠ 0 ,
atunci Y nu depinde de fapt de X : modelul de regresie devine
y i = a + ei .
Daca insa se respinge H 0 :b = 0 si se prefera H 1 :b ≠ 0 , adica
^
b
tc > ,
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2
relatia dintre Y si X este semnificativa la pragul de semnificatie α .

- 30 -
2.4.2 : Interval de incredere pentru b
Un interval de incredere , cu coeficientul de incredere ( 1 – α ) pentru parametrul b

este dat de legea Student Tn − 2 si deci are aspectul ;
⎛ ^ ^ ⎞
⎜^
⎜ b − t(α / 2;n − 2 ) ⋅
∑ ( y i − y i ) 2 ^
;b + t(α / 2;n − 2 ) ⋅
∑ ( y i − y i)
2 ⎟
⎟,
⎜ (n − 2 ) ⋅ ∑ ( x i − x ) 2 (n − 2) ⋅ ∑ ( x i − x ) 2 ⎟
⎝ ⎠
^ ^
sau , pe scurt : b ± t ( α / 2 ; n − 2 ) ⋅ σ (b ) .
Observare :
acest interval poate fi utilizat si pentru testarea perechii de ipoteze
H 0 : b = b 0 , cu alternativa H1 : b ≠ b 0
- 31 -
2.4.3 : Teste privind taietura a in origine
^
Vom folosi faptul deja demonstrat , anume ca estimatorul a are o repartitie normala ,
cu caracteristicile :
⎧ ^
⎪⎪ M ( a )= a
⎨ 2 ^ s 2 ⋅ ∑ x i2
⎪D ( a ) =
⎪⎩ n ⋅ ∑ ( x i − x )2
Asadar , variabila aleatoare
^
a−a
Z=
^
2
D ( a)
are o repartitie normala normata .
2
Daca s este necunoscut , deci se estimeaza folosind estimatorul
θ =* ∑ ( y i − y i )2
n−2
atunci variabila aleatoare
^
a−a
T=
*
θ ⋅
∑ xi2
n ⋅ ∑ ( x i − x)2
are o repartitie Student , cu ( n-2 ) grade de libertate .

^
In continuare , se imita procedurile pentru b
- 32 -
2.4.4 : Un exemplu numeric
Fie datele :
xi 1 3 7 11 14
y i 4 9 15 26 32
Sa determinam dreapta celor mai mici patrate si sa efectuam testarile corespunzatoare .
Avem urmatoarele valori estimate :
1
• x = ⋅ ( 1 + 3 + 7 + 11 + 14 ) = 7,2
5
1
• y = ⋅ ( 4 + 9 + 15 + 26 + 32 ) = 17, 2
5
deci obtinem tabelul :
x i − x -6,2 -4,2 -0,2 3,8 6,8
y i − y -13,2 -8,2 -2,2 8,8 14,8
Atunci :
• ∑ ( x i − x ) ⋅ ( y i − y ) = 250 , 8
deci :
• ∑ ( x i − x )2 = 116 , 8
^
• b=
∑ ( xi − x) ⋅ ( y i − y ) = 250 ,8 = 2 , 147 ;
∑ ( x i − x )2 116, 8
^ ^
• a = y − b⋅ x = 17 , 2 − 2, 147 ⋅ 7 , 2 = 1 , 742 .
- 33 -
^ ^
Reziduurile estimate se determina cu relatia e i = y i − y i , unde valorile calculate y i ale
variabilei Y se determina prin inlocuirea in ecuatia dreptei , deci
^ ^ ^
y i = a + b⋅ x i = 1 , 742 + 2 , 147 ⋅ x i ;
obtinem tabelul :
xi 1 3 7 11 14
yi 4 9 15 26 32
^
y i 3, 9 8,18 16,77 25,36 31,8
ei 0,1 0,82 - 1,77 0,64 0,2
Indicele de determinare ,
^2 2
R = 2 ∑ yi − n ⋅ y
2
∑ y i2 − n ⋅ y
devine :
2017, 725 − 5 ⋅ ( 17, 2)2

R2 = = 0 , 992 .
2022 − 5 ⋅ ( 17, 2)2
Deci variatia lui Y este determinata in proportie de 99 , 2% de catre variatia lui X .
^ ^
Sa trecem la estimarea repartitiei estimatorilor a , b : pentru aceasta trebuie estimat intai
abaterea medie patratica a reziduurilor .
Avem :
^
*
θ =
∑ ( y i − y i )2 = 4 , 265
= 1 , 192 :
n−2 3
aceasta valoare constituie o estimare nedeplasata a lui s .

- 34 -
Atunci :
2
^s2
valoarea estimata pentru D ( b ) = va fi data de :
∑ ( x i − x)2
1 , 1922
= 0 , 012 = ( 0 , 1103 )2
116 ,8
^
Deci abaterea standard a variabilei aleatoare b este : σ ^ = 0 , 1103 .
b
Valoarea estimata pentru D ( a ) = s

2
^
2
⋅
∑ x i2
va fi deci
n ⋅ ∑ ( x i − x )2
376
( 1 , 192)2 ⋅ = 0 , 9148 = ( 0 , 9565 )2 .
5 ⋅ 116 , 8
^
Deci abaterea standard a variabilei aleatoare a este : σ^ = 0 , 9565 .
a
^ ^
Acum se poate trece la efectuarea de teste privind valorile a , b .
Alegem pragul α = 0 , 90 ; din tabela Student citim
t ( α / 2 ; n − 2 ) = t ( 0 , 45 ; 3 ) = 2 , 6 .
- Verificarea ipotezei : H 0 : b = 3 , cu alternativa H1 : b ≠ 3 ;
^
b − 3 2 , 147 − 3
Avem : t c = = = − 7 , 73 ; cum avem | t c | > t ( 0 , 45 ; 3 ) ,
σ^ 0, 1103
b
deducem ca , la pragul α = 0 , 90 se respinge H0 si se prefera H1 .
- Interval de incredere pentru b :
Pentru α = 0 , 90 avem intervalul : ( 2 , 147 ± 2 ,6 ⋅ 0 ,1103 ) = ( 1 ,86 ; 2,434) .

- 35 -
Asadar , pentru valoarea estimata a lui b se poate alege orice valoare din acest interval : evident
~
ca valoarea cea mai tentanta este b = 2.
- Verificarea ipotezei : H 0 : a = 1 , cu alternativa H1 : a ≠ 1
1 , 742 − 1 se accepta H 0
Avem t c = = 0 ,7757 < t ( 0 , 45 ; 3 ) = 2 , 6 , deci : .
0 ,9565 se respinge H1
- Interval de incredere pentru a : avem
( 1 , 742 ± 2 ,6 ⋅ 0 , 9565 ) = ( − 0 , 745 ; 4 , 23) .
Observare : daca Y reprezinta beneficiul realizat in urma producerii unei cantitati X de produs
atunci este important sa avem : X = 0 → Y=0 ( daca nu produc nimic , beneficiul
este zero ) : cum valoarea a = 0 apartine intervalului ( − 0 , 745 ; 4 , 23 ) , datele problemei ar
putea confirma că avem un model de evaluare a nivelului beneficiului in functie de nivelul
productiei .
2.4.5 : Interval de incredere pentru a
Un interval de incredere de nivel ( 1- α ) pentru parametrul a este definit de relatia
^ ^ ^ ^
( a − t ( α / 2, n − 2 ) ⋅ σ( a ) ; a − t ( α / 2, n − 2 ) ⋅ σ( a ) ) ,
sau :
^ ^
a ± t ( α / 2, n − 2 ) ⋅ σ( a ) .
Asadar : - se respinge ipoteza H 0 : a = a 0 , in raport cu ipoteza alternativa H1 : a ≠ a 0
la pragul de semnificatie α daca valoarea a 0 nu apartine intervalului

^ ^
a ± t ( α / 2, n − 2 ) ⋅ σ( a ) .
- 36 -
2.4.6 : Interval de incredere pentru μ Y ( x )
Vom gasi acum interval de incredere pentru μ Y ( x ) = a + b ⋅ x .
S-a stabilit ca estimatorul lui μ Y ( x ) este dat de dreapta celor mai mici patrate ,
^ ^ ^
adica : y ( x ) = a + b⋅ x .
^
Estimatorul y ( x ) este normal distribuit , deoarece este o combinatie liniara de doi estimatori
cu repartitie normala .
Stim ca acest estimator este nedeplasat , si ca are abaterea standard
2⎛
^ ⎞ ⎛1 ( x − x)2 ⎞
σ ⎜⎜ y ( x ) ⎟⎟ = s 2 ⋅ ⎜ + ⎟.
⎜n ⎟
⎝ ⎠ ⎝ ∑ ( x i − x)2 ⎠
Se observa ca daca valoarea lui x este relativ indepartata de valoarea x , valoarea

dispersiei estimatorului este relativ mare si deci estimatorul devine neprecis : atunci , pentru
astfel de valori , estimarea lui μ Y ( x ) este bine sa nu se faca cu dreapta de regresie .
In continuare , expresia
^
y(x) − μ Y (x)
Z=
⎛^ ⎞
σ ⎜⎜ y ( x ) ⎟⎟
⎝ ⎠
are o repartitie normala normata .
2
Cum dispersia s a rezidurilor este necunoscuta , nu putem utiliza statistica Z , si va
trebui sa estimam s prin estimatorul θ* =

∑ ( y i − y i )2 : atunci folosim statistica
n−2
^
y(x) − μ Y (x)
T=
* 1 ( x − x)2
θ ⋅ +
n ∑ ( x i − x)2
- 37 -
care are o repartitie Student cu ( n-2) grade de libertate .
Intervalul de incredere de nivel ( 1 – α ) pentru μ Y ( x ) este
^ 1 ( x − x)2
y ( x ) ± t ( α / 2 , n − 2 ) ⋅ θ* ⋅ + , unde
n ∑ i( x − x ) 2
θ* =
∑ ( y i − y i )2 .
n−2
2.5 : Analiza dispersionala
Reamintim ca in sectiunea 1 . 3 am gasit relatia
^ ^
∑ ( y i − y )2 = ∑ ( y i − y ) 2 + ∑ ( y i − y i )2
unde :
- Sg = ∑ ( y i − y )2 este variatia totala ;
^
- Se = ∑ ( y i − y ) 2 este variatia explicata prin regresie ;
^
- Sr = ∑ ( y i − y i )2 este variatia reziduala sau variatie ne-explicata .
Acum vom folosi aceste relatii pentru a testa ipoteza H 0 : b = 0 .
Daca aceasta ipoteza este adevarata , atunci se poate demonstra ca mediile variatiilor devin
respectiv :
- 38 -
M (S g ) = (n − 1) ⋅ s 2
M (S e ) = s 2 ;
M (S r ) = (n − 2 ) ⋅ s 2
pornind de la aceste relatii , suntem incurajati sa introducem urmatorii estimatori
Sg
D2g = − dispersia globala
n −1
S
D 2e = e − dispersia exp licata
1
Sr
D 2r = − dispersia reziduala
n−2
2 2 2
Se stie ca daca ipoteza H0 este verificata , atunci D g , D e , D r sunt toti trei
2 2
estimatori nedeplasati ai lui s : daca H0 este falsa , atunci numai D r este estimator
2
nedeplasat al lui s .
Sg Se S
Daca ipoteza H0 este verificata , atunci statisticile 2
, 2
si 2r urmeaza cate o
s s s
2
repartitie χ , avand respectiv : n – 1 ; 1 si n-2 grade de libertate .
Mai mult , daca ipoteza H0 este verificata , aceste statistici sunt independente doua
cite doua .
ASADAR :
Daca ipoteza H0 este verificata , statistica
Sg
1 ⋅ s 2 D2 g
Fc = = 2
Sr D r
2
(n − 2) ⋅ s
urmeaza o lege Fisher cu ( 1 ; n-2 ) grade de libertate

- 39 -
Se poate utiliza statistica Fc pentru a decide acum daca ipoteza H 0 : b = 0 este adevarata
sau falsa : astfel , se respinge ipoteza H 0 la pragul de semnificatie α daca avem
Fc > F( α , 1 , n − 2 )
unde F( α , 1 , n − 2 ) este cuantila ( 1 – α) a repartitiei Fisher cu ( 1 ; n-2 ) grade de libertate

,care se citeste in tabele .
Calculele se sistematizeaza deobicei intr-un tabel , numit tabel ANOVA ( ANOVA = analysis
of variation ) :
felul grade Testul

variatiei de variatia dispersia Fisher
libertate
explicata 1 ^ Se
S e = ∑ ( y i − y )2 D 2e =
D 2e
1 Fc = 2
D r
reziduala n – 2 ^ Sr
Sr = ∑ ( y i − y i )2 D 2r =
n−2
totala 1+(n–2)=
=n-1 S g = Se + Sr XXXXXX XXXXX
2.6 : Modele cu un singur parametru
2.6.1 : Modele fara variabila explicativa
Pornim de la ipoteza ca modelul de regresie are aspectul
y i = a + ei .
Ipotezele raminand cele generale , avem :
⎧⎪M ( y i ) = a
⎨ 2 .
⎪⎩ D ( y i ) = s 2
^
Fie a 0 - un estimator pentru a : atunci pot fi definite
- 40 -
^ ^
- valorile estimate : y i = a 0 ;
^ ^
- reziduurile : e i = y i − y i = y i − a 0 .
^
Estimatorul a 0 va fi determinat prin metoda celor mai mici patrate ,adica prin conditia de
minimum pentru eroarea globala
z = f (a 0 ) = ∑ ( y i − a 0 ) 2
Dupa cum stim , aceasta conditie este
dz
= 0 ⇔ − 2 ⋅ ∑ ( y i − a0 ) = 0 .
d a0
Gasim asadar :
^
a0 =
∑ yi = y .
n
Inlocuind , obtinem :
⎧ 2 ^
⎪ r ∑ i i ) = ∑ ( y i − y ) = Sg
2 2 2
S = ( y − y
⎨ ^ ^ ^
⎪S 2 = ( y − y ) 2 = ( y − y ) 2 = 0 .
⎩ e ∑ i ∑ i i
^ ^
Estimatorul a = y i este repartizat normal cu :
⎛^⎞
- media : M ⎜⎜ a ⎟⎟ = M ( y ) = M ( y i ) = a 0
⎝ ⎠
2⎛ ⎞
^
2 D2 ( y i ) s 2
- dispersia : D ⎜⎜ a ⎟⎟ = D ( y ) = = .
⎝ ⎠ n n
Pe de alta parte , media sumei patratelor reziduurilor este :

- 41 -
⎡ ^ ⎤
M ⎢∑ ( y i − y i )2 ⎥ = M [ ∑ ( y − y ) ] = (n − 1) ⋅ s
i
2 2
⎣ ⎦
2
Astfel , obtinem un estimator nedeplasat pentru s din relatiile precedente , anume :
^
2
s =
∑ ( y i − y i )2
=
∑ ( y i − y )2 .
n −1 n −1
^⎞ s2 2⎛
⎜ ⎟
De aici , obtinem si un estimator nedeplasat pentru D ⎜ a ⎟ = .
⎝ ⎠ n
2.6.2 : Modele fara constanta
Un model fara parte constanta are aspectul
y i = b ⋅ x i + ei
Stim ca y i sunt variabile independente cu repartitie normala , deci avem
M ( y i ) = b ⋅ x i + M( ei ) = b ⋅ x i
.
D 2 ( y i ) = D 2 ( b ⋅ x i ) + D 2 (e i ) = s 2
^
Folosind un estimator b a lui b , putem defini valorile estimate
^ ^
y i = b⋅ x i
^ ^
si reziduurile e i = y i − y i = y i − b⋅ x i .
^
Estimatorul b este dat de metoda celor mai mici patrate si are aspectul :
- 42 -
^
b =
∑ xi ⋅ y i
∑ xi2
Specificul unui model de regresie fara constanta este faptul ca dreapta de regresie
^
estimata nu trece prin punctul de coordonate ( x , y ) si ca relatia ∑ y i = ∑ y i nu mai este
adevarata .
Asadar , suma rezidurilor nu este nula , si nu mai avem : Sg = Se + Sr .
In schimb , dupa cum vom arata , este adevarata relatia :
^2 ^
∑ yi = ∑ yi ⋅ yi
In adevar :
( )
2
^ ⎛ ∑ xi ⋅ y i ⎞ ∑ x ⋅ y
2
∑ y i = ⎜⎜ x 2 ⎟⎟ ⋅ ∑ xi =
2 2 i i
=
⎝ ∑ i ⎠ ∑ x 2
i
⎛ n ⎞
⎜ ∑ xj ⋅ y j ⎟
∑ xi y i ⋅ ∑ xi y i = ∑ n ⎜
j= 1 ⎟
= ⎜ ⎟ ⋅ xi ⋅ y i =
∑ i x 2
i =1 ⎜
n
x 2j ⎟
⎜ ∑ ⎟
⎝ j= 1 ⎠
^
= ∑ yi ⋅ yi
Asadar , avem relatia :
^ ^
∑ ( yi − yi ) = ∑2
y i2 − ∑ yi .
^
Estimatorul b are distributie normala , cu
⎛^⎞
- media : M ⎜⎜ b ⎟⎟ =
∑ xi ⋅ M( y i ) = b ⋅ ∑ xi2 =b ;
⎝ ⎠ ∑ xi2 ∑ xi2
- 43 -
2⎛
^⎞
∑ x i2 ⋅ D2 ( y i ) s 2 ⋅ ∑ x i2 s2
⎜⎜ b ⎟⎟ = = =
- dispersia : D
⎝ ⎠ ( ∑ i x )
2 2
( ∑ xi ) ∑ xi2
2 2
.
^
Valorile estimate y i sunt deasemeni repartizate normal , cu
⎛^ ⎞ ⎛^ ⎞ ⎛^⎞
- media : M ⎜⎜ y i ⎟⎟ = M ⎜⎜ b⋅ x i ⎟⎟ = x i ⋅ M⎜⎜ b ⎟⎟ = x i ⋅ b = M( y i )
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
2⎛ ⎞^
2⎛
^ ⎞ 2 2⎛ ^ ⎞ x i2
- dispersia : D ⎜⎜ y i ⎟⎟ = D ⎜⎜ b⋅ x i ⎟⎟ = x i ⋅ D ⎜⎜ b ⎟⎟ = ⋅ s2 .
⎝ ⎠ ∑ xj
2
⎝ ⎠ ⎝ ⎠
j
Pentru media sumei patratelor reziduurilor , avem :
⎛ ^
2⎞
⎛ ^2 ⎞ ^
M ⎜⎜ ∑ i i ⎟ ⎜⎜
( y − y ) ⎟ = M ∑ y i2 − ∑ y i ⎟ = ∑ D2 ( y i ) − ∑ D2 ( y i ) =
⎟
⎝ ⎠ ⎝ ⎠
= n⋅s − s 2 2
⋅
∑ x i2
= ( n − 1 ) ⋅ s2
∑ xi 2
2
Deci un estimator nedeplasat al lui s se obtine punand :
^
* 2
(s ) =
∑ ( y i − y i )2
.
n −1
^⎞
2⎛
Un estimator pentru D ⎜ b ⎟⎟ va fi atunci dat de :
⎜
⎝ ⎠
~2 ^ ( s* ) 2
σ (b) = .
∑ i x 2
Se demonstreaza ca expresia :
- 44 -
^
b− b
T= ~ ^
σ ( b)
are o repartitie Student cu ( n-1 ) grade de libertate .
CAPITOLUL 3 : REGRESIA MULTIPLA
3.01 : Hiperplanul de regresie
Se considera cazul unei variabile explicate , Y , si un numar de ( p-1) variabile

explicative , anume X1 , X2 , …, Xp-1 .
Vom studia cazul existentei unui model liniar stochastic de tipul
Y = b 0 + b1 ⋅ X1 + b 2 ⋅ X 2 + ... + b p − 1 ⋅ Xp − 1 + e
Folosind un esantion de “n” indivizi , obtinem datele care au aspectul :
( x11 , x12 ,..., x1,p − 1 ; y 1 ) ; ( x 21 , x 22 ,..., x 2,p − 1 ; y 2 ) ; ... ; ( xn1 , xn 2 ,..., xn ,p − 1 ; y n ) .
Valabilitatea modelului liniar stochastic mentionat revine la a presupune ca pentru

fiecare i = 1, n avem relatia
y i = b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p − 1 ⋅ x i ,p − 1 + e i .
Si la acest model , se considera ca valorile { x ij } au caracter determinist , pe cand { y i } sunt

considerate variabile aleatoare .
3.02 : Model de regresie cu doua variabile explicative
Vom studia pentru inceput cazul a doua variabile explicative , caz in care
modelul devine :
y i = b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 + ei
- 45 -
^
Urmeaza determinarea de estimatori { b i }i =1, 3 pentru parametrii { b i }i =1, 3 .
Valorile estimate ale variabilei explicate Y vor fi atunci
^ ^ ^ ^
y i = b 0 + b1 ⋅ x i 1 + b 2 ⋅ x i 2
iar reziduurile { ei }i =1, 3 ar urma sa fie date prin
^ ^ ^ ^
ei = y i − y i = y i − (b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 ) .
Pentru construirea estimatorilor , se utilizeaza tot metoda celor mai mici patrate , adica se
urmareste minimizarea sunei patratelor reziduurilor :
f ( b1 , b 2 , b 3 ) = ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 )2 = min .
Conditiile necesare de extrem sunt :
⎧ ∂f
⎪ ∂b = − 2 ⋅ ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 ) = 0
⎪ 0
⎪ ∂f
⎨ = − 2 ⋅ ∑ x i 1 ⋅ ( y i − b 0 − b1 ⋅ x i 1 − b 2 ⋅ x i 2 ) = 0
∂
⎪ 1 b
⎪ ∂f = − 2 ⋅ x ⋅ ( y − b − b ⋅ x − b ⋅ x ) = 0
⎪ ∂b ∑ i 2 i 0 1 i1 2 i 2
⎩ 2
Se obtine sistemul ecuatiilor normale :
⎧ ^ ^ ^
⎪ n b 0 + b 1 ⋅ ∑ i1 2 ⋅ ∑ x i 2 = ∑ y i
x + b
⎪^ ^ ^
⎨ b 0 ⋅ ∑ xi1 + b1 ⋅ ∑ xi1 + b 2 ⋅ ∑ xi1 ⋅ xi 2 = ∑ xi1 ⋅ y i
2
⎪^ ^ ^
⎪b 0 ⋅ ∑ xi 2 + b1 ⋅ ∑ xi1 ⋅ xi 2 + b 2 ⋅ ∑ xi 2 = ∑ xi 2 ⋅ y i
2
⎩
- 46 -
Nu vom utiliza acest sistem in continuare : se trece la rezolvarea matriceala in paragraful

urmator.
3.03 : Cazul matriceal
Pentru a descrie matriceal sistemul ecuatiilor normale , vom introduce matricile :
- matricea valorilor variabilelor determinante :

⎛ 1 x11 x12 ... x1,p −1 ⎞
⎜ ⎟
⎜ 1 x 21 x 22 ... x 2,p −1 ⎟
X=⎜
... ... ... ... ... ⎟
⎜ ⎟
⎜ 1 x n1
⎝ xn 2 ... xn ,p −1 ⎟⎠
- vectorul estimatorilor :
⎛ ^ ⎞
⎜ b0 ⎟
^ ⎜ ^ ⎟
b = ⎜ b1 ⎟ ;
⎜ ... ⎟
⎜^ ⎟
⎜ bp −1 ⎟
⎝ ⎠
- vectorul valorilor estimate :
⎛^ ⎞
⎜ y0 ⎟
^ ⎜^ ⎟
y = ⎜ y1 ⎟ ;
⎜ ⎟
⎜ ^... ⎟
⎜y ⎟
⎝ n⎠
- vectorul reziduurilor :
- 47 -
⎛ e1 ⎞
⎜ ⎟
⎜ e2 ⎟
e =⎜ ⎟ .
...
⎜ ⎟
⎜e ⎟
⎝ n⎠
In scriere matriceala ,
- modelul de regresie devine : y = X ⋅ b + e ;

^ ^
- vectorul valorilor estimate devine : y = X ⋅ b ;
^
- vectorul reziduurilor devine : e = y − y ;
Suma patratelor reziduurilor se calculeaza prin expresia matriceala
^ ^ ^ ^
∑ ei2 = e'⋅e = ( y − y )'⋅ ( y − y ) = ( y − X ⋅ b )'⋅( y − X ⋅ b ).
^
Pentru scalarul b'⋅ X'⋅y avem
^ ^ ^ ^
y'⋅y − b'⋅ X'⋅y − y'⋅ X ⋅ b + b'⋅ X'⋅ X ⋅ b ,
deci expresia ∑ ei2 devine :
^ ^ ^ ^
e'⋅e = y'⋅y − b'⋅ X'⋅y − y'⋅X ⋅ b + b'⋅ X'⋅X ⋅ b =
^ ^ ^
= y'⋅y − 2 ⋅ b'⋅X'⋅y + b'⋅X'⋅ X ⋅ b
^
Derivand expresia obtinuta in raport cu vectorul b , obtinem conditia necesara de extrem :
^
− 2 ⋅ X'⋅y + 2 ⋅ X'⋅X ⋅ b = 0
^
Asadar , estimatorul b se obtine din ecuatia matriceala :
- 48 -
^ ^
X'⋅ X ⋅ b = X'⋅y ⇒ b = ( X'⋅ X)−1 ⋅ X'⋅y
3.04 : Proprietatile metodei celor mai mici patrate
- Proprietatea 1 : Esta adevarata urmatoarea relatie matriceala :
^ ^ ^ ^
y'⋅ y = y'⋅y = y'⋅ y .
In adevar :
^ ^ ^ ^ ^ ^
y'⋅ y = ( X ⋅ b )'⋅ X ⋅ b = b '⋅ X'⋅X ⋅ b =
^
= b '⋅X'⋅ X ⋅ ( X'⋅ X ) −1 ⋅ X'⋅y =
^ ^ ^
= b '⋅X'⋅y = ( X ⋅ b )'⋅y = y'⋅y
Atunci avem :
^ ^ ^ ^
e'⋅e = ( y − y )'⋅( y − y ) = ( y' − y') ⋅ ( y − y ) =
^ ^ ^ ^
= y'⋅y − y'⋅ y − y'⋅y + y' ⋅ y =
^ ^
= y'⋅y − y' ⋅ y
In final , suma patratelor reziduurilor se poate exprima astfel :
^ ^2
∑ e i2 = ∑ ( yi − yi ) = ∑ 2
y i2 − ∑ yi .
== // ==
- 49 -
- Proprietatea 2 : din prima ecuatie normala , anume :
^ ^ ^
n b 0 + b 1 ⋅ ∑ x i1 + b 2 ⋅ ∑ x i 2 + .... = ∑ y i ,
prin impartire cu “ n “ gasim :
^ ^ x i1 ^ x y
b 0 + b1 ⋅ ∑ + b 2 ⋅ ∑ i 2 + ... = ∑ i ,
n n n
sau :
^ ^ ^
b 0 + b1 ⋅ x1 + b 2 ⋅ x 2 + ... = y ⇒
^ ^ ^
⇒ b 0 = y − b 1 ⋅ x1 − b 2 ⋅ x 2 − ...
Deci : planul de regresie multipla trece prin punctul mediu , de coordonate
A = ( x1 , x 2 ,... , x p −1 , y ) .
== // ==
- PROPRIETATEA 3 :
^
Este adevarata relatia ∑ y i = ∑ y i ; in adevar :
^ ^ ^ ^ ^
∑ y i = ∑ (b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 ) =
^ ^ ^ ^
= ∑ b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1
^ ^ ^
= n ⋅ b 0 + b 1 ⋅ ∑ x i1 + ... + b p −1 ⋅ ∑ x i ,p −1 =
^ ^ ^ ^
= n ⋅ ( y − b 1 ⋅ x1 − b 2 ⋅ x 2 − .... ) + b 1 ⋅ n ⋅ x1 + b 2 ⋅ x 2 + ... =
= n ⋅ y = ∑ yi .
- 50 -
^
Ca o consecinta , avem : ∑ e i = ∑ y i − ∑ y i = 0 , deci suma reziduurilor , precum si
media reziduurilor , sunt egale cu zero .
== // ==
- Proprietatea 5 ; Expresia variatiei globale , explicate si reziduale
Vom porni de la relatia :
^ ^2 ^ 2
∑ (y i − y ) = ∑ y i − 2 ⋅ y ⋅ ∑ y i + n ⋅ y =
2
^2 2
= ∑ yi − 2⋅ y ⋅ ∑ yi + n ⋅ y =
^2 2 2
= ∑ yi − 2⋅ n ⋅ y + n ⋅ y =
^2 2
= ∑ yi − n ⋅ y .
De aici , obtinem :
^ ^
∑ (y i − y )2 + ∑ ( y i − y i )2 =
⎡ ^2 2⎤ ⎡ ^2⎤
= ⎢∑ y i − n ⋅ y ⎥ + ⎢∑ y i − ∑ y i ⎥ =
2
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
2
= ∑ y i2 − n ⋅ y = ∑ ( y i − y ) 2
Am obtinut ecuatia care leaga cele trei variatii , anume :
^ ^
∑ ( y i − y ) = ∑ (y i − y )
2 2
+ ∑ ( y i − y i )2
⇔ Sg = Se + Sr .
== // ==
- 51 -
- Proprietatea 6 : Coeficientul de determinare
Definim si acum
Se
R2 = .
Sg
Interpretarea acestuia ramine cea din capitolul precedent.
3.05 : Ipotezele modelului
Ecuatia hiperplanului de regresie , in scriere matriceala , este :
y= X⋅b+e
unde vectorul aleator e urmeaza o lege normala multidimensionala , avand caracteristicile
M ( e) = 0 ; D 2 ( e ) = s 2 ⋅ E n ,
adica :
• M( e1 ) = M( e 2 ) = ... = M (e n ) = 0
⎛ D 2 (e 1 ) cov( e1 , e 2 ) ... cov( e1 , e n ) ⎞⎟
⎜
⎜ cov( e1 , e 2 ) D 2 (e 2 ) ... cov( e 2 , e n ) ⎟
•⎜ ⎟=
⎜ ... ... ... ... ⎟
⎜ cov( e , e ) cov( e , e ) ... D (e n ) ⎟⎠
2
⎝ n 1 n 2
⎛ s2 0 ... 0 ⎞⎟
⎜
⎜ 0 s2 ... 0 ⎟
=⎜ ⎟
⎜ ... ... ... ... ⎟
⎜0 0 ... s 2 ⎟⎠
⎝
Cu alte cuvinte , variabilele aleatoare {e i }
- sunt doua cate doua independente

- sunt identic repartizate
- urmeaza fiecare repartitia N( 0 ; s ) .
Ca o consecinta , vectorul aleator y urmeaza si el o repartitie normala multidimensionala ,

- 52 -
2 2
avand caracteristicile : M ( y ) = X ⋅ b ; D ( y ) = s ⋅ E n .
Altfel spus , avem :
M ( y ) = b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 .
Estimatorul vectorului b este un estimator nedeplasat ; in adevar , avem :
^
M (b ) = M [ ( X'⋅X) −1 ⋅ X'⋅y ] = ( X'⋅X) −1 ⋅ X'⋅ M( y ) =
= ( X'⋅X) −1 ⋅ X'⋅ b = b .
^
In ce priveste dispersia estimatorului b , avem :
^
D 2 (b ) = D 2 [ ( X'⋅ X) −1 ⋅ X'⋅y ] =
= ( X'⋅X) −1 ⋅ X'⋅ ( ( X'⋅ X) −1 ⋅ X' )'⋅ D 2 ( y ) =
= ( X'⋅X) −1 ⋅ X'⋅ X ⋅ ( X'⋅X) −1 ⋅ s 2 =
= ( X'⋅ X) −1 ⋅ s 2
3.06 : Estimarea dispersiei erorilor
2
Pentru estimarea dispersiei comune s a erorilor , vom porni de la relatia
^
∑ (e i − e) 2 = ∑ e i2 = ∑ ( y i − y i ) 2 .
Avem :
- 53 -
⎡ ^2⎤ ⎛^2 ⎞
⎡ 2⎤
( )
^
M ⎢∑ ( y i − y i ) ⎥ = M ⎢∑ y i − ∑ y i ⎥ = ∑ M y i − ∑ M ⎜ y i ⎟ =
2 2
⎣ ⎦ ⎢⎣ ⎥⎦ ⎜ ⎟
⎝ ⎠
[ ]
⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤
= ∑ D 2 ( y i ) + M 2 ( y i ) − ∑ ⎢ D 2 ⎜⎜ y i ⎟⎟ + M 2 ⎜⎜ y i ⎟⎟ ⎥
⎣ ⎝ ⎠ ⎝ ⎠⎦
si deci :
^ ^
D ( y ) = D ( X ⋅ b ) = D 2 [ X ⋅ ( X'⋅ X) −1 ⋅ X'⋅y ] =
2 2
= [ X ⋅ ( X'⋅ X) −1 ⋅ X' ] ⋅ [ X ⋅ ( X'⋅ X) −1 ⋅ X' ]'⋅D 2 ( y ) =

= [ X ⋅ ( X'⋅X) −1 ⋅ X' ] ⋅ [ X ⋅ ( X'⋅X) −1 ⋅ X' ]'⋅E n ⋅ s 2 =
= X ⋅ ( X'⋅X) −1 ⋅ X'⋅ s 2
^ −1
Asadeci , dispersiile cantitatilor y se afla pe diagonala matricii H = X ⋅ ( X'⋅ X ) ⋅ X' ,
i
2
inmultite cu s .
Atunci avem :
^ ^
M [ ∑ ( y i − y i )2 ] = ∑ D2 (y i ) − ∑ D2 ( y i ) =
= n ⋅ s 2 − s 2 ⋅ Tr ( H ) ,
unde Tr(H) este urma matricii H ( = suma elementelor de pe diagonala matricii ).
−1
Dar avem : Tr ( H ) = Tr [ X ⋅ ( X'⋅ X ) ⋅ X' ]= Tr [ ( X'⋅ X) −1 ⋅ ( X'⋅X) ]
deci
Tr ( H ) = Tr [ E p ] = p .
^
Atunci : M [ ∑ ( y i − y i ) 2 ] = (n − p ) ⋅ s 2 .
2
Se poate defini deci un estimator nedeplasat pentru s , prin
^
* 2 ∑ ( yi − yi )
2
S Sg − Se
(θ ) = = r = ,
n−p n−p n−p
sau :
- 54 -
θ* =
∑ ( y i − y i )2 .
n−p
3.07 : Inferente statistice asupra parametrilor modelului
^
Am vazut ca vectorul b urmeaza o lege normala multidimensionala , cu media
^ ^
M (b ) = b si cu dispersia D2 (b ) = ( X'⋅ X)−1 ⋅ s 2 .
^
Asadar , estimatorii b j au repartitii normale , cu media b j .
^
2
Dispersiile estimatorilor b j depind de cantitatea necunoscuta s care se poate estima cu
*
estimatorul θ prezentat in sectiunea precedenta .
^
2 −1
Avem deci estimarea D (b ) = ( X'⋅ X ) ⋅ (θ* )2 .
(0) (0)
Pentru a testa ipoteza nula H 0 :b j = b j cu alternativa H1 :b j ≠ b j ,se poate folosi
statistica
^
b j − b(j0 )
tc = ^
σ (b j )
Daca ipoteza H 0 este adevarata , statistica t c are o repartitie Student cu ( n-p) grade de
libertate . Asadar , se respinge H 0 la pragul α daca avem
| t c | > t ( α / 2, n − p ) .
Folosind aceeasi statistica , se pot determina intervalele de incredere pentru b j .

- 55 -
CAPITOLUL 4 : TEORIA CORELATIEI
4.01 : Masurarea corelatiei : proprietati
Ca functie de doua variabile , corelatia are urmatoarele proprietati de baza :
- corelatia este pozitiva daca dependenta dintre caracteristici are caracter crescator ,
adica : cresterea valorii caracteristicii determinante duce la o crestere a mediei
caracteristicii determinate ;
- corelatia este negativa daca dependenta dintre caracteristici are caracter descrescator
adica : cresterea valorii caracteristicii determinante duce la o descrestere a mediei
caracteristicii determinate ;
- corelatia este nula , daca variabilele sunt independente , sau : modificarea valorii
caracteristicii determinante lasa neschimbata media caracteristicii determinate
NOTA : am facut aceasta precizare , deoarece este posibil sa avem situatii ca
aceasta : modificarea valorii caracteristicii determinante nu modifica
media caracteristicii determinate , dar ii modifica ( de exemplu)
dispersia ; din punct de vedere practic , intr-un astfel de caz
caracteristica determinanta are influenta asupra caracteristicii
determinate .
- valoarea numerica a corelatiei trebuie sa fie independenta fata de unitatile de masura
folosite pentru cele doua variabile ;
- corelatia trebuie sa fie o marime simetrica a dependentei , adica corelatia dintre
X si Y trebuie sa fie egala cu corelatia dintre Y si X .
4.02 : Coeficientul de corelatie ( recapitulare )
Cea mai utilizata masura a corelatiei este coeficientul de corelatie al lui Pearson ,
anume :
Cov ( X , Y )
ρ XY = .
2 2
D ( X) ⋅ D ( Y )
Reamintim ca pentru covarianta avem definitia:
cov ( X , Y ) = M [ ( X − m X ) ⋅ ( Y − m Y ) ] = M( X ⋅ Y ) − M( X) ⋅ M( Y ) .
Principalele proprietati ale covariantei sunt urmatoarele :

- 56 -
⎧ • cov ( X , X) = D 2 ( X )
⎪
⎪ • cov ( X , Y ) = cov ( Y, X )
⎨
⎪ • cov ( a ⋅ X + b , Y ) = a ⋅ cov( X , Y )
⎪⎩• cov( X + Y, Z ) = cov( X , Z ) + cov( Y, Z )
In plus , avem : X , Y – independente ⇒ cov ( X , Y ) = 0.
NOTA : dar afirmatia reciproca nu este adevarata : este posibil sa avem covarianta
zero , dar variabilele X , Y sa fie dependente : daca cov ( X , Y ) = 0 ,
vom spune ca X , Y sunt variabile necorelate ( ceeace in practica inseamna
ca se poate considera ca nu se influenteaza ).
Folosind proprietatile covariantei , se deduc proprietatile coeficientului de corelatie ρ .
Acestea sunt urmatoarele :
• − 1 ≤ ρ XY ≤ 1 ;
• daca avem ρ XY = 1 , variabilele X , Y sunt legate printr-o relatie liniara crescatoare,
Y = a + b ⋅ X , unde avem b > 0 ;
• daca avem ρ XY = − 1 , variabilele X , Y sunt legate printr-o relatie liniara

descrescatoare, Y = a + b ⋅ X , unde avem b < 0 ;
• daca variabilele X , Y sunt independente atunci avem ρ XY = 0 ,
• coeficientul de corelatie nu se modifica , daca unitatile de masura pentru cele doua varia-
bile se schimba , adica :
ρ ( X , Y ) = ρ ( a ⋅ X + b , p ⋅ Y + q ) ⋅ sgn ( a ⋅ p )
Aici prin “ sgn(x) “ intelegem semnul lui “ x” , adica
⎧ − 1 , pentru x < 0
⎪
sgn( x ) = ⎨ 0 , pentru x = 0 .
⎪ 1 , pentru x > 0
⎩
In fine , coeficientul de corelatie are caracter simetric , adica ρ XY = ρ YX .
Printre dezavantajele lui ρ XY , principalele doua sunt urmatoarele :
- variabilele X , Y pot fi puternic dependente neliniar , dar valoarea lui ρ XY

- 57 -
poate fi mica sau chiar zero : cităm cazul in care
Y = a + bX 2 ⇒ ρ XY = 0 , daca M( X) = 0 .
- dupa cum am mai mentionat : daca ρ XY = 0 , nu neaparat X Y sunt

independente ( ele sunt numite variabile necorelate ) .
NOTA : pentru cazul special in care X , Y urmeaza repartitii normale , atunci

avem :
ρ XY = 0 ⇔ X , Y − independente .
4.03 : Estimarea coeficientului de corelatie
Fie un sondaj de volum “ n “ asupra variabilelor X , Y , anume ;
{ ( x i , y i ) }i =1,n .
Pentru a estima coeficientul de corelatie ( necunoscut ) al variabilelor , folosim estimatorul
rxy =
∑ ( x i − x) ⋅ ( y i − y )
∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2
sau :
rxy =
∑ xi ⋅ y i − n ⋅ x ⋅ y .
2 2
( ∑ x i2 − n ⋅ x ) ⋅ ( ∑ y i2 − n ⋅ y )
Si coeficientul rxy are proprietatea : − 1 ≤ rxy ≤ 1 .

- 58 -
4.04 : Legatura intre coeficientul de corelatie si elementele dreptei de regresie
- Legatura dintre coeficientul de corelatie si panta dreptei de regresie :
Consideram modelul de regresie y i = a + b ⋅ x i + ei ,cu ipotezele deja prezentate si cu alte

ocazii .
Stim ca panta b a dreptei de regresie se estimeaza folosind estimatorul nedeplasat
^
b=
∑ ( xi − x) ⋅ ( y i − y ) .
∑ ( x i − x )2
In paragraful anterior am vazut ca avem :
rxy =
∑ ( x i − x) ⋅ ( y i − y ) ;
∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2
asadar , avem :
∑ ( xi − x) ⋅ ( y i − y ) ⋅ ∑ ( y i − y ) =
^ 2
b=
∑ ( x i − x )2 ⋅ ∑ ( y i − y )2 ∑ ( x i − x )2
= rxy ⋅
∑ ( y i − y )2
∑ ( x i − x )2
Folosind abaterile medii patratice de selectie modificate , anume :
~
σx =
∑ ( xi − x)2 ; σ~ y = ∑ ( y i − y )2 ,
n−1 n−1
gasim :
~
^ σy
b = rxy ⋅ ~
σx
- 59 -
- Legatura dintre coeficientul de corelatie ρ si coeficientul de determinare R
Reamintim ca pentru coeficientul de determinare avem formula
R 2
= ∑ ( y i − y )2
,
∑ ( y i − y )2
unde :
^ ^ ^ ^
y i = a + b⋅ xi = y + b⋅ ( xi − x ) .
atunci ,
^
2
R = ∑ [y + b⋅ ( xi − x) − y ]2 =b
^2
⋅ ∑ ( xi − x) 2
.
∑ ( y i − y )2 ∑ ( y i − y )2
Inlocuind , obtinem :
σ 2x ^2
2
R = b ⋅ 2
σy
deci :
R 2 = rxy
2
In fine , o alta proprietate a coeficientului de corelatie rezulta din urmatoarele

considerente :
rxy =
∑ ( xi − x)(y i − y ) =
∑ ( x i − x )2 ⋅ ∑ ( y i − y )2
^
=
∑ (yi − y ) ⋅ (yi − y ) = r
^ ^
∑ (y i − y ) ∑ (y i − y )
2 2 yy
⋅
sau :
- 60 -
R 2 = r 2^
yy
4.05 : Teste privind coeficientul de corelatie
- Verificarea ipotezei ρ XY = 0 :
Se urmareste testarea perechii de ipoteze alternative
H 0 : ρ XY = 0
H 1 : ρ XY ≠ 0
Cum coeficientul de corelatie este proportional cu panta dreptei de regresie , aceasta revine la
a verifica perechea de ipoteze
H 0 :b = 0
.
H1 :b ≠ 0
In ipoteza ca { y i } au o repartitie normala , aceasta ipoteza se poate testa folosind :
- varianta 1 : statistica t c =
∑ ( x i − x) 2
⋅b
θ*
- varianta 2 : statistica Fc =
∑ ( y i − y )2
( θ* ) 2
Reamintim ca avem
^
* 2
(θ ) =
∑ ( y i − y i )2
.
n−2
Cum avem :
^ ^
∑ ( y i − y i )2 = ∑ ( y i − y)2 − ∑ ( y i − y)2 ,
- 61 -
expresia Fc devine :
^
( n − 2) ⋅ ∑ ( y i − y ) 2
Fc = ^
.
∑ ( y i − y) − ∑ ( y i − y)
2 2
Simplificand prin ∑ ( y i − y )2 , se gaseste
( n − 2) ⋅ R 2
Fc = 2
= t c2
1−R
n − 2 ⋅ rxy
deci : tc = .
2
1 − rxy
Asadar , se respinge H 0 la pragul de semnificatie α , daca
| t c | > t ( α / 2 ,n − 2 ) .
== // ==
- Verificarea ipotezei ρ XY = ρ 0 , ρ 0 ≠ 0 :
Se veridical perechea de ipoteze :

H 0 : ρ xy = ρ 0
H 1 : ρ xy ≠ ρ 0
cu ρ 0 ≠ 0 .
Fisher a propus o transformare a coeficientului de corelatie , anume :
⎛ 1 + rxy ⎞
f ( rxy ) = 1 ⋅ log⎜ ⎟;
2 ⎜ 1 − rxy ⎟
⎝ ⎠
- 62 -
pentru esantioane de volum suficient de mare , variabila aleatoare f ( rxy ) urmeaza o

repartitie aproximativ normala , cu caracteristicile aproximate suficient de bine de :
⎧ ⎛ 1 + rxy ⎞ ⎫
⎪
[ 1 ]
⎪M f ( rxy ) ≈ 2 ⋅ log⎜⎜ ⎟⎪
⎟
⎝ 1 − rxy ⎠ ⎪
⎨ ⎬
⎪
⎪⎩
2
[
D f ( rxy ) ≈
n−3
]
1 ⎪
⎪⎭
Asadar , pentru verificat ipoteza nula , vom folosi statistica :
⎛ 1 + rxy ⎞
1 ⋅ log⎜ ⎟ − 1 ⋅ log⎛⎜ 1 + ρ 0 ⎞⎟
2 ⎜ 1 − rxy ⎟ 2 ⎜ 1− ρ ⎟
⎝ ⎠ ⎝ 0⎠
zc = ⇔
1
n−3
1 ⎛ 1 + rxy 1 − ρ 0 ⎞
z c = ⋅ n − 3 ⋅ log⎜ ⋅ ⎟
2 ⎜ 1 − rxy 1 + ρ 0 ⎟
⎝ ⎠
Aceasta statistica urmeaza o lege apropiata de legea normala normata , deci se respinge H 0
la pragul de semnificatie α , daca : | z c | > z α / 2 .
== // ==
- Interval de incredere pentru ρ xy :
Se va folosi statistica repartizata ( aproximativ ) N( 0 ; 1) din sectiunea precedenta , anume
1 ⎛ 1 + rxy ⎞
ψ = ⋅ log ⎜ ⎟
2 ⎜ 1 − rxy ⎟
⎝ ⎠
1 ⎛ 1 + ρ0 ⎞
cu : - media M(ψ ) = ⋅ log⎜⎜ ⎟⎟
2 ⎝ 1 − ρ 0⎠
1
- dispersia D 2 (ψ ) =
n−3
Asadar , intervalul de incredere pentru ψ este
- 63 -
⎛ z z ⎞
⎜ ψ0 − α / 2 ;ψ0 + α / 2 ⎟ .
⎝ n−3 n−3⎠
In final , sa observam ca din relatia :
1 ⎛1+ x⎞ ey − e−y
y = ⋅ log⎜ ⎟ se deduce : x = y = th ( y ) ,
2 ⎝1− x⎠ e + e−y
deci , din intervalul de incredere pentru ψ se deduce intervalul de incredere pentru ρ ,

anume :
⎛ ⎛ z ⎞ ⎛ z ⎞⎞
⎜⎜ th⎜ ψ 0 − α / 2 ⎟ ; th⎜ ψ 0 + α / 2 ⎟ ⎟⎟ .
⎝ ⎝ n−3⎠ ⎝ n − 3 ⎠⎠
Nota : reamintim ca prin “ th “ se noteaza functia tangenta hiperbolica :
ex − e−x
th( x ) = .
ex + e−x
4.06 : Matrici de corelatie
In cazul in care dispunem de mai multe variabile aleatoare , de exemplu

X1 , X 2 ,... , X p , pentru caracterizarea legaturilor dintre ele se utilizeaza o serie de matrici ,
dintre care mentionam :
- matricea dispersie – covarianta :
⎛ D 2 ( X1 ) cov( X1 , X 2 ) cov( X1 , X 3 ) ..... cov( X1 , X p ) ⎞⎟

⎜
⎜ cov( X 2 , X1 ) D2 (X 2 ) cov( X 2 , X 3 ) ..... cov( X 2 , X p ) ⎟
⎜ ⎟
Η = ⎜ cov( X 3 , X1 ) cov( X 3 , X 2 ) D2 (X 3 ) ..... cov( X 3 , X p ) ⎟
⎜ ..... ..... ..... ..... ..... ⎟
⎜ ⎟
⎜ cov( X p , X1 ) cov( X p , X 2 ) cov( X p , X 3 ) ..... D 2 ( X p ) ⎟⎠
⎝
- matricea de corelatie ( matricea corelatiei totale ) :

- 64 -
⎛ 1 ρ x1x 2 ρ x1x 3 ... ρ x1xp ⎞

⎜ ⎟
⎜ ρ x 2 x1 1 ρ x2x3 ... ρ x 2 xp ⎟
⎜ ... ρ x 3 xp ⎟ ;
P = ⎜ ρ x 3 x1 ρ x 3x 2 1
⎟
⎜ ... ... ... ... ... ⎟
⎜⎜ ⎟
ρ ρ xp x 2 ρ xp x 3 ... 1 ⎟
⎝ xp x1 ⎠
- matricea corelatiilor estimate :
⎛ 1 rx1x 2 rx1x 3 ... rx1xp ⎞

⎜ ⎟
⎜ rx 2x1 1 rx 2x 3 ... rx 2xp ⎟
⎜ ... rx 3xp ⎟
R = ⎜ rx 3x1 rx 3x 2 1
⎟
⎜ ... ... ... ... ... ⎟
⎜⎜ ⎟
r rxp x 2 rxp x 3 ... 1 ⎟
⎝ xp x1 ⎠
4.07 : Corelatii partiale
In mod frecvent , se intampla ca intre variabilele X , Y sa apara o legatura puternica ,

in totala contradictie cu natura celor doua variabile .
In multe astfel de situatii , explicatia este data de prezenta unui grup de alte variabile ,
fiecare dintre variabilele X , Y fiind puternic dependente de acest grup .
De exemplu , daca avem un grup de trei caracteristici , ( X , Y , Z ) , si daca
⎧X = a + b ⋅ Z
⎨ ,
⎩Y = p + q ⋅ Z
atunci modificarea valorii vatiabilei x atrage dupa sine modificarea lui z , care antreneaza
modificarea lui y : asa incat , modificarea lui x conduce aparent la o modificare nemijlocita a
lui y .
Coeficientul de corelatie corespunzator , notat ρ xy , z , se numeste coeficient de corelatie

partiala intre variabilele X , Y , in cadrul grupului ( X , Y , Z ).
Prin definitie , avem :

- 65 -
^ ^
rxy , z =
∑ ( x i − x) ⋅ ( y i − y ) .
^ ^
∑ ( x i − x) 2 ⋅ ( y i − y)2
Se arata ca avem :
rxy − rxz ⋅ ryz

rxy , z =
2 2
1 − rxz ⋅ 1 − ryz
4.08 : Corelatia cu intarzaiere ( autocorelarea )
Consideram o serie de date , { x i } i =1,n , unde valorile i = 1, n au acum semnificatia

de “ diverse momente de timp “ sau de “ diverse faze ale unui proces “. De exemplu , am avea :
x i = valoarea beneficiului obtinut in cursul anului numarul “ i “ .

In astfel de situatii , se urmareste sa se stabileasca daca valoarea curenta x i depinde de
valorile precedente x i , x i −1 , x i − 2 ,... .
In cazul cand o astfel de dependenta este descoperita , se spune ca in cadrul sirului dat de
valori se constata o dependenta cu caracter serial , o corelatie cu intarziiere sau o autocorelare .
Pentru a stabili existenta unei astfel de corelari , si pentru a-i masura intensitatea , se
utilizeaza diversi indicatori , printre care prezentam coeficientul de autocorelare “ d “ , definit mai
jos :
n
∑ ( x i − x i −1 ) 2
d = i=2 n
.
4⋅ ∑ x i2
i =1
Pentru acest indicator , este valabila relatia 0 ≤ d ≤ 1 .

Este vizibil faptul ca in cazul in care d este apropiat de zero , avem x i ≈ x i −1 , (∀ ) i deci
valorile consecutive ale indicatorului difera putin intre ele : atunci se spune ca sirul
{ x i } i =1,n prezinta o autocorelare pozitiva ; daca insa d este apropiat de 1 , diferentele dintre
valorile succesive ale sirului sunt mari , iar { x i } i =1,n prezinta o autocorelare negativa .
- 66 -
Daca avem d este apropiat de ½ , atunci sirul de date { x i } i =1,n nu depinde prea mult de
timpul “ i “ .
Indicatorul d masoara dependenta valorii curente x i numai in raport cu valoarea
anterioara x i −1 , fiind astfel un indicator al dependentei cu intarziere de ordin 1 :
este insa posibil ca valoarea de anul acesta sa depinda de valoarea de acum 3 ani , deci sirul sa
manifeste o corelatie cu intarziere de ordin 3 .
Pentru a determina existenta unei corelatii cu intarziere de ordin “ k “ , se poate folosi
indicatorul
n
∑ ( x i − x) ⋅ ( x i − k − x)
i = k +1
dk = n
.
4 ⋅ ∑ ( x i − x) 2
i =1
Si aici , d k ≈ 0 are semnificatia : data curenta x i depinde prea putin de x i − k .
4.09 Coeficientul corelatiei rangurilor al lui Spearman
Se urmareste stabilirea independentei a doua serii de observatii ( variabile aleatoare ) ,

in cazul in care repartitiile lor nu sunt repartitii normale.
Stim deja ca , pentru variabile aleatoare normal repartizate , a fi independente este tot una cu a
avea coeficientul de corelatie nul.
Dar pentru variabile cu alta repartitie , acest rezultat nu mai este valabil.
In astfel de situatii , se folosesc alte masuri ale dependentei : in continuare vom prezenta
coeficientul de corelatie a rangurilor al lui Spearman .
Pentru a realiza aceasta , sa precizam intai notiunea de rang al unei valori intr-un sir dat .
Rangul este locul ocupat de valoarea respectiva , in ordinea marimii : de exemplu , fie sirul
X = { 12 ; 7 ; 14 ; 3 ; 23 ; 11 } . Atunci obtinem
valoarea , x i 12 7 14 3 23 11
rangul valorii , R ( x i ) 3 5 2 6 1 4
Coeficientul de corelatie a rangurilor este egal cu coeficientul de corelatie clasic , dintre sirul
de diferente ale rangurilor valorilor in raport cu rangurile medii , adica
rS =
∑ (R i − R ) ⋅ ( S i − S)
∑ ( R i − R ) 2 ⋅ ∑ (S i − S ) 2
- 67 -
unde avem :
- seria de date de selectie este { ( x i , y i ) }i =1,n ;

- R i = R ( x i ) este rangul valorii x i in sirul { x 1 , x 2 , .. , x n } ;
- S i = R ( y i ) este rangul valorii y i in sirul { y 1 , y 2 , .. , y n } ;
1 n 1 n
- R = ⋅ ∑ R i , S = ⋅ ∑ S i sunt rangurile medii .
n i =1 n i =1
Sa observam intai ca avem :

1 + 2 + 3 + ... + n n + 1
R=S= = .
n 2
n n
⎛ n + 1⎞
∑ ( R i − R) 2
=∑⎜i−
2 ⎠
⎟=
i =1 i =1 ⎝
n
n+1 n (n + 1) 2
= ∑i − 2⋅
2
⋅∑i+n⋅ =
i =1 2 i =1 4
n ⋅ (n 2 − 1)
=
12
n
n ⋅ (n 2 − 1)
La fel , avem ∑ ( S i − S ) =
2
.
i =1 12
Inlocuind , gasim expresia lui rS =

∑ (R i − R ) ⋅ ( S i − S) :
∑ ( R i − R ) 2 ⋅ ∑ (S i − S ) 2
n ⋅ (n + 1) 2
rS =
∑ (R i − R ) ⋅ ( S i − S) = ∑ i i
12 ⋅ R ⋅ S −
4
2 2
n ⋅ (n − 1) n ⋅ (n − 1)
12
sau :
12 ⋅ ∑ R i ⋅ S i n+1
rS = 2
− 3⋅
n ⋅ (n − 1) n−1
- 68 -
O modalitate mai practica de a calcula acest coeficient consta in utilizarea diferentelor
di = R i − Si .
Avem :
n n
[
∑ d i2 = ∑ ( R i − S i ) 2 = ∑ ( R i − R ) − (S i − S) = ]2
i =1 i =1
= ∑ ( R i − R ) 2 + ∑ ( S i − S ) 2 − 2 ⋅ ∑ ( R i − R ) ⋅ (S i − S ) =
n ⋅ (n 2 − 1) n ⋅ (n 2 − 1)
= 2⋅ − 2⋅ ⋅ rS
12 12
In final , avem deci :
rS = 1 − 6 ⋅
∑ d i2
n ⋅ ( n 2 − 1)
Proprietatile coeficientului de corelatie a rangurilor :
Avem : • − 1 ≤ rS ≤ 1
• rS apropiat de -1 ⇒ ordinele de marime ale variabilelor X , Y sunt opuse
( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu
atat Y are tendinta sa ocupe un rang mai mic in
sirul { ( y i )} ) ;
• rS apropiat de +1 ⇒ rangurile variabilelor X, Y sunt concordante
( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu
atat si Y are tendinta sa ocupe un rang mai bun in
sirul { ( y i )} ) ;
• rS apropiat de 0 ⇒ rangurile variabilelor X, Y nu sunt legate printr-o

relatie anume .
- 69 -
Mai mult , se stie ca daca X , Y sunt independente , atunci rS urmeaza o lege aproximativ
normala , daca esantionul este de volum suficient de mare ( chiar n ≥ 10 este o valoare
convenabila ) , cu caracteristicile :
1
M ( rS ) = 0 ; D 2 ( rS ) = .
n−1
Deci statistica :
z c = n − 1 ⋅ rS
urmeaza o lege normala redusa , deci se respinge ipoteza H 0 : X , Y − independente

daca avem | z c | > z α / 2 .
CAPITOLUL 5 : UTILIZAREA REZIDUURILOR PENTRU EVALUAREA

MODELULUI
5.1 : IPOTEZELE MODELULUI
Fie Y = variabila explicata si X1 , X2 , …, Xp-1 – variabilele explicative : ipoteza liniaritatii

modelului consta in realizarea relatiilor
p −1
y i = b 0 + ∑ b jx ij + ε i ; i = 1, n
j= 1
unde sondajul corespunzator celor “p” variabile este notat cu :

{y i ; x i1 , x i 2 ,..., x i (p − 1) }i = 1,n .
- 70 -
Variabilele aleatoare {ε i }i = 1,n reprezinta erori ce nu pot fi observate direct .

Ele sunt doua cate doua independente , identic realizate , cu repartitia N( 0; σ ) .
Pentru a veridical toate aceste ipoteze , anume :
- liniaritatea modelului ;
- faptul ca dispersia erorilor este constanta
- faptul ca erorile sunt independente
- faptul ca erorile sunt repartizate normal ,
se folosesc reziduurile {e i }i = 1,n , ca realizari ale variabilelor {ε i }i = 1,n .

Amintim ca am notat :
^
ei = y i − y i ,
^
unde y i sunt valorileestimate ale variabilei explicate Y .
== // ==
5.2 : Analiza Grafica A Reziduurilor
^
5.2.1 : Graficul reziduurilor in raport cu valorile estimate y i .
Se foloseste un sistem de axe , anume :

^
- pe axa orizontala se trece marimea valorii estimate y
- pe axa verticala , marimea corespunzatoare a reziduului .
Verificarea ipotezelor mentionate revine la aceea ca reziduurile se vor plasa uniform intr-o
zona limitata de doua drepte orizontale , ca in figura de mai jos :
- 71 -
Majoritatea programelor de calculator care executa regresii liniare reprezinta reziduurile sub
forma de bastonase , de o parte si de alta a dreptei de regresie : iata unele situatii posibile :
- a: reziduuri cu media apropiata de zero si cu dispersie constanta:
- b : reziduuri cu media apropiata de zero , dar cu dispersie depinzand de valoarea

variabilei explicative X ( aici : dispersia creste , atunci cand valoarea lui X creste)
- 72 -
- c: reziduuri pentru care media nu este apropiata de zero ( predomina reziduurile

pozitive ) :
- 73 -
ANEXA : TESTE DE NORMALITATE
GRAFICUL DENSITATII DE PROBABILITATE A
REPARTITIEI NORMALE N( m , s )
Cazul : s = 2
Cazul : s = 1
- 74 -
Cazul s= 0,5
Functia de repartitie : avem P ( a < X < b ) = F(b) – F(a)

- 75 -
Avem : P( X > a ) = 1 – F(a)
Avem : P ( X < b) = F( b)
- 76 -
1. Exemple de determināri de probabilitāţi pe baza funcţiei de repartiţie
Considerām urmātorul tabel al unei posibile funcţii de repartiţie :
x 0 1 2 3 4 5
F(x) = P( X < x ) 0 0, 2 0, 35 0,73 0, 94 1
- avem : ⋅ P( X < 2 ) = F(2) = 0,35

⋅ P( X > 3 ) = 1 - F(3) = 1 - 0,73 = 0,27
⋅ P ( 2 < X < 4 ) = F(4) - F(2) = 0,94 - 0,35 = 0,59
Aplicaţie pentru cazul repartiţiei normale normate
- funcţia de repartiţie a variabilei normale normate este datā mai jos :
nr.crt x F(x) nr.crt x F(x)

1 -3.250 0.003 15 0.250 0.599
2 -3.000 0.005 16 0.500 0.691
3 -2.750 0.006 17 0.750 0.773
4 -2.500 0.008 18 1.000 0.841
5 -2.250 0.012 19 1.250 0.894
6 -2.000 0.023 20 1.500 0.933
7 -1.750 0.040 21 1.750 0.960
8 -1.500 0.067 22 2.000 0.977
9 -1.250 0.106 23 2.250 0.988
10 -1.000 0.159 24 2.500 0.994
11 -0.750 0.227 25 2.750 0.997
12 -0.500 0.309 26 3.000 0.999
13 -0.250 0.401 27 3.250 0.999
14 0.000 0.500 28 3.500 1.000
- 77 -
Stim cā , pentru variabila aleatoare normalā de medie ”m" şi abatere medie

pātraticā " s " , notatā prescurtat cu N ( m ; s) , avem
⎛b −m⎞ ⎛a −m⎞
(1). P [a < N(m; s ) < b ]= F⎜ ⎟ − F⎜ ⎟ ,
⎝ s ⎠ ⎝ s ⎠
unde F este chiar funcţia din tabelul precedent.
Aplicaţie: pentru variabila aleatoare X = N ( 3,5 ; 1,7 ), se cere

P ( 1,8 < X < 4,775 )
Avem : N ( m ; s) = N ( 3,5 ; 1,7 ), deci : m = 3,5 şi s = 1,7 .
Atunci formula (1) devine :
⎛ 4,775 − 3,5 ⎞ ⎛ 1,8 − 3,5 ⎞

P [ 1,8 < N( 3,5 ; 1,7 ) < 4,775 ] = F ⎜ ⎟−F⎜ ⎟=
⎝ 1,7 ⎠ ⎝ 1,7 ⎠
= F( 0,75) − F ( − 1 ) .
Din tabel citim :
- la poziţia 17 : F ( 0,75 ) = 0,773
- la poziţia 10 : F ( - 1 ) = 0,159 ,
aşadar : P ( 1,8 < X < 4,775 ) = 0,773 - 0,159 = 0,614 .
TEST DE AUTOCONTROL :
Folosind tabelul sā se determine :
- 1: P [ N( 5 ; 1,8 ) < 7, 25 ] Raspuns: 0.8944
- 2: P [ N( 7 ; 2,3 ) > 11,6 ] Raspuns : 0.0228

- 78 -
- 3: P [ 6 , 275 < N ( 9,5 ; 4 , 3 ) < 19, 175 ] Raspuns : 0.7611
TESTE DE NORMALITATE
Testul de normalitate Jarque-Bera
Fie un sondaj { x1, x2 , …, xn } : ne propunem sa testam ipoteza conform careia

acest sondaj provine de la o repartitie normala .
Exista o multitudine de teste care isi propun acelasi scop : in acest material vom utiliza ,
din cauza simplitatii efectuarii calculelor , testul Jarque – Bera .
Acest test are la baza faptul ca variabila normala are caracteristicile “ skewness “ si
“ kurtosis “ ( prezentate in continuare ) egale cu zero : deci – in principiu – cu cat un

sondaj va avea aceste doua caracteristici mai departate de zero , cu atat repartitia
teoretica poate fi considerata mai departata de o repartitie normala .
Testul Jarque-Bera permite masurarea departarii unei repartitii in raport cu clasa

repartitiilor normale .
La baza testului sta utilizarea caracteristicilor ale sondajului prezentate in cele ce

urmeaza :
1 n
- media de selectie : x = ⋅ ∑ xi
n i =1
- caracteristica numita “skewness “ , data de relatia :
1 n
⋅ ∑ ( x i − x) 3
n i =1
S =
3
⎡1 n ⎤
⎢ ⋅ ∑ ( x i − x) ⎥
2
⎣n i =1 ⎦
- 79 -
- caracteristica numita “kurtosis “ , data de relatia :
1 n
⋅ ∑ ( x i − x) 4
n i =1
K= 2
⎡1 n ⎤
⎢ ⋅ ∑ ( x i − x) ⎥
2
⎣n i =1 ⎦
Atunci valoarea testului , corespunzatoare sondajului prezentat ,va fi data de :
n ⎛ 2 (K − 3) 2 ⎞
JB c = ⋅⎜S + ⎟⎟
6 ⎜⎝ 4 ⎠
Statistica “ JB” are o repartitie aproximativ Hi patrat cu doua grade de libertate :

aproximatia este cu atat mai buna , cu cat volumul “ n “ al sondajului este mai mare .
In cele ce urmeaza , vom nota prin H2 repartita Hi patrat cu doua grade de

libertate :
atunci , probabilitatea ca sondajul sa provina de la o repartitie normala este
( aproximativ) data de :
α = P ( H 2 < JB c ) .
Prezentam in continuare o tabela a functiei de repartitie a variabilei H2 :
x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

P(H2 < x ) 0 0.0488 0.0952 0.1393 0.1813 0.2212 0.2592 0.2953 0.3297
x 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7

P(H2 < x ) 0.362 0.3935 0.4231 0.4512 0.4780 0.5034 0.5276 0.5507 0.5726
x 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6

P(H2 < x ) 0.593 0.6133 0.6321 0.6501 0.6671 0.6834 0.6988 0.7135 0.7275
- 80 -
x 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4

P(H2 < x ) 0.727 0.741 0.753 0.765 0.777 0.788 0.798 0.808 0.817
x 3.5 3.6 3.7 3.8 3.9 4 4.1 4.2 4.3

P(H2 < x ) 0.826 0.835 0.843 0.85 0.858 0.865 0.871 0.878 0.884
x 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1 5.2

P(H2 < x ) 0.889 0.895 0.9 0.905 0.909 0.914 0.918 0.922 0.926
x 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6 6.1

P(H2 < x ) 0.929 0.933 0.936 0.939 0.942 0.945 0.948 0.95 0.953
x 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7

P(H2 < x ) 0.955 0.957 0.959 0.961 0.963 0.965 0.967 0.968 0.97
x 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9

P(H2 < x ) 0.971 0.973 0.974 0.975 0.976 0.978 0.979 0.98 0.981
x 8 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8

P(H2 < x ) 0.982 0.983 0.983 0.984 0.985 0.986 0.986 0.987 0.988
x 8.9 9 9.1 9.2 9.3 9.4 9.5 9.6 9.7

P(H2 < x ) 0.988 0.989 0.989 0.99 0.99 0.991 0.991 0.992 0.992
Observare : pentru x ≥ 9,8 vom considera ca avem P ( H 2 < x ) ≈ 1
EXEMPLU : fie datele
xi ni
1 12
2 23
3 41
4 33
5 18
6 8
- 81 -
Sa vedem cu ce probabilitate se poate considera ca datele provin de la o repartitie

normala.
Avem calculele :
xi ni xi*ni (xi - mx)^2 (xi - mx)^3 (xi - mx)^4
1 12 12 65.749 -153.901 360.242

2 23 46 41.344 -55.432 74.320
3 41 123 4.760 -1.622 0.553
4 33 132 14.343 9.455 6.234
5 18 90 49.557 82.227 136.436
6 8 48 56.573 150.443 400.067
total 135 451 232.326 31.170 977.852
med= 3.341
S= 0.102 JB= 50.856

K= 0.000
In final , P ( H 2 < JB ) = P ( H 2 < 50, 856 ) = 1 .
Deci : cu o incredere egala practic cu 100% , putem considera ca datele provin de la o
repartitie normala .
== // ==
- 82 -
TESTUL ANDERSON – DARLING
Majoritatea metodelor cu caracter statistic presupun existenta unei anumite distributii :

rezultatele sunt obtinute in mare masura pe baza admiterii valabilitatii acestei repartitii .
Deobicei , atunci cand admitem o anumita repartitie , ne asumam un risc major .
Daca presupunerea noastra este gresita , rezultatele obtinute pot sa fie total gresite.
De exemplu , nivelul de incredere al unui interval de incredere poate fi total diferit de cel
obtinut ptintr-un astfel de calcul.
O cale de a evita astfel de riscuri este de a cerceta foarte atent care este distributia teoretica
corecta .
Exista doua categorii principale de abordari in acest sens : in primul rand , trebuie mentionate
procedurile empirice , care sunt usor de inteles si de implementat , si se bazeaza pe intuitie si
pe cunoasterea proprietatilor graficului distributiei a carei valabilitate dorim sa o testam.
Alte proceduri , mai formale , sunt asa-numitele teste de concordanta . Aplicarea acestora este
meticuloasa si necesita un mare volum de calcule , dar rezultatele gasite sunt cuantificabile si
prezinta mai multa incredere decat testele empirice.
Ca exemple se pot mentiona testele Anderson – Darling (A.D) si Kolmogorov – Smirnov
(K.S)
Testele de concordanta sunt in esenta bazate in principal pe doua elemente : functia de
repartitie ( sau : functia de distributie cumulata (CDF) ) si densitatea de probabilitate (pdf) .
Testele de tip Hi patrat se bazeaza pe (pdf) , pe cand testele Anderson – Darling si
Kolmogorov – Smirnov , pe (CDF) , apartinand deci categoriei de “ teste de distanta “.
In plus , testele Anderson – Darling si Kolmogorov – Smirnov sunt valabile si pentru
sondaje de volum relativ mic.
Pentru aplicarea acestor teste , se urmeaza o serie de etape bine conturate .
In primul rand , acceptam valabilitatea unei repartitii anume (de exemplu : normala ).
Apoi se estimeaza parametrii distributiei ( de exemple , media si dispersia ) pe baza datelor de
sondaj de care dispunem.
Ipoteza ca repartitia in cauza ( impreuna cu parametrii estimati) este valabila , va fi numita
ipoteza nula si va fi notata cu H0 : negarea distributiei ( sau a parametrilor ) este ipoteza
alternativa , notata prin H1 .
In final , H0 va fi respinsa unul oarecare dintre elementele componente vine in contradictie cu
datele sondajului.
Daca ipoteza facuta este corecta , atunci functia de repartitie teoretica ( notata F0 ) va fi
suficient de apropiata de functia de repartitie empirica , notata Fn ( vezi fig.)
- 83 -
Testul acesta are un neajuns important : testele de tip distanta presupun cunoasterea
parametrilor distributiei in cauza . Ori , acesti parametri sunt rareori cunoscuti in practica.
De aceea se utilizeaza proceduri adaptative suplimentare pentru a adapta parametrii pe masura
obtinerii de rezultate partiale.
Vom prezenta in cele ce urmeaza doua exemple de utilizare a testului Anderson – Darling .
Testul Anderson – Darling de concordanta are urmatoarea expresie :
1− 2 ⋅ i
{ ( ) ( )}
n
ADc = ∑ ⋅ ln F0 [ Z ( i ) ] + ln 1 − F0 [Z ( n +1−i ) ] − n
i =1 n
Aici F0 este functia de repartitie normala de parametri ( μ , σ ) estimati pe baza sondajului ;

volumul sondajului este notat prin “ n “ .
Datele de sondaj sunt sortate crescator , x1 < x 2 < ... < x n : prin Z(i) intelegem
xi − μ
Z(i ) = .
σ
Asadar , am notat :
1 n 1 n
μ= ⋅ ∑ x i ; σ 2 = ⋅ ∑ x i2 − μ 2 .
n i =1 n i =1
Ipoteza nula ( ca repartitia corecta este cea normala , reprezentata de catre F0 )

se respinge ,la pragul de semnificatie α = 0, 05 , in cazul in care volumul sondajului este “ n “
daca avem
ADc > CV ,
unde valoarea critica CV este data de
0,752
CV =
0,75 2,25
1+ + 2
n n
- 84 -
APLICATIE :
sa verificam daca se poate admite ca datele de sondaj
3 ; 8 ; 11 ; 6 ; 2 ; 10 ; 4
provin de la o repartitie normala.
Rezolvare : volumul sondajului este n = 7 : se estimeaza apoi parametrii repartitiei . Avem
1
μ= ⋅ ( 3 + 8 + 11 + 6 + 2 + 10 + 4 ) = 6, 286
7
1
σ 2 = ⋅ ( 3 2 + 8 2 + 112 + 6 2 + 2 2 + 10 2 + 4 2 ) − ( 6, 286 ) 2 = 10, 486
7
⇒ σ = 10, 486 = 3 , 238
Pentru efectuarea testului , datele se ordoneaza crescator :
adica : x1 = 2 ; x2 = 3 ; x3 = 4 ; x4 = 6 ; x5 = 8 ; x6 = 10 ; x7 = 11 .
Pentru argumentele repartitiei normale , avem
x i − 6, 286
zi = .
3, 238
Calculele sunt prezentate in tabelul sintetic de mai jos .
i xi x8-i zi z8-i F0(zi) 1 – ln ( F0(zi) ) ln (1 – F0(z8-i) ) 1 – 2·i ti

F0(z8-i)
1 2 11 -1,324 1,456 0,093 0,927 -2,375 -2,617 -1 4,992
2 3 10 -1,015 1,147 0,155 0,874 -1,864 -2,071 -3 11,807
3 4 8 -0,706 0,529 0,240 0,702 -1,427 -1,211 -5 13,189
4 6 6 -0,088 -0,088 0,465 0,465 -0,766 -0,625 -7 9,738
5 8 4 0,529 -0,706 0,702 0,240 -0,354 -0,274 -9 5,654
6 10 3 1,147 -1,015 0,874 1,147 -0,135 -0,168 -11 3,334
7 11 2 1,456 -1,324 0,927 1,456 -0,076 -0,098 -13 2,254
am notat : t i = ( 1 − 2 ⋅ i ) ⋅ (ln( F0 ( z i )) + ln(1 − F0 ( z 8−i ))) .
Atunci :
1 7
ADc = ⋅ ∑ t i − 7 = 7, 278 − 7 = 0 , 278
7 i =1
- 85 -
Valoarea critica a testului este
0, 7523
CV = = 0, 652 .
0,75 2, 25
1+ +
7 49
In final , cum avem
ADc < CV
se poate admite , la pragul α = 0, 05 , ca datele provin de la o repartitie normala .
APLICATIE : pentru a studia sensibilitatea testului Anderson _ Darling , ne propnem

urmatorul experiment :
fie datele : x1 = 1 ; x2 = 2 ; x3 = k .
Sa vedem pentru ce valori k > 2 se poate admite ca datele de sondaj
{ 1 ; 2 ; k } provin de la o repartitie normala .
Vom utiliza pragul α = 0 ,05 .
Rezolvare : pentru sondaje de volum n = 3 , valoarea critica CV a testului va fi
0.752
= 0.501
⎛ 1 + 0.75 + 2.25 ⎞
⎜ ⎟
⎝ 3 9 ⎠
In continuare , vom da parametrului k valori diverse si vom lista valoarea testului , AD(k) .
Vom gasi :
k 2.5 3 3.5 4 4.5 5

AD(k) 1.028 0.421 0.25 0.228 0.259 0.307
k 5.5 6 6.5 7 7.5 8

AD(k) 0.359 0.41 0.457 0.499 0.538 0.573
Asadar , pentru k < 3 si pentr k > 7 , nu se mai poate admite ca sondajul

- 86 -
{ 1 ; 2 ; k } provin de la o repartitie normala .
CAPITOLUL 6 : CORELAŢIA LINIARĂ MULTIPLĂ
SINTEZA 1 : CORELATIA SI REGRESIA LINIARA MULTIPLA
Rezumat : covarianţă , coeficient de corelaţie
Fie datele de sondaj :
xi x1 x2 … xi … xn
yi y1 y2 … yi … yn
Caracteristici asociate sondajului :
1 n 1 n
- mediile de selecţie : m X = ⋅ ∑ xi ; m Y = ⋅ ∑ y i
n i =1 n i =1
⎧ 2 1 n
⎪σ X = n ⋅ ∑ ( x i − m X )
2
⎪ i =1
- dispersiile de selecţie : ⎨ n
⎪σ 2 = 1 ⋅ ( y − m ) 2
⎪⎩ Y n ∑ i =1
i Y
1 n
⋅ ∑ ( xi − m X ) ⋅ ( y i − mY )
n i =1
- covarianţa : σ XY =
1 n
⋅ ∑ xi ⋅ y i − m X ⋅ m Y
n i =1
σ XY
- coeficientul de corelaţie : ρ XY =
σX ⋅ σY
- 87 -
NOTĂ : sunt valabile următoarele proprietăţi :
• − 1 ≤ ρ XY ≤ 1
• σ X , σ 2Y sunt ≥ 0
2
• ρ XY = ρ YX
• σ XY = σ YX
SINTEZA 2 : REPARTIŢIA NORMALĂ TRIDIMENSIONALĂ :
⎛ Q( x , y , z ) ⎞
- densitatea de probabilitate : ϕ ( x , y , z ) = k ⋅ EXP ⎜ − ⎟
⎝ 2⋅ D ⎠
unde am notat :
1 ρ XY ρ XZ
-determinantul : D = ρ YX 1 ρ YZ
ρ ZX ρ ZY 1
[
- factorul de scală : k = ( 2 ⋅ π ) 3 / 2 ⋅ σ X ⋅ σ Y ⋅ σ Z ⋅ D ] −1
- nucleul :
D XX D D
Q ( x, y , z ) = 2
⋅ ( x − m X ) 2 + YY
2
⋅ ( y − m Y ) 2 + ZZ
2
⋅ ( z − m Z )2 +
σX σY σZ
D XY D XZ
+ 2⋅ ⋅ ( x − m X ) ⋅ (y − m Y ) + 2 ⋅ ⋅ ( x − m X ) ⋅ (z − m Z ) +
σX ⋅ σY σX ⋅ σZ
D YZ
+ 2⋅ ⋅ ( y − m Y ) ⋅ (z − m Z )
σY ⋅ σZ
sau , prescurtat :
D XX D XY
Q ( x, y , z ) = ∑ 2
⋅ ( x − m X )2 + 2 ⋅ ∑ ⋅ ( x − m X ) ⋅ (y − m Y )
σX σX ⋅ σY
Precizare : aici , prin Dαβ înţelegem minorul lui D , obţinut tăind linia “ α “ şi coloana “ β “.
- 88 -
== // ==
SINTEZA 3 : VARIABILELE ASOCIATE

REPARTIŢIEI NORMALE TRIDIMENSIONALE
Variabilele marginale de dimensiune 1
sunt variabilele normale uni-dimensionale :
X = N ( mX , σX ) , Y = N ( mY , σY ) , Z = N ( mZ , σZ )
Ele sunt variabile aleatoare două câte două independente .
Variabilele condiţionate de ordin 2 ( simplu legate ):
vor fi notate respectiv ( X , Y ) / Z , ( X , Z ) / Y şi ( Y , Z ) / X .
Aceste variabile au repartiţii normale bidimensionale .

Densităţile de probabilitate respective au aspectul :
- pentru variabila aleatoare ( X, Y ) / Z :
1 ⎡ H( x, y ) ⎤
p XY ,Z ( x, y ) = ⋅ EXP ⎢ − 2 ⎥
,
2 ⋅ π ⋅ σ X ⋅ σ Y 1 − ρ XY ⎣ 2 ⋅ ( 1 − ρ XY ) ⎦
unde :
2 2
⎛ x − mX ⎞ ⎛ y − mY ⎞ x − mX y − mY
H( x, y ) = ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ − 2 ⋅ ρ XY ⋅ ⋅ .
⎝ σX ⎠ ⎝ σY ⎠ σX σY
OBS: abaterea medie pătratică a variabilei ( X, Y ) / Z este dată de
2
σ XY ,Z = σ X ⋅ σ Y ⋅ 1 − ρ XY
Variabilele condiţionate de ordin 1 ( dublu legate ):

- 89 -
vor fi notate prin : X / ( Y, Z ) , Y / ( X , Z ) si Z / ( X , Y ) .
Densitatea de probabilitate a lui X / ( Y, Z ) este :
⎡ ⎤
1 ⎢ ( x − mX ) 2 ⎥
p X ,YZ ( x ) = ⋅ EXP ⎢ − ⎥
D ⎢ 2 ⋅ σ2 ⋅ D ⎥
σ X ⋅ 2π ⋅ ⎢⎣ D XX ⎥⎦
X
D XX
OBS: variabila aleatoare X /(Y,Z) are media egală cu mX ,

D
şi abaterea standard egală cu σ X ⋅ .
D XX
== // ==
NOTĂ : matricile asociate cu repartiţia normală tridimensională sunt următoarele
- matricea covariantă :
⎛ σ 2X σ XY σ XZ ⎞
⎜ ⎟
V = ⎜ σ YX σ 2
Y σ YZ ⎟
⎜ ⎟
⎝ σ ZX σ ZY σ 2Z ⎠
⎛ 1 ρ XY ρ XZ ⎞
⎜ ⎟
- matricea corelaţiei totale : D = ⎜ ρ YX 1 ρ ⎟.
⎜ρ ρ ZY 1 ⎟⎠
⎝ ZX
== // ==
SINTEZA 4 : CAZUL ECONOMETRIC
Fie datele : { ( x i , y i , z i )} i = 1,n . Pentru aceste date , ecuaţia planului de regresie se caută sub
forma
Z – mZ = a·( X – mX) + b· ( Y – mY)

- 90 -
Coeficienţii a, b ai planului de regresie se determină prin metoda celor mai mici pătrate .
Astfel,avem :
- eroarea de ajustare corespunzătoare datelor de sondaj
n
E ( a , b ) = ∑ [ a ⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) − ( z i − m Z )]
2
i =1
Din condiţia de minim a erorii de ajustare , găsim sistemul ecuaţiilor normale
⎧a ⋅ ∑ ( x i − m X )2 + b ⋅ ∑ ( x i − m X ) ⋅ (y i − m Y ) = ∑ ( x i − m X ) ⋅ (z i − m Z )
⎪
⎨
⎪a ⋅ ( x − m ) ⋅ ( y − m ) + b ⋅ ( y − m ) 2 = ( y − m ) ⋅ ( z − m )
⎩ ∑ i X i Y ∑ i Y ∑ i Y i Z
sau :
⎧a ⋅ σ 2X + b ⋅ σ XY = σ XZ
⎪
⎨ .
⎪ a ⋅ σ + b ⋅ σ2 = σ
⎩ XY Y YZ
Soluţia acestui sistem , sau coeficienţii planului de regresie Z / (X ,Y) este următoarea
σ XZ σ XY σ 2X σ XZ
^ σ YZ σ Y2 ^ σ YX σ YZ
a= ;b = .
σ 2X σ XY σ 2X σ XY
σ YX σ 2Y σ YX σ 2Y
În final :
▪ ecuaţia planului celor mai mici pătrate este :
^ ^
Z − m Z = a⋅ ( X − m X ) + b⋅ ( Y − m Y )
▪ valorile ajustate ale variabilei Z sunt date de :
^ ^ ^
z i = m Z + a⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) i = 1 , n
▪ valorile reziduurilor sunt date de :
^
δi = zi − zi , i = 1,n .
- 91 -
▪ dispersia reziduală va fi :
V
σ R2 = σ Z /2XY = .
VZZ
▪ dispersia reziduală este utilă la evaluări de genul celor de mai jos :
⎧ ^
⎪ P [ | Z − Z | < σ Z / XY ] = 0, 6826
⎪ ^
⎨ P [ | Z − Z | < 2 ⋅ σ Z / XY ] = 0, 9544
⎪ ^
⎪ P [ | Z − Z | < 3 ⋅ σ Z / XY ] = 0, 9972
⎩
^
Z−Z
evaluări bazate pe faptul că avem : = N ( 0 ;1 ) .
σ Z / XY
== / / ==
SINTEZA 5 : COEFICIENŢII DE CORELAŢIE MULTIPLĂ
- Gradul de dependenţă a lui Z în raport cu grupul de variabile ( X ,Y ) poate fi

măsurat folosind indicatorul R Z2, XY .
Avem :
▪ 0 ≤ R Z2, XY ≤ 1
σ Z ,2XY
▪ formula de calcul : R Z2, XY = 1 −
σ 2Z
V
sau R Z2, XY = 1 − 2
σ ⋅ VZZ
Z
D
sau R Z2, XY = 1 −
D ZZ
- 92 -
- Gradul de dependenţă a grupului ( X,Y ) în raport cu variabila Z

poate fi măsurat folosind indicatorul ρ XY ,Z .
Avem :
▪ − 1 ≤ ρ XY ,Z ≤ 1
ρ XY − ρ XZ ⋅ ρ ZY
▪ formula de calcul : ρ XY ,Z =
2 2
1 − ρ XZ ⋅ 1 − ρ YZ
D XY
sau ρ XY ,Z = ( − 1) 1 + 2 − 1⋅
D XX ⋅ D YY
VXY
sau ρ XY ,Z = ( − 1) 1 + 2 − 1⋅
VXX ⋅ VYY
== // ==
UN EXEMPLU : pe baza unui sondaj s-au determinat valorile următorilor indicatori :
⎧ mX = 3;mY = 5;mZ = 2
⎪
⎨ σX = 2;σY = 3;σZ = 1
⎪ρ = − 0,5 ; ρ = 0, 7 ; ρ = 0, 2
⎩ XY XZ YZ
Se cer :
- abaterea standard a variabilei simplu legate XY / Z ;
2
Răspuns : σ XY , Z = σ X ⋅ σ Y ⋅ 1 − ρ XY = 2 ⋅ 3 ⋅ 1 − ( −0, 5) 2 = 5 , 2
- abaterea standard ale variabilelor simplu legate X / ( YZ ) şi Y / (ZX) ;
1 − 0, 5 0,7
Răspuns : avem D = − 0, 5 1 0,2 = 0, 08 , pentru care calculăm minorii
0 ,7 0,2 1
- 93 -
1 0,2 1 0,7
D XX = = 0, 96 ; D YY = = 0, 51
0,2 1 0,7 1
deci :
D 0, 08 D 0, 08
σ X ,YZ = σ X ⋅ =2⋅ = 0, 577 ; σ Y , ZX = σ Y ⋅ =3⋅ = 1,188 .
D XX 0, 96 D YY 0, 51
- se cere ecuaţia planului CMMP , Z/ XY precum şi dispersia reziduală

corespunzătoare :
Rezolvare : avem z – mZ = a· ( x – mX ) + b·( y – mY)
σ 2X σ XY σ XZ 4 − 0, 5 ⋅ 2 ⋅ 3 0,7 ⋅ 2 ⋅ 1
2
V = σ YX σ Y σ YZ = − 0, 5 ⋅ 2 ⋅ 3 9 0,2 ⋅ 3 ⋅ 1 = 2, 88
σ ZX σ ZY σ 2Z 0,7 ⋅ 2 ⋅ 1 0,2 ⋅ 3 ⋅ 1 1
σ 2X σ XY 4 −3
VZZ = = = 27
σ YX σY − 3 9
2
σ XZ σ XY 1,4 − 3 14,4
2
= = 14, 4 ⇒ a = = 0, 53
σ YZ σY 0, 6 9 27
σ 2X σ XZ 4 1,4 6,6
= = 6, 6 ⇒ b = = 0, 24
σ XY σ YZ − 3 0, 6 27
deci ecuaţia planului CMMP este : z – 2 = 0,53·( x – 3 ) + 0, 24·( y – 5 )
Dispersia reziduală corespunzătoare ajustării prin acest plan va fi :
V 2,88
σ 2R = σ Z2/ XY = = = 0, 107 ⇒ σ R = 0,107 = 0, 326 .
VZZ 27
- 94 -
- se cere coeficientul de corelaţie multiplă R Z2 ,XY :
V 2,88
Rezolvare : avem R Z2 , XY = 1 − 2
= 1− = 0, 893 ⇒ R Z , XY = 0, 893 = 0, 945
σZ 1 ⋅ 27
- se cere coeficientul de corelaţie simplu legat ρ XY ,Z
− 3 0,6
VXY 1,4 1
Rezolvare : avem ρ XY ,Z = ( − 1) 2 ⋅ = = − 0, 91 .
VXX ⋅ VYY 9 0,6 4 1,4
⋅
0,6 1 1,4 1
END
SUMAR :
CAPITOLUL 1 : Studiul regresiei liniare
1.1 : Legatura dintre doua variabile : relatii deterministe si relatii stochastice : pag 1 -5
1.2 : Metoda celor mai mici patrate ( CMMP ) : pag. 6 - 8
1.3 : Variatia explicata ; variatia ne – explicata : pag. 9 - 12
APLICATIE : pag. 13 - 15
CAPITOLUL 2 : regresia liniara simpla
2.1 : Modelul regresiei simple : pag. 16
2.2 Distributia estimatorilor proveniti din metoda CMMP
^
2.2.1: Media estimatorului b : pag. 17
^
2.2.2: Media estimatorului a : pag. 18
^
2.2.3: Dispersia estimatorului b : pag. 19
- 95 -
^
2.2.4: Dispersia estimatorului a : pag. 20 - 21
^ ^
2.2.5: Covarianta estimatorilor a , b : pag. 22
APLICATIE : pag. 22 - 24
2.3 : Estimarea dispersiei erorilor :pag. 24 - 26
2.4.1: Teste privind panta b a dreptei de regresie : pag. 27 - 28

2.4.2 : Interval de incredere pentru b : pag. 29
2.4.3 : Teste privind taietura a in origine : pag. 30
2.4.4 : Un exemplu numeric : pag. 31 - 34
2.4.5 : Interval de incredere pentru a : pag. 34 - 35
2.4.6 : Interval de incredere pentru μ Y ( x ) : pag. 32 - 33
2.5 : Analiza dispersionala : pag. 36 - 38
2.6.1 : Modele fara variabila explicativa : pag. 38 - 40

2.6.2 : Modele fara constanta : pag. 40 – 43
3.01 : Hiperplanul de regresie : pag. 43

3.02 : Model de regresie cu doua variabile explicative : pag. 43 - 45
3.03 : Cazul matriceal : pag. 45 - 47
3.04 : Proprietatile metodei celor mai mici patrate : pag. 47 - 50
3.05 : Ipotezele modelului : pag. 50 – 52
3.06 : Estimarea dispersiei erorilor : pag. 52 – 53
3.07 : Inferente statistice asupra parametrilor modelului : pag. 53 -54
4.01 : Masurarea corelatiei : proprietati . pag. 54

4.02 : Coeficientul de corelatie ( recapitulare ) : pag. 55 - 56
4.03 : Estimarea coeficientului de corelatie : pag. 56 - 57
4.04 : Legatura intre coeficientul de corelatie si elementele dreptei de regresie . pag. 57 - 59
4.05 : Teste privind coeficientul de corelatie : pag. 59 - 62
4.06 : Matrici de corelatie : pag. 62 - 63
4.07 : Corelatii partiale . pag. 63 - 64
4.08 : Corelatia cu intarzaiere ( autocorelarea ) : pag. 64 - 65
4.09 Coeficientul corelatiei rangurilor al lui Spearman : pag. 65 - 68
- 96 -
CAPITOLUL 5 : UTILIZAREA REZIDUURILOR PENTRU EVALUAREA

MODELULUI
5.1 : Ipotezele Modelului : pag. 69 – 71
ANEXA : TESTE DE NORMALITATE : pag. 72 – 85
CAPITOLUL 6 : CORELAŢIA LINIARĂ MULTIPLĂ : pag 86 - 94
SINTEZA 1 : Corelatia Si Regresia Liniara Multipla – pag. 86 – 87
SINTEZA 2 : Repartiţia Normală Tridimensională : - pag. 87 – 88
SINTEZA 3 : Variabilele Asociate Repartiţiei Normale Tridimensionale : pag. 88 - 90
SINTEZA 4: Cazul Econometric : pag. 90 – 92
SINTEZA 5 : Coeficienţii De Corelaţie Multiplă : pag. 92
UN EXEMPLU : pag. 92 -

Econometrie Varianta 2008-2009

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Econometrie Varianta 2008-2009

Încărcat de

Drepturi de autor:

Formate disponibile

-1-

1.1 : Legătura dintre două variabile : relaţii deterministe şi relaţii stochastice

Se consideră două caracteristici , X şi Y : se presupune că valoarea indicatorului Y

- cum ne dam seama ca dependenta dintre caracteristicile X , Y este una

la o valoare data x0 a caracteristicii X , corespunde cel mult

De exemplu : sa consideram corespondenta intre caracteristicile X , Y

Este clar ca aceasta corespondenta de la multimea { 1, 2 , 3 , 4 , 5 } la multimea

Exemplul precedent ridica o nouă problemă , anume :

Si in acest caz , figura ilustreaza o corespondenta de la multimea { 1, 2 , 3 , 4 , 5 }

Precizare : dintre tipurile de influente care nu au caracter functional , vom studia

In studierea dependentei dintre doua caracteristici , se folosesc drept date specifice ,

In cazul in care la fiecare valoare “ x “ corespunde o singura valoare “ y “ , adica :

daca ( ∋ )i , j = 1, n , i ≠ j pentru care x i = x j ,

In raport cu esantionul {( x i , y i )}i = 1,n , o astfel de functie va trebui sa verifice relatiile

este “ variabila independenta “ si care “ variabila dependenta “ sau “ determinata “ :

“ f “ care sa para potrivita .

Vom inspecta graficele , pentru a incerca sa stabilim tipul de functie “ f “

Este clar ca optiunile cele mai bune par a fi urmatoarele :

- in cazul variantei 1: Y = a·X + b ( dependenta liniara ) ;

Rezumat ; precizari finale :

- functia aleasa “ f “ contine o serie de parametri necunoscuti : determinarea de valori

Functia “f ” , in care parametrii au fost inlocuiti cu valorile estimate , va fi numita

- pentru un esantion si pentru o functie estimata pe baza acestui esantion , notata cu

vor fi numite reziduuri .

1.2 : Metoda celor mai mici patrate ( CMMP )

Vom considera cazul unui esantion ( sau : sondaj ) { ( x i ; y i )}i = 1,n .

Conditiile necesare de extrem sunt :

Cu aceste notatii , ecuatia (1) devine :

Atunci ecuatia (2) se poate scrie :

se numeste sistemul ecuatiilor normale si se considera in general ca este datorat lui

In fine , daca tinem seama ca avem :

- covarianţa de selecţie a datelor {xi} , { yi } : σ xy = s xy − x ⋅ y ,

Pentru reziduuri avem formulele :

Sa observam ca suma reziduurilor este egala cu zero , deoarece se cunoaste proprietatea ca

Atunci , avem relatia importanta :

1.3 : Variatia explicata ; variatia ne – explicata

daca X se modifica , şi Y se modifică în consecinţa

Dar este posibil sa aiba loc si alt fenomen , anume :

desi X nu s-a modificat , totusi Y se mai modifica inca

Asadar , situatia descrisa se poate sintetiza astfel :

variaţia totală variaţia explicată variaţie

Acest mecanism este ilustrat in figura urmatoare :

- termenul ( y i − y ) reprezinta variatia totala a lui Y ;

O astfel de descompunere este valabila si pentru varianţe , adica avem :

In relatia finala , adica :

- termenul Sg = ∑ ( y i − y )2 se numeste variatie totala ;

Iata si cateva forme echivalente utile pentru coeficientul de determinare :

APLICATIA 1 : ( & 1.2 , pag. 12 si & 1.3 )

Se stie ca variabila Y este influentata de catre variabila X .

-b): determinati dreapta celor mai mici patrate ;

- c): calculati variatiile corespunzatoare acesteia ( variabila totala ; explicata si reziduala ) ;

- d): care este valoarea coeficientului de determinare R ? Cum se interpreteaza rezultatul ?

- a): reprezentarea grafica a norului de puncte dat este urmatoarea

Prin pozitia lor , punctele nu par sa difere mult fata de o dreapta .

- b : avem calculele urmatoare

Dreapta celor mai mici patrate are ecuatia :

- c): calculele necesare sunt sintetizate in tabelul urmator :

Avand o valoare apropiata de 1 , constatam ca regresia liniara explica in proportie de 97%

variatia lui Y prin variatia lui X .

2.1 : Modelul regresiei simple

Cum in cadrul modelului valorile xi sunt considerate deterministe , avem

Variabilele y i au si ele repartitii normale , anume : y i = N (a + b ⋅ x i ; s ) : pentru

cov( y i ; y j ) = cov (a + b ⋅ x i + e i ; a + b ⋅ x j + e j ) = cov (e i ; e j ) = 0