Sunteți pe pagina 1din 96

-1-

1.1 : Legătura dintre două variabile : relaţii deterministe şi relaţii stochastice

Se consideră două caracteristici , X şi Y : se presupune că valoarea indicatorului Y


este influenţată într-un fel sau altul de către valoarea pe care o ia indicatorul X.
Cel mai simplu tip de astfel de “ influenţă “ este aşa-numita “ dependenţă de tip
funcţional “ : în cazul unei astfel de dependenţe , avem o relaţie
de forma : Y = f (X) , unde f este o functie .

Se poate intampla sa stim ca intre caracteristicile X , Y exista o relatie de tipul mentionat , dar
sa nu cunoastem care este functia “ f “ implicata .
De aceea , se pun doua probleme diferite :

- cum ne dam seama ca dependenta dintre caracteristicile X , Y este una


de tip functional ?

- in caz afirmativ : cum gasim expresia acestei functii , sau macar o serie
de informatii despre caracteristicile acestei functii ?

Precizare : dupa cum se stie din teoria elementara , o functie este o corespondenta intre doua
multimi , avand ca proprietate esentiala urmatoarea :

la o valoare data x0 a caracteristicii X , corespunde cel mult


o singura valoare a caracteristicii Y :aceasta valoare , pe care
o notam cu y0 , este chiar valoarea luata de f pentru X = x0 ,
adica y0 = f (x0) .

De exemplu : sa consideram corespondenta intre caracteristicile X , Y


data de graficul de mai jos :
-2-

Este clar ca aceasta corespondenta de la multimea { 1, 2 , 3 , 4 , 5 } la multimea


{ 1, 2 , 3 , 4 , 5, 6 , 7 , 8} nu este de tip functie .

Unul dintre motive : la valoarea x0=1 corespund trei valori ale caracteristicii Y , anume
y '0 = 1 ; y '0' = 2 ; y '0'' = 6 .

Exemplul precedent ridica o nouă problemă , anume :


in conditiile figurii prezentate , se mai poate măcar admite că între caracteristicile X , Y
exista vreo legatura ?
Iata şi o alta situatie :
-3-

Si in acest caz , figura ilustreaza o corespondenta de la multimea { 1, 2 , 3 , 4 , 5 }


la { 1, 2 , 3 , 4 , 5 , 6 } , corespondenta care nu este de tip functie : de data aceasta insa , este
clar ca odata cu cresterea valorii lui x∈ X , valorile corespunzatoare ale lui y∈ Y au tendinta
să crească .
' ''
Astfel , pentru x1 = 1 corespund valorile y 1 = 1 ; y 1 = 2 ; pentru x2= 2 , corespund valorile
' ''
nu mai mici y 2 = 2 ; y 2 = 3 , etc. : asadar , exista in mod categoric o influenta a lui X
asupra lui Y , numai ca aceasta influenta nu este de tip functie.

Precizare : dintre tipurile de influente care nu au caracter functional , vom studia


numai dependentele cu caracter stochastic : asupra acestei notiuni
vom reveni pe parcurs .

In studierea dependentei dintre doua caracteristici , se folosesc drept date specifice ,


esantioane de forma { ( x1 , y 1 ) , ( x 2 , y 2 ) , ... , ( x n , y n ) } ,obtinute in urma efectuarii unor
cercetari sau experiente specifice.

In cazul in care la fiecare valoare “ x “ corespunde o singura valoare “ y “ , adica :

daca ( ∋ )i , j = 1, n , i ≠ j pentru care x i = x j ,


atunci obligatoriu avem si y i = y j

se poate trece la cautarea unei functii “ f “ , pentru care sa se poata afirma ca verifica
relatia
Y=f(X).

In raport cu esantionul {( x i , y i )}i = 1,n , o astfel de functie va trebui sa verifice relatiile

y i = f ( x i ) , i = 1, n .

Din numeroase motive , o astfel de pretentie este fara sens : intai , din punct de vedere
matematic , exista o infinitate de functii cu proprietatea y i = f ( x i ) , i = 1, n , pentru orice
esantion { ( x i , y i )}i =1,n .
Pe de alta parte , in orice situatie practica ce poate fi imaginata , pretentia ca y i
sa coincida perfect cu f ( x i ) , pentru orice i = 1, n este si ea exagerata : este imposibil ca ,
intre cele doua seturi de valori sa nu apara mici deosebiri.
Pentru a preintampina astfel de inconveniente , se iau o serie de masuri : iata primele
astfel de precautii :
- ne asiguram ca – din punct de vedere al contextului practic in care lucram – intre
caracteristicile X , Y sa existe o legatura ;
- in caz ca o astfel de legatura exista , urmeaza sa determinam care dintre caracteristici
-4-

este “ variabila independenta “ si care “ variabila dependenta “ sau “ determinata “ :


in materialul de fata , variabila independenta va fi notata cu X , iar cea determinata ,
cu Y ;
- se construieste un esantion { ( x i , y i )}i =1,n si se reprezinta grafic punctele
corespunzatoare in planul (XOY) ; dupa inspectarea reprezentarii grafice , se alege o functie

“ f “ care sa para potrivita .

De exemplu : iata trei situatii , privind reprezentarea grafica a cate unui esantion :

Vom inspecta graficele , pentru a incerca sa stabilim tipul de functie “ f “


pentru care se poate afirma – in fiecare caz separat – ca avem Y = f ( X ).

Este clar ca optiunile cele mai bune par a fi urmatoarele :

- in cazul variantei 1: Y = a·X + b ( dependenta liniara ) ;


- in cazul variantei 2: Y = a·X2 + b·X + c ( dependenta parabolica de grad 2 ) ;
a
- in cazul variantei 3 : Y = + c ( dependenta de tip hiperbolic ) .
X+b
-5-

Rezumat ; precizari finale :

- functia aleasa “ f “ contine o serie de parametri necunoscuti : determinarea de valori


( aproximative ) pentru acesti parametri , pe baza unui esantion { ( x i , y i )}i =1,n
va fi numita “ estimare “ ( asadar , la varianta 1 de mai sus – vom estima parametrii
a , b , c pe baza esantionului

xi 1 2 3 4 5 6 7 8
yi 0 0,8 1 1,5 2,1 2,5 3 3,2
-6-

Functia “f ” , in care parametrii au fost inlocuiti cu valorile estimate , va fi numita


“ functie estimata “:

- pentru un esantion si pentru o functie estimata pe baza acestui esantion , notata cu


~ ~ ~
f , nu avem y i = f ( x i ) , ci numai y i ≈ f ( x i ) .

Cantitatile
~
e i = y i − f ( x i ) , i = 1, n

vor fi numite reziduuri .


Orice metoda de estimare are la baza ideea minimizarii reziduurilor .
Trebuie insa remarcat faptul ca se pot folosi diferite concepte de minim .

1.2 : Metoda celor mai mici patrate ( CMMP )

Vom considera cazul unui esantion ( sau : sondaj ) { ( x i ; y i )}i = 1,n .


Se considera situatia in care caracteristica Y depinde liniar in raport cu caracteristica X , adica

Y= a+b⋅X
In acest caz , lista de reziduuri va fi {e i }i = 1,n , unde ei = yi – a – b·xi .
Pentru estimarea coeficientilor a , b vom folosi drept conditie de minim a listei reziduurilor ,
conditia :
n
( min ) ∑ e i2 .
a,b i =1
Asadar , urmeaza sa rezolvam problema de minim nerestrictionat :

n 2

(min) f ( a , b ) = ∑ ( y i − a − b ⋅ xi ) .
i =1

Conditiile necesare de extrem sunt :


⎧∂f
⎪∂ a =0

⎨ .
⎪∂f
⎪ =0
⎩∂ b

Avem :
-7-

∂f n
⎡ n n

= − 2 ⋅ ∑ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢∑ y i − n ⋅ a − b ⋅ ∑ x i ⎥ = 0
∂a i =1 ⎣ i =1 i =1 ⎦
n n
⇔ n ⋅ a + b ⋅ ∑ xi = ∑ y i ; ( 1 )
i =1 i =1

Sa notam :
1 n
- media valorilor {xi } : x = ⋅ ∑ x i ;
n i =1
1 n
- media valorilor {yi } : y = ⋅ ∑ y i .
n i =1

Cu aceste notatii , ecuatia (1) devine :

(2)
a+ b⋅ x=y

∂f n
⎡ n n n

= − 2 ⋅ ∑ x i ⋅ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢ ∑ x i ⋅ y i − a ⋅ ∑ x i − b ⋅ ∑ x i2 ⎥ = 0
∂b i =1 ⎣ i =1 i =1 i =1 ⎦
n n n
⇔ a ⋅ ∑ xi + b ⋅ ∑ x = 2
i ∑x i ⋅ yi;
i =1 i =1 i =1

Sa notam :

1 n 2 2 1
n
1 n
m 2x = ⋅ ∑ x i ; m y = ⋅ ∑ y i ; s xy = ⋅ ∑ x i ⋅ y i .
2
n i =1 n i =1 n i =1

Atunci ecuatia (2) se poate scrie :

(4)
a ⋅ x + b ⋅ m 2x = s xy

Sistemul :
⎧⎪ a + b ⋅ x = y
⎨ 2
⎪⎩a ⋅ x + b ⋅ m x = s xy
-8-

se numeste sistemul ecuatiilor normale si se considera in general ca este datorat lui


C.F. Gauss ( 1795 ) .
Solutiile acestui sistem , adica valorile coeficientilor dreptei de regresie estimate pe baza
^ ^
esantionului dat , vor fi notate prin a , b : ele sunt date de formulele

⎧^
⎪⎪b =
∑ xi ⋅ y i − n ⋅ x ⋅ y =
∑ ( xi − x) ⋅ ( y i − y )
- varianta 1 : ⎨ ∑ xi2 − n ⋅ x
2
∑ ( x i − x)2
⎪ ^ ^
⎪⎩ a = y − b⋅ x

⎧ ^ s xy − x ⋅ y
⎪⎪b = 2
- varianta 2 : ⎨ m 2x − x .
⎪ ^ ^
⎪⎩ a = y − b ⋅ x

In fine , daca tinem seama ca avem :

2 2 2
- dispersia de selectie a datelor {xi } ( sau : varianţa ) : σ x = m x − x

- covarianţa de selecţie a datelor {xi} , { yi } : σ xy = s xy − x ⋅ y ,

gasim varianta :

⎧^ σ XY
⎪b =
- varianta 3 : ⎨ σ 2X .
⎪^ ^
⎩ a = y − b ⋅x

^ ^
Odata determinate valorile estimate a , b , se poate scrie ecuatia dreptei de regresie , care se
mai numeste si dreapta celor mai mici patrate ( vom intalni drepte de regresie determinate si
prin alte metode ).

Atunci , valorile caracteristicii Y determinate folosind dreapta celor mai mici patrate
^ ^ ^
vor fi : y i = a + b⋅ x i , i = 1, n , sau

^ ^
y i = y + b⋅ ( x i − x ) , i = 1, n
-9-

Pentru reziduuri avem formulele :

^ ^
e i = y i − y i = ( y i − y ) − b⋅ ( x i − x ).

Sa observam ca suma reziduurilor este egala cu zero , deoarece se cunoaste proprietatea ca


suma abaterilor unei caracteristici in raport cu media acelei caracteristici este zero , adica

n n
∑ ( xi − x ) = 0 ; ∑ ( y i − y ) = 0 .
i =1 i =1

Atunci , avem relatia importanta :

y=
∑ yi = ∑ yi
n n

1.3 : Variatia explicata ; variatia ne – explicata

Scopul unui model de regresie liniara este de a explica o parte din modificarea
valorilor caracteristicii Y , prin faptul ca valoarea caracteristicii X s-a modificat ea insasi .
Acest fapt se poate exprima pe scurt astfel :

daca X se modifica , şi Y se modifică în consecinţa

Acest fenomen constituie ceeace numim variaţia explicată de catre modelul de regresie.

Dar este posibil sa aiba loc si alt fenomen , anume :

desi X nu s-a modificat , totusi Y se mai modifica inca

adica este posibil sa aiba loc si o variatie a lui Y , neexplicata de catre model .
Aceasta ar avea loc in cazul in care , la valori “ x “ egale , sa corespunda mai multe valori
pentru “ y “ , sau daca la valori “ x “ foarte apropiate intre ele , sa corespunda valori “ y “ mult
diferite intre ele .
- 10 -

Asadar , situatia descrisa se poate sintetiza astfel :

variaţia totală variaţia explicată variaţie


= + neexplicată
a lui Y în cadrul modelului de către model

Acest mecanism este ilustrat in figura urmatoare :

Asadar : in relatia

^ ^
(y i − y ) = ( y i − y ) + ( y i − y i ) ,

- termenul ( y i − y ) reprezinta variatia totala a lui Y ;


^
- termenul ( y i − y ) reprezinta variatia explicata de catre model ;
^
- termenul e i = ( y i − y i ) reprezinta variatia ne-explicata de catre model , sau reziduul .
- 11 -

O astfel de descompunere este valabila si pentru varianţe , adica avem :

n n ^ n ^
∑ ( y i − y )2 = ∑ ( y i − y )2 + ∑ ( y i − y i )2
i =1 i =1 i =1

In adevar :

^ ^
∑ y i2 = ∑ [ y − b⋅ ( x i − x) ]2 =
2 ^ ^2
= n ⋅ y + 2 ⋅ y ⋅ b⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x )2 =
^ ^
= y ⋅ n ⋅ y + 0 + b⋅ b⋅ ∑ ( x i − x )2 =
^
= y ⋅ ∑ y i + b⋅ ∑ ( x i − x ) ⋅ y i =
^
= ∑ [ y + b⋅ ( xi − x) ] ⋅ y i =
^
= ∑ yi ⋅ yi

Deci :

^ ^ ^2
∑ ( yi − yi ) = ∑ 2
y i2 − 2 ⋅ ∑ yi ⋅ yi + ∑ yi =
^2 ^2
= ∑ y i2 − 2 ⋅ ∑ yi + ∑ yi =
^2
=∑ y i2 − ∑ yi

si
- 12 -

^ ^ ^ 2
∑ ( yi − y) = ∑ 2
y i2 − 2 ⋅ y ⋅ ∑ yi + n ⋅ y =
^
2
= ∑ y i2 − 2 ⋅ y ⋅ ∑ yi + n ⋅ y =
^
2 2
=∑ y i2 − 2⋅n⋅y +n⋅y =
^
2
=∑ y i2 −n⋅y

In final , se obtine :
2
∑ ( y i − y )2 = ∑ y i2 − n ⋅ y =
⎡ ^2 2⎤ ⎡ ⎤ ^2
= ⎢ ∑ y i − n ⋅ y ⎥ + ⎢ ∑ y i2 − ∑ i ⎥=
y
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
^ ^
= ∑ ( y i − y ) 2 + ∑ ( y i − y i )2

In relatia finala , adica :

^ ^
∑ ( yi − y) 2
= ∑ ( yi − y) 2
+ ∑ ( y i − y i )2

- termenul Sg = ∑ ( y i − y )2 se numeste variatie totala ;

^
- termenul Se = ∑ ( y i − y ) 2 se numeste variatie explicata prin regresie ;
^
- termenul Sr = ∑ ( y i − y i )2 se numeste variatie reziduala sau variatie ne-explicata :
asadar , avem relatia

Sg = Se + Sr .

Pentru a masura procentual gradul in care regresia liniara explica variatia lui Y , se foloseste
urmatorul coeficient de determinare , R , cu valori in intervalul [ 0; 1]:
- 13 -

Se
R2 =
Sg

Iata si cateva forme echivalente utile pentru coeficientul de determinare :

^ 2
2
R =
∑ ( y i − y )2 = b
^
2

∑ x i2 − n ⋅ x
.
∑ ( y i − y )2 ∑ y i2 − n ⋅ y
2

APLICATIA 1 : ( & 1.2 , pag. 12 si & 1.3 )

Se stie ca variabila Y este influentata de catre variabila X .


S-au determinat datele de sondaj :

xi 1 2 3 4 5
yi 2,5 5,6 8 9,7 10,3

- a): stabiliti grafic daca se poate folosi o dreapta de ajustare pentru a descrie dependenta lui Y
in raport cu X ;

-b): determinati dreapta celor mai mici patrate ;

- c): calculati variatiile corespunzatoare acesteia ( variabila totala ; explicata si reziduala ) ;

- d): care este valoarea coeficientului de determinare R ? Cum se interpreteaza rezultatul ?

Rezolvare :

- a): reprezentarea grafica a norului de puncte dat este urmatoarea


- 14 -

Prin pozitia lor , punctele nu par sa difere mult fata de o dreapta .


Observare : linia poligonala care se obtine unind cate doua puncte consecutive este evident
convexa , deci – la un studiu mai pretentios – nu ar trebui totusi folosi dreapta ca
functie de ajustare .

- b : avem calculele urmatoare

xi yi x i2 xi ⋅ y i y i2
1 2,5 1 2,5 6,25
2 5,6 4 11,2 31,36
3 8 9 24 64
4 9,7 16 38,8 94,09
5 10,3 25 51,5 106,09
TOTAL : 15 36,1 55 128 301,79

Atunci :
- 15 -

• n=5
n
15
• ∑x
i =1
i = 15 ⇒ x =
5
= 3
n
36,1
• ∑y
i =1
i = 36,1 ⇒ y =
5
= 7,22
n
55
• ∑x
i =1
2
i = 55 ⇒ m 2X =
5
= 11
x
128
• ∑x
i =1
i ⋅ y i = 128 ⇒ s XY =
5
= 25,6

Dreapta celor mai mici patrate are ecuatia :

⎧ a + b ⋅ x = y ⇒ a + 3 ⋅ b = 7,22

⎩a ⋅ x + b ⋅ m X = s XY ⇒ 3 ⋅ a + 11 ⋅ b = 25,2
2

de unde se obtine :
⎧ a = 1, 31
⎨ si deci dreapta celor mai mici patrate este :
⎩b = 1, 97

y = 1, 31 + 1, 97 ⋅ x

- c): calculele necesare sunt sintetizate in tabelul urmator :

_ ^ _ ^

xi yi ^ (y i − y )2 = ( y i − y )2 = (y i − y i )2 =
y i = 1 , 31 + 1, 97 ⋅ x i = ei
= ( y i − 7, 22) 2 ^
= ( y i − 7, 22)2
1 2,5 3, 28 22,28 15,52 0,61
2 5,6 5, 25 2,62 3,88 0,12
3 8 7, 22 0,61 0 0,61
4 9,7 9, 19 6,15 3,88 0,26
5 10,3 11, 16 9,49 15,52 0,74
TOTAL : 41,15 38,81 2,34
- 16 -

deci avem :

S g = 41 , 15 ; S e = 38 , 81 ; S R = 2 , 34

S e 38, 81
- d : R2 = = = 0 , 94
S g 41, 15

Avand o valoare apropiata de 1 , constatam ca regresia liniara explica in proportie de 97%

variatia lui Y prin variatia lui X .

2.1 : Modelul regresiei simple

Vom relua unele dintre conceptele deja prezentate , urmand sa facem completarile
necesare studiului regresiei in cazul stochastic .

Fie astfel sondajul { ( xi , yi )}i=1,n : modelul de regresie liniara simpla intre caracteristicile X
si Y are aspectul :

yi = a + b· xi + ei , i = 1, n

Aici erorile ei sunt considerate variabile aleatoare , ce nu pot fi observate direct : aceste
variabile verifica ipotezele urmatoare :
2
- toate variabilele ei au media zero si aceeaşi dispersie s ;
- toate variabilele ei au repartitie normala , deci e i = N( 0 ; s 2 ) , i = 1 , n
- aceste variabile sunt doua cate doua independente , deci au covarianţa egala
cu zero : cov ( e i ; e j ) = 0 , i ≠ j; i , j = 1, n .
De observat ca in aceste conditii , si yi au caracter aleator , intrucat depind de variabilele
aleatoare ei .
- 17 -

Cum in cadrul modelului valorile xi sunt considerate deterministe , avem

M( y i ) = M ( a + b ⋅ x i + ei ) = a + b ⋅ x i + M( ei ) = a + b ⋅ x i ;
D2 ( y i ) = D2 ( a + b ⋅ x i + e i ) = D2 ( ei ) = s 2 .

Variabilele y i au si ele repartitii normale , anume : y i = N (a + b ⋅ x i ; s ) : pentru


aceste variabile , avem :

cov( y i ; y j ) = cov (a + b ⋅ x i + e i ; a + b ⋅ x j + e j ) = cov (e i ; e j ) = 0

deci y i , y j sunt si ele variabile aleatoare independente ( reamintim ca pentru variabilele


aleatoare cu repartitie normala , independenta si necorelarea sunt proprietati echivalente ).

Notă : semnificaţia erorilor aleatoare este aceasta : pentru un set fixat de valori ale

variabilei X , prin repetarea experimentului , se pot obţine valori diferite ale

variabilei Y .

2.2 Distributia estimatorilor proveniti din metoda CMMP

^
2.2.1: Media estimatorului b

^ ^
Pentru estimatorii a , b vom folosi expresiile alternative

⎧^
⎪b =
∑ ( xi − x) ⋅ y i ⎧ ∑ xi
⎪x =
⎪ ∑ ( xi − x)2 , unde : ⎪ n
⎨ ⎨

⎪ ^ ^

⎪y =
∑ yi
⎩ a = y − b ⋅x ⎩ n
- 18 -

In aceste formule , y i si y sunt variabile aleatoare repartizate normal , restul componentelor


^ ^
fiind constante : asadar si a , b vor fi tot variabile aleatoare normal repartizate .

Asadar , avem :

⎛^⎞ ⎛ ∑ ( x i − x) ⋅ y i ⎞ ∑ ( x − x ) ⋅ M( y ) =
M ⎜ b ⎟ = M⎜ ⎟= i i

⎝ ⎠ ⎜ ∑ ( x − x) 2 ⎟ ∑ ( x − x) 2
⎝ i ⎠ i

=
∑(x i − x) ⋅ ( a + b ⋅ x i )
=
a ⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x) ⋅ x i
=
∑(x i − x) 2
∑(x i − x) 2

b ⋅ ∑ ( x i − x) ⋅ x i
=
∑(x i − x)2

deoarece stim ca avem : ∑ ( xi − x) = 0 .

Mai mult , avem : ∑ ( xi − x)2 = ∑ ( xi − x) ⋅ xi , deci in final avem

⎛^⎞
M ⎜⎜ b ⎟⎟ = b
⎝ ⎠

In concluzie :

^
b este un estimator nedeplasat pentru parametrul b
- 19 -

^
2.2.2: Media estimatorului a

^
Din relatia de definitie a lui a se deduce :

⎛^⎞ ⎛ ⎞
( ) ⎛ ^⎞
^
M ⎜ a ⎟ = M ⎜ y − b⋅ x ⎟ = M y − x ⋅ M ⎜ b ⎟ =
⎝ ⎠ ⎝ ⎠ ⎝ ⎠

=M (y) −x⋅b

Dar se stie ca :

⎛ ∑ y i ⎞ ∑ M( y i ) ∑ ( a + b ⋅ xi ) =
( )
M y = M ⎜⎜
n
⎟⎟ =
n
=
n
⎝ ⎠
n ⋅ a + b ⋅ ∑ xi
= = a+b⋅x
n

deci in final obtinem :

⎛^⎞
M ⎜⎜ a ⎟⎟ = a + b ⋅ x − x ⋅ b ⇒
⎝ ⎠
⎛^⎞
⇒ M ⎜a⎟ = a
⎝ ⎠

Asadar :

^
a este un estimator nedeplasat pentru parametrul a
- 20 -

^
2.2.3: Dispersia estimatorului b

Utilizand relatiile din sectiunea 2.2.1 , gasim

⎛^⎞ ⎛ ∑ ( x i − x) ⋅ y i ⎞ ∑ ( x − x) ⋅ D ( y ) =
2 2

D2 ⎜ b ⎟ = D2 ⎜ ⎟= i i

⎝ ⎠ ⎜ ∑ ( x − x) 2
⎝ i

⎠ [∑ ( x − x) ]
i
2 2

=
∑ ( x − x) ⋅ s
i
2 2

=
s2
[ ∑ ( x − x) ]
i
2 2
∑ ( x i − x) 2

Rezultat :

2⎛
^⎞ s2
D ⎜⎜ b ⎟⎟ =
⎝ ⎠ ∑ ( x i − x) 2
- 21 -

^
2.2.4: Dispersia estimatorului a

^
Urmand formula lui a , avem :

^ ^ ^ 2 ^
2 2 2 2
D ( a ) = D ( y − b⋅ x ) = D ( y ) − 2 ⋅ x ⋅ cov ( y , b ) + x ⋅ D ( b ) ;

deoarece avem

⎛ ∑ y i ∑ ( x j − x) ⋅ y j ⎞
^ ⎜ ⎟
j
cov ( y , b ) = cov ⎜ i
; ⎟=
⎜ n
⎜ ∑ i ( x − x ) 2


⎝ i ⎠
∑∑ ( x j − x) ⋅ cov ( y i , y j )
i j
= =
n ⋅ ∑ ( x i − x) 2
i

∑ ( x i − x) ⋅ D 2 ( y j ) + ∑ (
( x j − x ) ⋅ cov y i , y j )
i i≠ j
i , j = 1, n
= =
n ⋅ ∑ ( x i − x) 2

s 2 ⋅ ∑ ( x i − x) + 0
i s2 ⋅ 0
= = = 0`
n ⋅ ∑ ( x i − x) 2 n ⋅ ∑ ( x i − x) 2
i i

Cum avem :
2
D ( y )= D ⎜ 2⎛
⎜ ∑ y i ⎞⎟ = ∑ D 2 ( y i ) = n ⋅ s 2 = s2
,
⎟ n2 n2
⎝ n ⎠ n

deci in final obtinem :


- 22 -

^ 2 ^
2 2 2
D (a)= D ( y )+ x ⋅ D (b )=
2
s2 x ⋅ s2
= + =
n ∑ ( x i − x) 2
2
s 2 ⋅ [ ∑ ( x i − x) 2 + n ⋅ x ]
= .
n ⋅ ∑ ( x i − x) 2

Cum stim ca :

2
∑ ( x i − x) 2 = ∑ x i2 − n ⋅ x ,

in final obtinem :

D 2
^
(a) =
∑ x i2

s2
n ⋅ ∑ ( x i − x) 2 n
- 23 -

^ ^
2.2.5 : Covarianta estimatorilor a , b

Avem :

⎛^ ^ ⎞ ⎛^ ^ ⎞ ^ ^
cov ⎜⎜ b , a ⎟⎟ = cov⎜⎜ b , y − b⋅ x ⎟⎟ = cov ( b , y ) − x ⋅ D 2 ( b ) =
⎝ ⎠ ⎝ ⎠
x ⋅ s2
= 0 − ;
∑ ( x i − x) 2

In final , am obtinut rezultatul :

⎛^ ^ ⎞ x ⋅ s2
cov ⎜ b , a ⎟ = .
⎝ ⎠ ∑ ( x i − x) 2

== // ==

APLICATIA 2 ( la &2.1 si &2.2 )

Pentru modelul liniar Y = a + b·X + e dispunem de urmatoarele date de sondaj :

xi 1,2 2,5 3,7 4,1 5,6 6,3 7,5


yi 7 13 17 19 25 28 33

^ ^ ^ ^
Sa determinam dispersiile estimatorilor a , b precum si cov ( a , b ) .
- 24 -

Rezolvare :

avem rezultatele urmatoare : ∑x i = 30,9 ; ∑ y i = 142 ; ∑ x i y i = 745 , 6 ; ∑ x i2 = 165 , 49

Asadar , coeficientii dreptei celor mai mici patrate sunt dati de sistemul

⎧⎪ n ⋅ a + b ⋅ ∑ xi = ∑ y i ⎧ 7 ⋅ a + 30, 9b = 142
⎨ ⇒⎨
⎪⎩a ⋅ ∑ x i + b ⋅ ∑ x i = ∑ x i ⋅y i
2
⎩ 30, 9 ⋅ a + 165, 49 ⋅ b = 745, 6

de unde gasim :

⎧ a = 2, 26
⎨ ⇒ dreapta celor mai mici patrate are ecuatia : y = 2,26 + 4, 08 · x.
⎩b = 4, 08

Expresia reziduului este :

^ ^
e i = y i − y i , unde y i = 2,26 + 4, 08 · x i

Valorile estimate ale reziduurilor apar in tabelul urmator :

^
yi 7,16 12,46 17,36 18,99 25,11 27,96 32,86
ei - 0,16 0,54 - 0,36 0,01 0 0,11 0,04 - 0,14

Avem :

− 0, 18
∑e i = − 0 , 18 ⇒ M (e i ) =
7
= − 0, 03

∑ e i2 − [M (e )] 2 = 0 , 07 ⇒ s 2 = 0 , 07
∑ i
e 2
= 0 , 48 ⇒ D 2
( e ) =
n
i

Pe de alta parte , avem :

x=
∑x i
=
30 , 9
= 4 , 414 ⇒
n 7
∑(x − x ) 2 = ∑ x i2 − 2 ⋅ x ⋅ ∑ x i + x = 165 , 49 − 2 ⋅ 4 , 414 ⋅ 30 , 9 + ( 4 ,414) 2 = 29 , 09
2
⇒ i
- 25 -

2
^ s2 0 , 07
deci : ( & 2.2. 3 ) D ( b ) = = = 0 , 024
∑ ( x i − x ) 29, 09
2

2
( & 2.2. 4 ) D ( a ) =
^
∑x 2
i

s2
=
165 , 49 0 , 07
⋅ = 0 , 01
n⋅ ∑(x − x)
i
2
n 7 ⋅ 29, 09 7

^ ^ x ⋅ s2 4 , 41 ⋅ 0 , 07
( & 2.2. 5 ) cov ( a , b ) = = = 0 , 01
∑ ( xi − x ) 2
29 , 09

2. 2. 3 : Estimarea dispersiei erorilor

2
Ne vom ocupa acum de estimarea dispersiei s a reziduurilor : aceasta cantitate s-a
^ ^
dovedit esentiala in descrierea caracteristicilor estimatorilor a , b .
Dar , prin structura modelului , aceasta nu este cunoscuta apriori si va trebui estimata pe baza
esantionului de care dispunem.
Daca a reusi sa determinam erorile ei , atunci dispersia lor s-ar putea estima prin
estimatorul nedeplasat “ dispersie de selectie modificata “ , dat de expresia :

η 2
=
∑ ( ei − e)2
,
n −1
unde prin e am notat media de selectie a erorilor { ei } .
Din pacate insa , cantitatile { ei } nu sunt observabile direct , ci pot fi estimate numai
prin relatiile :

^ ^ ^ ^ ^
e i = y i − y i , unde : y i = a + b⋅ x i = y + b⋅ ( x i − x ) .

In continuare ,vom utiliza unele dintre rezultatele precedente :

- stim ca media reziduurilor este zero , deci :

^
∑ ( ei − e ) 2 = ∑ ei2 = ∑ ( yi − yi ) 2 :
- deci :
- 26 -

⎡ ^
2⎤
⎛ ^2 ⎞
M ⎢∑ ( y i − y i ) ⎥ = ∑ M( y i ) − ∑ M ⎜ y i ⎟ =
2
⎣ ⎦ ⎜ ⎟
⎝ ⎠

[ ]
⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤
= ∑ D2 ( y i ) + M 2 ( y i ) − ∑ ⎢ D2 ⎜⎜ y i ⎟⎟ + M 2 ⎜⎜ y i ⎟⎟ ⎥
⎣ ⎝ ⎠ ⎝ ⎠⎦

- dar avem :

⎛^ ⎞ ⎛^ ^ ⎞ ⎛^⎞ ⎛^⎞
M ⎜⎜ y i ⎟⎟ = M ⎜⎜ a + b⋅ x i ⎟⎟ = M ⎜⎜ a ⎟⎟ + x i ⋅ M ⎜⎜ b ⎟⎟ =
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
= a + b ⋅ x i = M( y i )
- astfel , inlocuim si gasim :

⎛ ^
⎞ ⎛^ ⎞
M ⎜ ∑ ( y i − y i ) 2 ⎟ = ∑ D2 ( y i ) − ∑ D2 ⎜ y i ⎟ =
⎝ ⎠ ⎝ ⎠
2 ⎛ ⎞
^
= n ⋅ s2 − ∑ ⎝ i ⎟⎠
D ⎜ y

2⎛ ⎞
^
Vom calcula valoarea expresiei D ⎜⎜ y i ⎟⎟ ; avem :
⎝ ⎠
^ ^ ^ ^ ^ ^ ^
D 2 ( y i ) = D 2 (a + b⋅ x i ) = D 2 ( a ) + x i2 ⋅ D 2 ( b ) + 2 ⋅ x i ⋅ cov( a ; b ) =
s 2 ⋅ ∑ x 2j x i2 ⋅ s 2 2 ⋅ xi ⋅ x ⋅ s 2
= + − =
n ⋅ ∑ ( x j − x) 2
∑ j
( x − x ) 2
∑ j( x − x ) 2

s2 ⎛ ∑ x 2j ⎞
= ⋅ ⎜ + x 2
− 2 ⋅ x ⋅ x ⎟=
2 ⎜ n i i

∑ ( x j − x) ⎝ ⎠
s2 ⎛ ∑ x 2j n x 2 2⎞
= ⋅ ⎜ − + x 2
− 2 ⋅ x ⋅ x + x ⎟=
2 ⎜ n i i

∑ ( x j − x) ⎝ n

s2 ⎛ ∑ ( x j − x)2 ⎞
= ⋅ ⎜ + ( x − x ) 2⎟
=
2 ⎜ i

∑ j
( x − x ) ⎝ n ⎠
⎛1 ( x i − x )2 ⎞⎟
⎜2
=s ⋅ +
⎜ n ∑ ( x j − x )2 ⎟
⎝ ⎠
de unde gasim imediat forma finala , anume ;
- 27 -

⎡ ^
2⎤ 2

2 ⎜n
M ⎢∑ ( y i − y i ) ⎥ = n ⋅ s − s ⋅ +
∑ ( x i − x) 2 ⎞

⎣ ⎦ ⎜ n ∑ ( x − x)2 ⎟
⎝ j ⎠

⎡ ^ ⎤
M ⎢∑ ( y i − y i )2 ⎥
⇒ s2 = ⎣ ⎦
n−2

Asadar , estimatorul abaterii medii patratice a erorilor reziduale este :

θ* =
∑ ( y i − y i )2
n−2
- 28 -

2.4 : Inferenta statistica asupra parametrilor modelului

2.4.1: Teste privind panta b a dreptei de regresie

^
Am vazut ca estimatorul b are o distributie normala , si ca avem :

⎧ ^
⎪⎪M (b ) = b
⎨ 2 ^ s2 ;
⎪ D (b ) =
⎪⎩ ∑ ( x i − x) 2
Asadar , expresia :

^
b−b
Z=
^
2
D ( b)

*
are o repartitie normala normata : folosind estimatorul θ pentru s , gasim variabila
aleatoare

^
b−b
T=
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2

care are o repartitie Student , cu ( n-2) grade de libertate .

In cazul testarii ipotezei nule :


- 29 -

⎧ H 0 :b = b 0
⎨ ,
⎩ H 1 :b ≠ b 0

utilizam statistica

^
b−b
tc = .
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2

- Se respinge H0 la pragul de semnificatie α , daca | t c | > t ( α / 2 ; n − 2 )

OBSERVARE : daca se accepta ipoteza H 0 :b = 0 , in raport cu alternativa H 1 :b ≠ 0 ,

atunci Y nu depinde de fapt de X : modelul de regresie devine

y i = a + ei .

Daca insa se respinge H 0 :b = 0 si se prefera H 1 :b ≠ 0 , adica

^
b
tc > ,
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2

relatia dintre Y si X este semnificativa la pragul de semnificatie α .


- 30 -

2.4 : Inferenta statistica asupra parametrilor modelului

2.4.2 : Interval de incredere pentru b

Un interval de incredere , cu coeficientul de incredere ( 1 – α ) pentru parametrul b


este dat de legea Student Tn − 2 si deci are aspectul ;

⎛ ^ ^ ⎞
⎜^
⎜ b − t(α / 2;n − 2 ) ⋅
∑ ( y i − y i ) 2 ^
;b + t(α / 2;n − 2 ) ⋅
∑ ( y i − y i)
2 ⎟
⎟,
⎜ (n − 2 ) ⋅ ∑ ( x i − x ) 2 (n − 2) ⋅ ∑ ( x i − x ) 2 ⎟
⎝ ⎠

^ ^
sau , pe scurt : b ± t ( α / 2 ; n − 2 ) ⋅ σ (b ) .

Observare :

acest interval poate fi utilizat si pentru testarea perechii de ipoteze

H 0 : b = b 0 , cu alternativa H1 : b ≠ b 0
- 31 -

2.4 : Inferenta statistica asupra parametrilor modelului

2.4.3 : Teste privind taietura a in origine

^
Vom folosi faptul deja demonstrat , anume ca estimatorul a are o repartitie normala ,
cu caracteristicile :

⎧ ^
⎪⎪ M ( a )= a
⎨ 2 ^ s 2 ⋅ ∑ x i2
⎪D ( a ) =
⎪⎩ n ⋅ ∑ ( x i − x )2

Asadar , variabila aleatoare

^
a−a
Z=
^
2
D ( a)
are o repartitie normala normata .

2
Daca s este necunoscut , deci se estimeaza folosind estimatorul

θ =* ∑ ( y i − y i )2
n−2

atunci variabila aleatoare

^
a−a
T=
*
θ ⋅
∑ xi2
n ⋅ ∑ ( x i − x)2

are o repartitie Student , cu ( n-2 ) grade de libertate .


^
In continuare , se imita procedurile pentru b
- 32 -

2.4 : Inferenta statistica asupra parametrilor modelului

2.4.4 : Un exemplu numeric

Fie datele :

xi 1 3 7 11 14
y i 4 9 15 26 32

Sa determinam dreapta celor mai mici patrate si sa efectuam testarile corespunzatoare .

Avem urmatoarele valori estimate :

1
• x = ⋅ ( 1 + 3 + 7 + 11 + 14 ) = 7,2
5
1
• y = ⋅ ( 4 + 9 + 15 + 26 + 32 ) = 17, 2
5
deci obtinem tabelul :

x i − x -6,2 -4,2 -0,2 3,8 6,8

y i − y -13,2 -8,2 -2,2 8,8 14,8

Atunci :

• ∑ ( x i − x ) ⋅ ( y i − y ) = 250 , 8
deci :
• ∑ ( x i − x )2 = 116 , 8

^
• b=
∑ ( xi − x) ⋅ ( y i − y ) = 250 ,8 = 2 , 147 ;
∑ ( x i − x )2 116, 8
^ ^
• a = y − b⋅ x = 17 , 2 − 2, 147 ⋅ 7 , 2 = 1 , 742 .
- 33 -

^ ^
Reziduurile estimate se determina cu relatia e i = y i − y i , unde valorile calculate y i ale
variabilei Y se determina prin inlocuirea in ecuatia dreptei , deci

^ ^ ^
y i = a + b⋅ x i = 1 , 742 + 2 , 147 ⋅ x i ;

obtinem tabelul :
xi 1 3 7 11 14
yi 4 9 15 26 32
^
y i 3, 9 8,18 16,77 25,36 31,8
ei 0,1 0,82 - 1,77 0,64 0,2

Indicele de determinare ,
^2 2
R = 2 ∑ yi − n ⋅ y
2
∑ y i2 − n ⋅ y
devine :

2017, 725 − 5 ⋅ ( 17, 2)2


R2 = = 0 , 992 .
2022 − 5 ⋅ ( 17, 2)2

Deci variatia lui Y este determinata in proportie de 99 , 2% de catre variatia lui X .

^ ^
Sa trecem la estimarea repartitiei estimatorilor a , b : pentru aceasta trebuie estimat intai
abaterea medie patratica a reziduurilor .

Avem :

^
*
θ =
∑ ( y i − y i )2 = 4 , 265
= 1 , 192 :
n−2 3

aceasta valoare constituie o estimare nedeplasata a lui s .


- 34 -

Atunci :

2
^s2
valoarea estimata pentru D ( b ) = va fi data de :
∑ ( x i − x)2
1 , 1922
= 0 , 012 = ( 0 , 1103 )2
116 ,8

^
Deci abaterea standard a variabilei aleatoare b este : σ ^ = 0 , 1103 .
b

Valoarea estimata pentru D ( a ) = s


2
^
2

∑ x i2
va fi deci
n ⋅ ∑ ( x i − x )2

376
( 1 , 192)2 ⋅ = 0 , 9148 = ( 0 , 9565 )2 .
5 ⋅ 116 , 8

^
Deci abaterea standard a variabilei aleatoare a este : σ^ = 0 , 9565 .
a

^ ^
Acum se poate trece la efectuarea de teste privind valorile a , b .

Alegem pragul α = 0 , 90 ; din tabela Student citim

t ( α / 2 ; n − 2 ) = t ( 0 , 45 ; 3 ) = 2 , 6 .

- Verificarea ipotezei : H 0 : b = 3 , cu alternativa H1 : b ≠ 3 ;

^
b − 3 2 , 147 − 3
Avem : t c = = = − 7 , 73 ; cum avem | t c | > t ( 0 , 45 ; 3 ) ,
σ^ 0, 1103
b
deducem ca , la pragul α = 0 , 90 se respinge H0 si se prefera H1 .

- Interval de incredere pentru b :

Pentru α = 0 , 90 avem intervalul : ( 2 , 147 ± 2 ,6 ⋅ 0 ,1103 ) = ( 1 ,86 ; 2,434) .


- 35 -

Asadar , pentru valoarea estimata a lui b se poate alege orice valoare din acest interval : evident
~
ca valoarea cea mai tentanta este b = 2.

- Verificarea ipotezei : H 0 : a = 1 , cu alternativa H1 : a ≠ 1

1 , 742 − 1 se accepta H 0
Avem t c = = 0 ,7757 < t ( 0 , 45 ; 3 ) = 2 , 6 , deci : .
0 ,9565 se respinge H1

- Interval de incredere pentru a : avem

( 1 , 742 ± 2 ,6 ⋅ 0 , 9565 ) = ( − 0 , 745 ; 4 , 23) .

Observare : daca Y reprezinta beneficiul realizat in urma producerii unei cantitati X de produs
atunci este important sa avem : X = 0 → Y=0 ( daca nu produc nimic , beneficiul
este zero ) : cum valoarea a = 0 apartine intervalului ( − 0 , 745 ; 4 , 23 ) , datele problemei ar
putea confirma că avem un model de evaluare a nivelului beneficiului in functie de nivelul
productiei .

2.4 : Inferenta statistica asupra parametrilor modelului

2.4.5 : Interval de incredere pentru a

Un interval de incredere de nivel ( 1- α ) pentru parametrul a este definit de relatia

^ ^ ^ ^
( a − t ( α / 2, n − 2 ) ⋅ σ( a ) ; a − t ( α / 2, n − 2 ) ⋅ σ( a ) ) ,
sau :

^ ^
a ± t ( α / 2, n − 2 ) ⋅ σ( a ) .

Asadar : - se respinge ipoteza H 0 : a = a 0 , in raport cu ipoteza alternativa H1 : a ≠ a 0

la pragul de semnificatie α daca valoarea a 0 nu apartine intervalului


^ ^
a ± t ( α / 2, n − 2 ) ⋅ σ( a ) .
- 36 -

2.4 : Inferenta statistica asupra parametrilor modelului

2.4.6 : Interval de incredere pentru μ Y ( x )

Vom gasi acum interval de incredere pentru μ Y ( x ) = a + b ⋅ x .

S-a stabilit ca estimatorul lui μ Y ( x ) este dat de dreapta celor mai mici patrate ,
^ ^ ^
adica : y ( x ) = a + b⋅ x .
^
Estimatorul y ( x ) este normal distribuit , deoarece este o combinatie liniara de doi estimatori
cu repartitie normala .
Stim ca acest estimator este nedeplasat , si ca are abaterea standard

2⎛
^ ⎞ ⎛1 ( x − x)2 ⎞
σ ⎜⎜ y ( x ) ⎟⎟ = s 2 ⋅ ⎜ + ⎟.
⎜n ⎟
⎝ ⎠ ⎝ ∑ ( x i − x)2 ⎠

Se observa ca daca valoarea lui x este relativ indepartata de valoarea x , valoarea


dispersiei estimatorului este relativ mare si deci estimatorul devine neprecis : atunci , pentru
astfel de valori , estimarea lui μ Y ( x ) este bine sa nu se faca cu dreapta de regresie .

In continuare , expresia

^
y(x) − μ Y (x)
Z=
⎛^ ⎞
σ ⎜⎜ y ( x ) ⎟⎟
⎝ ⎠
are o repartitie normala normata .

2
Cum dispersia s a rezidurilor este necunoscuta , nu putem utiliza statistica Z , si va

trebui sa estimam s prin estimatorul θ* =


∑ ( y i − y i )2 : atunci folosim statistica
n−2
^
y(x) − μ Y (x)
T=
* 1 ( x − x)2
θ ⋅ +
n ∑ ( x i − x)2
- 37 -

care are o repartitie Student cu ( n-2) grade de libertate .

Intervalul de incredere de nivel ( 1 – α ) pentru μ Y ( x ) este

^ 1 ( x − x)2
y ( x ) ± t ( α / 2 , n − 2 ) ⋅ θ* ⋅ + , unde
n ∑ i( x − x ) 2

θ* =
∑ ( y i − y i )2 .
n−2

2.5 : Analiza dispersionala

Reamintim ca in sectiunea 1 . 3 am gasit relatia

^ ^
∑ ( y i − y )2 = ∑ ( y i − y ) 2 + ∑ ( y i − y i )2
unde :
- Sg = ∑ ( y i − y )2 este variatia totala ;

^
- Se = ∑ ( y i − y ) 2 este variatia explicata prin regresie ;
^
- Sr = ∑ ( y i − y i )2 este variatia reziduala sau variatie ne-explicata .

Acum vom folosi aceste relatii pentru a testa ipoteza H 0 : b = 0 .

Daca aceasta ipoteza este adevarata , atunci se poate demonstra ca mediile variatiilor devin
respectiv :
- 38 -

M (S g ) = (n − 1) ⋅ s 2
M (S e ) = s 2 ;

M (S r ) = (n − 2 ) ⋅ s 2

pornind de la aceste relatii , suntem incurajati sa introducem urmatorii estimatori

Sg
D2g = − dispersia globala
n −1
S
D 2e = e − dispersia exp licata
1
Sr
D 2r = − dispersia reziduala
n−2

2 2 2
Se stie ca daca ipoteza H0 este verificata , atunci D g , D e , D r sunt toti trei
2 2
estimatori nedeplasati ai lui s : daca H0 este falsa , atunci numai D r este estimator
2
nedeplasat al lui s .

Sg Se S
Daca ipoteza H0 este verificata , atunci statisticile 2
, 2
si 2r urmeaza cate o
s s s
2
repartitie χ , avand respectiv : n – 1 ; 1 si n-2 grade de libertate .
Mai mult , daca ipoteza H0 este verificata , aceste statistici sunt independente doua
cite doua .

ASADAR :

Daca ipoteza H0 este verificata , statistica

Sg
1 ⋅ s 2 D2 g
Fc = = 2
Sr D r
2
(n − 2) ⋅ s

urmeaza o lege Fisher cu ( 1 ; n-2 ) grade de libertate


- 39 -

Se poate utiliza statistica Fc pentru a decide acum daca ipoteza H 0 : b = 0 este adevarata
sau falsa : astfel , se respinge ipoteza H 0 la pragul de semnificatie α daca avem

Fc > F( α , 1 , n − 2 )

unde F( α , 1 , n − 2 ) este cuantila ( 1 – α) a repartitiei Fisher cu ( 1 ; n-2 ) grade de libertate


,care se citeste in tabele .

Calculele se sistematizeaza deobicei intr-un tabel , numit tabel ANOVA ( ANOVA = analysis
of variation ) :

felul grade Testul


variatiei de variatia dispersia Fisher
libertate
explicata 1 ^ Se
S e = ∑ ( y i − y )2 D 2e =
D 2e
1 Fc = 2
D r
reziduala n – 2 ^ Sr
Sr = ∑ ( y i − y i )2 D 2r =
n−2
totala 1+(n–2)=
=n-1 S g = Se + Sr XXXXXX XXXXX

2.6 : Modele cu un singur parametru

2.6.1 : Modele fara variabila explicativa

Pornim de la ipoteza ca modelul de regresie are aspectul

y i = a + ei .

Ipotezele raminand cele generale , avem :

⎧⎪M ( y i ) = a
⎨ 2 .
⎪⎩ D ( y i ) = s 2

^
Fie a 0 - un estimator pentru a : atunci pot fi definite
- 40 -

^ ^
- valorile estimate : y i = a 0 ;

^ ^
- reziduurile : e i = y i − y i = y i − a 0 .

^
Estimatorul a 0 va fi determinat prin metoda celor mai mici patrate ,adica prin conditia de
minimum pentru eroarea globala

z = f (a 0 ) = ∑ ( y i − a 0 ) 2

Dupa cum stim , aceasta conditie este

dz
= 0 ⇔ − 2 ⋅ ∑ ( y i − a0 ) = 0 .
d a0

Gasim asadar :

^
a0 =
∑ yi = y .
n

Inlocuind , obtinem :

⎧ 2 ^
⎪ r ∑ i i ) = ∑ ( y i − y ) = Sg
2 2 2
S = ( y − y
⎨ ^ ^ ^
⎪S 2 = ( y − y ) 2 = ( y − y ) 2 = 0 .
⎩ e ∑ i ∑ i i

^ ^
Estimatorul a = y i este repartizat normal cu :

⎛^⎞
- media : M ⎜⎜ a ⎟⎟ = M ( y ) = M ( y i ) = a 0
⎝ ⎠
2⎛ ⎞
^
2 D2 ( y i ) s 2
- dispersia : D ⎜⎜ a ⎟⎟ = D ( y ) = = .
⎝ ⎠ n n

Pe de alta parte , media sumei patratelor reziduurilor este :


- 41 -

⎡ ^ ⎤
M ⎢∑ ( y i − y i )2 ⎥ = M [ ∑ ( y − y ) ] = (n − 1) ⋅ s
i
2 2
⎣ ⎦
2
Astfel , obtinem un estimator nedeplasat pentru s din relatiile precedente , anume :

^
2
s =
∑ ( y i − y i )2
=
∑ ( y i − y )2 .
n −1 n −1

^⎞ s2 2⎛
⎜ ⎟
De aici , obtinem si un estimator nedeplasat pentru D ⎜ a ⎟ = .
⎝ ⎠ n

2.6 : Modele cu un singur parametru

2.6.2 : Modele fara constanta

Un model fara parte constanta are aspectul

y i = b ⋅ x i + ei

Stim ca y i sunt variabile independente cu repartitie normala , deci avem

M ( y i ) = b ⋅ x i + M( ei ) = b ⋅ x i
.
D 2 ( y i ) = D 2 ( b ⋅ x i ) + D 2 (e i ) = s 2

^
Folosind un estimator b a lui b , putem defini valorile estimate

^ ^
y i = b⋅ x i

^ ^
si reziduurile e i = y i − y i = y i − b⋅ x i .

^
Estimatorul b este dat de metoda celor mai mici patrate si are aspectul :
- 42 -

^
b =
∑ xi ⋅ y i
∑ xi2
Specificul unui model de regresie fara constanta este faptul ca dreapta de regresie
^
estimata nu trece prin punctul de coordonate ( x , y ) si ca relatia ∑ y i = ∑ y i nu mai este
adevarata .
Asadar , suma rezidurilor nu este nula , si nu mai avem : Sg = Se + Sr .

In schimb , dupa cum vom arata , este adevarata relatia :

^2 ^
∑ yi = ∑ yi ⋅ yi

In adevar :

( )
2
^ ⎛ ∑ xi ⋅ y i ⎞ ∑ x ⋅ y
2

∑ y i = ⎜⎜ x 2 ⎟⎟ ⋅ ∑ xi =
2 2 i i
=
⎝ ∑ i ⎠ ∑ x 2
i

⎛ n ⎞
⎜ ∑ xj ⋅ y j ⎟
∑ xi y i ⋅ ∑ xi y i = ∑ n ⎜
j= 1 ⎟
= ⎜ ⎟ ⋅ xi ⋅ y i =
∑ i x 2
i =1 ⎜
n
x 2j ⎟
⎜ ∑ ⎟
⎝ j= 1 ⎠
^
= ∑ yi ⋅ yi

Asadar , avem relatia :

^ ^
∑ ( yi − yi ) = ∑2
y i2 − ∑ yi .

^
Estimatorul b are distributie normala , cu

⎛^⎞
- media : M ⎜⎜ b ⎟⎟ =
∑ xi ⋅ M( y i ) = b ⋅ ∑ xi2 =b ;
⎝ ⎠ ∑ xi2 ∑ xi2
- 43 -

2⎛
^⎞
∑ x i2 ⋅ D2 ( y i ) s 2 ⋅ ∑ x i2 s2
⎜⎜ b ⎟⎟ = = =
- dispersia : D
⎝ ⎠ ( ∑ i x )
2 2
( ∑ xi ) ∑ xi2
2 2
.

^
Valorile estimate y i sunt deasemeni repartizate normal , cu

⎛^ ⎞ ⎛^ ⎞ ⎛^⎞
- media : M ⎜⎜ y i ⎟⎟ = M ⎜⎜ b⋅ x i ⎟⎟ = x i ⋅ M⎜⎜ b ⎟⎟ = x i ⋅ b = M( y i )
⎝ ⎠ ⎝ ⎠ ⎝ ⎠

2⎛ ⎞^
2⎛
^ ⎞ 2 2⎛ ^ ⎞ x i2
- dispersia : D ⎜⎜ y i ⎟⎟ = D ⎜⎜ b⋅ x i ⎟⎟ = x i ⋅ D ⎜⎜ b ⎟⎟ = ⋅ s2 .
⎝ ⎠ ∑ xj
2
⎝ ⎠ ⎝ ⎠
j

Pentru media sumei patratelor reziduurilor , avem :

⎛ ^
2⎞
⎛ ^2 ⎞ ^
M ⎜⎜ ∑ i i ⎟ ⎜⎜
( y − y ) ⎟ = M ∑ y i2 − ∑ y i ⎟ = ∑ D2 ( y i ) − ∑ D2 ( y i ) =

⎝ ⎠ ⎝ ⎠

= n⋅s − s 2 2

∑ x i2
= ( n − 1 ) ⋅ s2
∑ xi 2

2
Deci un estimator nedeplasat al lui s se obtine punand :

^
* 2
(s ) =
∑ ( y i − y i )2
.
n −1

^⎞
2⎛
Un estimator pentru D ⎜ b ⎟⎟ va fi atunci dat de :

⎝ ⎠

~2 ^ ( s* ) 2
σ (b) = .
∑ i x 2

Se demonstreaza ca expresia :
- 44 -

^
b− b
T= ~ ^
σ ( b)

are o repartitie Student cu ( n-1 ) grade de libertate .

CAPITOLUL 3 : REGRESIA MULTIPLA

3.01 : Hiperplanul de regresie

Se considera cazul unei variabile explicate , Y , si un numar de ( p-1) variabile


explicative , anume X1 , X2 , …, Xp-1 .
Vom studia cazul existentei unui model liniar stochastic de tipul

Y = b 0 + b1 ⋅ X1 + b 2 ⋅ X 2 + ... + b p − 1 ⋅ Xp − 1 + e
Folosind un esantion de “n” indivizi , obtinem datele care au aspectul :

( x11 , x12 ,..., x1,p − 1 ; y 1 ) ; ( x 21 , x 22 ,..., x 2,p − 1 ; y 2 ) ; ... ; ( xn1 , xn 2 ,..., xn ,p − 1 ; y n ) .

Valabilitatea modelului liniar stochastic mentionat revine la a presupune ca pentru


fiecare i = 1, n avem relatia

y i = b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p − 1 ⋅ x i ,p − 1 + e i .

Si la acest model , se considera ca valorile { x ij } au caracter determinist , pe cand { y i } sunt


considerate variabile aleatoare .

CAPITOLUL 3 : REGRESIA MULTIPLA

3.02 : Model de regresie cu doua variabile explicative

Vom studia pentru inceput cazul a doua variabile explicative , caz in care
modelul devine :

y i = b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 + ei
- 45 -

^
Urmeaza determinarea de estimatori { b i }i =1, 3 pentru parametrii { b i }i =1, 3 .
Valorile estimate ale variabilei explicate Y vor fi atunci

^ ^ ^ ^
y i = b 0 + b1 ⋅ x i 1 + b 2 ⋅ x i 2

iar reziduurile { ei }i =1, 3 ar urma sa fie date prin

^ ^ ^ ^
ei = y i − y i = y i − (b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 ) .

Pentru construirea estimatorilor , se utilizeaza tot metoda celor mai mici patrate , adica se
urmareste minimizarea sunei patratelor reziduurilor :

f ( b1 , b 2 , b 3 ) = ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 )2 = min .

Conditiile necesare de extrem sunt :

⎧ ∂f
⎪ ∂b = − 2 ⋅ ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 ) = 0
⎪ 0
⎪ ∂f
⎨ = − 2 ⋅ ∑ x i 1 ⋅ ( y i − b 0 − b1 ⋅ x i 1 − b 2 ⋅ x i 2 ) = 0

⎪ 1 b
⎪ ∂f = − 2 ⋅ x ⋅ ( y − b − b ⋅ x − b ⋅ x ) = 0
⎪ ∂b ∑ i 2 i 0 1 i1 2 i 2
⎩ 2

Se obtine sistemul ecuatiilor normale :

⎧ ^ ^ ^
⎪ n b 0 + b 1 ⋅ ∑ i1 2 ⋅ ∑ x i 2 = ∑ y i
x + b
⎪^ ^ ^
⎨ b 0 ⋅ ∑ xi1 + b1 ⋅ ∑ xi1 + b 2 ⋅ ∑ xi1 ⋅ xi 2 = ∑ xi1 ⋅ y i
2

⎪^ ^ ^
⎪b 0 ⋅ ∑ xi 2 + b1 ⋅ ∑ xi1 ⋅ xi 2 + b 2 ⋅ ∑ xi 2 = ∑ xi 2 ⋅ y i
2

- 46 -

Nu vom utiliza acest sistem in continuare : se trece la rezolvarea matriceala in paragraful


urmator.

CAPITOLUL 3 : REGRESIA MULTIPLA

3.03 : Cazul matriceal

Pentru a descrie matriceal sistemul ecuatiilor normale , vom introduce matricile :

- matricea valorilor variabilelor determinante :


⎛ 1 x11 x12 ... x1,p −1 ⎞
⎜ ⎟
⎜ 1 x 21 x 22 ... x 2,p −1 ⎟
X=⎜
... ... ... ... ... ⎟
⎜ ⎟
⎜ 1 x n1
⎝ xn 2 ... xn ,p −1 ⎟⎠

- vectorul estimatorilor :

⎛ ^ ⎞
⎜ b0 ⎟
^ ⎜ ^ ⎟
b = ⎜ b1 ⎟ ;
⎜ ... ⎟
⎜^ ⎟
⎜ bp −1 ⎟
⎝ ⎠

- vectorul valorilor estimate :

⎛^ ⎞
⎜ y0 ⎟
^ ⎜^ ⎟
y = ⎜ y1 ⎟ ;
⎜ ⎟
⎜ ^... ⎟
⎜y ⎟
⎝ n⎠
- vectorul reziduurilor :
- 47 -

⎛ e1 ⎞
⎜ ⎟
⎜ e2 ⎟
e =⎜ ⎟ .
...
⎜ ⎟
⎜e ⎟
⎝ n⎠
In scriere matriceala ,

- modelul de regresie devine : y = X ⋅ b + e ;


^ ^
- vectorul valorilor estimate devine : y = X ⋅ b ;
^
- vectorul reziduurilor devine : e = y − y ;

Suma patratelor reziduurilor se calculeaza prin expresia matriceala

^ ^ ^ ^
∑ ei2 = e'⋅e = ( y − y )'⋅ ( y − y ) = ( y − X ⋅ b )'⋅( y − X ⋅ b ).

^
Pentru scalarul b'⋅ X'⋅y avem

^ ^ ^ ^
y'⋅y − b'⋅ X'⋅y − y'⋅ X ⋅ b + b'⋅ X'⋅ X ⋅ b ,

deci expresia ∑ ei2 devine :

^ ^ ^ ^
e'⋅e = y'⋅y − b'⋅ X'⋅y − y'⋅X ⋅ b + b'⋅ X'⋅X ⋅ b =
^ ^ ^
= y'⋅y − 2 ⋅ b'⋅X'⋅y + b'⋅X'⋅ X ⋅ b

^
Derivand expresia obtinuta in raport cu vectorul b , obtinem conditia necesara de extrem :

^
− 2 ⋅ X'⋅y + 2 ⋅ X'⋅X ⋅ b = 0

^
Asadar , estimatorul b se obtine din ecuatia matriceala :
- 48 -

^ ^
X'⋅ X ⋅ b = X'⋅y ⇒ b = ( X'⋅ X)−1 ⋅ X'⋅y

3.04 : Proprietatile metodei celor mai mici patrate

- Proprietatea 1 : Esta adevarata urmatoarea relatie matriceala :

^ ^ ^ ^
y'⋅ y = y'⋅y = y'⋅ y .

In adevar :

^ ^ ^ ^ ^ ^
y'⋅ y = ( X ⋅ b )'⋅ X ⋅ b = b '⋅ X'⋅X ⋅ b =
^
= b '⋅X'⋅ X ⋅ ( X'⋅ X ) −1 ⋅ X'⋅y =
^ ^ ^
= b '⋅X'⋅y = ( X ⋅ b )'⋅y = y'⋅y

Atunci avem :

^ ^ ^ ^
e'⋅e = ( y − y )'⋅( y − y ) = ( y' − y') ⋅ ( y − y ) =
^ ^ ^ ^
= y'⋅y − y'⋅ y − y'⋅y + y' ⋅ y =
^ ^
= y'⋅y − y' ⋅ y

In final , suma patratelor reziduurilor se poate exprima astfel :

^ ^2
∑ e i2 = ∑ ( yi − yi ) = ∑ 2
y i2 − ∑ yi .

== // ==
- 49 -

- Proprietatea 2 : din prima ecuatie normala , anume :

^ ^ ^
n b 0 + b 1 ⋅ ∑ x i1 + b 2 ⋅ ∑ x i 2 + .... = ∑ y i ,

prin impartire cu “ n “ gasim :

^ ^ x i1 ^ x y
b 0 + b1 ⋅ ∑ + b 2 ⋅ ∑ i 2 + ... = ∑ i ,
n n n
sau :

^ ^ ^
b 0 + b1 ⋅ x1 + b 2 ⋅ x 2 + ... = y ⇒
^ ^ ^
⇒ b 0 = y − b 1 ⋅ x1 − b 2 ⋅ x 2 − ...

Deci : planul de regresie multipla trece prin punctul mediu , de coordonate

A = ( x1 , x 2 ,... , x p −1 , y ) .

== // ==

- PROPRIETATEA 3 :

^
Este adevarata relatia ∑ y i = ∑ y i ; in adevar :

^ ^ ^ ^ ^
∑ y i = ∑ (b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 ) =
^ ^ ^ ^
= ∑ b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1
^ ^ ^
= n ⋅ b 0 + b 1 ⋅ ∑ x i1 + ... + b p −1 ⋅ ∑ x i ,p −1 =
^ ^ ^ ^
= n ⋅ ( y − b 1 ⋅ x1 − b 2 ⋅ x 2 − .... ) + b 1 ⋅ n ⋅ x1 + b 2 ⋅ x 2 + ... =
= n ⋅ y = ∑ yi .
- 50 -

^
Ca o consecinta , avem : ∑ e i = ∑ y i − ∑ y i = 0 , deci suma reziduurilor , precum si
media reziduurilor , sunt egale cu zero .

== // ==

- Proprietatea 5 ; Expresia variatiei globale , explicate si reziduale

Vom porni de la relatia :

^ ^2 ^ 2
∑ (y i − y ) = ∑ y i − 2 ⋅ y ⋅ ∑ y i + n ⋅ y =
2

^2 2
= ∑ yi − 2⋅ y ⋅ ∑ yi + n ⋅ y =
^2 2 2
= ∑ yi − 2⋅ n ⋅ y + n ⋅ y =
^2 2
= ∑ yi − n ⋅ y .

De aici , obtinem :

^ ^
∑ (y i − y )2 + ∑ ( y i − y i )2 =
⎡ ^2 2⎤ ⎡ ^2⎤
= ⎢∑ y i − n ⋅ y ⎥ + ⎢∑ y i − ∑ y i ⎥ =
2

⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
2
= ∑ y i2 − n ⋅ y = ∑ ( y i − y ) 2

Am obtinut ecuatia care leaga cele trei variatii , anume :

^ ^
∑ ( y i − y ) = ∑ (y i − y )
2 2
+ ∑ ( y i − y i )2
⇔ Sg = Se + Sr .

== // ==
- 51 -

- Proprietatea 6 : Coeficientul de determinare

Definim si acum

Se
R2 = .
Sg
Interpretarea acestuia ramine cea din capitolul precedent.

CAPITOLUL 3 : REGRESIA MULTIPLA

3.05 : Ipotezele modelului

Ecuatia hiperplanului de regresie , in scriere matriceala , este :

y= X⋅b+e

unde vectorul aleator e urmeaza o lege normala multidimensionala , avand caracteristicile

M ( e) = 0 ; D 2 ( e ) = s 2 ⋅ E n ,
adica :

• M( e1 ) = M( e 2 ) = ... = M (e n ) = 0
⎛ D 2 (e 1 ) cov( e1 , e 2 ) ... cov( e1 , e n ) ⎞⎟

⎜ cov( e1 , e 2 ) D 2 (e 2 ) ... cov( e 2 , e n ) ⎟
•⎜ ⎟=
⎜ ... ... ... ... ⎟
⎜ cov( e , e ) cov( e , e ) ... D (e n ) ⎟⎠
2
⎝ n 1 n 2

⎛ s2 0 ... 0 ⎞⎟

⎜ 0 s2 ... 0 ⎟
=⎜ ⎟
⎜ ... ... ... ... ⎟
⎜0 0 ... s 2 ⎟⎠

Cu alte cuvinte , variabilele aleatoare {e i }

- sunt doua cate doua independente


- sunt identic repartizate
- urmeaza fiecare repartitia N( 0 ; s ) .

Ca o consecinta , vectorul aleator y urmeaza si el o repartitie normala multidimensionala ,


- 52 -

2 2
avand caracteristicile : M ( y ) = X ⋅ b ; D ( y ) = s ⋅ E n .

Altfel spus , avem :

M ( y ) = b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 .

Estimatorul vectorului b este un estimator nedeplasat ; in adevar , avem :

^
M (b ) = M [ ( X'⋅X) −1 ⋅ X'⋅y ] = ( X'⋅X) −1 ⋅ X'⋅ M( y ) =
= ( X'⋅X) −1 ⋅ X'⋅ b = b .

^
In ce priveste dispersia estimatorului b , avem :

^
D 2 (b ) = D 2 [ ( X'⋅ X) −1 ⋅ X'⋅y ] =
= ( X'⋅X) −1 ⋅ X'⋅ ( ( X'⋅ X) −1 ⋅ X' )'⋅ D 2 ( y ) =
= ( X'⋅X) −1 ⋅ X'⋅ X ⋅ ( X'⋅X) −1 ⋅ s 2 =
= ( X'⋅ X) −1 ⋅ s 2

CAPITOLUL 3 : REGRESIA MULTIPLA

3.06 : Estimarea dispersiei erorilor

2
Pentru estimarea dispersiei comune s a erorilor , vom porni de la relatia

^
∑ (e i − e) 2 = ∑ e i2 = ∑ ( y i − y i ) 2 .

Avem :
- 53 -

⎡ ^2⎤ ⎛^2 ⎞
⎡ 2⎤
( )
^
M ⎢∑ ( y i − y i ) ⎥ = M ⎢∑ y i − ∑ y i ⎥ = ∑ M y i − ∑ M ⎜ y i ⎟ =
2 2

⎣ ⎦ ⎢⎣ ⎥⎦ ⎜ ⎟
⎝ ⎠

[ ]
⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤
= ∑ D 2 ( y i ) + M 2 ( y i ) − ∑ ⎢ D 2 ⎜⎜ y i ⎟⎟ + M 2 ⎜⎜ y i ⎟⎟ ⎥
⎣ ⎝ ⎠ ⎝ ⎠⎦

si deci :

^ ^
D ( y ) = D ( X ⋅ b ) = D 2 [ X ⋅ ( X'⋅ X) −1 ⋅ X'⋅y ] =
2 2

= [ X ⋅ ( X'⋅ X) −1 ⋅ X' ] ⋅ [ X ⋅ ( X'⋅ X) −1 ⋅ X' ]'⋅D 2 ( y ) =


= [ X ⋅ ( X'⋅X) −1 ⋅ X' ] ⋅ [ X ⋅ ( X'⋅X) −1 ⋅ X' ]'⋅E n ⋅ s 2 =
= X ⋅ ( X'⋅X) −1 ⋅ X'⋅ s 2

^ −1
Asadeci , dispersiile cantitatilor y se afla pe diagonala matricii H = X ⋅ ( X'⋅ X ) ⋅ X' ,
i
2
inmultite cu s .

Atunci avem :
^ ^
M [ ∑ ( y i − y i )2 ] = ∑ D2 (y i ) − ∑ D2 ( y i ) =
= n ⋅ s 2 − s 2 ⋅ Tr ( H ) ,

unde Tr(H) este urma matricii H ( = suma elementelor de pe diagonala matricii ).

−1
Dar avem : Tr ( H ) = Tr [ X ⋅ ( X'⋅ X ) ⋅ X' ]= Tr [ ( X'⋅ X) −1 ⋅ ( X'⋅X) ]
deci

Tr ( H ) = Tr [ E p ] = p .

^
Atunci : M [ ∑ ( y i − y i ) 2 ] = (n − p ) ⋅ s 2 .
2
Se poate defini deci un estimator nedeplasat pentru s , prin

^
* 2 ∑ ( yi − yi )
2
S Sg − Se
(θ ) = = r = ,
n−p n−p n−p

sau :
- 54 -

θ* =
∑ ( y i − y i )2 .
n−p

CAPITOLUL 3 : REGRESIA MULTIPLA

3.07 : Inferente statistice asupra parametrilor modelului

^
Am vazut ca vectorul b urmeaza o lege normala multidimensionala , cu media
^ ^
M (b ) = b si cu dispersia D2 (b ) = ( X'⋅ X)−1 ⋅ s 2 .

^
Asadar , estimatorii b j au repartitii normale , cu media b j .
^
2
Dispersiile estimatorilor b j depind de cantitatea necunoscuta s care se poate estima cu
*
estimatorul θ prezentat in sectiunea precedenta .
^
2 −1
Avem deci estimarea D (b ) = ( X'⋅ X ) ⋅ (θ* )2 .
(0) (0)
Pentru a testa ipoteza nula H 0 :b j = b j cu alternativa H1 :b j ≠ b j ,se poate folosi
statistica

^
b j − b(j0 )
tc = ^
σ (b j )

Daca ipoteza H 0 este adevarata , statistica t c are o repartitie Student cu ( n-p) grade de
libertate . Asadar , se respinge H 0 la pragul α daca avem

| t c | > t ( α / 2, n − p ) .

Folosind aceeasi statistica , se pot determina intervalele de incredere pentru b j .


- 55 -

CAPITOLUL 4 : TEORIA CORELATIEI

4.01 : Masurarea corelatiei : proprietati

Ca functie de doua variabile , corelatia are urmatoarele proprietati de baza :

- corelatia este pozitiva daca dependenta dintre caracteristici are caracter crescator ,
adica : cresterea valorii caracteristicii determinante duce la o crestere a mediei
caracteristicii determinate ;

- corelatia este negativa daca dependenta dintre caracteristici are caracter descrescator
adica : cresterea valorii caracteristicii determinante duce la o descrestere a mediei
caracteristicii determinate ;

- corelatia este nula , daca variabilele sunt independente , sau : modificarea valorii
caracteristicii determinante lasa neschimbata media caracteristicii determinate
NOTA : am facut aceasta precizare , deoarece este posibil sa avem situatii ca
aceasta : modificarea valorii caracteristicii determinante nu modifica
media caracteristicii determinate , dar ii modifica ( de exemplu)
dispersia ; din punct de vedere practic , intr-un astfel de caz
caracteristica determinanta are influenta asupra caracteristicii
determinate .
- valoarea numerica a corelatiei trebuie sa fie independenta fata de unitatile de masura
folosite pentru cele doua variabile ;
- corelatia trebuie sa fie o marime simetrica a dependentei , adica corelatia dintre
X si Y trebuie sa fie egala cu corelatia dintre Y si X .

4.02 : Coeficientul de corelatie ( recapitulare )

Cea mai utilizata masura a corelatiei este coeficientul de corelatie al lui Pearson ,
anume :

Cov ( X , Y )
ρ XY = .
2 2
D ( X) ⋅ D ( Y )

Reamintim ca pentru covarianta avem definitia:

cov ( X , Y ) = M [ ( X − m X ) ⋅ ( Y − m Y ) ] = M( X ⋅ Y ) − M( X) ⋅ M( Y ) .

Principalele proprietati ale covariantei sunt urmatoarele :


- 56 -

⎧ • cov ( X , X) = D 2 ( X )

⎪ • cov ( X , Y ) = cov ( Y, X )

⎪ • cov ( a ⋅ X + b , Y ) = a ⋅ cov( X , Y )
⎪⎩• cov( X + Y, Z ) = cov( X , Z ) + cov( Y, Z )

In plus , avem : X , Y – independente ⇒ cov ( X , Y ) = 0.

NOTA : dar afirmatia reciproca nu este adevarata : este posibil sa avem covarianta
zero , dar variabilele X , Y sa fie dependente : daca cov ( X , Y ) = 0 ,
vom spune ca X , Y sunt variabile necorelate ( ceeace in practica inseamna
ca se poate considera ca nu se influenteaza ).
Folosind proprietatile covariantei , se deduc proprietatile coeficientului de corelatie ρ .

Acestea sunt urmatoarele :

• − 1 ≤ ρ XY ≤ 1 ;

• daca avem ρ XY = 1 , variabilele X , Y sunt legate printr-o relatie liniara crescatoare,

Y = a + b ⋅ X , unde avem b > 0 ;

• daca avem ρ XY = − 1 , variabilele X , Y sunt legate printr-o relatie liniara


descrescatoare, Y = a + b ⋅ X , unde avem b < 0 ;

• daca variabilele X , Y sunt independente atunci avem ρ XY = 0 ,

• coeficientul de corelatie nu se modifica , daca unitatile de masura pentru cele doua varia-
bile se schimba , adica :

ρ ( X , Y ) = ρ ( a ⋅ X + b , p ⋅ Y + q ) ⋅ sgn ( a ⋅ p )

Aici prin “ sgn(x) “ intelegem semnul lui “ x” , adica

⎧ − 1 , pentru x < 0

sgn( x ) = ⎨ 0 , pentru x = 0 .
⎪ 1 , pentru x > 0

In fine , coeficientul de corelatie are caracter simetric , adica ρ XY = ρ YX .

Printre dezavantajele lui ρ XY , principalele doua sunt urmatoarele :

- variabilele X , Y pot fi puternic dependente neliniar , dar valoarea lui ρ XY


- 57 -

poate fi mica sau chiar zero : cităm cazul in care

Y = a + bX 2 ⇒ ρ XY = 0 , daca M( X) = 0 .

- dupa cum am mai mentionat : daca ρ XY = 0 , nu neaparat X Y sunt


independente ( ele sunt numite variabile necorelate ) .

NOTA : pentru cazul special in care X , Y urmeaza repartitii normale , atunci


avem :

ρ XY = 0 ⇔ X , Y − independente .

CAPITOLUL 4 : TEORIA CORELATIEI

4.03 : Estimarea coeficientului de corelatie

Fie un sondaj de volum “ n “ asupra variabilelor X , Y , anume ;

{ ( x i , y i ) }i =1,n .

Pentru a estima coeficientul de corelatie ( necunoscut ) al variabilelor , folosim estimatorul

rxy =
∑ ( x i − x) ⋅ ( y i − y )
∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2
sau :

rxy =
∑ xi ⋅ y i − n ⋅ x ⋅ y .
2 2
( ∑ x i2 − n ⋅ x ) ⋅ ( ∑ y i2 − n ⋅ y )

Si coeficientul rxy are proprietatea : − 1 ≤ rxy ≤ 1 .


- 58 -

4.04 : Legatura intre coeficientul de corelatie si elementele dreptei de regresie

- Legatura dintre coeficientul de corelatie si panta dreptei de regresie :

Consideram modelul de regresie y i = a + b ⋅ x i + ei ,cu ipotezele deja prezentate si cu alte


ocazii .
Stim ca panta b a dreptei de regresie se estimeaza folosind estimatorul nedeplasat

^
b=
∑ ( xi − x) ⋅ ( y i − y ) .
∑ ( x i − x )2
In paragraful anterior am vazut ca avem :

rxy =
∑ ( x i − x) ⋅ ( y i − y ) ;
∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2
asadar , avem :

∑ ( xi − x) ⋅ ( y i − y ) ⋅ ∑ ( y i − y ) =
^ 2
b=
∑ ( x i − x )2 ⋅ ∑ ( y i − y )2 ∑ ( x i − x )2
= rxy ⋅
∑ ( y i − y )2
∑ ( x i − x )2
Folosind abaterile medii patratice de selectie modificate , anume :

~
σx =
∑ ( xi − x)2 ; σ~ y = ∑ ( y i − y )2 ,
n−1 n−1

gasim :

~
^ σy
b = rxy ⋅ ~
σx
- 59 -

- Legatura dintre coeficientul de corelatie ρ si coeficientul de determinare R

Reamintim ca pentru coeficientul de determinare avem formula

R 2
= ∑ ( y i − y )2
,
∑ ( y i − y )2
unde :

^ ^ ^ ^
y i = a + b⋅ xi = y + b⋅ ( xi − x ) .

atunci ,
^
2
R = ∑ [y + b⋅ ( xi − x) − y ]2 =b
^2
⋅ ∑ ( xi − x) 2
.
∑ ( y i − y )2 ∑ ( y i − y )2
Inlocuind , obtinem :

σ 2x ^2
2
R = b ⋅ 2
σy

deci :

R 2 = rxy
2

In fine , o alta proprietate a coeficientului de corelatie rezulta din urmatoarele


considerente :

rxy =
∑ ( xi − x)(y i − y ) =
∑ ( x i − x )2 ⋅ ∑ ( y i − y )2
^

=
∑ (yi − y ) ⋅ (yi − y ) = r
^ ^

∑ (y i − y ) ∑ (y i − y )
2 2 yy

sau :
- 60 -

R 2 = r 2^
yy

4.05 : Teste privind coeficientul de corelatie

- Verificarea ipotezei ρ XY = 0 :

Se urmareste testarea perechii de ipoteze alternative

H 0 : ρ XY = 0
H 1 : ρ XY ≠ 0

Cum coeficientul de corelatie este proportional cu panta dreptei de regresie , aceasta revine la
a verifica perechea de ipoteze

H 0 :b = 0
.
H1 :b ≠ 0

In ipoteza ca { y i } au o repartitie normala , aceasta ipoteza se poate testa folosind :

- varianta 1 : statistica t c =
∑ ( x i − x) 2
⋅b
θ*

- varianta 2 : statistica Fc =
∑ ( y i − y )2
( θ* ) 2

Reamintim ca avem

^
* 2
(θ ) =
∑ ( y i − y i )2
.
n−2

Cum avem :

^ ^
∑ ( y i − y i )2 = ∑ ( y i − y)2 − ∑ ( y i − y)2 ,
- 61 -

expresia Fc devine :

^
( n − 2) ⋅ ∑ ( y i − y ) 2
Fc = ^
.
∑ ( y i − y) − ∑ ( y i − y)
2 2

Simplificand prin ∑ ( y i − y )2 , se gaseste

( n − 2) ⋅ R 2
Fc = 2
= t c2
1−R

n − 2 ⋅ rxy
deci : tc = .
2
1 − rxy

Asadar , se respinge H 0 la pragul de semnificatie α , daca

| t c | > t ( α / 2 ,n − 2 ) .

== // ==

- Verificarea ipotezei ρ XY = ρ 0 , ρ 0 ≠ 0 :

Se veridical perechea de ipoteze :


H 0 : ρ xy = ρ 0
H 1 : ρ xy ≠ ρ 0

cu ρ 0 ≠ 0 .
Fisher a propus o transformare a coeficientului de corelatie , anume :

⎛ 1 + rxy ⎞
f ( rxy ) = 1 ⋅ log⎜ ⎟;
2 ⎜ 1 − rxy ⎟
⎝ ⎠
- 62 -

pentru esantioane de volum suficient de mare , variabila aleatoare f ( rxy ) urmeaza o


repartitie aproximativ normala , cu caracteristicile aproximate suficient de bine de :

⎧ ⎛ 1 + rxy ⎞ ⎫

[ 1 ]
⎪M f ( rxy ) ≈ 2 ⋅ log⎜⎜ ⎟⎪

⎝ 1 − rxy ⎠ ⎪
⎨ ⎬

⎪⎩
2
[
D f ( rxy ) ≈
n−3
]
1 ⎪
⎪⎭

Asadar , pentru verificat ipoteza nula , vom folosi statistica :

⎛ 1 + rxy ⎞
1 ⋅ log⎜ ⎟ − 1 ⋅ log⎛⎜ 1 + ρ 0 ⎞⎟
2 ⎜ 1 − rxy ⎟ 2 ⎜ 1− ρ ⎟
⎝ ⎠ ⎝ 0⎠
zc = ⇔
1
n−3
1 ⎛ 1 + rxy 1 − ρ 0 ⎞
z c = ⋅ n − 3 ⋅ log⎜ ⋅ ⎟
2 ⎜ 1 − rxy 1 + ρ 0 ⎟
⎝ ⎠

Aceasta statistica urmeaza o lege apropiata de legea normala normata , deci se respinge H 0
la pragul de semnificatie α , daca : | z c | > z α / 2 .

== // ==

- Interval de incredere pentru ρ xy :

Se va folosi statistica repartizata ( aproximativ ) N( 0 ; 1) din sectiunea precedenta , anume

1 ⎛ 1 + rxy ⎞
ψ = ⋅ log ⎜ ⎟
2 ⎜ 1 − rxy ⎟
⎝ ⎠

1 ⎛ 1 + ρ0 ⎞
cu : - media M(ψ ) = ⋅ log⎜⎜ ⎟⎟
2 ⎝ 1 − ρ 0⎠
1
- dispersia D 2 (ψ ) =
n−3
Asadar , intervalul de incredere pentru ψ este
- 63 -

⎛ z z ⎞
⎜ ψ0 − α / 2 ;ψ0 + α / 2 ⎟ .
⎝ n−3 n−3⎠

In final , sa observam ca din relatia :

1 ⎛1+ x⎞ ey − e−y
y = ⋅ log⎜ ⎟ se deduce : x = y = th ( y ) ,
2 ⎝1− x⎠ e + e−y

deci , din intervalul de incredere pentru ψ se deduce intervalul de incredere pentru ρ ,


anume :

⎛ ⎛ z ⎞ ⎛ z ⎞⎞
⎜⎜ th⎜ ψ 0 − α / 2 ⎟ ; th⎜ ψ 0 + α / 2 ⎟ ⎟⎟ .
⎝ ⎝ n−3⎠ ⎝ n − 3 ⎠⎠

Nota : reamintim ca prin “ th “ se noteaza functia tangenta hiperbolica :

ex − e−x
th( x ) = .
ex + e−x

CAPITOLUL 4 : TEORIA CORELATIEI

4.06 : Matrici de corelatie

In cazul in care dispunem de mai multe variabile aleatoare , de exemplu


X1 , X 2 ,... , X p , pentru caracterizarea legaturilor dintre ele se utilizeaza o serie de matrici ,
dintre care mentionam :

- matricea dispersie – covarianta :

⎛ D 2 ( X1 ) cov( X1 , X 2 ) cov( X1 , X 3 ) ..... cov( X1 , X p ) ⎞⎟



⎜ cov( X 2 , X1 ) D2 (X 2 ) cov( X 2 , X 3 ) ..... cov( X 2 , X p ) ⎟
⎜ ⎟
Η = ⎜ cov( X 3 , X1 ) cov( X 3 , X 2 ) D2 (X 3 ) ..... cov( X 3 , X p ) ⎟
⎜ ..... ..... ..... ..... ..... ⎟
⎜ ⎟
⎜ cov( X p , X1 ) cov( X p , X 2 ) cov( X p , X 3 ) ..... D 2 ( X p ) ⎟⎠

- matricea de corelatie ( matricea corelatiei totale ) :


- 64 -

⎛ 1 ρ x1x 2 ρ x1x 3 ... ρ x1xp ⎞


⎜ ⎟
⎜ ρ x 2 x1 1 ρ x2x3 ... ρ x 2 xp ⎟
⎜ ... ρ x 3 xp ⎟ ;
P = ⎜ ρ x 3 x1 ρ x 3x 2 1

⎜ ... ... ... ... ... ⎟
⎜⎜ ⎟
ρ ρ xp x 2 ρ xp x 3 ... 1 ⎟
⎝ xp x1 ⎠

- matricea corelatiilor estimate :

⎛ 1 rx1x 2 rx1x 3 ... rx1xp ⎞


⎜ ⎟
⎜ rx 2x1 1 rx 2x 3 ... rx 2xp ⎟
⎜ ... rx 3xp ⎟
R = ⎜ rx 3x1 rx 3x 2 1

⎜ ... ... ... ... ... ⎟
⎜⎜ ⎟
r rxp x 2 rxp x 3 ... 1 ⎟
⎝ xp x1 ⎠

CAPITOLUL 4 : TEORIA CORELATIEI

4.07 : Corelatii partiale

In mod frecvent , se intampla ca intre variabilele X , Y sa apara o legatura puternica ,


in totala contradictie cu natura celor doua variabile .
In multe astfel de situatii , explicatia este data de prezenta unui grup de alte variabile ,
fiecare dintre variabilele X , Y fiind puternic dependente de acest grup .
De exemplu , daca avem un grup de trei caracteristici , ( X , Y , Z ) , si daca

⎧X = a + b ⋅ Z
⎨ ,
⎩Y = p + q ⋅ Z

atunci modificarea valorii vatiabilei x atrage dupa sine modificarea lui z , care antreneaza
modificarea lui y : asa incat , modificarea lui x conduce aparent la o modificare nemijlocita a
lui y .

Coeficientul de corelatie corespunzator , notat ρ xy , z , se numeste coeficient de corelatie


partiala intre variabilele X , Y , in cadrul grupului ( X , Y , Z ).

Prin definitie , avem :


- 65 -

^ ^

rxy , z =
∑ ( x i − x) ⋅ ( y i − y ) .
^ ^
∑ ( x i − x) 2 ⋅ ( y i − y)2

Se arata ca avem :

rxy − rxz ⋅ ryz


rxy , z =
2 2
1 − rxz ⋅ 1 − ryz

CAPITOLUL 4 : TEORIA CORELATIEI

4.08 : Corelatia cu intarzaiere ( autocorelarea )

Consideram o serie de date , { x i } i =1,n , unde valorile i = 1, n au acum semnificatia


de “ diverse momente de timp “ sau de “ diverse faze ale unui proces “. De exemplu , am avea :

x i = valoarea beneficiului obtinut in cursul anului numarul “ i “ .


In astfel de situatii , se urmareste sa se stabileasca daca valoarea curenta x i depinde de
valorile precedente x i , x i −1 , x i − 2 ,... .
In cazul cand o astfel de dependenta este descoperita , se spune ca in cadrul sirului dat de
valori se constata o dependenta cu caracter serial , o corelatie cu intarziiere sau o autocorelare .
Pentru a stabili existenta unei astfel de corelari , si pentru a-i masura intensitatea , se
utilizeaza diversi indicatori , printre care prezentam coeficientul de autocorelare “ d “ , definit mai
jos :

n
∑ ( x i − x i −1 ) 2
d = i=2 n
.
4⋅ ∑ x i2
i =1

Pentru acest indicator , este valabila relatia 0 ≤ d ≤ 1 .


Este vizibil faptul ca in cazul in care d este apropiat de zero , avem x i ≈ x i −1 , (∀ ) i deci
valorile consecutive ale indicatorului difera putin intre ele : atunci se spune ca sirul
{ x i } i =1,n prezinta o autocorelare pozitiva ; daca insa d este apropiat de 1 , diferentele dintre
valorile succesive ale sirului sunt mari , iar { x i } i =1,n prezinta o autocorelare negativa .
- 66 -

Daca avem d este apropiat de ½ , atunci sirul de date { x i } i =1,n nu depinde prea mult de
timpul “ i “ .
Indicatorul d masoara dependenta valorii curente x i numai in raport cu valoarea
anterioara x i −1 , fiind astfel un indicator al dependentei cu intarziere de ordin 1 :
este insa posibil ca valoarea de anul acesta sa depinda de valoarea de acum 3 ani , deci sirul sa
manifeste o corelatie cu intarziere de ordin 3 .
Pentru a determina existenta unei corelatii cu intarziere de ordin “ k “ , se poate folosi
indicatorul
n
∑ ( x i − x) ⋅ ( x i − k − x)
i = k +1
dk = n
.
4 ⋅ ∑ ( x i − x) 2
i =1

Si aici , d k ≈ 0 are semnificatia : data curenta x i depinde prea putin de x i − k .

CAPITOLUL 4 : TEORIA CORELATIEI

4.09 Coeficientul corelatiei rangurilor al lui Spearman

Se urmareste stabilirea independentei a doua serii de observatii ( variabile aleatoare ) ,


in cazul in care repartitiile lor nu sunt repartitii normale.
Stim deja ca , pentru variabile aleatoare normal repartizate , a fi independente este tot una cu a
avea coeficientul de corelatie nul.
Dar pentru variabile cu alta repartitie , acest rezultat nu mai este valabil.
In astfel de situatii , se folosesc alte masuri ale dependentei : in continuare vom prezenta
coeficientul de corelatie a rangurilor al lui Spearman .
Pentru a realiza aceasta , sa precizam intai notiunea de rang al unei valori intr-un sir dat .
Rangul este locul ocupat de valoarea respectiva , in ordinea marimii : de exemplu , fie sirul
X = { 12 ; 7 ; 14 ; 3 ; 23 ; 11 } . Atunci obtinem

valoarea , x i 12 7 14 3 23 11
rangul valorii , R ( x i ) 3 5 2 6 1 4

Coeficientul de corelatie a rangurilor este egal cu coeficientul de corelatie clasic , dintre sirul
de diferente ale rangurilor valorilor in raport cu rangurile medii , adica

rS =
∑ (R i − R ) ⋅ ( S i − S)
∑ ( R i − R ) 2 ⋅ ∑ (S i − S ) 2
- 67 -

unde avem :

- seria de date de selectie este { ( x i , y i ) }i =1,n ;


- R i = R ( x i ) este rangul valorii x i in sirul { x 1 , x 2 , .. , x n } ;
- S i = R ( y i ) este rangul valorii y i in sirul { y 1 , y 2 , .. , y n } ;
1 n 1 n
- R = ⋅ ∑ R i , S = ⋅ ∑ S i sunt rangurile medii .
n i =1 n i =1

Sa observam intai ca avem :


1 + 2 + 3 + ... + n n + 1
R=S= = .
n 2
n n
⎛ n + 1⎞
∑ ( R i − R) 2
=∑⎜i−
2 ⎠
⎟=
i =1 i =1 ⎝
n
n+1 n (n + 1) 2
= ∑i − 2⋅
2
⋅∑i+n⋅ =
i =1 2 i =1 4
n ⋅ (n 2 − 1)
=
12
n
n ⋅ (n 2 − 1)
La fel , avem ∑ ( S i − S ) =
2
.
i =1 12

Inlocuind , gasim expresia lui rS =


∑ (R i − R ) ⋅ ( S i − S) :
∑ ( R i − R ) 2 ⋅ ∑ (S i − S ) 2

n ⋅ (n + 1) 2
rS =
∑ (R i − R ) ⋅ ( S i − S) = ∑ i i
12 ⋅ R ⋅ S −
4
2 2
n ⋅ (n − 1) n ⋅ (n − 1)
12
sau :

12 ⋅ ∑ R i ⋅ S i n+1
rS = 2
− 3⋅
n ⋅ (n − 1) n−1
- 68 -

O modalitate mai practica de a calcula acest coeficient consta in utilizarea diferentelor

di = R i − Si .

Avem :

n n
[
∑ d i2 = ∑ ( R i − S i ) 2 = ∑ ( R i − R ) − (S i − S) = ]2
i =1 i =1

= ∑ ( R i − R ) 2 + ∑ ( S i − S ) 2 − 2 ⋅ ∑ ( R i − R ) ⋅ (S i − S ) =
n ⋅ (n 2 − 1) n ⋅ (n 2 − 1)
= 2⋅ − 2⋅ ⋅ rS
12 12
In final , avem deci :

rS = 1 − 6 ⋅
∑ d i2
n ⋅ ( n 2 − 1)

Proprietatile coeficientului de corelatie a rangurilor :

Avem : • − 1 ≤ rS ≤ 1
• rS apropiat de -1 ⇒ ordinele de marime ale variabilelor X , Y sunt opuse
( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu
atat Y are tendinta sa ocupe un rang mai mic in
sirul { ( y i )} ) ;
• rS apropiat de +1 ⇒ rangurile variabilelor X, Y sunt concordante
( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu
atat si Y are tendinta sa ocupe un rang mai bun in
sirul { ( y i )} ) ;

• rS apropiat de 0 ⇒ rangurile variabilelor X, Y nu sunt legate printr-o


relatie anume .
- 69 -

Mai mult , se stie ca daca X , Y sunt independente , atunci rS urmeaza o lege aproximativ
normala , daca esantionul este de volum suficient de mare ( chiar n ≥ 10 este o valoare
convenabila ) , cu caracteristicile :

1
M ( rS ) = 0 ; D 2 ( rS ) = .
n−1

Deci statistica :
z c = n − 1 ⋅ rS

urmeaza o lege normala redusa , deci se respinge ipoteza H 0 : X , Y − independente


daca avem | z c | > z α / 2 .

CAPITOLUL 5 : UTILIZAREA REZIDUURILOR PENTRU EVALUAREA


MODELULUI

5.1 : IPOTEZELE MODELULUI

Fie Y = variabila explicata si X1 , X2 , …, Xp-1 – variabilele explicative : ipoteza liniaritatii


modelului consta in realizarea relatiilor

p −1
y i = b 0 + ∑ b jx ij + ε i ; i = 1, n
j= 1

unde sondajul corespunzator celor “p” variabile este notat cu :


{y i ; x i1 , x i 2 ,..., x i (p − 1) }i = 1,n .
- 70 -

Variabilele aleatoare {ε i }i = 1,n reprezinta erori ce nu pot fi observate direct .


Ele sunt doua cate doua independente , identic realizate , cu repartitia N( 0; σ ) .
Pentru a veridical toate aceste ipoteze , anume :
- liniaritatea modelului ;
- faptul ca dispersia erorilor este constanta
- faptul ca erorile sunt independente
- faptul ca erorile sunt repartizate normal ,

se folosesc reziduurile {e i }i = 1,n , ca realizari ale variabilelor {ε i }i = 1,n .


Amintim ca am notat :
^
ei = y i − y i ,
^
unde y i sunt valorileestimate ale variabilei explicate Y .

== // ==

5.2 : Analiza Grafica A Reziduurilor

^
5.2.1 : Graficul reziduurilor in raport cu valorile estimate y i .

Se foloseste un sistem de axe , anume :


^
- pe axa orizontala se trece marimea valorii estimate y
- pe axa verticala , marimea corespunzatoare a reziduului .
Verificarea ipotezelor mentionate revine la aceea ca reziduurile se vor plasa uniform intr-o
zona limitata de doua drepte orizontale , ca in figura de mai jos :
- 71 -

Majoritatea programelor de calculator care executa regresii liniare reprezinta reziduurile sub
forma de bastonase , de o parte si de alta a dreptei de regresie : iata unele situatii posibile :

- a: reziduuri cu media apropiata de zero si cu dispersie constanta:

- b : reziduuri cu media apropiata de zero , dar cu dispersie depinzand de valoarea


variabilei explicative X ( aici : dispersia creste , atunci cand valoarea lui X creste)
- 72 -

- c: reziduuri pentru care media nu este apropiata de zero ( predomina reziduurile


pozitive ) :
- 73 -

ANEXA : TESTE DE NORMALITATE

GRAFICUL DENSITATII DE PROBABILITATE A

REPARTITIEI NORMALE N( m , s )

Cazul : s = 2

Cazul : s = 1
- 74 -

Cazul s= 0,5

Functia de repartitie : avem P ( a < X < b ) = F(b) – F(a)


- 75 -

Avem : P( X > a ) = 1 – F(a)

Avem : P ( X < b) = F( b)
- 76 -

1. Exemple de determināri de probabilitāţi pe baza funcţiei de repartiţie

Considerām urmātorul tabel al unei posibile funcţii de repartiţie :

x 0 1 2 3 4 5
F(x) = P( X < x ) 0 0, 2 0, 35 0,73 0, 94 1

- avem : ⋅ P( X < 2 ) = F(2) = 0,35


⋅ P( X > 3 ) = 1 - F(3) = 1 - 0,73 = 0,27
⋅ P ( 2 < X < 4 ) = F(4) - F(2) = 0,94 - 0,35 = 0,59

Aplicaţie pentru cazul repartiţiei normale normate

- funcţia de repartiţie a variabilei normale normate este datā mai jos :

nr.crt x F(x) nr.crt x F(x)


1 -3.250 0.003 15 0.250 0.599
2 -3.000 0.005 16 0.500 0.691
3 -2.750 0.006 17 0.750 0.773
4 -2.500 0.008 18 1.000 0.841
5 -2.250 0.012 19 1.250 0.894
6 -2.000 0.023 20 1.500 0.933
7 -1.750 0.040 21 1.750 0.960
8 -1.500 0.067 22 2.000 0.977
9 -1.250 0.106 23 2.250 0.988
10 -1.000 0.159 24 2.500 0.994
11 -0.750 0.227 25 2.750 0.997
12 -0.500 0.309 26 3.000 0.999
13 -0.250 0.401 27 3.250 0.999
14 0.000 0.500 28 3.500 1.000
- 77 -

Stim cā , pentru variabila aleatoare normalā de medie ”m" şi abatere medie


pātraticā " s " , notatā prescurtat cu N ( m ; s) , avem

⎛b −m⎞ ⎛a −m⎞
(1). P [a < N(m; s ) < b ]= F⎜ ⎟ − F⎜ ⎟ ,
⎝ s ⎠ ⎝ s ⎠
unde F este chiar funcţia din tabelul precedent.

Aplicaţie: pentru variabila aleatoare X = N ( 3,5 ; 1,7 ), se cere


P ( 1,8 < X < 4,775 )

Avem : N ( m ; s) = N ( 3,5 ; 1,7 ), deci : m = 3,5 şi s = 1,7 .

Atunci formula (1) devine :

⎛ 4,775 − 3,5 ⎞ ⎛ 1,8 − 3,5 ⎞


P [ 1,8 < N( 3,5 ; 1,7 ) < 4,775 ] = F ⎜ ⎟−F⎜ ⎟=
⎝ 1,7 ⎠ ⎝ 1,7 ⎠
= F( 0,75) − F ( − 1 ) .

Din tabel citim :

- la poziţia 17 : F ( 0,75 ) = 0,773

- la poziţia 10 : F ( - 1 ) = 0,159 ,

aşadar : P ( 1,8 < X < 4,775 ) = 0,773 - 0,159 = 0,614 .

TEST DE AUTOCONTROL :

Folosind tabelul sā se determine :

- 1: P [ N( 5 ; 1,8 ) < 7, 25 ] Raspuns: 0.8944

- 2: P [ N( 7 ; 2,3 ) > 11,6 ] Raspuns : 0.0228


- 78 -

- 3: P [ 6 , 275 < N ( 9,5 ; 4 , 3 ) < 19, 175 ] Raspuns : 0.7611

TESTE DE NORMALITATE

Testul de normalitate Jarque-Bera

Fie un sondaj { x1, x2 , …, xn } : ne propunem sa testam ipoteza conform careia


acest sondaj provine de la o repartitie normala .

Exista o multitudine de teste care isi propun acelasi scop : in acest material vom utiliza ,
din cauza simplitatii efectuarii calculelor , testul Jarque – Bera .

Acest test are la baza faptul ca variabila normala are caracteristicile “ skewness “ si

“ kurtosis “ ( prezentate in continuare ) egale cu zero : deci – in principiu – cu cat un


sondaj va avea aceste doua caracteristici mai departate de zero , cu atat repartitia
teoretica poate fi considerata mai departata de o repartitie normala .

Testul Jarque-Bera permite masurarea departarii unei repartitii in raport cu clasa


repartitiilor normale .

La baza testului sta utilizarea caracteristicilor ale sondajului prezentate in cele ce


urmeaza :

1 n
- media de selectie : x = ⋅ ∑ xi
n i =1

- caracteristica numita “skewness “ , data de relatia :

1 n
⋅ ∑ ( x i − x) 3
n i =1
S =
3
⎡1 n ⎤
⎢ ⋅ ∑ ( x i − x) ⎥
2

⎣n i =1 ⎦
- 79 -

- caracteristica numita “kurtosis “ , data de relatia :

1 n
⋅ ∑ ( x i − x) 4
n i =1
K= 2
⎡1 n ⎤
⎢ ⋅ ∑ ( x i − x) ⎥
2

⎣n i =1 ⎦

Atunci valoarea testului , corespunzatoare sondajului prezentat ,va fi data de :

n ⎛ 2 (K − 3) 2 ⎞
JB c = ⋅⎜S + ⎟⎟
6 ⎜⎝ 4 ⎠

Statistica “ JB” are o repartitie aproximativ Hi patrat cu doua grade de libertate :


aproximatia este cu atat mai buna , cu cat volumul “ n “ al sondajului este mai mare .

In cele ce urmeaza , vom nota prin H2 repartita Hi patrat cu doua grade de


libertate :

atunci , probabilitatea ca sondajul sa provina de la o repartitie normala este

( aproximativ) data de :

α = P ( H 2 < JB c ) .

Prezentam in continuare o tabela a functiei de repartitie a variabilei H2 :

x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8


P(H2 < x ) 0 0.0488 0.0952 0.1393 0.1813 0.2212 0.2592 0.2953 0.3297

x 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7


P(H2 < x ) 0.362 0.3935 0.4231 0.4512 0.4780 0.5034 0.5276 0.5507 0.5726

x 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6


P(H2 < x ) 0.593 0.6133 0.6321 0.6501 0.6671 0.6834 0.6988 0.7135 0.7275
- 80 -

x 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4


P(H2 < x ) 0.727 0.741 0.753 0.765 0.777 0.788 0.798 0.808 0.817

x 3.5 3.6 3.7 3.8 3.9 4 4.1 4.2 4.3


P(H2 < x ) 0.826 0.835 0.843 0.85 0.858 0.865 0.871 0.878 0.884

x 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1 5.2


P(H2 < x ) 0.889 0.895 0.9 0.905 0.909 0.914 0.918 0.922 0.926

x 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6 6.1


P(H2 < x ) 0.929 0.933 0.936 0.939 0.942 0.945 0.948 0.95 0.953

x 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7


P(H2 < x ) 0.955 0.957 0.959 0.961 0.963 0.965 0.967 0.968 0.97

x 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9


P(H2 < x ) 0.971 0.973 0.974 0.975 0.976 0.978 0.979 0.98 0.981

x 8 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8


P(H2 < x ) 0.982 0.983 0.983 0.984 0.985 0.986 0.986 0.987 0.988

x 8.9 9 9.1 9.2 9.3 9.4 9.5 9.6 9.7


P(H2 < x ) 0.988 0.989 0.989 0.99 0.99 0.991 0.991 0.992 0.992

Observare : pentru x ≥ 9,8 vom considera ca avem P ( H 2 < x ) ≈ 1

EXEMPLU : fie datele

xi ni

1 12
2 23
3 41
4 33
5 18
6 8
- 81 -

Sa vedem cu ce probabilitate se poate considera ca datele provin de la o repartitie


normala.

Avem calculele :

xi ni xi*ni (xi - mx)^2 (xi - mx)^3 (xi - mx)^4

1 12 12 65.749 -153.901 360.242


2 23 46 41.344 -55.432 74.320
3 41 123 4.760 -1.622 0.553
4 33 132 14.343 9.455 6.234
5 18 90 49.557 82.227 136.436
6 8 48 56.573 150.443 400.067

total 135 451 232.326 31.170 977.852

med= 3.341

S= 0.102 JB= 50.856


K= 0.000

In final , P ( H 2 < JB ) = P ( H 2 < 50, 856 ) = 1 .

Deci : cu o incredere egala practic cu 100% , putem considera ca datele provin de la o

repartitie normala .

== // ==
- 82 -

TESTUL ANDERSON – DARLING

Majoritatea metodelor cu caracter statistic presupun existenta unei anumite distributii :


rezultatele sunt obtinute in mare masura pe baza admiterii valabilitatii acestei repartitii .
Deobicei , atunci cand admitem o anumita repartitie , ne asumam un risc major .
Daca presupunerea noastra este gresita , rezultatele obtinute pot sa fie total gresite.
De exemplu , nivelul de incredere al unui interval de incredere poate fi total diferit de cel
obtinut ptintr-un astfel de calcul.
O cale de a evita astfel de riscuri este de a cerceta foarte atent care este distributia teoretica
corecta .
Exista doua categorii principale de abordari in acest sens : in primul rand , trebuie mentionate
procedurile empirice , care sunt usor de inteles si de implementat , si se bazeaza pe intuitie si
pe cunoasterea proprietatilor graficului distributiei a carei valabilitate dorim sa o testam.
Alte proceduri , mai formale , sunt asa-numitele teste de concordanta . Aplicarea acestora este
meticuloasa si necesita un mare volum de calcule , dar rezultatele gasite sunt cuantificabile si
prezinta mai multa incredere decat testele empirice.
Ca exemple se pot mentiona testele Anderson – Darling (A.D) si Kolmogorov – Smirnov
(K.S)
Testele de concordanta sunt in esenta bazate in principal pe doua elemente : functia de
repartitie ( sau : functia de distributie cumulata (CDF) ) si densitatea de probabilitate (pdf) .
Testele de tip Hi patrat se bazeaza pe (pdf) , pe cand testele Anderson – Darling si
Kolmogorov – Smirnov , pe (CDF) , apartinand deci categoriei de “ teste de distanta “.
In plus , testele Anderson – Darling si Kolmogorov – Smirnov sunt valabile si pentru
sondaje de volum relativ mic.
Pentru aplicarea acestor teste , se urmeaza o serie de etape bine conturate .
In primul rand , acceptam valabilitatea unei repartitii anume (de exemplu : normala ).
Apoi se estimeaza parametrii distributiei ( de exemple , media si dispersia ) pe baza datelor de
sondaj de care dispunem.
Ipoteza ca repartitia in cauza ( impreuna cu parametrii estimati) este valabila , va fi numita
ipoteza nula si va fi notata cu H0 : negarea distributiei ( sau a parametrilor ) este ipoteza
alternativa , notata prin H1 .
In final , H0 va fi respinsa unul oarecare dintre elementele componente vine in contradictie cu
datele sondajului.

Daca ipoteza facuta este corecta , atunci functia de repartitie teoretica ( notata F0 ) va fi
suficient de apropiata de functia de repartitie empirica , notata Fn ( vezi fig.)
- 83 -

Testul acesta are un neajuns important : testele de tip distanta presupun cunoasterea
parametrilor distributiei in cauza . Ori , acesti parametri sunt rareori cunoscuti in practica.
De aceea se utilizeaza proceduri adaptative suplimentare pentru a adapta parametrii pe masura
obtinerii de rezultate partiale.
Vom prezenta in cele ce urmeaza doua exemple de utilizare a testului Anderson – Darling .

Testul Anderson – Darling de concordanta are urmatoarea expresie :

1− 2 ⋅ i
{ ( ) ( )}
n
ADc = ∑ ⋅ ln F0 [ Z ( i ) ] + ln 1 − F0 [Z ( n +1−i ) ] − n
i =1 n

Aici F0 este functia de repartitie normala de parametri ( μ , σ ) estimati pe baza sondajului ;


volumul sondajului este notat prin “ n “ .
Datele de sondaj sunt sortate crescator , x1 < x 2 < ... < x n : prin Z(i) intelegem

xi − μ
Z(i ) = .
σ

Asadar , am notat :
1 n 1 n
μ= ⋅ ∑ x i ; σ 2 = ⋅ ∑ x i2 − μ 2 .
n i =1 n i =1

Ipoteza nula ( ca repartitia corecta este cea normala , reprezentata de catre F0 )


se respinge ,la pragul de semnificatie α = 0, 05 , in cazul in care volumul sondajului este “ n “
daca avem

ADc > CV ,
unde valoarea critica CV este data de
0,752
CV =
0,75 2,25
1+ + 2
n n
- 84 -

APLICATIE :
sa verificam daca se poate admite ca datele de sondaj

3 ; 8 ; 11 ; 6 ; 2 ; 10 ; 4

provin de la o repartitie normala.

Rezolvare : volumul sondajului este n = 7 : se estimeaza apoi parametrii repartitiei . Avem

1
μ= ⋅ ( 3 + 8 + 11 + 6 + 2 + 10 + 4 ) = 6, 286
7
1
σ 2 = ⋅ ( 3 2 + 8 2 + 112 + 6 2 + 2 2 + 10 2 + 4 2 ) − ( 6, 286 ) 2 = 10, 486
7
⇒ σ = 10, 486 = 3 , 238

Pentru efectuarea testului , datele se ordoneaza crescator :

adica : x1 = 2 ; x2 = 3 ; x3 = 4 ; x4 = 6 ; x5 = 8 ; x6 = 10 ; x7 = 11 .

Pentru argumentele repartitiei normale , avem

x i − 6, 286
zi = .
3, 238

Calculele sunt prezentate in tabelul sintetic de mai jos .

i xi x8-i zi z8-i F0(zi) 1 – ln ( F0(zi) ) ln (1 – F0(z8-i) ) 1 – 2·i ti


F0(z8-i)
1 2 11 -1,324 1,456 0,093 0,927 -2,375 -2,617 -1 4,992
2 3 10 -1,015 1,147 0,155 0,874 -1,864 -2,071 -3 11,807
3 4 8 -0,706 0,529 0,240 0,702 -1,427 -1,211 -5 13,189
4 6 6 -0,088 -0,088 0,465 0,465 -0,766 -0,625 -7 9,738
5 8 4 0,529 -0,706 0,702 0,240 -0,354 -0,274 -9 5,654
6 10 3 1,147 -1,015 0,874 1,147 -0,135 -0,168 -11 3,334
7 11 2 1,456 -1,324 0,927 1,456 -0,076 -0,098 -13 2,254

am notat : t i = ( 1 − 2 ⋅ i ) ⋅ (ln( F0 ( z i )) + ln(1 − F0 ( z 8−i ))) .

Atunci :
1 7
ADc = ⋅ ∑ t i − 7 = 7, 278 − 7 = 0 , 278
7 i =1
- 85 -

Valoarea critica a testului este

0, 7523
CV = = 0, 652 .
0,75 2, 25
1+ +
7 49
In final , cum avem

ADc < CV

se poate admite , la pragul α = 0, 05 , ca datele provin de la o repartitie normala .

APLICATIE : pentru a studia sensibilitatea testului Anderson _ Darling , ne propnem


urmatorul experiment :

fie datele : x1 = 1 ; x2 = 2 ; x3 = k .

Sa vedem pentru ce valori k > 2 se poate admite ca datele de sondaj

{ 1 ; 2 ; k } provin de la o repartitie normala .

Vom utiliza pragul α = 0 ,05 .

Rezolvare : pentru sondaje de volum n = 3 , valoarea critica CV a testului va fi

0.752
= 0.501
⎛ 1 + 0.75 + 2.25 ⎞
⎜ ⎟
⎝ 3 9 ⎠

In continuare , vom da parametrului k valori diverse si vom lista valoarea testului , AD(k) .
Vom gasi :

k 2.5 3 3.5 4 4.5 5


AD(k) 1.028 0.421 0.25 0.228 0.259 0.307

k 5.5 6 6.5 7 7.5 8


AD(k) 0.359 0.41 0.457 0.499 0.538 0.573

Asadar , pentru k < 3 si pentr k > 7 , nu se mai poate admite ca sondajul


- 86 -

{ 1 ; 2 ; k } provin de la o repartitie normala .

CAPITOLUL 6 : CORELAŢIA LINIARĂ MULTIPLĂ

SINTEZA 1 : CORELATIA SI REGRESIA LINIARA MULTIPLA

Rezumat : covarianţă , coeficient de corelaţie

Fie datele de sondaj :

xi x1 x2 … xi … xn
yi y1 y2 … yi … yn

Caracteristici asociate sondajului :

1 n 1 n
- mediile de selecţie : m X = ⋅ ∑ xi ; m Y = ⋅ ∑ y i
n i =1 n i =1

⎧ 2 1 n
⎪σ X = n ⋅ ∑ ( x i − m X )
2

⎪ i =1
- dispersiile de selecţie : ⎨ n
⎪σ 2 = 1 ⋅ ( y − m ) 2
⎪⎩ Y n ∑ i =1
i Y

1 n
⋅ ∑ ( xi − m X ) ⋅ ( y i − mY )
n i =1
- covarianţa : σ XY =
1 n
⋅ ∑ xi ⋅ y i − m X ⋅ m Y
n i =1

σ XY
- coeficientul de corelaţie : ρ XY =
σX ⋅ σY
- 87 -

NOTĂ : sunt valabile următoarele proprietăţi :

• − 1 ≤ ρ XY ≤ 1
• σ X , σ 2Y sunt ≥ 0
2

• ρ XY = ρ YX
• σ XY = σ YX

SINTEZA 2 : REPARTIŢIA NORMALĂ TRIDIMENSIONALĂ :

⎛ Q( x , y , z ) ⎞
- densitatea de probabilitate : ϕ ( x , y , z ) = k ⋅ EXP ⎜ − ⎟
⎝ 2⋅ D ⎠

unde am notat :

1 ρ XY ρ XZ
-determinantul : D = ρ YX 1 ρ YZ
ρ ZX ρ ZY 1

[
- factorul de scală : k = ( 2 ⋅ π ) 3 / 2 ⋅ σ X ⋅ σ Y ⋅ σ Z ⋅ D ] −1

- nucleul :

D XX D D
Q ( x, y , z ) = 2
⋅ ( x − m X ) 2 + YY
2
⋅ ( y − m Y ) 2 + ZZ
2
⋅ ( z − m Z )2 +
σX σY σZ

D XY D XZ
+ 2⋅ ⋅ ( x − m X ) ⋅ (y − m Y ) + 2 ⋅ ⋅ ( x − m X ) ⋅ (z − m Z ) +
σX ⋅ σY σX ⋅ σZ

D YZ
+ 2⋅ ⋅ ( y − m Y ) ⋅ (z − m Z )
σY ⋅ σZ

sau , prescurtat :

D XX D XY
Q ( x, y , z ) = ∑ 2
⋅ ( x − m X )2 + 2 ⋅ ∑ ⋅ ( x − m X ) ⋅ (y − m Y )
σX σX ⋅ σY

Precizare : aici , prin Dαβ înţelegem minorul lui D , obţinut tăind linia “ α “ şi coloana “ β “.
- 88 -

== // ==

SINTEZA 3 : VARIABILELE ASOCIATE


REPARTIŢIEI NORMALE TRIDIMENSIONALE

Variabilele marginale de dimensiune 1

sunt variabilele normale uni-dimensionale :

X = N ( mX , σX ) , Y = N ( mY , σY ) , Z = N ( mZ , σZ )

Ele sunt variabile aleatoare două câte două independente .

Variabilele condiţionate de ordin 2 ( simplu legate ):

vor fi notate respectiv ( X , Y ) / Z , ( X , Z ) / Y şi ( Y , Z ) / X .

Aceste variabile au repartiţii normale bidimensionale .


Densităţile de probabilitate respective au aspectul :

- pentru variabila aleatoare ( X, Y ) / Z :

1 ⎡ H( x, y ) ⎤
p XY ,Z ( x, y ) = ⋅ EXP ⎢ − 2 ⎥
,
2 ⋅ π ⋅ σ X ⋅ σ Y 1 − ρ XY ⎣ 2 ⋅ ( 1 − ρ XY ) ⎦

unde :

2 2
⎛ x − mX ⎞ ⎛ y − mY ⎞ x − mX y − mY
H( x, y ) = ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ − 2 ⋅ ρ XY ⋅ ⋅ .
⎝ σX ⎠ ⎝ σY ⎠ σX σY

OBS: abaterea medie pătratică a variabilei ( X, Y ) / Z este dată de

2
σ XY ,Z = σ X ⋅ σ Y ⋅ 1 − ρ XY

Variabilele condiţionate de ordin 1 ( dublu legate ):


- 89 -

vor fi notate prin : X / ( Y, Z ) , Y / ( X , Z ) si Z / ( X , Y ) .

Densitatea de probabilitate a lui X / ( Y, Z ) este :

⎡ ⎤
1 ⎢ ( x − mX ) 2 ⎥
p X ,YZ ( x ) = ⋅ EXP ⎢ − ⎥
D ⎢ 2 ⋅ σ2 ⋅ D ⎥
σ X ⋅ 2π ⋅ ⎢⎣ D XX ⎥⎦
X
D XX

OBS: variabila aleatoare X /(Y,Z) are media egală cu mX ,


D
şi abaterea standard egală cu σ X ⋅ .
D XX

== // ==

NOTĂ : matricile asociate cu repartiţia normală tridimensională sunt următoarele

- matricea covariantă :

⎛ σ 2X σ XY σ XZ ⎞
⎜ ⎟
V = ⎜ σ YX σ 2
Y σ YZ ⎟
⎜ ⎟
⎝ σ ZX σ ZY σ 2Z ⎠

⎛ 1 ρ XY ρ XZ ⎞
⎜ ⎟
- matricea corelaţiei totale : D = ⎜ ρ YX 1 ρ ⎟.
⎜ρ ρ ZY 1 ⎟⎠
⎝ ZX

== // ==

SINTEZA 4 : CAZUL ECONOMETRIC

Fie datele : { ( x i , y i , z i )} i = 1,n . Pentru aceste date , ecuaţia planului de regresie se caută sub
forma

Z – mZ = a·( X – mX) + b· ( Y – mY)


- 90 -

Coeficienţii a, b ai planului de regresie se determină prin metoda celor mai mici pătrate .

Astfel,avem :

- eroarea de ajustare corespunzătoare datelor de sondaj

n
E ( a , b ) = ∑ [ a ⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) − ( z i − m Z )]
2

i =1

Din condiţia de minim a erorii de ajustare , găsim sistemul ecuaţiilor normale

⎧a ⋅ ∑ ( x i − m X )2 + b ⋅ ∑ ( x i − m X ) ⋅ (y i − m Y ) = ∑ ( x i − m X ) ⋅ (z i − m Z )


⎪a ⋅ ( x − m ) ⋅ ( y − m ) + b ⋅ ( y − m ) 2 = ( y − m ) ⋅ ( z − m )
⎩ ∑ i X i Y ∑ i Y ∑ i Y i Z
sau :

⎧a ⋅ σ 2X + b ⋅ σ XY = σ XZ

⎨ .
⎪ a ⋅ σ + b ⋅ σ2 = σ
⎩ XY Y YZ

Soluţia acestui sistem , sau coeficienţii planului de regresie Z / (X ,Y) este următoarea

σ XZ σ XY σ 2X σ XZ
^ σ YZ σ Y2 ^ σ YX σ YZ
a= ;b = .
σ 2X σ XY σ 2X σ XY
σ YX σ 2Y σ YX σ 2Y

În final :

▪ ecuaţia planului celor mai mici pătrate este :

^ ^
Z − m Z = a⋅ ( X − m X ) + b⋅ ( Y − m Y )

▪ valorile ajustate ale variabilei Z sunt date de :

^ ^ ^
z i = m Z + a⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) i = 1 , n

▪ valorile reziduurilor sunt date de :

^
δi = zi − zi , i = 1,n .
- 91 -

▪ dispersia reziduală va fi :

V
σ R2 = σ Z /2XY = .
VZZ

▪ dispersia reziduală este utilă la evaluări de genul celor de mai jos :

⎧ ^

⎪ P [ | Z − Z | < σ Z / XY ] = 0, 6826
⎪ ^
⎨ P [ | Z − Z | < 2 ⋅ σ Z / XY ] = 0, 9544
⎪ ^
⎪ P [ | Z − Z | < 3 ⋅ σ Z / XY ] = 0, 9972

^
Z−Z
evaluări bazate pe faptul că avem : = N ( 0 ;1 ) .
σ Z / XY

== / / ==

SINTEZA 5 : COEFICIENŢII DE CORELAŢIE MULTIPLĂ

- Gradul de dependenţă a lui Z în raport cu grupul de variabile ( X ,Y ) poate fi


măsurat folosind indicatorul R Z2, XY .
Avem :

▪ 0 ≤ R Z2, XY ≤ 1

σ Z ,2XY
▪ formula de calcul : R Z2, XY = 1 −
σ 2Z

V
sau R Z2, XY = 1 − 2
σ ⋅ VZZ
Z

D
sau R Z2, XY = 1 −
D ZZ
- 92 -

- Gradul de dependenţă a grupului ( X,Y ) în raport cu variabila Z


poate fi măsurat folosind indicatorul ρ XY ,Z .

Avem :

▪ − 1 ≤ ρ XY ,Z ≤ 1

ρ XY − ρ XZ ⋅ ρ ZY
▪ formula de calcul : ρ XY ,Z =
2 2
1 − ρ XZ ⋅ 1 − ρ YZ

D XY
sau ρ XY ,Z = ( − 1) 1 + 2 − 1⋅
D XX ⋅ D YY

VXY
sau ρ XY ,Z = ( − 1) 1 + 2 − 1⋅
VXX ⋅ VYY

== // ==

UN EXEMPLU : pe baza unui sondaj s-au determinat valorile următorilor indicatori :

⎧ mX = 3;mY = 5;mZ = 2

⎨ σX = 2;σY = 3;σZ = 1
⎪ρ = − 0,5 ; ρ = 0, 7 ; ρ = 0, 2
⎩ XY XZ YZ

Se cer :

- abaterea standard a variabilei simplu legate XY / Z ;

2
Răspuns : σ XY , Z = σ X ⋅ σ Y ⋅ 1 − ρ XY = 2 ⋅ 3 ⋅ 1 − ( −0, 5) 2 = 5 , 2

- abaterea standard ale variabilelor simplu legate X / ( YZ ) şi Y / (ZX) ;

1 − 0, 5 0,7
Răspuns : avem D = − 0, 5 1 0,2 = 0, 08 , pentru care calculăm minorii
0 ,7 0,2 1
- 93 -

1 0,2 1 0,7
D XX = = 0, 96 ; D YY = = 0, 51
0,2 1 0,7 1

deci :

D 0, 08 D 0, 08
σ X ,YZ = σ X ⋅ =2⋅ = 0, 577 ; σ Y , ZX = σ Y ⋅ =3⋅ = 1,188 .
D XX 0, 96 D YY 0, 51

- se cere ecuaţia planului CMMP , Z/ XY precum şi dispersia reziduală


corespunzătoare :

Rezolvare : avem z – mZ = a· ( x – mX ) + b·( y – mY)

σ 2X σ XY σ XZ 4 − 0, 5 ⋅ 2 ⋅ 3 0,7 ⋅ 2 ⋅ 1
2
V = σ YX σ Y σ YZ = − 0, 5 ⋅ 2 ⋅ 3 9 0,2 ⋅ 3 ⋅ 1 = 2, 88
σ ZX σ ZY σ 2Z 0,7 ⋅ 2 ⋅ 1 0,2 ⋅ 3 ⋅ 1 1

σ 2X σ XY 4 −3
VZZ = = = 27
σ YX σY − 3 9
2

σ XZ σ XY 1,4 − 3 14,4
2
= = 14, 4 ⇒ a = = 0, 53
σ YZ σY 0, 6 9 27

σ 2X σ XZ 4 1,4 6,6
= = 6, 6 ⇒ b = = 0, 24
σ XY σ YZ − 3 0, 6 27

deci ecuaţia planului CMMP este : z – 2 = 0,53·( x – 3 ) + 0, 24·( y – 5 )

Dispersia reziduală corespunzătoare ajustării prin acest plan va fi :

V 2,88
σ 2R = σ Z2/ XY = = = 0, 107 ⇒ σ R = 0,107 = 0, 326 .
VZZ 27
- 94 -

- se cere coeficientul de corelaţie multiplă R Z2 ,XY :

V 2,88
Rezolvare : avem R Z2 , XY = 1 − 2
= 1− = 0, 893 ⇒ R Z , XY = 0, 893 = 0, 945
σZ 1 ⋅ 27

- se cere coeficientul de corelaţie simplu legat ρ XY ,Z

− 3 0,6
VXY 1,4 1
Rezolvare : avem ρ XY ,Z = ( − 1) 2 ⋅ = = − 0, 91 .
VXX ⋅ VYY 9 0,6 4 1,4

0,6 1 1,4 1

END

SUMAR :

CAPITOLUL 1 : Studiul regresiei liniare

1.1 : Legatura dintre doua variabile : relatii deterministe si relatii stochastice : pag 1 -5
1.2 : Metoda celor mai mici patrate ( CMMP ) : pag. 6 - 8
1.3 : Variatia explicata ; variatia ne – explicata : pag. 9 - 12
APLICATIE : pag. 13 - 15

CAPITOLUL 2 : regresia liniara simpla

2.1 : Modelul regresiei simple : pag. 16

2.2 Distributia estimatorilor proveniti din metoda CMMP

^
2.2.1: Media estimatorului b : pag. 17
^
2.2.2: Media estimatorului a : pag. 18
^
2.2.3: Dispersia estimatorului b : pag. 19
- 95 -

^
2.2.4: Dispersia estimatorului a : pag. 20 - 21
^ ^
2.2.5: Covarianta estimatorilor a , b : pag. 22
APLICATIE : pag. 22 - 24

2.3 : Estimarea dispersiei erorilor :pag. 24 - 26

2.4 : Inferenta statistica asupra parametrilor modelului

2.4.1: Teste privind panta b a dreptei de regresie : pag. 27 - 28


2.4.2 : Interval de incredere pentru b : pag. 29
2.4.3 : Teste privind taietura a in origine : pag. 30
2.4.4 : Un exemplu numeric : pag. 31 - 34
2.4.5 : Interval de incredere pentru a : pag. 34 - 35
2.4.6 : Interval de incredere pentru μ Y ( x ) : pag. 32 - 33

2.5 : Analiza dispersionala : pag. 36 - 38

2.6 : Modele cu un singur parametru

2.6.1 : Modele fara variabila explicativa : pag. 38 - 40


2.6.2 : Modele fara constanta : pag. 40 – 43

CAPITOLUL 3 : REGRESIA MULTIPLA

3.01 : Hiperplanul de regresie : pag. 43


3.02 : Model de regresie cu doua variabile explicative : pag. 43 - 45
3.03 : Cazul matriceal : pag. 45 - 47
3.04 : Proprietatile metodei celor mai mici patrate : pag. 47 - 50
3.05 : Ipotezele modelului : pag. 50 – 52
3.06 : Estimarea dispersiei erorilor : pag. 52 – 53
3.07 : Inferente statistice asupra parametrilor modelului : pag. 53 -54

CAPITOLUL 4 : TEORIA CORELATIEI

4.01 : Masurarea corelatiei : proprietati . pag. 54


4.02 : Coeficientul de corelatie ( recapitulare ) : pag. 55 - 56
4.03 : Estimarea coeficientului de corelatie : pag. 56 - 57
4.04 : Legatura intre coeficientul de corelatie si elementele dreptei de regresie . pag. 57 - 59
4.05 : Teste privind coeficientul de corelatie : pag. 59 - 62
4.06 : Matrici de corelatie : pag. 62 - 63
4.07 : Corelatii partiale . pag. 63 - 64
4.08 : Corelatia cu intarzaiere ( autocorelarea ) : pag. 64 - 65
4.09 Coeficientul corelatiei rangurilor al lui Spearman : pag. 65 - 68
- 96 -

CAPITOLUL 5 : UTILIZAREA REZIDUURILOR PENTRU EVALUAREA


MODELULUI

5.1 : Ipotezele Modelului : pag. 69 – 71

ANEXA : TESTE DE NORMALITATE : pag. 72 – 85

CAPITOLUL 6 : CORELAŢIA LINIARĂ MULTIPLĂ : pag 86 - 94

SINTEZA 1 : Corelatia Si Regresia Liniara Multipla – pag. 86 – 87

SINTEZA 2 : Repartiţia Normală Tridimensională : - pag. 87 – 88

SINTEZA 3 : Variabilele Asociate Repartiţiei Normale Tridimensionale : pag. 88 - 90

SINTEZA 4: Cazul Econometric : pag. 90 – 92

SINTEZA 5 : Coeficienţii De Corelaţie Multiplă : pag. 92

UN EXEMPLU : pag. 92 -

S-ar putea să vă placă și