Documente Academic
Documente Profesional
Documente Cultură
Se poate intampla sa stim ca intre caracteristicile X , Y exista o relatie de tipul mentionat , dar
sa nu cunoastem care este functia “ f “ implicata .
De aceea , se pun doua probleme diferite :
- in caz afirmativ : cum gasim expresia acestei functii , sau macar o serie
de informatii despre caracteristicile acestei functii ?
Precizare : dupa cum se stie din teoria elementara , o functie este o corespondenta intre doua
multimi , avand ca proprietate esentiala urmatoarea :
Unul dintre motive : la valoarea x0=1 corespund trei valori ale caracteristicii Y , anume
y '0 = 1 ; y '0' = 2 ; y '0'' = 6 .
se poate trece la cautarea unei functii “ f “ , pentru care sa se poata afirma ca verifica
relatia
Y=f(X).
y i = f ( x i ) , i = 1, n .
Din numeroase motive , o astfel de pretentie este fara sens : intai , din punct de vedere
matematic , exista o infinitate de functii cu proprietatea y i = f ( x i ) , i = 1, n , pentru orice
esantion { ( x i , y i )}i =1,n .
Pe de alta parte , in orice situatie practica ce poate fi imaginata , pretentia ca y i
sa coincida perfect cu f ( x i ) , pentru orice i = 1, n este si ea exagerata : este imposibil ca ,
intre cele doua seturi de valori sa nu apara mici deosebiri.
Pentru a preintampina astfel de inconveniente , se iau o serie de masuri : iata primele
astfel de precautii :
- ne asiguram ca – din punct de vedere al contextului practic in care lucram – intre
caracteristicile X , Y sa existe o legatura ;
- in caz ca o astfel de legatura exista , urmeaza sa determinam care dintre caracteristici
-4-
De exemplu : iata trei situatii , privind reprezentarea grafica a cate unui esantion :
xi 1 2 3 4 5 6 7 8
yi 0 0,8 1 1,5 2,1 2,5 3 3,2
-6-
Cantitatile
~
e i = y i − f ( x i ) , i = 1, n
Y= a+b⋅X
In acest caz , lista de reziduuri va fi {e i }i = 1,n , unde ei = yi – a – b·xi .
Pentru estimarea coeficientilor a , b vom folosi drept conditie de minim a listei reziduurilor ,
conditia :
n
( min ) ∑ e i2 .
a,b i =1
Asadar , urmeaza sa rezolvam problema de minim nerestrictionat :
n 2
(min) f ( a , b ) = ∑ ( y i − a − b ⋅ xi ) .
i =1
Avem :
-7-
∂f n
⎡ n n
⎤
= − 2 ⋅ ∑ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢∑ y i − n ⋅ a − b ⋅ ∑ x i ⎥ = 0
∂a i =1 ⎣ i =1 i =1 ⎦
n n
⇔ n ⋅ a + b ⋅ ∑ xi = ∑ y i ; ( 1 )
i =1 i =1
Sa notam :
1 n
- media valorilor {xi } : x = ⋅ ∑ x i ;
n i =1
1 n
- media valorilor {yi } : y = ⋅ ∑ y i .
n i =1
(2)
a+ b⋅ x=y
∂f n
⎡ n n n
⎤
= − 2 ⋅ ∑ x i ⋅ ( y i − a − b ⋅ x i ) = − 2 ⋅ ⎢ ∑ x i ⋅ y i − a ⋅ ∑ x i − b ⋅ ∑ x i2 ⎥ = 0
∂b i =1 ⎣ i =1 i =1 i =1 ⎦
n n n
⇔ a ⋅ ∑ xi + b ⋅ ∑ x = 2
i ∑x i ⋅ yi;
i =1 i =1 i =1
Sa notam :
1 n 2 2 1
n
1 n
m 2x = ⋅ ∑ x i ; m y = ⋅ ∑ y i ; s xy = ⋅ ∑ x i ⋅ y i .
2
n i =1 n i =1 n i =1
(4)
a ⋅ x + b ⋅ m 2x = s xy
Sistemul :
⎧⎪ a + b ⋅ x = y
⎨ 2
⎪⎩a ⋅ x + b ⋅ m x = s xy
-8-
⎧^
⎪⎪b =
∑ xi ⋅ y i − n ⋅ x ⋅ y =
∑ ( xi − x) ⋅ ( y i − y )
- varianta 1 : ⎨ ∑ xi2 − n ⋅ x
2
∑ ( x i − x)2
⎪ ^ ^
⎪⎩ a = y − b⋅ x
⎧ ^ s xy − x ⋅ y
⎪⎪b = 2
- varianta 2 : ⎨ m 2x − x .
⎪ ^ ^
⎪⎩ a = y − b ⋅ x
2 2 2
- dispersia de selectie a datelor {xi } ( sau : varianţa ) : σ x = m x − x
gasim varianta :
⎧^ σ XY
⎪b =
- varianta 3 : ⎨ σ 2X .
⎪^ ^
⎩ a = y − b ⋅x
^ ^
Odata determinate valorile estimate a , b , se poate scrie ecuatia dreptei de regresie , care se
mai numeste si dreapta celor mai mici patrate ( vom intalni drepte de regresie determinate si
prin alte metode ).
Atunci , valorile caracteristicii Y determinate folosind dreapta celor mai mici patrate
^ ^ ^
vor fi : y i = a + b⋅ x i , i = 1, n , sau
^ ^
y i = y + b⋅ ( x i − x ) , i = 1, n
-9-
^ ^
e i = y i − y i = ( y i − y ) − b⋅ ( x i − x ).
n n
∑ ( xi − x ) = 0 ; ∑ ( y i − y ) = 0 .
i =1 i =1
y=
∑ yi = ∑ yi
n n
Scopul unui model de regresie liniara este de a explica o parte din modificarea
valorilor caracteristicii Y , prin faptul ca valoarea caracteristicii X s-a modificat ea insasi .
Acest fapt se poate exprima pe scurt astfel :
Acest fenomen constituie ceeace numim variaţia explicată de catre modelul de regresie.
adica este posibil sa aiba loc si o variatie a lui Y , neexplicata de catre model .
Aceasta ar avea loc in cazul in care , la valori “ x “ egale , sa corespunda mai multe valori
pentru “ y “ , sau daca la valori “ x “ foarte apropiate intre ele , sa corespunda valori “ y “ mult
diferite intre ele .
- 10 -
Asadar : in relatia
^ ^
(y i − y ) = ( y i − y ) + ( y i − y i ) ,
n n ^ n ^
∑ ( y i − y )2 = ∑ ( y i − y )2 + ∑ ( y i − y i )2
i =1 i =1 i =1
In adevar :
^ ^
∑ y i2 = ∑ [ y − b⋅ ( x i − x) ]2 =
2 ^ ^2
= n ⋅ y + 2 ⋅ y ⋅ b⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x )2 =
^ ^
= y ⋅ n ⋅ y + 0 + b⋅ b⋅ ∑ ( x i − x )2 =
^
= y ⋅ ∑ y i + b⋅ ∑ ( x i − x ) ⋅ y i =
^
= ∑ [ y + b⋅ ( xi − x) ] ⋅ y i =
^
= ∑ yi ⋅ yi
Deci :
^ ^ ^2
∑ ( yi − yi ) = ∑ 2
y i2 − 2 ⋅ ∑ yi ⋅ yi + ∑ yi =
^2 ^2
= ∑ y i2 − 2 ⋅ ∑ yi + ∑ yi =
^2
=∑ y i2 − ∑ yi
si
- 12 -
^ ^ ^ 2
∑ ( yi − y) = ∑ 2
y i2 − 2 ⋅ y ⋅ ∑ yi + n ⋅ y =
^
2
= ∑ y i2 − 2 ⋅ y ⋅ ∑ yi + n ⋅ y =
^
2 2
=∑ y i2 − 2⋅n⋅y +n⋅y =
^
2
=∑ y i2 −n⋅y
In final , se obtine :
2
∑ ( y i − y )2 = ∑ y i2 − n ⋅ y =
⎡ ^2 2⎤ ⎡ ⎤ ^2
= ⎢ ∑ y i − n ⋅ y ⎥ + ⎢ ∑ y i2 − ∑ i ⎥=
y
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
^ ^
= ∑ ( y i − y ) 2 + ∑ ( y i − y i )2
^ ^
∑ ( yi − y) 2
= ∑ ( yi − y) 2
+ ∑ ( y i − y i )2
^
- termenul Se = ∑ ( y i − y ) 2 se numeste variatie explicata prin regresie ;
^
- termenul Sr = ∑ ( y i − y i )2 se numeste variatie reziduala sau variatie ne-explicata :
asadar , avem relatia
Sg = Se + Sr .
Pentru a masura procentual gradul in care regresia liniara explica variatia lui Y , se foloseste
urmatorul coeficient de determinare , R , cu valori in intervalul [ 0; 1]:
- 13 -
Se
R2 =
Sg
^ 2
2
R =
∑ ( y i − y )2 = b
^
2
⋅
∑ x i2 − n ⋅ x
.
∑ ( y i − y )2 ∑ y i2 − n ⋅ y
2
xi 1 2 3 4 5
yi 2,5 5,6 8 9,7 10,3
- a): stabiliti grafic daca se poate folosi o dreapta de ajustare pentru a descrie dependenta lui Y
in raport cu X ;
Rezolvare :
xi yi x i2 xi ⋅ y i y i2
1 2,5 1 2,5 6,25
2 5,6 4 11,2 31,36
3 8 9 24 64
4 9,7 16 38,8 94,09
5 10,3 25 51,5 106,09
TOTAL : 15 36,1 55 128 301,79
Atunci :
- 15 -
• n=5
n
15
• ∑x
i =1
i = 15 ⇒ x =
5
= 3
n
36,1
• ∑y
i =1
i = 36,1 ⇒ y =
5
= 7,22
n
55
• ∑x
i =1
2
i = 55 ⇒ m 2X =
5
= 11
x
128
• ∑x
i =1
i ⋅ y i = 128 ⇒ s XY =
5
= 25,6
⎧ a + b ⋅ x = y ⇒ a + 3 ⋅ b = 7,22
⎨
⎩a ⋅ x + b ⋅ m X = s XY ⇒ 3 ⋅ a + 11 ⋅ b = 25,2
2
de unde se obtine :
⎧ a = 1, 31
⎨ si deci dreapta celor mai mici patrate este :
⎩b = 1, 97
y = 1, 31 + 1, 97 ⋅ x
_ ^ _ ^
xi yi ^ (y i − y )2 = ( y i − y )2 = (y i − y i )2 =
y i = 1 , 31 + 1, 97 ⋅ x i = ei
= ( y i − 7, 22) 2 ^
= ( y i − 7, 22)2
1 2,5 3, 28 22,28 15,52 0,61
2 5,6 5, 25 2,62 3,88 0,12
3 8 7, 22 0,61 0 0,61
4 9,7 9, 19 6,15 3,88 0,26
5 10,3 11, 16 9,49 15,52 0,74
TOTAL : 41,15 38,81 2,34
- 16 -
deci avem :
S g = 41 , 15 ; S e = 38 , 81 ; S R = 2 , 34
S e 38, 81
- d : R2 = = = 0 , 94
S g 41, 15
Vom relua unele dintre conceptele deja prezentate , urmand sa facem completarile
necesare studiului regresiei in cazul stochastic .
Fie astfel sondajul { ( xi , yi )}i=1,n : modelul de regresie liniara simpla intre caracteristicile X
si Y are aspectul :
yi = a + b· xi + ei , i = 1, n
Aici erorile ei sunt considerate variabile aleatoare , ce nu pot fi observate direct : aceste
variabile verifica ipotezele urmatoare :
2
- toate variabilele ei au media zero si aceeaşi dispersie s ;
- toate variabilele ei au repartitie normala , deci e i = N( 0 ; s 2 ) , i = 1 , n
- aceste variabile sunt doua cate doua independente , deci au covarianţa egala
cu zero : cov ( e i ; e j ) = 0 , i ≠ j; i , j = 1, n .
De observat ca in aceste conditii , si yi au caracter aleator , intrucat depind de variabilele
aleatoare ei .
- 17 -
M( y i ) = M ( a + b ⋅ x i + ei ) = a + b ⋅ x i + M( ei ) = a + b ⋅ x i ;
D2 ( y i ) = D2 ( a + b ⋅ x i + e i ) = D2 ( ei ) = s 2 .
Notă : semnificaţia erorilor aleatoare este aceasta : pentru un set fixat de valori ale
variabilei Y .
^
2.2.1: Media estimatorului b
^ ^
Pentru estimatorii a , b vom folosi expresiile alternative
⎧^
⎪b =
∑ ( xi − x) ⋅ y i ⎧ ∑ xi
⎪x =
⎪ ∑ ( xi − x)2 , unde : ⎪ n
⎨ ⎨
⎪
⎪ ^ ^
⎪
⎪y =
∑ yi
⎩ a = y − b ⋅x ⎩ n
- 18 -
Asadar , avem :
⎛^⎞ ⎛ ∑ ( x i − x) ⋅ y i ⎞ ∑ ( x − x ) ⋅ M( y ) =
M ⎜ b ⎟ = M⎜ ⎟= i i
⎝ ⎠ ⎜ ∑ ( x − x) 2 ⎟ ∑ ( x − x) 2
⎝ i ⎠ i
=
∑(x i − x) ⋅ ( a + b ⋅ x i )
=
a ⋅ ∑ ( x i − x) + b ⋅ ∑ ( x i − x) ⋅ x i
=
∑(x i − x) 2
∑(x i − x) 2
b ⋅ ∑ ( x i − x) ⋅ x i
=
∑(x i − x)2
⎛^⎞
M ⎜⎜ b ⎟⎟ = b
⎝ ⎠
In concluzie :
^
b este un estimator nedeplasat pentru parametrul b
- 19 -
^
2.2.2: Media estimatorului a
^
Din relatia de definitie a lui a se deduce :
⎛^⎞ ⎛ ⎞
( ) ⎛ ^⎞
^
M ⎜ a ⎟ = M ⎜ y − b⋅ x ⎟ = M y − x ⋅ M ⎜ b ⎟ =
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
=M (y) −x⋅b
Dar se stie ca :
⎛ ∑ y i ⎞ ∑ M( y i ) ∑ ( a + b ⋅ xi ) =
( )
M y = M ⎜⎜
n
⎟⎟ =
n
=
n
⎝ ⎠
n ⋅ a + b ⋅ ∑ xi
= = a+b⋅x
n
⎛^⎞
M ⎜⎜ a ⎟⎟ = a + b ⋅ x − x ⋅ b ⇒
⎝ ⎠
⎛^⎞
⇒ M ⎜a⎟ = a
⎝ ⎠
Asadar :
^
a este un estimator nedeplasat pentru parametrul a
- 20 -
^
2.2.3: Dispersia estimatorului b
⎛^⎞ ⎛ ∑ ( x i − x) ⋅ y i ⎞ ∑ ( x − x) ⋅ D ( y ) =
2 2
D2 ⎜ b ⎟ = D2 ⎜ ⎟= i i
⎝ ⎠ ⎜ ∑ ( x − x) 2
⎝ i
⎟
⎠ [∑ ( x − x) ]
i
2 2
=
∑ ( x − x) ⋅ s
i
2 2
=
s2
[ ∑ ( x − x) ]
i
2 2
∑ ( x i − x) 2
Rezultat :
2⎛
^⎞ s2
D ⎜⎜ b ⎟⎟ =
⎝ ⎠ ∑ ( x i − x) 2
- 21 -
^
2.2.4: Dispersia estimatorului a
^
Urmand formula lui a , avem :
^ ^ ^ 2 ^
2 2 2 2
D ( a ) = D ( y − b⋅ x ) = D ( y ) − 2 ⋅ x ⋅ cov ( y , b ) + x ⋅ D ( b ) ;
deoarece avem
⎛ ∑ y i ∑ ( x j − x) ⋅ y j ⎞
^ ⎜ ⎟
j
cov ( y , b ) = cov ⎜ i
; ⎟=
⎜ n
⎜ ∑ i ( x − x ) 2
⎟
⎟
⎝ i ⎠
∑∑ ( x j − x) ⋅ cov ( y i , y j )
i j
= =
n ⋅ ∑ ( x i − x) 2
i
∑ ( x i − x) ⋅ D 2 ( y j ) + ∑ (
( x j − x ) ⋅ cov y i , y j )
i i≠ j
i , j = 1, n
= =
n ⋅ ∑ ( x i − x) 2
s 2 ⋅ ∑ ( x i − x) + 0
i s2 ⋅ 0
= = = 0`
n ⋅ ∑ ( x i − x) 2 n ⋅ ∑ ( x i − x) 2
i i
Cum avem :
2
D ( y )= D ⎜ 2⎛
⎜ ∑ y i ⎞⎟ = ∑ D 2 ( y i ) = n ⋅ s 2 = s2
,
⎟ n2 n2
⎝ n ⎠ n
^ 2 ^
2 2 2
D (a)= D ( y )+ x ⋅ D (b )=
2
s2 x ⋅ s2
= + =
n ∑ ( x i − x) 2
2
s 2 ⋅ [ ∑ ( x i − x) 2 + n ⋅ x ]
= .
n ⋅ ∑ ( x i − x) 2
Cum stim ca :
2
∑ ( x i − x) 2 = ∑ x i2 − n ⋅ x ,
in final obtinem :
D 2
^
(a) =
∑ x i2
⋅
s2
n ⋅ ∑ ( x i − x) 2 n
- 23 -
^ ^
2.2.5 : Covarianta estimatorilor a , b
Avem :
⎛^ ^ ⎞ ⎛^ ^ ⎞ ^ ^
cov ⎜⎜ b , a ⎟⎟ = cov⎜⎜ b , y − b⋅ x ⎟⎟ = cov ( b , y ) − x ⋅ D 2 ( b ) =
⎝ ⎠ ⎝ ⎠
x ⋅ s2
= 0 − ;
∑ ( x i − x) 2
⎛^ ^ ⎞ x ⋅ s2
cov ⎜ b , a ⎟ = .
⎝ ⎠ ∑ ( x i − x) 2
== // ==
^ ^ ^ ^
Sa determinam dispersiile estimatorilor a , b precum si cov ( a , b ) .
- 24 -
Rezolvare :
Asadar , coeficientii dreptei celor mai mici patrate sunt dati de sistemul
⎧⎪ n ⋅ a + b ⋅ ∑ xi = ∑ y i ⎧ 7 ⋅ a + 30, 9b = 142
⎨ ⇒⎨
⎪⎩a ⋅ ∑ x i + b ⋅ ∑ x i = ∑ x i ⋅y i
2
⎩ 30, 9 ⋅ a + 165, 49 ⋅ b = 745, 6
de unde gasim :
⎧ a = 2, 26
⎨ ⇒ dreapta celor mai mici patrate are ecuatia : y = 2,26 + 4, 08 · x.
⎩b = 4, 08
^ ^
e i = y i − y i , unde y i = 2,26 + 4, 08 · x i
^
yi 7,16 12,46 17,36 18,99 25,11 27,96 32,86
ei - 0,16 0,54 - 0,36 0,01 0 0,11 0,04 - 0,14
Avem :
− 0, 18
∑e i = − 0 , 18 ⇒ M (e i ) =
7
= − 0, 03
∑ e i2 − [M (e )] 2 = 0 , 07 ⇒ s 2 = 0 , 07
∑ i
e 2
= 0 , 48 ⇒ D 2
( e ) =
n
i
x=
∑x i
=
30 , 9
= 4 , 414 ⇒
n 7
∑(x − x ) 2 = ∑ x i2 − 2 ⋅ x ⋅ ∑ x i + x = 165 , 49 − 2 ⋅ 4 , 414 ⋅ 30 , 9 + ( 4 ,414) 2 = 29 , 09
2
⇒ i
- 25 -
2
^ s2 0 , 07
deci : ( & 2.2. 3 ) D ( b ) = = = 0 , 024
∑ ( x i − x ) 29, 09
2
2
( & 2.2. 4 ) D ( a ) =
^
∑x 2
i
⋅
s2
=
165 , 49 0 , 07
⋅ = 0 , 01
n⋅ ∑(x − x)
i
2
n 7 ⋅ 29, 09 7
^ ^ x ⋅ s2 4 , 41 ⋅ 0 , 07
( & 2.2. 5 ) cov ( a , b ) = = = 0 , 01
∑ ( xi − x ) 2
29 , 09
2
Ne vom ocupa acum de estimarea dispersiei s a reziduurilor : aceasta cantitate s-a
^ ^
dovedit esentiala in descrierea caracteristicilor estimatorilor a , b .
Dar , prin structura modelului , aceasta nu este cunoscuta apriori si va trebui estimata pe baza
esantionului de care dispunem.
Daca a reusi sa determinam erorile ei , atunci dispersia lor s-ar putea estima prin
estimatorul nedeplasat “ dispersie de selectie modificata “ , dat de expresia :
η 2
=
∑ ( ei − e)2
,
n −1
unde prin e am notat media de selectie a erorilor { ei } .
Din pacate insa , cantitatile { ei } nu sunt observabile direct , ci pot fi estimate numai
prin relatiile :
^ ^ ^ ^ ^
e i = y i − y i , unde : y i = a + b⋅ x i = y + b⋅ ( x i − x ) .
^
∑ ( ei − e ) 2 = ∑ ei2 = ∑ ( yi − yi ) 2 :
- deci :
- 26 -
⎡ ^
2⎤
⎛ ^2 ⎞
M ⎢∑ ( y i − y i ) ⎥ = ∑ M( y i ) − ∑ M ⎜ y i ⎟ =
2
⎣ ⎦ ⎜ ⎟
⎝ ⎠
[ ]
⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤
= ∑ D2 ( y i ) + M 2 ( y i ) − ∑ ⎢ D2 ⎜⎜ y i ⎟⎟ + M 2 ⎜⎜ y i ⎟⎟ ⎥
⎣ ⎝ ⎠ ⎝ ⎠⎦
- dar avem :
⎛^ ⎞ ⎛^ ^ ⎞ ⎛^⎞ ⎛^⎞
M ⎜⎜ y i ⎟⎟ = M ⎜⎜ a + b⋅ x i ⎟⎟ = M ⎜⎜ a ⎟⎟ + x i ⋅ M ⎜⎜ b ⎟⎟ =
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
= a + b ⋅ x i = M( y i )
- astfel , inlocuim si gasim :
⎛ ^
⎞ ⎛^ ⎞
M ⎜ ∑ ( y i − y i ) 2 ⎟ = ∑ D2 ( y i ) − ∑ D2 ⎜ y i ⎟ =
⎝ ⎠ ⎝ ⎠
2 ⎛ ⎞
^
= n ⋅ s2 − ∑ ⎝ i ⎟⎠
D ⎜ y
2⎛ ⎞
^
Vom calcula valoarea expresiei D ⎜⎜ y i ⎟⎟ ; avem :
⎝ ⎠
^ ^ ^ ^ ^ ^ ^
D 2 ( y i ) = D 2 (a + b⋅ x i ) = D 2 ( a ) + x i2 ⋅ D 2 ( b ) + 2 ⋅ x i ⋅ cov( a ; b ) =
s 2 ⋅ ∑ x 2j x i2 ⋅ s 2 2 ⋅ xi ⋅ x ⋅ s 2
= + − =
n ⋅ ∑ ( x j − x) 2
∑ j
( x − x ) 2
∑ j( x − x ) 2
s2 ⎛ ∑ x 2j ⎞
= ⋅ ⎜ + x 2
− 2 ⋅ x ⋅ x ⎟=
2 ⎜ n i i
⎟
∑ ( x j − x) ⎝ ⎠
s2 ⎛ ∑ x 2j n x 2 2⎞
= ⋅ ⎜ − + x 2
− 2 ⋅ x ⋅ x + x ⎟=
2 ⎜ n i i
⎟
∑ ( x j − x) ⎝ n
⎠
s2 ⎛ ∑ ( x j − x)2 ⎞
= ⋅ ⎜ + ( x − x ) 2⎟
=
2 ⎜ i
⎟
∑ j
( x − x ) ⎝ n ⎠
⎛1 ( x i − x )2 ⎞⎟
⎜2
=s ⋅ +
⎜ n ∑ ( x j − x )2 ⎟
⎝ ⎠
de unde gasim imediat forma finala , anume ;
- 27 -
⎡ ^
2⎤ 2
⎛
2 ⎜n
M ⎢∑ ( y i − y i ) ⎥ = n ⋅ s − s ⋅ +
∑ ( x i − x) 2 ⎞
⎟
⎣ ⎦ ⎜ n ∑ ( x − x)2 ⎟
⎝ j ⎠
⎡ ^ ⎤
M ⎢∑ ( y i − y i )2 ⎥
⇒ s2 = ⎣ ⎦
n−2
θ* =
∑ ( y i − y i )2
n−2
- 28 -
^
Am vazut ca estimatorul b are o distributie normala , si ca avem :
⎧ ^
⎪⎪M (b ) = b
⎨ 2 ^ s2 ;
⎪ D (b ) =
⎪⎩ ∑ ( x i − x) 2
Asadar , expresia :
^
b−b
Z=
^
2
D ( b)
*
are o repartitie normala normata : folosind estimatorul θ pentru s , gasim variabila
aleatoare
^
b−b
T=
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2
⎧ H 0 :b = b 0
⎨ ,
⎩ H 1 :b ≠ b 0
utilizam statistica
^
b−b
tc = .
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2
y i = a + ei .
^
b
tc > ,
^
∑ (y i − y i )2
(n − 2 ) ⋅ ∑ ( x i − x ) 2
⎛ ^ ^ ⎞
⎜^
⎜ b − t(α / 2;n − 2 ) ⋅
∑ ( y i − y i ) 2 ^
;b + t(α / 2;n − 2 ) ⋅
∑ ( y i − y i)
2 ⎟
⎟,
⎜ (n − 2 ) ⋅ ∑ ( x i − x ) 2 (n − 2) ⋅ ∑ ( x i − x ) 2 ⎟
⎝ ⎠
^ ^
sau , pe scurt : b ± t ( α / 2 ; n − 2 ) ⋅ σ (b ) .
Observare :
H 0 : b = b 0 , cu alternativa H1 : b ≠ b 0
- 31 -
^
Vom folosi faptul deja demonstrat , anume ca estimatorul a are o repartitie normala ,
cu caracteristicile :
⎧ ^
⎪⎪ M ( a )= a
⎨ 2 ^ s 2 ⋅ ∑ x i2
⎪D ( a ) =
⎪⎩ n ⋅ ∑ ( x i − x )2
^
a−a
Z=
^
2
D ( a)
are o repartitie normala normata .
2
Daca s este necunoscut , deci se estimeaza folosind estimatorul
θ =* ∑ ( y i − y i )2
n−2
^
a−a
T=
*
θ ⋅
∑ xi2
n ⋅ ∑ ( x i − x)2
Fie datele :
xi 1 3 7 11 14
y i 4 9 15 26 32
1
• x = ⋅ ( 1 + 3 + 7 + 11 + 14 ) = 7,2
5
1
• y = ⋅ ( 4 + 9 + 15 + 26 + 32 ) = 17, 2
5
deci obtinem tabelul :
Atunci :
• ∑ ( x i − x ) ⋅ ( y i − y ) = 250 , 8
deci :
• ∑ ( x i − x )2 = 116 , 8
^
• b=
∑ ( xi − x) ⋅ ( y i − y ) = 250 ,8 = 2 , 147 ;
∑ ( x i − x )2 116, 8
^ ^
• a = y − b⋅ x = 17 , 2 − 2, 147 ⋅ 7 , 2 = 1 , 742 .
- 33 -
^ ^
Reziduurile estimate se determina cu relatia e i = y i − y i , unde valorile calculate y i ale
variabilei Y se determina prin inlocuirea in ecuatia dreptei , deci
^ ^ ^
y i = a + b⋅ x i = 1 , 742 + 2 , 147 ⋅ x i ;
obtinem tabelul :
xi 1 3 7 11 14
yi 4 9 15 26 32
^
y i 3, 9 8,18 16,77 25,36 31,8
ei 0,1 0,82 - 1,77 0,64 0,2
Indicele de determinare ,
^2 2
R = 2 ∑ yi − n ⋅ y
2
∑ y i2 − n ⋅ y
devine :
^ ^
Sa trecem la estimarea repartitiei estimatorilor a , b : pentru aceasta trebuie estimat intai
abaterea medie patratica a reziduurilor .
Avem :
^
*
θ =
∑ ( y i − y i )2 = 4 , 265
= 1 , 192 :
n−2 3
Atunci :
2
^s2
valoarea estimata pentru D ( b ) = va fi data de :
∑ ( x i − x)2
1 , 1922
= 0 , 012 = ( 0 , 1103 )2
116 ,8
^
Deci abaterea standard a variabilei aleatoare b este : σ ^ = 0 , 1103 .
b
376
( 1 , 192)2 ⋅ = 0 , 9148 = ( 0 , 9565 )2 .
5 ⋅ 116 , 8
^
Deci abaterea standard a variabilei aleatoare a este : σ^ = 0 , 9565 .
a
^ ^
Acum se poate trece la efectuarea de teste privind valorile a , b .
t ( α / 2 ; n − 2 ) = t ( 0 , 45 ; 3 ) = 2 , 6 .
^
b − 3 2 , 147 − 3
Avem : t c = = = − 7 , 73 ; cum avem | t c | > t ( 0 , 45 ; 3 ) ,
σ^ 0, 1103
b
deducem ca , la pragul α = 0 , 90 se respinge H0 si se prefera H1 .
Asadar , pentru valoarea estimata a lui b se poate alege orice valoare din acest interval : evident
~
ca valoarea cea mai tentanta este b = 2.
1 , 742 − 1 se accepta H 0
Avem t c = = 0 ,7757 < t ( 0 , 45 ; 3 ) = 2 , 6 , deci : .
0 ,9565 se respinge H1
Observare : daca Y reprezinta beneficiul realizat in urma producerii unei cantitati X de produs
atunci este important sa avem : X = 0 → Y=0 ( daca nu produc nimic , beneficiul
este zero ) : cum valoarea a = 0 apartine intervalului ( − 0 , 745 ; 4 , 23 ) , datele problemei ar
putea confirma că avem un model de evaluare a nivelului beneficiului in functie de nivelul
productiei .
^ ^ ^ ^
( a − t ( α / 2, n − 2 ) ⋅ σ( a ) ; a − t ( α / 2, n − 2 ) ⋅ σ( a ) ) ,
sau :
^ ^
a ± t ( α / 2, n − 2 ) ⋅ σ( a ) .
S-a stabilit ca estimatorul lui μ Y ( x ) este dat de dreapta celor mai mici patrate ,
^ ^ ^
adica : y ( x ) = a + b⋅ x .
^
Estimatorul y ( x ) este normal distribuit , deoarece este o combinatie liniara de doi estimatori
cu repartitie normala .
Stim ca acest estimator este nedeplasat , si ca are abaterea standard
2⎛
^ ⎞ ⎛1 ( x − x)2 ⎞
σ ⎜⎜ y ( x ) ⎟⎟ = s 2 ⋅ ⎜ + ⎟.
⎜n ⎟
⎝ ⎠ ⎝ ∑ ( x i − x)2 ⎠
In continuare , expresia
^
y(x) − μ Y (x)
Z=
⎛^ ⎞
σ ⎜⎜ y ( x ) ⎟⎟
⎝ ⎠
are o repartitie normala normata .
2
Cum dispersia s a rezidurilor este necunoscuta , nu putem utiliza statistica Z , si va
^ 1 ( x − x)2
y ( x ) ± t ( α / 2 , n − 2 ) ⋅ θ* ⋅ + , unde
n ∑ i( x − x ) 2
θ* =
∑ ( y i − y i )2 .
n−2
^ ^
∑ ( y i − y )2 = ∑ ( y i − y ) 2 + ∑ ( y i − y i )2
unde :
- Sg = ∑ ( y i − y )2 este variatia totala ;
^
- Se = ∑ ( y i − y ) 2 este variatia explicata prin regresie ;
^
- Sr = ∑ ( y i − y i )2 este variatia reziduala sau variatie ne-explicata .
Daca aceasta ipoteza este adevarata , atunci se poate demonstra ca mediile variatiilor devin
respectiv :
- 38 -
M (S g ) = (n − 1) ⋅ s 2
M (S e ) = s 2 ;
M (S r ) = (n − 2 ) ⋅ s 2
Sg
D2g = − dispersia globala
n −1
S
D 2e = e − dispersia exp licata
1
Sr
D 2r = − dispersia reziduala
n−2
2 2 2
Se stie ca daca ipoteza H0 este verificata , atunci D g , D e , D r sunt toti trei
2 2
estimatori nedeplasati ai lui s : daca H0 este falsa , atunci numai D r este estimator
2
nedeplasat al lui s .
Sg Se S
Daca ipoteza H0 este verificata , atunci statisticile 2
, 2
si 2r urmeaza cate o
s s s
2
repartitie χ , avand respectiv : n – 1 ; 1 si n-2 grade de libertate .
Mai mult , daca ipoteza H0 este verificata , aceste statistici sunt independente doua
cite doua .
ASADAR :
Sg
1 ⋅ s 2 D2 g
Fc = = 2
Sr D r
2
(n − 2) ⋅ s
Se poate utiliza statistica Fc pentru a decide acum daca ipoteza H 0 : b = 0 este adevarata
sau falsa : astfel , se respinge ipoteza H 0 la pragul de semnificatie α daca avem
Fc > F( α , 1 , n − 2 )
Calculele se sistematizeaza deobicei intr-un tabel , numit tabel ANOVA ( ANOVA = analysis
of variation ) :
y i = a + ei .
⎧⎪M ( y i ) = a
⎨ 2 .
⎪⎩ D ( y i ) = s 2
^
Fie a 0 - un estimator pentru a : atunci pot fi definite
- 40 -
^ ^
- valorile estimate : y i = a 0 ;
^ ^
- reziduurile : e i = y i − y i = y i − a 0 .
^
Estimatorul a 0 va fi determinat prin metoda celor mai mici patrate ,adica prin conditia de
minimum pentru eroarea globala
z = f (a 0 ) = ∑ ( y i − a 0 ) 2
dz
= 0 ⇔ − 2 ⋅ ∑ ( y i − a0 ) = 0 .
d a0
Gasim asadar :
^
a0 =
∑ yi = y .
n
Inlocuind , obtinem :
⎧ 2 ^
⎪ r ∑ i i ) = ∑ ( y i − y ) = Sg
2 2 2
S = ( y − y
⎨ ^ ^ ^
⎪S 2 = ( y − y ) 2 = ( y − y ) 2 = 0 .
⎩ e ∑ i ∑ i i
^ ^
Estimatorul a = y i este repartizat normal cu :
⎛^⎞
- media : M ⎜⎜ a ⎟⎟ = M ( y ) = M ( y i ) = a 0
⎝ ⎠
2⎛ ⎞
^
2 D2 ( y i ) s 2
- dispersia : D ⎜⎜ a ⎟⎟ = D ( y ) = = .
⎝ ⎠ n n
⎡ ^ ⎤
M ⎢∑ ( y i − y i )2 ⎥ = M [ ∑ ( y − y ) ] = (n − 1) ⋅ s
i
2 2
⎣ ⎦
2
Astfel , obtinem un estimator nedeplasat pentru s din relatiile precedente , anume :
^
2
s =
∑ ( y i − y i )2
=
∑ ( y i − y )2 .
n −1 n −1
^⎞ s2 2⎛
⎜ ⎟
De aici , obtinem si un estimator nedeplasat pentru D ⎜ a ⎟ = .
⎝ ⎠ n
y i = b ⋅ x i + ei
M ( y i ) = b ⋅ x i + M( ei ) = b ⋅ x i
.
D 2 ( y i ) = D 2 ( b ⋅ x i ) + D 2 (e i ) = s 2
^
Folosind un estimator b a lui b , putem defini valorile estimate
^ ^
y i = b⋅ x i
^ ^
si reziduurile e i = y i − y i = y i − b⋅ x i .
^
Estimatorul b este dat de metoda celor mai mici patrate si are aspectul :
- 42 -
^
b =
∑ xi ⋅ y i
∑ xi2
Specificul unui model de regresie fara constanta este faptul ca dreapta de regresie
^
estimata nu trece prin punctul de coordonate ( x , y ) si ca relatia ∑ y i = ∑ y i nu mai este
adevarata .
Asadar , suma rezidurilor nu este nula , si nu mai avem : Sg = Se + Sr .
^2 ^
∑ yi = ∑ yi ⋅ yi
In adevar :
( )
2
^ ⎛ ∑ xi ⋅ y i ⎞ ∑ x ⋅ y
2
∑ y i = ⎜⎜ x 2 ⎟⎟ ⋅ ∑ xi =
2 2 i i
=
⎝ ∑ i ⎠ ∑ x 2
i
⎛ n ⎞
⎜ ∑ xj ⋅ y j ⎟
∑ xi y i ⋅ ∑ xi y i = ∑ n ⎜
j= 1 ⎟
= ⎜ ⎟ ⋅ xi ⋅ y i =
∑ i x 2
i =1 ⎜
n
x 2j ⎟
⎜ ∑ ⎟
⎝ j= 1 ⎠
^
= ∑ yi ⋅ yi
^ ^
∑ ( yi − yi ) = ∑2
y i2 − ∑ yi .
^
Estimatorul b are distributie normala , cu
⎛^⎞
- media : M ⎜⎜ b ⎟⎟ =
∑ xi ⋅ M( y i ) = b ⋅ ∑ xi2 =b ;
⎝ ⎠ ∑ xi2 ∑ xi2
- 43 -
2⎛
^⎞
∑ x i2 ⋅ D2 ( y i ) s 2 ⋅ ∑ x i2 s2
⎜⎜ b ⎟⎟ = = =
- dispersia : D
⎝ ⎠ ( ∑ i x )
2 2
( ∑ xi ) ∑ xi2
2 2
.
^
Valorile estimate y i sunt deasemeni repartizate normal , cu
⎛^ ⎞ ⎛^ ⎞ ⎛^⎞
- media : M ⎜⎜ y i ⎟⎟ = M ⎜⎜ b⋅ x i ⎟⎟ = x i ⋅ M⎜⎜ b ⎟⎟ = x i ⋅ b = M( y i )
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
2⎛ ⎞^
2⎛
^ ⎞ 2 2⎛ ^ ⎞ x i2
- dispersia : D ⎜⎜ y i ⎟⎟ = D ⎜⎜ b⋅ x i ⎟⎟ = x i ⋅ D ⎜⎜ b ⎟⎟ = ⋅ s2 .
⎝ ⎠ ∑ xj
2
⎝ ⎠ ⎝ ⎠
j
⎛ ^
2⎞
⎛ ^2 ⎞ ^
M ⎜⎜ ∑ i i ⎟ ⎜⎜
( y − y ) ⎟ = M ∑ y i2 − ∑ y i ⎟ = ∑ D2 ( y i ) − ∑ D2 ( y i ) =
⎟
⎝ ⎠ ⎝ ⎠
= n⋅s − s 2 2
⋅
∑ x i2
= ( n − 1 ) ⋅ s2
∑ xi 2
2
Deci un estimator nedeplasat al lui s se obtine punand :
^
* 2
(s ) =
∑ ( y i − y i )2
.
n −1
^⎞
2⎛
Un estimator pentru D ⎜ b ⎟⎟ va fi atunci dat de :
⎜
⎝ ⎠
~2 ^ ( s* ) 2
σ (b) = .
∑ i x 2
Se demonstreaza ca expresia :
- 44 -
^
b− b
T= ~ ^
σ ( b)
Y = b 0 + b1 ⋅ X1 + b 2 ⋅ X 2 + ... + b p − 1 ⋅ Xp − 1 + e
Folosind un esantion de “n” indivizi , obtinem datele care au aspectul :
y i = b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p − 1 ⋅ x i ,p − 1 + e i .
Vom studia pentru inceput cazul a doua variabile explicative , caz in care
modelul devine :
y i = b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 + ei
- 45 -
^
Urmeaza determinarea de estimatori { b i }i =1, 3 pentru parametrii { b i }i =1, 3 .
Valorile estimate ale variabilei explicate Y vor fi atunci
^ ^ ^ ^
y i = b 0 + b1 ⋅ x i 1 + b 2 ⋅ x i 2
^ ^ ^ ^
ei = y i − y i = y i − (b 0 + b1 ⋅ xi1 + b 2 ⋅ xi 2 ) .
Pentru construirea estimatorilor , se utilizeaza tot metoda celor mai mici patrate , adica se
urmareste minimizarea sunei patratelor reziduurilor :
f ( b1 , b 2 , b 3 ) = ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 )2 = min .
⎧ ∂f
⎪ ∂b = − 2 ⋅ ∑ ( y i − b 0 − b1 ⋅ xi1 − b 2 ⋅ xi 2 ) = 0
⎪ 0
⎪ ∂f
⎨ = − 2 ⋅ ∑ x i 1 ⋅ ( y i − b 0 − b1 ⋅ x i 1 − b 2 ⋅ x i 2 ) = 0
∂
⎪ 1 b
⎪ ∂f = − 2 ⋅ x ⋅ ( y − b − b ⋅ x − b ⋅ x ) = 0
⎪ ∂b ∑ i 2 i 0 1 i1 2 i 2
⎩ 2
⎧ ^ ^ ^
⎪ n b 0 + b 1 ⋅ ∑ i1 2 ⋅ ∑ x i 2 = ∑ y i
x + b
⎪^ ^ ^
⎨ b 0 ⋅ ∑ xi1 + b1 ⋅ ∑ xi1 + b 2 ⋅ ∑ xi1 ⋅ xi 2 = ∑ xi1 ⋅ y i
2
⎪^ ^ ^
⎪b 0 ⋅ ∑ xi 2 + b1 ⋅ ∑ xi1 ⋅ xi 2 + b 2 ⋅ ∑ xi 2 = ∑ xi 2 ⋅ y i
2
⎩
- 46 -
- vectorul estimatorilor :
⎛ ^ ⎞
⎜ b0 ⎟
^ ⎜ ^ ⎟
b = ⎜ b1 ⎟ ;
⎜ ... ⎟
⎜^ ⎟
⎜ bp −1 ⎟
⎝ ⎠
⎛^ ⎞
⎜ y0 ⎟
^ ⎜^ ⎟
y = ⎜ y1 ⎟ ;
⎜ ⎟
⎜ ^... ⎟
⎜y ⎟
⎝ n⎠
- vectorul reziduurilor :
- 47 -
⎛ e1 ⎞
⎜ ⎟
⎜ e2 ⎟
e =⎜ ⎟ .
...
⎜ ⎟
⎜e ⎟
⎝ n⎠
In scriere matriceala ,
^ ^ ^ ^
∑ ei2 = e'⋅e = ( y − y )'⋅ ( y − y ) = ( y − X ⋅ b )'⋅( y − X ⋅ b ).
^
Pentru scalarul b'⋅ X'⋅y avem
^ ^ ^ ^
y'⋅y − b'⋅ X'⋅y − y'⋅ X ⋅ b + b'⋅ X'⋅ X ⋅ b ,
^ ^ ^ ^
e'⋅e = y'⋅y − b'⋅ X'⋅y − y'⋅X ⋅ b + b'⋅ X'⋅X ⋅ b =
^ ^ ^
= y'⋅y − 2 ⋅ b'⋅X'⋅y + b'⋅X'⋅ X ⋅ b
^
Derivand expresia obtinuta in raport cu vectorul b , obtinem conditia necesara de extrem :
^
− 2 ⋅ X'⋅y + 2 ⋅ X'⋅X ⋅ b = 0
^
Asadar , estimatorul b se obtine din ecuatia matriceala :
- 48 -
^ ^
X'⋅ X ⋅ b = X'⋅y ⇒ b = ( X'⋅ X)−1 ⋅ X'⋅y
^ ^ ^ ^
y'⋅ y = y'⋅y = y'⋅ y .
In adevar :
^ ^ ^ ^ ^ ^
y'⋅ y = ( X ⋅ b )'⋅ X ⋅ b = b '⋅ X'⋅X ⋅ b =
^
= b '⋅X'⋅ X ⋅ ( X'⋅ X ) −1 ⋅ X'⋅y =
^ ^ ^
= b '⋅X'⋅y = ( X ⋅ b )'⋅y = y'⋅y
Atunci avem :
^ ^ ^ ^
e'⋅e = ( y − y )'⋅( y − y ) = ( y' − y') ⋅ ( y − y ) =
^ ^ ^ ^
= y'⋅y − y'⋅ y − y'⋅y + y' ⋅ y =
^ ^
= y'⋅y − y' ⋅ y
^ ^2
∑ e i2 = ∑ ( yi − yi ) = ∑ 2
y i2 − ∑ yi .
== // ==
- 49 -
^ ^ ^
n b 0 + b 1 ⋅ ∑ x i1 + b 2 ⋅ ∑ x i 2 + .... = ∑ y i ,
^ ^ x i1 ^ x y
b 0 + b1 ⋅ ∑ + b 2 ⋅ ∑ i 2 + ... = ∑ i ,
n n n
sau :
^ ^ ^
b 0 + b1 ⋅ x1 + b 2 ⋅ x 2 + ... = y ⇒
^ ^ ^
⇒ b 0 = y − b 1 ⋅ x1 − b 2 ⋅ x 2 − ...
A = ( x1 , x 2 ,... , x p −1 , y ) .
== // ==
- PROPRIETATEA 3 :
^
Este adevarata relatia ∑ y i = ∑ y i ; in adevar :
^ ^ ^ ^ ^
∑ y i = ∑ (b 0 + b1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 ) =
^ ^ ^ ^
= ∑ b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1
^ ^ ^
= n ⋅ b 0 + b 1 ⋅ ∑ x i1 + ... + b p −1 ⋅ ∑ x i ,p −1 =
^ ^ ^ ^
= n ⋅ ( y − b 1 ⋅ x1 − b 2 ⋅ x 2 − .... ) + b 1 ⋅ n ⋅ x1 + b 2 ⋅ x 2 + ... =
= n ⋅ y = ∑ yi .
- 50 -
^
Ca o consecinta , avem : ∑ e i = ∑ y i − ∑ y i = 0 , deci suma reziduurilor , precum si
media reziduurilor , sunt egale cu zero .
== // ==
^ ^2 ^ 2
∑ (y i − y ) = ∑ y i − 2 ⋅ y ⋅ ∑ y i + n ⋅ y =
2
^2 2
= ∑ yi − 2⋅ y ⋅ ∑ yi + n ⋅ y =
^2 2 2
= ∑ yi − 2⋅ n ⋅ y + n ⋅ y =
^2 2
= ∑ yi − n ⋅ y .
De aici , obtinem :
^ ^
∑ (y i − y )2 + ∑ ( y i − y i )2 =
⎡ ^2 2⎤ ⎡ ^2⎤
= ⎢∑ y i − n ⋅ y ⎥ + ⎢∑ y i − ∑ y i ⎥ =
2
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
2
= ∑ y i2 − n ⋅ y = ∑ ( y i − y ) 2
^ ^
∑ ( y i − y ) = ∑ (y i − y )
2 2
+ ∑ ( y i − y i )2
⇔ Sg = Se + Sr .
== // ==
- 51 -
Definim si acum
Se
R2 = .
Sg
Interpretarea acestuia ramine cea din capitolul precedent.
y= X⋅b+e
M ( e) = 0 ; D 2 ( e ) = s 2 ⋅ E n ,
adica :
• M( e1 ) = M( e 2 ) = ... = M (e n ) = 0
⎛ D 2 (e 1 ) cov( e1 , e 2 ) ... cov( e1 , e n ) ⎞⎟
⎜
⎜ cov( e1 , e 2 ) D 2 (e 2 ) ... cov( e 2 , e n ) ⎟
•⎜ ⎟=
⎜ ... ... ... ... ⎟
⎜ cov( e , e ) cov( e , e ) ... D (e n ) ⎟⎠
2
⎝ n 1 n 2
⎛ s2 0 ... 0 ⎞⎟
⎜
⎜ 0 s2 ... 0 ⎟
=⎜ ⎟
⎜ ... ... ... ... ⎟
⎜0 0 ... s 2 ⎟⎠
⎝
2 2
avand caracteristicile : M ( y ) = X ⋅ b ; D ( y ) = s ⋅ E n .
M ( y ) = b 0 + b 1 ⋅ x i1 + b 2 ⋅ x i 2 + ... + b p −1 ⋅ x i ,p −1 .
^
M (b ) = M [ ( X'⋅X) −1 ⋅ X'⋅y ] = ( X'⋅X) −1 ⋅ X'⋅ M( y ) =
= ( X'⋅X) −1 ⋅ X'⋅ b = b .
^
In ce priveste dispersia estimatorului b , avem :
^
D 2 (b ) = D 2 [ ( X'⋅ X) −1 ⋅ X'⋅y ] =
= ( X'⋅X) −1 ⋅ X'⋅ ( ( X'⋅ X) −1 ⋅ X' )'⋅ D 2 ( y ) =
= ( X'⋅X) −1 ⋅ X'⋅ X ⋅ ( X'⋅X) −1 ⋅ s 2 =
= ( X'⋅ X) −1 ⋅ s 2
2
Pentru estimarea dispersiei comune s a erorilor , vom porni de la relatia
^
∑ (e i − e) 2 = ∑ e i2 = ∑ ( y i − y i ) 2 .
Avem :
- 53 -
⎡ ^2⎤ ⎛^2 ⎞
⎡ 2⎤
( )
^
M ⎢∑ ( y i − y i ) ⎥ = M ⎢∑ y i − ∑ y i ⎥ = ∑ M y i − ∑ M ⎜ y i ⎟ =
2 2
⎣ ⎦ ⎢⎣ ⎥⎦ ⎜ ⎟
⎝ ⎠
[ ]
⎡ ⎛^ ⎞ ⎛ ^ ⎞⎤
= ∑ D 2 ( y i ) + M 2 ( y i ) − ∑ ⎢ D 2 ⎜⎜ y i ⎟⎟ + M 2 ⎜⎜ y i ⎟⎟ ⎥
⎣ ⎝ ⎠ ⎝ ⎠⎦
si deci :
^ ^
D ( y ) = D ( X ⋅ b ) = D 2 [ X ⋅ ( X'⋅ X) −1 ⋅ X'⋅y ] =
2 2
^ −1
Asadeci , dispersiile cantitatilor y se afla pe diagonala matricii H = X ⋅ ( X'⋅ X ) ⋅ X' ,
i
2
inmultite cu s .
Atunci avem :
^ ^
M [ ∑ ( y i − y i )2 ] = ∑ D2 (y i ) − ∑ D2 ( y i ) =
= n ⋅ s 2 − s 2 ⋅ Tr ( H ) ,
−1
Dar avem : Tr ( H ) = Tr [ X ⋅ ( X'⋅ X ) ⋅ X' ]= Tr [ ( X'⋅ X) −1 ⋅ ( X'⋅X) ]
deci
Tr ( H ) = Tr [ E p ] = p .
^
Atunci : M [ ∑ ( y i − y i ) 2 ] = (n − p ) ⋅ s 2 .
2
Se poate defini deci un estimator nedeplasat pentru s , prin
^
* 2 ∑ ( yi − yi )
2
S Sg − Se
(θ ) = = r = ,
n−p n−p n−p
sau :
- 54 -
θ* =
∑ ( y i − y i )2 .
n−p
^
Am vazut ca vectorul b urmeaza o lege normala multidimensionala , cu media
^ ^
M (b ) = b si cu dispersia D2 (b ) = ( X'⋅ X)−1 ⋅ s 2 .
^
Asadar , estimatorii b j au repartitii normale , cu media b j .
^
2
Dispersiile estimatorilor b j depind de cantitatea necunoscuta s care se poate estima cu
*
estimatorul θ prezentat in sectiunea precedenta .
^
2 −1
Avem deci estimarea D (b ) = ( X'⋅ X ) ⋅ (θ* )2 .
(0) (0)
Pentru a testa ipoteza nula H 0 :b j = b j cu alternativa H1 :b j ≠ b j ,se poate folosi
statistica
^
b j − b(j0 )
tc = ^
σ (b j )
Daca ipoteza H 0 este adevarata , statistica t c are o repartitie Student cu ( n-p) grade de
libertate . Asadar , se respinge H 0 la pragul α daca avem
| t c | > t ( α / 2, n − p ) .
- corelatia este pozitiva daca dependenta dintre caracteristici are caracter crescator ,
adica : cresterea valorii caracteristicii determinante duce la o crestere a mediei
caracteristicii determinate ;
- corelatia este negativa daca dependenta dintre caracteristici are caracter descrescator
adica : cresterea valorii caracteristicii determinante duce la o descrestere a mediei
caracteristicii determinate ;
- corelatia este nula , daca variabilele sunt independente , sau : modificarea valorii
caracteristicii determinante lasa neschimbata media caracteristicii determinate
NOTA : am facut aceasta precizare , deoarece este posibil sa avem situatii ca
aceasta : modificarea valorii caracteristicii determinante nu modifica
media caracteristicii determinate , dar ii modifica ( de exemplu)
dispersia ; din punct de vedere practic , intr-un astfel de caz
caracteristica determinanta are influenta asupra caracteristicii
determinate .
- valoarea numerica a corelatiei trebuie sa fie independenta fata de unitatile de masura
folosite pentru cele doua variabile ;
- corelatia trebuie sa fie o marime simetrica a dependentei , adica corelatia dintre
X si Y trebuie sa fie egala cu corelatia dintre Y si X .
Cea mai utilizata masura a corelatiei este coeficientul de corelatie al lui Pearson ,
anume :
Cov ( X , Y )
ρ XY = .
2 2
D ( X) ⋅ D ( Y )
cov ( X , Y ) = M [ ( X − m X ) ⋅ ( Y − m Y ) ] = M( X ⋅ Y ) − M( X) ⋅ M( Y ) .
⎧ • cov ( X , X) = D 2 ( X )
⎪
⎪ • cov ( X , Y ) = cov ( Y, X )
⎨
⎪ • cov ( a ⋅ X + b , Y ) = a ⋅ cov( X , Y )
⎪⎩• cov( X + Y, Z ) = cov( X , Z ) + cov( Y, Z )
NOTA : dar afirmatia reciproca nu este adevarata : este posibil sa avem covarianta
zero , dar variabilele X , Y sa fie dependente : daca cov ( X , Y ) = 0 ,
vom spune ca X , Y sunt variabile necorelate ( ceeace in practica inseamna
ca se poate considera ca nu se influenteaza ).
Folosind proprietatile covariantei , se deduc proprietatile coeficientului de corelatie ρ .
• − 1 ≤ ρ XY ≤ 1 ;
• coeficientul de corelatie nu se modifica , daca unitatile de masura pentru cele doua varia-
bile se schimba , adica :
ρ ( X , Y ) = ρ ( a ⋅ X + b , p ⋅ Y + q ) ⋅ sgn ( a ⋅ p )
⎧ − 1 , pentru x < 0
⎪
sgn( x ) = ⎨ 0 , pentru x = 0 .
⎪ 1 , pentru x > 0
⎩
Y = a + bX 2 ⇒ ρ XY = 0 , daca M( X) = 0 .
ρ XY = 0 ⇔ X , Y − independente .
{ ( x i , y i ) }i =1,n .
rxy =
∑ ( x i − x) ⋅ ( y i − y )
∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2
sau :
rxy =
∑ xi ⋅ y i − n ⋅ x ⋅ y .
2 2
( ∑ x i2 − n ⋅ x ) ⋅ ( ∑ y i2 − n ⋅ y )
^
b=
∑ ( xi − x) ⋅ ( y i − y ) .
∑ ( x i − x )2
In paragraful anterior am vazut ca avem :
rxy =
∑ ( x i − x) ⋅ ( y i − y ) ;
∑ (x i − x) 2 ⋅ ∑ (y i − y ) 2
asadar , avem :
∑ ( xi − x) ⋅ ( y i − y ) ⋅ ∑ ( y i − y ) =
^ 2
b=
∑ ( x i − x )2 ⋅ ∑ ( y i − y )2 ∑ ( x i − x )2
= rxy ⋅
∑ ( y i − y )2
∑ ( x i − x )2
Folosind abaterile medii patratice de selectie modificate , anume :
~
σx =
∑ ( xi − x)2 ; σ~ y = ∑ ( y i − y )2 ,
n−1 n−1
gasim :
~
^ σy
b = rxy ⋅ ~
σx
- 59 -
R 2
= ∑ ( y i − y )2
,
∑ ( y i − y )2
unde :
^ ^ ^ ^
y i = a + b⋅ xi = y + b⋅ ( xi − x ) .
atunci ,
^
2
R = ∑ [y + b⋅ ( xi − x) − y ]2 =b
^2
⋅ ∑ ( xi − x) 2
.
∑ ( y i − y )2 ∑ ( y i − y )2
Inlocuind , obtinem :
σ 2x ^2
2
R = b ⋅ 2
σy
deci :
R 2 = rxy
2
rxy =
∑ ( xi − x)(y i − y ) =
∑ ( x i − x )2 ⋅ ∑ ( y i − y )2
^
=
∑ (yi − y ) ⋅ (yi − y ) = r
^ ^
∑ (y i − y ) ∑ (y i − y )
2 2 yy
⋅
sau :
- 60 -
R 2 = r 2^
yy
- Verificarea ipotezei ρ XY = 0 :
H 0 : ρ XY = 0
H 1 : ρ XY ≠ 0
Cum coeficientul de corelatie este proportional cu panta dreptei de regresie , aceasta revine la
a verifica perechea de ipoteze
H 0 :b = 0
.
H1 :b ≠ 0
- varianta 1 : statistica t c =
∑ ( x i − x) 2
⋅b
θ*
- varianta 2 : statistica Fc =
∑ ( y i − y )2
( θ* ) 2
Reamintim ca avem
^
* 2
(θ ) =
∑ ( y i − y i )2
.
n−2
Cum avem :
^ ^
∑ ( y i − y i )2 = ∑ ( y i − y)2 − ∑ ( y i − y)2 ,
- 61 -
expresia Fc devine :
^
( n − 2) ⋅ ∑ ( y i − y ) 2
Fc = ^
.
∑ ( y i − y) − ∑ ( y i − y)
2 2
( n − 2) ⋅ R 2
Fc = 2
= t c2
1−R
n − 2 ⋅ rxy
deci : tc = .
2
1 − rxy
| t c | > t ( α / 2 ,n − 2 ) .
== // ==
- Verificarea ipotezei ρ XY = ρ 0 , ρ 0 ≠ 0 :
cu ρ 0 ≠ 0 .
Fisher a propus o transformare a coeficientului de corelatie , anume :
⎛ 1 + rxy ⎞
f ( rxy ) = 1 ⋅ log⎜ ⎟;
2 ⎜ 1 − rxy ⎟
⎝ ⎠
- 62 -
⎧ ⎛ 1 + rxy ⎞ ⎫
⎪
[ 1 ]
⎪M f ( rxy ) ≈ 2 ⋅ log⎜⎜ ⎟⎪
⎟
⎝ 1 − rxy ⎠ ⎪
⎨ ⎬
⎪
⎪⎩
2
[
D f ( rxy ) ≈
n−3
]
1 ⎪
⎪⎭
⎛ 1 + rxy ⎞
1 ⋅ log⎜ ⎟ − 1 ⋅ log⎛⎜ 1 + ρ 0 ⎞⎟
2 ⎜ 1 − rxy ⎟ 2 ⎜ 1− ρ ⎟
⎝ ⎠ ⎝ 0⎠
zc = ⇔
1
n−3
1 ⎛ 1 + rxy 1 − ρ 0 ⎞
z c = ⋅ n − 3 ⋅ log⎜ ⋅ ⎟
2 ⎜ 1 − rxy 1 + ρ 0 ⎟
⎝ ⎠
Aceasta statistica urmeaza o lege apropiata de legea normala normata , deci se respinge H 0
la pragul de semnificatie α , daca : | z c | > z α / 2 .
== // ==
1 ⎛ 1 + rxy ⎞
ψ = ⋅ log ⎜ ⎟
2 ⎜ 1 − rxy ⎟
⎝ ⎠
1 ⎛ 1 + ρ0 ⎞
cu : - media M(ψ ) = ⋅ log⎜⎜ ⎟⎟
2 ⎝ 1 − ρ 0⎠
1
- dispersia D 2 (ψ ) =
n−3
Asadar , intervalul de incredere pentru ψ este
- 63 -
⎛ z z ⎞
⎜ ψ0 − α / 2 ;ψ0 + α / 2 ⎟ .
⎝ n−3 n−3⎠
1 ⎛1+ x⎞ ey − e−y
y = ⋅ log⎜ ⎟ se deduce : x = y = th ( y ) ,
2 ⎝1− x⎠ e + e−y
⎛ ⎛ z ⎞ ⎛ z ⎞⎞
⎜⎜ th⎜ ψ 0 − α / 2 ⎟ ; th⎜ ψ 0 + α / 2 ⎟ ⎟⎟ .
⎝ ⎝ n−3⎠ ⎝ n − 3 ⎠⎠
ex − e−x
th( x ) = .
ex + e−x
⎧X = a + b ⋅ Z
⎨ ,
⎩Y = p + q ⋅ Z
atunci modificarea valorii vatiabilei x atrage dupa sine modificarea lui z , care antreneaza
modificarea lui y : asa incat , modificarea lui x conduce aparent la o modificare nemijlocita a
lui y .
^ ^
rxy , z =
∑ ( x i − x) ⋅ ( y i − y ) .
^ ^
∑ ( x i − x) 2 ⋅ ( y i − y)2
Se arata ca avem :
n
∑ ( x i − x i −1 ) 2
d = i=2 n
.
4⋅ ∑ x i2
i =1
Daca avem d este apropiat de ½ , atunci sirul de date { x i } i =1,n nu depinde prea mult de
timpul “ i “ .
Indicatorul d masoara dependenta valorii curente x i numai in raport cu valoarea
anterioara x i −1 , fiind astfel un indicator al dependentei cu intarziere de ordin 1 :
este insa posibil ca valoarea de anul acesta sa depinda de valoarea de acum 3 ani , deci sirul sa
manifeste o corelatie cu intarziere de ordin 3 .
Pentru a determina existenta unei corelatii cu intarziere de ordin “ k “ , se poate folosi
indicatorul
n
∑ ( x i − x) ⋅ ( x i − k − x)
i = k +1
dk = n
.
4 ⋅ ∑ ( x i − x) 2
i =1
valoarea , x i 12 7 14 3 23 11
rangul valorii , R ( x i ) 3 5 2 6 1 4
Coeficientul de corelatie a rangurilor este egal cu coeficientul de corelatie clasic , dintre sirul
de diferente ale rangurilor valorilor in raport cu rangurile medii , adica
rS =
∑ (R i − R ) ⋅ ( S i − S)
∑ ( R i − R ) 2 ⋅ ∑ (S i − S ) 2
- 67 -
unde avem :
n ⋅ (n + 1) 2
rS =
∑ (R i − R ) ⋅ ( S i − S) = ∑ i i
12 ⋅ R ⋅ S −
4
2 2
n ⋅ (n − 1) n ⋅ (n − 1)
12
sau :
12 ⋅ ∑ R i ⋅ S i n+1
rS = 2
− 3⋅
n ⋅ (n − 1) n−1
- 68 -
di = R i − Si .
Avem :
n n
[
∑ d i2 = ∑ ( R i − S i ) 2 = ∑ ( R i − R ) − (S i − S) = ]2
i =1 i =1
= ∑ ( R i − R ) 2 + ∑ ( S i − S ) 2 − 2 ⋅ ∑ ( R i − R ) ⋅ (S i − S ) =
n ⋅ (n 2 − 1) n ⋅ (n 2 − 1)
= 2⋅ − 2⋅ ⋅ rS
12 12
In final , avem deci :
rS = 1 − 6 ⋅
∑ d i2
n ⋅ ( n 2 − 1)
Avem : • − 1 ≤ rS ≤ 1
• rS apropiat de -1 ⇒ ordinele de marime ale variabilelor X , Y sunt opuse
( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu
atat Y are tendinta sa ocupe un rang mai mic in
sirul { ( y i )} ) ;
• rS apropiat de +1 ⇒ rangurile variabilelor X, Y sunt concordante
( cu cat X ocupa un loc mai bun in sirul { ( x i )}, cu
atat si Y are tendinta sa ocupe un rang mai bun in
sirul { ( y i )} ) ;
Mai mult , se stie ca daca X , Y sunt independente , atunci rS urmeaza o lege aproximativ
normala , daca esantionul este de volum suficient de mare ( chiar n ≥ 10 este o valoare
convenabila ) , cu caracteristicile :
1
M ( rS ) = 0 ; D 2 ( rS ) = .
n−1
Deci statistica :
z c = n − 1 ⋅ rS
p −1
y i = b 0 + ∑ b jx ij + ε i ; i = 1, n
j= 1
== // ==
^
5.2.1 : Graficul reziduurilor in raport cu valorile estimate y i .
Majoritatea programelor de calculator care executa regresii liniare reprezinta reziduurile sub
forma de bastonase , de o parte si de alta a dreptei de regresie : iata unele situatii posibile :
REPARTITIEI NORMALE N( m , s )
Cazul : s = 2
Cazul : s = 1
- 74 -
Cazul s= 0,5
Avem : P ( X < b) = F( b)
- 76 -
x 0 1 2 3 4 5
F(x) = P( X < x ) 0 0, 2 0, 35 0,73 0, 94 1
⎛b −m⎞ ⎛a −m⎞
(1). P [a < N(m; s ) < b ]= F⎜ ⎟ − F⎜ ⎟ ,
⎝ s ⎠ ⎝ s ⎠
unde F este chiar funcţia din tabelul precedent.
- la poziţia 10 : F ( - 1 ) = 0,159 ,
TEST DE AUTOCONTROL :
TESTE DE NORMALITATE
Exista o multitudine de teste care isi propun acelasi scop : in acest material vom utiliza ,
din cauza simplitatii efectuarii calculelor , testul Jarque – Bera .
Acest test are la baza faptul ca variabila normala are caracteristicile “ skewness “ si
1 n
- media de selectie : x = ⋅ ∑ xi
n i =1
1 n
⋅ ∑ ( x i − x) 3
n i =1
S =
3
⎡1 n ⎤
⎢ ⋅ ∑ ( x i − x) ⎥
2
⎣n i =1 ⎦
- 79 -
1 n
⋅ ∑ ( x i − x) 4
n i =1
K= 2
⎡1 n ⎤
⎢ ⋅ ∑ ( x i − x) ⎥
2
⎣n i =1 ⎦
n ⎛ 2 (K − 3) 2 ⎞
JB c = ⋅⎜S + ⎟⎟
6 ⎜⎝ 4 ⎠
( aproximativ) data de :
α = P ( H 2 < JB c ) .
xi ni
1 12
2 23
3 41
4 33
5 18
6 8
- 81 -
Avem calculele :
med= 3.341
repartitie normala .
== // ==
- 82 -
Daca ipoteza facuta este corecta , atunci functia de repartitie teoretica ( notata F0 ) va fi
suficient de apropiata de functia de repartitie empirica , notata Fn ( vezi fig.)
- 83 -
Testul acesta are un neajuns important : testele de tip distanta presupun cunoasterea
parametrilor distributiei in cauza . Ori , acesti parametri sunt rareori cunoscuti in practica.
De aceea se utilizeaza proceduri adaptative suplimentare pentru a adapta parametrii pe masura
obtinerii de rezultate partiale.
Vom prezenta in cele ce urmeaza doua exemple de utilizare a testului Anderson – Darling .
1− 2 ⋅ i
{ ( ) ( )}
n
ADc = ∑ ⋅ ln F0 [ Z ( i ) ] + ln 1 − F0 [Z ( n +1−i ) ] − n
i =1 n
xi − μ
Z(i ) = .
σ
Asadar , am notat :
1 n 1 n
μ= ⋅ ∑ x i ; σ 2 = ⋅ ∑ x i2 − μ 2 .
n i =1 n i =1
ADc > CV ,
unde valoarea critica CV este data de
0,752
CV =
0,75 2,25
1+ + 2
n n
- 84 -
APLICATIE :
sa verificam daca se poate admite ca datele de sondaj
3 ; 8 ; 11 ; 6 ; 2 ; 10 ; 4
1
μ= ⋅ ( 3 + 8 + 11 + 6 + 2 + 10 + 4 ) = 6, 286
7
1
σ 2 = ⋅ ( 3 2 + 8 2 + 112 + 6 2 + 2 2 + 10 2 + 4 2 ) − ( 6, 286 ) 2 = 10, 486
7
⇒ σ = 10, 486 = 3 , 238
adica : x1 = 2 ; x2 = 3 ; x3 = 4 ; x4 = 6 ; x5 = 8 ; x6 = 10 ; x7 = 11 .
x i − 6, 286
zi = .
3, 238
Atunci :
1 7
ADc = ⋅ ∑ t i − 7 = 7, 278 − 7 = 0 , 278
7 i =1
- 85 -
0, 7523
CV = = 0, 652 .
0,75 2, 25
1+ +
7 49
In final , cum avem
ADc < CV
fie datele : x1 = 1 ; x2 = 2 ; x3 = k .
0.752
= 0.501
⎛ 1 + 0.75 + 2.25 ⎞
⎜ ⎟
⎝ 3 9 ⎠
In continuare , vom da parametrului k valori diverse si vom lista valoarea testului , AD(k) .
Vom gasi :
xi x1 x2 … xi … xn
yi y1 y2 … yi … yn
1 n 1 n
- mediile de selecţie : m X = ⋅ ∑ xi ; m Y = ⋅ ∑ y i
n i =1 n i =1
⎧ 2 1 n
⎪σ X = n ⋅ ∑ ( x i − m X )
2
⎪ i =1
- dispersiile de selecţie : ⎨ n
⎪σ 2 = 1 ⋅ ( y − m ) 2
⎪⎩ Y n ∑ i =1
i Y
1 n
⋅ ∑ ( xi − m X ) ⋅ ( y i − mY )
n i =1
- covarianţa : σ XY =
1 n
⋅ ∑ xi ⋅ y i − m X ⋅ m Y
n i =1
σ XY
- coeficientul de corelaţie : ρ XY =
σX ⋅ σY
- 87 -
• − 1 ≤ ρ XY ≤ 1
• σ X , σ 2Y sunt ≥ 0
2
• ρ XY = ρ YX
• σ XY = σ YX
⎛ Q( x , y , z ) ⎞
- densitatea de probabilitate : ϕ ( x , y , z ) = k ⋅ EXP ⎜ − ⎟
⎝ 2⋅ D ⎠
unde am notat :
1 ρ XY ρ XZ
-determinantul : D = ρ YX 1 ρ YZ
ρ ZX ρ ZY 1
[
- factorul de scală : k = ( 2 ⋅ π ) 3 / 2 ⋅ σ X ⋅ σ Y ⋅ σ Z ⋅ D ] −1
- nucleul :
D XX D D
Q ( x, y , z ) = 2
⋅ ( x − m X ) 2 + YY
2
⋅ ( y − m Y ) 2 + ZZ
2
⋅ ( z − m Z )2 +
σX σY σZ
D XY D XZ
+ 2⋅ ⋅ ( x − m X ) ⋅ (y − m Y ) + 2 ⋅ ⋅ ( x − m X ) ⋅ (z − m Z ) +
σX ⋅ σY σX ⋅ σZ
D YZ
+ 2⋅ ⋅ ( y − m Y ) ⋅ (z − m Z )
σY ⋅ σZ
sau , prescurtat :
D XX D XY
Q ( x, y , z ) = ∑ 2
⋅ ( x − m X )2 + 2 ⋅ ∑ ⋅ ( x − m X ) ⋅ (y − m Y )
σX σX ⋅ σY
Precizare : aici , prin Dαβ înţelegem minorul lui D , obţinut tăind linia “ α “ şi coloana “ β “.
- 88 -
== // ==
X = N ( mX , σX ) , Y = N ( mY , σY ) , Z = N ( mZ , σZ )
1 ⎡ H( x, y ) ⎤
p XY ,Z ( x, y ) = ⋅ EXP ⎢ − 2 ⎥
,
2 ⋅ π ⋅ σ X ⋅ σ Y 1 − ρ XY ⎣ 2 ⋅ ( 1 − ρ XY ) ⎦
unde :
2 2
⎛ x − mX ⎞ ⎛ y − mY ⎞ x − mX y − mY
H( x, y ) = ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ − 2 ⋅ ρ XY ⋅ ⋅ .
⎝ σX ⎠ ⎝ σY ⎠ σX σY
2
σ XY ,Z = σ X ⋅ σ Y ⋅ 1 − ρ XY
⎡ ⎤
1 ⎢ ( x − mX ) 2 ⎥
p X ,YZ ( x ) = ⋅ EXP ⎢ − ⎥
D ⎢ 2 ⋅ σ2 ⋅ D ⎥
σ X ⋅ 2π ⋅ ⎢⎣ D XX ⎥⎦
X
D XX
== // ==
- matricea covariantă :
⎛ σ 2X σ XY σ XZ ⎞
⎜ ⎟
V = ⎜ σ YX σ 2
Y σ YZ ⎟
⎜ ⎟
⎝ σ ZX σ ZY σ 2Z ⎠
⎛ 1 ρ XY ρ XZ ⎞
⎜ ⎟
- matricea corelaţiei totale : D = ⎜ ρ YX 1 ρ ⎟.
⎜ρ ρ ZY 1 ⎟⎠
⎝ ZX
== // ==
Fie datele : { ( x i , y i , z i )} i = 1,n . Pentru aceste date , ecuaţia planului de regresie se caută sub
forma
Coeficienţii a, b ai planului de regresie se determină prin metoda celor mai mici pătrate .
Astfel,avem :
n
E ( a , b ) = ∑ [ a ⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) − ( z i − m Z )]
2
i =1
⎧a ⋅ ∑ ( x i − m X )2 + b ⋅ ∑ ( x i − m X ) ⋅ (y i − m Y ) = ∑ ( x i − m X ) ⋅ (z i − m Z )
⎪
⎨
⎪a ⋅ ( x − m ) ⋅ ( y − m ) + b ⋅ ( y − m ) 2 = ( y − m ) ⋅ ( z − m )
⎩ ∑ i X i Y ∑ i Y ∑ i Y i Z
sau :
⎧a ⋅ σ 2X + b ⋅ σ XY = σ XZ
⎪
⎨ .
⎪ a ⋅ σ + b ⋅ σ2 = σ
⎩ XY Y YZ
Soluţia acestui sistem , sau coeficienţii planului de regresie Z / (X ,Y) este următoarea
σ XZ σ XY σ 2X σ XZ
^ σ YZ σ Y2 ^ σ YX σ YZ
a= ;b = .
σ 2X σ XY σ 2X σ XY
σ YX σ 2Y σ YX σ 2Y
În final :
^ ^
Z − m Z = a⋅ ( X − m X ) + b⋅ ( Y − m Y )
^ ^ ^
z i = m Z + a⋅ ( x i − m X ) + b ⋅ ( y i − m Y ) i = 1 , n
^
δi = zi − zi , i = 1,n .
- 91 -
▪ dispersia reziduală va fi :
V
σ R2 = σ Z /2XY = .
VZZ
⎧ ^
⎪ P [ | Z − Z | < σ Z / XY ] = 0, 6826
⎪ ^
⎨ P [ | Z − Z | < 2 ⋅ σ Z / XY ] = 0, 9544
⎪ ^
⎪ P [ | Z − Z | < 3 ⋅ σ Z / XY ] = 0, 9972
⎩
^
Z−Z
evaluări bazate pe faptul că avem : = N ( 0 ;1 ) .
σ Z / XY
== / / ==
▪ 0 ≤ R Z2, XY ≤ 1
σ Z ,2XY
▪ formula de calcul : R Z2, XY = 1 −
σ 2Z
V
sau R Z2, XY = 1 − 2
σ ⋅ VZZ
Z
D
sau R Z2, XY = 1 −
D ZZ
- 92 -
Avem :
▪ − 1 ≤ ρ XY ,Z ≤ 1
ρ XY − ρ XZ ⋅ ρ ZY
▪ formula de calcul : ρ XY ,Z =
2 2
1 − ρ XZ ⋅ 1 − ρ YZ
D XY
sau ρ XY ,Z = ( − 1) 1 + 2 − 1⋅
D XX ⋅ D YY
VXY
sau ρ XY ,Z = ( − 1) 1 + 2 − 1⋅
VXX ⋅ VYY
== // ==
⎧ mX = 3;mY = 5;mZ = 2
⎪
⎨ σX = 2;σY = 3;σZ = 1
⎪ρ = − 0,5 ; ρ = 0, 7 ; ρ = 0, 2
⎩ XY XZ YZ
Se cer :
2
Răspuns : σ XY , Z = σ X ⋅ σ Y ⋅ 1 − ρ XY = 2 ⋅ 3 ⋅ 1 − ( −0, 5) 2 = 5 , 2
1 − 0, 5 0,7
Răspuns : avem D = − 0, 5 1 0,2 = 0, 08 , pentru care calculăm minorii
0 ,7 0,2 1
- 93 -
1 0,2 1 0,7
D XX = = 0, 96 ; D YY = = 0, 51
0,2 1 0,7 1
deci :
D 0, 08 D 0, 08
σ X ,YZ = σ X ⋅ =2⋅ = 0, 577 ; σ Y , ZX = σ Y ⋅ =3⋅ = 1,188 .
D XX 0, 96 D YY 0, 51
σ 2X σ XY σ XZ 4 − 0, 5 ⋅ 2 ⋅ 3 0,7 ⋅ 2 ⋅ 1
2
V = σ YX σ Y σ YZ = − 0, 5 ⋅ 2 ⋅ 3 9 0,2 ⋅ 3 ⋅ 1 = 2, 88
σ ZX σ ZY σ 2Z 0,7 ⋅ 2 ⋅ 1 0,2 ⋅ 3 ⋅ 1 1
σ 2X σ XY 4 −3
VZZ = = = 27
σ YX σY − 3 9
2
σ XZ σ XY 1,4 − 3 14,4
2
= = 14, 4 ⇒ a = = 0, 53
σ YZ σY 0, 6 9 27
σ 2X σ XZ 4 1,4 6,6
= = 6, 6 ⇒ b = = 0, 24
σ XY σ YZ − 3 0, 6 27
V 2,88
σ 2R = σ Z2/ XY = = = 0, 107 ⇒ σ R = 0,107 = 0, 326 .
VZZ 27
- 94 -
V 2,88
Rezolvare : avem R Z2 , XY = 1 − 2
= 1− = 0, 893 ⇒ R Z , XY = 0, 893 = 0, 945
σZ 1 ⋅ 27
− 3 0,6
VXY 1,4 1
Rezolvare : avem ρ XY ,Z = ( − 1) 2 ⋅ = = − 0, 91 .
VXX ⋅ VYY 9 0,6 4 1,4
⋅
0,6 1 1,4 1
END
SUMAR :
1.1 : Legatura dintre doua variabile : relatii deterministe si relatii stochastice : pag 1 -5
1.2 : Metoda celor mai mici patrate ( CMMP ) : pag. 6 - 8
1.3 : Variatia explicata ; variatia ne – explicata : pag. 9 - 12
APLICATIE : pag. 13 - 15
^
2.2.1: Media estimatorului b : pag. 17
^
2.2.2: Media estimatorului a : pag. 18
^
2.2.3: Dispersia estimatorului b : pag. 19
- 95 -
^
2.2.4: Dispersia estimatorului a : pag. 20 - 21
^ ^
2.2.5: Covarianta estimatorilor a , b : pag. 22
APLICATIE : pag. 22 - 24
UN EXEMPLU : pag. 92 -