Sunteți pe pagina 1din 15

10/24/2014

Regresia liniar simpl


- continuare -

Proprietile estimatorilor a i b
Principalul rezultat privind calitatea estimatorilor a i b determinai folosind metoda CMMPO
este furnizat de Teorema Gauss-Markov.
Teorema Gauss-Markov:
Dac ipotezele i1, i2.a, i2.b, i2.c i i4 se verific atunci estimatorii a i b ai
parametrilor i obinui prin CMMPO sunt de dispersie minim n clasa estimatorilor
liniari nedeplasai (sunt B.L.U.E. - Best Liniar Unbiased Estimators).
=
( )( )
=
=
( )

( , )

10/24/2014

Proprietile estimatorilor a i b
Demonstraie.
Considerm un eantion de volum n pentru care am nregistrat valorile variabilelor
X i Y i folosim notaiile urmtoare:
=

( ) =

( )

( ) =

( )

)=

( )

( )

atunci
=

( )( )
=
( )
( )

( )

unde

( )

( ) ( +

+ )

( )
De observat c este liniar n

Proprietile estimatorilor a i b
Sperana matematic a lui b
innd cont de ipoteza privind caracterul non-stochastic al lui X i cea conform creia
E
= 0 rezult c estimatorul b este nedeplasat:

[ ]=

Dispersia lui b.
Putem calcula dispersia lui b, plecnd de la urmtoarea observaie:

tiind c
= [

=
=

[ ]=

=0, atunci vom avea:

]=

[ ]+2

+2

10/24/2014

Proprietile estimatorilor a i b
Dac n plus admitem ipoteza i3, conform creia :

<

Atunci putem stabili i o proprietate asimptotic pentru estimatorul b:


0

Spunem atunci c estimatorul b (nedeplasat i cu dispersie tinznd asimptotic ctre 0)


converge n probabilitate ctre :
plim b =

Proprietile estimatorilor a i b
Sperana matematic a estimatorului a:
=

( )

nlocuind
=

= i notnd
1

= , se obine:

Se deduce imediat c a este un estimator nedeplasat al parametrului , deoarece:


=

10/24/2014

Proprietile estimatorilor a i b
Dispersia estimatorului a
Pentru calculul dispersiei lui a, facem apel la aceleai ipoteze folosite i n cazul lui
innd cont de faptul c :
1
= +

obinem
=

Proprietile estimatorilor a i b
Dac n plus admitem ipoteza i3, conform creia :

<

Atunci putem stabili i o proprietate asimptotic pentru estimatorul a:

Spunem atunci c estimatorul a (nedeplasat i cu dispersie tinznd asimptotic ctre 0)


converge n probabilitate ctre :
plim a =

10/24/2014

Proprietile estimatorilor a i b
Covariana estimatorilor a i b
Se calculeaz astfel:
,

=E a

Proprietile estimatorilor a i b
Dispersia estimatorilor a i b este minim
Preupunem c exist un alt estimator b mai bun dect b.
Dar =
atunci
=

Aplicnd operatorul speran matematic n ambii membrii ai acestei ecuaii i impunnd


condiia ca b s fie nedeplasat (adic E[b]= ) i cu ipoteza E[ ] = 0 rezult c trebuie ca

= i
=1 de aici = +

Notnd cu

i tiind c

= 0 atunci

= 0,

n plus

= 1

= 11=0

10/24/2014

Proprietile estimatorilor a i b
Dispersia estimatorilor a i b este minim
Dispersia lui b va fi:
=

]=E

=
=

[ ]+2

+2

[ ]=

+2

dar

=0

deci
=

Determinarea unui estimator


nedeplasat al dispersiei erorilor
Pentru a calcula efectiv matricea de covarian a estimatorilor a i b este necesar s
cunoatem dispersia
a erorilor , dar
este un parametru necunoscut fapt ce impune
estimarea sa pe baza datelor dintr-un eantion.
Pornim de la
= i nlocuim
= obinem:
=

(de unde

+ ) , respectiv

Se observ cele dou surse de distorsiune ale estimaiei ei a unei erori individuale:
- media empiric a erorilor asociat unui eantion [ ]
- estimaia imperfect b a lui

10/24/2014

Determinarea unui estimator


nedeplasat al dispersiei erorilor
Dar ei se poate scrie i astfel
Calculnd

i aplicndu-i operatorul speran matematic (innd cont de

= 0 ) rezult:
=

+2

nlocuind

= 0,

=1

se obine
=

i de aici se poate concluziona c un estimator nedeplasat al lui

este:

Distribuia de probabiliti a estimatorilor a i


b, n ipoteza unei distribuii normale a erorilor
Pornind de la premisa c erorile ~
0,
, adic
i normal distribuite, de medie 0 i dispersie :
Cazul cnd dispersia

a erorilor este cunoscut

Putem specifica legea de distribuie a vectorului


mediilor

sunt variabile aleatoare independente

al estimatorilor cu ajutorul vectorului

i al matricei de covarian asociat acestora:


1
~

10/24/2014

Distribuia de probabiliti a estimatorilor a i


b, n ipoteza unei distribuii normale a erorilor
Cazul cnd dispersia
a erorilor nu este cunoscut
Dac dispersia
a erorilor nu este cunoscut, va trebui s o nlocuim prin estimaia
nedeplasat .
Pentru a putea preciza distribuiile estimatorilor a i b, este necesar s facem apel la
legtura dintre distribuia normal i distribuiile , t, respectiv F
Plecnd de la estimaia

determinat pentru
=

i nmulind cu (n-2) se obine:

mprim ambii membri ai relaiei prin

n ipoteza c ~

0,

, vom arta c

= ( 2)

=( )

Distributiile

urmeaz o distribuie

, t i F

Distribuiile
, t i F sunt derivate din distribuia normal i joac un rol
important n statistic. Legtura dintre distribuia normal i acestea sunt prezentate n
continuare:
Teorema 1: Dac Z~N(0,1), atunci: ~ .
Teorema 2: Dac
, sunt variabile independente, cu Zi~N(0,1) atunci:

~
Teorema 3: Dac
) atunci:
, sunt variabile independente, cu Zi~ (0,

Teorema 4: Dac X ~

i X ~

Teorema 5: Dac Z~N(0,1) i X ~

cu X i X independente, atunci:
+ ~
, cu Z i X independente, atunci raportul:
=

urmeaz o distribuie t cu n grade de libertate.


Teorema 6: Dac X ~
i X ~
cu X i X independente, atunci raportul:
/
=
,
/
urmeaz o distribuie F definit n raport cu gradele de libertate (n , n ).

10/24/2014

Distribuia de probabiliti a estimatorilor a i


b, n ipoteza unei distribuii normale a erorilor
Cazul cnd dispersia
a erorilor nu este cunoscut
Plecm de la egalitatea

=
mprim prin

i rezult:

Notm
=

) rezult

Conform teoremei 3 din ~ (0,


(0,
Dar ~

) i conform teoremei 1 rezult:

= ~
/

Distribuia de probabiliti a estimatorilor a i


b, n ipoteza unei distribuii normale a erorilor
Cazul cnd dispersia
a erorilor nu este cunoscut
Apoi conform teoremei 4


=
=

ntruct

0,1 , din teorema 1 deducem:


=

n concluzie, potrivit teoremei 4 obinem:

= ( 2)

10/24/2014

Distribuia de probabiliti a estimatorilor a i


b, n ipoteza unei distribuii normale a erorilor
Cazul cnd dispersia
De remarcat c
i
=

a erorilor nu este cunoscut


au fost obinute n funcie de parametrul necunoscut

n practic se utilizeaz estimaiile


adic:
=

ale dispersiilor corespunztoare plecnd de la s2,


=

Erorile standard ale coeficienilor a i b se calculeaz ca rdcin ptrat din dispersiile


:
=

Distribuia de probabiliti a estimatorilor a i


b, n ipoteza unei distribuii normale a erorilor
Cazul cnd dispersia
Calculnd

a erorilor nu este cunoscut


=

/
/

raportul

=
2

z
2

2
cum z =

~N(0,1) iar ~

rezult, conform teoremei 5, c raportul

~t

urmeaz o distribuie Student (t) cu n-2 grade de libertate.


La fel se procedeaz pentru

~t

10

10/24/2014

Teste de semnificaie i intervale de ncredere ale


parametrilor de regresie
Legile de probabilitate descrise anterior sunt tabelate. Pe baza lor se poate determina un
interval de ncredere pentru fiecare parametru i pentru un nivel de semnificaie dat.
Construcia se bazeaz pe faptul c raportul

~t
astfel putem defini probabilitatea:

= 1

unde reprezint valoarea critic (tabelat) a acestei distribuii. Acceptarea cu riscul al unei
anumite valori a lui se poate face prin testarea apartenenei ei la intervalul respectiv.
Problema poate fi formulat ca o problem de testare a ipotezelor:
H0: = (ipoteza nul) versus H1:
(ipoteza alternativ)
Un test uzual este acela de verifica dac difer semnificativ de 0. Acest caz se obine ca un
caz particular al celui formulat mai sus atunci cnd
= .
Se poate proceda n aceeai manier pentru determinarea unui interval de ncredere pentru
.

=
+
=1

Analiza surselor de variaie. Teste privind calitatea


ajustrii
Aprecierea calitii ajustrii prin modelul de regresie a datelor de observaie se bazeaz pe o
analiz de tip dispersional i are ca punct de plecare descompunerea variaiei totale a
variabilei Y n raport cu cele dou surse de variaie identificabile:
- variaia datorat regresiei i
- variaia rezidual
Notnd valorile ajustate cu = + i reziduurile cu = putem scrie abaterea
valorilor de la media lor astfel:
y=
y +
=
= +
n termenii ecuaiei de regresie avem:
= + =
= + + =
= + + =
= +
+
Dac scdem din ambii membri obinem:

11

10/24/2014

Analiza surselor de variaie. Teste privind calitatea


ajustrii

( ,

Analiza surselor de variaie. Teste privind calitatea


ajustrii
Variaia total a lui Y: se obine ca sum a abaterilor ptratice ale valorilor individuale fa de
medie:

+
- ecuaia analizei dispersionale
sau

=
+
Variaia explicat a lui Y (datorat regresiei):

=

Variaia rezidual a lui Y:

=
Fiecrei sume i se asociaz un numr de grade de libertate, reprezentnd numrul informaiilor
necesare pentru calculul sumei respective:
- pentru variaia total se utilizeaz n-1 valori independente (nefixate prealabil astfel ca media
lor s rmn 0), deci va avea un numr de n-1 grade de libertate: , , ,
- pentru calculul variaiei explicate se utilizeaz un singur grad de libertate (deoarece poate fi
dedus din expresia lui b, iar b poate fi scris ca funcie unic de .
- pentru variaia rezidual, calculul se poate face prin diferen: n-2 = (n - 1) - 1

12

10/24/2014

Analiza surselor de variaie. Teste privind calitatea


ajustrii
Sursa variaiei Suma
ptratelor
Explicat

Grade de
libertate
1

n-2

n-1

Rezidual

Total

Coeficientul de determinaie

=
=
= 1

Ptratul
mediu

=1

Analiza surselor de variaie. Teste privind calitatea


ajustrii
Testarea semnificaiei globale a modelului
Se poate face cu ajutorul testului F. Acesta are la baz compararea a dou estimaii de
dispersie. Raportul acesta determin valoarea calculat F, care trebuie comparat cu valorile
tabelate ale distribuiei F(1,n-2,) ce depinde de gradele de libertate 1 i n-2 asociate celor dou
estimaii i de pragul de semnificaie ales.

/
=
=

/( )

ntre statistica F i statistica t (utilizat pentru testarea ipotezei nule H0: = 0) exist
urmtoarea legtur:
=

(1

/1
~ (1, 2)
)/( 2)

13

10/24/2014

Coeficientul de corelaie liniar simpl


Intensitatea corelaiei liniare dintre dou variabile X i Y se exprim cu ajutorul coeficientului de
corelaie liniar:
=

)(


Semnul lui

( , )

coincide cu semnul lui b:


=

Dac

= , aceasta nseamn doar lipsa unei corelaii liniare ntre variabilele X i Y.

Problema prediciei liniare


Odat construit modelul de regresie, acesta poate fi utilizat pentru predicia valorilor pentru
valori noi, cunoscute ale lui X.
De exemplu, dac se cunoate valoarea
a variabilei X se poate realiza predicia valorii
a
variabilei explicate Y, asociat cu
.
Valoarea adevrat a lui Y se poate exprima cu ajutorul modelului de regresie liniar
de la nivelul ntregii populaii:
= + +
Deoarece i sunt parametri necunoscui pe care i aproximm cu ajutorul estimaiilor a i b
calculate la nivelul unui eantion aleatoriu, o prim surs de eroare va fi eroarea de eantionare
relativ la cele dou estimaii. De asemenea nu vom putea s estimm cu un grad de precizie
suficient de mare eroarea .
Valoarea punctual a prediciei va fi:
= +
Diferena dintre valoarea adevrat a variabilei Y i estimarea sa cu ajutorul dreptei de regresie,
reprezint eroarea de predicie:
=

= + +
=
=
+ +
Aplicnd operatorul speran matematic n ambii membrii se deduce c [ ] = , rezultnd
de aici c predicia cu ajutorul CMMPO nu este deplasat (adic eroarea de predicie este de
medie 0).

14

10/24/2014

Problema prediciei liniare


Dispersia erorii de predicie este:
=

+
=

+
=

+
+

Dac se nlocuiete parametrul


cu estimaia sa , putem s construim un interval de
predicie pentru , pentru un prag de semnificaie specificat:

15

S-ar putea să vă placă și