Sunteți pe pagina 1din 15

MODELUL DE REGRESIE LINIAR SIMPL

Idei de baz despre regresia liniar


Regresia este o metod de modelare a legturilor dintre variabile.
Este cel mai important instrument de lucru al econometriei
Analiza de regresie se ocup cu descriere i evaluarea legturii dintre o variabil dat
(numit variabil dependent sau explicat) i una sau mai multe alte variabile
(cunoscute ca variabile independente sau explicative) cu scopul de a estima i a
previziona valoarea medie a variabilei dependente, cunoscndu-se valorile fixate ale
variabilelor independente (valori fixate n urma unor eantionri repetate).
Originea termenului de regresie
Termenul de regresie i are originea n studiile statisticianului englez Francis Galton
(1822-1911), n domeniul ereditii. Acesta a observat c nlimea fiilor provenii din
tai foarte nali se apropie mai mult de de nlimea medie dect de nlimea tailor.
Galton a constatat c avea loc o regresie sau o revenire la nlimea medie.
Obiectivele Analizei de Regresie
1. S estimeze valoarea medie a variabilei dependente, date fiind valorile var. indep.
2.S testeze ipoteze despre natura dependenei (ipoteze sugerate de teorie economic)
3.S previzioneze valoarea medie a var. dep., cunoscnd valoarea var. indep.
Denumiri ale variabilelor n analiza de regresie

Variabila Y Variabilele X
1
,X
2
,...,X
k

1
2
3
4
5
6
7
Variabil dependent
Variabil explicat
Regresant
Variabil estimat
Variabil efect
Variabil edogen
Variabil int
Variabile independente
Variabile explicative
Regresori
Estimatori
Variabile cauzale
Variabile exogene
Variabile de control

Modelul este instrumentul de baz din analiza de regresie
Modelul econometric cel mai simplu este modelul de regresie unifactorial, n care
o variabil dependent Y este explicat printr-o singur variabil independent X.

Dependena determinist vs. dependena statistic
Dependena determinist dintre var. Y i X este descris complet prin intermediul unei
ecuaii de tip determinist. O astfel de ec.conine toi termenii care intervin n procesul
studiat.
Dependena statistic (stochastic, aleatoare) dintre Y i X este aceea care nu
genereaz valori unice pentru Y, ci o mulime de valori, n cazul unor valori date ale
lui X i care poate fi descris n termeni probabilistici.
Regresie vs. cauzalitate
Dei Analiza de regresie se ocup cu relaiile dintre o variabil dependent i una sau
mai multe alte variabile independente, ea nu implic, n mod necesar, cauzalitate,
adic nu nseamn neaprat c variabilele independente sunt cauza i variabila
dependent este efectul. Dac exist cauzalitate ntre variabila independent i
variabila dependent, aceasta trebuie justificat pe baza unei anumite teorii
economice.
De exemplu, legea cererii sugereaz o relaie invers ntre cantitatea cerut dintr-un
anumit produs i preul su, cu condiia ca toate celelalte variabile care influeneaz
cererea, s fie meninute constante. Aici, teoria microeconomic sugereaz c preul
poate fi cauza, iar cantitatea cerut ar fi efectul.
inem minte c:
-regresia nu implic neaprat cauzalitate.
-cauzalitatea trebuie justificat de teoria economic care fundamenteaz fenomenul
care este testat empiric.
Regresie vs. corelaie
Analiza de corelaie msoar gradul de asociere dintre 2 variabile.
Analiza de regresie estimeaz valoarea medie a unei variabile, cunoscnd valorile
fixate ale altei variabile.

Analiza de corelaie Analiza de regresie
Tratarea variabilelor simetric asimetric
Tipul variabilelor Variabile aleatoare Var.dependent este var.aleatoare
Variabilele independente: fixate

Definirea, specificarea i identificarea modelului unifactorial de regresie
Definirea modelului - se face printr-o rel.matem. care presupune c var.Y este
rezultatul a 2 categorii de factori:
-un factor esenial, X
-toi ceilali factori neeseniali, specificai printr-o variabil aleatoare de perturbaie
Specificarea i identificarea modelului se face pe baza teoriei economice a
fen.observat i const n precizarea variabilei dependente, a variabilei independente i
n alegerea unei funcii matematice pentru a descrie valorile lui Y numai n funcie de
valorile variabilei X.
Exemple de relaii de dependen:
Cheltuieli de consum Venit
nlime - Vrst
Cererea pentru un produs Preul produsului
Venituri din vnzri Cheltuieli cu publicitatea
Cheltuieli pentru aprare - PIB

Considerm dou variabile economice X i Y pentru care cunoatem n perechi de
observaii: ) , ( ),..., , ( ), , (
2 2 1 1 n n
y x y x y x . Ne intereseaz cum se modific var.Y sub
aciunea variabilei X.
Reprezentarea datelor de observaie ntr-o diagram a mprtierii poate da
informaii despre existena unei relaii ntre cele dou variabile i despre tipul de
relaie, n caz c aceasta exist.
O funcie de regresie, este o funcie care leag valorile lui X, de mediile condiionate
corespunztoare ) | (
1
x X Y E = ,..., ) | (
n
x X Y E = .
) ( ) | (
i i
x f x X Y E = = este funcia de regresie la nivelul populaiei (FRP).
Forma ei este dat de teoria economic. Ex: Consumul depinde liniar de Venit. Dac
funcia de regresie este liniar, se obine modelul de regresie liniar unifactorial.
i i
x x X Y E + = = ) | (

Exemplu. Considerm modelul lui Keynes privind consumul.
Consumul=f(Venit,Ali factori)
Consumul=+Venit+
Legea psihologic fundamental afirm c o persoan este dispus, de regul i n
medie s i creasc consumul pe msur ce crete venitul, dar nu n aceeai msur,
este sintetizat n relaia 1 0 < <
dVenit
dConsum
i este reprezentat prin parametrul al
modelului de regresie. este nclinaia marginal spre consum (variaia
consumului mprit la variaia venitului). Pe baza unui ansamblu de observaii
referitoare la C i V, se pot estima parametrii i . Rezultatele anticipate sunt
0 > i 1 0 < < .
Termenul eroare stochastic (aleator). Pentru o pereche de valori observate ) , (
i i
y x ,
trebuie s atragem atenia c valoarea observat
i
y nu va coincide cu media
condiionat ) | (
i
x X Y E = Definim termenul eroare stochastic:
) | (
i i i
x X Y E y = = - abaterea valorii individuale
i
y , de la media condiionat,
i
este termenul eroare (perturbaia) la observaia i.
Perturbaiile reale
i
sunt necunoscute.
De aici putem obine
i i i
x X Y E y + = = ) | ( sau
i i i
x y + + =
Ecuaia
n i x y
i i i
,..., 2 , 1 , = + + = (1.1)
este numit ecuaia de regresie a populaiei.
Aceast ecuaie definete modelul liniar de regresie unifactorial, sau
modelul de regresie liniar simpl.
Modelul include: o component determinist,
i
x + , i
o component stochastic, .
Variabilele X i Y sunt variabile observabile, adic valorile lor pot fi observate sau
msurate.
Variabila este numit termen eroare sau variabil de perturbaie i reprezint
efectul tuturor factorilor, n afara factorului X, care l afecteaz pe Y i care sunt
considerai neobservabili. Variabila capteaz erorile de msurare a valorilor
variabilelor i caracterul aleator al comportamentului uman. Termenul eroare
reprezint acea parte din valoarea variabilei Y care nu poate fi msurat printr-o relaie
sistematic cu variabila X.
Parametrul se numete parametru de interceptare (intercepia).
Exprim valoarea variabilei dependente cnd variabila independent este egal cu
zero, deci reprezint punctul de intersecie al dreptei de regresie cu axa Oy, adic
poriunea fixat a lui Y, care nu poate fi explicat prin variabila independent.
Parametrul reprezint panta dreptei de regresie i indic cu ct se modific
variabila Y atunci cnd variabila X se modific cu o unitate.
Funcia de regresie a populaiei (FRP) descrie procesul de generare a datelor
(PGD). Ea este distribuia de probabilitate comun presupus a caracteriza ntrega
populaie din care au fost extrase datele.
n practic nu cunoatem FRP i trebuie s o estimm din datele de selecie, obinnd
conceptul de Funcie de regresie de selecie (FRS).
Dac reprezentm grafic perechile de valori observate ) , ( ),..., , ( ), , (
2 2 1 1 n n
y x y x y x , se
va obine o diagram a mprtierii norului de puncte i se va pune problema de a
trasa o dreapt care s descrie norul de puncte. Este posibil s trasm numeroase
drepte printr-un nor de puncte, dar care este cea mai bun dreapt care descrie
comportamentul datelor?
Dac vom considera doi estimatori ai parametrilor i , notai (sau uneori a ) i

(sau uneori b ), putem nlocui aceti estimatori ntr-o funcie de ajustare


n i x y
i i
,..., 2 , 1 ,

= + = .
Aceasta este funcia de regresie a seleciei (FRS).
i
y reprezint valoarea observat, real sau adevrat.
i i
x y

+ = se numete valoarea ajustat a lui


i
y .
Definim
i i i
y y = diferena (abaterea) dintre valoarea observat i valoarea ajustat.
i
se numete reziduu sau eroare estimat sau variabil de perturbaie ajustat.
Pentru reziduurile
i
se folosete i notaia
i
e . n vreme ce variabilele
i
sunt
neobservabile, reziduurile
i
, sunt observabile.
Relaia dintre FRP i FRS este dat de ecuaia
i i i
y y + = .
Primul obiectiv al analizei de regresie este de a estima FRP,
i i i
x y + + = , pe
baza FRS,
i i i
x y

+ + = , deoarece analiza se bazeaz, de cele mai multe ori, pe


un singur eantion extras din populaie.



Figura 1.1. Valoarea observat
i
y , valoare ajustat
i
y , i reziduul
i


Fiecare selecie determin o FRS diferit, adic sunt determinate valori numerice
diferite pentru i . Nici una din FRS nu este identic cu FRP. Fiecare este doar o
aproximare a FRP reale.
Cum putem alege cea mai bun dreapt? Cutm dreapta care face distanele
verticale de la puncte la dreapt, ct mai mici posibil.
-Valoarea ajustat = distana vertical de la axa orizontal la dreapt, iar
-reziduul = distana vertical de la dreapt la punctul considerat.
Reziduurile arat ct de mult difer valorile observate de valorile ajustate.
Observaie. n discutarea modelelor de regresie, s-a dovedit incomod s se fac
distincie, din punct de vedere al notaiei, ntre variabile aleatoare i realizri ale
acestora, aa nct practica standard este de a folosi litere mici n ambele situaii.

i

X
y
Panta
Residuul
y
i

x
i

i
y

Realizarea real

Interpretarea termenului de regresie liniar


I) Liniaritatea n variabile
nseamn c valoarea medie condiionat a variabilei dependente este o funcie liniar
de variabilele independente. O funcie ) (x f y = este liniar n raport cu x dac
variabila x apare doar la puterea 1 i nu apare nmulit sau mprit prin alt
variabil, z.
II) Liniaritatea n parametri
nseamn c valoarea medie condiionat a variabilei dependente este o funcie liniar
n parametrii ce apar n ecuaie, dar poate s nu fie liniar n variabilele independente.
Vom folosi termenul de regresie liniar pentru modelele care sunt liniare n parametri.

Estimarea parametrilor modelului prin metoda celor mai mici ptrate

Metoda celor mai mici ptrate (MCMMP): se minimizeaz suma ptratelor
abaterilor dintre valorile reale
i
y i valorile ajustate
i
y .
Vom folosi i notaia OLS (Ordinary Least Squares)
Suma ptratelor reziduurilor sau erorilor estimate este o funcie de dou necunoscute,
i

(sau a i b), n raport cu care se va face minimizarea. Avem:



= = =
= = = =
n
i
i i
n
i
i i
n
i
i
x y y y S
1
2
1
2
1
2
min )

( ) ( )

, ( , sau

= = =
= = = =
n
i
i i
n
i
i i
n
i
i
x b a y y y e b a S
1
2
1
2
1
2
min ) ( ) ( ) , (
) , ( b a S este minim cnd derivatele pariale ale funciei n raport cu a i b sunt egale
cu zero, adic:

= =

= =

=
=
n
i
i i i
n
i
i i
x bx a y
b
b a S
bx a y
a
b a S
1
1
0 ) )( ( 2
) , (
0 ) 1 )( ( 2
) , (

=
=


= = =
= =
n
i
n
i
n
i
i i i i
n
i
n
i
i i
x b x a y x
x b na y
1 1 1
2
1 1
0
0

Rezult sistemul de ecuaii normale ale lui Gauss:

= +
= +


i i i i
i i
y x x b x a
y x b an
2

Soluiile sistemului se pot obine folosind metoda determinanilor:
2 2
2
) (

=
i i
i i i i i
a
x x n
y x x x y
a (1)
2 2
) (

=
i i
i i i i
b
x x n
y x y x n
b (2)
Dac mprim prima ecuaie normal prin n, obinem:
x b y a = (3)
Dup nlocuirea lui a n a doua ecuaie normal obinem:
2 2
x n x
y x n y x
b
i
i i

(4)
Avem nevoie de cteva rezultate privind nsumrile:
2 2 2 2 2 2 2
2 ) 2 ( ) ( x n x x x x x x x x x x x
i i i i i i
= + = + =

(5)
0 ) ( = = =

y x n y n x y x y x y y x
i i
(6)
y x n y x y x x y y x y y x x
i i i i i i i i
= = =

) ( ) ( ) ( ) ( (7)
Relaia (4) devine:

=
2
) ( ) ( ) ( x x b y y x x
i i i

Cu condiia ca 0 ) (
2
>

x x
i
, panta estimat va fi dat de relaia
2 2
) (
) )( (
x
xy
xx
xy
i
i i
S
S
S
S
x x
y y x x
b = =

(8)
La numrtor este covariana de selecie dintre x i y
n
y y x x
S
i i
xy


=
) )( (

La numitor este dispersia (variana) de selecie a lui x
n
x x
S
i
x


=
2
2
) (

Notm c estimaiile pentru a i b sunt unice.
Artm c soluia obinut este un minim. Considerm derivatele de ordinul doi ale
sumei ptratelor reziduurilor:
n
a
b a S
2
) , (
2
2
=

2
2
2
2
) , (
i
x
b
b a S
,

i
x
b a
b a S
2
) , (
2
.
Matricea hessian
(

=


2
2 2
2 2
i i
i
x x
x n
H este pozitiv definit, pentru c avem:
0 2
1
> = n
= = = =

) ( 4 ) )( ( 4 4 4 4
2 2 2 2
2
x n x n x n x n x n x x x n
i i i i i

0 ) ( 4
2
> =

x x n
i
. nseamn c soluia obinut este un minim.



Figura 1.2. Observaiile, dreapta real i dreapta estimat

Cea mai bun dreapt pentru a aproxima norul de puncte de observaie este cea care
minimizeaz suma ptratelor erorilor estimate. Ea se numete dreapta de regresie a
lui y n raport cu x.
Valorile a i b obinute prin MCMMP, pentru un anumit eantion s.n. estimaii ale
parametrilor reali i .
X
Y Relaia real
u x y + + =
Relaia estimat
x y

+ =
Pentru eantioane diferite rezult estimaii diferite. Ansamblul lor descrie estimatorii
parametrilor i .
Proprieti numerice ale valorilor estimate a i b, obinute prin MCMMP.
1) 0 =
i
e , adic suma reziduurilor este zero, ceea ce este adevrat att timp ct
exist o constant n regresie. Aceasta implic faptul c dreapta de regresie trece
totdeauna prin mediile de selecie, deci prin punctul ) , ( y x . Ecuaia (3) poate fi
scris sub forma x b a y + = .
2) 0 =
i i
x e . Deoarece aceast relaie poate fi gndit ca o covarian, fiind egal cu
zero, rezult c reziduurile i variabilele explicative sunt necorelate.
3)

=
i i
y y , sau y y = , cu alte cuvinte, valorile ajustate i valorile reale ale lui y
au aceeai medie. Din
i i i
y y + = rezult:

= + = + =
i i i i i i
y y y y ) ( .
4) 0 =
i i
y e , adic reziduurile i valorile ajustate, sunt necorelate.
Observaie: Deoarece exist numeroase pachete de programe statistice care
efectueaz calcule pentru estimarea coeficienilor de regresie, nu trebuie s ne
preocupe problema dificultii calculelor.

Ipoteze statistice asupra modelului care genereaz datele
n statistic se utilizeaz numai estimaii de maxim verosimilitate, care se obin doar
n contextul satisfacerii anumitor condiii. Se fac, de obicei, 6 ipoteze standard pentru
modelul de regresie.
A1) Forma funcional: n i x y
i i i
,..., 2 , 1 , = + + = .
A2) Erorile au media zero: . ,..., 2 , 1 , 0 ) ( n i E
i
= =
A3) Homoscedasticitatea: n i Var
i
,..., 2 , 1 , ) (
2 2
= = =

.
A4) Erorile nu sunt autocorelate: 0 ) , cov( =
j i
pentru j i
A5) Necorelarea ntre regresor i erori: 0 ) , cov( =
i i
x pentru orice i i j.
A6) Erorile au distribuie normal: ) , 0 ( ~
2
N
i
.
Comentarii despre ipoteze.
A1) Ipoteza de liniaritate se refer la parametrii modelului. Modelul trebuie s fie de
forma
i i i
x y + + = fie n variabilele iniiale, fie dup ce au fost fcute
transformrile potrivite.
A2) Erorile au media zero.
nseamn c, n medie, termenul eroare nu are efect asupra lui Y, ntr-un fel sau altul.
Valorile pozitive i negative ale lui se anuleaz ntre ele.
A3) Variana fiecrei erori este constant sau homoscedastic:

2 2 2
)) ( ( ) ( ) (

= = = =
i i i i
E E D Var .
Pe baza acestei ipoteze se poate admite c legtura dintre Y i X este relativ stabil.
nseamn c valorile individuale
i
y se situeaz n jurul valorii medii cu aceeai
varian. Deoarece valorile
i
x sunt fixate, singura surs de variaie din Y este de la
eroarea . Deci, dat fiind
i
x , variana lui
i
y este aceeai cu a lui
i
, adic
2
) | ( ) | ( = =
i i i i
x Var x y Var .
Deoarece 0 ) ( =
i
E , ipoteza de homoscedasticitate poate fi scris ca:
2 2
) ( =
i
E .
Dac aceast ipotez nu este ndeplinit, termenul eroare se numete heteroscedastic.
A4) Erorile nu sunt autocorelate. Nu exist corelaie ntre doi termeni eroare.
nseamn c termenii eroare sunt aleatori.
Se scrie sub forma: 0 ) , cov( =
j i
sau 0 ) ( =
j i
E pentru j i .
A5) Variabila independent x este necorelat cu termenul eroare . Variabila x nu
este stochastic, adic valorile
i
x sunt fixate n selecii repetate. nseamn c se
regsesc aceleai valori dac se face o nou selecie. n plus, se presupune c factorul
x prezint variabilitate i deci, poate fi evideniat rolul acestui factor.
A6) Erorile urmeaz o distribuie normal: ) , 0 ( ~
2
N
i
.
Teorema Limit Central: Dac exist un numr mare de v.a. independente i identic
distribuite (iid), atunci distribuia sumei lor tinde s fie o distribuie normal, cnd
numrul variabilelor crete indefinit.
Orice funcie liniar de variabile distribuite normal este distribuit normal. Se
demonstreaz c estimatorii a i b sunt normal distribuii.
Observaie. Distincia dintre parametru, estimator i estimaie.
n analiza de regresie trebuie s facem distincie ntre urmtoarele trei concepte:
parametru, estimator i estimaie. Astfel:
-parametrul , al colectivitii generale, nu se cunoate i trebuie estimat;
-estimatorul

este o variabil statistic, o formul de calcul;


-estimaia este un numr obinut prin introducerea valorilor observate n formula de
calcul a estimatorului.
Estimatorii i

, obinui prin MCMMP, sunt funcii de datele de selecie. Ne vom


referi la ei, uneori, ca fiind estimatori OLS (ordinary least squares).

Varianele i erorile standard ale estimatorilor
Varianele estimatorilor

i sunt date de urmtoarele relaii:


= =
2
2
) (
) ( )

(
x x
b Var Var
i


=
|
|

\
|

+ = =
2
2 2
2
2
2
) ( ) (
1
) ( ) (
x x n
x
x x
x
n
a Var Var
i
i
i


Matricea varianelor i covarianelor estimatorilor modelului liniar de regresie simpl
|
|
|
|
|

\
|

=
|
|

\
|

2 2
2 2
2
2
) (
1
) (
) ( ) (
)

( )

, cov(
)

, cov( ) (
x x x x
x
x x
x
x x
x
Var
Var
i i
i i
i




Erorile standard ale estimatorilor parametrilor


= =
2
) (
) ( )

(
x x
b se se
i

+ = =
2
2
2
2
) ( ) (
1
) ( ) (
x x n
x
x x
x
n
a se se
i
i
i

Estimaia este cu att mai precis, cu ct:
-eroarea standard este mai mic,
- mai mic,
-numrul de observaii mai mare i
-variana valorilor variabilei explicative este mai mare.
Estimarea varianei erorilor
Variana erorilor este
2
dar este necunoscut i trebuie estimat.
Un estimator nedeplasat pentru
2
este:
2

2
2 2

= =

n
e
s
i
e
.
Estimaiile erorilor standard ale estimatorilor parametrilor modelului


= =
2
) (
1
) ( )

(
x x
s b se se
i
e

+ =

= =
2
2
2
2
) (
1
) (
) ( ) (
x x
x
n
s
x x n
x
s a se se
i
e
i
i
e



Proprieti statistice ale estimatorilor coeficienilor de regresie
1) Liniaritatea
Estimatorii

i sunt funcii liniare de


n
y y ,...,
1
.
Expresia estimatorului lui va putea fi scris n forma:

=
2
) (
) (

x x
y x x
i
i i
sau

=
i i
y w


unde

=
2
) ( x x
x x
w
i
i
i
. Ponderile
i
w pot depinde de
n
x x ,...,
1
dar nu depind de
n
y y ,...,
1
i au urmtoarele proprieti:

= = =
2 2
) ( / 1 ; 1 ; 0 x x w x w w
i i i i i
.
2) Nedeplasarea
Teorem. n condiiile A1-A4 avem: = )

( E i = ) ( E pentru orice valori ale


lui i , ceea ce nseamn c estimatorul

este estimator nedeplasat pentru


parametrul , iar este estimator nedeplasat pentru parametrul .
3) Eficiena estimatorilor. Un estimator este eficient dac este nedeplasat i
variana sa este mai mic dect a oricrui alt estimator nedeplasat al parametrului.
Cel mai bun estimator liniar, nedeplasat (BLUE).
Teorema Gauss-Markov : n ipotezele A1-A5, estimatorii obinui prin MCMMP
sunt liniari, nedeplasai i eficieni, deci sunt cei mai buni estimatori liniari i
nedeplasai pentru parametrii populaiei.
Forma scurt pentru referirea la cel mai bun estimator liniar i nedeplasat al unui
parametru al populaiei este de estimator BLUE (Best Linear Unbiased Estimator).
Teorema Gauss-Markov ofer justificarea teoretic pentru a folosi metoda celor mai
mici ptrate pentru estimarea parametrilor unui model de regresie liniar.
4) Consistena estimatorilor. Estimatorii

i sunt estimatori consisteni pentru


parametrii populaiei, adic, atunci cnd volumul seleciei este mare,

i vor avea
valori apropiate de parametrii reali ai populaiei, cu o probabilitate foarte mare.

Coeficientul de corelaie de selecie
Coeficientul de corelaie de selecie este un indicator ce caracterizeaz direcia i
intensitatea legturii liniare dintre dou variabile. Semnul acestui coeficient indic
direcia legturi iar valoarea sa indic intensitatea legturii.
| || |



= = =
2 2
) ( ) (
) )( (
) , cov(
y y x x
y y x x
S S
S
S S
y x
r
i i
i i
y x
xy
y x
xy
sau
( ) | | ( ) | |




=
2
2
2
2
i i i i
i i i i
xy
y y n x x n
y x y x n
r
Valoarea coeficientului de corelaie este ntre -1 i 1.
O valoare apropiat de 1 arat o legtur direct puternic
O valoare apropiat de -1 arat o legtur invers puternic.
2 2
) (
) )( (

x
xy
i
i i
S
S
x x
y y x x
=

rezult
y
x
xy
S
S
r

= .
Rezult c
xy
r are acelai semn cu coeficientul de regresie pant,

.
Testarea semnificaiei coeficientului de corelaie se face utiliznd testul t. Se
testeaz urmtoarele ipoteze:
0 :
0
= H ( coeficientul de corelaie nu este semnificativ statistic)
0 :
1
H ( coeficientul de corelaie este semnificativ statistic).
Statistica testului este:
2
1
2

= n
r
r
t
xy
xy
calculat
.
Dac
critic calculat
t t > , respingem
0
H i acceptm
1
H , adic este semnificativ
statistic.

Inferena statistic n modelul de regresie liniar simpl
Testarea ipotezelor despre un coeficient de regresie
Inferena statistic folosete informaia dintr-o selecie de date pentru a trage
concluzii despre populaia din care a fost efectuat selecia aleatoare a datelor.
n scopul de a testa ipoteze cu privire la parametrii i , ai populaiei, este
necesar cunoaterea distribuiilor de selecie ale estimatorilor i

. Pentru a
realiza acest lucru putem proceda n dou moduri.
O variant se bazeaz pe utilizarea ipotezei A6, care stabilete c variabilele de
perturbaie
i
sunt distribuite normal avnd media zero, variana constant
2
.
A doua variant: putem apela la teorema limit central aplicat estimatorilor OLS
i folosim selecii suficient de mari pentru ca distribuia estimatorului s fie asimptotic
normal. n ambele variante, estimatorii OLS sunt distribuii normal, cu mediile i
varianele determinate deja.
De asemenea, rezult c
i
y sunt distribuii normal : ) , ( ~
2

i i
x N y + .

Teste de bonitate. Teste de semnificaie
Testarea semnificaiei parametrului
0 :
0
= H , (parametrul nu este semnificativ statistic; modelul nu este valid)
0 :
1
H , (parametrul este semnificativ statistic; modelul este valid).
Sub ipoteza nul avem statistica:
2
~
)


=
n
t
se
t

dac 0 = .
Dac
2 ;
2

= >
n
critic
t t t

atunci respingem
0
H la un nivel de semnificaie de % .
Cnd ipoteza nul este adevrat, valoarea calculat

t trebuie s fie aproape de zero,


iar cnd 0 valoarea calculat

trebuie s fie diferit de zero.



Inferena folosind p-value
n mod alternativ, se poate calcula unde este estimaia obinut n distribuia
estimatorului. Aceast p-value reprezint rspunsul la ntrebarea: care este cel mai
mic nivel de semnificaie la care ipoteza nul ar trebui respins? Valoarea de
probabilitate, sau p-value, asociat cu valoarea de selecie calculat a statisticii de
test, este definit ca cel mai mic nivel de semnificaie la care poate fi respins
ipoteza nul. Toate pachetele software relevante furnizeaz p-valori pentru testele de
ipoteze, astfel nct nu mai este nevoie s se caute n tabele valorile critice. O valoare
de probabilitate mic (aproape de 0) constituie argumentul evident contra ipotezei
nule, n timp ce o valoare de probabilitate mare (aproape de 1), constituie un argument
slab contra ipotezei nule.
n concluzie, p-value este egal cu cel mai mic nivel de semnificaie la care putem
respinge
0
H . Regula de decizie este urmtoarea:
1. Dac p-value < respingem
0
H la nivelul de semnificaie .
2. Dac p-value acceptm
0
H la nivelul de semnificaie .

Intervale de ncredere pentru coeficienii de regresie
Forma general a intervalului de ncredere )% 1 ( 100 pentru parametrul este:
))

);

(
2 ; 2 / 2 ; 2 /


se t se t
n n
+ sau
)) ( ); ( (
2 ; 2 / 2 ; 2 /
b se t b b se t b
n n
+


Regiunea corespunztoare intervalului de ncredere )% 1 ( 100 este cunoscut ca
regiunea de acceptate a ipotezei nule, iar aria din afara acestui interval reprezint
regiunea critic, de respingere, a ipotezei nule. tim c o statistic este semnificativ
dac valoarea statisticii testului cade n regiunea critic.
Regula de decizie este: dac din ipoteza
0
H se afl n afara intervalului de
ncredere construit pentru parametrul pant, respingem
0
H , deci constatarea noastr
este semnificativ. Deci se poate testa dac 0 = privind la intervalul de ncredere
pentru i observnd dac acesta conine valoarea zero. Dac intervalul construit nu
conine 0, atunci suntem ncreztori c 0 . Spunem c: x are putere explicativ
semnificativ pentru y sau este semnificativ diferit de zero sau este
semnificativ statistic. Dac intervalul construit conine pe zero, valoarea real a
coeficientului respectiv poate fi zero Se spune c x nu are putere explicativ
semnificativ pentru y sau este nesemnificativ statistic. n mod uzual,
coeficientul de ncredere este de 95% iar nivelul de semnificaie este de 5%.
Un interval de ncredere )% 1 ( 100 pentru parametrul de interceptare este de
forma: )) ( ); ( (
2 ; 2 / 2 ; 2 /


se t se t
n n
+ .
Mrimea celor dou intervale de ncredere este proporional cu eroarea standard a
estimatorului. Cu ct eroarea standard a estimatorului este mai mare, cu att este mai
mic precizia cu care este estimat valoarea real a parametrului necunoscut. n mod
similar avem statistica
2
~
) (


=
n
t
se
t

dac 0 = . Dac
2 ; 2 /


>
n
t t

, atunci respingem
0
H la un nivel de
semnificaie de % . Totui, ipoteza 0 = este lipsit de interes.

Testarea semnificaiei parametrului
2

Aceasta se bazeaz pe o statistic ce urmeaz o distribuie hi-ptrat cu ) 2 ( n grade
de libertate. Se aplic testul
2
bilateral pentru a verifica ipoteza
2
0
2
0
: = H ,
contra alternativei
2
0
2
1
: H , unde
2
0
este valoarea lui
2
sub
0
H . Se consider
statistica:
2
2
2
2
~
) 2 (

=
n obs
n
U


.
Regula de decizie este: dac
2
2 /
>
obs
U sau
2
2 / 1


<
obs
U respingem
0
H .
Un interval de ncredere )% 1 ( 100 pentru parametrul
2
este de forma:
|
|

\
|

2
2 / 1
2
2
2 /
2
) 2 (
;
) 2 (


n n
.

Calitatea ajustrii
Dup ce dreapta de regresie a fost estimat, este important s se evalueze rezultatele,
s se tie ct de bine ajusteaz sau aproximeaz aceast dreapt datele de selecie.
Utilizarea MCMMP asigur faptul c valorile gsite pentru

i sunt cele care


aproximeaz cel mai bine datele de observaie, n sensul specific de minimizare a
sumei ptratelor reziduurilor. Nu exist nici o garanie c

i corespund exact cu
parametrii necunoscui i i nici dac dreapta de regresie, determinat ca fiind
cea mai bun sau cea mai potrivit, aproximeaz corect datele observate.
Un indicator ce poate descrie calitatea reprezentrii, adic a liniei de regresie estimat,
este coeficientul de determinaie, notat
2
R .
Analiza Varianei (ANOVA)

=
2
) ( y y SST
i
suma ptratelor abaterilor valorilor reale ale variabilei y de la
media lor de selecie, y . Suma SST se numete variaia total a valorilor variabilei y.

= = =
2 2 2 2
) (

) ( ) ( x x y y y y SSR
i i i
suma ptratelor abaterilor valorilor
ajustate ale variabilei y de la media lor de selecie sau variaia datorat regresiei.

= =
2 2
) (
i i i
y y SSE suma ptratelor reziduurilor (abaterilor valorilor reale ale
variabilei y de la valoarile ajustate) sau variaia datorat erorilor.
Avem SST=SSR+SSE
Coeficientul de determinaie arat proporia din variaia total a variabilei
dependente y, explicat de variaia variabilei independente x, deci prin modelul de
regresie estimat.

= =

= =
2
2
2
2
2
) (

1 1
) (
) (
y y SST
SSE
y y
y y
SST
SSR
R
i
i
i
i


Aceast expresie nu depinde de unitile de msur, deoarece att numrtorul ct i
numitorul au aceleai uniti de msur. Valoarea lui
2
R este, n mod evident, ntre 0
i 1. Aceasta este totdeauna adevrat dac modelul include un termen constant n
funcia de regresie a populaiei. Cu ct este mai mare coeficientul de determinaie, cu
att functia de regresie explic mai bine valorile observate. Rezult deci c o valoare
mai mare a lui
2
R este considerat mai bun dect o valoare mai mic.
Pentru a testa utilitatea modelului de regresie liniar se folosete un Tabel de analiz a
varianei:

Sursa
variaiei
Suma
ptratelor
abaterilor
(SS)
Nr grade de
libertate
(df)
Media
ptratelor (MS)
Statistica
F
Regresia
Eroarea
Total
SSR
SSE
SST
1
n-2
n-1
MSR=SSR/1
MSE=SSE/(n-2)
F=MSR/MSE

Pentru fiecare sum se consider numrul gradelor de libertate.

Media ptratelor = suma ptratelor/numr grade de libertate. Statistica testului este
2 , 1
~
) 2 /(
1 /

=
n
F
n SSE
SSR
F sau
2 , 1
2
2
~ ) 2 (
1

=
n
F n
R
R
F
dac se exprim cele dou sume cu ajutorul coeficientului de determinaie.
Se testez ipoteza 0 :
2
0
= R H care nseamn c variabila x nu are efect asupra
variabilei y. Se compar valoarea calculat sau observat F

cu valoarea critic
obinut din tabelele repartiiei F. Se aplic regula de decizie: dac
) 2 , 1 ( ; 1


>
n
F F

se
respinge ipoteza nul n favoarea ipotezei alternative.
Interpretarea coeficientului de determinaie 100
2
R este procentul din variaia
valorilor lui y care este explicat prin x.

2
i
e este o msur a unei ajustri greite. Dac are o valoare mic, atunci potrivirea
modelului cu datele de observaie este bun i
2
R este mare. Pentru o potrivire
perfect, cnd toate valorile observate se afl pe dreapta ajustat, avem
i i
y y = i
0 =
i
, ceea ce nseamn c: 0
2
=
i
i 1
2
= R . n situaia n care 0
2
=
i
y avem
0 =
i
y pentru fiecare i, ceea ce nseamn c y y
i
= pentru orice i, dreapta de regresie
este o linie orizontal la y y = , 0
2
= R i variabila independent x nu are nici o
putere explicativ ntr-o relaie liniar cu y.
2
R are dou semnificaii alternative: este ptratul coeficientului de corelaie dintre
i
y
i
i
y i, pentru cazul regresiei simple, este ptratul coeficientului de corelaie dintre x
i y. Aceasta nseamn c, nainte de a determina regresia lui y n raport cu x, se poate
calcula coeficientul de corelaie i
2
xy
r ne arat proporia din variaia lui y care va fi
explicat prin x. Dac acest numr este prea mic avem o legtur liniar slab ntre y
i x i atunci tim c vom avea o calitate slab a ajustrii. Dac valoarea gsit este
apropiat de 1, nseamn c exist o legtur puternic ntre x i y i ele variaz n
acelai sens. Dac valoarea gsit este apropiat de 1 , nseamn c exist o legtur
puternic ntre x i y i ele variaz n sens contrar.
Analiza reziduurilor
n aproape orice analiz de regresie este util un grafic al reziduurilor (pe axa vertical)
raportate la valorile ajustate ale variabilei dependente (pe axa orizontal). O bun
aproximare are nu numai valori mici pentru reziduuri dar i o reprezentare grafic a
acestora n jurul axei orizontale fr un model aparent, specific. Un grafic al
reziduurilor care arat un anumit model cum ar fi o mulime de reziduuri pozitive
urmate de o mulime de reziduuri negative, indic o violare a uneia din ipotezele
impuse modelului de regresie sau indic folosirea unei forme funcionale greite.

Predicii (previziuni) pe baza modelului de regresie liniar simpl
Se pot obine previziuni punctuale sau previziuni pe intervale de ncredere. Prin
previziunea punctual se estimeaz valoarea variabilei y pentru o valoare cunoscut
a variabilei x. Prin previziunea pe interval de ncredere se estimeaz un interval de
ncredere pentru y, pentru o valoare cunoscut a lui x.
Presupunem c
0
x este o valoare cunoscut a regresorului i suntem interesai de a
prognoza
0
y , adic valoarea variabilei y, asociat cu
0
x . Se pot face dou feluri de
predicii: pentru o valoare individual
0
y , sau pentru valoarea medie a acesteia
) (
0
y E . Este evident c, n general, dac x ia valoarea
0
x , valoarea previzionat
pentru
0
y este
0 0
bx a y + = .
Previziunea mediei
Media condiionat a prediciei lui y cnd
0
x x = este
) | ( ) ( ) ( ) | (
0 0 0 0
x x y E bx a x b E a E x x y E = = + = + = = . Astfel
0 0
bx a y + = este o
prognoz condiionat nedeplasat a lui
0
y .
Interval de ncredere pentru predicia valorii medii
Avem:
|
|

\
|

+ =

2
2
0 2
0
) (
) ( 1
) (
x x
x x
n
s y Var
i
e
.
Eroarea standard a estimatorului
0
y este

+ =
2
2
0
0
) (
) ( 1
) (
x x
x x
n
s y se
i
e
.
Distribuia de eantionare a estimatorului
0
y este o distribuie normal cu media
0 0
) ( x y E + = i variana dat de relaia de mai sus
Statistica
) (

0
0 0
y se
y y
t

= are o distribuie Student cu ) 2 ( n grade de libertate.
Se poate construi un interval de ncredere )% 1 ( pentru
0 0 0
) | ( x x y E + = , de
forma:
) ( ) | ( ) (
0
2 ,
2
0 0 0 0 0
2 ,
2
0
y se t y x x y E y se t y
n n
+ + =


,
unde
2 ,
2
n
t

este valoarea critic din distribuia Student cu ) 2 ( n grade de libertate.


Interval de ncredere pentru predicia individual
Dorim s obinem
0 0 0
+ + = x y , dar prognozm aceasta ca fiind
0 0
bx a y + = .
0
y difer de ) (
0
y E prin
0
. Eroarea de predicie sau eroarea de prognoz este
0 0 0 0 0
) ( ) ( + + = = x b a y y e .
Rezult c 0 ) ( ) (
0 0 0
= = y y E e E .
|
|

\
|

+ + =

2
2
0 2
0 0
) (
) ( 1
1 ) (
x x
x x
n
s y y Var
i
e
iar eroarea standard va fi:

+ + =
2
2
0
0 0
) (
) ( 1
1 ) (
x x
x x
n
s y y se
i
e
.
Statistica
) (

0 0
0 0
y y se
y y
t

= are o distribuie Student cu ) 2 ( n grade de libertate.


Pentru un nivel de semnificaie fixat, (de cele mai multe ori 05 , 0 = ), se poate
construi un interval de ncredere )% 1 ( pentru
0
y , de forma:
) ( ) (
0 0
2 ,
2
0 0 0 0
2 ,
2
0
y y se t y y y y se t y
n n
+


,
unde
2 ,
2
n
t

este valoarea critic din distribuia Student cu ) 2 ( n grade de libertate.


Diferena nu este ntre predictorul individual i predictorul valorii medii ci n
varianele ataate acestora. Trebuie remarcat faptul c se obine un interval de lungime
mai mare pentru
0
y dect pentru ) (
0
y E . Banda de ncredere este mai mic atunci
cnd
0
x se apropie de media de selecie x .

Regresia prin origine
Uneori, modelul de regresie poate s nu conin termen constant:
. ,..., 2 , 1 , n i x y
i i i
= + =
Ecuaia de regresie estimat, n cazul regresiei prin origine este n i x y
i i
,..., 2 , 1 ,

= = .
n acest caz
i
e nu trebuie s fie zero iar

=
2 2
)

(
i i i
x y e . Prin aplicarea
MCMMP se obin relaiile:

=
2

i
i i
x
y x
,

+ =
+
=
2 2
) (

i
i i
i
i i i
x
x
x
x x

=
2
2
)

(
i
x
Var

,
1

2
2 2

= =

n
e
s
i

Pentru modelul de regresie fr constant coeficientul de determinaie poate fi
negativ. Dac nu exist motive teoretice, este mai bine ca modelul s conin explicit
un parametru de interceptare.

Raportarea rezultatelor analizei de regresie
n general, rezultatele analizei de regresie se prezit n diferite moduri. Pentru un
model de regresie liniar simpl se scrie ecuaia de regresie estimat (aici este cazul
unui eantion de volum 10), plus alte rezultate importante.
Prezentarea rezultatelor obinute se poate face sub forma urmtoare:
i
y = 0537 , 31 +
i
x 4626 , 0
se = (22,2075) (0,0784) 8132 , 0
2
= R
t = (1,3986) (5,9008) 8 = df
p = (0,1994) (0,0003) 8196 , 34 = F
Sub ecuaia de regresie estimat apar erorile standard ale coeficienilor de regresie, pe
rndul urmtor apar valorile estimate ale rapoartelor t, iar pe ultima linie sunt valorile
probabilitilor asociate cu valorile estimate ale coeficienilor de regresie. n partea
din drepta apare coeficientul de determinaie, numrul gradelor de libertate i valoarea
statisticii F. Pentru un numr de grade de libertate 8 = df , probabilitatea de a obine o
valoare egal cu 1,3986 sau mai mare este de 0,19 iar probabilitatea de a obine o
valoare egal cu 5,9008 sau mai mare este de 0,0003. Astfel, sub ipoteza nul c
parametrul de interceptare este zero, p-value de a obine o valoare t de 1,3986 este de
0,19. Rezult c nu putem respinge ipoteza nul. Estimaia parametrului de
interceptare nu este statistic semnificativ. Dac se calculeaz intervalul de ncredere
pentru acest parametru, se observ c acesta nu conine valoarea zero. De asemenea,
sub ipoteza nul c parametrul pant este zero, p-value de a obine o valoare t de
5,9008 este de 0,0003. Astfel, respingem ipoteza nul c panta dreptei de regresie
estimate este zero. Panta este statistic semnificativ. Se obine c nici intervalul de
ncredere construit pentru acest parametru nu conine valoarea zero.

S-ar putea să vă placă și