C Erori Model de Regresie Liniară

C
VERIFICAREA ÎNDEPLINIRII IPOTEZELOR MODELULUI DE

REGRESIE LINIARĂ MULTIPLĂ
IPOTEZELE MODELULUI LINEAR DE REGRESIE

I1. Linearitatea modelului
I2. Ipotezele referitoare la variabilele explicative:
1. Fiecare variabilă exogenă are dispersia nenulă, dar finită;
2. Numărul de observații este superior numărului de parametri;
3. Nu există nicio relație lineară între două sau mai multe variabile explicative
(absența coliniarității).
I3. Ipotezele referitoare la erori:

1. Erorile ui au media nulă;
2. Media condiționată a erorilor M(ui/Xi)=0;
3. Erorile ui sunt independente (nu sunt autocorelate);
4. Erorile ui au dispersia constantă oricare ar fi i (erorile nu sunt heteroscedastice);
5. Erorile ui sunt normal distribuite.
Se va verifica dacă modelul estimat îndeplinește ipotezele modelului de regresie liniară.
TEOREMA GAUSS MARKOV

Dacă sunt verificate ipotezele de la I1 la I3, atunci estimatorii parametrilor din modelul
linear unifactorial de regresie sunt cei mai buni estimatori lineari nedeplasați, care au cea mai
mică dispersie.
Estimatorii parametrilor din modelul de regresie lineară se calculează prin metoda celor
mai mici pătrate MCMMP, atunci când estimatorii îndeplinesc condițiile din teorema Gauss-
Markov.
ERORI DE SPECIFICARE A MODELULUI MULTIFACTORIAL DE
REGRESIE LINEAR
Omiterea unor variabile explicative importante:

1. Dacă o variabilă importantă omisă este corelată cel puțin cu o variabilă inclusă în
model, atunci estimatorii parametrilor reținuți în model sunt deplasați și nu sunt
consistenți;
2. Chiar dacă variabilele omise nu sunt corelate cu variabilele reținute în model,
estimatorul termenului liber (â0) este, în general, deplasat;
3. Dispersiile estimate pentru parametrii variabilelor reținute în model sunt estimatori
deplasați ai dispersiilor reale și, în consecință, testul t privind semnificația
estimatorilor nu este valid.
Includerea unor variabile nerelevante:

1. Dacă o variabilă explicativă nerelevantă este inclusă în model, atunci estimatorii
parametrilor pentru toate celelalte variabile din model sunt nedeplasați și
consistenți;
2. Dispersiile estimate pentru parametrii variabilelor din model sunt mai mari decât în
cazul neincluderii variabilelor nerelevante și deci estimatori nu sunt eficienți;
3. Deoarece dispersiile estimate pentru parametrii modelului sunt nedeplasate, testul t privind
semnificația estimatorilor este valid.
Consecințe ale multicolinearității:

1. Dacă două sau mai multe variabile explicative din modelul de regresie multiplă sunt
perfect corelate, estimatorii parametrilor nu pot fi calculați prin MCMMP;
2. Dacă anumite variabile explicative sunt relativ puternic corelate, estimatorii obținuți
prin MCMMP sunt lineari, normal distribuiți, nedeplasați, consistenți și de maximă
verosimilitate;
3. Creșterea abaterii standard a estimatorilor calculați pentru parametrii modelului
reduce valoarea testului t statistic, dar acesta rămâne valid;
4. Se reduce precizia estimatorilor calculați pentru parametrii modelului, în sensul că
abaterea standard mare duce la creșterea intervalului de încredere în care sunt
garantați parametrii;
5. Deoarece covarianța între variabilele explicative corelate relativ puternic poate fi
mare, interpretarea parametrilor individuali este dificilă.
Identificarea multicolinearității:
1. Coeficienții de corelație lineară, calculați pentru perechile de variabile explicative
din model, sunt mari în valoare absolută (sunt, în modul, apropiați de +1) ;
2. Determinantul matricei (X'X) are valori în apropierea lui zero;
3. Coeficientul de determinare R2 este mare, iar valorile testelor t (Student) sunt mici;
4. Estimatorii parametrilor sunt sensibili la specificarea modelului.
Atenuarea multicolinearității:
1. Eliminarea unor variabile explicative;

2. Realizarea unor observații suplimentare asupra variabilelor din model;
3. Prelucrarea primară a datelor (ritmuri, sporuri, indici, logaritmarea valorilor observate
etc.).
HETEROSCEDASTICITATEA ERORILOR
Heteroscedasticitatea este proprietatea erorilor de a nu avea o dispersie constantă.
Consecințe ale ignorării fenomenului de heteroscedasticitate a erorilor:
1. Estimatorii parametrilor din model sunt nedeplasați și consistenți;

2. Estimatorii parametrilor din model nu sunt eficienți (există estimatori care au o
dispersie mai mică);
3. Estimatorii calculați pentru dispersia și covarianța parametrilor sunt deplasați, nu
sunt consistenți și nu sunt eficienți;
4. Testul t Student aplicat pentru analiza semnificației estimatorilor nu este valid.
Dispersia corectă a parametrului ai este subestimată, astfel încât calculele
sugerează o precizie a estimării mai bună decât este în realitate;
5. Estimatorii parametrilor nu au proprietatea de maximă verosimilitate.
Testarea heteroscedasticității erorilor:
 Testul Goldfeld-Quandt;
 Testul Breusch-Pagan;
 Testul White.
TESTE DE NORMALITATE A DISTRIBUȚIEI ERORILOR

Testarea distribuție normale a erorilor se poate realiza cu testul Jarque-Bera.
Consecințe ale lipsei de normalitate a erorilor:

1.Estimatorii parametrilor din model sunt nedeplasați și consistenți;
2.Estimatorii parametrilor din model nu au proprietatea de maximă verosimilitate;
3.Testul t statistic (Student) aplicat pentru analiza semnificației estimatorilor nu este valid.
Atenuarea fenomenului de autocorelare a erorilor:
1. Identificarea tipului de distribuție a erorilor și aplicarea unor tehnici adecvate de
rezolvare a problemei de regresie;
2. Aplicarea unor tehnici de transformare a seriilor de date Yi și/sau Xi, astfel încât să fie
eliminată non-normalitatea distribuției erorilor.
Normalitatea distribuției erorilor aleatoare și media acestora
Pentru testarea ipotezei de normalitate a erorilor aleatoare se va folosi testul Jarque-

Bera, cu ipotezele:
H0: erorile aleatoare au distribuție normală

H1: erorile aleatoare nu au distribuția normală.
Dacă probabilitatea asociată acestui test tinde spre 1, se va accepta ipoteza H0, erorile
aleatoare având distribuție normală.
Homoscedasticitatea erorilor aleatoare
Pentru a observa dacă erorile aleatoare sunt homoscedastice sau nu, vom aplica următoarele
teste:
Testul White se bazează pe regresia pătratelor reziduurilor în raport cu toate variabilele
exogene ale modelului econometric.
Testul White se aplică pentru următoarele ipoteze:
H0: există homoscedasticitate
H1: există heteroscedasticitate.
Dacă se obține că Prob. F pentru statisticile calculate este mai mică de 0,05 se respinge
ipoteza H0, conform căreia erorile aleatoare sunt homoscedasticitate.
Testul Glejser pentru testarea homoscedasticității erorilor aleatoare
Aplicând testul Glejser cu următoarele ipoteze:
H0: β1= β2=0 (există homoscedasticitate)
H1: β1≠ β2≠0 (există heteroscedasticitate).
Din rezultatele testului dacă probabilitatea coeficienților modelului econometric este
mai mare decât valoarea 0,05, rezultă că parametrii pantă sunt nesemnificativi din punct de
vedere statistic, se acceptă H0, erorile aleatoare fiind homoscedastice.
ANALIZA MULTICOLINIARITĂȚII
Multicoliniaritatea înseamnă că există cel puțin cel puțin 2 variabile explicative care sunt
liniar dependente sau sunt liniar independente, dar puternic corelate. Pentru a verifica dacă există
multicoliniaritatea între variabilele explicative, vom folosi mai multe metode.
Cea mai simplă metodă de detectare a multicoliniarității este bazată pe studiul matricei
de corelație dintre variabilele x.
Se pot determina astfel perechile de variabile independente care sunt puternic corelate între
ele.
O structură mai complexă a intercorelațiilor poate fi detectată prin calcularea
determinantului acestei matrice de corelație. O valoare apropiată de zero a determinantului
reflectă o puternică corelație între anumite variabile, deci existența multicoliniarității.
Criteriul lui Klein

Putem aprecia dacă există sau nu există multicoliniaritate la nivelul datelor analizate.
Criteriul Factorului de Inflație a Variației (FIV)
VIF - Valoarea factorului de inflație a variației pentru testarea multicoliniarității
variabilelor exogene
Factorul de inflație a varianței FIV(variance inflating factor) este inversul toleranței.
Factorul de inflație a varianței FIV apare multiplicativ în definirea varianței coeficienților
estimați, se măsoară de câte ori este supraevaluată varianța coeficienților datorită multicoliniarității
în raport cu situația când nu ar exista coliniaritate.
Interpretarea este dedusă din cea a toleranței: o valoare a factorului de Inflație a
Variației - VIF mai mare decât 10, rezultă multicoliniaritate.
Dacă valoarea factorului de Inflație a Variației - VIF aparține intervalului (1, 5), rezultă
că multicoliniaritatea modelului este una foarte scăzută.
O rezolvare comună a problemei multicoliniarității este aceea că dintre două variabile

independente corelate să se rețină în model doar una.
Prin analiza toleranțelor sau a factorilor de inflație se vor exclude din model acele variabile
care au toleranțe mici sau factori de inflație mari.
NEAUTOCORELAREA ERORILOR ALEATOARE
Ipoteză
Valorile variabilei reziduale u să fie necorelate, adică nu există fenomenul de
autocorelare a erorilor, erorile au dispersii egale (sunt homoscedastice) și nu diferite
(heteroscedastice) și variabila aleatoare urmează o distribuție normală.
Depistarea autocorelării erorilor se face utilizând procedeul grafic realizarea corelogramei

între valorile estimate ale variabilei endogene și valorile variabilei reziduale.
Fig. nr.1: Corelograma între valorile estimate ale variabilei endogene și valorile variabilei
reziduale
O regularitate a graficului semnalează o corelare a reziduului.
Prin grafic nu putem decât semnala prezența autocorelării, decizia finală trebuie însă luată
pe baza aplicării unui test statistic cum ar fi: testul Durbin-Watson sau testul Breusch-Godfrey.
Testul Breusch-Godfrey
Testul Breusch-Godfrey se folosește pentru testarea autocorelării de ordin superior a
erorilor aleatoare.
Ipotezele testul Breusch-Godfrey:
H0: nu există autocorelarea erorilor aleatoare;
H1: există autocorelarea erorilor aleatoare.
Ipoteza nulă care stă la baza testului Breusch-Godfrey este aceea potrivit căreia toți
coeficienții corespunzători valorilor decalate ale variabilei reziduale sunt simultan egali cu zero,
fapt care implică non-existența fenomenului de autocorelare a erorilor.
În vederea utilizării testului sunt estimate valorile variabilei reziduale ui, obținute în urma
aplicării metodei celor mai mici pătrate asupra modelului inițial.
Variabila reziduală ui este regresată apoi în funcție de variabilele exogene inițiale ale
modelului și de valorile sale decalate.
În general, autocorelarea erorilor este provocată de două cauze: fie faptul că variabila
endogenă y se autocorelează în evoluția sa (ca urmare a unui efect inerțial) generând o autocorelare
în timp a erorilor, fie datorită omiterii unei variabile exogene x, cu influență semnificativă asupra
lui y, adică a unei erori de specificare a modelului econometric.
Eliminarea fenomenului de autocorelare a variabilei reziduale ui se fundamentează pe
evitarea cauzelor care îl generează.
Dintre modalitățile de a evita consecințele statistice pe care le generează acest fenomen
menționăm:
Aplicarea metodei celor mai mici pătrate MCMMP generalizate în vederea estimării
parametrilor modelului care, în cazul autocorelării reziduurilor, permite obținerea de estimatori
nedeplasați, consistenți și eficienți. Această metodă se utilizează atunci când avem modele
multifactoriale, numărul variabilelor explicative fiind mai mare de unu.
Metoda celor mai mici pătrate poate fi astfel gândită ca o metodă care maximizează
corelația dintre valorile observate și valorile estimate (acestea reprezentând o combinație liniară
de variabile x). O valoare R apropiată de 0 denotă o regresie nesemnificativă, valorile prognozate
de regresie nefiind mai bune decât cele obținute printr-o ghicire aleatorie (sau bazate doar pe
distribuția lui y).
Dacă Prob. F < 0,05, se va respinge ipoteza H0 și se va accepta H1, existând autocorelare
de ordin superior.
Metodele de eliminare a autocorelării erorilor cum ar fi: procedeul prin baleiaj Hildreth-
Lu, procedeul iterativ al lui Cochran și C. Orcutt, procedeul Durbin și altele.
În baza ipotezei de homoscedasticitate a variabilei reziduale se poate admite că legătura
dintre cele două variabile y și, respectiv, x este relativ stabilă.
Contrariul homoscedasticității este heteroscedasticitatea, care înseamnă că erorile nu au
dispersiile egale, ele sunt diferite.
Dacă dispersiile nu sunt egale, estimatorii rămân nedeplasați, dar nu mai sunt eficace,
MCMMP conducând la o subestimare a parametrilor modelului influențând sensibil și calitatea
diferitelor teste statistice aplicate acestuia.
Depistarea heteroscedasticitătii se poate realiza prin mai multe procedee:

 Procedeul grafic prin care se construiește corelograma privind valorile variabilei factoriale
x și valorile variabilei reziduale u. Dacă pe măsura creșterii/scăderii valorilor variabile x
se observă o creștere/scădere a valorii variabilei u înseamnă că acestea sunt corelate și nu
independente.
Corelare pozitivă
Corelare negativă
 Procedeul dispersiilor variabilelor reziduale (Testul F, Fisher-Snedecor) se poate aplica
atunci când se utilizează serii lungi de date. În acest caz, seria valorilor reziduale ui (care
în prealabil a fost ordonată în raport cu mărimea variabilei x) se împarte în două sau mai
multe grupe calculându-se dispersiile corespunzătoare (grupa trebuie să conțină cel puțin
5 valori).
Dacă seria a fost împărțită în 3 sau 4 grupe se testează perechile de grupe, corespunzător,
se obțin perechi de dispersii, urmând ca dispersia cea mai mare dintre cele două să fie plasată la
numărătorul raportului F.
Dacă numărul de termeni ai seriei este impar se recomandă eliminarea termenului de mijloc
al seriei, astfel încât să se ajungă la subeșantioane egale.
Testul Goldfeld-Quandt presupune în prealabil ordonarea datelor astfel încât valorile seriei
de date xi să apară în ordine crescătoare. Se elimină un număr de c valori centrate (unde, de regulă,
se consideră că c trebuie să reprezinte o treime sau un sfert din numărul total de observații) pentru
a se face mai evidentă eventuala discrepanță dintre împrăștierea termenilor din prima parte a seriei
ui, respectiv din ultima parte a acesteia. Se aplică MCMMP în fiecare grupă separat (grupă de
dimensiune (n-c)/2) și calcularea sumei pătratelor erorilor pentru fiecare grupă în parte.
Testul Park se bazează pe existența unei relații de dependență între dispersia
corespunzătoare erorilor heteroscedastice și variabila exogenă.
Ipoteza de homoscedasticitate este verificată dacă parametrul b aferent variabilei exogene
x are valoare nesemnificativă, cazul contrar indicând heteroscedasticitatea.
Testul Glejser presupune că variabila exogenă ar fi cauza heteroscedasticității. Astfel dacă

se formulează relația între variabila exogenă și erorilor estimate, în urma aplicării metodei celor
mai mici pătrate, asupra modelului inițial sunt create premisele de testare.
După calcularea erorilor, valoarea absolută a acestora este amplasată în regresie, în raport
de valorile variabilei exogene.Etapele selectării celei mai bune regresii:
1) Se identifică toate variabilele independente posibile (cu alte cuvinte se specifică

modelul maxim),
2) Se specifică criteriul de selectare a celei mai bune regresii,
3) Se specifică o strategie pentru selectarea variabilelor independente,
4) Se realizează estimarea și analiza modelului,
5) Se evaluează rentabilitatea modelului ales.
Strategii de selectare a celui mai bun model

Metoda tuturor regresiilor posibile
Cu ajutorul acestei metode se estimează toate regresiile posibile, se rețin valorile
coeficienților de determinare și gruparea se face după cardinalul mulțimii de predictori.
Variabile independente R2
{X1}, {X2} ...
{Xi,X2}, {Xi,X3}, ..., {Xn-1,Xn}
{X1,X2,...,Xn}
Se analizează valorile R2 și se reține acea submulțime de variabile pentru care se realizează
compromisul acceptabil între numărul de variabile și mărimea coeficientului de determinare.
Selecția prospectivă
Procedura începe prin includerea în model a variabilei independente având cel mai mare
coeficient de corelație cu variabila y. La fiecare pas următor, se analizează fiecare dintre variabilele
neincluse încă în model printr-un test F secvențial și se extinde modelul prin includerea acelei
variabile care aduce o contribuție maximă (probabilitatea critică din testul F este cea mai mică).
Procesul se oprește atunci când modelul nu mai poate fi extins, criteriul uzual fiind acela al
fixării un prag de intrare (PIN) și acceptând doar variabilele pentru care probabilitatea critică în
testul F secvențial este mai mică sau egală cu acest prag.
Procedura are ca limitări faptul că anumite variabile nu vor fi incluse în model niciodată,
deci importanța lor nu va fi determinată. Pe de altă parte, o variabilă inclusă la un anumit pas
rămâne permanent în model, chiar dacă, prin includerea ulterioară a altor variabile, importanța ei
poate să scadă.
Selecția retrogradă
Se începe cu estimarea modelului complet și apoi, într-un număr de pași succesivi, se
elimină din model variabilele nesemnificative. La fiecare pas, pe baza unui test F parțial, se elimină
acea variabilă care are cea mai mare probabilitate critică. Procesul se oprește atunci când nici o
variabilă nu mai poate fi eliminată.
Criteriul uzual este acela de fixare a unui prag de eliminare (POUT) și considerarea doar a
variabilelor care au probabilitatea critică mai mare decât acest prag.
Selecția pas cu pas

Procedura pas cu pas (stepwise regression) este o combinație a celor două metode descrise
anterior. La un pas ulterior al regresiei prospective se permite eliminarea unei variabile, ca în
regresia retrogradă. O variabilă eliminată din model devine candidată pentru includerea în model,
iar o variabilă inclusă în model devine candidată la excludere. Pentru ca procesul să nu intre într-
un ciclu infinit, trebuie ca PIN < POUT.
Bibliografie
Jula D., Introducere în Econometrie, Editura Professional Consulting, București, 2003
Andrei T., ș.a., Econometrie, Editura Economică, 2008

C Erori Model de Regresie Liniară

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

C Erori Model de Regresie Liniară

Încărcat de

Drepturi de autor:

Formate disponibile

C

VERIFICAREA ÎNDEPLINIRII IPOTEZELOR MODELULUI DE

IPOTEZELE MODELULUI LINEAR DE REGRESIE

I3. Ipotezele referitoare la erori:

Se va verifica dacă modelul estimat îndeplinește ipotezele modelului de regresie liniară.

TEOREMA GAUSS MARKOV

Omiterea unor variabile explicative importante:

Includerea unor variabile nerelevante:

Consecințe ale multicolinearității:

1. Eliminarea unor variabile explicative;

Heteroscedasticitatea este proprietatea erorilor de a nu avea o dispersie constantă.

Consecințe ale ignorării fenomenului de heteroscedasticitate a erorilor:

1. Estimatorii parametrilor din model sunt nedeplasați și consistenți;

Testarea heteroscedasticității erorilor:

TESTE DE NORMALITATE A DISTRIBUȚIEI ERORILOR

Consecințe ale lipsei de normalitate a erorilor:

Normalitatea distribuției erorilor aleatoare și media acestora

Pentru testarea ipotezei de normalitate a erorilor aleatoare se va folosi testul Jarque-

H0: erorile aleatoare au distribuție normală

Homoscedasticitatea erorilor aleatoare

Criteriul lui Klein

O rezolvare comună a problemei multicoliniarității este aceea că dintre două variabile

NEAUTOCORELAREA ERORILOR ALEATOARE

Depistarea autocorelării erorilor se face utilizând procedeul grafic realizarea corelogramei

Depistarea heteroscedasticitătii se poate realiza prin mai multe procedee:

Testul Glejser presupune că variabila exogenă ar fi cauza heteroscedasticității. Astfel dacă

1) Se identifică toate variabilele independente posibile (cu alte cuvinte se specifică

Strategii de selectare a celui mai bun model

Selecția pas cu pas

Jula D., Introducere în Econometrie, Editura Professional Consulting, București, 2003

Andrei T., ș.a., Econometrie, Editura Economică, 2008

S-ar putea să vă placă și