Documente Academic
Documente Profesional
Documente Cultură
Identificarea multicolinearității:
1. Coeficienții de corelație lineară, calculați pentru perechile de variabile explicative
din model, sunt mari în valoare absolută (sunt, în modul, apropiați de +1) ;
2. Determinantul matricei (X'X) are valori în apropierea lui zero;
3. Coeficientul de determinare R2 este mare, iar valorile testelor t (Student) sunt mici;
4. Estimatorii parametrilor sunt sensibili la specificarea modelului.
Atenuarea multicolinearității:
HETEROSCEDASTICITATEA ERORILOR
Testul Goldfeld-Quandt;
Testul Breusch-Pagan;
Testul White.
Dacă probabilitatea asociată acestui test tinde spre 1, se va accepta ipoteza H0, erorile
aleatoare având distribuție normală.
Pentru a observa dacă erorile aleatoare sunt homoscedastice sau nu, vom aplica următoarele
teste:
Testul White se bazează pe regresia pătratelor reziduurilor în raport cu toate variabilele
exogene ale modelului econometric.
Testul White se aplică pentru următoarele ipoteze:
H0: există homoscedasticitate
H1: există heteroscedasticitate.
Dacă se obține că Prob. F pentru statisticile calculate este mai mică de 0,05 se respinge
ipoteza H0, conform căreia erorile aleatoare sunt homoscedasticitate.
Testul Glejser pentru testarea homoscedasticității erorilor aleatoare
Aplicând testul Glejser cu următoarele ipoteze:
H0: β1= β2=0 (există homoscedasticitate)
H1: β1≠ β2≠0 (există heteroscedasticitate).
Din rezultatele testului dacă probabilitatea coeficienților modelului econometric este
mai mare decât valoarea 0,05, rezultă că parametrii pantă sunt nesemnificativi din punct de
vedere statistic, se acceptă H0, erorile aleatoare fiind homoscedastice.
ANALIZA MULTICOLINIARITĂȚII
Multicoliniaritatea înseamnă că există cel puțin cel puțin 2 variabile explicative care sunt
liniar dependente sau sunt liniar independente, dar puternic corelate. Pentru a verifica dacă există
multicoliniaritatea între variabilele explicative, vom folosi mai multe metode.
Cea mai simplă metodă de detectare a multicoliniarității este bazată pe studiul matricei
de corelație dintre variabilele x.
Se pot determina astfel perechile de variabile independente care sunt puternic corelate între
ele.
O structură mai complexă a intercorelațiilor poate fi detectată prin calcularea
determinantului acestei matrice de corelație. O valoare apropiată de zero a determinantului
reflectă o puternică corelație între anumite variabile, deci existența multicoliniarității.
Dacă valoarea factorului de Inflație a Variației - VIF aparține intervalului (1, 5), rezultă
că multicoliniaritatea modelului este una foarte scăzută.
Ipoteză
Valorile variabilei reziduale u să fie necorelate, adică nu există fenomenul de
autocorelare a erorilor, erorile au dispersii egale (sunt homoscedastice) și nu diferite
(heteroscedastice) și variabila aleatoare urmează o distribuție normală.
Fig. nr.1: Corelograma între valorile estimate ale variabilei endogene și valorile variabilei
reziduale
O regularitate a graficului semnalează o corelare a reziduului.
Prin grafic nu putem decât semnala prezența autocorelării, decizia finală trebuie însă luată
pe baza aplicării unui test statistic cum ar fi: testul Durbin-Watson sau testul Breusch-Godfrey.
Testul Breusch-Godfrey
Testul Breusch-Godfrey se folosește pentru testarea autocorelării de ordin superior a
erorilor aleatoare.
Ipotezele testul Breusch-Godfrey:
H0: nu există autocorelarea erorilor aleatoare;
H1: există autocorelarea erorilor aleatoare.
Ipoteza nulă care stă la baza testului Breusch-Godfrey este aceea potrivit căreia toți
coeficienții corespunzători valorilor decalate ale variabilei reziduale sunt simultan egali cu zero,
fapt care implică non-existența fenomenului de autocorelare a erorilor.
În vederea utilizării testului sunt estimate valorile variabilei reziduale ui, obținute în urma
aplicării metodei celor mai mici pătrate asupra modelului inițial.
Variabila reziduală ui este regresată apoi în funcție de variabilele exogene inițiale ale
modelului și de valorile sale decalate.
În general, autocorelarea erorilor este provocată de două cauze: fie faptul că variabila
endogenă y se autocorelează în evoluția sa (ca urmare a unui efect inerțial) generând o autocorelare
în timp a erorilor, fie datorită omiterii unei variabile exogene x, cu influență semnificativă asupra
lui y, adică a unei erori de specificare a modelului econometric.
Eliminarea fenomenului de autocorelare a variabilei reziduale ui se fundamentează pe
evitarea cauzelor care îl generează.
Dintre modalitățile de a evita consecințele statistice pe care le generează acest fenomen
menționăm:
Aplicarea metodei celor mai mici pătrate MCMMP generalizate în vederea estimării
parametrilor modelului care, în cazul autocorelării reziduurilor, permite obținerea de estimatori
nedeplasați, consistenți și eficienți. Această metodă se utilizează atunci când avem modele
multifactoriale, numărul variabilelor explicative fiind mai mare de unu.
Metoda celor mai mici pătrate poate fi astfel gândită ca o metodă care maximizează
corelația dintre valorile observate și valorile estimate (acestea reprezentând o combinație liniară
de variabile x). O valoare R apropiată de 0 denotă o regresie nesemnificativă, valorile prognozate
de regresie nefiind mai bune decât cele obținute printr-o ghicire aleatorie (sau bazate doar pe
distribuția lui y).
Dacă Prob. F < 0,05, se va respinge ipoteza H0 și se va accepta H1, existând autocorelare
de ordin superior.
Metodele de eliminare a autocorelării erorilor cum ar fi: procedeul prin baleiaj Hildreth-
Lu, procedeul iterativ al lui Cochran și C. Orcutt, procedeul Durbin și altele.
În baza ipotezei de homoscedasticitate a variabilei reziduale se poate admite că legătura
dintre cele două variabile y și, respectiv, x este relativ stabilă.
Contrariul homoscedasticității este heteroscedasticitatea, care înseamnă că erorile nu au
dispersiile egale, ele sunt diferite.
Dacă dispersiile nu sunt egale, estimatorii rămân nedeplasați, dar nu mai sunt eficace,
MCMMP conducând la o subestimare a parametrilor modelului influențând sensibil și calitatea
diferitelor teste statistice aplicate acestuia.
Corelare pozitivă
Corelare negativă
Procedeul dispersiilor variabilelor reziduale (Testul F, Fisher-Snedecor) se poate aplica
atunci când se utilizează serii lungi de date. În acest caz, seria valorilor reziduale ui (care
în prealabil a fost ordonată în raport cu mărimea variabilei x) se împarte în două sau mai
multe grupe calculându-se dispersiile corespunzătoare (grupa trebuie să conțină cel puțin
5 valori).
Dacă seria a fost împărțită în 3 sau 4 grupe se testează perechile de grupe, corespunzător,
se obțin perechi de dispersii, urmând ca dispersia cea mai mare dintre cele două să fie plasată la
numărătorul raportului F.
Dacă numărul de termeni ai seriei este impar se recomandă eliminarea termenului de mijloc
al seriei, astfel încât să se ajungă la subeșantioane egale.
Testul Goldfeld-Quandt presupune în prealabil ordonarea datelor astfel încât valorile seriei
de date xi să apară în ordine crescătoare. Se elimină un număr de c valori centrate (unde, de regulă,
se consideră că c trebuie să reprezinte o treime sau un sfert din numărul total de observații) pentru
a se face mai evidentă eventuala discrepanță dintre împrăștierea termenilor din prima parte a seriei
ui, respectiv din ultima parte a acesteia. Se aplică MCMMP în fiecare grupă separat (grupă de
dimensiune (n-c)/2) și calcularea sumei pătratelor erorilor pentru fiecare grupă în parte.
Testul Park se bazează pe existența unei relații de dependență între dispersia
corespunzătoare erorilor heteroscedastice și variabila exogenă.
Ipoteza de homoscedasticitate este verificată dacă parametrul b aferent variabilei exogene
x are valoare nesemnificativă, cazul contrar indicând heteroscedasticitatea.
După calcularea erorilor, valoarea absolută a acestora este amplasată în regresie, în raport
de valorile variabilei exogene.Etapele selectării celei mai bune regresii:
Variabile independente R2
{X1}, {X2} ...
{Xi,X2}, {Xi,X3}, ..., {Xn-1,Xn}
{X1,X2,...,Xn}
Se analizează valorile R2 și se reține acea submulțime de variabile pentru care se realizează
compromisul acceptabil între numărul de variabile și mărimea coeficientului de determinare.
Selecția prospectivă
Procedura începe prin includerea în model a variabilei independente având cel mai mare
coeficient de corelație cu variabila y. La fiecare pas următor, se analizează fiecare dintre variabilele
neincluse încă în model printr-un test F secvențial și se extinde modelul prin includerea acelei
variabile care aduce o contribuție maximă (probabilitatea critică din testul F este cea mai mică).
Procesul se oprește atunci când modelul nu mai poate fi extins, criteriul uzual fiind acela al
fixării un prag de intrare (PIN) și acceptând doar variabilele pentru care probabilitatea critică în
testul F secvențial este mai mică sau egală cu acest prag.
Procedura are ca limitări faptul că anumite variabile nu vor fi incluse în model niciodată,
deci importanța lor nu va fi determinată. Pe de altă parte, o variabilă inclusă la un anumit pas
rămâne permanent în model, chiar dacă, prin includerea ulterioară a altor variabile, importanța ei
poate să scadă.
Selecția retrogradă
Se începe cu estimarea modelului complet și apoi, într-un număr de pași succesivi, se
elimină din model variabilele nesemnificative. La fiecare pas, pe baza unui test F parțial, se elimină
acea variabilă care are cea mai mare probabilitate critică. Procesul se oprește atunci când nici o
variabilă nu mai poate fi eliminată.
Criteriul uzual este acela de fixare a unui prag de eliminare (POUT) și considerarea doar a
variabilelor care au probabilitatea critică mai mare decât acest prag.
Bibliografie