Sunteți pe pagina 1din 7

Statistică multivariată

Lucrarea nr. 9 — Multicoliniaritate, valori aberante,


regresia polinomială - SPSS
A. Noţiuni teoretice
Reamintim că un model liniar poate fi exprimată prin
y=xα+ε
unde
• y este variabila dependentă (explicată, endogenă, rezultativă),
• x este vectorul variabilelor independente (explicative, exogene), de
dimensiune 1×p,
• α este vectorul coeficienţilor, de dimensiune p×1, parametrii modelului,
• ε este o variabilă, interpretată ca eroare (perturbare, eroare de măsurare
etc.).
Cu alte cuvinte,
y = α1x1+α2x2+…+αpxp+ε
care exprimă relaţia liniară dintre y şi x.

Multicoliniaritatea
Situaţia descrisă drept multicoliniaritate apare atunci când un grup de variabile
independente sunt puternic corelate între ele. În acest caz, prin includerea în model a
unei variabile din grup, restul variabilelor din grup nu mai aduc o informaţie
semnificativă. Simultan are loc o supraevaluare a coeficientului de determinare, ca şi
a dispersiilor coeficienţilor estimaţi, ceea ce poate denatura interpretarea modelului şi,
în plus, produce mărirea intervalelor de încredere.
Apar astfel două probleme: determinarea multicoliniarităţii şi cum trebuie
procedat în cazul existenţei multicoliniarităţii.

Detectarea multicoliniarităţii
Cea mai simplă metodă de detectare a multicoliniarităţii este bazată pe studiul
matricei de corelaţie dintre variabilele x. Se pot determina astfel perechile de variabile
independente care sunt puternic corelate între ele. O structură mai complexă a
intercorelaţiilor poate fi detectată prin calcularea determinantului acestei matrice de
corelaţie. O valoare apropiată de zero a determinantului reflectă o puternică corelaţie
între anumite variabile, deci existenţa multicoliniarităţii.
O altă abordare a problemei este aceea a stabilirii unui indicator sintetic pentru
a decide dacă o variabilă este coliniară cu celelalte (sau cu un grup dintre celelalte).
Notând cu Ri2 coeficientul de determinare obţinut la estimarea regresiei multiple
având ca variabilă dependentă pe xi şi ca variabile independente restul variabilelor x,
adică
xi = f ( x1 , x2 ,K, xi −1 , xi +1 ,K, x p )
se introduce toleranţa variabilei xi prin
τ i = 1 − Ri2 .
O valoare mică a lui τi (uzual mai mică decât 0,1) reflectă un coeficient Ri2
apropiat de 1, deci o legătură liniară puternică între xi şi restul variabilelor
independente. Prin urmare xi este coliniară cu celelalte variabile independente.
Se defineşte factorul de inflaţie a varianţei, notat VIF, inversul toleranţei:
1
VIFi = .
τi
Denumirea provine din aceea că un asemenea factor apare multiplicativ în
definirea varianţei coeficienţilor estimaţi (se poate spune că se măsoară de câte ori
este supraevaluată varianţa coeficienţilor datorită multicoliniarităţii în raport cu
situaţia când nu ar exista coliniaritate). Interpretarea este dedusă din cea a toleranţei: o
valoare VIF mare (uzual mai mare decât 10), denotă coliniaritate.

Eliminarea multicoliniarităţii
O rezolvare comună a problemei multicoliniarităţii este aceea ca dintre două
variabile independente corelate să se reţină în model doar una.
Prin interpretarea toleranţelor sau a factorilor de inflaţie se vor exclude din
model acele variabile care au toleranţe mici (sau factori de inflaţie mari).

Valori aberante
Printr-o valoare aberantă (outlier) se înţelege o observaţie extremă, adică o
observaţie care nu se "încadrează" în paternul general al celorlalte valori. Atunci când
este studiată o singură variabilă, există teste specifice eliminării valorilor aberante, de
exemplu testul Dixon. Regula empirică (bazată pe distribuţia normală) este aceea de
considera ca valoare aberantă orice valoare care este depărtată de medie cu mai mult
de trei abateri standard.
În situaţia specială a regresiei liniare, problematica valorilor aberante este mai
complexă deoarece anumite valori extreme (nu toate) pot influenţa major coeficienţii
regresiei. Se pot astfel identifica valori aberante
• între valorile y (în spaţiul răspunsurilor)
• între valorile x (în spaţiul x, al variabilelor independente)
• în ambele spaţii.
În problematica valorilor aberante se disting astfel două aspecte: identificarea
valorilor aberante şi modul de tratare a valorilor identificate.
Identificarea valorile aberante se realizează prin analiza reziduurilor
standardizate, caz în care se identifică valorile extreme în spaţiul y. Din păcate,
anumite valori din acest spaţiu nu pot fi identificate din cauză că, prin procesul de
estimare, curba de regresie a fost "trasă" spre valoarea extremă. Acest fapt se întâmplă
atunci când valori extreme y sunt asociate valorilor extreme din spaţiul x (aşa-zisele
puncte pârghie – leverage points; punctele extreme y asociate valorii medii x nu
modifică în mod exagerat curba). Au fost atunci dezvoltate şi măsuri specifice pentru
identificarea acelor puncte care influenţează semnificativ regresia. Una este distanţa
Cook (sau D), explicată în continuare.
Cook's D. Considerând s – eroarea standard a estimaţiei, ŷ j – valoarea
estimată (pentru a j-a observaţie) şi yˆ j (i ) – valoarea estimată din regresia calculată
după omiterea celei de a i-a observaţii, distanţa Cook pentru observaţia (punctul) i se
defineşte prin

n
(yˆ − yˆ j (i))2
j =1 j
D =
i , i = 1, K , n
(k + 1) s 2
adică o măsură a influenţei celei de a i-a observaţii asupra tuturor valorilor
prognozate. Regula detectării unei valori aberante este, pentru distanţa Cook,
4
Di ≥
n − (k + 1)
Deoarece n este uzual mult mai mare decât k, unii autori propun devizarea
doar la n. Prin această regulă are loc o supraidentificare, mai multe valori aberante
decât ar fi natural, şi se recomandă tratarea acestor distanţe ca o nouă variabilă pentru
care se determină valorile sale aberante (de exemplu regula celor 3 abateri standard).
De remarcat că procedura care utilizează distanţa Cook identifică acele
observaţii care au o influenţă majoră asupra coeficienţilor de regresie (asupra
modelului estimat).
Tratarea valorilor aberante presupune, ca abordare directă, eliminarea acestora
(a observaţiilor care le conţin) şi refacerea regresiei. Se poate totuşi ca în acest mod de
abordare să se piardă informaţii valoroase, poate singurele cu adevărat importante în
procesul studiat. Prin urmare, se va studia în prealabil:
• dacă valorile au apărut în urma unor erori de măsurare,
• dacă reprezintă cazuri neimportante pentru procesul studiat,
• dacă există influenţe majore asupra modelului (a coeficienţilor).
In cazul neîndeplinirii unei asemenea condiţii, atunci valoarea nu este
eliminată şi se va încerca, pentru o adecvanţă mai mare a modelului, să se obo
adecvanţă mai mare a modelului, să se obţină determinări suplimentare în acea
regiune a spaţiului variabilelor.

Transformări de variabile
În cazul în care relaţia dintre y şi x nu pare a fi liniară, situaţie detectabilă
într-o diagramă de împrăştiere, sau dispersia valorilor y nu pare a fi constantă după
valorile lui x, se poate încerca o
transformare prealabilă a lui x şi/sau
y. Mosteller şi Tukey (1977) propun
un ghid (bulging rule) pentru
selectarea unei transformări care să
pconducă la o "liniarizare" a relaţiei.
Se observă, în figura alăturată, că pe
fiecare axă, x sau y, se propune o
creştere (x2, x3 ...) sau o scădere (log
x, x , 1/x ...) a gradului variabilei
respective. Prin urmare, se va
identifica forma relaţiei în diagrama
de împrăştiere şi se vor utiliza
transformările din cadranul
corespunzător.
Un alt set de propuneri de transformări de variabile pornesc de la histograma
valorilor variabilei (şi nu de la diagrama de împrăştiere):
Histograma variabilei x Transformarea propusă

x
1.

lg x
2.

1
x
3.

max( x) +1 − x
4.

lg (max(x) +1– x)
5.

1
max( x) + 1 − x
6.
De notat că situaţiile 4 - 6 sunt reduse la 1 - 3 prin simetrizare.

Regresia polinomială
Un caz particular des utilizat de model liniar este regresia polinomială.
Modelul polinomial este
y = α0 + α1x + α2x2 + … + αpxp + ε
Se observă că există o singură variabilă independentă, x. Acest model se
impune atunci când forma relaţiei dintre y şi x este curbilinie, fapt sugerat de
diagrama de împrăştiere sau de considerente teoretice.
Pentru a estima un model polinomial este necesar, dacă produsul informatic
utilizat nu dispune de o procedură specializată, să se genereze variabilele
independente ca puteri ale variabilei iniţiale.
y x x2 … xp
y1 x1 x12 … x1p
y2 x2 x22 … x2p
… … … … …
Estimarea are loc prin procedura uzuală a regresiei multiple, considerând
puterile calculate drept noi variabile, cu aceleaşi interpretări şi teste ca la modelul
liniar.
B. Instrumente SPSS
SPSS

Dreapta de regresie
Reamintim principalul dialog pentru estimarea unui model liniar se obţine prin
Analyze –Regression –Linear.
În Dependent se va transfera
variabila dependentă. Variabilele
independente, Independent(s), pot fi
grupate pe blocuri: 1. se transferă
variabilele dorite, 2. se precizează în
Method modul de introducere a acestor
variabile în regresie (Enter – toate
simultan, Forward, Backward, Stepwise –
metodele discutate la alegerea celei mai
bune regresii), 3. se defineşte un nou bloc
prin Next.
Se pot selecta observaţiile
precizând în Selection Variable variabila
şi, prin Rule, regula de selectare a
cazurilor în funcţie de valorile variabilei
de selecţie.
Butonul Statistics deschide
dialogul sinonim în care se pot preciza
statisticile calculate. Unele opţiuni sunt
selectate şi în mod implicit.
Estimates – coeficienţii estimaţi,
Confidence intervals – intervalele de
încredere ale coeficienţilor, Model fit –
calcularea statisticilor R, R2 şi a tabelului
ANOVA, R squared change – modificărea
coeficientului de determinare şi testarea semnificaţiei schimbării
la adăugarea fiecărui bloc de variabile, Descriptive – statisticile
esenţiale pentru fiecare variabilă
Pentru tema curentă este importantă alegerea Collinearity diagnostics –
calcularea toleranţelor, a statisticilor VIF şi studiul multicoliniarităţii prin analiza în
componente principale (a se vedea capitolul următor al cursului). În acest caz, tabelul
privind coeficienţii modelului estimat va conţine încă două coloane cu statisticile
privind diagnosticul coliniarităţii.
Apare totodată în fişierul de ieşire un tabel intitulat Collinearity Diagnostics
care conţine informaţii privind analiza factorială (a se vedea capitolul următor din
curs) a variabilelor independente. Se poate deocamdată interpreta (mecanic) faptul că
existenţa mai multor valori proprii situate în imediata vecinătate a lui 0 denotă o
posibilă coliniaritate în variabilele independente.
In ceea ce priveşte valorile aberante reamintim dialogul Plots (prezentat în
lucrarea trecută) prin intermediul căruia se pot solicita diagramele asociate
reziduurilor.
Din dialogul Save, care permite calcularea şi salvarea unor variabile noi
(valorile prognozate, reziduuri sub diferite forme etc.) accentuăm elementele:
Distances – distanţele cazurilor de la punctul mediu, pentru identificarea
valorilor aberante: Mahalanobis este distanţa explicată în capitolul privind
clasificarea, Cook's este distanţa Cook explicată mai sus (o valoare mare arată o
influenţă considerabilă a cazului în estimarea coeficienţilor), Leverage values măsoară
influenţa cazurilor în estimare.
Influence Statistics sunt modificările în coeficienţi (inclusiv cei standardizaţi),
DfBeta(s) şi Standardized DfBeta, şi în valorile prognozate, DfFit şi Standardized
DfFit, rezultate după excluderea cazului din estimare.
In ieşirea SPSS, valorile aberante pot fi deci identificate prin
1) Std residual sau Stud Residual mai mari decât 3 în valoare absolută.
2) Standardized DfBeta mai mari de 1 (sau, după alţi autori, chiar mai mari de
2/Sqrt(N)).
3) Cook’s D mai mare decât 4/N pot indica observaţii cu probleme..

C. Lucrarea practică
1) Se va salva şi deschide fişierul
www.infoiasi.ro/~val/statistica/Expenditures.xls
Datele se referă la cheltuielile publice (1960) pe cap de locuitor în statele
americane. Variabilele sunt
EX: cheltuieli publice pe locuitor
ECAB: indice de dezvoltare economică
MET: procentajul populaţiei din zone metropolitane
GROW: modificarea procentuală a populaţiei 1950-1960
YOUNG: procentajul populaţiei tinere 5-19 ani
OLD: procentajul populaţiei peste 65 ani
WEST: 1 pentru statele din vest, 0 pentru celelalte
i) să se studieze relaţia dintre EX (nivelul cheltuielilor) şi indicatorii
demografici şi economici (ECAB, MET, GROW, YOUNG, OLD)
ii) se va estima o regresie polinomială în cazul în care asocierea pare a fi
curbilinie
iii) se vor identifica valorile aberante şi se va reface estimarea prin excluderea
acestora
iv) se va estima şi analiza regresia multiplă
EX = f(ECAB, MET, GROW, YOUNG, OLD)
atât pe ansamblu, cât şi pentru fiecare categorie de state (estice, vestice).
Se vor identifica diferenţele.
2) Se va deschide fişierul Employee Data.sav dintre fişierele de test SPSS.
i) se va modela salariul curent funcţie de celelalte variabile continue.
(1) se va studia influenţa variabilelor independente.
(2) se vor analiza şi trata valorile aberante.
ii) se va reface analiza pentru fiecare categorie de job

S-ar putea să vă placă și