Sunteți pe pagina 1din 17

Statistic multivariat

Lucrarea nr. 8 Regresia liniar multipl - Excel, SPSS A. Noiuni teoretice


Regresia liniar, prin metoda celor mai mici ptrate, este metoda de modelare cea mai des utilizat. Este metoda denumit regresie, regresie liniar, regresie multipl sau cele mai mici ptrate atunci cnd se construiete un model. Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenia relaia dintre o variabil dependent (explicat, endogen, rezultativ) i o mulime de variabile independente (explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se ncearc, adesea, obinerea rspunsului la una dintre ntrebrile: care este cea mai bun predicie pentru ?, cine este cel mai bun predictor pentru ? . De reinut c metoda regresiei multiple este generalizat prin teoria modelului liniar general, n care se permit mai multe variabile dependente simultan i, de asemenea, variabile factoriale care nu sunt independente liniar. Clasa modelelor liniare poate fi exprimat prin y=x+ unde y este variabila dependent (explicat, endogen, rezultativ), x este vectorul variabilelor independente (explicative, exogene), de dimensiune 1p, este vectorul coeficienilor, de dimensiune p1, parametrii modelului, este o variabil, interpretat ca eroare (perturbare, eroare de msurare etc.). Cu alte cuvinte, y = 1x1+2x2++pxp+ care exprim relaia liniar dintre y i x. Observaii. 1. Liniaritatea relaiei se refer la coeficieni i nu la variabile. Astfel, modelul 1 y = 1 x12 + 2 x2 + 3 + x3 este tot un model liniar. 2. Considernd c x1 este constant egal cu 1, se obine un model liniar care include un termen constant (termenul liber al modelului). 3. Pentru p = 2 i x1 1 se obine modelul liniar simplu, dreapta de regresie. 4. Utilitatea principal a unui model liniar este aceea a prediciei valorii lui y din valorile cunoscute ale variabilelor x. Presupunem c avem un set de n observaii efectuate asupra variabilelor implicate n model. Prin urmare dispunem de (xi1, xi2, . . . . , xip, yi), i = 1, 2, . . . , n. Notnd cu y vectorul de tip n1 avnd drept componente valorile msurate pentru variabila y, cu X matricea (xij)np a valorilor msurate pentru variabilele x i cu vectorul de tip n1 avnd drept componente valorile erorilor, modelul se rescrie n relaia matriceal: y = X +

Ipoteze iniiale. n tot ceea ce urmeaz se presupun ndeplinite ipotezele: 1. Matricea de experiene, n observaii pentru p variabile, este fixat: Xnp nu este stohastic. n plus, n >> p. 2. X este de rang p (coloanele sunt liniar independente formeaz o baz a unui spaiu vectorial p-dimensional). 3. a. Vectorul de perturbaii (n-dimensional) const din n variabile aleatoare independente cu media 0 i aceeai dispersie: Exp() = 0 Var() = Exp(') = 2In , unde 2 este un parametru necunoscut, sau, b. Vectorul este o v.a. n-dimensional normal ~ N(0, 2In ). De remarcat c ultima ipotez, a normalitii, este, mai degrab, o ipotez simplificatoare dect una restrictiv, cum sunt primele dou. Aceasta deoarece erorile se datoreaz, n general, n procesele studiate, aciunilor simultane ale unor factori aleatorii, ceea ce prin teorema de limit central conduce la concluzia c , ca sum a lor, tinde spre o repartiie normal. Problemele principale urmrite sunt: estimarea coeficienilor , calitatea estimrii, verificarea ipotezelor, calitatea prediciei, alegerea modelului.

Estimaia prin cele mai mici ptrate


Numim estimaie (ajustare) a modelului orice soluie {a, e} a sistemului y = Xa + e. Este de remarcat c sistemul conine n ecuaii i p + n necunoscute, deci admite o infinitate de soluii. Numim estimaie prin cele mai mici ptrate, acea soluie a care minimizeaz suma ptratelor erorilor ei, adic

ei2 =[ yi (a1xi1 + a2 xi 2 + K + a p xip )]2 .


i =1 i =1

Cum

2 i =1 i

e = ee este o funcie de coeficienii a, o condiie necesar pentru

atingerea maximului este

(ee) = 0 . a

Se obine

a = (X'X)-1X'y i se demonstreaz c este ndeplinit criteriul de minim i c este singura valoare cu aceast proprietate adic valorile determinate reprezint estimaia prin cele mai mici ptrate a coeficienilor modelului liniar. Ecuaia y = a1x1 + a2x2 + + apxp se numete ecuaia de regresie multipl. nlocuind n aceast relaie valori pentru variabilele independente xi se obine valoarea prognozat pentru variabila dependent y.

Interpretarea coeficienilor Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi produce o modificare a valorii y cu ai uniti. Deoarece scalele de msur sunt, n general, diferite, interpretarea n acest sens a coeficienilor poate deforma imaginea importanei variabilelor independente n model. Din acest motiv se introduc coeficienii de regresie standardizai definii drept coeficienii de regresie estimai ai modelului: ~ y = 1 ~ x1 + 2 ~ x2 + K + p ~ xp ~ ~ n care nu exist termen liber, iar variabilele y i x sunt variabilele standardizate,
i

xx x= . prin standardizare nelegndu-se transformarea de tipul ~ sx Coeficienii de regresie standardizai au interpretarea: modificarea cu o abatere standard a valorii variabilei x produce o modificare cu i abateri standard a valorii variabilei dependente. n acest fel, mrimea coeficienilor standardizai reflect importana variabilelor independente n predicia lui y.
Distribuia estimatorului Exp(a) = Var(a) = 2(X'X)-1. Estimaia dispersiei erorilor (2) Notnd cu valoarea ajustat, dat de ecuaia de regresie, pentru o realizare a vectorului x, considerat la estimarea parametrilor, se obine eroarea de ajustare, notat cu e: ei = yi - i, i = 1,,n. Erorile de ajustare sunt denumite uzual reziduuri i analiza lor este o parte important studiului calitativ al ecuaiei de regresie. Este evident c reziduurile constituie estimaii ale erorilor . Se demonstreaz c
s2 =

(y
i =1

i ) 2 y

n p este o estimaie nedeplasat a dispersiei necunoscute 2. Este de notat c numitorul este egal cu numrul gradelor de libertate a sumei de la numrtor (n observaii din care am obinut p estimaii).

Precizia ajustrii
Reziduuri mici exprim o ajustare mai bun a datelor experimentale, dar stabilirea unui criteriu care s indice ct de mici trebuie s fie reziduurile pentru ca regresia s fie acceptat este o problem dificil. Pentru a obine o msur a preciziei ajustrii se pleac de la identitatea i = ( yi y ) ( y i y ) yi y care, prin reorganizarea termenilor, produce i y ) + ( yi y i ). yi y = ( y Se poate demonstra c are loc identitatea: i y ) 2 + ( yi y i ) 2 . ( yi y )2 = ( y
i i i

Aceast relaie arat c variaia valorilor observate n jurul valorii medii se descompune ntr-un termen ce exprim variaia valorilor estimate n jurul mediei i ntr-un termen datorat reziduurilor ajustrii. Prin urmare, regresia estimat va fi cu att mai bun cu ct ultimul termen va fi mai mic, sau cu ct variaia valorilor estimate va fi mai apropiat de variaia valorilor observate. Se alege drept indicator sintetic de precizie a ajustrii raportul i y )2 (y 2 R = i . ( yi y )2
i

Pentru o bun ajustare a ecuaiei de regresie la datele experimentale, trebuie ca acest raport s fie apropiat de 1. Cantitatea R2 se numete coeficientul de determinare i, exprimat procentual, arat ct din variana variabilei dependente este explicat de ecuaia estimat. Este un indicator de asociere avnd atributul PRE, i ) 2 ( yi y )2 ( yi y i R2 = i ( y i y )2
i

deci poate fi interpretat i n urmtorul sens: cu ct se mbuntete prognoza valorilor y prin considerarea modelului estimat. Se arat c R2 crete prin includerea mai multor variabile n model, astfel nct are loc o supraestimare n cazul modelelor extinse. O soluie propus este ajustarea coeficientului de determinare prin p 1 R 2 = R2 (1 R 2 ). n p

Coeficientul de corelaie multipl Ca msur a asocierii dintre y i ansamblul variabilelor x se introduce coeficientul de corelaie multipl, notat cu R. Poate fi definit drept coeficientul maxim de corelaie simpl (Pearson) dintre y i o combinaie liniar de variabile x. Astfel se explic faptul c valoarea calculat a lui R este ntotdeauna pozitiv i tinde s creasc o dat cu mrirea numrului de variabile independente. Metoda celor mai mici ptrate poate fi astfel gndit ca o metod care maximizeaz corelaia dintre valorile observate i valorile estimate (acestea reprezentnd o combinaie liniar de variabile x). O valoare R apropiat de 0 denot o regresie nesemnificativ, valorile prognozate de regresie nefiind mai bune dect cele obinute printr-o ghicire aleatorie (sau bazate doar pe distribuia lui y). Deoarece R tinde s supraestimeze asocierea dintre y i x, se prefer indicatorul definit anterior, coeficientul de determinare, R2, care este ptratul coeficientului de corelaie multipl.

Testarea ipotezelor
Notm SPg =

( yi y )2 ,
i

SPreg =

i y ) 2 , (y
i

SPrez =

i ) 2 ( yi y
i

cele trei sume de ptrate care apar n identitatea introdus la definirea coeficientului de determinare. Sumele sunt referite ca suma ptratelor global (SPg), suma ptratelor datorate regresiei (SPreg) i suma ptratelor reziduale (SPrez). Fiecare sum de ptrate

are ataat un numr de grade de libertate: g = n-1, reg = p-1, rez = n-p i se poate realiza un tabel al analizei dispersionale (ANOVA) sub forma
Sursa de variaie Regresie Rezidual Global Suma de ptrate Grade de libertate Media ptrat F

SPreg SPrez SPg

reg rez g

SPreg / reg = s2reg SPrez / rez = s2 SPg / g

F = s2reg / s2

Testul F de semnificaie global Primul test utilizat n analiza regresiei este un test global de semnificaie a ansamblului coeficienilor (exceptnd termenul liber, dac acesta apare). Ipotezele testului sunt H0: 1 = 2 = = p = 0 H1: ()i, astfel nct i 0. n condiiile ipotezei nule, se demonstreaz c statistica F, calculat n tabelul ANOVA, este repartizat Fisher-Snedecor Fp-1;n-p, nct se poate verifica ipoteza nul. Nerespingerea ipotezei nule duce la concluzia c datele observate nu permit identificarea unui model liniar valid, deci regresia nu este adecvat n scopul de prognoz, propus iniial. Teste t n situaia cnd este respins ipoteza nul, se accept c ecuaia de regresie este semnificativ la nivel global, cu meniunea c s-ar putea ca anumii coeficieni s nu fie semnificativi. Pentru testarea fiecrui coeficient se utilizeaz un test t cu ipotezele: H0 : i = 0 H1: i 0. a n condiiile ipotezei H0 se arat c statistica ti = i este repartizat Student s (ai ) cu n p grade de libertate, ceea ce permite utilizarea testului t. n expresia care d statistica testului, s(ai) este abaterea standard estimat a coeficientului, dat ca rdcina ptrat din elementul corespunztor de pe diagonala principal a matricei s2(XX)-1. Nerespingerea ipotezei nule arat c datele experimentale nu permit stabilirea necesitii prezenei variabilei xi n model, variabila este nesemnificativ n model.

Intervale de ncredere
Apar de interes dou tipuri de intervale de ncredere: pentru parametrii modelului, i, i pentru valorile prognozate cu ajutorul modelului estimat.

Parametrii modelului O regiune de ncredere, la nivelul , pentru ansamblul parametrilor este dat
de ( a)XX( a) ps2F1-,p,n-p Utiliznd repartiia statisticilor ti, definite la testarea semnificaiei parametrilor, se demonstreaz c intervalul de ncredere pentru parametrul i, i = 1, 2, , p, este dat la pragul de ncredere , de relaia ai t1-/2;n-ps(ai) 1 ai + t1-/2;n-ps(ai) .

Valorile prognozate Utilitatea principal a modelului liniar este prognozarea valorilor variabilei dependente. Valoarea prognozat este evident o statistic pentru c se obine prin modelul estimat (din datele experimentale). Se poate atunci vorbi de repartiia de sondaj a valorii prognozate, repartiie care st la baza determinrii intervalelor de ncredere pentru valorile prognozate. n estimarea intervalului de ncredere pentru o valoare y0= x0 + 0, se distinge ntre situaiile n care observaia x0 a fost, sau nu, utilizat la estimarea coeficienilor (cu alte cuvinte, dac matricea X conine sau nu linia x0). n primul caz, intervalul de ncredere pentru valoarea estimat este y0 0 + t1-/2;n-ps x0 ( X X ) 1 x0 0 t1-/2;n-ps x0 ( X X ) 1 x0
unde 0 = x0a, este valoarea prognozat de ecuaia de regresie. n al doilea caz, intervalul de ncredere este
+ 1 y0 0 + t1-/2;n-ps x0 ( X X ) 1 x0 +1 . 0 t1-/2;n-ps x0 ( X X ) 1 x0

n cazul regresiei simple (dreapta de regresie), ultimul interval de ncredere are forma 0 t1-/2;n-ps

1 ( x0 x ) 2 1 ( x0 x ) 2 + + y + t s , 0 0 1 /2;n-p n ( xi x ) 2 n ( xi x ) 2

de unde se obine concluzia c valorile prognozate au intervale de ncredere, la acelai prag de ncredere, mai mari pe msur ce valoarea x0 este mai deprtat de media x . De aici apare recomandarea ca un model liniar s nu fie utilizat pentru prognoz n cazul n care variabilele independente au valori deprtate de centrul datelor considerate la estimarea modelului (de exemplu, estimarea trendului ratei de schimb valutar din datele unei sptmni nu poate fi utilizat pentru a prognoza rata de schimb de peste un an). n cazul unui sistem dinamic (valorile sunt produse/evaluate n timp), prognoza se va realiza doar pentru cteva momente de timp, dup care are loc o nou estimare a modelului etc.

Analiza reziduurilor
Analiza statistic a ecuaiei de regresie este bazat pe ipotezele Gauss-Markov asupra erorilor ~ N(0, 2In ). Valabilitatea acestor ipoteze, n special cea a normalitii erorilor, poate fi testat prin analiza reziduurilor. Ca i n cazul testelor statistice, concluziile analizei sunt de genul: ipoteza normalitii se respinge sau ipoteza normalitii nu se respinge. Analiza reziduurilor este, n esen, de natur grafic. Calculul estimaiilor erorilor produce e = Yobs-Yest = Yobs Xa = Yobs X(XX)-1XYobs = (1 X(XX)-1X)Yobs Notnd Z = X(XX)-1X = (zij), rezult c, n cazul ndeplinirii ipotezelor Gauss-Markov, dispersia reziduului ei este egal cu (1-zii) 2 unde zii sunt elementele de pe diagonala principal a matricei Z, cu estimaia s2(ei) = (1-zii)s2. Reamintim c media reziduurilor este egal cu zero. Ipotezele de repartiie a erorilor sunt reflectate n repartiia reziduurilor (estimaii ale erorilor). Se analizeaz histograma reziduurilor sau diagrame ale reziduurilor n raport de valorile estimate, de variabilele independente. Diagramele construite n continuare pun n eviden eventualele abateri de la repartiiile presupuse pentru erori, abateri ce vor exprima deviaiile de la ipotezele de repartiie a erorilor.

Diagrama reziduurilor
Deoarece ei ~ N (0; (1 zii ) 2 ) , rezult c mrimile di, i = 1,,n, date de ei di = s 1 zii
sunt repartizate N(0;1). Din acest motiv, mrimile di sunt denumite reziduuri normalizate. Observaie. n practic, se neglijeaz uneori radicalul de la numitor. Histograma mrimilor di trebuie s reflecte o repartiie normal standard. Atunci cnd n este relativ mic, histograma va prezenta, n general, mari neregulariti fa de situaia care ar permite aproximarea cu o curb normal. Decizia referitoare la proveniena, sau neproveniena, dintr-o repartiie normal se poate lua n acest caz, de exemplu, n urma comparaiei cu histograme obinute pentru eantioane de acelai volum n generate aleatoriu dintr-o repartiie normal standard.

Diagrama reziduuri valori estimate Considernd punctele de coordonate (i,di), i = 1,,n, reprezentate ntr-un sistem de axe rectangulare, sunt posibile 4 situaii caracteristice, sau combinaii ale lor, de regiuni ocupate de punctele considerate.

a)

b)

c)

d)

Cazul a) nu arat nici o abatere de la normalitate i nici o violare a ipotezei c erorile au aceeai dispersie constant. n cazul b), se constat o cretere a dispersiei, deci este invalidat ipoteza constanei dispersiei erorilor. Practic, n aceast situaie se consider c modelul nu conine o variabil esenial, cum ar fi timpul, sau c metoda de calcul adecvat este metoda celor mai mici ptrate ponderate. n anumite situaii reale, situaia poate fi rezolvat i printr-o transformare prealabil a datelor (de exemplu, prin logaritmare). Cazul c) arat practic o eroare de calcul, deoarece este ca i cum nu s-ar fi reuit explicarea unei componente liniare a variaiei variabilei dependente. Cazul al patrulea, d), arat c modelul nu este adecvat datelor observate. Se ncearc un nou model care s includ variabile de ordin superior, de genul x2, care s preia variaia curbilinie, sau se transform n prealabil variabila y. Observaie. Indiferent de forma regiunilor, punctele foarte deprtate de celelalte ofer informaii despre observaiile aberante. Regula uzual este aceea ca orice observaie pentru care |di| > 3 s fie considerat o observaie aberant. Practic, n acest caz, observaiile aberante se vor exclude din setul de date sau, dac observaiile

sunt totui de interes, se va ncerca obinerea unor determinri suplimentare n regiunea de interes. n ambele situaii se va reface calculul regresiei.

Diagrama reziduuri variabil independent Se vor reprezenta grafic punctele de coordonate (xji,di), i = 1,,n, pentru fiecare variabil independent xj. Cele patru situaii grafice possibile se interpreteaz similar, cu observaia c situaia d) impune introducerea n model a variabilei xj ridicat la o putere.

Multicoliniaritatea
Situaia descris drept multicoliniaritate apare atunci cnd un grup de variabile independente sunt puternic corelate ntre ele. n acest caz, prin includerea n model a unei variabile din grup, restul variabilelor din grup nu mai aduc o informaie semnificativ. Simultan are loc o supraevaluare a coeficientului de determinare, ca i a dispersiilor coeficienilor estimai, ceea ce poate denatura interpretarea modelului i, n plus, produce mrirea intervalelor de ncredere. Apar astfel dou probleme: determinarea multicoliniaritii i cum trebuie procedat n cazul existenei multicoliniaritii.

Detectarea multicoliniaritii Cea mai simpl metod de detectare a multicoliniaritii este bazat pe studiul matricei de corelaie dintre variabilele x. Se pot determina astfel perechile de variabile independente care sunt puternic corelate ntre ele. O structur mai complex a intercorelaiilor poate fi detectat prin calcularea determinantului acestei matrice de corelaie. O valoare apropiat de zero a determinantului reflect o puternic corelaie ntre anumite variabile, deci existena multicoliniaritii. O alt abordare a problemei este aceea a stabilirii unui indicator sintetic pentru a decide dac o variabil este coliniar cu celelalte (sau cu un grup dintre celelalte). Notnd cu Ri2 coeficientul de determinare obinut la estimarea regresiei multiple avnd ca variabil dependent pe xi i ca variabile independente restul variabilelor x, adic xi = f ( x1 , x2 ,K, xi 1 , xi +1 ,K, x p )
se introduce tolerana variabilei xi prin

i = 1 Ri2 .

O valoare mic a lui i (uzual mai mic dect 0,1) reflect un coeficient Ri2 apropiat de 1, deci o legtur liniar puternic ntre xi i restul variabilelor independente. Prin urmare xi este coliniar cu celelalte variabile independente. Se definete factorul de inflaie a varianei, notat VIF, inversul toleranei: 1 VIFi = .

Denumirea provine din aceea c un asemenea factor apare multiplicativ n definirea varianei coeficienilor estimai (se poate spune c se msoar de cte ori este supraevaluat variana coeficienilor datorit multicoliniaritii n raport cu situaia cnd nu ar exista coliniaritate). Interpretarea este dedus din cea a toleranei: o valoare VIF mare (uzual mai mare dect 10), denot coliniaritate.

Eliminarea multicoliniaritii O rezolvare comun a problemei multicoliniaritii este aceea ca dintre dou variabile independente corelate s se rein n model doar una. Prin interpretarea toleranelor sau a factorilor de inflaie se vor exclude din model acele variabile care au tolerane mici (sau factori de inflaie mari).

Cea mai bun regresie


Procesul de selectare a celei mai bune regresii are loc n contextul n care exist o variabil dependent y i o mulime de variabile independente posibile x. Problema poate fi formulat: Care este acea submulime minimal de variabile independente care permite estimarea unui model liniar semnificativ i adecvat valorilor observate y?
Etapele selectrii celei mai bune regresii 1. Se identific toate variabilele independente posibile (cu alte cuvinte se specific modelul maxim). 2. Se specific criteriul de selectare a celei mai bune regresii. 3. Se specific o strategie pentru selectarea variabilelor independente. 4. Se realizeaz estimarea i analiza modelului. 5. Se evalueaz reliabilitatea modelului ales. Strategii de selectare a celui mai bun model

Metoda tuturor regresiilor posibile


Se estimeaz toate regresiile posibile. Se rein valorile coeficienilor de determinare; gruparea este dup cardinalul mulimii de predictori.
Variabile independente R2

{x1}, {x2} {x1,x2}, {x1,x3}, , {xn-1,xn} {x1,x2,,xn} Se analizeaz valorile R2 i se reine acea submulime de variabile pentru care se realizeaz compromisul acceptabil ntre numrul de variabile i mrimea coeficientului de determinare.

Selecia prospectiv
Procedura ncepe prin includerea n model a variabilei independente avnd cel mai mare coeficient de corelaie cu variabila y. La fiecare pas urmtor, se analizeaz fiecare dintre variabilele neincluse nc n model printr-un test F secvenial i se extinde modelul prin includerea acelei variabile care aduce o contribuie maxim (probabilitatea critic din testul F este cea mai mic). Procesul se oprete atunci cnd modelul nu mai poate fi extins, criteriul uzual fiind acela al fixrii un prag de intrare (PIN) i acceptnd doar variabilele pentru care probabilitatea critic n testul F secvenial este mai mic sau egal cu acest prag. Procedura are ca limitri faptul c anumite variabile nu vor fi incluse n model niciodat, deci importana lor nu va fi determinat. Pe de alt parte, o variabil inclus

la un anumit pas rmne permanent n model, chiar dac, prin includerea ulterioar a altor variabile, importana ei poate s scad.

Selecia retrograd
Se ncepe cu estimarea modelului complet i apoi, ntr-un numr de pai succesivi, se elimin din model variabilele nesemnificative. La fiecare pas, pe baza unui test F parial, se elimin acea variabil care are cea mai mare probabilitate critic. Procesul se oprete atunci cnd nici o variabil nu mai poate fi eliminat. Criteriul uzual este acela de fixare a unui prag de eliminare (POUT) i considerarea doar a variabilelor care au probabilitatea critic mai mare dect acest prag.

Selecia pas cu pas


Procedura pas cu pas (stepwise regression) este o combinaie a celor dou metode descrise anterior. La un pas ulterior al regresiei prospective se permite eliminarea unei variabile, ca n regresia retrograd. O variabil eliminat din model devine candidat pentru includerea n model, iar o variabil inclus n model devine candidat la excludere. Pentru ca procesul s nu intre ntr-un ciclu infinit, trebuie ca PIN POUT.

B. Instrumente Excel, SPSS


Excel REGRESSION
Estimarea coeficienilor unui model liniar prin metoda celor mai mici ptrate i calculul statisticilor necesare testelor statistice asociate sunt efectuate de procedura Regression, una dintre cele mai complexe din pachetul de prelucrri statistice din Excel. Procedura permite i construirea graficelor necesare pentru aprecierea vizual a potrivirii modelului liniar. Dei acestea, din motive evidente, necesit prelucrri suplimentare de scalare nainte de interpretare, existena lor este un real ajutor pentru statistician.
Termeni

Modelul liniar estimat de procedur este


Y = 0X0 + 1X1 + 2X2 + + p-1Xp-1 + ,

care exprim faptul c variabila Y se poate obine ca o combinaie liniar a variabilelor X0, X1,, Xp-1 la care se adaug o "eroare" . Pentru estimarea parametrilor modelului se consider disponibile n observaii asupra tuturor variabilelor din model. Valorile sunt structurate ca un tablou dreptunghiular, fiecare variabil ocupnd o coloan (deci o linie este referit drept o observaie). Dialogul procedurii Regression este prezentat n figura urmtoare.

Input Input Y Range se precizeaz domeniul (coloana) pe care se afl valorile variabilei dependente. Input X Range se precizeaz domeniul pe care se afl valorile tuturor variabilelor independente. Acest domeniu trebuie s fie compact, fiecare variabil Xi ocupnd o coloan. Labels se marcheaz boxa de control n cazul n care prima linie din tabloul de date este cu denumirile variabilelor (situaie recomandat). Constant Is Zero se marcheaz boxa de control dac modelul care se estimeaz este fr termen liber. Confidence Level se precizeaz, procentual, sigurana statistic dorit n raportarea intervalelor de ncredere deci valoarea (1)100, unde este pragul de semnificaie. Intervalele obinute sunt suplimentare, ntotdeauna afindu-se cele pentru = 0,05. Boxa se va marca doar dac se dorete i un alt prag de semnificaie. Output options Output Range, New Worksheet Ply, New Workbook Precizeaz zona unde se vor nscrie rezultatele. Zona de rezultate este foarte complex, cuprinde tabele care depind de mrimea modelului, de numrul de observaii, de numrul graficelor dorite etc. Prin urmare se va prefera o foaie de calcul nou sau o zon liber n dreapta i n jos. Residuals Residuals se marcheaz boxa de control n cazul cnd se dorete calcularea reziduurilor modelului estimat. Residual Plots se marcheaz boxa de control n cazul cnd se dorete obinerea diagramelor reziduuri variabil independent, adic vizualizarea punctelor de coordonate (xij, rj), j = 1,n, avnd ca abscis o valoare a variabilei independente Xi, iar ca ordonat reziduul corespunztor. Standardized Residuals aceast box de control se va marca dac se dorete calculul valorilor standardizate ale reziduurilor. Valorile astfel obinute provin, teoretic, dintr-o distribuie normal standard, astfel nct o histogram a acestor valori trebuie s se apropie de curba normal (clopotul lui Gauss). Line Fit Plots se marcheaz aceast box de control dac se dorete afiarea diagramelor Y variabil independent, prin care se vizualizeaz, pe un acelai grafic, punctele de coordonate (xij, yobs,i), (xij, yest,i), j = 1,,n, unde abscisele sunt valorile variabilei independente, iar ordonatele sunt valorile observate i cele estimate ale variabilei dependente. Este desenat cte un grafic pentru fiecare variabil independent. Interpretarea acestor diagrame poate oferi indicaii asupra adecvanei modelului, asupra valorilor aberante. Normal Probability Normal Probability Plots se marcheaz dac se dorete vizualizarea repartiiei de sondaj a variabilei Y ntr-o reea de probabilitate. Exemplu Un set de date cuprinde 25 de observaii asupra a 4 variabile, notate Y (considerat variabila dependent) i X1, X2, X3 (considerate variabile independente). Valorile i denumirile ocup n foaia de calcul un domeniu dreptunghiular continuu, B2:E27, valorile Y ocupnd prima coloan.

Pentru a estima modelul liniar


Y = 0 + 1X1 + 2X2 + 3X3 + ,

cu termen constant, se apeleaz procedura Regression.

a) Un prim tabel de rezultate, prezentat n figura alturat, conine statisticile generale ale ecuaiei de regresie.

Multiple R coeficientul multiplu de corelaie. R Square coeficientul de determinare (este egal cu ptratul coeficientului de corelaie multipl). Poate fi gndit, exprimat procentual, drept proporia din variaia variabilei dependente explicat de variaia variabilelor independente: 60,7% din variaia lui Y este explicat de variabilele X. Adjusted R Square valoarea corectat a coeficientului de determinare. Este introdus pentru a contracara (parial) efectul creterii mecanice a lui R2 o dat cu numrul variabilelor independente. Standard Error eroarea standard a estimaiei. Se calculeaz ca abaterea standard a reziduurilor (pentru numrul gradelor de libertate utilizat se va vedea tabloul ANOVA, n continuare) i este estimaia abaterii standard a erorilor (n ipoteza normalitii acestora). Observations numrul de observaii din eantion.
b)

Al doilea tabel de rezultate cuprinde tabloul de analiz a varianei asociat regresiei estimate.

Coloanele acestui tablou au semnificaiile uzuale ntr-un tablou ANOVA:


Sursa de variaie arat descompunerea variaiei totale n variaia explicat de regresie i cea rezidual (neexplicat). df numrul gradelor de libertate: 3 = p 1, 21 = n p, 24 = n 1, unde p = 4 este numrul parametrilor modelului (trei variabile X plus termenul liber) iar n = 25 este numrul de observaii. SS sumele de ptrate potrivit descompunerii
Suma global de ptrate = Suma de ptrate datorat regresiei + Suma de ptrate rezidual

MS media sumelor de ptrate: SS mprit la numrul respectiv de grade de libertate. Valoarea de pe linia a doua (Residual) este estimaia dispersiei pentru repartiia erorilor i este ptratul erorii standard a estimaiei. F valoarea statisticii F pentru testul caracterizat de H0 : 1 = 2 = 3 = 0 H1 : exist cel puin un coeficient i diferit de zero. Acest test se refer la ansamblul variabilelor independente (este de remarcat c H0 nu se extinde i asupra termenului liber). Datorit nelesului ipotezei nule, se consider c prin acest test se verific semnificaia ntregii regresii. Significance F este probabilitatea critic unilateral. Dac valoarea afiat este mai mic dect pragul de semnificaie fixat, atunci se respinge ipoteza nul n favoarea ipotezei alternative. c) Al treilea tablou de rezultate conine valorile estimate pentru coeficienii modelului, precum i statisticile necesare verificrii ipotezelor uzuale asupra coeficienilor. De remarcat c, spre deosebire de testul F, testele asupra coeficienilor sunt individuale.

Liniile tabelului se refer la variabilele din model, incluznd i termenul liber. Coloanele tabelului sunt urmtoarele: (prima coloan) sunt afiate denumirile existente n tabloul de date sau create automat pentru variabilele independente implicate. Intercept este denumirea pentru termenul liber (constant) al modelului. Coefficients conine valorile estimate ale coeficienilor. Din valorile afiate rezult c modelul estimat n exemplu este Y = 11,718 1,443*X1 + 3,135*X2 0,324*X3. n ipotezele distribuionale ale modelului liniar, valorile calculate ale coeficienilor provin din repartiii normale, fiind astfel posibile verificri statistice ale coeficienilor. Standard Error eroarea standard a coeficientului (abaterea standard a repartiiei coeficientului). t Stat statistica t pentru verificarea ipotezei H0 : i = 0 contra ipotezei alternative H1 : i 0. n condiiile ipotezei nule se demonstreaz c raportul dintre coeficient i eroarea standard a coeficientului urmeaz o repartiie Student cu (n p) grade de libertate. Acest raport este tocmai valoarea raportat drept t Stat. Adic 2,161 = 11,718/5,421 etc. Utilizarea statisticii este cea uzual. P-value probabilitatea critic bilateral a testului t cu ipotezele precizate la t Stat. Pentru pragul de semnificaie = 0,05 se poate respinge ipoteza de nulitate a termenului liber (0,042 < 0,05) i a coeficienilor 1 i 2 (0,002 i 0,000 sunt mai mici dect 0,05). Nu se poate respinge ipoteza nul privind coeficientul 3 (0,069 > 0,05). Lower 95%, Upper 95% limitele inferioar i superioar ale intervalului de ncredere pentru parametrul respectiv. Limitele la pragul 0,05 sunt calculate automat, indiferent de iniializarea procedurii Regression. Se poate deci interpreta c, n populaie, parametrii modelului liniar sunt cuprini n intervalele urmtoare: 0,444 < 0 < 22,992 2,271 < 1 < 0,615 ... Se poate observa c ultimul interval cuprinde i valoarea zero, prin urmare se regsete concluzia privind nerespingerea ipotezei nule H0 : 3 = 0.

d) Studiul reziduurilor se poate face pe baza datelor raportate n tabelul alocat reziduurilor, tabel avnd structura urmtoare:

Pentru fiecare observaie (linie din tabelul de date iniial) se afieaz:


Observation numrul de ordine al observaiei.

Predicted y valoarea y prognozat pentru observaia respectiv; se obine nlocuind valorile X ale observaiei n modelul estimat. Residuals valoarea erorii de predicie (diferena dintre valoarea observat i valoarea prognozat). Standard Reziduals valoarea standardizat a erorii. Este obinut prin mprirea reziduului la abaterea standard a reziduurilor (rezultatul nu este susinut absolut riguros de teorie).

e) Analiza calitii modelului este facilitat i de graficele construite automat de procedura Regression. Sunt produse dou tipuri de diagrame: diagrame reziduuri vs. variabile independente i diagrame variabila dependent vs. variabile independente. Graficele necesit, de obicei, prelucrri suplimentare pentru a fi interpretate sau raportate.
Regiunea reziduurilor

n figur se d un exemplu de diagram reziduuri variabil independent X. Punctele din figur se pot considera ntr-o regiune de tip band orizontal ceea ce nu contrazice ipotezele de normalitate a erorilor. Forma de band uniform reflect constana dispersiei reziduurilor pentru tot domeniul variabilei independente X1. Alte forme de distribuire a reziduurilor duc la concluzii importante pentru adecvana modelului n privina variabilei independente implicate:
Forma regiunii Interpretare Situaia "bun". Nu se contrazic ipotezele de normalitate fcute asupra erorilor. Dispersia erorilor nu este constant (se modific dup valorile X). Se poate ca din model s fie omis o variabil de gen "Timp". Modelul liniar nu este adecvat n privina variabilei independente respective. Se poate ncerca un introducerea unui termen ptratic. Situaia poate s apar n urma unei erori de calcul. Practic ar nsemna c nu s-a considerat componenta liniar, adic scopul modelului nu a fost atins.

Diagrama reziduuri variabil

n mod asemntor se pot interpreta diagramele Y X.

SPSS Dreapta de regresie


Principalul dialog pentru estimarea unui model liniar se obine prin Analyze Regression Linear. n Dependent se va transfera variabila dependent. Variabilele independente, Independent(s), pot fi grupate pe blocuri: 1. se transfer variabilele dorite, 2. se precizeaz n Method modul de introducere a acestor variabile n regresie (Enter toate simultan, Forward, Backward, Stepwise metodele discutate la alegerea celei mai bune regresii), 3. se definete un nou bloc prin Next. Se pot selecta observaiile preciznd n Selection Variable variabila i, prin Rule, regula de selectare a cazurilor n funcie de valorile variabilei de selecie. n Case Labels se poate preciza variabila care identific cazurile, etichetele fiind considerate la reprezentrile grafice. Prin WLS Weight se poate preciza variabila de ponderare pentru metoda celor mai mici ptrate ponderate (nediscutat n curs). Butonul Statistics deschide dialogul sinonim n care se pot preciza statisticile calculate. Unele opiuni sunt selectate i n mod implicit. Estimates coeficienii estimai, Confidence intervals intervalele de ncredere ale coeficienilor, Model fit calcularea statisticilor R, R2 i a tabelului ANOVA, R squared change modificrea coeficientului de determinare i testarea semnificaiei schimbrii la adugarea fiecrui bloc de variabile, Descriptive statisticile eseniale pentru fiecare variabil, Collinearity diagnostics calcularea toleranelor, a statisticilor VIF i studiul multicoliniaritii prin analiza n componente principale (a se vedea capitolul urmtor al cursului). n zona Residuals se produce o analiza a reziduurilor pentru a putea decide asupra normalitii acestora i a diagnostica valorile aberante. Prin Plots se afieaz dialogul sinonim n care se pot indica reprezentrile grafice dorite. n lista variabilelor disponibile pentru diagrame se afl DEPENDNT variabila dependent i variabile derivate din regresie cum ar fi valorile prognozate standardizate (*ZPRED), reziduurile standardizate (*ZRESID). Diagramele indicate n Standardized Residual Plots sunt utile pentru verificarea normalitii reziduurilor.

Dialogul Save permite calcularea i salvarea ca variabile noi a valorilor prognozate i a reziduurilor sub diferite forme, precum i salvarea altor statistici de interes. Predicted Values valorile prognozate prin model pentru fiecare caz: Unstandardized, Standardized pentru valorile nestandardizate i standardizate, Adjusted valoarea prognozat pentru un caz din ecuaia de regresie estimat fr a considera acel caz, S.E. of mean predictions abaterile standard ale valorilor prognozate, utile pentru calcularea intervalelor de ncredere ale acestor valori. Distances distanele cazurilor de la punctul mediu, pentru identificarea valorilor aberante: Mahalanobis este distana explicat n capitolul privind clasificarea, Cook's este msura a ct de mult se modific reziduurile dac se elimin cazul respectiv din estimarea modelului (o valoare mare arat o influen considerabil a cazului n estimarea coeficienilor), Leverage values msoar influena cazurilor n estimare. Prediction Intervals sunt intervalele de incredere pentru valorile estimate, la nivelul de ncredere precizat n Confidence Interval. Sunt generate dou variabile. Residuals reziduurile estimrii n diferite forme: standardizate, nestandardizate, studentizate (reziduul este mprit la estimaia abaterii sale standard, proprie fiecrui caz). Deleted, Studentized deleted se refer la reziduurile obinute din modelul la estimarea cruia cazul respectiv a fost exclus. Influence Statistics sunt modificrile n coeficieni (inclusiv cei standardizai), DfBeta(s) i Standardized DfBeta, i n valorile prognozate, DfFit i Standardized DfFit, rezultate dup excluderea cazului din estimare. n sfrit, prin butonul Options se deschide dialogul sinonim n care se pot fixa parametri ai estimrii: pragurile de intrare i excludere la metodele pas cu pas precum i modul de tratare a valorilor lips dintr-o variabil implicat.

C. Lucrarea practic
1. Legea lui Ohm, I = V/R, afirm c intensitatea curentului, I, este proporional cu tensiunea, V, i invers proporional cu rezistena, R. Elevii dintr-un laborator de fizic efectueaz experimente bazate pe legea lui Ohm: variaz tensiunea, msoar intensitatea curentului i determin n final rezistena firului. Se obin rezultatele: V 0,50 1,00 1,50 1,80 2,00 I 0,52 1,19 1,62 2,00 2,40 Deoarece legea lui Ohm poate fi rescris sub forma unei regresii liniare, I = +V, unde = 0 i =1/R, s se estimeze, pe baza datelor experimentale, coeficienii i .

S se obin intervalul de ncredere, la pragul de semnificaie de 5%, pentru coeficientul . S se deduc intervalul de ncredere pentru rezistena firului. S se verifice ipoteza = 0.
2. O familie nregistreaz consumul de gaz necesar nclzirii locuinei. Consumul (n mc) este raportat n tabelul urmtor, mpreun cu diferena medie de temperatur fa de cea extern (n grade Fahrenheit). Luna oct nov dec ian feb mar apr mai iun temperatura 15.6 26.8 37.8 36.4 35.5 18.6 15.3 7.9 0 Gaz 520 610 870 850 880 490 450 250 110 S se studieze forma relatiei dintre cei doi indicatori. Exista asociere ntre cei doi indicatori? S se estimeze dreapta de regresie care modeleaz relaia dintre cei doi parametri. n timpul verii, proprietarul locuinei mbuntete izolaia termic a casei sale. Drept care n luna februarie urmtoare, la o diferen medie de 40, se consuma 895 mc de gaz. Se poate spune c lucrarea efectuat reduce consumul de gaz? 3.

Datele necesare acestul exerciiu sunt la adresa web www.infoiasi.ro/~val/statistica/boston.sav i sunt doar o oglindire a unor date din surse internaionale. Analiza datelor dorete s prognozeze preul de vnzare a unei case din regiunea Boston n funcie de caracteristici diverse ale locuinei i ale localizrii ei. Prelucrarea se va efectua, de preferin, n SPSS Variabilele sunt n ordine: CRIM rata criminalitii, ZN proporia teritoriului zonat n loturi de peste 25,000 sq.ft., INDUS proporia terirorial a zonei industriale, CHAS indicator de nvecinare cu rul din zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul mediu de camere, AGE proporia de locuine construite nainte de 1940 i ocupate de proprietar, DIS distana ponderat la cinci centre din Boston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX rata de impozit (procent la 10000$), PTRATIO raportul copii-profesori n zon, B 1000(Bk0.63)2 unde Bk este procentajul populaiei de culoare n zon, LSTAT procentajul populaiei srace, MEDV valoarea medie a caselor (n mii de dolari). Se se efectueze urmtoarele operaii: Completai n SPSS denumirile de variabile i informaiile necesare. Verificai condiiile necesare aplicrii analizei regresionale. Estimai ecuaia de regresie prin diferite metode. Analizai dac obinei un rspuns care pare consistent, independent de metod. Validai i interpretai rezultatele regresiei.

S-ar putea să vă placă și