Sunteți pe pagina 1din 11

Statistic multivariat

Lucrarea nr. 7 Regresia liniar simpl - Excel, SPSS A. Noiuni teoretice


Considerm c, ntr-un eantion de volum n s-au determinat perechile de valori (xi,yi), i=1,,n, corespunztoare celor dou variabile pentru care dorim s studiem asocierea i relaia dintre ele. O prim apreciere asupra distribuiei comune o vom avea dac realizm diagrama de mprtiere a valorilor, de fapt reprezentarea ntr-un sistem de axe a punctelor avnd coordonatele x i y. Analiza vizual a organizrii i formei norului de puncte obinut poate oferi indicii importante asupra relaiei dintre variabile. Datele de sondaj vor susine ipoteza asocierii ntre variabile dac forma norului de puncte se apropie de o curb funcional. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dac n norul de puncte nu se poate distinge o tendin, se va spune c variabilele nu sunt corelate. n figura urmtoare sunt ilustrate cteva tendine identificabile direct.

Cazul (a) ilustreaz o asociere pozitiv, (b) o asociere negativ, (c) lips de asociere, (d) asociere curbilinie. Relaiile de interes pentru discuia din continuare sunt cele ilustrate n cazurile (a) i (b), unde este identificabil o tendin liniar n norul de puncte. Pentru a sintetiza modul n care schimbrile lui Y sunt asociate cu schimbrile lui X, metoda matematic utilizat este "metoda celor mai mici ptrate" (Legendre, 1806). Aplicat n cazul nostru, asocierea dintre X i Y este reprezentat printr-o dreapt trasat printre punctele diagramei de mprtiere.

y0

x0 Linia estimat este "cea mai bun" n sensul c exprim cel mai central drum printre puncte: linia pentru care suma ptratelor distanelor (pe vertical) dintre puncte i dreapt este minim. Termenul comun pentru dreapta estimat este acela de dreapta de regresie.

Distanele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz valoarea minim a ptratelor erorilor, n sensul c orice alt dreapt produce o sum de ptrate mai mare. Este de amintit c o proprietate a mediei aritmetice este aceea c suma ptratelor diferenelor de la medie are o valoare minim. Astfel se poate spune c dup cum media reprezint punctul de echilibru pentru o distribuie univariat de scoruri, la fel dreapta de regresie reprezint punctul de echilibru ntr-o distribuie bivariat. Utilitatea dreptei de regresiei este aceea c servete ca baz pentru predicia valorilor lui Y asociate valorilor lui X. Astfel, dat o valoare x0, valoarea prognozat pentru Y este y0, ordonata pe dreapta de regresie corespunztoare abscisei x0. Problema estimrii erorilor de predicie va fi tratat o dat cu prezentarea modelului general. Problema prezentat poate fi formulat matematic drept determinarea cantitilor a i b din ecuaia Ye = a + b X, unde Ye este valoarea prezis (estimat) a variabilei dependente; a este termenul liber al dreptei de regresie (valoarea pentru X=0); b este coeficientul de regresie (cantitatea cu care se modific Y atunci cnd X se modific cu o unitate); X este valoarea variabilei independente. Se demonstreaz c, prin metoda celor mai mici ptrate, se obine: b=

( x X )( y Y ) (x X )
i i 2 i

a = Y b X . Valoarea estimat, totui, este numai o medie care se poate atepta. Acurateea depinde de ct de bine se potrivete dreapta de regresie cu datele reale. Aceast potrivire este evaluat prin considerarea unei statistici: eroarea standard a estimaiei, definit ca abaterea standard a erorilor de estimare (a reziduurilor estimaiei): s=

(y

y ei ) 2

n2

unde yei reprezint valoarea estimat (prin ecuaia de regresie) pentru xi. O eroare standard mare arat c valorile observate sunt la distan de dreapta de regresie i deci aceasta este mai puin reprezentativ pentru datele reale. n consecin i valorile prognozate sunt afectate de erori mai mari.

Analiza distribuional a ecuaiei de regresie simple


Deoarece coeficienii ecuaiei de regresie sunt calculai dintr-un eantion, rezult c au caracterul de statistici, se poate deci vorbi de repartiia lor de sondaj etc. Acest fapt permite analiza distribuional a coeficienilor, n sensul inferenei statistice: ecuaia determinat prin formulele prezentate este doar o estimaie a ecuaiei care are loc la nivel de populaie. Prin urmare, ecuaia de regresie calculat Ye = a + b X este estimaia modelului general Ye = + X. O discuie mai ampl este prezent la lucrarea cu tema "modelul liniar", aici se prezint doar cteva elemente.

Analiza distribuional este bazat pe ipoteza: pentru orice valoare fixat X (variabila independent), Y (variabila dependent) este distribuit normal, cu aceeai dispersie peste tot. Se demonstreaz atunci c repartiia de sondaj a fiecrui coeficient de sondaj are ca medie valorile parametrilor: Exp(a) = , Exp(b) = . Teste de semnificaie. Testul principal este acela al coeficientului lui X, deoarece acesta conine informaia privind asocierea dintre Y i X. Ipotezele testului (un test t) sunt: H0 : = 0 H1 : 0 Dac nu se respinge H0, atunci legtura liniar dintre Y i X nu este semnificativ, cea mai bun predicie este dat de media lui Y. Valorile estimate de dreapta de regresie trebuiesc gndite ca medii ale valorilor Y asociate cu un X particular. Altfel spus, dac am dispune de eantioane repetate, mediile valorilor Y (corespunztoare valorii X) vor fi date de dreapta de regresie. Dac notm cu y0 valoarea estimat corespunztoare lui xo, adic y0 = a + b x0, atunci abaterea standard a lui y0 este s(y0) = s

( x0 x) 2 1 + , n ( xi x ) 2

unde s este abaterea standard a estimaiei. Se poate construi atunci, pentru un prag de semnificaie fixat , intervalul de ncredere pentru valoarea estimat: Atunci cnd valorile x0 sunt mai deprtate de media lui X, intervalul de ncredere se mrete, prognoza este nsoit de erori mai mari. Prediciile pentru valorile Y vor fi mai precise n apropiereas mediei lui X.

(y0-t1-/2;n-2s(y0), y0+t1-/2;n-2s(y0))

Coeficientul de corelaie (liniar)


Analiza de regresie este, n esen, o metod pentru a permite predicii, adic s estimm o valoare a unei variabile Y atunci cnd dispunem de o valoare a variabilei asociate X. Totui, de multe ori n aplicaii, cercettorii nu sunt interesai sau nu cunosc care variabil este independent, care dependent n sensul cerut de practic. Ei sunt ns interesai ss tie dac dou variabile sunt asociate i gradul de asociere. O asemenea msur o furnizeaz coeficientul de corelaie, notat r. Acesta are valori de la 1 la +1, o valoare nul indic lipsa de asociere, +1 arat o asociere (corelaie) pozitiv perfect, o valoare de 1 arat o asociere negativ perfect. Coeficientul de corelaie este definit prin
r=

( x X )( y Y ) , ( ( x X ) )( ( y Y ) )
i i 2 2 i i

existnd, evident, i alte formule echivalente. ntre cele dou analize, de regresie i de corelaie, legtura este dat de rezultatul: Dac ntre Y i X exist o relaie liniar perfect, adic Y = X + , atunci coeficientul de corelaie este dat de =

egalitate ce arat c = 1, dac >0 i = -1 dac <0. Rezultatul prezint o bun concordan cu aprecierile intuitive efectuate la nceputul seciunii despre asocieri pozitive, negative etc.

B. Instrumente Excel, SPSS


Excel
Din uneltele Excel se prezint doar cele care in de reprezentrile grafice. Componenta Regression (din Tools > Data Analysis) va fi prezentat n lucrarea StatWork_8. Ca rezultat se va obine o diagram de tipul urmtor (formatrile sunt orientative).

Graficul funciei
20 15 10 5 0 -4 -3 -2 -1 -5 0 1 2 3 4 y = 3,33x + 6,92 R 2 = 0,73

XY (scatter) (Diagrama de mprtiere, diagrama X-Y, grafic de funcie)


O diagram de mprtiere reprezint, ntr-un sistem ortogonal de axe de coordonate, punctele determinate de perechile de valori (Xi,Yji), i = 1,,n, j = 1,,k. Cu alte cuvinte, se reprezint k serii de numere Yj, j = 1,,k, fiecare valoare fiind considerat drept ordonata unui A B punct. Abscisele punctelor, Xi, i = 1,,n, sunt date ca o serie separat, dar sunt aceleai pentru toate seriile Y. Pentru a obine un asemenea grafic, n primul pas al utilitarului Insert > Chart (activat i din bara de unelte Standard), se alege tipul XY(Scatter). n figura alturat sunt subtipurile disponibile de diagrame X-Y. Desenele din coloana A difer de cele din coloana B prin aceea c sunt marcate punctele reprezentate. Desenele de pe linii difer dup modul de unire a punctelor care aparin aceleeai serii de date. Linia a doua de desene unete punctele prin linii netezite (curbe), n timp ce desenele de pe ultima linie are punctele unite prin Diagrame X-Y. segmente. Observaie. Punctele sunt unite n ordinea n care apar n seria numeric. Prin urmare, dac perechile de puncte nu sunt n ordinea cresctoare a absciselor (X), ceea ce se obine la unirea punctelor este o linie haotic, fr nimic din graficul de funcie la care ne ateptm. Pentru aceasta se vor sorta mai nti datele n ordinea cresctoare a valorilor X.

Diagrama din primul subtip este utilizat pentru studiul asocierii dintre variabila X i variabilaY. Dispunerea ascendent sau descendent a norului de puncte obinut ofer informaii asupra existenei i formei asocierii ntre variabile. Interpretrile reprezentrilor X-Y de forma puncte unite ntre ele sunt cele uzuale pentru graficele de funcie: maxime, minime, ritm de cretere, ritm de descretere, care serie are valori mai mari, cine depete pe cine etc. Observaie. Trebuie s se fac distincie ntre diagramele de tip linie i cele de tip X-Y. Se poate ns considera c, pentru valori numerice, diagramele de tip linie au o variabil X implicit: seria 1,2, sau o serie temporal.

Add Trendline (meniul Chart)


Permite figurarea pe grafic a trendului variabilei selectate. Exist mai multe tipuri de modele pentru calcularea tendinei datelor, dar opiunea nu este activ dect pentru anumite serii de date numerice. Opiunea poate fi activat din meniul Chart (existent pe bara de meniuri doar dac este selectat o diagram) sau din meniul contextual asociat unei serii numerice. Dialogul iniiat este organizat pe dou fie, reprezentate n figurile urmtoare. Fia Add Trendline Type permite selectarea modelului utilizat pentru determinarea tendinei generale a seriei numerice. Sunt disponibile principalele modele utilizate n calculele economice sau tehnice.

Linear modelul liniar (regresia simpl), y = a + bx. Polynomial modelul polinomial de ordin 2, 3, 4, 5, sau 6, y = a0 + a1x1 + a2x2 + + akxk. Logarithmic modelul logaritmic: y = a + b ln x. Exponential modelul exponenial: y = a ebx. Power modelul putere: y = a xb. Moving Average modelul de tip MA (medii glisante), n care se calculeaz o serie nou cu valori obinute ca medie aritmetic a valorilor din seria iniial: yn = (xn + xn-1 + + xn-k+1)/k, unde k este ordinul modelului. Este modelul prin care se elimin influenele pe termen foarte scurt sau scurt. Pentru o alegere corect se poate utiliza informaia cunoscut din cercetri anterioare sau cea furnizat vizual de aspectul norului de puncte. Zona Order este activ pentru modelul polinomial (stabilete ordinul modelului, maxim 6), iar zona Period este activ pentru modelul Moving Average

(stabilete ordinul modelului cte elemente contribuie la calculul mediei aritmetice). n zona Based on series se indic seria (dintre cele reprezentate) pentru care se estimeaz prin metoda celor mai mici ptrate modelul selectat. Ca efect al procedurii de adugare a liniei de trend, n grafic se va afia, ca o linie separat, seria ipotetic obinut prin calcularea trendului. Aceast linie poate fi formatat ca orice alt obiect grafic (se selecteaz, se aplic meniul Format etc.). Fia Add Trendline Options este prezentat n figura urmtoare i permite definirea altor atribute ale liniei de trend.

n grupul de opiuni Trendline name se poate ataa liniei o denumire proprie (butonul radio Custom i tastarea numelui n zona rezervat) sau se alege denumirea implicit (butonul radio Automatic). n grupul de opiuni Forecast se poate indica numrul de perioade (valori) pentru care se efectueaz prognoze, att n viitor (Forward), ct i n trecut (Backward). Este suficient s se nscrie o valoare diferit de zero n zona contor alocat i seria de trend se va extinde corespunztor. Set intercept = permite fixarea valorii termenului liber al modelului la o valoare cunoscut (opiune util pentru anumite tipuri de regresii). Se va marca boxa de control i se va trece valoarea termenului liber. Display equation on chart marcarea boxei de control are efectul trecerii pe grafic a ecuaiei estimate. Display R-squared value on chart este util pentru afiarea coeficientului de determinare R2 (= ptratul coeficientului de corelaie multipl), interpretabil n analiza de regresie.

SPSS Scatterplot
Diagrama de mprtiere (scatterplot dup denumirea utilizat n SPSS) presupune, uzual, c variabila dependent este pe axa vertical (Oy) iar variabila independent este pe axa orizontal. Pentru a obine o diagram de mprtiere se utilizeaz comanda Graphs > Scatter... Se va afia dialogul:

Pentru diagrama de mprtiere (relaia dintre dou variabile) se alege varianta Simple. Dup acionarea butonului Define se afieaz dialogul de fixare a variabilelor i a opiunilor asociate.

Se va trece variabila dependent n zona Y Axis i variabila independent n zona X Axis. Se pot diferenia (prin marcaje diferite) observaiile care aparin la diverse grupuri dac se trece variabila care face diferena n zona Set Markers by. Titlurile se pot aduga prin deschiderea dialogului Titles. Acionarea butonului OK va produce trasarea graficului, obiect n fiierul de ieire. Abia dup obinerea diagramei se pot fixa alte atribute de formatare prin iniierea editrii diagramei. Prin urmare, dublu click pe diagrama va deschide fereastra de editare:

n aceast fereastr, prin dublu click pe un element se deschid dialoguri specializate de formatare. Comanda Chart > Options conduce la afiarea dialogului:

n acest dialog, se pot marca casetele din grupul Fit Line, care vor produce trasarea dreptelor de regresie pe total sau/i pe grupuri.Opiunile disponibile pentru trasarea dreptelor de regresie se gsesc n dialogul Fit Options:

Pentru trasarea dreptelor de regresie se va selecta opiunea Linear regression i se poate cere includerea sau nu a constantei n regresie, afiarea coeficientului de determinare etc.

Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obine prin Analyze Regression Linear. In aceast lucrare se vor preciza doar acele elemente care sunt necesare pentru estimarea dreptei de regresie (ecuaia de regresie simpl). Lucrarea urmtoare va conine explicaiile complete ale dialogurilor SPSS implicate n estimarea i analizarea modelului liniar.

n Dependent se va transfera variabila dependent. Variabila independent (unic n cazul regresiei simple) se transfer n Independent(s), n zona Method se fixeaz ca metod Enter. Butonul Statistics deschide dialogul sinonim n care se pot preciza statisticile calculate. Unele opiuni sunt selectate i n mod implicit.

Estimates coeficienii estimai, Confidence intervals intervalele de ncredere ale coeficienilor, Model fit calcularea statisticilor R, R2 i a tabelului ANOVA, R squared change modificrea coeficientului de determinare i testarea semnificaiei schimbrii la adugarea fiecrui bloc de variabile, Descriptive statisticile eseniale pentru fiecare variabil, n zona Residuals se produce o analiza a reziduurilor pentru a putea decide asupra normalitii acestora i a diagnostica valorile aberante. Dintre tabelele de rezultate sunt prezentate n continuare doar cele importante n cazul regresiei simple:

Tabelul Model Summary conine informaiile care privesc coeficientul de corelaie i eroarea standard a estimaiei. De remarcat coeficientul de determinare R2 care exprim ct la sut din variana variabilei dependente este explicat de ecuaia de regresie.

n tabelul ANOVA, informaia important este statistica F cu ajutorul creia se testeaz semnificaia global a variabilelor independente (doar una n cazul regresiei simple, procedura capt substan n cazul regresiei multiple). Pe coloana Sig. este afiat probabilitatea crritic a testului, astfel c dac Sig < se respinge ipoteza

lipsei de semnificaie a variabilelor independente n favoarea ipotezei c modelul regresional este unul semnificativ. Se mai spune c testul este un test de semnificaie asupra lui R2.

Tabelul Coefficients conine informaiile privind coeficienii: coloana B valoarea coeficientului, Std. Error - eroarea standard a coeficientului (abaterea standard n distribuia de sondaj a coeficientului), Beta - valoarea coeficientului standardizat (arat cu cte abateri standard se modific Y dac X se modific cu o abatere standard), t - statistica testului de semnificaie a coeficientului, Sig. probabilitatea critic a testului. Prin urmare, un coeficient este semnificativ (diferit de zero n ecuaia de regresie) dac Sig < . Pentru exemplul din tabel se poate scrie ecuaia de regresie simpl Y = - 0.157 X + 39.855, toi coeficienii fiind semnificativi statistic.

C. Lucrarea practic
1. Exist o anumit eviden c prevenirea atacurilor de inim este ajutat de un consum moderat de vin. n tabelul urmtor sunt prezentate date statistice din 1994 privind aceast problem (consumul de alcool in litri/persoana, decesele sunt anuale/100000 locuitori). - S se realizeze o diagram de mprtiere i s se descrie forma relaiei dintre cei doi indicatori. - Exist asociere ntre cei doi indicatori? - S se calculeze coeficientul de corelaie dintre cei doi indicatori. Alcool Decese datorate ara din vin afectiunilor cardiace Australia 2.5 211 Austria 3.9 167 Belgia 2.9 131 Canada 2.4 191 Danemarca 2.9 220 Finlanda 0.8 297 Franta 9.1 71 Islanda 0.8 211 Irlanda 0.7 300 Italia 7.9 107 Olanda 1.8 167 Noua Zeelanda 1.9 266 Norvegia 0.8 227 Spania 6.5 86 Suedia 1.6 207 Elvetia 5.8 115 Marea Britanie 1.3 285

ara SUA Germania

Alcool din vin 1.2 2.7

Decese datorate afectiunilor cardiace 199 172

2. Urmtorul tabel conine rezultatele dintr-o statistic oficial privind cheltuielile pentru buturi alcoolice i produse de tutun n 11 regiuni ale Marii Britanii. - S se realizeze o diagram de mprtiere i s se descrie forma relaei dintre cei doi indicatori. - Exist asociere ntre cei doi indicatori? S se calculeze coeficientul de corelaie. - S se recalculeze coeficientul de corelaie doar pentru primele 10 regiuni i s se interpreteze rezultatul. regiunea alcool tutun North 6.47 4.03 Yorkshire 6.13 3.76 Northeast 6.19 3.77 East Midlands 4.89 3.34 West Midlands 5.63 3.47 East Anglia 4.52 2.92 Southeast 5.89 3.2 Southwest 4.79 2.71 Wales 5.27 3.53 Scotland 6.08 4.51 Northern Ireland 4.02 4.56 3. Un cercettor este interesant s specifice relaia dintre indicele de inteligen (IQ) i rezultatul la un examen (msurat pe o scal cu 100 de puncte). Datele obinute de la un numr de subieci sunt: Student IQ Scor Student IQ Scor 1 110 42.5 7 127 70.5 2 112 53 8 130 60 3 118 46 9 132 81 4 119 61.75 10 134 70.5 5 122 70.5 11 136 77.5 6 125 56.5 12 138 88 - S se studieze asocierea celor dou variabile, IQ i scor. - Ct din variana scorurilor poate fi atribuit variabilei IQ? - S se estimeze i s se valideze dreapta de regresie care aproximeaz IQ ca o funcie de scor, IQ = a scor + b. - S se estimeze i s se valideze dreapta de regresie care aproximeaz scorul ca o funcie de IQ, scor = a IQ + b. - Ce relaie este ntre cele dou ecuaii? - Se poate renuna la examen n sensul c nota se poate obine din ultima ecuaie estimat tiind IQ-ul studentului? 4. Se va deschide n SPSS fiierul Catalog.sav din fiierele de test (SPSS/Tutorial/Sample files/) sau prin descrcare din pagina cursului. Fiierul conine date privind rezultatele unor campanii publicitare. Se va estima relaia liniar (sau una care poate fi liniarizat) dintre variabilele men, women i jewel ca variabile dependente i variabilele mail, page, phone, print i service ca variabile independente.