Sunteți pe pagina 1din 11

Statistică multivariată

Lucrarea nr. 7 — Regresia liniară simplă


- Excel, SPSS -
A. Noţiuni teoretice
Considerăm că, într-un eşantion de volum n s-au determinat perechile de
valori (xi,yi), i=1,…,n, corespunzătoare celor două variabile pentru care dorim să
studiem asocierea şi relaţia dintre ele.
O primă apreciere asupra distribuţiei comune o vom avea dacă realizăm
diagrama de împrăştiere a valorilor, de fapt reprezentarea într-un sistem de axe a
punctelor având coordonatele x şi y. Analiza vizuală a organizării şi formei norului de
puncte obţinut poate oferi indicii importante asupra relaţiei dintre variabile. Datele de
sondaj vor susţine ipoteza asocierii între variabile dacă forma norului de puncte se
apropie de o curbă funcţională. Astfel, se pot aprecia asocieri liniare, curbilinii etc.
Dacă în norul de puncte nu se poate distinge o tendinţă, se va spune că variabilele nu
sunt corelate.
În figura următoare sunt ilustrate câteva tendinţe identificabile direct.

Cazul (a) ilustrează o asociere pozitivă, (b) – o


asociere negativă, (c) – lipsă de asociere, (d) – asociere
curbilinie.
Relaţiile de interes pentru discuţia din continuare sunt cele ilustrate în cazurile
(a) şi (b), unde este identificabilă o tendinţă liniară în norul de puncte.
Pentru a sintetiza modul în care schimbările lui Y sunt asociate cu schimbările
lui X, metoda matematică utilizată este "metoda celor mai mici pătrate" (Legendre,
1806). Aplicată în cazul nostru, asocierea dintre X şi Y este reprezentată printr-o
dreaptă trasată printre punctele diagramei de împrăştiere.

y0

x0

Linia estimată este "cea mai bună" în sensul că exprimă cel mai central drum
printre puncte: linia pentru care suma pătratelor distanţelor (pe verticală) dintre puncte
şi dreaptă este minimă. Termenul comun pentru dreapta estimată este acela de dreapta
de regresie.
Distanţele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizează
valoarea minimă a pătratelor erorilor, în sensul că orice altă dreaptă produce o sumă
de pătrate mai mare.
Este de amintit că o proprietate a mediei aritmetice este aceea că suma
pătratelor diferenţelor de la medie are o valoare minimă. Astfel se poate spune că
după cum media reprezintă punctul de echilibru pentru o distribuţie univariată de
scoruri, la fel dreapta de regresie reprezintă punctul de echilibru într-o distribuţie
bivariată.
Utilitatea dreptei de regresiei este aceea că serveşte ca bază pentru predicţia
valorilor lui Y asociate valorilor lui X. Astfel, dată o valoare x0, valoarea prognozată
pentru Y este y0, ordonata pe dreapta de regresie corespunzătoare abscisei x0.
Problema estimării erorilor de predicţie va fi tratată o dată cu prezentarea modelului
general.
Problema prezentată poate fi formulată matematic drept determinarea
cantităţilor a şi b din ecuaţia Ye = a + b X, unde
• Ye este valoarea prezisă (estimată) a variabilei dependente;
• a este termenul liber al dreptei de regresie (valoarea pentru X=0);
• b este coeficientul de regresie (cantitatea cu care se modifică Y atunci când X
se modifică cu o unitate);
• X este valoarea variabilei independente.
Se demonstrează că, prin metoda celor mai mici pătrate, se obţine:

b=
∑ ( x − X )( y − Y )
i i
şi
∑ (x − X )
i
2

a = Y −b⋅ X .
Valoarea estimată, totuşi, este numai o medie care se poate aştepta. Acurateţea
depinde de cât de bine se potriveşte dreapta de regresie cu datele reale. Această
potrivire este evaluată prin considerarea unei statistici: eroarea standard a estimaţiei,
definită ca abaterea standard a erorilor de estimare (a reziduurilor estimaţiei):

s=
∑(y i − y ei ) 2
n−2
unde yei reprezintă valoarea estimată (prin ecuaţia de regresie) pentru xi.
O eroare standard mare arată că valorile observate sunt la distanţă de dreapta
de regresie şi deci aceasta este mai puţin reprezentativă pentru datele reale. În
consecinţă şi valorile prognozate sunt afectate de erori mai mari.

Analiza distribuţională a ecuaţiei de regresie simple


Deoarece coeficienţii ecuaţiei de regresie sunt calculaţi dintr-un eşantion,
rezultă că au caracterul de statistici, se poate deci vorbi de repartiţia lor de sondaj etc.
Acest fapt permite analiza distribuţională a coeficienţilor, în sensul inferenţei
statistice: ecuaţia determinată prin formulele prezentate este doar o estimaţie a
ecuaţiei care are loc la nivel de populaţie. Prin urmare, ecuaţia de regresie calculată
Ye = a + b X este estimaţia modelului general Ye = α + β X. O discuţie mai amplă
este prezentă la lucrarea cu tema "modelul liniar", aici se prezintă doar câteva
elemente.
Analiza distribuţională este bazată pe ipoteza: pentru orice valoare fixată X
(variabila independentă), Y (variabila dependentă) este distribuită normal, cu aceeaşi
dispersie peste tot. Se demonstrează atunci că repartiţia de sondaj a fiecărui coeficient
de sondaj are ca medie valorile parametrilor: Exp(a) = α, Exp(b) = β.
Teste de semnificaţie. Testul principal este acela al coeficientului lui X,
deoarece acesta conţine informaţia privind asocierea dintre Y şi X. Ipotezele testului
(un test t) sunt:
H0 : β = 0
H1 : β ≠ 0
Dacă nu se respinge H0, atunci legătura liniară dintre Y şi X nu este
semnificativă, cea mai bună predicţie este dată de media lui Y.
Valorile estimate de dreapta de regresie trebuiesc gândite ca medii ale
valorilor Y asociate cu un X particular. Altfel spus, dacă am dispune de eşantioane
repetate, mediile valorilor Y (corespunzătoare valorii X) vor fi date de dreapta de
regresie.
Dacă notăm cu y0 valoarea estimată corespunzătoare lui xo, adică y0 = a + b x0,
atunci abaterea standard a lui y0 este
1 ( x0 − x) 2
s(y0) = s + ,
n ∑ ( xi − x ) 2
unde s este abaterea standard a estimaţiei.
Se poate construi atunci, pentru un prag de semnificaţie fixat α, intervalul de
încredere pentru valoarea estimată:
(y0-t1-α/2;n-2s(y0), y0+t1-α/2;n-2s(y0))
Atunci când valorile x0 sunt mai depărtate de media lui X, intervalul de
încredere se măreşte, prognoza este însoţită de erori mai mari. Predicţiile pentru
valorile Y vor fi mai precise în apropiereas mediei lui X.

Coeficientul de corelaţie (liniară)


Analiza de regresie este, în esenţă, o metodă pentru a permite predicţii, adică
să estimăm o valoare a unei variabile Y atunci când dispunem de o valoare a
variabilei asociate X. Totuşi, de multe ori în aplicaţii, cercetătorii nu sunt interesaţi
sau nu cunosc care variabilă este independentă, care dependentă în sensul cerut de
practică. Ei sunt însă interesaţi ssă ştie dacă două variabile sunt asociate şi gradul de
asociere.
O asemenea măsură o furnizează coeficientul de corelaţie, notat r. Acesta are
valori de la –1 la +1, o valoare nulă indică lipsa de asociere, +1 arată o asociere
(corelaţie) pozitivă perfectă, o valoare de –1 arată o asociere negativă perfectă.
Coeficientul de corelaţie este definit prin

r=
∑ ( x − X )( y − Y ) ,
i i

(∑ ( x − X ) )(∑ ( y − Y ) )
i
2
i
2

existând, evident, şi alte formule echivalente.


Între cele două analize, de regresie şi de corelaţie, legătura este dată de
rezultatul:
Dacă între Y şi X există o relaţie liniară perfectă, adică
α
Y = αX + β, atunci coeficientul de corelaţie este dat de ρ =
α
egalitate ce arată că ρ = 1, dacă α>0 şi ρ = -1 dacă α<0.
Rezultatul prezintă o bună concordanţă cu aprecierile intuitive efectuate la
începutul secţiunii despre asocieri pozitive, negative etc.

B. Instrumente Excel, SPSS


Excel
Din uneltele Excel se prezintă doar cele care ţin de reprezentările grafice.
Componenta Regression (din Tools > Data Analysis) va fi prezentat în lucrarea
StatWork_8. Ca rezultat se va obţine o diagramă de tipul următor (formatările sunt
orientative).

Graficul funcţiei
20

15

10

5 y = 3,33x + 6,92
R 2 = 0,73

0
-4 -3 -2 -1 0 1 2 3 4
-5

XY (scatter) (Diagrama de împrăştiere, diagrama X-Y, grafic de funcţie)


O diagramă de împrăştiere reprezintă, într-un sistem ortogonal de axe de coor-
donate, punctele determinate de perechile de valori (Xi,Yji), i = 1,…,n, j = 1,…,k. Cu
alte cuvinte, se reprezintă k serii de numere Yj, j = 1,…,k,
fiecare valoare fiind considerată drept ordonata unui A B
punct. Abscisele punctelor, Xi, i = 1,…,n, sunt date ca o
serie separată, dar sunt aceleaşi pentru toate seriile Y.
Pentru a obţine un asemenea grafic, în primul pas
al utilitarului Insert > Chart (activat şi din bara de unelte
Standard), se alege tipul XY(Scatter). În figura alăturată
sunt subtipurile disponibile de diagrame X-Y.
Desenele din coloana A diferă de cele din coloana
B prin aceea că sunt marcate punctele reprezentate.
Desenele de pe linii diferă după modul de unire a
punctelor care aparţin aceleeaşi serii de date. Linia a doua
de desene uneşte punctele prin linii netezite (curbe), în
timp ce desenele de pe ultima linie are punctele unite prin
Diagrame X-Y.
segmente.
Observaţie. Punctele sunt unite în ordinea în care
apar în seria numerică. Prin urmare, dacă perechile de puncte nu sunt în ordinea
crescătoare a absciselor (X), ceea ce se obţine la unirea punctelor este o linie haotică,
fără nimic din graficul de funcţie la care ne aşteptăm. Pentru aceasta se vor sorta mai
întâi datele în ordinea crescătoare a valorilor X.
Diagrama din primul subtip este utilizată pentru studiul asocierii dintre
variabila X şi variabilaY. Dispunerea ascendentă sau descendentă a norului de puncte
obţinut oferă informaţii asupra existenţei şi formei asocierii între variabile.
Interpretările reprezentărilor X-Y de forma puncte unite între ele sunt cele
uzuale pentru graficele de funcţie: maxime, minime, ritm de creştere, ritm de
descreştere, care serie are valori mai mari, cine depăşeşte pe cine etc.
Observaţie. Trebuie să se facă distincţie între diagramele de tip linie şi cele de
tip X-Y. Se poate însă considera că, pentru valori numerice, diagramele de tip linie au
o variabilă X implicită: seria 1,2,… sau o serie temporală.

Add Trendline… (meniul Chart)


Permite figurarea pe grafic a trendului variabilei selectate. Există mai multe
tipuri de modele pentru calcularea tendinţei datelor, dar opţiunea nu este activă decât
pentru anumite serii de date numerice. Opţiunea poate fi activată din meniul Chart
(existent pe bara de meniuri doar dacă este selectată o diagramă) sau din meniul
contextual asociat unei serii numerice. Dialogul iniţiat este organizat pe două fişe,
reprezentate în figurile următoare.
Fişa Add Trendline Type permite selectarea modelului utilizat pentru
determinarea tendinţei generale a seriei numerice. Sunt disponibile principalele
modele utilizate în calculele economice sau tehnice.

Linear – modelul liniar (regresia simplă), y = a + bx.


Polynomial – modelul polinomial de ordin 2, 3, 4, 5, sau 6,
y = a0 + a1x1 + a2x2 + … + akxk.
Logarithmic – modelul logaritmic: y = a + b ln x.
Exponential – modelul exponenţial: y = a ebx.
Power – modelul putere: y = a xb.
Moving Average – modelul de tip MA (medii glisante), în care se calculează o
serie nouă cu valori obţinute ca medie aritmetică a valorilor din seria iniţială:
yn = (xn + xn-1 + … + xn-k+1)/k, unde k este ordinul modelului. Este modelul prin
care se elimină influenţele pe termen foarte scurt sau scurt.
Pentru o alegere corectă se poate utiliza informaţia cunoscută din cercetări
anterioare sau cea furnizată vizual de aspectul norului de puncte.
Zona Order este activă pentru modelul polinomial (stabileşte ordinul modelului,
maxim 6), iar zona Period este activă pentru modelul Moving Average
(stabileşte ordinul modelului – câte elemente contribuie la calculul mediei
aritmetice).
În zona Based on series se indică seria (dintre cele reprezentate) pentru care se
estimează prin metoda celor mai mici pătrate modelul selectat.
Ca efect al procedurii de adăugare a liniei de trend, în grafic se va afişa, ca o
linie separată, seria ipotetică obţinută prin calcularea trendului. Această linie poate fi
formatată ca orice alt obiect grafic (se selectează, se aplică meniul Format etc.).
Fişa Add Trendline Options este prezentată în figura următoare şi permite
definirea altor atribute ale liniei de trend.

În grupul de opţiuni Trendline name se poate ataşa liniei o denumire proprie


(butonul radio Custom şi tastarea numelui în zona rezervată) sau se alege
denumirea implicită (butonul radio Automatic).
În grupul de opţiuni Forecast se poate indica numărul de perioade (valori) pentru
care se efectuează prognoze, atât în viitor (Forward), cât şi în trecut
(Backward). Este suficient să se înscrie o valoare diferită de zero în zona
contor alocată şi seria de trend se va extinde corespunzător.
Set intercept = – permite fixarea valorii termenului liber al modelului la o valoare
cunoscută (opţiune utilă pentru anumite tipuri de regresii). Se va marca boxa
de control şi se va trece valoarea termenului liber.
Display equation on chart – marcarea boxei de control are efectul trecerii pe
grafic a ecuaţiei estimate.
Display R-squared value on chart – este utilă pentru afişarea coeficientului de
determinare R2 (= pătratul coeficientului de corelaţie multiplă), interpretabil în
analiza de regresie.

SPSS

Scatterplot
Diagrama de împrăştiere (scatterplot după denumirea utilizată în SPSS)
presupune, uzual, că variabila dependentă este pe axa verticală (Oy) iar variabila
independentă este pe axa orizontală.
Pentru a obţine o diagramă de împrăştiere se utilizează comanda Graphs >
Scatter... Se va afişa dialogul:
Pentru diagrama de împrăştiere (relaţia dintre două variabile) se alege varianta
Simple. După acţionarea butonului Define se afişează dialogul de fixare a variabilelor
şi a opţiunilor asociate.

Se va trece variabila dependentă în zona Y Axis şi variabila independentă în


zona X Axis. Se pot diferenţia (prin marcaje diferite) observaţiile care aparţin la
diverse grupuri dacă se trece variabila care face diferenţa în zona Set Markers by.
Titlurile se pot adăuga prin deschiderea dialogului Titles. Acţionarea butonului OK va
produce trasarea graficului, obiect în fişierul de ieşire.
Abia după obţinerea diagramei se pot fixa alte atribute de formatare prin
iniţierea editării diagramei. Prin urmare, dublu click pe diagrama va deschide
fereastra de editare:
În această fereastră, prin dublu click pe un element se deschid dialoguri
specializate de formatare. Comanda Chart > Options conduce la afişarea dialogului:

În acest dialog, se pot marca casetele din grupul Fit Line, care vor produce
trasarea dreptelor de regresie pe total sau/şi pe grupuri.Opţiunile disponibile pentru
trasarea dreptelor de regresie se găsesc în dialogul Fit Options:

Pentru trasarea dreptelor de regresie se va selecta opţiunea Linear regression şi


se poate cere includerea sau nu a constantei în regresie, afişarea coeficientului de
determinare etc.

Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze –
Regression –Linear.
In această lucrare se vor preciza doar acele elemente care sunt necesare pentru
estimarea dreptei de regresie (ecuaţia de regresie simplă). Lucrarea următoare va
conţine explicaţiile complete ale dialogurilor SPSS implicate în estimarea şi
analizarea modelului liniar.
În Dependent se va transfera variabila dependentă. Variabila independentă
(unică în cazul regresiei simple) se transferă în Independent(s), în zona Method se
fixează ca metodă Enter.
Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile
calculate. Unele opţiuni sunt selectate şi în mod implicit.

Estimates – coeficienţii estimaţi, Confidence intervals – intervalele de


încredere ale coeficienţilor, Model fit – calcularea statisticilor R, R2 şi a tabelului
ANOVA, R squared change – modificărea coeficientului de determinare şi testarea
semnificaţiei schimbării la adăugarea fiecărui bloc de variabile, Descriptive –
statisticile esenţiale pentru fiecare variabilă, În zona Residuals se produce o analiza a
reziduurilor pentru a putea decide asupra normalităţii acestora şi a diagnostica valorile
aberante.
Dintre tabelele de rezultate sunt prezentate în continuare doar cele importante
în cazul regresiei simple:

Tabelul Model Summary conţine informaţiile care privesc coeficientul de


corelaţie şi eroarea standard a estimaţiei. De remarcat coeficientul de determinare R2
care exprimă cât la sută din varianţa variabilei dependente este explicată de ecuaţia de
regresie.

În tabelul ANOVA, informaţia importantă este statistica F cu ajutorul căreia se


testează semnificaţia globală a variabilelor independente (doar una în cazul regresiei
simple, procedura capătă substanţă în cazul regresiei multiple). Pe coloana Sig. este
afişată probabilitatea crritică a testului, astfel că dacă Sig < α se respinge ipoteza
lipsei de semnificaţie a variabilelor independente în favoarea ipotezei că modelul
regresional este unul semnificativ. Se mai spune că testul este un test de semnificaţie
asupra lui R2.

Tabelul Coefficients conţine informaţiile privind coeficienţii: coloana B -


valoarea coeficientului, Std. Error - eroarea standard a coeficientului (abaterea
standard în distribuţia de sondaj a coeficientului), Beta - valoarea coeficientului
standardizat (arată cu câte abateri standard se modifică Y dacă X se modifică cu o
abatere standard), t - statistica testului de semnificaţie a coeficientului, Sig. -
probabilitatea critică a testului. Prin urmare, un coeficient este semnificativ (diferit de
zero în ecuaţia de regresie) dacă Sig < α.
Pentru exemplul din tabel se poate scrie ecuaţia de regresie simplă
Y = - 0.157 X + 39.855, toţi coeficienţii fiind semnificativi statistic.

C. Lucrarea practică
1. Există o anumită evidenţă că prevenirea atacurilor de inimă este ajutată de
un consum moderat de vin. În tabelul următor sunt prezentate date statistice din 1994
privind această problemă (consumul de alcool in litri/persoana, decesele sunt
anuale/100000 locuitori).
- Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţiei dintre cei
doi indicatori.
- Există asociere între cei doi indicatori?
- Să se calculeze coeficientul de corelaţie dintre cei doi indicatori.
Alcool Decese datorate
Ţara
din vin afectiunilor cardiace
Australia 2.5 211
Austria 3.9 167
Belgia 2.9 131
Canada 2.4 191
Danemarca 2.9 220
Finlanda 0.8 297
Franta 9.1 71
Islanda 0.8 211
Irlanda 0.7 300
Italia 7.9 107
Olanda 1.8 167
Noua Zeelanda 1.9 266
Norvegia 0.8 227
Spania 6.5 86
Suedia 1.6 207
Elvetia 5.8 115
Marea Britanie 1.3 285
Alcool Decese datorate
Ţara
din vin afectiunilor cardiace
SUA 1.2 199
Germania 2.7 172
2. Următorul tabel conţine rezultatele dintr-o statistică oficială privind
cheltuielile pentru băuturi alcoolice şi produse de tutun în 11 regiuni ale Marii
Britanii.
- Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţei dintre cei
doi indicatori.
- Există asociere între cei doi indicatori? Să se calculeze coeficientul de corelaţie.
- Să se recalculeze coeficientul de corelaţie doar pentru primele 10 regiuni şi să se
interpreteze rezultatul.
regiunea alcool tutun
North 6.47 4.03
Yorkshire 6.13 3.76
Northeast 6.19 3.77
East Midlands 4.89 3.34
West Midlands 5.63 3.47
East Anglia 4.52 2.92
Southeast 5.89 3.2
Southwest 4.79 2.71
Wales 5.27 3.53
Scotland 6.08 4.51
Northern Ireland 4.02 4.56
3. Un cercetător este interesant să specifice relaţia dintre indicele de
inteligenţă (IQ) şi rezultatul la un examen (măsurat pe o scală cu 100 de puncte).
Datele obţinute de la un număr de subiecţi sunt:
Student IQ Scor Student IQ Scor
1 110 42.5 7 127 70.5
2 112 53 8 130 60
3 118 46 9 132 81
4 119 61.75 10 134 70.5
5 122 70.5 11 136 77.5
6 125 56.5 12 138 88
- Să se studieze asocierea celor două variabile, IQ şi scor.
- Cât din varianţa scorurilor poate fi atribuită variabilei IQ?
- Să se estimeze şi să se valideze dreapta de regresie care aproximează IQ ca o
funcţie de scor, IQ = a × scor + b.
- Să se estimeze şi să se valideze dreapta de regresie care aproximează scorul
ca o funcţie de IQ, scor = a’ × IQ + b’.
- Ce relaţie este între cele două ecuaţii?
- Se poate renunţa la examen în sensul că nota se poate obţine din ultima
ecuaţie estimată ştiind IQ-ul studentului?
4. Se va deschide în SPSS fişierul Catalog.sav din fişierele de test
(SPSS/Tutorial/Sample files/) sau prin descărcare din pagina cursului. Fişierul conţine
date privind rezultatele unor campanii publicitare. Se va estima relaţia liniară (sau una
care poate fi liniarizată) dintre variabilele men, women şi jewel ca variabile
dependente şi variabilele mail, page, phone, print şi service ca variabile independente.

S-ar putea să vă placă și