Documente Academic
Documente Profesional
Documente Cultură
y0
x0
Linia estimată este "cea mai bună" în sensul că exprimă cel mai central drum
printre puncte: linia pentru care suma pătratelor distanţelor (pe verticală) dintre puncte
şi dreaptă este minimă. Termenul comun pentru dreapta estimată este acela de dreapta
de regresie.
Distanţele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizează
valoarea minimă a pătratelor erorilor, în sensul că orice altă dreaptă produce o sumă
de pătrate mai mare.
Este de amintit că o proprietate a mediei aritmetice este aceea că suma
pătratelor diferenţelor de la medie are o valoare minimă. Astfel se poate spune că
după cum media reprezintă punctul de echilibru pentru o distribuţie univariată de
scoruri, la fel dreapta de regresie reprezintă punctul de echilibru într-o distribuţie
bivariată.
Utilitatea dreptei de regresiei este aceea că serveşte ca bază pentru predicţia
valorilor lui Y asociate valorilor lui X. Astfel, dată o valoare x0, valoarea prognozată
pentru Y este y0, ordonata pe dreapta de regresie corespunzătoare abscisei x0.
Problema estimării erorilor de predicţie va fi tratată o dată cu prezentarea modelului
general.
Problema prezentată poate fi formulată matematic drept determinarea
cantităţilor a şi b din ecuaţia Ye = a + b X, unde
• Ye este valoarea prezisă (estimată) a variabilei dependente;
• a este termenul liber al dreptei de regresie (valoarea pentru X=0);
• b este coeficientul de regresie (cantitatea cu care se modifică Y atunci când X
se modifică cu o unitate);
• X este valoarea variabilei independente.
Se demonstrează că, prin metoda celor mai mici pătrate, se obţine:
b=
∑ ( x − X )( y − Y )
i i
şi
∑ (x − X )
i
2
a = Y −b⋅ X .
Valoarea estimată, totuşi, este numai o medie care se poate aştepta. Acurateţea
depinde de cât de bine se potriveşte dreapta de regresie cu datele reale. Această
potrivire este evaluată prin considerarea unei statistici: eroarea standard a estimaţiei,
definită ca abaterea standard a erorilor de estimare (a reziduurilor estimaţiei):
s=
∑(y i − y ei ) 2
n−2
unde yei reprezintă valoarea estimată (prin ecuaţia de regresie) pentru xi.
O eroare standard mare arată că valorile observate sunt la distanţă de dreapta
de regresie şi deci aceasta este mai puţin reprezentativă pentru datele reale. În
consecinţă şi valorile prognozate sunt afectate de erori mai mari.
r=
∑ ( x − X )( y − Y ) ,
i i
(∑ ( x − X ) )(∑ ( y − Y ) )
i
2
i
2
Graficul funcţiei
20
15
10
5 y = 3,33x + 6,92
R 2 = 0,73
0
-4 -3 -2 -1 0 1 2 3 4
-5
SPSS
Scatterplot
Diagrama de împrăştiere (scatterplot după denumirea utilizată în SPSS)
presupune, uzual, că variabila dependentă este pe axa verticală (Oy) iar variabila
independentă este pe axa orizontală.
Pentru a obţine o diagramă de împrăştiere se utilizează comanda Graphs >
Scatter... Se va afişa dialogul:
Pentru diagrama de împrăştiere (relaţia dintre două variabile) se alege varianta
Simple. După acţionarea butonului Define se afişează dialogul de fixare a variabilelor
şi a opţiunilor asociate.
În acest dialog, se pot marca casetele din grupul Fit Line, care vor produce
trasarea dreptelor de regresie pe total sau/şi pe grupuri.Opţiunile disponibile pentru
trasarea dreptelor de regresie se găsesc în dialogul Fit Options:
Dreapta de regresie
Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze –
Regression –Linear.
In această lucrare se vor preciza doar acele elemente care sunt necesare pentru
estimarea dreptei de regresie (ecuaţia de regresie simplă). Lucrarea următoare va
conţine explicaţiile complete ale dialogurilor SPSS implicate în estimarea şi
analizarea modelului liniar.
În Dependent se va transfera variabila dependentă. Variabila independentă
(unică în cazul regresiei simple) se transferă în Independent(s), în zona Method se
fixează ca metodă Enter.
Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile
calculate. Unele opţiuni sunt selectate şi în mod implicit.
C. Lucrarea practică
1. Există o anumită evidenţă că prevenirea atacurilor de inimă este ajutată de
un consum moderat de vin. În tabelul următor sunt prezentate date statistice din 1994
privind această problemă (consumul de alcool in litri/persoana, decesele sunt
anuale/100000 locuitori).
- Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţiei dintre cei
doi indicatori.
- Există asociere între cei doi indicatori?
- Să se calculeze coeficientul de corelaţie dintre cei doi indicatori.
Alcool Decese datorate
Ţara
din vin afectiunilor cardiace
Australia 2.5 211
Austria 3.9 167
Belgia 2.9 131
Canada 2.4 191
Danemarca 2.9 220
Finlanda 0.8 297
Franta 9.1 71
Islanda 0.8 211
Irlanda 0.7 300
Italia 7.9 107
Olanda 1.8 167
Noua Zeelanda 1.9 266
Norvegia 0.8 227
Spania 6.5 86
Suedia 1.6 207
Elvetia 5.8 115
Marea Britanie 1.3 285
Alcool Decese datorate
Ţara
din vin afectiunilor cardiace
SUA 1.2 199
Germania 2.7 172
2. Următorul tabel conţine rezultatele dintr-o statistică oficială privind
cheltuielile pentru băuturi alcoolice şi produse de tutun în 11 regiuni ale Marii
Britanii.
- Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţei dintre cei
doi indicatori.
- Există asociere între cei doi indicatori? Să se calculeze coeficientul de corelaţie.
- Să se recalculeze coeficientul de corelaţie doar pentru primele 10 regiuni şi să se
interpreteze rezultatul.
regiunea alcool tutun
North 6.47 4.03
Yorkshire 6.13 3.76
Northeast 6.19 3.77
East Midlands 4.89 3.34
West Midlands 5.63 3.47
East Anglia 4.52 2.92
Southeast 5.89 3.2
Southwest 4.79 2.71
Wales 5.27 3.53
Scotland 6.08 4.51
Northern Ireland 4.02 4.56
3. Un cercetător este interesant să specifice relaţia dintre indicele de
inteligenţă (IQ) şi rezultatul la un examen (măsurat pe o scală cu 100 de puncte).
Datele obţinute de la un număr de subiecţi sunt:
Student IQ Scor Student IQ Scor
1 110 42.5 7 127 70.5
2 112 53 8 130 60
3 118 46 9 132 81
4 119 61.75 10 134 70.5
5 122 70.5 11 136 77.5
6 125 56.5 12 138 88
- Să se studieze asocierea celor două variabile, IQ şi scor.
- Cât din varianţa scorurilor poate fi atribuită variabilei IQ?
- Să se estimeze şi să se valideze dreapta de regresie care aproximează IQ ca o
funcţie de scor, IQ = a × scor + b.
- Să se estimeze şi să se valideze dreapta de regresie care aproximează scorul
ca o funcţie de IQ, scor = a’ × IQ + b’.
- Ce relaţie este între cele două ecuaţii?
- Se poate renunţa la examen în sensul că nota se poate obţine din ultima
ecuaţie estimată ştiind IQ-ul studentului?
4. Se va deschide în SPSS fişierul Catalog.sav din fişierele de test
(SPSS/Tutorial/Sample files/) sau prin descărcare din pagina cursului. Fişierul conţine
date privind rezultatele unor campanii publicitare. Se va estima relaţia liniară (sau una
care poate fi liniarizată) dintre variabilele men, women şi jewel ca variabile
dependente şi variabilele mail, page, phone, print şi service ca variabile independente.