Sunteți pe pagina 1din 30

Regresia liniara

Cornelia Muresan
Universitatea Babes-Bolyai
Structura cursului

Corelatia
Coeficientul de corelatie r
SPSS : comenzi si exemplu
Exemplu de calcul al coeficientului de corelatie

Regresia
Ecuatia dreptei de regresie
Interpretarea parametrilor dreptei de regresie
Exemplu de calcul al parametrilor dreptei de regresie
Calitatea estimarii

2
Conceptul de corelatie

O legatura dintre doua variabile cantitative :


Exprima masura in care valorilor mari pentru o variabila ii
corespund valori mari (respectiv mici) pentru cealalata
variabila.
Coeficientul de corelatie a lui Pearson (r)

Principiul variabilelor cantitative este incalcat uneori pentru


variabile masurate la nivel ordinal, unde se atribuie calitati
cardinale unor numere ordinale:
Coeficientul de corelare a rangurilor a lui Spearman
Kendals

3
Covarianta
Ex1: Distributia clientilor asisistati dupa Ex2: Distributia clientilor asisistati dupa
nivelul de adaptare sociala si nivelul nivelul de adaptare sociala si durata
motivatiei pentru schimbare izolarii
12 12
Nivel de adaptare (Y)

Nivel de adaptare (Y)


10 10
8 8
6 6
4 4
2 2
0 0
0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11
Nivel de motivatie (X) Numar de luni petrecute in izolare (X)

Ex1: concordanta valorilor


Ex2: discordanta valorilor

Ambele exemple: concordanta/discordanta perfecta

4
Covarianta
Ex3: Distributia clientilor asisistati dupa Ex4: Distributia clientilor asisistati dupa
nivelul de adaptare sociala si nivelul nivelul de adaptare sociala si durata
motivatiei pentru schimbare izolarii

12 12
Nivel de adaptare (Y)

Nivel de adaptare (Y)


10 10
8 8
6 6
4 4
2 2
0 0
0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11
Nivel de motivatie (X) Numar de luni petrecute in izolare (X)

Ex3: concordanta valorilor


Ex4: discordanta valorilor

Ambele exemple: concordanta/discordanta non-perfecta

5
Covarianta
Ex5: Distributia clientilor asisistati dupa nivelul de adaptare sociala si nivelul motivatiei
12

Nivel de adaptare (Y)


10
8
6
4
2
0
0 1 2 3 4 5 6 7 8 9 10 11
Nivel de motivatie (X)

Ex5: valori necorelate

6
Operationalizarea covariatiei

Fie mx media valorilor X, my media valorilor Y

xi - mx este abaterea valorii X a individului i de la media


esantionului

yi - my este abaterea valorii Y a individul i de la media esantionului

(xi - mx)(yi - my) > 0, daca abaterile sunt ambele pozitive sau
daca abaterile sunt amblele negative
< 0, daca una din abateri este pozitiva si
cealalta abatere este negativa

( xi m x )( yi m y )
cov( X , Y ) = i= 1

7
n
Operationalizarea corelatiei

Neajunsurile indicatorului covariantei cov(X,Y)


- nu este o valoare abstracta
- nu are un interval fix de variatie (greu de interpretat)

Coeficientul de corelatie a lui Pearson (r)

cov( X , Y )
r=
x y

8
Proprietatile lui r

Interval fix de variatie (-1, +1)


| | |
-1 0 +1
Corelaie negativ Ne-corelaie Corelaie pozitiv

Intensitate si directie
Independenta de la legatura de asociere nu este echivalenta cu
necorelarea:

corelatia asociere (si independentanecorelatie)


dar
necorelatia independenta (si asocierea corelatie)

De fapt, corelatia face uz de diferentele relative dintre valori, nu de


marimea absoluta a diferentelor. De aceea se poate folosi si la
variabile ordinale care tin cont de marimea relativa a diferentelor
(ex: cele masurate pe scale ordinale cu multe valori 1,2, 3, 4, 5,)
9
Semnificatia statistica a lui r

Tabel cu valorile critice ale coeficientului de corelaie r


. Nivel de semnificaie pentru un test direcional
.025 .005 .025 .005
Nivel de semnificaie pentru un test nedirecional
n .05 .01 n .05 .01 .
3 .997 .999 38 .320 .413
4 .950 .990 39 .316 .408
5 .878 .959 40 .312 .403
6 .811 .917 41 .308 .398
7 .754 .874 42 .304 .393
... ....

Valorile critice ale lui r in tabele


Ex1: pt n=7 e nevoie de cel putin r=0.75 pentru un rezultat
semnificativ
Ex2: pt n=40 e nevoie doar de r= 0.31 pentru un rezultat
semnificativ

La esantioane mari chiar si un coeficient de corelatie mic poate


fi statistic semnificativ
10
Substantialitatea lui r

La esantioane mici, sub 30-60 indivizi, un coeficient de


corelatie statistic semnificativ este considerat un rezultat
substantial

La esantioane mari, (cele folosite in sociologie) se cere cel


putin un r = 0,60 pentru ca un rezultat statistic semnificativ sa
fie considerat si substantial

Obs: O corelatie r = 0.80 este o legatura de 4 ori mai puternica


decat una cu r = 0.40, pentru ca r2 masoara puterea de
predictie (vezi regresia liniara)

11
SPSS : comenzi si exemplu

Comanda SPSS pentru analiza de corelatie: CORRELATE

Fisierul de date: World95.sav


Ip1c: Mortalitatea infantila este mare acolo unde si saracia e mare
Ip2c: Mortalitatea infantila este mare acolo unde femeile sunt analfabete
Ip3c: Mortalitatea infantila depinde mai mult de educatia femeilor decat
de saracie
Correlations

Infant
mortality Gross
(deaths domestic
per 1000 product / Females who
live births) capita read (%)
Infant mortality (deaths Pearson Correlation 1 -.640** -.843**
per 1000 live births) Sig. (2-tailed) . .000 .000 Obs.
N 109 109 85 Existenta
Gross domestic Pearson Correlation -.640** 1 .429**
product / capita Sig. (2-tailed) .000 . .000
unei legaturi
N 109 109 85 de corelatie
Females who read (%) Pearson Correlation -.843** .429** 1 nu implica o
Sig. (2-tailed) .000 .000 .
N 85 85 85 legatura de
cauzalitate !
12
**. Correlation is significant at the 0.01 level (2-tailed).
Calculul manual al coeficientului de corelatie: exemplu

Schem de calcul pentru coeficientul de corelaie r a lui Pearson. Corelatia dintre numarul de ore
de perfectionare (X) si numarul de cazuri esuate (Y), la 7 asistenti sociali
2 2
x y x-mx (x-mx) y-my (y-my) (x-mx)(y-my)
20 7 -20 400 3 9 -60
30 6 -10 100 2 4 -20
30 5 -10 100 1 1 -10
40 4 0 0 0 0 0
50 3 10 100 -1 1 -10
50 2 10 100 -2 4 -20
60 1 20 400 -3 9 -60
280 28 0 1200 0 28 -180
2 2
mx = 40 my = 4 x= 171,4 y=4 cov(x,y)= -25,7
x = 13,1 y = 2

r = cov (X , Y) / ( x * y ) = -25,7 / (13,1 * 2) = -0,98


test directional, n = 7, p < 0.005

Ipc: Cu cat este mai mare numarul orelor de perfectionare a asistentilor sociali
cu atat scade numarul de cazuri de interventie esuate.
13 Ipoteza are suport satistic si rezultatul este substantial
Calculul manual al coeficientului de corelatie: exemplu

Prezentarea rezultatelor analizei de corelatie:

ntre numrul orelor de perfecionare (variabila


independent) i numrul eecurilor n intervenie
(variabila dependent) pe un esantion de 7 asistenti
sociali dintr-un serviciu de consiliere familiala, s-a
gsit o corelaie r = -0,98. Nivelul de semnificaie
corespunztor acestei valori este p < 0.01, ceea ce
indic prezena unei corelaii negative, puternic
semnificative din punct de vedere statistic.

14
Ideea generala de regresie
Legatura de corelatie intre doua variabile cantitative are un
caracter simetric :

rXY = rYX

desi exista situatii in care suntem condusi sa presupunem ca


una din variabile depinde de cealalta

Ex1: Nivelul de adaptare sociala atins creste odata cu cresterea


nivelului motivatiei pentru schimbare (posibila legatura cauzala)

Ex2: Salariul curent al angajatilor este proportional cu salariul


negociat la momentul angajarii (legatura non-cauzala, dar
importanta pentru a putea face predictii)

Regresia este un model explicativ, cu o conotatie de predictie,


in care precizarea variabilei dependente si a celei/celor
15 independente este esentiala
Ideea generala de regresie

Dependenta nu poate fi exprimata printr-o functie matematia, pt ca


nu prea exista relatii univoce in stiintele sociale

y = f(x)

Se cauta insa functii matematice cat mai simple


care aproximeaza cat mai bine relatia dintre cele doua variabile

Se cauta curbe grafice care trec cat mai aproape de punctele


diagramei de imprastiere (X,Y)

y = f(x)

16
Ideea generala de regresie

Problema de regresie = determinarea parametrilor functiei f(x)

Curba de regresie = curba functiei f(x)

Determinarea functiei de regresie se face prin metoda celor mai


mici patrate (metoda de optimizare, de minimizare a erorilor)

pt individul i : yi , xi valori observate


yi , xi valoare yi calculata / estimata / prezisa
pt populatie: Ey = (yi-yi )2 expresie de minimizat

Determinarea functiei de regresie f(x) prin minimizarea expresiei Ey


inseamna rezolvarea problemei de regresie

17
Ecuatia dreptei de regresie

Regresia liniara este una din cele mai simple forme de regresie
Regresia liniara presupune existenta unei relatii de
proportionalitate. Se cauta parametrii dreptei de regresie:

Y = a + b X

Se poate demonstra matematic ca oricate puncte ar contine


norul de puncte, metoda celor mai mici patrate conduce la o
solutie unica :

Ey = (yi - a bxi )2 expresie de minimizat

O ecuatie cu 2 necunoscute (a si b), care se rezolva


anuland derivatele partiale.

18
Ecuatia dreptei de regresie

Parametrii dreptei de regresie:


y
b = r a = my r
y
mx
x x
unde mx si my sunt mediile lui X si Y, x si y sunt abaterile standard pt X si Y,
r este coeficientul de corelatie intre X si Y

Interpretari:

Parametrul b (panta) arata cu cat creste o valoare Y daca X


creste cu o unitate

Parametrul a (constanta - mai putin interesant de interpretat,


dar ) e punctul in care dreapta de regresie taie axa Oy

Dreapta de regresie trece prin punctul de coordonate (m , m )


19
Ecuatia dreptei de regresie

Parametrii dreptei de regresie:

4.5
Nivel adaptare sociala (Y)

4
3.5
3 (m , m )
2.5
2
1.5 y
b
1
x
0.5
a
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Nivel motivatie (X)

20
Ecuatia dreptei de regresie

Parametrii dreptei de regresie:

y
b = r
x
Interpretari (continuare):

Coeficientul de corelatie r arata (si) cu cate abateri


standard proprii y variaza in medie Y atunci cand X variaza cu
o abatere standard proprie x

Tema: demonstrati algebric afirmatia de mai sus, calculand


cresterea lui y (y) atunci cand x creste cu cantitatea x,
inlocuind in ecuatia dreptei de regresie valorile pt y si x, cu
21 y+y si, respectiv, x+x
Exemplu de calculul al parametrilor
dreptei de regresie si interpretarea lor

Regresia nivelului motivatiei (x) asupra nivelului de adaptare sociala (y).


Calcul parametrii
x y x-mx y-my (x-mx)(y-my) (x-mx)^2 (y-my)^2 y'
1 1 -4.5 -1.5 6.75 20.25 2.25 1.02
2 0.5 -3.5 -2 7 12.25 4 1.35
3 2 -2.5 -0.5 1.25 6.25 0.25 1.68
4 2.7 -1.5 0.2 -0.3 2.25 0.04 2.01
5 2.6 -0.5 0.1 -0.05 0.25 0.01 2.34
6 2.4 0.5 -0.1 -0.05 0.25 0.01 2.66
7 3 1.5 0.5 0.75 2.25 0.25 2.99
8 3.8 2.5 1.3 3.25 6.25 1.69 3.32
9 3 3.5 0.5 1.75 12.25 0.25 3.65
10 4 4.5 1.5 6.75 20.25 2.25 3.98
media= 5.5 2.5 2.71 8.25 1.1 2.5
ab.std.= 2.87 1.05
r = 0.90
dreapta de regresie: y' = 0.693 + 0.328 x

22
Calitatea estimarii

Faptul ca dreapta de regresie este univoc determinata nu


inseamna ca, oricare ar fi punctele din nor, dreapta de regresie
obtinuta are aceleasi calitati de predictie. Valorile prezise Y sunt
mai mult sau mai putin apropiate de valorile reale Y

Calitatea estimarii, sau mai precis eroarea std. a estimarii (Es),


se masoara prin abaterea standard a valorilor observate fata de
dreapta de regresie (si prin eroarea medie patratica Es2)
n

( yi y 'i )
2

Es 2 = 1
n
Se demostreaza algebric ca:
Eroarea medie patratica este egala cu produsul dintre
varianta observata si (1-r2)

23 Es = (1 r )
2 2
Y
2
Calitatea estimarii

In afara de varianta observata (a variabilei dependente Y) se


poate vorbi si de varianta valorilor prezise fata de aceeasi
medie.

( y i mY )
' 2

2
Y' = 1
n
Se poate demonstra prin calcul algebric ca:

Varianta valorilor prezise este egala cu produsul dintre


r2 si varianta observata

2
Y' = r 2 2
Y
24
Calitatea estimarii

Asemanator ca la teorema de descompunere a variantei, si in


cazul regresiei liniare se demostreaza ca:

Varianta observata se poate descompune in


suma dintre varianta valorilor prezise si eroarea
medie patratica.

2y = 2y + Es2

Varianta observata Varianta valorilor Eroarea medie


= varianta care prezise patratica
trebuie explicata = = varianta explicata + = varianta care
= gradul de de modelul de a ramas de
nedeterminare regresie explicat
25
Calitatea estimarii

Descompunerea variantei observate (a variabilei dependente):

4.5
Nivel adaptare sociala (Y)
4
3.5 2
varianta observata
3
y = my variantaestimarii
eroarea valorii prezise
Es 2y
2.5
2
1.5
1
0.5
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Nivel motivatie (X)

26
Calitatea estimarii

Inlocuind in ecuatia descompunerii variantei observate avem:

2
Y = r 2 2
Y + (1 r 2 ) 2
Y

Coeficient de determinatie r (fractiunea din varianta explicata de

Toti factorii explicativi ar trebui considerati deodata, nu unul cate unul !


Se recomanda utilizarea regresiei multivariate.
27
SPSS: comenzi si exemplu

Comanda SPSS pentru diagrama de imprastiere si linia de regresie:


GRAPHS, SCATTER, SIMPLE +
dublu clic pe puncte, Chart, Add Chart Element, Fit Line at Total
4,00

3,00

2,00

1,00
o
c p
ld
trs
aeN
iv

R Sq Linear = 0,809

0,00

0,00 2,00 4,00 6,00 8,00 10,00


Nivel motivatie pentru schimbare

28
SPSS: comenzi si exemplu

Comanda SPSS pentru calculul coeficientilor de regresie si calitatea estimarii:


ANALYZE, REGRESSION, LINEAR + Statistics, Descriptives
Descriptive Statistics
Mean Std. N
Deviation
Nivel de adaptare sociala 2.5 1.10 10
Nivel motivatie pentru schimbare 5.5 3.03 10

Model Summary
Model R R Adjusted Std. Error
Square R Square of the
Estimate

1 .900(a) .809 .785 .51211

a Predictors: (Constant), Nivel motivatie pentru schimbare

Coefficients(a)
Model Unstandardized Standardized t Sig.
Coefficients Coefficients
B Std. Beta
Error
1 (Constant) .693 .350 1.982 .083
Nivel motivatie pentru schimbare .328 .056 .900 5.826 .000

29 a Dependent Variable: Nivel de adaptare sociala


Laborator SPSS: exercitiu 4

Fisierul de date: World 95. sav

Ipc: Fertilitatea populatiilor descreste liniar odata cu cresterea procentului


populatiei feminine capabile sa citeasca, dupa modelul populatiilor lumii in
1995.
Estimati valoarea fertilitatii unei populatii in care procentul femeilor
analfabete este 10%
Variabila dependenta: fertilitatea, operationalizata in rata totala de fertilitate
Variabila independenta: procentul populatiei feminine care stie citi
Comanda SPSS: REGRESSION, LINEAR

Se cere: a) analiza datelor cu SPSS


b) interpretarea rezultatelor modelului de regresie si
calculul valorii cerute (pe o foaie de hartie, semnata)

30