Sunteți pe pagina 1din 32

Curs 7

Corelaţie şi regresie liniară simplă

Curs şi seminar: Cristian Pop & Ionuţ Földes

UBB, Facultatea de Sociologie şi Asistenţă Socială


Departamentul de Sociologie
Există o legătură statistică semnificativă între notele de la statistică şi cele de la

TSM luate de o grupă de studenţi?


Câteva
întrebări Putem găsi o legătură statistică între numărul de ani de şcoală şi venituri?

Dar între vechime şi venituri?

Putem găsi o legătură între mărimea caselor şi preţul lor?


Corelație

• Doar pentru variabile cantitative

• Două variabile X şi Y si un numar de indivizi n

• În ce măsură cele doua seturi de valori, dupa variabila X şi după variabila Y, sunt sau nu concordante.

• Concordanțe: Indivizii care iau valori mari (mici) dupa o variabilă, iau în medie, valori mari (mici) si după
cealaltă variabilă.

• Discordanţe: Indivizii care iau valori mari dupa o variabilă, iau în medie, valori valori mici după cealaltă
variabilă (şi invers)

• Cum calculam concordanţele sau discordanţele?


Covarianţă
•Variabilele
  X şi Y, pentru un n dat, i = 1.....n

 ( 𝑥𝑖 − ´
𝑥 ) ( 𝑦𝑖 − ´𝑦 )

Concordaţă: când cele două diferenţe sunt de acelaşi semn.

Discordanţă: când cele două diferenţe sunt de semn diferit.

Cov (X, Y)=

Covarianţa nu e indice statistic pentru că:

1. nu este o valoarea abstractă, fără unitate de unitate de măsură;

2. nu are interval fix de variaţie.


Coeficientul de corelatie r
(Bravais-Pearson)

• 
r=
r=
r ia valori între: -1 (corelaţie negativă perfectă) şi
+1 (corelaţie pozitivă perfectă).
0 – lispă corelaţie.
Exemplu:
X (nota la statistica) Y (nota la TSM) 𝒙  − 𝒙´ 𝒚  − ´𝒚 (  𝒙 − 𝒙´ ) ( 𝒚 − ´𝒚 ) (  𝒙 − 𝒙´ )𝟐 (  𝒚 − ´𝒚 )𝟐
4 3 -3 -4.4 13.3 9 19.8
4 6 -3 -1.4 4.3 9 2.1
5 5 -2 -2.4 4.9 4 6.0
6 7 -1 -0.4 0.4 1 0.2
7 9 0 1.6 0.0 0 2.4
8 9 1 1.6 1.6 1 2.4
9 9 2 1.6 3.1 4 2.4
10 9 3 1.6 4.7 9 2.4
10 10 3 2.6 7.7 9 6.5
Media pt X =7 Media pt Y = 7.4 Suma= 40.0 Suma= 46.0 Suma= 44.2

 Cov (X, Y)=

Cov (X, Y) = 40/10 = 4; r = 4/2.15*2.10 = 4/4.515; r = 0.89


Corelaţia nu înseamnă cauzalitate!
Regresie liniară simplă - câteva exemple

Poate să fie explicat nivelul de venit al indivizilor prin numărul de ani de educaţie?

Predictia preţului casei în funcţie de mărime

Predicţia notei la BAC​în funcţie de nota de la simularea examenul BAC


Când folosim analiza de regresie?

Când avem o variabilă dependentă şi una independentă – regresie liniară simplă

O variabilă dependentă şi mai multe independente (explicative) – regresie liniară multiplă

O variabilă dependentă şi o serie de variabile explicative (dar care nu sunt independente


între ele) – analiza path
Exemplu1:Cât valorerază casa mea ?

Vreau să îmi
vând casa?
Mă uit la casele din carti er...

Cât au
costat?
Grafi c cu cele mai recente vânzări (ultimii 2 ani) – scatterplot

y
O vânzare Terminologie:
anterioară x – p redictor (var.
Preţ ($)

independentă)
y – observaţe, răspuns, var.
dependentă

Metri pătraţi (mp) x


Prezic preţul casei mele cu ajutorul unor case similare

y Nici o casă vândută recent nu


a r e exact aceeaşi mărime în mp
preţ ($)

Metri pătraţi (mp) x


Prezic preţul casei mele cu ajutorul unor case similare

y
Mă uit la preţul mediu din zonă
Doar 2 case!

Nu folosesc informaţiile despre


pret ($)

vânzarea restului caselor

Metri pătraţi (mp) x


Folosesc un model de regresie liniară!

y Potrivim o linie pentru a aproxima datele a – intercept


b – panta dreptei de regresie
pret ($)

f w (x) = a+b*x
funcţia
are coeficienţii/parametrii
Metri pătraţi (mp) x W = (a, b)
Care linie?

y
pret ($)

f w (x) = a+b*x
Parametrii diferiţi w

Metri pătraţi (mp) x


16
“Costul” folosirii unei linii date

y Residual sum of squares


(RSS)
RSS(a,b) =
preţ ($)

($casa 1-[a+b mpcasa 1])2


+ ($casa 2-[a+b mpcasa 2])2
+ ($casa 3-[a+b mpcasa 3])2
+ … [includem toate casele]

Metri patraţi (mp) X


Găsim “cea mai bună” linie

y Minimizez costul
general posibil a,b

RSS(a,b) =
preţ ($)

($casa 1-[a+b mpcasa 1])2


+ ($casa 2-[a+b mpcasa 2])2
+ ($casa 3-[a+b mpcasa 3])2
+ … [includem toate casele]
Metri pătraţi (mp) x
Ŵ= (a,b)
Predicţia preţului casei tale

y fw(x) = a + b* x
preţ ($)

Cea mai bună prediţie


a preţului casei:
ŷ = a + b* mpcasa ta

Metri pătraţi (mp)


x
Pentru a estima valorile unei variabile pentru o anumită populaţie, am utilizat
o funcţie lineară de forma:

ŷ = F(x) =  + ß*x

Coeficientul constant  pentru x=0, ŷ=F(0)= . indică punctul în care


Regresia dreapta de regresie intersectează axa Oy.
liniară simplă Coeficientul ß (panta dreptei de regresie) arată cu câte unităţi se modifică,
în medie, variabila dependentă atunci când variabila independentă se
schimbă cu o unitate de măsură proprie.

Dacă standardizăm variabilele, panta dreptei de regresie coincide cu


coeficientul de corelaţie al lui Pearson.
Exemplul 2: Am estimat nota obţinută la examenul de Bacalaureat în
funcţie de nota obţinută la simularea examenului.

Model Summary

Std. Error
Nota la BAC în functie de nota la simularea examenului Adjusted of the
11 Model R R Square R Square Estimate
1 ,904a ,816 ,811 ,6352
10 a. Predictors: (Constant), Test1 (Simulare BAC)

8 ANOVAb

Sum of Mean
7 Model Squares df Square F Sig.
1 Regression 61,030 1 61,030 151,237 ,000a
6 Residual 13,720 34 ,404
Nota la BAC

Total 74,750 35
5 a. Predictors: (Constant), Test1 (Simulare BAC)
b. Dependent Variable: Nota la BAC
4 Rsq = 0,8165
2 4 6 8 10 12

Test1 (Simulare BAC) Coefficientsa

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
Interpretare? 1 (Constant)
Test1
3,204 ,385 8,331 ,000

(Simulare ,694 ,056 ,904 12,298 ,000


BAC)
a. Dependent Variable: Nota la BAC
Pentru fiecare valoare xi a variabilei X estimăm o anumită valoare a lui Y, notată prin E(y) sau ŷi.
E(Y)=valoarea estimată (medie) a lui yi când X=xi.
DAR: Aceste valori ESTIMATE ale lui Y diferă de valorile OBSERVATE.
Y=E(Y) + e e – eroarea de estimare sau de predicţie

Asumăm că distribuţia valorilor lui Y în jurul mediei (estimatei) pentru o anumită valoare a lui X este distribuţie
normală. Identificarea modelului de regresie înseamnă găsirea soluţiilor la acest set de ecuaţii de gradul I astfel
încât suma erorilor de estimare să fie minimă.

Asumpţia că valorile observate yij pentru o anumită valoarea lui X se distribuie normal în jurul estimatei ŷi
înseamnă că erorile au o distribuţie normală, cu media 0 şi abaterea standard 1.
Metoda Pătratelor Minime (celor mai mici pătrate)
Pentru fiecare individ statistic (i) avem o valoare y i (care corespunde efectiv individului respectiv), mai avem o valoare estimată
a lui Y (ŷi) (care rezultă prin calcul introducând pe x i în formulă) şi o valoare reziduală y i – ŷi.
Putem măsura eroarea estimării (eroarea de predicţie) calculând suma pătratelor reziduurilor (Sum of Squared Errors):
SSE=Σ (yi – ŷi)2

Metoda pătratelor minime este o procedură de a determina coeficienţii de regresie a şi b pentru ecuaţia de predicţie Ŷ= a + b*X
astfel încât valoarea sumei pătratelor reziduurilor să fie minimă.
Pe baza metodei celor mai mici pătrate (soluţionarea ecuaţiei de regresie astfel încât suma erorilor de estimare să fie minimă)
se pot calcula coeficienţii de regresie:

Σ(xi –media(x))*(yi-media(y))
b= a =media(Y)-b*media(X)
Σ(xi –media(x))2

Unde media (Y) si media (X) sunt mediile obţinute pe eşantion.


Diferenţa dintre valoarea estimată a lui Y (ŷi) şi valoarea observată (yi) pentru un anumit individ statistic i este numită
valoarea reziduală i (sau reziduul i).
The relationship between the height of dogs (X)
and the speed of running (Y)

Agars:
Y = a1 + b1*X

Terriers:
Y = a2 + b2*X

Canish:
Y = a3 + b3*X

What can you say about the


regression coefficients?
The relationship between earnings (Y)
and years of schooling (X)

Group A:
Y = a1 +b1*X

Group B:
Y = a2 + b2*X

What can you say about the


regression coefficients?
În cazul nostru:
Nota la Test 1 (Simulare BAC) = X
Nota la Test 2 (Examenul BAC) = Y
Ecuaţia de predicţie lineară:
Ŷ= 3,033 + 0,717*X
Valoarea 0,717 a coeficientului b ne arată că, în medie, nota obţinută la BAC creşte cu 0,717 puncte atunci
când nota obţinută la simulare creşte cu o unitate. Valoarea 3,033 a coeficientului a ne arată că ne aşteptăm
ca cineva care nu a obţinut nici un punct la primul test, la cel de-al doilea va obţine un scor de 3,033.
Grade at Grade at Predicted Squared
Student test 1 test 2 grade at test2 Residual error
1 7 8 8,052 -0,052 0,003
2 9 10 9,486 0,514 0,264
3 6 8 7,335 0,665 0,442
4 5 7 6,618 0,382 0,146
5 10 10 10,203 -0,203 0,041
6 7 7 8,052 -1,052 1,107
7 4 6 5,901 0,099 0,010
8 3 5 5,184 -0,184 0,034
9 6 7 7,335 -0,335 0,112
10 8 9 8,769 0,231 0,053
11 7 7 8,052 -1,052 1,107
12 7 9 8,052 0,948 0,899
Suma pătratelor reziduurilor (erorilor de predicţie) este SSE = 4,217.
În ce măsura se reduc erorile de predicţie pentru o variabilă dacă ţinem cont de
distribuţia sa condiţionată de o altă variabilă (distribuţie bivariată)?
PRE= (E1-E2)/E1
E1 – Suma erorilor comise dacă realizăm predicţia pe baza distribuţiei simple a
variabilei estimate (pentru o variabilă cantitativă, pe baza MEDIEI)
E2 – Suma erorilor comise dacă realizăm predicţia pe baza distribuţiei condiţionate,
adică a valorilor estimate pentru variabila dependentă în funcţie de cea
independentă.
Interpretare: Pentru variabile cantitative avem:
E1 = suma erorilor de predicţie considerând că Y = media (Y) pentru fiecare individ
reducerea statistic i, indiferent de valoarea pe care o are acesta pentru X

proporţională a E1= Σ (yi – media(Y))2 = TSS (total sum of squares)


E2 = suma erorilor de predicţie considerând că există o relaţie de dependenţă
erorilor de predicţie lineară între X şi Y:
E2 = Σ (yi – ŷi)2 =SSE (sum of squared errors or residuals)
Deci, PRE = (TSS-SSE)/TSS.
Regression Sum of Squares = Σ (ŷi – mean(Y))2 = TSS-SSE
Valoarea PRE pentru analiza de regresie se notează cu R 2 (R Square) şi
ne arată ce proporţie din varianţa variabilei independente este explicată de varianţa
variabileo independente introduse în modelul de regresie.
Noţiuni centrale de reţinut:

• Ecuaţia dreptei de regresie: ŷ = a + b*x

• Coeficientul constant a indică punctul în care dreapta de regresie intersectează axa Oy.

Coeficientul b (panta dreptei de regresie) arată cu câte unităţi se modifică, în medie, variabila
dependentă atunci când variabila independentă se schimbă cu o unitate de măsură proprie.

• R2 (R Square) şi ne arată ce proporţie din varianţa variabilei independente este explicată de


varianţa variaabilei independente introduse în modelul de regresie.

• R2 - ne arată cu cât se reduc erorile de predicţie atunci când în locul mediei folosim ecuaţia de
predicţie (ecuaţia dreptei de regresie).

• r – coeficientul de corelaţie, cât de puternică este legătura dintre cele două variabile
Agresti şi Finley (2009) – cap. 9: Linear Regression and
Referințe Correlation, pp. 255 – 288
bibliografice Rotariu (2006) – cap. 7: Corelaţie şi regresie simplă liniară, pp.
169 - 182
Data viitoare

Regresia liniară multiplă


Asumpţiile analizei de regresie

S-ar putea să vă placă și