Sunteți pe pagina 1din 30

Corelaţia şi regresia liniară

Sorana D. BOLBOACĂ
Conținut
• Corelaţia
▫ Definiţie
▫ Formule de calcul
▫ Testarea ipotezelor
• Regresia liniară
- Simplă
- Multiplă

2
Corelaţia: 3 caracteristici

1. Direcţia
• Pozitivă (+)
• Negativă (-)

2. Gradul de asociere
• Între –1 şi 1
• Valoarea absolută semnifică puterea asocierii

3. Forma
• Lineară 3

• Nelineară
Corelaţia: 1. direcţia
Pozitivă 120.0
C1 vs C2
C1 vs C2
20.0
Negativă
80.0

13.3

C2
C2

40.0
6.7

0.0
0.0 0.0 83.3 166.7 250.0
0.0 4.0 8.0 12.0 C1
C1 Valori mari ale lui X se asociază
Valori mari ale lui X se asociază cu cu valori mici ale lui Y
valori mari ale lui Y Valori mici ale lui X se asociază
cu valori mari ale lui Y 4
Valori mici ale lui X se asociază cu
valori mici ale lui Y
Ex. Viteza şi acurateţea
Corelaţia: 2. Gradul asocierii

Slabă
Puternică
C1 vs C2 (nor deC1 vspuncte
C2
difuz)
120.0
20.0

13.3 80.0

C2
C2

6.7 40.0

0.0 0.0
0.0 4.0 8.0 12.0 0.0 4.0 8.0 12.0
C1 C1

5
Corelaţia: 3. Forma

Lineară Nelineară

6
Corelaţia Pearson: Definiţie
• Tehnică statistică care măsoară şi descrie gradul
de asociere lineară dintre două variabile
cantitative continue normal distribuite
Grafic de tip nor de puncte
Date

Obs X Y
A 1 1
B 1 3
C 3 2 Y
D 4 5
E 6 4
F 7 5 7

X
Asocierea
Media lui X
< Media lui X > Media lui X

> Media lui Y > Media lui Y

Media lui  Y
< Media lui X > Media lui X

< Media lui Y < Media lui Y

8
Pentru o asociere pozitivă 
Produsul ( X − X )(Y − Y ) puternică, produsul va avea o 
valoare mare pozitivă
Asocierea
Media lui X
< Media lui X > Media X

> Media lui Y > Media Y

Media lui Y
< Media lui X > Media lui X

< Media lui Y < Media lui Y

9
Pentru o asociere puternică negativă, 
Produsul  ( X − X )(Y − Y ) produsul va avea o valoare mare 
negativă
Asocierea
Media lui X
< Media lui X > Media lui X

> Media lui Y > Media lui Y

Media lui Y
< Media lui X > Media lui X

< Media lui Y < Media lui Y

10
Pentru o asociere slabă, valoarea 
Produsul  ( X − X )(Y − Y ) produsului este fie pozitivă fie negativă  
Coeficientul de corelaţie Pearson
Simbol: r, R

Ia valori între -1 şi +1 indicând puterea (interpretăm


valoarea coeficientului) şi direcţia (interpretăm semnul
coeficientului) asocierii lineare.
Valoarea absolută indică puterea asocierii
• + (direct proporţional)/- indică (invers proporţional)
direcţia asocierii

r= ∑ (X − X )(Y − Y )
∑ (X − X ) ∑ (Y − Y )
2 2
11
Coeficientul de corelaţie Pearson

Asumpţii:
1.Erorile din date sunt independente
2.Există o relaţie de linearitate între cele două
variabile de interes
3.Variabilele urmează o distribuţie normală
bivariată

12
Coeficientul de corelaţie Pearson
Femur Humerus (X−X) (Y−Y) (X−X)2 (Y−Y)2 (X−X)(Y−Y)
A 38 41
B 56 63
C 59 70
D 64 72
E 74 84
Mean 58.2 66.00
SSX SSY SP

SP
r= 13
SSXSSY
Coeficientul de corelaţie Pearson
Femur Humerus (X−X) (Y−Y) (X−X)2 (Y−Y)2 (X−X)(Y−Y)
A 38 41 ‐20.2 ‐25 408.04 625 505
B 56 63 ‐2.2 ‐3 4.84 9 6.6
C 59 70 0.8 4 .64 16 3.2
D 64 72 5.8 6 33.64 36 34.8
E 74 84 15.8 18 249.64 324 284.4
mean 58.2 66.00 696.8 1010 834
SSX SSY SP

14
r = 0.99
Coeficientul de corelaţie Pearson: Interpretare

• O măsură a puterii asocierii: cât de puternic


punctele din grafic se aglomerează în jurul unei
linii?
• O măsură a direcţiei asocierii: pozitivă sau negativă?
• Reguli empirice de interpretare a coeficientului de
corelaţie: Colton [Colton T. Statistics in Medicine.
Little Brown and Company, New York, NY 1974] :
x R ⊂ [-0.25 to +0.25] → Nu există nici o relaţie
x R ⊂ (0.25 to +0.50] ∪ (-0.25 to -0.50] → relaţie slabă
x R ⊂ (0.50 to +0.75] ∪ (-0.50 to -0.75] → relaţie
moderată
x R ⊂ (0.75 to +1) ∪ (-0.75 to -1) → relaţie puternică 15
Coeficientul de corelaţie Pearson: Interpretare

• Valoarea p este probabilitatea ca valoarea coeficientului


de corelaţie să fie egală cu zero (ipoteza nulă).
• Dacă probabilitatea este mai mică decât nivelul de
semnificaţie (ex. p < 0.05) → coeficientul de corelaţie
este semnificativ statistic.
Correlation
coefficient

p-value

Sample size
16
Coeficientul de corelaţie al rangurilor Spearman

• Se poate aplica pe orice tip de variabile


• Nu necesită asumpţia distribuţiei normale bivariate a
celor 2 variabile de interes
• Simbol: ρ

17
Coeficientul de corelaţie al rangurilor Spearman

• Semnul coeficientului de corelaţie


Spearman indică direcţia asocierii
(invers proporţionale pentru
semnul - şi direct proporţional
pentru semnul +) dintre
variabilele investigate
• ρ =1 → relaţia dintre cele două
variabile investigate este
monotonă . N.B. Nu va da un
coeficient de corelaţie Pearson
egal cu 1.

18
Coeficientul de determinare (r2/R2)

• Valoarea covariaţiei raportat la volumul total al


variaţiei
• Procentul din variaţia totală care este explicată
de variabilele independente
• Exemplu
▫ Dacă r = 0.80 → variabilele independente explică
64% din variabilitatea variabilei dependente

19
Proprietăţile coeficientului de corelaţie

• O statistică standardizată – nu se modifică dacă


schimbăm unităţile de măsură ale variabilelor.
• Valoarea este identică dacă corelăm pe X cu Y
sau pe Y cu X.
• Valoarea este destul de instabilă pentru n mic
• Vulnerabil la valori extreme
• Are o distribuţie asimetrică

20
Coeficientul de corelaţie: exemplu

• Enciu A, Zamfir CZ, Nicolescu A, Ida A. THE ANALYSIS OF


CORRELATIONS BETWEEN THE MAIN TRAITS OF WOOL
PRODUCTION ON MILK BREED – PALAS. Lucrări Ştiinţifice -
Seria Zootehnie ????;57:50-54.

21
Matricea de corelaţie
Regresia lineară simplă
Regresia lineară multiplă
Regresia liniară: asumpţii

• Erorile măsurătorilor sunt independente


• Regresia depinde de identificarea corectă a
modelului relaţional
• Nu există erori în măsurarea valorilor variabilei
dependente
• Variaţia valorilor lui Y este aceeaşi pentru toate
valorile lui X
• Valorile Y urmează o distribuţie normală
24
Regresia liniară

• Dacă există o relaţie de liniaritate între


variabilele de interes putem identifica o ecuaţie
simplă pentru a prezice o variabilă cunoscând
cealaltă variabilă
• Variabila rezultate este variabila Y, iar variabila
predictor este variabila X
• Exemplu: transformarea în grade Fahrenheit
cunoscând valoarea în grade Celsius:
F = 32 + 1.8ºC
Această formulă dă o line perfectă 25
Ecuanția dreptei

• Formula generală: Y = a + bX
• Ecuaţia de predicţie: Ỹ = a+ bX
▫ a = intercept, b = coeficientul dreptei, X = predictor
• a și b sunt constante într-o ecuaţie; X şi Y se modifică

26
Panta şi interceptul
• Ỹ = a + bX
ƒ Panta b: Cantitatea cu care valoarea Y se modifică în
momentul în care modificăm valoarea lui X cu o unitate
sy SP
b=r =
s x SS X

ƒ Interceptul a: valoarea lui Y când X este zero

a = Y − bX
ƒ Panta este influenţată de r, dar nu are aceeaşi semnificaţie
ca şi r 27
28

http://onlinelibrary.wiley.com/doi/10.1111/j.1939-1676.2011.00812.x/pdf
29
De reţinut!
▫ Evaluarea puterii asocierii dintre două variabile
cantitative continue (normal distribuite) ―›
corelaţie
▫ Prezicerea unei variabile (Y) în funcţie de o altă
variabilă (X) ―› regresie

S-ar putea să vă placă și