Documente Academic
Documente Profesional
Documente Cultură
Sorana D. BOLBOACĂ
Conținut
• Corelaţia
▫ Definiţie
▫ Formule de calcul
▫ Testarea ipotezelor
• Regresia liniară
- Simplă
- Multiplă
2
Corelaţia: 3 caracteristici
1. Direcţia
• Pozitivă (+)
• Negativă (-)
2. Gradul de asociere
• Între –1 şi 1
• Valoarea absolută semnifică puterea asocierii
3. Forma
• Lineară 3
• Nelineară
Corelaţia: 1. direcţia
Pozitivă 120.0
C1 vs C2
C1 vs C2
20.0
Negativă
80.0
13.3
C2
C2
40.0
6.7
0.0
0.0 0.0 83.3 166.7 250.0
0.0 4.0 8.0 12.0 C1
C1 Valori mari ale lui X se asociază
Valori mari ale lui X se asociază cu cu valori mici ale lui Y
valori mari ale lui Y Valori mici ale lui X se asociază
cu valori mari ale lui Y 4
Valori mici ale lui X se asociază cu
valori mici ale lui Y
Ex. Viteza şi acurateţea
Corelaţia: 2. Gradul asocierii
Slabă
Puternică
C1 vs C2 (nor deC1 vspuncte
C2
difuz)
120.0
20.0
13.3 80.0
C2
C2
6.7 40.0
0.0 0.0
0.0 4.0 8.0 12.0 0.0 4.0 8.0 12.0
C1 C1
5
Corelaţia: 3. Forma
Lineară Nelineară
6
Corelaţia Pearson: Definiţie
• Tehnică statistică care măsoară şi descrie gradul
de asociere lineară dintre două variabile
cantitative continue normal distribuite
Grafic de tip nor de puncte
Date
Obs X Y
A 1 1
B 1 3
C 3 2 Y
D 4 5
E 6 4
F 7 5 7
X
Asocierea
Media lui X
< Media lui X > Media lui X
> Media lui Y > Media lui Y
Media lui Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
8
Pentru o asociere pozitivă
Produsul ( X − X )(Y − Y ) puternică, produsul va avea o
valoare mare pozitivă
Asocierea
Media lui X
< Media lui X > Media X
> Media lui Y > Media Y
Media lui Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
9
Pentru o asociere puternică negativă,
Produsul ( X − X )(Y − Y ) produsul va avea o valoare mare
negativă
Asocierea
Media lui X
< Media lui X > Media lui X
> Media lui Y > Media lui Y
Media lui Y
< Media lui X > Media lui X
< Media lui Y < Media lui Y
10
Pentru o asociere slabă, valoarea
Produsul ( X − X )(Y − Y ) produsului este fie pozitivă fie negativă
Coeficientul de corelaţie Pearson
Simbol: r, R
r= ∑ (X − X )(Y − Y )
∑ (X − X ) ∑ (Y − Y )
2 2
11
Coeficientul de corelaţie Pearson
Asumpţii:
1.Erorile din date sunt independente
2.Există o relaţie de linearitate între cele două
variabile de interes
3.Variabilele urmează o distribuţie normală
bivariată
12
Coeficientul de corelaţie Pearson
Femur Humerus (X−X) (Y−Y) (X−X)2 (Y−Y)2 (X−X)(Y−Y)
A 38 41
B 56 63
C 59 70
D 64 72
E 74 84
Mean 58.2 66.00
SSX SSY SP
SP
r= 13
SSXSSY
Coeficientul de corelaţie Pearson
Femur Humerus (X−X) (Y−Y) (X−X)2 (Y−Y)2 (X−X)(Y−Y)
A 38 41 ‐20.2 ‐25 408.04 625 505
B 56 63 ‐2.2 ‐3 4.84 9 6.6
C 59 70 0.8 4 .64 16 3.2
D 64 72 5.8 6 33.64 36 34.8
E 74 84 15.8 18 249.64 324 284.4
mean 58.2 66.00 696.8 1010 834
SSX SSY SP
14
r = 0.99
Coeficientul de corelaţie Pearson: Interpretare
p-value
Sample size
16
Coeficientul de corelaţie al rangurilor Spearman
17
Coeficientul de corelaţie al rangurilor Spearman
18
Coeficientul de determinare (r2/R2)
19
Proprietăţile coeficientului de corelaţie
20
Coeficientul de corelaţie: exemplu
21
Matricea de corelaţie
Regresia lineară simplă
Regresia lineară multiplă
Regresia liniară: asumpţii
• Formula generală: Y = a + bX
• Ecuaţia de predicţie: Ỹ = a+ bX
▫ a = intercept, b = coeficientul dreptei, X = predictor
• a și b sunt constante într-o ecuaţie; X şi Y se modifică
26
Panta şi interceptul
• Ỹ = a + bX
Panta b: Cantitatea cu care valoarea Y se modifică în
momentul în care modificăm valoarea lui X cu o unitate
sy SP
b=r =
s x SS X
a = Y − bX
Panta este influenţată de r, dar nu are aceeaşi semnificaţie
ca şi r 27
28
http://onlinelibrary.wiley.com/doi/10.1111/j.1939-1676.2011.00812.x/pdf
29
De reţinut!
▫ Evaluarea puterii asocierii dintre două variabile
cantitative continue (normal distribuite) ―›
corelaţie
▫ Prezicerea unei variabile (Y) în funcţie de o altă
variabilă (X) ―› regresie