Documente Academic
Documente Profesional
Documente Cultură
Ex.:
- exercitiile fizice cresc frecventa cardiaca,
- oamenii inalti au masa mai mare,
- etc
12 8
10 7
6
8
5
6
Y
Y
4
4
3
2 2
0 1
-2 0
-2 3 X 8 0 X10
8
8
7 Perfect -ve
Perfect +ve
6 6
5
Y
Y
4 4
3
2 2
1
0 0
0 X10 0 10
X
9
8
8
7
Strong +ve 7 Weak -ve
6 6
5 5
Y
4 4
Y
3 3
2 2
1 1
0
0
0 5 10 15
0 5 X10 15 X
14 14
12 No Relationship No Relationship
12
10 10
8 8
Y
6 6
Y
4 4
2 2
0 0
-2 -2
-2 3 8 13 -2 3 8 13
X X
Y
20
40
10
0
-10 -10
-2 3 8 13 -2 3 8 13
X X
Corelatia are 3 caracteristici importante:
- Directia:
pozitiva (+)
negativa (-)
- Forma:
liniara
neliniara
- Gradul de asociere
intre -1 si +1
valoarea absoluta semnifica puterea asocierii
Coeficientii de corelaţie
• au valori între -1 şi +1
– -1 corelaţie perfect negativă
– +1 corelaţie perfect pozitivă
– 0 nu există corelaţie (asociere aleatoare)
• Tipuri de coeficienţi
– Coeficient Pearson rxy
– Coeficient Spearman rs (a ordinului)
Coeficientul de corelaţie Pearson
1
( x x )( y y)
rxy n
s xs y
n = mărimea eşantionului
x = valorile individuale ale variabilei x
y = valorile individuale ale variabilei y
x = media aritmetică a tuturor valorilor x
y = media aritmetică a tuturor valorilor y
s x = deviaţia standard a tuturor valorilor x
s y = deviaţia standard a tuturor valorilor y
xi x yi y
1
n i s xy
rxy
sx s y sx s y
n
i
x x 2
sx i 1
n
deviatiile standard pentru variabilele x si y
n
iy y 2
sy i 1
n
x i x y i y
Sxy Covarianta rxy i
i i
Covarianţa
1
s xy ( x x )( y y)
n
3
2 xx
1
0
0 5 X10 15
x
Covarianţa (sxy)- exemplu de calcul
s xy 1 / n (x x)( y y)
n
x y (x x) ( y y) (x x)( y y)
i
x x 2
5 4 2 1 2 sx i 1
n
3 1 0 -2 0
1 2 -2 -1 2 n
iy y 2
2 5 -1 2 -2 sy i 1
n
4 3 1 0 0
3 3 1 n ( x x )( y y ) = 2/5 = 0,4
1
x i x yi y sx · sy = 1,41 ·1,41 2,0
n i Sxy
rxy
sx sy sx sy Varianţa totală → sx · sy
Coeficientul Pearson rxy - exemplu de calcul
x 80 61 23 94 87 37 64 22 23
y 30 29 33 21 61 56 86 69 22
100
80
60
Y
40
20
0
0 20 40 60 80 100
X
x i x yi y
1
Coeficientul Pearson rxy - exemplu de calcul n i
rxy
sx sy
x y
80 30
61 29
23 33
94 21
87 61
37 56
64 86
22 69
23 22
Media 54,56 45,22
Dev St 27,38 22,02
x i x yi y
1
Coeficientul Pearson rxy - exemplu de calcul n i
rxy
sx sy
x y (x x) ( y y)
80 30 25,44 -15,22
61 29 6,44 -16,22
23 33 -31,56 -12,22
94 21 39,44 -24,22
87 61 32,44 15,78
37 56 -17,56 10,78
64 86 9,44 40,78
22 69 -32,56 23,78
23 22 -31,56 -23,22
Media 54,56 45,22
Stdev 27,38 22,02
x i x yi y
1
Coeficientul Pearson rxy - exemplu de calcul n i
rxy
sx sy
x y (x x) ( y y) (x x)( y y)
80 30 25,44 -15,22 -387,32
61 29 6,44 -16,22 -104,54
23 33 -31,56 -12,22 385,68
94 21 39,44 -24,22 -955,43
87 61 32,44 15,78 511,90
37 56 -17,56 10,78 -189,21
64 86 9,44 40,78 385,12
22 69 -32,56 23,78 -774,10
23 22 -31,56 -23,22 732,79
Media 54,56 45,22
Stdev 27,38 22,02
x i x yi y
1
Coeficientul Pearson rxy - exemplu de calcul n i
rxy
sx sy
x y (x x) ( y y) (x x)( y y)
80 30 25.44 -15.22 -387,32
61 29 6.44 -16.22 -104,54
23 33 -31.56 -12.22 385,68
94 21 39.44 -24.22 -955,43
87 61 32.44 15.78 511,90
37 56 -17.56 10.78 -189,21
64 86 9.44 40.78 385,12
22 69 -32.56 23.78 -774,10
23 22 -31.56 -23.22 732,79
Media 54,56 45,22 (x x)( y y) -395,11
Stdev 27,38 22,02
x i x yi y
1
Coeficientul Pearson rxy - exemplu de calcul n i
rxy
sx sy
x y (x x) ( y y) (x x)( y y)
80 30 25.44 -15.22 -387.32
61 29 6.44 -16.22 -104.54
23 33 -31.56 -12.22 385.68
94 21 39.44 -24.22 -955.43
87 61 32.44 15.78 511.90
37 56 -17.56 10.78 -189.21
64 86 9.44 40.78 385.12
22 69 -32.56 23.78 -774.10
23 22 -31.56 -23.22 732.79
Mean 54.56 45.22 (x x)( y y) -395,11
Stdev 27.38 22.02
1 / n (x x)( y y) -43,90
x i x yi y
1
Coeficientul Pearson rxy - exemplu de calcul n i
rxy
sx sy
sxy = 43,90
sx = 27,38
sy = 22,02
1 / n ( x x )( y y) - 43,90
rxy 0,07
sxs y 27,38 22,02
PEARSON
Regulile lui Colton (enuntate in 1974):
Coeficientul de
> 0,05 < 0,05
corelatie
Corelatie slaba sau Corelatie slaba sau
-0,25 < r < 0,25
nula nula
-0,5 < r < -0,25 Nu are semnificatie Grad de asociere
0,25 < r < 0,5 statistica acceptabil
-0,75 < r < -0,5 Nu are semnificatie Corelatie moderata
0,5 < r < 0,75 statistica spre buna
r < -0,75 Nu are semnificatie
Corelatie foarte buna
r > 0,75 statistica
r < -1
Eroare Eroare
r>1
Coeficientul Spearman rs (de corelaţie a ordinului)
6 d 2
rs 1
n3 n
n = mărimea eşantionului
d = diferenţa între ordinele fiecărei perechi de valori (d = rx - ry)
x 1.2 1.8 4.0 3.6 1.9 2.4 2.7 0.4 0.1 0.9
y 2.7 2.4 8.1 7.2 2.5 3.7 4.6 1.7 1.8 1.4
10
Discharge (m /sec)
8
3
0
0 1 2 3 4 5
Rainfall (mm)
6 d 2
Coeficientul Spearman rs (exemplu de calcul) rs 1
n3 n
d2 = 14
6 d 2
Coeficientul Spearman rs (exemplu de calcul) rs 1
n3 n
d2 = 14 n = 10
6 d 2 6 14
rs 1 3 1 3 1 0,085 0,915
n n 10 10
rs aproape de valoarea 1→ corelatie a ordinului foarte buna!
EXCEL: SUMXMY2
suma pătratele diferenţelor dintre
2 seturi de date
Testarea “semnificaţiei” coeficientului de corelaţie
Ipoteza nulului:
H0: = 0 (nu exista corelatie!)
Ipoteza alternativă (una din variantele):
H 1: > 0 (corelaţie pozitivă)
H 1: < 0 (corelaţie negativă)
H 1: 0 (exista corelatie, dar nu suntem siguri de semnul
corelaţiei)
One-tailed Two-tailed
H1: > 0 or < 0 H1: 0
0.20 0.20
0.15 0.15
frequency
frequency
0.10 0.10
0.05 0.05
0.00 0.00
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
r r
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
t t
Exemplu: testul-t pentru semnificaţia lui r
• r = -0,07; n = 9; df = 9 – 2 = 7
• H 0: = 0
• H 1: 0
n2 92
t calc r 2
0.07 0,1857
2
1 r 1 (0.07)
Significance Level
df 0.1000 0.0500 0.0250 0.0100 0.0050
1 0.9877 0.9969 0.9992 0.9999 1.0000
2 0.9000 0.9500 0.9750 0.9900 0.9950
3 0.8054 0.8783 0.9237 0.9587 0.9740
4 0.7293 0.8114 0.8680 0.9172 0.9417
5 0.6694 0.7545 0.8166 0.8745 0.9056
6 0.6215 0.7067 0.7713 0.8343 0.8697
: : : : : :
: : : : : :
80 0.1829 0.2172 0.2475 0.2830 0.3072
90 0.1726 0.2050 0.2336 0.2673 0.2903
100 0.1638 0.1946 0.2219 0.2540 0.2759
For a sample size of n, df = n - 2
Significance Level
N 10% 5% 2% 1%
4 1.000 - - -
5 0.900 1.000 1.000 -
6 0.771 0.886 0.943 1.000
7 0.714 0.786 0.892 0.929
8 0.643 0.738 0.810 0.857
9 0.600 0.683 0.783 0.817
10 0.564 0.648 0.733 0.781
11 or more Use a table for Pearson’s r or the t-test
• Ne spune cat din variaţia unei variabile este explicată prin variaţia
celeilalte variabile.
• Coeficientul de determinare este pătratul coeficientului Pearson rxy
• Coeficientul de determinare indica procentul din variatia totala a
variabilei dependente care este explicata de variabila independenta
Exemple:
r = 0,60 (r2 = 0,62 = 0,36)
36% din variaţia unei variabile este explicată prin variaţia celeilalte
variabile.
30
• Corelaţia 25
associate (correlate) 15
Y
– nu ne indica relatia dintre variabile 10
0
0 5 10 15
30
• Regresia 25
y = 1.0 + 2.0x
Y
– variabile dependente şi independente 10
0
0 5 10 15
X
30 Regresie Liniară
25
y = 1 .0 + 2 . 0 x
20
15 y = a + b·x
Y
10
0
0 5 10 15
Regresie neliniară
30
25
y = 1 .0 + 0.2x 2. 0
20
15
Y
y a bx c
10
0
0 5 10 15
X
Regresia Liniară
30
y = a + b·x
25
y = 1 .0 + 2 . 0 x
20
x = variabilă independentă
15 y = variabilă dependentă
Y
10
5
a, b, coeficienti de regresie
0
0 5 10 15
x x
2
sX i
sX - deviatia standard a variabilei X sx i 1
n
a y bx y - media variabilei Y n
y y
2
i
x - media variabilei X sy i 1
n
4
y
0
0 1 2 3 4 5 6 7
x
6 y a bx
dy
5
dy 0
dy
dy
4
dy minimum
y
dy 2
3 dy
dy
2 dy
1 dy yi yiest
0
0 1 2 3 4 5 6 7
x
n a b x y
a x b x 2 x y
s y( x) s y 1 r 2
10
Pentru orice set de date se pot trasa
8
doua drepte de regresie care
6 minimizeaza suma patratelor reziduurilor
Y
4 y on x
pe axele Ox respectiv Oy.
2
x on y
0
0 1 2 3 4 5
y = α + βx y = a + bx
x x
y = a + bx y = a + bx
y = a + bx
y = + x y = + x
x x
Testarea semnificaţiei coeficienţilor de regresie
y y
1.2
est 2 1
i i 0.8
s yx
0.6
i
Y
0.4
n2
0.2
-0.2
-0.4
-0.4 0.1 0.6 1.1
1.2
0.8
0.6
sxy - daca x este estimat din valoarea lui y
Y
0.4
0.2
-0.2
-0.4
-0.4 0.1 0.6 1.1
X
Testul-t pentru pantă
( xi x ) 2
1
- daca tcalc > tcrit, H0 este respinsa (panta dreptei de regresie are
semniticatie statistica)
Cu cât valoarea lui tcalc este mai mare, cu atât e mai mică posibilitatea
ca valoarea pantei să provină din eşantionarea aleatoare a unor variabile
care nu sunt liniar relaţionate.
Testul-t pentru intercept
1 x2
tcalc a a / S yx
Sa n
(x x)
n 2
i
1
rxy
n i
Sxy s yx i
n2
(x x)
i
2
sx sy sx sy
1
ANOVA
SSR SST
df SS MS F Significance F
Regression 1 14889002.38 14889002 383.6874767 2.25643E-07
Residual 7 271635.1796 38805.03
Total 8 15160637.56
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 911.9844282 100.6521225 9.060757 4.08297E-05 673.9799784 1149.988878 673.9799784 1149.988878
X Variable 1 1042.491484 53.22108252 19.58794 2.25643E-07 916.6436218 1168.339347 916.6436218 1168.339347
• o variabilă dependentă
• y = a + bx1 + cx2 + …
De reţinut!