Sunteți pe pagina 1din 3

Seminar XIII - Corelația

Corelația reprezintă asocierea sau legătura între două variabile. Coeficientul de corelaţie
ia valori între +1 şi 1.
 Valoarea +1 semnifică o relaţie (directă) perfectă între cele 2 serii de date.
 valoarea 0 indică faptul că între cele 2 serii de date nu există nici o relație.
 valoarea –1 indică şi ea o relaţia (inversă) perfectă.
O valoare pozitivă a corelaţiei arată o relaţie directă (e.g., când nivelul unei variabile crește,
crește și nivelul celeilalte variabile SAU când valoarea/nivelul unei variabile scade, scade și
valoarea/nivelul celeilalte variabile), iar una negativă arată o relaţie inversă (e.g., când nivelul unei
variabile crește, scade nivelul celeilalte variabile SAU când valoarea/nivelul unei variabile scade,
crește și valoarea/nivelul celeilalte variabile).
În funcție de mărimea absolută a coeficientului de corelație, putem discuta despre:
- corelație slabă (coeficientul este mai mic sau egal cu 0,30)
- corelație medie (coeficientul este cuprins în intervalul [0,31; 0,50]
- corelație puternică (coeficientul este mai mare de 0,51).
În funcție de specificul celor două variabile, putem alege un anume tip de analiză de corelație.
1. Dacă ambele variabile sunt cantitative și se distribuie normale => Corelaţia Braivais –
Pearson
2. Dacă ambele variabile sunt cantitative și nu se distribuie normale SAU sunt măsurate pe scala
ordinală => Corelaţia Spearman
3. Dacă cele două șiruri de date vizează corespondența/concordanța între doi evaluatori =>
Coeficientul Kendall

H0 – Nu există o asociere între variabila 1 și variabila 2.


H1 - Există o asociere între variabila 1 și variabila 2.

1
1. Corelaţia Braivais – Pearson 2. Corelaţia Spearman (de ranguri)
- pentru date de interval (cantitative şi continue); - pentru date ordinale;
 xy 6 *  d2
Are formula: r  Are formula:   1 ; d = rx - ry
2 2 2
x *y N * ( N  1)

sem1 sem2 sem1 sem2


x y x2 y2 x*y rx ry d d2
(X) (Y) (X) (Y)
6.93 5.36 -0.60 -1.66 0.36 2.76 1.00 6.93 5.36 13 20 -7 49
6.13 5.40 -1.40 -1.62 1.96 2.62 2.27 6.13 5.40 18 19 -1 1
5.90 5.53 -1.63 -1.49 2.66 2.22 2.43 5.90 5.53 20 18 2 4
6.23 5.80 -1.30 -1.22 1.69 1.49 1.59 6.23 5.80 17 17 0 0
5.96 6.13 -1.57 -0.89 2.46 0.79 1.40 5.96 6.13 19 16 3 9
7.26 6.16 -0.27 -0.86 0.07 0.74 0.23 7.26 6.16 10.5 14.5 -4 16
6.83 6.16 -0.70 -0.86 0.49 0.74 0.60 6.83 6.16 14 14.5 -0.5 0.25
6.80 6.26 -0.73 -0.76 0.53 0.58 0.55 6.80 6.26 15 13 2 4
6.26 6.36 -1.27 -0.66 1.61 0.44 0.84 6.26 6.36 16 11.5 4.5 20.25
7.26 6.36 -0.27 -0.66 0.07 0.44 0.18 7.26 6.36 10.5 11.5 -1 1
7.03 6.46 -0.50 -0.56 0.25 0.31 0.28 7.03 6.46 12 10 2 4
7.53 7.03 0.00 0.01 0.00 0.00 0.00 7.53 7.03 9 9 0 0
8.30 7.56 0.77 0.54 0.59 0.29 0.42 8.30 7.56 7 8 -1 1
8.06 7.56 0.53 0.54 0.28 0.29 0.29 8.06 7.56 8 7 1 1
8.76 7.76 1.23 0.74 1.51 0.55 0.91 8.76 7.76 5 6 -1 1
9.33 8.23 1.80 1.21 3.24 1.46 2.18 9.33 8.23 2 5 -3 9
9.13 8.46 1.60 1.44 2.56 2.07 2.30 9.13 8.46 3 4 -1 1
8.70 8.76 1.17 1.74 1.37 3.03 2.04 8.70 8.76 6 3 3 9
8.93 9.40 1.40 2.38 1.96 5.66 3.33 8.93 9.40 4 2 2 4
9.36 9.56 1.83 2.54 3.35 6.45 4.65 9.36 9.56 1 1 0 0
27.03 32.93 27.47 134.5
1. X  7,53 ; Y  7,02 ;
6 * 134,5
27, 47   1  0,90
2. r  0,92
20 * 399
27, 03* 32,93

Pentru aceleaşi date, prin cele 2 procedee se pot obţine rezultate uşor diferite.
Pentru a vedea semnificația unei corelaţii se calculează un test t după formula:
r N 2  N 2
t  sau t 
2 2
1 r 1 

0,92 20  2
t1   10, 01 ; la ν = N-1 = 19 grade de liberate găsim cea mai apropiată valoare 3,883
1  0,85
căreia îi corespunde p< 0,0005 < 0,01 deci se respinge ipoteza de nul și se acceptă ipoteza
alternativă – există o asociere semnificativă între cele două variabile;

2
0,90 20  2
t2   8, 70 ; aceleaşi concluzii
1  0,81
Prin urmare, putem spune că între performanţele şcolare pe cele 2 semestre există o legătură
(directă) puternică, în sensul în care performanțele ridicate de pe primul semestru se asociază
semnificativ cu performanțele ridicate din semestrul al doilea.

3. Coeficientul Kendall
sem1 sem2 2T
rx ry d– d+ K  ; T =( suma d-) + (suma d+)
(X) (Y) N ( N  1)
9.36 9.56 1 1 0 19 Etapa 1. Se ordonează datele descrescător în funcție de prima variabilă.
9.33 8.23 2 5 -3 15 Etapa 2. Se calculează rangurile pentru cele două șiruri de date.
9.13 8.46 3 4 -2 15 Etapa 3. Se calculează d- și d+ în funcție de cel de-al doilea șir de date
8.93 9.4 4 2 0 16 (ry).
8.76 7.76 5 6
8.7 8.76 6 3 (d -) => se calculează în funcție de ry.
8.3 7.56 7 8 Spre exemplu, prima valoare din tabel al lui ry este 1. Câte valori sunt mai
8.06 7.56 8 7 mici decât 1 în josul tabelului? Răspuns: 0
7.53 7.03 9 9
7.26 6.16 10.5 14.5 Pentru cea de-a doua valoare a lui ry (5), câte valori sunt mai mici decât
7.26 6.36 10.5 11.5 aceasta în josul tabelului? Răspuns: 3 (se notează în tabel valoarea – 3 )
7.03 6.46 12 10
6.93 5.36 13 20 Pentru cea de-a treia valoare a lui ry (4), câte valori sunt mai mici decât
6.83 6.16 14 14.5 aceasta în josul tabelului? Răspuns: -2
6.8 6.26 15 13
6.26 6.36 16 11.5 Pentru cea de-a patra valoare a lui ry (2), câte valori sunt mai mici decât
6.23 5.8 17 17 aceasta în josul tabelului? Răspuns: 0
6.13 5.4 18 19
5.96 6.13 19 16 ….. continuați să completați (d-) pentru restul valorilor. Valorile pentru
5.9 5.53 20 18 (d-) vor fi negative sau 0 (zero), niciodată pozitive. De asemenea, suma
(d-) va fi mereu negativă!

(d+) => se calculează în funcție de ry.


Spre exemplu, prima valoare din tabel al lui ry este 1. Câte valori sunt mai mari decât 1 în josul
tabelului? Răspuns: 19
Pentru cea de-a doua valoare a lui ry (5), câte valori sunt mai mari decât aceasta în josul
tabelului? Răspuns: 15
Pentru cea de-a treia valoare a lui ry (4), câte valori sunt mai mari decât aceasta în josul
tabelului? Răspuns: 15
Pentru cea de-a patra valoare a lui ry (2), câte valori sunt mai mari decât aceasta în josul
tabelului? Răspuns: 0
….. continuați să completați (d+) pentru restul valorilor. Valorile pentru (d+) vor fi
pozitive sau 0 (zero), niciodată negative. De asemenea, suma (d+) va fi mereu pozitivă!

S-ar putea să vă placă și