Sunteți pe pagina 1din 40

COEFICIENȚII DE

CORELAȚIE

Predoiu R.
Coeficienții de corelație
Coeficientul de corelație este o valoare cantitativă ce
descrie relația dintre două sau mai multe variabile.

El variază între (-1 si +1), unde valorile extreme (-1 și 1)


presupun o relație perfectă între variabile, în timp ce 0
înseamnă o lipsă totală de relatie liniară.

Semnul “+” indică o corelație pozitivă – ceea ce reflectă


faptul că scorurile unei variabile cresc odată cu creșterea
scorurilor celeilalte variabile.
Semnul “-” indică o corelație negativă – adică, în timp ce
scorurile unei variabile cresc, scorurile pentru cealaltă
variabilă descresc.
Coeficientul de corelație

În cazul corelației sunt implicate două variabile


numerice.
Probleme de cercetare tipice...
• „există o asociere între timpul de reacţie şi nivelul
extraversiunii, ca trăsătură de personalitate?”

• „există o legătură între forță și mobilitatea articulară?”

•„există o relație între greutate şi înălţime?”

• „există o corelaţie între frecvenţa pulsului în timpul


alegării şi ritmul de alergare?”

•„există o corelaţie între numărul orelor de antrenament


şi performanța în competiții?”

• „există o legătură între numărul de atitudini pozitive


pe care le manifestă oamenii şi numărul atitudinilor
pozitive pe care le primesc din partea celor din jur?”.
Corelaţia Spearman

(coeficientul de corelaţie pentru


date ordinale Spearman)

Utilizăm această procedură statistică atunci când


dorim să analizăm gradul de asociere dintre variabile
şi investigăm un eşantion relativ redus – cel mult 30 de
participanţi.
Exemple:

Ştiinţa sportului şi educaţiei fizice:


(1) Studiem dacă există o corelaţie semnificativă între
clasamentul sportivilor şi rezultatele acestora în cazul diferitelor
probe (viteză, rezistență, forță, coordonare, apreciere viteze şi
distanţe, concentrare atenţie, memorie topografică, inteligenţă
nonverbală etc);
(2) Verificăm dacă există o legătură semnificativă între notele
elevilor la şcoală şi numărul de ore pe care aceştia le petrec
desfăşurând activităţi motrice de timp liber etc.
Corelaţia Spearman

Pentru a facilita înţelegerea vom prezenta


procedura statistică menţionată, inițial, în varianta de
calcul creion-hârtie (utilă în condiţii de privare
tehnologică), iar apoi utilizând internetul;
Corelația Spearman se poate calcula, de exemplu, și
cu ajutorul programului de analiză statistică SPSS
(„Statistical Package for the Social Sciences” - „pachet
de programe statistice aplicate ştiinţelor sociale”).
Varianta de calcul creion-hârtie

Dorim să investigăm dacă există o legătură semnificativă


între înălţimea sportivilor şi numărul de puncte înscrise (într-o
competiție) în cazul jocului de baschet. Pentru aceasta, în urma a
50 de încercări, spre exemplu, din 5 zone diferite ale terenului, se
va înregistra numărul de reuşite ale sportivilor (rezultatele sunt
numerice, exprimând numărul de puncte acumulate).
Întrucât (în exemplul nostru) există un număr mic de
sportivi (10 jucători de baschet juniori) vom utiliza coeficientul de
corelaţie a rangurilor Spearman.
Rezultatele se prezintă conform
modelului următor:
Tabel 1. Prezentarea datelor atunci când utilizăm Corelația Spearman

RANG RANG (R2) Diferenţa


Pc.
Sportivi Înălțime (R1) Număr de (D) D2
înscrise
Înălţime puncte (R2-R1)
A 6 5,5 8 6,5 1 1
B 10 3 14 3,5 0,5 0,25
C 5 7,5 14 3,5 4 16
D 3 10 6 8 2 4
E 11 2 18 2 0 0
F 15 1 20 1 0 0
G 8 4 10 5 1 1
H 4 9 8 6,5 2,5 6,25
I 5 7,5 4 9,5 2 4
J 6 5,5 4 9,5 4 16
Suma D2 =
48,5
Sportivilor li s-a atribuit un cod - fixat în mod
convenţional.
Rangul reflectă poziţia fiecărui sportiv în funcţie de
înălţime, respectiv în funcţie de numărul de puncte
înscrise (din 50 de încercări). Performanţa cea mai bună/
scorul cel mai mare  primeşte rangul 1, următorul scor
primeşte rangul 2 etc.
În exemplul nostru, sportivul J a obţinut cel mai mare
punctaj (din 50 de încercări), motiv pentru care a primit
rangul 1.
În situaţia în care există mai multe valori
identice se calculează media aritmetică a rangurilor
deţinute de acele valori și se trece media în dreptul
fiecărei valori, în tabel.

Se continuă apoi numărătoarea cu următorul rang.


În cazul corelaţiei Spearman, formula este următoarea:

6*D 2

rS  1 
N * ( N  1)
2

Legendă:
rS = coeficient de corelație (Spearman)
N = numărul de participanţi (10 în cazul nostru)
D2 = suma diferențelor la pătrat
Decizia statistică: dacă rS calculat este mai mare sau egal
cu rS critic atunci ipoteza de nul se respinge (implicit,
dacă rS calculat este mai mic decât rS critic atunci ipoteza de
nul se acceptă).

Dacă rS calculat este 0,707, cum aflăm valoarea lui


rS critic?

Tabelul valorilor critice pentru testul de corelaţie a


rangurilor Spearman ne oferă soluţia (în continuare
Tabel 2).
Tabel 2. Tabelul valorilor critice pentru testul de
corelaţie a rangurilor Spearman
test unilateral
N alfa = 0.025 alfa = 0.005
test bilateral
alfa = 0.05 alfa = 0.01
5 1,000 -
6 0,886 1,000
7 0,786 0,929
8 0,738 0,881
9 0,700 0,833
10 0,648 0,794
11 0,618 0,755
12 0,587 0,727
13 0,560 0,703
14 0,538 0,679
15 0,521 0,654
16 0,503 0,635
17 0,488 0,618
18 0,472 0,600
19 0,460 0,584
20 0,447 0,570
21 0,436 0,556
22 0,425 0,544
23 0,416 0,532
24 0,407 0,521
25 0,398 0,511
26 0,390 0,501
27 0,383 0,492
28 0,375 0,483
29 0,368 0,475
30 0,362 0,467
Pragul de semnificație (p sau alfa)

Rezultatul p (alfa) al testului, furnizat ca un număr între 0 şi 1,


reprezintă probabilitatea de a face o eroare dacă respingem ipoteza
nulă (H0).
• Dacă p este mai mic decât pragul de semnificaţie p ales (de obicei
p=0,05) respingem ipoteza H0 şi admitem că se confirmă ipoteza de
cercetare H1.

Interpretarea valorilor p se face la majoritatea testelor statistice astfel:


p < 0.05, legătura statistică este semnificativă (încredere 95%).
p < 0.01, legătura statistică este semnificativă (încredere 99%).
p < 0.001, legătura statistică este înalt semnificativă (încredere 99.9%).
p > 0.05, legătura statistică este nesemnificativă.
În exemplul nostru anterior ...

La intersecţia dintre pragul de semnificaţie alfa = 0,05


(bilateral) şi N = 10 (unde N = numărul de participanţi)
regăsim valoarea 0,648.

Conform deciziei statistice: dacă rS calculat este mai mare sau


egal cu rS critic atunci ipoteza de nul se respinge (și se acceptă
ipoteza cercetării) în exemplul nostru: rs calculat (0, 707) ≥ rs
critic (0,648) atunci ipoteza de nul se respinge.
Corelația Spearman – surse web

Accesați:
https://www.socscistatistics.com/tests/spearman/de
fault2.aspx
- completați valorile în cazul celor două variabile
ale dvs., apoi Calculate R;
- Veți observa valoarea lui Rs și a lui p, de
exemplu: rs = -0.43259, p (2-tailed) = 0.466.
Decizia statistică: întrucât p > 0.05, atunci ipoteza de nul se
acceptă (și se respinge ipoteza cercetării), cu alte cuvinte, nu
există o legătură semnificativă între cele două variabile introduse
în studiu.
Indiferent de modalitatea în care doriţi să efectuaţi
corelația Spearman (varianta creion-hârtie sau programul
SPSS, pe internet sau in MS Excel), prezentarea rezultatelor
este esenţială.
În acest sens puteţi folosi următorul MODEL DE
RAPORTARE a rezultatelor:
“Întrucât rS calculat este mai mare decât rS critic (0,707 >
0,648) ipoteza de nul se respinge (pentru varianta creion-hârtie)/
Întrucât valoarea pragului de semnificație alfa este mai mare decât
0.05 (p = 0.466), ipoteza de nul se acceptă.
Cu alte cuvinte, există (sau nu există - depinde de situație) o
legătură semnificativă între înălţimea jucătorilor de baschet juniori
şi numărul de puncte marcate”.
Coeficientul de corelaţie Spearman se interpretează în
felul următor (şi în general, corelaţia - Pearson, Kendall etc):

- rs = 0  nicio corelaţie între variabile;


- rs = 1  corelaţie pozitivă perfectă;
- rs = -1  corelaţie negativă perfectă;

- rs = 0 - 0,2  corelaţie foarte slabă (pozitivă sau negativă)


- rs = 0,2 - 0,4  corelaţie slabă
- rs = 0,4 - 0,6  corelaţie moderată
- rs = 0,6 - 0,8  corelaţie puternică
- rs = 0,8 - 1  corelaţie foarte puternică
Corelația Pearson în
programul Excel
Pasul 1 – se introduc datele în 2 coloane (de ex.: A și B)
Pasul 2 – Data analysis (Analiză date) opțiune dreapta sus în meniu
Pasul 3 – selectare Correlation (este corelația Pearson)
Pasul 4 – Input Range (se selectează ambele coloane de date A și B)
Pasul 5 – Se bifează Output Range – click în spațiul gol din dreapta,
apoi click în afara ferestrei (într-o celulă unde vrem să se genereze
rezultatul) – click OK.
Coeficientul de corelație
Pearson (r)
Utilizăm această procedură statistică atunci când
dorim să analizăm gradul de asociere dintre variabile şi
investigăm un eşantion relativ crescut de participanți –
peste 30 de participanţi.

Corelația Pearson în programul Excel urmează


pașii descriși anterior
Condiții de aplicare a corelației
Pearson

Condițiile pentru aplicarea corelației Pearson:

- ambele variabile sunt cantitative;


- variabilele sunt distribuite în mod normal;
- relația dintre cele două variabile este liniară.
Normalitatea distribuției

12
Histogram Indicele de asimetrie
10
Skewness (Clopotul
8 lui Gauss)
6

4 Indicele de boltire
Frequency

2 Std. Dev = 15,27


Mean = 31,4
Kurtosis (boltire
medie, mezocurtică)
0 N = 60,00
0,0 10,0 20,0 30,0 40,0 50,0 60,0
5,0 15,0 25,0 35,0 45,0 55,0

apreciere viteze si distante - probe de teren

Valoare calculată ± 1,96


Normalitatea distribuției
Relația liniară dintre variabile

Reprezentarea grafică a asocierii dintre


variabile - Scatterplot (norul de puncte)

Chart Title
12

10

0
0 10 20 30 40 50 60 70 80
Norul de puncte, cunoscut și sub denumirea din engleză
de scatterplot, este un grafic cu două axe, fiecare dintre ele
implicând una dintre cele două variabile.
10

9
Media generala din anul precedent (Y)

Sub. X Y 8

1 12 5.91 7

2 19 7.44 6
3 25 8.13 5
4 30 8.65
4
5 34 9.05
3
6 15 8.11
2
7 20 7.55
1
8 28 8.5
0
9 22 7.5
0 5 10 15 20 25 30 35 40
10 22 6.59 Capacitate de memorare (X)
Grafic (scatterplot) în programul
Excel
Pasul 1 – se vor selecta coloanele cu date (de exemplu, A și B),
Pasul 2 – din meniul INSERT – alegem din secțiunea CHARTS –
Insert Scatter (X,Y or Bubble Chart)
Chart Title
50
45
40
35
30
25
20
15
10
5
0
0 2 4 6 8 10 12 14 16
Norul de puncte ne oferă o serie de informații
importante, văzând:

1. Forma relației dintre două variabile (liniară sau


nonliniară)
2. Direcția asocierii (asocierea pozitivă, negativă
sau absentă)
3. Intensitatea legăturii dintre variabile (puternică,
medie, scăzută).
Forma relației dintre două variabile
Relația dintre două variabile poate lua trei forme:
liniară, nonliniară sau independentă, prin ultima
întelegând absența relației.
10

Dacă relația este


Media generala din anul precedent

6
liniară, atunci norul de
puncte pare a avea o
5
singură direcție, care
4
poate fi evidențiată
3
printr-o linie dreaptă.
2

0
0 5 10 15 20 25 30 35 40
Capacitate de memorare
Dacă relația este
neliniară, norul de puncte
are o direcție curbiline,
care poate fi semnalată
printr-o linie curbă.

Absența relației se poate


observa în cadrul norului
de puncte prin lipsa
oricărei direcții, punctele
fiind distribuite parcă la
întâmplare.
Direcția relației
Se poate vorbi de o relație pozitivă,
dacă norul de puncte evoluează dinspre
stânga jos spre dreapta sus. Înseamnă că
valorile mici ale lui X sunt asociate cu
valorile mici ale lui Y, iar valorile mari ale
lui X corespund unor valori mari ale lui Y.
Valoarea coeficientului de corelație este o
valoare pozitivă.

Relația negativă dintre două variabile


poate fi sesizată grafic, dacă direcția
norului de puncte evoluează dinspre
stânga sus spre dreapta jos, fapt ce
semnifică ideea că rezultatelor mari ale
lui X le corespund rezultatele mici ale
lui Y și viceversa.
Intensitatea relației
În cazul unei relații liniare, gradul de adunare a punctelor într-o
direcție poate varia. Punctele asociate unor coeficienți de corelație mai
reduși (r = 0.52) sunt mai împrăștiate, pe când punctele asociate unor
coeficienți de corelație puternici (r = 0.74) sunt mai apropiate de o
linie imaginară.
10 y = 0.083x + 5.968 10 y = 0.0807x + 6.1539
R² = 0.5291 R² = 0.7474
9 9
Media generala din anul precedent

8 8
7 7

Media generala
6
6
5
Y 5
4 Y
Linear (Y) 4 Linear (Y)
3
3
2
2
1
1
0
0 10 20 30 40 0
Capacitate de memorare 0 10 20 30 40
Memorare
Raportarea datelor
Investigația preliminară a datelor a dezvăluit că, în cazul rezultatelor
obținute la testele de atenție și memorie, nu au fost detectate valori excesive
(outliers). Următorul pas al cercetării a fost de a investiga dacă există relații
între scorurile pentru eficiența concentrării atenției, și capacitatea de memorie
de lucru.
A fost utilizat testul statistic - Corelația Pearson (r), care măsoară tendința
de variație simultană între două variabile. Condițiile pentru aplicarea
corelației Pearson au fost îndeplinite (Labăr, 2008): ambele variabile sunt
cantitative; variabilele sunt distribuite în mod normal, iar relația dintre cele
două variabile este liniară.
Raportarea datelor
Graficul scatterplot (Figura numărul 1) evidențiează o relație liniară
(nu curbilinie) pozitivă (valori mici ale lui X corespund cu valori mari
ale lui Y; valori mari ale lui X corespund cu valori mici ale lui Y).

12 Chart Title
10

0
0 10 20 30 40 50 60 70 80
Se constată că distribuția variabilelor nu se
abate serios de la distribuția normală.
Calculând indicii ce investighează forma
distribuției Skewness (asimetrie) și Kurtosis
(boltire), atestăm faptul că este asigurată
normalitatea distribuției (în intervalul ±1,96).
Corelația – limite de încredere

În cazul corelației Pearson se raportează și limitele de încredere.

 Putem evalua probabilitatea ca intensitatea asocierii, la nivel de


populaţie, să se afle între anumite limite (limite de încredere) –
atunci când, în urma cercetării, pe baza cazurilor particulare
investigate elaborăm concluzii (generale, asupra întregii
populații).
Corelația – limite de încredere

Să spunem că am obţinut o corelaţie puternică (ore de studiu și


performanța academică, în cazul a 30 de elevi de clasa a V-a), însă
valoarea adevărată, la nivelul populaţiei (toți elevii de clasa a V-a), se
poate afla oriunde, pe intervalul de la o valoare negativă, la una
aproape perfectă.

Valoarea 0 nu trebuie să se afle între cele două limite (inferioară și


superioară), ambele valori trebuie să fie pozitive sau ambele negative.
Un exemplu....
 Un studiu întreprins pe 30 de
participanți și o corelație r = 0,300,
p=0,05 (95% încredere).

 Limitele de încredere
pentru acest caz sunt
între -0,07 şi +0,60.

Ceea ce înseamnă un
rezultat nesemnificativ!
(fiindcă între cele două
limite este şi valoarea
zero).
 Cu cât N va fi mai mare, cu atât
valoarea erorii standard va fi
mai mică, iar limitele
intervalului de încredere pentru r
(care iau în calcul eroarea
standard) vor fi mai apropiate de
valoarea lui r.

 Dacă am creşte volumul


eşantionului la 50 de persoane,
limita inferioară ar trece dincolo
de valoarea zero.

 Celelalte linii din tabel prezintă


efectul produs de mărirea
eşantionului până la 100 de
participanți, asupra limitelor de
încredere.
Limite de încredere
Calcul - surse web - Accesați link-ul :
http://www.vassarstats.net/rho.html

 Se introduc
valorile r = 0.707 și
N = 30.

 Click pe butonul
Calculate

 Se afișează limitele

 Ne interesează
limitele pt p = 0,05
(95% încredere)
adică: 0,466 - 0,850
Întrebări

S-ar putea să vă placă și