Sunteți pe pagina 1din 45

COEFICIENȚII DE

CORELAȚIE
Coeficienții de corelație
Coeficientul de corelație este o valoare cantitativă ce
descrie relația dintre două sau mai multe variabile.

El variază între (-1 si +1), unde valorile extreme (-1 și 1)


presupun o relație perfectă între variabile, în timp ce 0
înseamnă o lipsă totală de relatie liniară .

Semnul “+” indică o corelație pozitivă – ceea ce reflectă


faptul că scorurile unei variabile cresc odată cu creșterea
scorurilor celeilalte variabile.
Semnul “-” indică o corelație negativă – adică , în timp ce
scorurile unei variabile cresc, scorurile pentru cealaltă
variabilă descresc.
Coeficientul de corelație

În cazul corelației sunt implicate două variabile


numerice.
Probleme de cercetare tipice...
• „există o asociere între timpul de reacţie şi nivelul
extraversiunii, ca trăsătură de personalitate?”

• „există o legătură între forță și mobilitatea articulară?”

•„există o relație între greutate şi înălţime?”

• „există o corelaţie între frecvenţa pulsului în timpul


alegării şi ritmul de alergare?”

•„există o corelaţie între numărul orelor de antrenament


şi performanța în competiții?”

• „există o legătură între numărul de atitudini pozitive


pe care le manifestă oamenii şi numărul atitudinilor
pozitive pe care le primesc din partea celor din jur?”.
Corelaţia Spearman

(coeficientul de corelaţie pentru


date ordinale Spearman)

Utilizăm această procedură statistică atunci când


dorim să analizăm gradul de asociere dintre variabile
şi investigăm un eşantion relativ redus – cel mult 30
de participanţi.
Exemple:

 Ştiinţa sportului şi educaţiei fizice:


(1) Studiem dacă există o corelaţie semnificativă între
clasamentul sportivilor şi rezultatele acestora în cazul diferitelor
probe (viteză, rezistență, forță, coordonare, apreciere viteze şi
distanţe, concentrare atenţie, memorie topografică, inteligenţă
nonverbală etc);
(2) Verificăm dacă există o legătură semnificativă între notele
elevilor la şcoală şi numărul de ore pe care aceştia le petrec
desfăşurând activităţi motrice de timp liber etc.
Corelaţia Spearman

Pentru a facilita înţelegerea și pentru a fi cât mai


eficienţi vom prezenta procedura statistică menţionată,
în varianta de calcul creion-hârtie → utilă în condiţii
de privare tehnologică;
Corelația Spearman se poate calcula și cu ajutorul
programului de analiză statistică SPSS („Statistical
Package for the Social Sciences” - „pachet de
programe statistice aplicate ştiinţelor sociale”).
Varianta de calcul creion-hârtie

Dorim să investigăm dacă există o legătură semnificativă


între înălţimea sportivilor şi numărul de puncte înscrise (într-o
competiție) în cazul jocului de baschet. Pentru aceasta, în urma a
50 de încercări, spre exemplu, din 5 zone diferite ale terenului, se
va înregistra numărul de reuşite ale sportivilor (rezultatele sunt
numerice, exprimând numărul de puncte acumulate).
Întrucât (în exemplul nostru) există un număr mic de sportivi
(10 jucători de baschet juniori) vom utiliza coeficientul de
corelaţie a rangurilor Spearman.
Rezultatele se prezintă conform
modelului următor:
Tabel 1. Prezentarea datelor atunci când utilizăm Corelația Spearman

RANG RANG (R2) Diferenţa


Pc.
Sportivi Înălțime (R1) Număr de (D) D2
înscrise
Înălţime puncte (R2-R1)
A 6 5,5 8 6,5 1 1
B 10 3 14 3,5 0,5 0,25
C 5 7,5 14 3,5 4 16
D 3 10 6 8 2 4
E 11 2 18 2 0 0
F 15 1 20 1 0 0
G 8 4 10 5 1 1
H 4 9 8 6,5 2,5 6,25
I 5 7,5 4 9,5 2 4
J 6 5,5 4 9,5 4 16
  Suma D2 =
48,5
Sportivilor li s-a atribuit un cod - fixat în mod
convenţional.
Rangul reflectă poziţia fiecărui sportiv în funcţie de
înălţime, respectiv în funcţie de numărul de puncte
înscrise (din 50 de încercări). Performanţa cea mai bună/
scorul cel mai mare  primeşte rangul 1, următorul scor
primeşte rangul 2 etc.
În exemplul nostru, sportivul J a obţinut cel mai mare
punctaj (din 50 de încercări), motiv pentru care a primit
rangul 1.
În situaţia în care există mai multe valori
identice se calculează media aritmetică a rangurilor
deţinute de acele valori și se trece media în dreptul
fiecărei valori, în tabel.

Se continuă apoi numărătoarea cu următorul rang.


În cazul corelaţiei Spearman, formula este
următoarea:

6*D 2

rS  1 
N * ( N  1)
2

Legendă:
 rS = coeficient de corelație (Spearman)
N = numărul de participanţi (10 în cazul nostru)
D2 = suma diferențelor la pătrat
Decizia statistică: dacă rS calculat este mai mare sau egal
cu rS critic atunci ipoteza de nul se respinge (implicit,
dacă rS calculat este mai mic decât rS critic atunci ipoteza de
nul se acceptă).
Dacă rS calculat este 0,707, cum aflăm valoarea lui
rS critic?

Tabelul valorilor critice pentru testul de corelaţie a


rangurilor Spearman ne oferă soluţia (în continuare
Tabel 2).
Tabel 2. Tabelul valorilor critice pentru testul de
corelaţie a rangurilor Spearman
  test unilateral
N alfa = 0.025 alfa = 0.005
test bilateral
alfa = 0.05 alfa = 0.01

5 1,000 -
6 0,886 1,000
7 0,786 0,929
8 0,738 0,881
9 0,700 0,833
10 0,648 0,794
11 0,618 0,755
12 0,587 0,727
13 0,560 0,703
14 0,538 0,679
15 0,521 0,654
16 0,503 0,635
17 0,488 0,618
18 0,472 0,600
19 0,460 0,584
20 0,447 0,570
21 0,436 0,556
22 0,425 0,544
23 0,416 0,532
24 0,407 0,521
25 0,398 0,511
26 0,390 0,501
27 0,383 0,492
28 0,375 0,483
29 0,368 0,475
30 0,362 0,467
Pragul de semnificație (p sau alfa)

Rezultatul p (alfa) al testului, furnizat ca un număr între 0 şi 1,


reprezintă probabilitatea de a face o eroare dacă respingem ipoteza
nulă (H0).
• Dacă p este mai mic decât pragul de semnificaţie p ales (de obicei
p=0,05) respingem ipoteza H0 şi admitem că se confirmă ipoteza de
cercetare H1.

Interpretarea valorilor p se face la majoritatea testelor statistice astfel:


 p < 0.05, legătura statistică este semnificativă (încredere 95%).
 p < 0.01, legătura statistică este semnificativă (încredere 99%).
 p < 0.001, legătura statistică este înalt semnificativă (încredere 99.9%).
 p > 0.05, legătura statistică este nesemnificativă.
În exemplul nostru anterior ...

La intersecţia dintre pragul de semnificaţie alfa = 0,05


(bilateral) şi N = 10 (unde N = numărul de participanţi)
regăsim valoarea 0,648.

Conform deciziei statistice: dacă rS calculat este mai mare sau


egal cu rS critic atunci ipoteza de nul se respinge (și se acceptă
ipoteza cercetării) în exemplul nostru: rs calculat (0, 707) ≥ rs
critic (0,648) atunci ipoteza de nul se respinge.
Indiferent de modalitatea în care doriţi să efectuaţi
corelația Spearman (varianta creion-hârtie sau programul
MS Excel), prezentarea rezultatelor este esenţială.

În acest sens puteţi folosi următorul MODEL DE


RAPORTARE a rezultatelor:

“Întrucât rS calculat este mai mare decât rS critic (0,707


> 0,648) ipoteza de nul se respinge.
Cu alte cuvinte, există o legătură semnificativă între
înălţimea jucătorilor de baschet juniori şi numărul de
Coeficientul de corelaţie Spearman se interpretează în
felul următor (şi în general, corelaţia - Pearson, Kendall etc):

- rs = 0  nicio corelaţie între variabile;


- rs = 1  corelaţie pozitivă perfectă;
- rs = -1  corelaţie negativă perfectă;

- rs = 0 - 0,2  corelaţie foarte slabă (pozitivă sau negativă)


- rs = 0,2 - 0,4  corelaţie slabă
- rs = 0,4 - 0,6  corelaţie moderată
- rs = 0,6 - 0,8  corelaţie puternică
- r = 0,8 - 1  corelaţie foarte puternică
Corelația în programul Excel

Pasul 1 – se introduc datele în 2 coloane (de ex.: A și B)


Pasul 2 – Data analysis (Analiză date) opțiune dreapta sus în meniu
Pasul 3 – selectare Correlation
Pasul 4 – Input Range (se selectează ambele coloane de date A și B)
Pasul 5 – Se bifează Output Range – click în spațiul gol din dreapta,
apoi click în afara ferestrei (într-o celulă unde vrem să se genereze
rezultatul) – click OK.
Coeficientul de corelație
Pearson (r)

Utilizăm această procedură statistică atunci când


dorim să analizăm gradul de asociere dintre variabile şi
investigăm un eşantion relativ crescut de participanți –
peste 30 de participanţi.

Corelația Pearson în programul Excel urmează


aceeași pași ca în modelul anterior
Condiții de aplicare a corelației
Pearson

Condițiile pentru aplicarea corelației Pearson:

- ambele variabile sunt cantitative;


- variabilele sunt distribuite în mod normal;
- relația dintre cele două variabile este liniară.
Normalitatea distribuției

12
Histogram
Indicele de asimetrie
10
Skewness (Clopotul
8 lui Gauss)
6

4
Indicele de boltire
Frequency

2 Std. Dev = 15,27


Mean = 31,4 Kurtosis (boltire
medie, mezocurtică)
0 N = 60,00
0,0 10,0 20,0 30,0 40,0 50,0 60,0
5,0 15,0 25,0 35,0 45,0 55,0

apreciere viteze si distante - probe de teren

Valoare calculată ± 1,96


Normalitatea distribuției
Relația liniară dintre variabile

Reprezentarea grafică a asocierii dintre


variabile - Scatterplot (norul de puncte)

Chart Title

12

10

0
0 5 10 15 20 25 30 35 40 45 50
Norul de puncte, cunoscut și sub denumirea din engleză
de scatterplot, este un grafic cu două axe, fiecare dintre ele
implicâ nd una dintre cele două variabile.
10

9
Media generala din anul precedent (Y)

Sub. X Y 8

1 12 5.91 7

2 19 7.44 6

3 25 8.13 5

4 30 8.65 4
5 34 9.05 3
6 15 8.11
2
7 20 7.55
1
8 28 8.5
0
9 22 7.5 10 15 20 25 30 35 40

10 22 6.59 Capacitate de memorare (X)


Grafic (scatterplot) în programul
Excel
Pasul 1 – se vor selecta coloanele cu date (de exemplu, A și B),
Pasul 2 – din meniul INSERT – alegem din secțiunea CHARTS –
Insert Scatter (X,Y or Bubble Chart)

Chart Title
50
45
40
35
30
25
20
15
10
5
0
0 2 4 6 8 10 12 14 16
Norul de puncte ne oferă o serie de informații
importante, vă zâ nd:

1. Forma relației dintre două variabile (liniară sau


nonliniară )
2. Direcția asocierii (asocierea pozitivă , negativă
sau absentă )
3. Intensitatea legă turii dintre variabile (puternică ,
medie, scă zută ).
Forma relației dintre două variabile
Relația dintre două variabile poate lua trei forme:
liniară , nonliniară sau independentă , prin ultima
întelegâ nd absența relației.
10

Dacă relația este


Media generala din anul precedent

6
liniară , atunci norul de
5
puncte pare a avea o
4
singură direcție, care
3
poate fi evidențiată
2
printr-o linie dreaptă .
1

0
10 15 20 25 30 35 40

Capacitate de memorare
Exemplu – document Excel
relație liniară
Chart Title

12

10

0
0 5 10 15 20 25 30 35 40 45 50
Dacă relația este
neliniară, norul de puncte
are o direcție curbiline,
care poate fi semnalată
printr-o linie curbă .

Absența relației se poate


observa în cadrul norului
de puncte prin lipsa
orică rei direcții, punctele
fiind distribuite parcă la
întâ mplare.
Direcția relației
Se poate vorbi de o relație pozitivă,
dacă norul de puncte evoluează dinspre
stânga jos spre dreapta sus. Înseamnă că
valorile mici ale lui X sunt asociate cu
valorile mici ale lui Y, iar valorile mari ale
lui X corespund unor valori mari ale lui Y.
Valoarea coeficientului de corelație este o
valoare pozitivă.

Relația negativă dintre două variabile


poate fi sesizată grafic, dacă direcția
norului de puncte evoluează dinspre
stânga sus spre dreapta jos, fapt ce
semnifică ideea că rezultatelor mari ale
lui X le corespund rezultatele mici ale
lui Y și viceversa.
Intensitatea relației
În cazul unei relații liniare, gradul de adunare a punctelor într-o
direcție poate varia. Punctele asociate unor coeficienți de corelație mai
reduși (r = 0.52) sunt mai împră știate, pe câ nd punctele asociate unor
coeficienți de corelație puternici (r = 0.74) sunt mai apropiate de o
linie imaginară .
10 10
9 9
Media generala din anul precedent

f(x) = 0.08 x + 5.97 f(x) = 0.08 x + 6.15


8 R² = 0.53 8 R² = 0.75
7 7
6

Media generala
6
5
5
Y
4 Y
Linear (Y) 4
3 Linear (Y)
3
2
2
1
1
0
10 15 20 25 30 35 40 0
10 15 20 25 30 35 40
Capacitate de memorare
Memorare
Raportarea datelor

Investigația preliminară a datelor a dezvăluit că, în cazul rezultatelor


obținute la testele de atenție și memorie, nu au fost detectate valori excesive
(outliers). Următorul pas al cercetării a fost de a investiga dacă există relații
între scorurile pentru eficiența concentrării atenției, și capacitatea de memorie
de lucru.
A fost utilizat testul statistic - Corelația Pearson (r), care măsoară tendința
de variație simultană între două variabile. Condițiile pentru aplicarea
corelației Pearson au fost îndeplinite (Labăr, 2008): ambele variabile sunt
cantitative; variabilele sunt distribuite în mod normal, iar relația dintre cele
două variabile este liniară.
Raportarea datelor
Graficul scatterplot (Figura numărul 1) evidențiează o relație liniară
(nu curbilinie) pozitivă (valori mici ale lui X corespund cu valori mari
ale lui Y; valori mari ale lui X corespund cu valori mici ale lui Y).

12 Chart Title
10

0
0 5 10 15 20 25 30 35 40 45 50
Se constată că distribuția variabilelor nu se abate serios de la
distribuția normală (Figura 2). Calculând indicii ce investighează
forma distribuției Skewness (asimetrie) și Kurtosis (boltire),
atestăm faptul că este asigurată normalitatea distribuției (în
intervalul ±1,96). Histogram
12

10

4
Frequency

2 Std. Dev = 15,27


Mean = 31,4

0 N = 60,00
0,0 10,0 20,0 30,0 40,0 50,0 60,0
5,0 15,0 25,0 35,0 45,0 55,0

apreciere viteze si distante - probe de teren


Corelația – limite de încredere

În cazul corelației Pearson se raportează și limitele de încredere.

 Putem evalua probabilitatea ca intensitatea asocierii, la nivel de


populaţie, să se afle între anumite limite (limite de încredere) –
atunci când, în urma cercetării, pe baza cazurilor particulare
investigate elaborăm concluzii (generale, asupra întregii
populații).
Corelația – limite de încredere

Să spunem că am obţinut o corelaţie puternică (ore de studiu și


performanța academică, în cazul a 30 de elevi de clasa a V-a), însă
valoarea adevărată, la nivelul populaţiei (toți elevii de clasa a V-a), se
poate afla oriunde, pe intervalul de la o valoare negativă, la una
aproape perfectă.

Valoarea 0 nu trebuie să se afle între cele două limite (inferioară


și superioară), ambele valori trebuie să fie pozitive sau ambele
Un exemplu....
 Un studiu întreprins pe 30 de
participanți și o corelație r = 0,300,
p=0,05 (95% încredere).

 Limitele de încredere
pentru acest caz sunt
între -0,07 şi +0,60.

Ceea ce înseamnă un
rezultat nesemnificativ!
(fiindcă între cele două
limite este şi valoarea
zero).
 Cu cât N va fi mai mare, cu atât
valoarea erorii standard a mediei
va fi mai mică, iar limitele
intervalului de încredere pentru r
(care iau în calcul eroarea
standard) vor fi mai apropiate de
valoarea lui r.

 Dacă am creşte volumul


eşantionului la 50 de persoane,
limita inferioară ar trece dincolo
de valoarea zero.

 Celelalte linii din tabel prezintă


efectul produs de mărirea
eşantionului până la 100 de
participanți, asupra limitelor de
încredere.
Limite de încredere
Calcul - surse web - Accesați link-ul :
http://www.vassarstats.net/rho.html

 Se introduc
valorile r = 0,707
și N =30.

 Click pe butonul
Calculate

 Se afișează limitele

 Ne interesează
limitele pt p =0,05
(95% încredere)
adică: 0,466 – 0,850
Tabele de contingență (asociere) – moduri de
prezentare a asocierii datelor non-numerice
 Se folosesc în cazul datelor de tip nominal sau ordinal. Tabelul de asociere
se realizează prin intersecția ră spunsurilor participanților studiului la
întrebă rile adresate. Fiecare intersecție de ră spunsuri se numește celulă.
Grad de multumire
Total pe linii
Grad de Mulțumit Neutru Nemulțumit
motivare
F. motivat 14 11 1 26
Parțial 7 19 19 45
motivat
Nemotivat 2 4 23 29
Total pe 23 34 43 100
coloane

 În interiorul celulei pot fi trecute, fie frecvențele observate, fie


procentajele corespunză toare. La marginea liniilor și a coloanelor se
pot calcula sume în cazul în care se trec frecvențele în tabel, respectiv
mediile marginale, în cazul în care se lucrează cu procente.
Tabele de contingență (asociere)

Aceste tabele stau la baza demersului statistic al datelor


non-numerice. Așadar, în cazul datelor nominale (gen
masculin vs. gen feminin; fumător/ nefumător; răspunsuri DA/ NU
etc) nu există nicio restricție cu privire la utilizarea unor anumiți
indicatori de asociere.

Alte date nominale: numele, grupa sanguină, starea civilă,


naționalitatea, culoarea ochilor, diagnosticul etc (vezi Curs).
Un exemplu....
Exemplul de mai jos include datele unui lot de 100 de participanți
cu privire la motivația lor de învățare (operaționalizată în trei
categorii: foarte motivat, parțial motivat, nemotivat) și gradul de
mulțumire față de condițiile oferite de școala la care învață
(mulțumit, nehotă râ t, nemulțumit).

Tabel 1. Tabel de contingență pe bază de frecvențe


Grad de multumire
Total pe linii
Grad de Mulțumit Neutru Nemulțumit
motivare
F. motivat 14 11 1 26
Parțial 7 19 19 45
motivat
Nemotivat 2 4 23 29
Total pe 23 34 43 100
coloane
Tabel 1. Tabel de contingență pe bază de frecvențe

Grad de multumire
Total pe linii
Grad de Mulțumit Neutru Nemulțumit
motivare
F. motivat 14 11 1 26
Parțial 7 19 19 45
motivat
Nemotivat 2 4 23 29
Total pe 23 34 43 100
coloane

Se observă că cele mai multe valori se regăsesc în diagonala


principală (14, 19, 23) astfel, nu mai puțin de 56 de persoane din 100
au dat răspunsuri care indică o asociere pozitivă între variabile
(scoruri mari privind nivelele motivației se asociază cu scoruri mari
ale gradelor de multumire).
În schimb doar 22 de persoane (2, 19, 1) se regăsesc pe diagonala
secundară, corespunzătoare unei asocieri negative (scor mic cu scor
mare).
Activitate

Pentru o temă de cercetare, la alegere, din domeniul


dvs. de activitate, dacă ați vrea să evidențiați o
legătură/ asociere/ relație între două sau mai multe
fenomene/ procese, spre ce dimensiuni v-ați îndrepta
atenția?

Datele ar fi numerice sau non-numerice?


Întrebări

S-ar putea să vă placă și