Sunteți pe pagina 1din 5

Corelație (parametrică și neparametrică)

A. CORELAȚIA PARAMETRICĂ
COEFICIENTUL DE CORELAȚIE LINIARĂ PEARSON este un indicator al corelației utilizat pentru a măsura
intensitate și sensul dintre două variabile numerice, cu distribuție normală, între care există o legătură liniară.
Coeficientul de corelație liniară Pearson se obține prin standardizarea covarianței, adică prin raportarea acesteia la produsul
abaterilor standard ale celor două variabile:
n

s  (x i  x)( yi  y )
  1, 1
cov(x, y )
rxy   xy  i 1
sx  s y sx  s y
n 2 
n
2
 ( xi  x)   ( yi  y ) 
 i 1   i1 
Semnul coeficientului indică direcția legăturii, iar valoarea lui indică intensitatea legăturii:
Prin transformări elementare se obține o formulă de calcul mai rapid:
n n n
n x y x y
i 1
i i
i 1
i
i 1
i .
rxy 
 n  n   n 2 
2
n  
2

 
n x 2  
i 

 x  i
 n
 
yi  


 y i


 i 1 i 1
 i 1 i 1

Determinarea coeficientului de corelație liniară Pearson se poate realiza folosind EXCEL, funcția CORREL (ARRAY 1,
ARRAY 2).
B. CORELAȚIA NEPARAMETRICĂ
1. COEFICIENTUL DE ASOCIERE YULE
În cazul variabilelor alternative (binare), pe baza datelor sistematizate într-un tabel de asociere de forma:
Clasele lui Y
Clasele lui X TOTAL
Y (y1) nonY (y2)
X (x1) n11 n12 n1. = n11 + n12
nonX (x2) n21 n22 n2. = n21 + n22
TOTAL n.1 = n11 + n21 n.2 = n12 + n22 n.. = n11 + n12+n21+n22
se pot formula următoarele aprecieri:
 asociere puternică între variabile se remarcă în cazul concentrării frecvențelor pe una dintre diagonalele tabelului;
 dacă toate unitățile statistice sunt dispuse doar pe diagonala principală (n11 și n22), vorbim de o asociere perfectă pozitivă;
 dacă unitățile statistice sunt dispuse pe diagonala secundară (n21 și n12), vorbim de o asociere perfectă negativă;
 Dacă variabilele statistice nu sunt asociate (sunt independente), atunci frecvențele de pe aceeași linie și frecvențele de
pe aceeași coloană se află în același raport:
n11 n12
 , adică n11n22  n12 n21  0 .
n21 n22
Pentru măsurarea intensității și a sensului legăturii dintre două variabile binare se utilizează COEFICIENTUL DE ASOCIERE
YULE, notat cu Q, măsoară intensitatea asocierii dintre două variabile alternative și are următoarea formulă de calcul:
n n  n21n12
Q  11 22
n11n22  n21n12
Acest indicator ia valori cuprinse în intervalul  1, 1 ; el ia valoarea 0 când n11 n22 = n21 n12, deci există o independență între
variabile. O valoare apropiată de +1 ne arată o asociere pozitivă; iar o valoare apropiată de –1, o asociere negativă.
2. CORELATIA RANGURILOR
În cazul variabilelor:
- care nu au o distribuție gaussiană
- pentru care nu se poate preciza tipul distribuției, volumul eșantionului fiind redus
- nenumerice, măsurate pe scala ordinală și care nu au un număr mare de valori egale intre ele, putem folosi
coeficientul de corelație a rangurilor Spearman (rs). Acest coeficient face parte din categoria metodelor
neparametrice (libere de distribuție).
Rangurile reprezintă numere de ordine acordate unităților statistice, în funcție de valoarea înregistrată pentru fiecare variabilă
în parte. Aceste ranguri permit ordonarea unităților statistice în funcție de criteriile studiate. Rangurile sunt de la 1 (unitatea
cu performanța cea mai ridicată ori cu valoarea cea mai mare a variabilei), până la n (unitatea cu performanța cea mai scăzută).
Dacă mai multe unități statistice au aceeași variantă/valoare a unei variabile, atunci se acordă media rangurilor succesive.
Pentru determinarea rangurilor se poate utiliza funcția RANK.AVG din Excel.
6 d i2
Coeficientul de corelație a rangurilor Spearman ( rs ) se determină cu formula: rs  1 
 
,
n n2 1
unde d i  rxi  ryi reprezintă diferența dintre rangurile perechi acordate aceleiași unități statistice.

1
Coeficientul ia valori cuprinse în intervalul [-1, 1]; valorile apropiate de ±1 indică o corelație puternică între variabile, iar
valori apropiate de zero indică o corelație slabă între variabile.
Coeficientul de corelație a rangurilor Spearman se bazează pe analiza concordanței rangurilor acordate pentru fiecare din cele n
unități statistice, după variabila X și după variabila Y.
Dacă există o legătură directă perfectă, atunci fiecărui rang i, i  1, n după variabila X îi va corespunde același rang i, după
variabila Y și diferența din rangurile acordate aceleiași unități statistice va fi nulă: d i  rxi  ryi  0
Dacă legătura nu este perfectă, rangurile nu sunt identice și, atunci d i  rxi  ryi  0 .

Aplicații rezolvate
1. Un analist dorește să studieze legătura dintre cheltuielile pentru promovarea produselor și nivelul vânzărilor realizate. În
acest scop el sistematizează date pentru 15 mărfuri alimentare privind cheltuielile lunare cu promovarea produsului (mii lei)
și încasările lunare realizate (mii lei).
Cheltuieli promovare (mii lei) 20,0 14,8 20,5 12,5 18,0 14,3 24,9 16,5 24,3 20,2 22,0 19,0 12,3 14,0 16,7
Încasări lunare (mii lei) 2190 1900 1990 1210 1500 1980 3340 1880 3100 2130 2880 3120 1860 1730 174
a) Reprezentați grafic datele și analizați existența, sensul și forma legăturii dintre cele două variabile;
b) Utilizați un indicator adecvat pentru măsurarea intensității legăturii.
Rezolvare:
a) Pentru a analiza existența, sensul și forma legăturii vom construi corelograma:

Se observă că între cele două variabile există legătură liniară directă.

b) Pe baza datelor din exemplul anterior și a prelucrărilor din tabel putem determina coeficientul de corelație:
Cheltuieli promovare (mii lei) Încasări lunare (mii lei)
Nr. crt. 𝑥2 𝑦2 𝑥∙𝑦
(𝑥𝑖 ) (𝑦𝑖 )
1 20 2190 400 4796100 43800
2 14.8 1900 219.04 3610000 28120
3 20.5 1990 420.25 3960100 40795
4 12.5 1210 156.25 1464100 15125
5 18 1500 324 2250000 27000
6 14.3 1980 204.49 3920400 28314
7 24.9 3340 620.01 11155600 83166
8 16.5 1880 272.25 3534400 31020
9 24.3 3100 590.49 9610000 75330
10 20.2 2130 408.04 4536900 43026
11 22 2880 484 8294400 63360
12 19 3120 361 9734400 59280
13 12.3 1860 151.29 3459600 22878
14 14 1730 196 2992900 24220
15 16.7 1740 278.89 3027600 29058
270 32550 5086 76346500 614492
n n n
n x y x y
i 1
i i
i 1
i
i 1
i
rxy 
 n  n 
2 
n  n 
2

 
n x 2  
i 

 xi 


 n
 yi2  


 yi 




 i 1 i 1
  i 1 i 1

15 ∙ 614492 − 270 ∙ 32550


𝑟𝑥𝑦 = = 0.9757
√[15 ∙ 5086 − 2702 ] ∙ [15 ∙ 7346500 − 325502 ]
ceea ce ne arată o legătură directă și de intensitate puternică între cele două variabile.
2
2. Un analist de marketing urmărește în 5 luni efectul reclamelor asupra veniturilor din vânzări. El înregistrează cheltuielile
cu reclama (X) (milioane RON) și veniturile din vânzări (Y) (sute milioane RON). În urma prelucrării datelor obține:

 
xi  15; yi  10; xi2  55; xi yi  37;  i
 
yi2  30 i  1,5 .  
i i i i
În ipoteza unei dependențe liniare, coeficientul de corelație este: a) 0.70; b) 0.56; c) 0.68; d) 0.82; e) 0.77.

Rezolvare:
n n n
n 
i 1
xi y i   y
i 1
xi
i 1
i
rxy 
 n  n 
2 
n  n 
2

 
n x 2  
i 

 xi 


 n
 
yi2  


 yi 




 i 1 i 1
  i 1 i 1

5 ∙ 37 − 15 ∙ 17
𝑟𝑥𝑦 = = 0.7
√[5 ∙ 55 − 152 ] ∙ [5 ∙ 30 − 102 ]

În ipoteza unei dependențe liniare, coeficientul de corelație este: a) 0.70.

3. Utilizând coeficientul de corelație analizați sensul și intensitatea legăturii dintre două variabile știind că deviația standard
a lui 𝑋 este 0,05, deviația standard a lui 𝑌 este 0,08, iar covarianța între 𝑋 și 𝑌 este −0,003.

Răspuns:
𝑐𝑜𝑣(𝑥, 𝑦) 𝑠𝑥,𝑦 −0,003
𝑟𝑥𝑦 = = = = −0.75
𝑠𝑥 ∙ 𝑠𝑦 𝑠𝑥 ∙ 𝑠𝑦 0,05 ∙ 0,08
Coeficientul de corelație este −0,75, ceea ce ne arată o legătură inversă și de intensitate puternică între cele două variabile.

4. În urma unei cercetări statistice privind intenția de vot, realizată pe un eșantion aleator de 1495 cetățeni cu drept de vot din
statul Virginia, s-a obținut următoarea distribuție a alegătorilor în funcție de gen și opinia Pro sau Contra față de
candidata Hillary Clinton:
Opinia Total
Genul
Pro Contra
feminin 475 180 655
masculin 310 530 840
Total 785 710 1495
Pentru a analiza legătura existentă între genul persoanei și intenția de vot utilizăm:
coeficientul de asociere Yule, calculat cu relația:
n11n22  n21n12 475  530  310  180
Q   0.637
n11n22  n21n12 475  530  310  180

5. Pentru un eșantion de 7 studenți au fost înregistrate date referitoare la calificativul obținut la testul de absolvire al unui
curs intensiv de programare a calculatoarelor și nota obținută la examenul de Informatică:
Nr. crt. Calificativ Nota
1. Foarte Bine (90-100 puncte) 8
2. Bine (70-90 puncte) 7
3. Bine (70-90 puncte) 8
4. Foarte Bine (90-100 puncte) 10
5. Bine (70-90 puncte) 9
6. Suficient (50-70 puncte) 5
7. Insuficient (sub 50 puncte) 7
Determinați sensul și intensitatea legăturii dintre variabilele calificativ și notă folosind indicatori adecvați.

Rezolvare:
Variabila “calificativ” este o variabilă calitativă, măsurată pe scala ordinală și considerată a fi variabilă cauză, notată X.
Variabila “nota” este o variabilă cantitativă, măsurată pe scala de raport și considerată a fi variabilă efect Y.
Asocierea dintre o variabilă numerică și una nenumerică, dar măsurată pe scala ordinală, se poate analiza folosind coeficientul
de corelație Sperman.
Ierarhizăm unitățile statistice (cei șapte studenți) acordând ranguri valorilor celor două variabile ( rxi și ry i ) și calculăm
pătratul diferențelor rangurilor ( d i2 ) conform tabelului de mai jos:

3
Calificativ  X  Nota Y  rxi ryi d i2
Foarte Bine (90-100 puncte) 8 1,5 3,5 4
Bine (70-90 puncte) 7 4 5,5 2,25
Bine (70-90 puncte) 8 4 3,5 0,25
Foarte Bine (90-100 puncte) 10 1,5 1 0,25
Bine (70-90 puncte) 9 4 2 4
Suficient (50-70 puncte) 5 6 7 1
Insuficient (sub 50 puncte) 7 7 5,5 2,25
Total - - - d
i
i
2
 14

Coeficientul de corelație a rangurilor Spearman este:


6 d i2 6  14
rs  1  1  0,75 .
nn  12
7  48
Valoarea coeficientului arată o asociere, o legătură puternică și directă între calificativul obținut și nota la examen.

Aplicații propuse

1. Dacă coeficientul de corelație liniară Pearson are valoarea −0.93, atunci legatura dintre cele două variabile este:
a) directă, liniară și puternică;
b) liniară și slabă;
c) liniară, inversă și puternică;
d) neliniară și de intensitate medie;
e) neliniară și slabă.

2. Alegeți variantele corecte dintre cele de mai jos referitoare la coeficientul de corelație liniară Pearson:
a) o valoare pozitivă arată legătură liniară inversa între două variabile;
b) o valoare pozitivă și apropiată de 1 arată legătură directă și puternică între două variabile;
c) o valoarea de 0,85 indică o legătură mai puternică decât o valoare de −0.85;
d) o valoare egală cu 1 arată legătură slabă și inversă între cele două variabile.

3. Coeficientul de corelație Spearman se utilizează pentru analiza legăturii dintre:


a) două variabile alternative;
b) două variabile măsurate pe scala nominală;
c) o variabilă numerică și o variabilă nenumerică măsurată pe scala ordinală;
d) două variabile numerice, indiferent de forma legăturii sau tipul distribuției;
e) niciun răspuns corect.

4. Alegeți variantele corecte dintre cele de mai jos referitoare la coeficientul de corelație Sperman:
a) o valoare pozitivă arată legătură inversa între două variabile numerice;
b) o valoare pozitivă și apropiată de 1 arată legătură directă și puternică între două variabile numerice;
c) o valoarea de 0.85 indică o legătură mai puternică decât o valoare de −0,85;
d) o valoare egală cu 1 arată legătură slabă și inversă între cele două variabile;
e) niciun răspuns corect.

5. Legătura dintre două variabile numerice se analizează grafic cu ajutorul:


a) diagramei de structură;
b) corelogramei;
c) cronogramei;
d) histogramei;
e) poligonului frecvențelor.

6. Pentru mai multe familii din mediul rural s-au cules și prelucrat date privind consumul de gaze naturale și consumul de
energie electrică. În urma prelucrării datelor, s-a obținut r = 0,883. Atunci, concluzia este:
a) utilizatorii tind să substituie o formă de energie cu alta;
b) legătura dintre cele două variabile nu este de tip liniar;
c) nu există legătură statistică între cele două variabile;
d) familiile care au consumuri mici de energie electrică, au și consumuri mici de gaze naturale;
e) dacă am construi diagrama de împrăștiere, am constata o împrăștiere a punctelor pe întregul grafic;
f) niciun răspuns corect.

7. Un analist de marketing urmărește timp de 5 luni consecutive efectul reclamelor asupra veniturilor din vânzări pentru o
firmă de produse cosmetice. El înregistrează cheltuielile cu reclama (X) (zeci mii euro) și veniturile din vânzări (Y)
(sute mii euro). În urma prelucrării datelor obține: suma totală cheltuită cu reclama în cele 5 luni este 15; veniturile
4
totale din vânzări obținute în perioada analizată sunt egale cu 10; suma pătratelor cheltuielilor cu reclama este 55; suma
pătratelor veniturilor este egală cu 30; suma produselor dintre cheltuielile cu reclama și veniturile din vânzări pentru
cele 5 luni este egală cu 37.
În ipoteza unei dependențe liniare, coeficientul de corelație liniară Pearson este:
0,70; b) 0,56; c) 0,68; d) 0,82; e) 0,77; f) niciun răspuns corect.

8. Despre recolta medie la hectar la o anumită cultură și suprafața cultivată, pentru 30 de județe se cunosc datele:
Suprafața cultivată (ha) Recolta medie la hectar (q/ha)
Sub 13 13 și peste 13
Sub 20.000 10 5
20.000 și peste 20.000 3 12
Coeficientul de asociere are valoarea : a) -0.70; b) 0.78; c) 0.59; d) -0.62; e) 0.82.

9. O firmă de asigurări dorește să cunoască măsura în care mărimea unei familii influențează cheltuielile lunare pentru
servicii medicale ale acesteia. Pentru un eșantion format din 5 dintre clienții firmei au fost înregistrate date referitoare
la mărimea familiei (număr de membri) și cheltuielile lunare (Euro) în scop medical ale unei familii. Datele înregistrate
sunt:
Mărimea familiei clientului (nr. membri) 5 1 4 5 2
Cheltuieli medii lunare in scop medical (euro) 51 22 29 49 25
Reprezentați grafic datele și analizați existența, sensul și forma legăturii dintre cele două variabile; utilizați un indicator
adecvat pentru măsurarea intensității legăturii.

10. Directorul Departamentului de Marketing al unei companii producătoare de obiecte electrocasnice dorește să stabilească
o legătură între volumul vânzărilor companiei și prețul unui bun asemănător, produs de un competitor de pe piață. În
acest scop selectează 5 produse pentru care înregistrează următoarele date:
Prețul la competitor (unități monetare) 10 15 16 21 14
Volumul vânzărilor (număr bucăți) 52 61 62 68 48
Reprezentați grafic datele și analizați existența, sensul și forma legăturii dintre cele două variabile; utilizați un indicator
adecvat pentru măsurarea intensității legăturii.

11. Un fermier este interesat să cunoască legătura între temperaturile, în grade Celsius, din luna martie și producția unei
livezi cu cireși, în sute kilograme. Pentru aceasta, consideră temperaturile medii ale lunii martie din ultimii 5 ani și
producția obținută:
Temperatura (C) 12 11 10 14 8
Producția (sute kg) 15 10 6 19 5
Reprezentați grafic datele și analizați existența, sensul și forma legăturii dintre cele două variabile; utilizați un indicator
adecvat pentru măsurarea intensității legăturii.

12. Pentru un magazin de mobilă se cunosc numărul de spoturi publicitare difuzate și numărul de vizitatori (mii pers.)
Nr. spoturi publicitare 7 5 1 8 10 2 6 7
Nr. vizitatori (mii pers.) 42 32 10 40 61 8 35 34
a) să se reprezinte grafic datele;
b) să se măsoare intensitatea legăturii dintre variabile folosind o metodă de corelație neparametrică;

13. Pentru un magazin se cunosc vânzările de cămăși bărbătești si profitul obținut pentru 8 zile consecutive:
Profit (unități monetare) 30 42 10 62 12 30 21 58
Număr de cămăși vândute ( zeci bucăți) 3 4 1 6 1 2 2 5
a) Sa se reprezinte grafic datele;
b) Sa se caracterizeze intensitatea legăturii folosind un indicator adecvat.

14. Pentru 10 magazine s-au înregistrat suprafața comercială și valoarea vânzărilor:


Supr. com. (mp) 825 740 1000 625 995 842 813 765 780 990
Val. vânz. (mil. RON) 23 25 33 15 37 29 18 16 20 30
Pentru analiza dependenței dintre variabile s-a calculat coeficientul de corelație a rangurilor Spearman, a cărui valoare
este: a) 0,85; b) 0,74; c) 0,78; d) 0,82; e) 0,91.

15. Pentru 8 agenții de turism s-au înregistrat date referitoare la numărul de pachete turistice în zone exotice vândute si
profitul (mii Euro), din luna august a anului 2014:
Numărul pachete turistice vândute 15 14 18 12 13 14 16 20
Profit (mii Euro) 3 2,5 4,5 2 2 3,5 4 5
a) Analizați grafic existența, sensul și forma legăturii dintre cele două variabile;
b) Măsurați intensitatea legăturii dintre variabile folosind o metodă de corelație neparametrică.

S-ar putea să vă placă și